You need to enable JavaScript to run this app.
导航

EMR-3.0.0版本说明

最近更新时间2023.01.19 11:40:44

首次发布时间2022.10.12 20:49:13

环境信息

系统环境

版本环境
OSveLinux(Debian 10兼容版)
Python22.7.16
Python33.7.3
JavaByteOpenJDK 1.8.0_302

应用程序版本

Hadoop集群Flink集群Kafka集群Presto集群Trino集群HBase集群OpenSearch集群TensorFlow集群Doris集群Pulsar集群ClickHouse集群
Flume1.9.01.9.01.9.0--------
OpenLDAP2.4.582.4.582.4.582.4.582.4.582.4.582.4.582.4.58---
Ranger2.1.02.1.02.1.02.1.02.1.02.1.0-2.1.0---
ZooKeeper3.7.03.7.03.7.0--3.7.0-3.7.0-3.7.03.7.0
Flink1.15.11.15.1---------
HDFS3.3.13.3.1-3.3.13.3.13.3.1-3.3.1---
MapReduce23.3.13.3.1-----3.3.1---
YARN3.3.13.3.1-----3.3.1---
Airflow2.2.0--2.2.02.2.0------
Hive3.1.2--3.1.23.1.2------
Hue4.9.0--4.9.04.9.0------
Kafka--2.3--------
Knox1.5.01.5.01.5.01.5.01.5.01.5.01.5.01.5.0---
Presto0.267--0.267-------
Presto on YARN0.267----------
Trino392---392------
Trino on YARN392----------
Spark3.2.1------3.2.1---
Sqoop1.4.7----------
Tez0.10.1----------
Iceberg0.14.0--0.14.00.14.0------
Hudi0.11.1----------
HBase-----2.3.7-----
OpenSearch------1.2.3----
TensorFlow-------2.7.0---
TensorFlow on YARN-------1.0.0---
Doris--------1.1.1--
Pulsar---------2.9.1-
BookKeeper---------4.14.2-
Delta Lake2.0.0----------
Impala3.4.1----------
Kudu1.14.0----------
ClickHouse----------22.3.10.22
发布说明

以下发布说明包括有关 EMR V3.0.0 的信息, 更改与 1.3.1 有关。EMR V3.0.0 为火山引擎EMR V3.x 的第一个版本,目前 EMR V3.0.0 已处于下线状态,我们推荐您创建 EMR V3.0.1的集群版本,详见 EMR-V3.0.1版本说明
发布日期: 2022 年 10 月 11 日

新增功能

  • 【通用】集群内hostname解析接入PrivateZone,不再依赖/etc/hosts:

    • 集群内通信可以使用长短hostname:emr-master-1和emr-2tfyq6eeoq5g1j17w0zo-master-1

    • 集群所在VPC内与集群内ECS通信可以使用完整的域名(见节点管理-节点组列表的DNS列)如:emr-2tfyq6eeoq5g1j17w0zo-master-1.cn-beijing.emr-13fy9kueufzsw3n6nu56wmf71.internal

  • 【集群】新增 ClickHouse 集群类型(以用户白名单的形式开放),扩充了 E-MapReduce 对 OLAP 查询分析场景的支持。当前版本支持多分片、多副本的 ClickHouse 集群的创建和核心的管控功能。使用的ClickHouse版本是22.3.10.22

  • 【组件】首次引入独立于集群之外常驻运行的 Public History Server 概念,并在当前版本支持 Presto 和 Trino 组件。对于启用了 Public History Server 的集群,您可以在集群运行时甚至是释放后,仍然可以通过对应组件的 Public History Server 页面查看组件执行完成的作业运行日志数据。

  • 【组件】针对存算分离场景(数据存储在TOS),我们在当前版本支持在EMR集群外采用全托管模式独立部署Hive Metastore(HMS)服务(Preview版本),多个EMR集群的计算引擎可以通过连接同一个HMS服务实现元数据共享,HMS服务不会随着EMR集群的释放而停止服务。

  • 【组件】Hadoop集群新增Delta Lake 2.0.0

更改、增强和解决的问题

  • 【通用】日志数据由外置的公共OpenSearch存储,集群中不再启动ElasticSearch:

    • 支持查询已释放的历史集群的日志;

    • 不再启动集群内部组件ElasticSearch,避免额外占用集群资源。

  • 【通用】集群易用性增强

    • 在ECS实例中启用了部分常用的shell命令,包括netstat、arthas、tailf、sar、ll等;

    • 增强Hive、Presto和Trino组件命令行,使用命令行连接时无需填写相关环境配置,如host、port等。

  • 【组件】Spark支持对Iceberg类型的表创建物化视图

    • 对于执行的SQL,Spark会自动匹配合适的物化视图进行替换,重写SQL查询,提升SQL的查询性能;

    • 支持手动对物化视图进行刷新更新操作;

    • 支持删除物化视图。

  • 【组件】Airflow优化增强:

    • 透出所有配置在EMR控制台上可配置,对于不同的配置section,采用 airflow-env-{section} 的命名进行分组;

    • 新增更多extra能力,可对接更多生态能力。

  • 【组件】Doris升级到 1.1.1

    • 向量化执行引擎支持 ODBC Sink;

    • 增加简易版 MemTracker;

    • 支持在 Page Cache 中缓存解压后的数据;

    • 修复某些查询不能回退到非向量化引擎并导致 BE Core的问题;

    • 修复 Compaction 不能正常工作导致的 -235 错误。

  • 【组件】Presto、Trino 自定义connector:可以在控制台 服务列表- Presto/Trino - 服务参数中的connector_custom.properties配置文件中添加。

  • 【组件】Trino组件升级至392版本:

    • 升级社区对应版本的Iceberg,Hudi等。
  • 【组件】Iceberg组件升级 0.14.0

  • 【组件】Flink升级到1.15

  • 【组件】Hudi更新

    • 升级到社区 0.11.1 版本;

    • 支持核心指标 Payload;

    • 支持 Flink 1.15。

已知问题

  • 高可用模式下master2节点宕机时,执行Hive、Spark等作业非常缓慢。临时解决方法:调整HDFS的配置参数dfs.ha.namenodes.emr-cluster中的master1和matser2顺序即可。
组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件版本描述
zookeeper_server3.7.0用于维护配置信息、命名、提供分布式同步的集中式服务。
zookeeper_client3.7.0ZooKeeper命令行客户端。
hive_metastore3.1.2Hive元数据存储服务。
hive_server3.1.2用于将 Hive 查询作为 Web 请求接受的服务。
hive_client3.1.2Hive命令行客户端。
hdfs_namenode3.3.1用于跟踪HDFS文件名和数据块的服务。
hdfs_datanode3.3.1存储HDFS数据块的节点服务。
hdfs_secondary_namenode3.3.1对NameNode数据进行周期性合并的服务。
hdfs_client3.3.1HDFS客户端命令行。
hdfs_journalnode3.3.1用于管理 HA 模式下HDFS日志的服务。
hdfs_zkfc3.3.1用户维护HA模式下HDFS NameNode从动态的服务。
hue_server4.9.0用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。
knox_gateway1.5.0用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。
openldap2.4.58后台认证以及用户数据权限管控服务。
ranger_admin2.1.0Ranger安全管理的中心接口服务。
ranger_usersync2.1.0拉取用户和组的Ranger服务。
spark_jobhistoryserver3.2.1用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
ksana1.0为字节EMR团队自研组件,定位于SparkSQL数据仓库构建引擎,取代了Spark Thrift Server,兼容Hive的使用方式。
spark_client3.2.1Spark命令行客户端。
livy_server3.2.1提供REST接口来与Spark交互的服务。
sqoop1.4.7提供数据库与HDFS导入导出功能。
iceberg0.14.0Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。
hudi0.11.1增量处理框架,以支持低延迟和高效率的数据管道。
yarn_resourcemanager3.3.1分配和管理集群资源与分布式应用程序的 YARN 服务。
yarn_nodemanager3.3.1管理单个节点上的容器的 YARN 服务。
yarn_client3.3.1YARN命令行客户端。
mapreduce2_historyserver3.3.1保存作业执行信息的MapReduce服务。
mapreduce2_client3.3.1MapReduce命令行客户端。
tez_client0.10.1Tez命令行客户端。
flink_client1.15.1Flink命令行客户端。
airflow_webserver2.2.0Airflow提供的web服务。
airflow_scheduler2.2.0Airflow的调度器。
presto_cli0.267Presto命令行客户端。

presto_coordinator

0.267

Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。

presto_worker0.267Presto中负责所有Query相关数据的计算工作。
trino_cli392Trino命令行客户端。
trino_coordinator392Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。
trino_worker392Trino中负责所有Query相关数据的计算工作。
kerby_server2.0.1Kerberos认证服务。
flume_agent1.9.0Flume中的数据采集工具。
flume_client1.9.0Flume命令行客户端。
kafka_broker2.3Kafka中的消息处理节点。
hbase_master2.3.7适用于负责协调区域和执行管理命令的 HBase 集群的服务。
hbase_regionserver2.3.7用于服务于一个或多个 HBase 区域的服务。
hbase_client2.3.7HBase 命令行客户端。
opensearch1.2.3OpenSearch服务。
opensearch_dashboard1.2.3OpenSearch的可视化仪表盘。
tensorflow2.7.0适用于高性能数值计算的 TensorFlow 开源软件库。
tensorflow_on_yarn1.0.0TensorFlow YARN应用程序和库。
doris_fe1.1.1Doris的FE服务。
doris_be1.1.1Doris的BE服务。
bookie4.14.2负责Pulsar消息数据的存储。
pulsar_broker2.9.1提供读写服务以及 Pulsar 的计算逻辑。
pulsar_client2.9.1Pulsar 命令行客户端。
clickhouse22.3.10.22ClickHouse应用程序。
catalogd3.4.1Impala元数据服务的应用程序。
statestored3.4.1Impala集群节点管理应用程序。
impalad3.4.1Impala计算节点应用程序。
kudu_tserver1.14.0Kudu存储节点应用程序。
kudu_master1.14.0Kudu元数据和集群节点管理应用程序。