You need to enable JavaScript to run this app.
导航
EMR-3.0.0版本说明
最近更新时间:2025.06.09 15:02:34首次发布时间:2022.10.12 20:49:13
我的收藏
有用
有用
无用
无用

环境信息

系统环境

环境

版本

OS

veLinux(Debian 10兼容版)

Python2

2.7.16

Python3

3.7.3

Java

ByteOpenJDK 1.8.0_302

应用程序版本

Hadoop集群

Flink集群

Kafka集群

Presto集群

Trino集群

HBase集群

OpenSearch集群

TensorFlow集群

Doris集群

Pulsar集群

ClickHouse集群

Flume

1.9.0

1.9.0

1.9.0

OpenLDAP

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

Ranger

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

ZooKeeper

3.7.0

3.7.0

3.7.0

3.7.0

3.7.0

3.7.0

3.7.0

Flink

1.15.1

1.15.1

HDFS

3.3.1

3.3.1

3.3.1

3.3.1

3.3.1

3.3.1

MapReduce2

3.3.1

3.3.1

3.3.1

YARN

3.3.1

3.3.1

3.3.1

Airflow

2.2.0

2.2.0

2.2.0

Hive

3.1.2

3.1.2

3.1.2

Hue

4.9.0

4.9.0

4.9.0

Kafka

2.3

Knox

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

Presto

0.267

0.267

Presto on YARN

0.267

Trino

392

392

Trino on YARN

392

Spark

3.2.1

3.2.1

Sqoop

1.4.7

Tez

0.10.1

Iceberg

0.14.0

0.14.0

0.14.0

Hudi

0.11.1

HBase

2.3.7

OpenSearch

1.2.3

TensorFlow

2.7.0

TensorFlow on YARN

1.0.0

Doris

1.1.1

Pulsar

2.9.1

BookKeeper

4.14.2

Delta Lake

2.0.0

Impala

3.4.1

Kudu

1.14.0

ClickHouse

22.3.10.22

发布说明

以下发布说明包括有关 EMR V3.0.0 的信息, 更改与 1.3.1 有关。EMR V3.0.0 为火山引擎EMR V3.x 的第一个版本,目前 EMR V3.0.0 已处于下线状态,我们推荐您创建 EMR V3.0.1的集群版本,详见 EMR-V3.0.1版本说明
发布日期: 2022 年 10 月 11 日

新增功能

  • 【通用】集群内hostname解析接入PrivateZone,不再依赖/etc/hosts:
    • 集群内通信可以使用长短hostname:emr-master-1和emr-2tfyq6eeoq5g1j17w0zo-master-1
    • 集群所在VPC内与集群内ECS通信可以使用完整的域名(见节点管理-节点组列表的DNS列)如:emr-2tfyq6eeoq5g1j17w0zo-master-1.cn-beijing.emr-13fy9kueufzsw3n6nu56wmf71.internal
  • 【集群】新增 ClickHouse 集群类型(以用户白名单的形式开放),扩充了 E-MapReduce 对 OLAP 查询分析场景的支持。当前版本支持多分片、多副本的 ClickHouse 集群的创建和核心的管控功能。使用的ClickHouse版本是22.3.10.22
  • 【组件】首次引入独立于集群之外常驻运行的 Public History Server 概念,并在当前版本支持 Presto 和 Trino 组件。对于启用了 Public History Server 的集群,您可以在集群运行时甚至是释放后,仍然可以通过对应组件的 Public History Server 页面查看组件执行完成的作业运行日志数据。
  • 【组件】针对存算分离场景(数据存储在TOS),我们在当前版本支持在EMR集群外采用全托管模式独立部署Hive Metastore(HMS)服务(Preview版本),多个EMR集群的计算引擎可以通过连接同一个HMS服务实现元数据共享,HMS服务不会随着EMR集群的释放而停止服务。
  • 【组件】Hadoop集群新增Delta Lake 2.0.0

更改、增强和解决的问题

  • 【通用】日志数据由外置的公共OpenSearch存储,集群中不再启动ElasticSearch:
    • 支持查询已释放的历史集群的日志;
    • 不再启动集群内部组件ElasticSearch,避免额外占用集群资源。
  • 【通用】集群易用性增强
    • 在ECS实例中启用了部分常用的shell命令,包括netstat、arthas、tailf、sar、ll等;
    • 增强Hive、Presto和Trino组件命令行,使用命令行连接时无需填写相关环境配置,如host、port等。
  • 【组件】Spark支持对Iceberg类型的表创建物化视图
    • 对于执行的SQL,Spark会自动匹配合适的物化视图进行替换,重写SQL查询,提升SQL的查询性能;
    • 支持手动对物化视图进行刷新更新操作;
    • 支持删除物化视图。
  • 【组件】Airflow优化增强:
    • 透出所有配置在EMR控制台上可配置,对于不同的配置section,采用 airflow-env-{section} 的命名进行分组;
    • 新增更多extra能力,可对接更多生态能力。
  • 【组件】Doris升级到 1.1.1
    • 向量化执行引擎支持 ODBC Sink;
    • 增加简易版 MemTracker;
    • 支持在 Page Cache 中缓存解压后的数据;
    • 修复某些查询不能回退到非向量化引擎并导致 BE Core的问题;
    • 修复 Compaction 不能正常工作导致的 -235 错误。
  • 【组件】Presto、Trino 自定义connector:可以在控制台 服务列表- Presto/Trino - 服务参数中的connector_custom.properties配置文件中添加。
  • 【组件】Trino组件升级至392版本:
    • 升级社区对应版本的Iceberg,Hudi等。
  • 【组件】Iceberg组件升级 0.14.0
  • 【组件】Flink升级到1.15
  • 【组件】Hudi更新
    • 升级到社区 0.11.1 版本;
    • 支持核心指标 Payload;
    • 支持 Flink 1.15。

已知问题

  • 高可用模式下master2节点宕机时,执行Hive、Spark等作业非常缓慢。临时解决方法:调整HDFS的配置参数dfs.ha.namenodes.emr-cluster中的master1和matser2顺序即可。

组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件

版本

描述

zookeeper_server

3.7.0

用于维护配置信息、命名、提供分布式同步的集中式服务。

zookeeper_client

3.7.0

ZooKeeper命令行客户端。

hive_metastore

3.1.2

Hive元数据存储服务。

hive_server

3.1.2

用于将 Hive 查询作为 Web 请求接受的服务。

hive_client

3.1.2

Hive命令行客户端。

hdfs_namenode

3.3.1

用于跟踪HDFS文件名和数据块的服务。

hdfs_datanode

3.3.1

存储HDFS数据块的节点服务。

hdfs_secondary_namenode

3.3.1

对NameNode数据进行周期性合并的服务。

hdfs_client

3.3.1

HDFS客户端命令行。

hdfs_journalnode

3.3.1

用于管理 HA 模式下HDFS日志的服务。

hdfs_zkfc

3.3.1

用户维护HA模式下HDFS NameNode从动态的服务。

hue_server

4.9.0

用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。

knox_gateway

1.5.0

用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。

openldap

2.4.58

后台认证以及用户数据权限管控服务。

ranger_admin

2.1.0

Ranger安全管理的中心接口服务。

ranger_usersync

2.1.0

拉取用户和组的Ranger服务。

spark_jobhistoryserver

3.2.1

用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。

ksana

1.0

为字节EMR团队自研组件,定位于SparkSQL数据仓库构建引擎,取代了Spark Thrift Server,兼容Hive的使用方式。

spark_client

3.2.1

Spark命令行客户端。

livy_server

3.2.1

提供REST接口来与Spark交互的服务。

sqoop

1.4.7

提供数据库与HDFS导入导出功能。

iceberg

0.14.0

Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。

hudi

0.11.1

增量处理框架,以支持低延迟和高效率的数据管道。

yarn_resourcemanager

3.3.1

分配和管理集群资源与分布式应用程序的 YARN 服务。

yarn_nodemanager

3.3.1

管理单个节点上的容器的 YARN 服务。

yarn_client

3.3.1

YARN命令行客户端。

mapreduce2_historyserver

3.3.1

保存作业执行信息的MapReduce服务。

mapreduce2_client

3.3.1

MapReduce命令行客户端。

tez_client

0.10.1

Tez命令行客户端。

flink_client

1.15.1

Flink命令行客户端。

airflow_webserver

2.2.0

Airflow提供的web服务。

airflow_scheduler

2.2.0

Airflow的调度器。

presto_cli

0.267

Presto命令行客户端。

presto_coordinator

0.267

Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。

presto_worker

0.267

Presto中负责所有Query相关数据的计算工作。

trino_cli

392

Trino命令行客户端。

trino_coordinator

392

Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。

trino_worker

392

Trino中负责所有Query相关数据的计算工作。

kerby_server

2.0.1

Kerberos认证服务。

flume_agent

1.9.0

Flume中的数据采集工具。

flume_client

1.9.0

Flume命令行客户端。

kafka_broker

2.3

Kafka中的消息处理节点。

hbase_master

2.3.7

适用于负责协调区域和执行管理命令的 HBase 集群的服务。

hbase_regionserver

2.3.7

用于服务于一个或多个 HBase 区域的服务。

hbase_client

2.3.7

HBase 命令行客户端。

opensearch

1.2.3

OpenSearch服务。

opensearch_dashboard

1.2.3

OpenSearch的可视化仪表盘。

tensorflow

2.7.0

适用于高性能数值计算的 TensorFlow 开源软件库。

tensorflow_on_yarn

1.0.0

TensorFlow YARN应用程序和库。

doris_fe

1.1.1

Doris的FE服务。

doris_be

1.1.1

Doris的BE服务。

bookie

4.14.2

负责Pulsar消息数据的存储。

pulsar_broker

2.9.1

提供读写服务以及 Pulsar 的计算逻辑。

pulsar_client

2.9.1

Pulsar 命令行客户端。

clickhouse

22.3.10.22

ClickHouse应用程序。

catalogd

3.4.1

Impala元数据服务的应用程序。

statestored

3.4.1

Impala集群节点管理应用程序。

impalad

3.4.1

Impala计算节点应用程序。

kudu_tserver

1.14.0

Kudu存储节点应用程序。

kudu_master

1.14.0

Kudu元数据和集群节点管理应用程序。