You need to enable JavaScript to run this app.
导航
EMR-3.2.1 版本说明
最近更新时间:2025.06.09 15:02:34首次发布时间:2023.03.30 17:17:08
我的收藏
有用
有用
无用
无用

环境信息

系统环境

环境

版本

OS

veLinux(Debian 10兼容版)

Python2

2.7.16

Python3

3.7.3

Java

ByteOpenJDK 1.8.0_352

应用程序版本

Hadoop集群

Flink集群

Kafka集群

Presto集群

Trino集群

HBase集群

OpenSearch集群

TensorFlow集群

Doris集群

Pulsar集群

ClickHouse集群

StarRocks集群

Flume

1.9.0

1.9.0

1.9.0

OpenLDAP

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

Ranger

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

ZooKeeper

3.7.0

3.7.0

3.7.0

3.7.0

3.7.0

3.7.0

3.7.0

Flink

1.16.0

1.16.0

HDFS

3.3.4

3.3.4

3.3.4

3.3.4

3.3.4

3.3.4

MapReduce2

3.3.4

3.3.4

3.3.4

YARN

3.3.4

3.3.4

3.3.4

Airflow

2.4.2

2.4.2

2.4.2

Hive

3.1.2

3.1.2

3.1.2

Hue

4.10.0

4.10.0

4.10.0

Kafka

2.8.1

Knox

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

Presto

0.267

0.267

Trino

392

392

Spark

3.2.1

3.2.1

Sqoop

1.4.7

Tez

0.10.1

Iceberg

0.14.0

0.14.0

0.14.0

Hudi

0.12.2

HBase

2.3.7

2.3.7

OpenSearch

1.2.3

TensorFlow

2.7.0

TensorFlow on YARN

1.0.0

Doris

1.2.1

Pulsar

2.9.1

BookKeeper

4.14.2

Pulsar Manager

0.2.0

Delta Lake

2.0.0

Impala

3.4.1

Kudu

1.14.0

ClickHouse

22.3.10.22

StarRocks

2.4.1

Dolphin Scheduler

3.1.3

Phoenix

5.1.3

5.1.3

GTS

1.0.0

发布说明

以下发布说明包括有关 EMR V3.2.1 的信息, 更改与 3.1.1 有关。
发布日期: 2023 年 03 月 28 日

新增功能

  • 【组件】Ossa组件由原来的内置组件变为必选组件,该组件主要用于支持云上生态(如DataLeap等)对接;
  • 【组件】新增GTS ,对接DataLeap的统一Flink提交服务;
  • 【服务】新增Flink History服务,集群释放后仍然能够看到Flink历史作业日志,目前处于白名单发布。

更改、增强和解决的问题

  • 【集群】HBase集群中集成了YARN和MapReduce2组件;
  • 【组件】Flink引擎支持avro,csv,debezium-json和avro-confluent等格式;
  • 【组件】Doris版本升级至1.2.1
  • 【组件】修复Presto写入TOS的潜在问题;
  • 【集群】Kafka集群高可用优化,修复潜在的内置组件出现单点问题导致集群操作异常问题;
  • 【组件】Flink升级至1.16.0,引入StarRocks、Doris、HBase和ByteHouse Connector,支持MySQL Sink,优化多个配置,达到开箱即用;
  • 【组件】Hive适配CFS, 支持外部表方式访问数据;
  • 【组件】presto-cli和trino-cli支持非明文方式输入密码,避免潜在的暴露密码风险;
  • 【组件】Hue查询Presto、Trino时不再使用默认用户,需进行额外的用户认证;修复部分安全问题;
  • 【组件】Iceberg适配TOS的读写,支持与PySpark的交互;
  • 【组件】Dolphin Scheduler升级至3.1.3
  • 【组件】Kafka升级至2.8.1
  • 【组件】Hudi升级至0.12.2
  • 【组件】存算分离场景下,优化Spark引擎和MapReudce的写入性能;
  • 【服务】MetaStore服务正式发布。

已知问题

  • 在开启Ranger权限管理时,由于DataLeap使用root用户向Hadoop集群提交Flink流任务,因此需在控制台-用户管理处新增root用户(密码自定义),并为root用户赋予hdfs、yarn权限,该步骤预计会在后续版本进行优化;
  • 使用Dolphin Scheduler调度Presto数据源项目时,由于keystore文件只位于master-1节点,因此需要手动将keystore文件复制到集群各节点相应目录下,该步骤预计会在后续版本进行优化;
  • Dolphin Scheduler暂不支持使用tos、cfs进行资源中心资源存储以及执行数据质量任务,如需使用此功能可联系售后处理,预计会在后续版本支持该功能;
  • Spark History服务目前无法展示进行中的作业,预计会在后续版本进行优化;
  • Flink暂不支持操作Iceberg表。

组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件

版本

描述

zookeeper_server

3.7.0

用于维护配置信息、命名、提供分布式同步的集中式服务。

zookeeper_client

3.7.0

ZooKeeper命令行客户端。

hive_metastore

3.1.2

Hive元数据存储服务。

hive_server

3.1.2

用于将 Hive 查询作为 Web 请求接受的服务。

hive_client

3.1.2

Hive命令行客户端。

hdfs_namenode

3.3.4

用于跟踪HDFS文件名和数据块的服务。

hdfs_datanode

3.3.4

存储HDFS数据块的节点服务。

hdfs_secondary_namenode

3.3.4

对NameNode数据进行周期性合并的服务。

hdfs_client

3.3.4

HDFS客户端命令行。

hdfs_journalnode

3.3.4

用于管理 HA 模式下HDFS日志的服务。

hdfs_zkfc

3.3.4

用户维护HA模式下HDFS NameNode从动态的服务。

hue_server

4.10.0

用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。

knox_gateway

1.5.0

用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。

openldap

2.4.58

后台认证以及用户数据权限管控服务。

ranger_admin

2.1.0

Ranger安全管理的中心接口服务。

ranger_usersync

2.1.0

拉取用户和组的Ranger服务。

spark_jobhistoryserver

3.2.1

用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。

ksana

1.0

为字节EMR团队自研组件,定位于SparkSQL数据仓库构建引擎,取代了Spark Thrift Server,兼容Hive的使用方式。

spark_client

3.2.1

Spark命令行客户端。

livy_server

3.2.1

提供REST接口来与Spark交互的服务。

sqoop

1.4.7

提供数据库与HDFS导入导出功能。

iceberg

0.14.0

Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。

hudi

0.12.2

增量处理框架,以支持低延迟和高效率的数据管道。

yarn_resourcemanager

3.3.4

分配和管理集群资源与分布式应用程序的 YARN 服务。

yarn_nodemanager

3.3.4

管理单个节点上的容器的 YARN 服务。

yarn_client

3.3.4

YARN命令行客户端。

mapreduce2_historyserver

3.3.4

保存作业执行信息的MapReduce服务。

mapreduce2_client

3.3.4

MapReduce命令行客户端。

tez_client

0.10.1

Tez命令行客户端。

flink_client

1.16.0

Flink命令行客户端。

airflow_webserver

2.2.0

Airflow提供的web服务。

airflow_scheduler

2.2.0

Airflow的调度器。

presto_cli

0.267

Presto命令行客户端。

presto_coordinator

0.267

Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。

presto_worker

0.267

Presto中负责所有Query相关数据的计算工作。

trino_cli

392

Trino命令行客户端。

trino_coordinator

392

Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。

trino_worker

392

Trino中负责所有Query相关数据的计算工作。

kerby_server

2.0.1

Kerberos认证服务。

flume_agent

1.9.0

Flume中的数据采集工具。

flume_client

1.9.0

Flume命令行客户端。

kafka_broker

2.8.1

Kafka中的消息处理节点。

hbase_master

2.3.7

适用于负责协调区域和执行管理命令的 HBase 集群的服务。

hbase_regionserver

2.3.7

用于服务于一个或多个 HBase 区域的服务。

hbase_client

2.3.7

HBase 命令行客户端。

opensearch

1.2.3

OpenSearch服务。

opensearch_dashboard

1.2.3

OpenSearch的可视化仪表盘。

tensorflow

2.7.0

适用于高性能数值计算的 TensorFlow 开源软件库。

tensorflow_on_yarn

1.0.0

TensorFlow YARN应用程序和库。

doris_fe

1.2.1

Doris的FE服务。

doris_be

1.2.1

Doris的BE服务。

bookie

4.14.2

负责Pulsar消息数据的存储。

pulsar_broker

2.9.1

提供读写服务以及 Pulsar 的计算逻辑。

pulsar_client

2.9.1

Pulsar 命令行客户端。

clickhouse

22.3.10.22

ClickHouse应用程序。

catalogd

3.4.1

Impala元数据服务的应用程序。

statestored

3.4.1

Impala集群节点管理应用程序。

impalad

3.4.1

Impala计算节点应用程序。

kudu_tserver

1.14.0

Kudu存储节点应用程序。

kudu_master

1.14.0

Kudu元数据和集群节点管理应用程序。

starrocks_fe

2.4.1

StarRocks的FE服务。

starrocks_fe

2.4.1

StarRocks的BE服务。