You need to enable JavaScript to run this app.
导航
EMR-2.5.0 版本说明
最近更新时间:2025.06.09 15:02:37首次发布时间:2024.08.12 16:48:36
我的收藏
有用
有用
无用
无用

环境信息

系统环境

环境

版本

OS

veLinux(Debian 10兼容版)

Python2

2.7.16

Python3

3.10.13

Java

ByteOpenJDK 1.8.0_351

应用程序版本

应用程序

Hadoop集群

HBase集群

HDFS

2.10.2

2.10.2

YARN

2.10.2

2.10.2

MapReduce2

2.10.2

2.10.2

Hive

2.3.9

Spark2

2.4.8

Spark3

3.5.1

Tez

0.10.1

Knox

1.5.0

1.5.0

Openldap

2.5.13

2.5.13

Zookeeper

3.7.0

3.7.0

Ossa

1.0.0

HBase

1.6.0

1.6.0

Flink

1.16.1

Presto

0.28

Trino

446

DolphinScheduler

3.1.9

Iceberg

1.4.3

Hudi

0.12.2

DeltaLake

3.1.0

Paimon

0.6.1

Airflow

2.7.3

Hue

4.11.0

Sqoop

1.4.7

Impala

3.4.1

Kudu

1.14.0

Phoenix

4.16.1

4.16.1

Ranger

1.2.0

Flume

1.9.0

发布说明

更改、增强和解决的问题

  • 【组件】新增组件Spark 3.5.1, 用户使用v2.5.0 软件栈可以选择部署Spark 3.5.1或者2.4.8。
  • 【组件】新增组件DeltaLake3.1.0,Paimon0.6.1,仅当部署Spark3.5.1时支持。
  • 【组件】Trino组件版本由412升级至446。
  • 【组件】Airflow组件版本从2.4.2升级至2.7.3。
  • 【组件】Dolphinscheduler组件版本从3.1.7升级至3.1.9。
  • 【租件】Iceberg组件版本从1.2.0升级至1.4.3。
  • 【组件】通过spark.merge.files.enabled和spark.merge.files.number参数可启动和关闭小文件合并,该功能仅对Spark 3.x组件生效。
  • 【组件】优化Spark和Hive开箱参数,根据节点规格动态调整Spark execute CPU和内存资源,支持Hive运行时动态加载 UDF。
  • 【组件】Hive支持SMB(Sort-Merge-Bucket)Join,提升处理大规模数据集时的查询性能。

组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件

版本

描述

zookeeper_server

3.7.0

用于维护配置信息、命名、提供分布式同步的集中式服务。

zookeeper_client

3.7.0

ZooKeeper命令行客户端。

hive_metastore

2.3.9

Hive元数据存储服务。

hive_server

2.3.9

用于将 Hive 查询作为 Web 请求接受的服务。

hive_client

2.3.9

Hive命令行客户端。

hdfs_namenode

2.10.2

用于跟踪HDFS文件名和数据块的服务。

hdfs_datanode

2.10.2

存储HDFS数据块的节点服务。

hdfs_secondary_namenode

2.10.2

对NameNode数据进行周期性合并的服务。

hdfs_client

2.10.2

HDFS客户端命令行。

hdfs_journalnode

2.10.2

用于管理 HA 模式下HDFS日志的服务。

hdfs_zkfc

2.10.2

用户维护HA模式下HDFS NameNode从动态的服务。

hue_server

4.11.0

用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。

knox_gateway

1.5.0

用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。

openldap

2.5.13

后台认证以及用户数据权限管控服务。

ranger_admin

1.2.0

Ranger安全管理的中心接口服务。

ranger_usersync

1.2.0

拉取用户和组的Ranger服务。

spark_jobhistoryserver

2.4.8/3.5.1

用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。

Spark Thrift Server

2.4.8/3.5.1

基于HiveServer2提供的Thrift服务。

spark_client

2.4.8/3.5.1

Spark命令行客户端。

livy_server

0.8.0

提供REST接口来与Spark交互的服务。

sqoop

1.4.7

提供数据库与HDFS导入导出功能。

iceberg

1.4.3

Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。

yarn_resourcemanager

2.10.2

分配和管理集群资源与分布式应用程序的 YARN 服务。

yarn_nodemanager

2.10.2

管理单个节点上的容器的 YARN 服务。

yarn_client

2.10.2

YARN命令行客户端。

mapreduce2_historyserver

2.10.2

保存作业执行信息的MapReduce服务。

mapreduce2_client

2.10.2

MapReduce命令行客户端。

tez_client

0.10.1

Tez命令行客户端。

flink_client

1.16.1

Flink命令行客户端。

airflow_webserver

2.7.3

Airflow提供的web服务。

airflow_scheduler

2.7.3

Airflow的调度器。

dolphinscheduler_workerserver

3.1.9

提供任务执行管理服务,负责执行由MasterServer分发的任务,并提供日志服务。

dolphinscheduler_alterserver

3.1.9

提供告警服务,通过告警插件的方式实现丰富的告警手段。

dolphinscheduler_masterserver

3.1.9

负责工作流的管理和编排服务,处理任务的切分和分发,以及任务状态的更新和管理。

dolphinscheduler_apiserver

3.1.9

提供后端通信端口,处理前端UI层的请求,统一提供RESTful API向外部提供请求服务。

presto_cli

0.28

Presto命令行客户端。

presto_coordinator

0.28

Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。

presto_worker

0.28

Presto中负责所有Query相关数据的计算工作。

trino_cli

446

Trino命令行客户端。

trino_coordinator

446

Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。

trino_worker

446

Trino中负责所有Query相关数据的计算工作。

kerby_server

2.0.1

Kerberos认证服务。

flume_agent

1.9.0

Flume中的数据采集工具。

flume_client

1.9.0

Flume命令行客户端。

catalogd

3.4.1

Impala元数据服务的应用程序。

statestored

3.4.1

Impala集群节点管理应用程序。

impalad

3.4.1

Impala计算节点应用程序。

kudu_tserver

1.14.0

Kudu存储节点应用程序。

kudu_master

1.14.0

Kudu元数据和集群节点管理应用程序。