You need to enable JavaScript to run this app.
导航
EMR-3.0.1版本说明
最近更新时间:2025.06.09 15:02:34首次发布时间:2023.01.13 11:28:32
我的收藏
有用
有用
无用
无用

环境信息

系统环境

版本

环境

OS

veLinux(Debian 10兼容版)

Python2

2.7.16

Python3

3.7.3

Java

ByteOpenJDK 1.8.0_302

应用程序版本

Hadoop 集群

Flink 集群

Kafka 集群

Presto 集群

Trino 集群

HBase 集群

OpenSearch 集群

TensorFlow 集群

Doris 集群

Pulsar 集群

ClickHouse 集群

Flume

1.9.0

1.9.0

1.9.0

OpenLDAP

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

Ranger

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

ZooKeeper

3.7.0

3.7.0

3.7.0

3.7.0

3.7.0

3.7.0

3.7.0

Flink

1.15.1

1.15.0

HDFS

3.3.1

3.3.1

3.3.1

3.3.1

3.3.1

3.3.1

MapReduce2

3.3.1

3.3.1

3.3.1

YARN

3.3.1

3.3.1

3.3.1

Airflow

2.4.2

2.4.2

2.4.2

Hive

3.1.2

3.1.2

3.1.2

Hue

4.9.0

4.9.0

4.9.0

Kafka

2.3

Knox

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

Presto

0.267

0.267

Presto on YARN

0.267

Trino

392

392

Trino on YARN

392

Spark

3.2.1

3.2.1

Sqoop

1.4.7

Tez

0.10.1

Iceberg

0.14.0

0.14.0

0.14.0

Hudi

0.11.1

HBase

2.3.7

OpenSearch

1.2.3

TensorFlow

2.7.0

TensorFlow on YARN

1.0.0

Doris

1.1.1

Pulsar

2.9.1

BookKeeper

4.14.2

Delta Lake

2.0.0

Impala

3.4.1

Kudu

1.14.0

ClickHouse

22.3.10.22

发布说明

以下发布说明包括有关火山引擎 E-MapReduce(EMR) V3.0.1 的信息, 更改与 3.0.0 有关。EMR V3.0.1 为火山引擎 EMR V3.0.x 的第二个版本。
发布日期: 2022 年 12 月 15 日

更改、增强和解决的问题

  • 【组件】Flume 写 Kudu,CFS,TOS 易用性优化,达到开箱即用,不需要用户拷贝额外的 jar 包和配置密钥等。
  • 【组件】Kafka 网络拓扑优化,当开启 EIP 后,Kafka 组件的内部通信仍然使用内网,提升集群性能和降低成本。
  • 【组件】ClickHouse 支持 TOS 存储。对二进制包进行优化,减少不必要的 Warn 提示。
  • 【组件】AirFlow 升级至2.4.2,修复部分安全漏洞。
  • 【组件】Hive 支持用户电脑从公网连接 HiveServer2 并执行相应作业的功能。

组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件

版本

描述

zookeeper_server

3.7.0

用于维护配置信息、命名、提供分布式同步的集中式服务。

zookeeper_client

3.7.0

ZooKeeper 命令行客户端。

hive_metastore

3.1.2

Hive 元数据存储服务。

hive_server

3.1.2

用于将 Hive 查询作为 Web 请求接受的服务。

hive_client

3.1.2

Hive 命令行客户端。

hdfs_namenode

3.3.1

用于跟踪 HDFS 文件名和数据块的服务。

hdfs_datanode

3.3.1

存储 HDFS 数据块的节点服务。

hdfs_secondary_namenode

3.3.1

对 NameNode 数据进行周期性合并的服务。

hdfs_client

3.3.1

HDFS 客户端命令行。

hdfs_journalnode

3.3.1

用于管理 HA 模式下 HDFS 日志的服务。

hdfs_zkfc

3.3.1

用户维护 HA 模式下 HDFS NameNode 从动态的服务。

hue_server

4.9.0

用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。

knox_gateway

1.5.0

用于与 Hadoop 生态的 RESTAPI 和 UI 交互的应用程序网关。

openldap

2.4.58

后台认证以及用户数据权限管控服务。

ranger_admin

2.1.0

Ranger 安全管理的中心接口服务。

ranger_usersync

2.1.0

拉取用户和组的 Ranger 服务。

spark_jobhistoryserver

3.2.1

用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。

ksana

1.0

为字节 EMR 团队自研组件,定位于 SparkSQL 数据仓库构建引擎,取代了 Spark Thrift Server,兼容 Hive 的使用方式。

spark_client

3.2.1

Spark 命令行客户端。

livy_server

0.6.0

提供 REST 接口来与 Spark 交互的服务。

sqoop

1.4.7

提供数据库与 HDFS 导入导出功能。

iceberg

0.14.0

Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。

hudi

0.11.1

增量处理框架,以支持低延迟和高效率的数据管道。

yarn_resourcemanager

3.3.1

分配和管理集群资源与分布式应用程序的 YARN 服务。

yarn_nodemanager

3.3.1

管理单个节点上的容器的 YARN 服务。

yarn_client

3.3.1

YARN 命令行客户端。

mapreduce2_historyserver

3.3.1

保存作业执行信息的 MapReduce 服务。

mapreduce2_client

3.3.1

MapReduce 命令行客户端。

tez_client

0.10.1

Tez 命令行客户端。

flink_client

1.15.1

Flink 命令行客户端。

airflow_webserver

2.4.2

Airflow 提供的 web 服务。

airflow_scheduler

2.4.2

Airflow 的调度器。

presto_cli

0.267

Presto 命令行客户端。

presto_coordinator

0.267

Presto 中负责 query 解析,任务调度,结果汇总的,集群监控的节点。

presto_worker

0.267

Presto 中负责所有 Query 相关数据的计算工作。

trino_cli

392

Trino 命令行客户端。

trino_coordinator

392

Trino 中负责 query 解析,任务调度,结果汇总的,集群监控的节点。

trino_worker

392

Trino 中负责所有 Query 相关数据的计算工作。

kerby_server

2.0.1

Kerberos 认证服务。

flume_agent

1.9.0

Flume 中的数据采集工具。

flume_client

1.9.0

Flume 命令行客户端。

kafka_broker

2.3

Kafka 中的消息处理节点。

hbase_master

2.3.7

适用于负责协调区域和执行管理命令的 HBase 集群的服务。

hbase_regionserver

2.3.7

用于服务于一个或多个 HBase 区域的服务。

hbase_client

2.3.7

HBase 命令行客户端。

opensearch

1.2.3

OpenSearch 服务。

opensearch_dashboard

1.2.3

OpenSearch 的可视化仪表盘。

tensorflow

2.7.0

适用于高性能数值计算的 TensorFlow 开源软件库。

tensorflow_on_yarn

1.0.0

TensorFlow YARN 应用程序和库。

doris_fe

1.1.1

Doris的 FE 服务。

doris_be

1.1.1

Doris的 BE 服务。

bookie

4.14.2

负责 Pulsar 消息数据的存储。

pulsar_broker

2.9.1

提供读写服务以及 Pulsar 的计算逻辑。

pulsar_client

2.9.1

Pulsar 命令行客户端。

clickhouse

22.3.10.22

ClickHouse 应用程序。

catalogd

3.4.1

Impala 元数据服务的应用程序。

statestored

3.4.1

Impala 集群节点管理应用程序。

impalad

3.4.1

Impala 计算节点应用程序。

kudu_tserver

1.14.0

Kudu 存储节点应用程序。

kudu_master

1.14.0

Kudu 元数据和集群节点管理应用程序。