You need to enable JavaScript to run this app.
导航
EMR-2.0.1版本说明
最近更新时间:2023.01.19 11:40:44首次发布时间:2023.01.13 11:20:42
环境信息

系统环境

版本环境
OSveLinux(Debian 10兼容版)
Python22.7.16
Python33.7.3
JavaByteOpenJDK 1.8.0_302

应用程序版本

Hadoop 集群
Flume1.9.0
OpenLDAP2.4.58
Ranger1.2.0
ZooKeeper3.7.0
Flink1.15.1
HDFS2.10.2
MapReduce22.10.2
YARN2.10.2
Airflow2.4.2
Hive2.3.9
Hue4.9.0
Knox1.5.0
Presto0.267
Trino365
Spark2.4.8
Sqoop1.4.7
Tez0.10.1
Iceberg0.12.0
Impala3.4.1
Kudu1.14.0
HBase1.7.2
Hudi0.11.1
发布说明

以下发布说明包括有关火山引擎 E-MapReduce(EMR) V2.0.1 的信息。EMR V2.0.1为火山引擎 EMR V2.0.x 的第二个版本,更改与 2.0.0 有关。Hadoop2.x 软件包目前已去除白名单处于全量发布。
发布日期: 2022 年 12 月 15 日

新增功能

  • 【组件】新增 Hudi,版本为 0.11.1 。

  • 【组件】新增 HBase 组件, 版本为 1.7.2 。

更改、增强和解决的问题

  • 【通用】EMR 2.0.1 作为含有 Hadoop 2.x 的软件包的第二个版本,目前已经取消白名单进行全量发布。

  • 【组件】AirFlow 升级至 2.4.2,修复部分安全漏洞。

  • 【组件】Hive 通过 TPC-DS 测试,解决多个相关的问题。

已知问题

  • 【通用】云监控中尚未适配 2.x 集群。
组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件版本描述
zookeeper_server3.7.0用于维护配置信息、命名、提供分布式同步的集中式服务。
zookeeper_client3.7.0ZooKeeper 命令行客户端。
hive_metastore2.3.9Hive 元数据存储服务。
hive_server2.3.9用于将 Hive 查询作为 Web 请求接受的服务。
hive_client2.3.9Hive 命令行客户端。
hdfs_namenode2.10.2用于跟踪 HDFS 文件名和数据块的服务。
hdfs_datanode2.10.2存储 HDFS 数据块的节点服务。
hdfs_secondary_namenode2.10.2对 NameNode 数据进行周期性合并的服务。
hdfs_client2.10.2HDFS 客户端命令行。
hdfs_journalnode2.10.2用于管理 HA 模式下 HDFS 日志的服务。
hdfs_zkfc2.10.2用户维护 HA 模式下 HDFS NameNode 从动态的服务。
hue_server4.9.0用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。
knox_gateway1.5.0用于与 Hadoop 生态的 RESTAPI 和 UI 交互的应用程序网关。
openldap2.4.58后台认证以及用户数据权限管控服务。
ranger_admin1.2.0Ranger 安全管理的中心接口服务。
ranger_usersync1.2.0拉取用户和组的 Ranger 服务。
spark_jobhistoryserver2.4.8用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
ksana1.0为字节 EMR 团队自研组件,定位于 SparkSQL 数据仓库构建引擎,取代了 Spark Thrift Server,兼容 Hive 的使用方式。
spark_client2.4.8Spark 命令行客户端。
livy_server0.6.0提供 REST 接口来与 Spark 交互的服务。
sqoop1.4.7提供数据库与 HDFS 导入导出功能。
iceberg0.12.0Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。
yarn_resourcemanager2.10.2分配和管理集群资源与分布式应用程序的 YARN 服务。
yarn_nodemanager2.10.2管理单个节点上的容器的 YARN 服务。
yarn_client2.10.2YARN 命令行客户端。
mapreduce2_historyserver2.10.2保存作业执行信息的 MapReduce 服务。
mapreduce2_client2.10.2MapReduce 命令行客户端。
tez_client0.10.1Tez 命令行客户端。
flink_client1.11.3Flink 命令行客户端。
airflow_webserver2.4.2Airflow 提供的 web 服务。
airflow_scheduler2.4.2Airflow 的调度器。
presto_cli0.267Presto 命令行客户端。

presto_coordinator

0.267

Presto 中负责 query 解析,任务调度,结果汇总的,集群监控的节点。

presto_worker0.267Presto 中负责所有 Query 相关数据的计算工作。
trino_cli365Trino 命令行客户端。
trino_coordinator365Trino 中负责 query 解析,任务调度,结果汇总的,集群监控的节点。
trino_worker365Trino 中负责所有 Query 相关数据的计算工作。
kerby_server2.0.1Kerberos 认证服务。
flume_agent1.9.0Flume 中的数据采集工具。
flume_client1.9.0Flume 命令行客户端。
catalogd3.4.1Impala 元数据服务的应用程序。
statestored3.4.1Impala 集群节点管理应用程序。
impalad3.4.1Impala 计算节点应用程序。
kudu_tserver1.14.0Kudu 存储节点应用程序。
kudu_master1.14.0Kudu 元数据和集群节点管理应用程序。
hbase_master1.7.2适用于负责协调区域和执行管理命令的 HBase 集群的服务。
hbase_regionserver1.7.2用于服务于一个或多个 HBase 区域的服务。
hbase_client1.7.2HBase 命令行客户端。