You need to enable JavaScript to run this app.
导航
EMR-2.2.0 版本说明
最近更新时间:2023.03.30 17:17:08首次发布时间:2023.03.30 17:17:08
环境信息

系统环境

版本环境
OSveLinux(Debian 10兼容版)
Python22.7.16
Python33.7.3
JavaByteOpenJDK 1.8.0_352

应用程序版本

Hadoop集群HBase集群
Flume1.9.0-
OpenLDAP2.4.582.4.58
Ranger1.2.0-
ZooKeeper3.7.03.7.0
Flink1.15.1-
HDFS2.10.22.10.2
MapReduce22.10.2-
YARN2.10.2-
Airflow2.4.2-
Hive2.3.9-
Hue4.9.0-
Knox1.5.0-
Presto0.267-
Trino392-
Spark2.4.8-
Sqoop1.4.7-
Tez0.10.1-
Iceberg0.14.0-
Impala3.4.1-
Kudu1.14.0-
HBase1.7.21.7.2
Oozie5.2.1-
Dolphin Scheduler3.1.1-
Hudi0.11.1-
发布说明

以下发布说明包括有关 EMR V2.2.0 的信息,更改与2.1.1有关。EMR V2.2.0为火山引擎EMR V2.2.x的第一个版本。
发布日期: 2023 年 03 月 28 日

更改、增强和解决的问题

  • 【集群】HBase集群中集成Knox组件用于访问代理;并集成了YARN和MapReduce2;

  • 【组件】Flink引擎支持avro,csv,debezium-json和avro-confluent等格式;

  • 【组件】修复Presto写入TOS的潜在问题;

  • 【组件】Hive适配CFS, 支持外部表方式访问数据;

  • 【组件】presto-cli和trino-cli支持非明文方式输入密码,避免潜在的暴露密码风险;

  • 【组件】Hue查询Presto、Trino时不再使用默认用户,需进行额外的用户认证;修复部分安全问题;

  • 【组件】Iceberg适配TOS的读写,支持与PySpark的交互;

  • 【组件】Dolphin Scheduler升级至3.1.3

  • 【组件】存算分离场景下,优化Spark引擎和MapReudce的写入性能。

已知问题

  • 通过Sqoop从SQL Server导入数据时,存在编码异常问题,如果需要使用此功能可联系售后处理,预计会在后续版本进行优化;

  • 使用Dolphin Scheduler调度Presto数据源项目时,由于keystore文件只位于master-1节点,因此需要手动将keystore文件复制到集群各节点相应目录下,该步骤预计会在后续版本进行优化;

  • Dolphin Scheduler暂不支持使用tos、cfs进行资源中心资源存储以及执行数据质量任务,如需使用此功能可联系售后处理,预计会在后续版本支持该功能。


组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件版本描述
zookeeper_server3.7.0用于维护配置信息、命名、提供分布式同步的集中式服务。
zookeeper_client3.7.0ZooKeeper命令行客户端。
hive_metastore2.3.9Hive元数据存储服务。
hive_server2.3.9用于将 Hive 查询作为 Web 请求接受的服务。
hive_client2.3.9Hive命令行客户端。
hdfs_namenode2.10.2用于跟踪HDFS文件名和数据块的服务。
hdfs_datanode2.10.2存储HDFS数据块的节点服务。
hdfs_secondary_namenode2.10.2对NameNode数据进行周期性合并的服务。
hdfs_client2.10.2HDFS客户端命令行。
hdfs_journalnode2.10.2用于管理 HA 模式下HDFS日志的服务。
hdfs_zkfc2.10.2用户维护HA模式下HDFS NameNode从动态的服务。
hue_server4.9.0用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。
knox_gateway1.5.0用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。
openldap2.4.58后台认证以及用户数据权限管控服务。
ranger_admin1.2.0Ranger安全管理的中心接口服务。
ranger_usersync1.2.0拉取用户和组的Ranger服务。
spark_jobhistoryserver3.2.1用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
ksana1.0为字节EMR团队自研组件,定位于SparkSQL数据仓库构建引擎,取代了Spark Thrift Server,兼容Hive的使用方式。
spark_client2.4.8Spark命令行客户端。
livy_server0.6.0提供REST接口来与Spark交互的服务。
sqoop1.4.7提供数据库与HDFS导入导出功能。
iceberg0.12.0Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。
yarn_resourcemanager2.10.2分配和管理集群资源与分布式应用程序的 YARN 服务。
yarn_nodemanager2.10.2管理单个节点上的容器的 YARN 服务。
yarn_client2.10.2YARN命令行客户端。
mapreduce2_historyserver2.10.2保存作业执行信息的MapReduce服务。
mapreduce2_client2.10.2MapReduce命令行客户端。
tez_client0.10.1Tez命令行客户端。
flink_client1.15.1Flink命令行客户端。
airflow_webserver2.4.2Airflow提供的web服务。
airflow_scheduler2.4.2Airflow的调度器。
presto_cli0.267Presto命令行客户端。

presto_coordinator

0.267

Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。

presto_worker0.267Presto中负责所有Query相关数据的计算工作。
trino_cli392Trino命令行客户端。
trino_coordinator392Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。
trino_worker392Trino中负责所有Query相关数据的计算工作。
kerby_server2.0.1Kerberos认证服务。
flume_agent1.9.0Flume中的数据采集工具。
flume_client1.9.0Flume命令行客户端。
catalogd3.4.1Impala元数据服务的应用程序。
statestored3.4.1Impala集群节点管理应用程序。
impalad3.4.1Impala计算节点应用程序。
kudu_tserver1.14.0Kudu存储节点应用程序。
kudu_master1.14.0Kudu元数据和集群节点管理应用程序。
oozie_server5.2.1Oozie服务端应用程序。
oozie_client5.2.1Oozie的命令行客户端。