You need to enable JavaScript to run this app.
导航

EMR-3.1.1 版本说明

最近更新时间2023.02.22 21:17:00

首次发布时间2023.02.22 21:17:00

环境信息

系统环境

版本环境
OSveLinux(Debian 10兼容版)
Python22.7.16
Python33.7.3
JavaByteOpenJDK 1.8.0_352

应用程序版本

Hadoop集群Flink集群Kafka集群Presto集群Trino集群HBase集群OpenSearch集群TensorFlow集群Doris集群Pulsar集群ClickHouse集群StarRocks集群
Flume1.9.01.9.01.9.0---------
OpenLDAP2.4.582.4.582.4.582.4.582.4.582.4.582.4.582.4.58----
Ranger2.1.02.1.02.1.02.1.02.1.02.1.0-2.1.0----
ZooKeeper3.7.03.7.03.7.0--3.7.0-3.7.0-3.7.03.7.0-
Flink1.15.11.15.1----------
HDFS3.3.43.3.4-3.3.43.3.43.3.4-3.3.4----
MapReduce23.3.43.3.4-----3.3.4----
YARN3.3.43.3.4-----3.3.4----
Airflow2.4.2--2.4.22.4.2-------
Hive3.1.2--3.1.23.1.2-------
Hue4.10.0--4.10.04.10.0-------
Kafka--2.3---------
Knox1.5.01.5.01.5.01.5.01.5.01.5.01.5.01.5.0----
Presto0.267--0.267--------
Trino392---392-------
Spark3.2.1------3.2.1----
Sqoop1.4.7-----------
Tez0.10.1-----------
Iceberg0.14.0--0.14.00.14.0-------
Hudi0.11.1-----------
HBase2.3.7----2.3.7------
OpenSearch------1.2.3-----
TensorFlow-------2.7.0----
TensorFlow on YARN-------1.0.0----
Doris--------1.1.1---
Pulsar---------2.9.1--
BookKeeper---------4.14.2--
Pulsar Manager---------0.2.0--
Delta Lake2.0.0-----------
Impala3.4.1-----------
Kudu1.14.0-----------
ClickHouse----------22.3.10.22-
StarRocks-----------2.4.1
Dolphin Scheduler3.1.1-----------
Phoenix5.1.3----5.1.3------
发布说明

以下发布说明包括有关 EMR V3.1.1 的信息, 更改与 3.1.0 有关。EMR V3.1.1为火山引擎EMR V3.1.x的第二个版本。
发布日期: 2023 年 02 月 21 日

新增功能

  • 【组件】新增Phoenix组件,版本为5.1.3,作为Hadoop集群的可选组件,HBase的必选组件。

更改、增强和解决的问题

  • 【集群】Hadoop集群不再支持Presto on YARN和Trino on YARN;

  • 【集群】StarRocks集群全量发布,不需要加白名单即可使用;

  • 【组件】Impala、Kudu、ClickHouse、Doris·StarRocks等服务的核心指标接入监控和告警管理;

  • 【组件】HBase组件中的表支持Snappy压缩;

  • 【组件】Ossa组件在Hadoop集群中变为必选组件,用于支持作业管理等功能;

  • 【组件】Hive组件行为与开源保持一致,不再支持中文的表字段名;

  • 【组件】Doris版本升级至1.1.5;

  • 【组件】Hudi组件:修复潜在的数据丢失等问题;

  • 【通用】作业管理白名单发布,支持作业列表、作业详情、诊断报告和部分作业操作;

  • 【通用】Presto、Trino History服务全量发布,使用History服务,可以在集群释放后仍能查看历史的作业信息。

已知问题

  • 在Hadoop集群同时安装了Iceberg和Hudi组件,使用Flink SQL连接Iceberg创建Catalog时会报错不可用。若需要使用Flink连接Iceberg的功能,请不要安装Hudi,如已经安装可联系售后人工介入处理,预计会在后续版本进行优化;

  • 使用YARN session模式下会偶现YARN Application中断,如果遇到可使用其他模式进行作业提交Flink作业或者联系售后进行处理;

  • Hue上传文件转Hive表,编辑Field可能出现不生效的场景,如需要使用该功能可联系售后处理。

组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件版本描述
zookeeper_server3.7.0用于维护配置信息、命名、提供分布式同步的集中式服务。
zookeeper_client3.7.0ZooKeeper命令行客户端。
hive_metastore3.1.2Hive元数据存储服务。
hive_server3.1.2用于将 Hive 查询作为 Web 请求接受的服务。
hive_client3.1.2Hive命令行客户端。
hdfs_namenode3.3.4用于跟踪HDFS文件名和数据块的服务。
hdfs_datanode3.3.4存储HDFS数据块的节点服务。
hdfs_secondary_namenode3.3.4对NameNode数据进行周期性合并的服务。
hdfs_client3.3.4HDFS客户端命令行。
hdfs_journalnode3.3.4用于管理 HA 模式下HDFS日志的服务。
hdfs_zkfc3.3.4用户维护HA模式下HDFS NameNode从动态的服务。
hue_server4.10.0用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。
knox_gateway1.5.0用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。
openldap2.4.58后台认证以及用户数据权限管控服务。
ranger_admin2.1.0Ranger安全管理的中心接口服务。
ranger_usersync2.1.0拉取用户和组的Ranger服务。
spark_jobhistoryserver3.2.1用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
ksana1.0为字节EMR团队自研组件,定位于SparkSQL数据仓库构建引擎,取代了Spark Thrift Server,兼容Hive的使用方式。
spark_client3.2.1Spark命令行客户端。
livy_server3.2.1提供REST接口来与Spark交互的服务。
sqoop1.4.7提供数据库与HDFS导入导出功能。
iceberg0.14.0Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。
hudi0.11.1增量处理框架,以支持低延迟和高效率的数据管道。
yarn_resourcemanager3.3.4分配和管理集群资源与分布式应用程序的 YARN 服务。
yarn_nodemanager3.3.4管理单个节点上的容器的 YARN 服务。
yarn_client3.3.4YARN命令行客户端。
mapreduce2_historyserver3.3.4保存作业执行信息的MapReduce服务。
mapreduce2_client3.3.4MapReduce命令行客户端。
tez_client0.10.1Tez命令行客户端。
flink_client1.15.1Flink命令行客户端。
airflow_webserver2.2.0Airflow提供的web服务。
airflow_scheduler2.2.0Airflow的调度器。
presto_cli0.267Presto命令行客户端。

presto_coordinator

0.267

Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。

presto_worker0.267Presto中负责所有Query相关数据的计算工作。
trino_cli392Trino命令行客户端。
trino_coordinator392Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。
trino_worker392Trino中负责所有Query相关数据的计算工作。
kerby_server2.0.1Kerberos认证服务。
flume_agent1.9.0Flume中的数据采集工具。
flume_client1.9.0Flume命令行客户端。
kafka_broker2.3Kafka中的消息处理节点。
hbase_master2.3.7适用于负责协调区域和执行管理命令的 HBase 集群的服务。
hbase_regionserver2.3.7用于服务于一个或多个 HBase 区域的服务。
hbase_client2.3.7HBase 命令行客户端。
opensearch1.2.3OpenSearch服务。
opensearch_dashboard1.2.3OpenSearch的可视化仪表盘。
tensorflow2.7.0适用于高性能数值计算的 TensorFlow 开源软件库。
tensorflow_on_yarn1.0.0TensorFlow YARN应用程序和库。
doris_fe1.1.1Doris的FE服务。
doris_be1.1.1Doris的BE服务。
bookie4.14.2负责Pulsar消息数据的存储。
pulsar_broker2.9.1提供读写服务以及 Pulsar 的计算逻辑。
pulsar_client2.9.1Pulsar 命令行客户端。
clickhouse22.3.10.22ClickHouse应用程序。
catalogd3.4.1Impala元数据服务的应用程序。
statestored3.4.1Impala集群节点管理应用程序。
impalad3.4.1Impala计算节点应用程序。
kudu_tserver1.14.0Kudu存储节点应用程序。
kudu_master1.14.0Kudu元数据和集群节点管理应用程序。
starrocks_fe2.4.1StarRocks的FE服务。
starrocks_fe2.4.1StarRocks的BE服务。