You need to enable JavaScript to run this app.
导航
EMR-3.8.0 版本说明
最近更新时间:2024.01.29 17:59:58首次发布时间:2024.01.29 17:59:58
环境信息
版本环境
OSveLinux(Debian 10兼容版)
Python22.7.16
Python33.10.13
JavaByteOpenJDK 1.8.0_352

系统环境

应用程序版本

Hadoop集群Flink集群Kafka集群Pulsar集群Presto集群Trino集群HBase集群Doris集群StarRocks集群
HDFS3.3.43.3.4--3.3.43.3.43.3.4--
YARN3.3.43.3.4----3.3.4--
MapReduce23.3.43.3.4----3.3.4--
Hive3.1.3---3.1.33.1.3---
Spark3.3.3--------
Tez0.10.2--------
Knox1.5.01.5.01.5.0-1.5.01.5.01.5.0--
Openldap2.5.132.5.132.5.13-2.5.132.5.132.5.13--
Zookeeper3.7.03.7.03.7.03.7.03.7.03.7.03.7.0--
Ossa1.0.01.0.0-----1.0.01.0.0
Kafka--3.2.4------
Pulsar---3.0.1-----
Doris-------1.2.5和2.0.2-
Starrocks--------2.5.13和3.1.6
BookKeeper---4.16.2-----
HBase2.3.7-----2.3.7--
Celeborn0.3.1--------
Flink1.16.11.16.1-------
Presto0.280---0.280----
Trino432----432---
DolphinScheduler3.1.7--------
Iceberg1.2.0--------
Delta Lake2.3.0--------
Hudi0.12.2--------
Airflow2.4.2---2.4.22.4.2---
Hue4.11.0---4.11.04.11.0---
Kyuubi1.7.1--------
Sqoop1.4.7--------
Impala3.4.1--------
Kudu1.14.0--------
Phoenix5.1.3-----5.1.3--
Ranger2.3.02.3.02.1.0-2.3.02.3.02.3.0--
Flume1.9.01.9.01.9.0------
GTS1.0.0--------
Proton1.7.01.7.0--1.7.01.7.0---

EMR-3.8.0发布说明

更改、增强和解决的问题

  • 【组件】Celeborn组件版本由0.3.0升级为0.3.1。

  • 【组件】StarRocks组件版本由3.1.4升级为3.1.6。

  • 【组件】Ranger组件版本由2.1.0升级为2.3.0。

  • 【组件】Impala组件支持LZO数据压缩格式。

  • 【组件】Flink 集成Bytehouse CE Connector,实现数据写入能力。

  • 【组件】开箱参数优化:

    • Kyuubi组件默认开启Spark动态资源调整参数。

    • Doris组件根据ECS机型动态设置内存。

  • 【组件】存算分离场景下,优化 Spark 关于job committer 的配置参数。

  • 【组件】存算分离场景下,Impala组件支持读写存储在对象存储TOS中的Hive表。

  • 【组件】存算分离场景下,对存储在对象存储TOS中的Hive的Parquet表/Sequence表/TextFile表,Sqoop支持全量和增量方式将数据到该表中。

  • 【组件】存算分离场景下,Proton的特性增强

    • 支持元数据自动同步功能;

    • ObjectInputStream连接复用优化;

    • 优化Cache模式下随机读性能,Cache miss场景下追平RawFs;

    • RawFs支持Fuse;

    • 解决若干bug;

  • 【组件】适配云上生态产品DataLeap,在DataLeap中终止Hive任务后,EMR Hive中会也同步将任务进行kill掉。

组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件版本描述
zookeeper_server3.7.0用于维护配置信息、命名、提供分布式同步的集中式服务。
zookeeper_client3.7.0ZooKeeper命令行客户端。
hive_metastore3.1.3Hive元数据存储服务。
hive_server3.1.3用于将 Hive 查询作为 Web 请求接受的服务。
hive_client3.1.3Hive命令行客户端。
hdfs_namenode3.3.4用于跟踪HDFS文件名和数据块的服务。
hdfs_datanode3.3.4存储HDFS数据块的节点服务。
hdfs_secondary_namenode3.3.4对NameNode数据进行周期性合并的服务。
hdfs_client3.3.4HDFS客户端命令行。
hdfs_journalnode3.3.4用于管理 HA 模式下HDFS日志的服务。
hdfs_zkfc3.3.4用户维护HA模式下HDFS NameNode从动态的服务。
hue_server4.11.0用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。
knox_gateway1.5.0用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。
openldap2.5.13后台认证以及用户数据权限管控服务。
ranger_admin2.3.0Ranger安全管理的中心接口服务。
ranger_usersync2.3.0拉取用户和组的Ranger服务。
spark_jobhistoryserver3.3.3用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark_client3.3.3Spark命令行客户端。
livy_server0.8.0提供REST接口来与Spark交互的服务。
sqoop1.4.7提供数据库与HDFS导入导出功能。
iceberg1.2.0Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。
hudi0.12.2增量处理框架,以支持低延迟和高效率的数据管道。
yarn_resourcemanager3.3.4分配和管理集群资源与分布式应用程序的 YARN 服务。
yarn_nodemanager3.3.4管理单个节点上的容器的 YARN 服务。
yarn_client3.3.4YARN命令行客户端。
mapreduce2_historyserver3.3.4保存作业执行信息的MapReduce服务。
mapreduce2_client3.3.4MapReduce命令行客户端。
tez_client0.10.2Tez命令行客户端。
flink_client1.16.1Flink命令行客户端。
airflow_webserver2.4.2Airflow提供的web服务。
airflow_scheduler2.4.2Airflow的调度器。
presto_cli0.280Presto命令行客户端。
presto_coordinator0.280Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。
presto_worker0.280Presto中负责所有Query相关数据的计算工作。
trino_cli432Trino命令行客户端。
trino_coordinator432Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。
trino_worker432Trino中负责所有Query相关数据的计算工作。
flume_agent1.9.0Flume中的数据采集工具。
flume_client1.9.0Flume命令行客户端。
kafka_broker3.2.4Kafka中的消息处理节点。
hbase_master2.3.7适用于负责协调区域和执行管理命令的 HBase 集群的服务。
hbase_regionserver2.3.7用于服务于一个或多个 HBase 区域的服务。
hbase_client2.3.7HBase 命令行客户端。
opensearch1.2.3OpenSearch服务。
opensearch_dashboard1.2.3OpenSearch的可视化仪表盘。
tensorflow2.7.0适用于高性能数值计算的 TensorFlow 开源软件库。
tensorflow_on_yarn1.0.0TensorFlow YARN应用程序和库。
doris_fe1.2.5 和2.0.2Doris的FE服务。
doris_be1.2.5和2.0.2Doris的BE服务。
bookKeeper4.16.2负责Pulsar消息数据的存储。
pulsar_broker3.0.1提供读写服务以及 Pulsar 的计算逻辑。
pulsar_client3.0.1Pulsar 命令行客户端。
Pulsar Manager0.2.0Pulsar 可视化工具。
clickhouse22.3.10.22ClickHouse应用程序。
catalogd3.4.1Impala元数据服务的应用程序。
statestored3.4.1Impala集群节点管理应用程序。
impalad3.4.1Impala计算节点应用程序。
kudu_tserver1.14.0Kudu存储节点应用程序。
kudu_master1.14.0Kudu元数据和集群节点管理应用程序。
starrocks_fe2.5.13和3.1.6StarRocks的FE服务。
starrocks_be2.5.13和3.1.6StarRocks的BE服务。
Ossa1.0.0为字节EMR团队自研组件,用于支持作业管理等功能。
Proton1.7.0火山引擎 E-MapReduce(EMR)团队推出的,针对存算分离场景提供的加速引擎,其深度优化的 TOS 访问能力和 JobCommitter 功能,可极大地提升作业的执行效率。
Kyuubi1.7.1是一个分布式和多租户网关,用于在数据仓库和湖仓上提供无服务器 SQL。