版本 | 环境 |
---|---|
OS | veLinux(Debian 10兼容版) |
Python2 | 2.7.16 |
Python3 | 3.7.3 |
Java | ByteOpenJDK 1.8.0_352 |
Hadoop集群 | HBase集群 | |
---|---|---|
Flume | 1.9.0 | - |
OpenLDAP | 2.4.58 | 2.4.58 |
Ranger | 1.2.0 | - |
ZooKeeper | 3.7.0 | 3.7.0 |
Flink | 1.15.1 | - |
HDFS | 2.10.2 | 2.10.2 |
MapReduce2 | 2.10.2 | - |
YARN | 2.10.2 | - |
Airflow | 2.4.2 | - |
Hive | 2.3.9 | - |
Hue | 4.9.0 | - |
Knox | 1.5.0 | - |
Presto | 0.267 | - |
Trino | 392 | - |
Spark | 2.4.8 | - |
Sqoop | 1.4.7 | - |
Tez | 0.10.1 | - |
Iceberg | 0.14.0 | - |
Impala | 3.4.1 | - |
Kudu | 1.14.0 | - |
HBase | 1.7.2 | 1.7.2 |
Oozie | 5.2.1 | - |
Dolphin Scheduler | 3.1.1 | - |
Hudi | 0.11.1 | - |
以下发布说明包括有关 EMR V2.2.0 的信息,更改与2.1.1有关。EMR V2.2.0为火山引擎EMR V2.2.x的第一个版本。
发布日期: 2023 年 03 月 28 日
【集群】HBase集群中集成Knox组件用于访问代理;并集成了YARN和MapReduce2;
【组件】Flink引擎支持avro,csv,debezium-json和avro-confluent等格式;
【组件】修复Presto写入TOS的潜在问题;
【组件】Hive适配CFS, 支持外部表方式访问数据;
【组件】presto-cli和trino-cli支持非明文方式输入密码,避免潜在的暴露密码风险;
【组件】Hue查询Presto、Trino时不再使用默认用户,需进行额外的用户认证;修复部分安全问题;
【组件】Iceberg适配TOS的读写,支持与PySpark的交互;
【组件】Dolphin Scheduler升级至3.1.3;
【组件】存算分离场景下,优化Spark引擎和MapReudce的写入性能。
通过Sqoop从SQL Server导入数据时,存在编码异常问题,如果需要使用此功能可联系售后处理,预计会在后续版本进行优化;
使用Dolphin Scheduler调度Presto数据源项目时,由于keystore文件只位于master-1节点,因此需要手动将keystore文件复制到集群各节点相应目录下,该步骤预计会在后续版本进行优化;
Dolphin Scheduler暂不支持使用tos、cfs进行资源中心资源存储以及执行数据质量任务,如需使用此功能可联系售后处理,预计会在后续版本支持该功能。
下面列出了 EMR 和此版本一起安装的组件。
组件 | 版本 | 描述 |
---|---|---|
zookeeper_server | 3.7.0 | 用于维护配置信息、命名、提供分布式同步的集中式服务。 |
zookeeper_client | 3.7.0 | ZooKeeper命令行客户端。 |
hive_metastore | 2.3.9 | Hive元数据存储服务。 |
hive_server | 2.3.9 | 用于将 Hive 查询作为 Web 请求接受的服务。 |
hive_client | 2.3.9 | Hive命令行客户端。 |
hdfs_namenode | 2.10.2 | 用于跟踪HDFS文件名和数据块的服务。 |
hdfs_datanode | 2.10.2 | 存储HDFS数据块的节点服务。 |
hdfs_secondary_namenode | 2.10.2 | 对NameNode数据进行周期性合并的服务。 |
hdfs_client | 2.10.2 | HDFS客户端命令行。 |
hdfs_journalnode | 2.10.2 | 用于管理 HA 模式下HDFS日志的服务。 |
hdfs_zkfc | 2.10.2 | 用户维护HA模式下HDFS NameNode从动态的服务。 |
hue_server | 4.9.0 | 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。 |
knox_gateway | 1.5.0 | 用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。 |
openldap | 2.4.58 | 后台认证以及用户数据权限管控服务。 |
ranger_admin | 1.2.0 | Ranger安全管理的中心接口服务。 |
ranger_usersync | 1.2.0 | 拉取用户和组的Ranger服务。 |
spark_jobhistoryserver | 3.2.1 | 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。 |
ksana | 1.0 | 为字节EMR团队自研组件,定位于SparkSQL数据仓库构建引擎,取代了Spark Thrift Server,兼容Hive的使用方式。 |
spark_client | 2.4.8 | Spark命令行客户端。 |
livy_server | 0.6.0 | 提供REST接口来与Spark交互的服务。 |
sqoop | 1.4.7 | 提供数据库与HDFS导入导出功能。 |
iceberg | 0.12.0 | Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。 |
yarn_resourcemanager | 2.10.2 | 分配和管理集群资源与分布式应用程序的 YARN 服务。 |
yarn_nodemanager | 2.10.2 | 管理单个节点上的容器的 YARN 服务。 |
yarn_client | 2.10.2 | YARN命令行客户端。 |
mapreduce2_historyserver | 2.10.2 | 保存作业执行信息的MapReduce服务。 |
mapreduce2_client | 2.10.2 | MapReduce命令行客户端。 |
tez_client | 0.10.1 | Tez命令行客户端。 |
flink_client | 1.15.1 | Flink命令行客户端。 |
airflow_webserver | 2.4.2 | Airflow提供的web服务。 |
airflow_scheduler | 2.4.2 | Airflow的调度器。 |
presto_cli | 0.267 | Presto命令行客户端。 |
presto_coordinator | 0.267 | Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。 |
presto_worker | 0.267 | Presto中负责所有Query相关数据的计算工作。 |
trino_cli | 392 | Trino命令行客户端。 |
trino_coordinator | 392 | Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。 |
trino_worker | 392 | Trino中负责所有Query相关数据的计算工作。 |
kerby_server | 2.0.1 | Kerberos认证服务。 |
flume_agent | 1.9.0 | Flume中的数据采集工具。 |
flume_client | 1.9.0 | Flume命令行客户端。 |
catalogd | 3.4.1 | Impala元数据服务的应用程序。 |
statestored | 3.4.1 | Impala集群节点管理应用程序。 |
impalad | 3.4.1 | Impala计算节点应用程序。 |
kudu_tserver | 1.14.0 | Kudu存储节点应用程序。 |
kudu_master | 1.14.0 | Kudu元数据和集群节点管理应用程序。 |
oozie_server | 5.2.1 | Oozie服务端应用程序。 |
oozie_client | 5.2.1 | Oozie的命令行客户端。 |