You need to enable JavaScript to run this app.
导航

EMR-2.0.0版本说明

最近更新时间2023.01.19 11:40:44

首次发布时间2022.10.12 20:49:13

环境信息

系统环境

版本环境
OSveLinux(Debian 10兼容版)
Python22.7.16
Python33.7.3
JavaByteOpenJDK 1.8.0_302

应用程序版本

Hadoop集群
Flume1.9.0
OpenLDAP2.4.58
Ranger1.2.0
ZooKeeper3.7.0
Flink1.15.1
HDFS2.10.2
MapReduce22.10.2
YARN2.10.2
Airflow2.2.0
Hive2.3.9
Hue4.9.0
Knox1.5.0
Presto0.267
Trino365
Spark3.2.1
Sqoop1.4.7
Tez0.10.1
Iceberg0.12.0
Impala3.4.1
Kudu1.14.0
发布说明

以下发布说明包括有关 EMR V2.0.0 的信息。EMR V2.0.0为火山引擎EMR V2.0.x的第一个版本,也是带有Hadoop 2.x软件包的第一个EMR版本,目前 EMR V2.0.0已处于下线状态,我们推荐您创建 EMR V2.0.1的集群版本,详见 EMR-V2.0.1版本说明
发布日期: 2022 年 10 月 11 日

新增功能

  • 【通用】集群内hostname解析接入PrivateZone,不再依赖/etc/hosts:

    • 集群内通信可以使用长短hostname:emr-master-1和emr-2tfyq6eeoq5g1j17w0zo-master-1

    • 集群所在VPC内与集群内ECS通信可以使用完整的域名(见节点管理-节点组列表的DNS列)如:emr-2tfyq6eeoq5g1j17w0zo-master-1.cn-beijing.emr-13fy9kueufzsw3n6nu56wmf71.internal

  • 【通用】支持IAM用户管理,可导入IAM用户,重置密码。

  • 【集群】支持集群服务管理,如添加服务,服务/组件启动和停止,服务常用参数配置。

  • 【集群】支持集群运维管理,如集群扩容、释放,机器组管理,告警管理,查看集群操作日志。

  • 【集群】集群服务上下线:支持将某一节点上的一个组件下线(当组件实例数达到最小数量限制时就不能再继续下线。

  • 【集群】弹性伸缩 白名单发布:

    • 支持多种伸缩场景

      • 弹性扩展,用户根据自己的业务需求自动调整其弹性计算资源,在满足业务需求高峰增长时无缝地增加ECS实例;

      • 弹性收缩,用户根据自己的业务需求自动调整其弹性计算资源,在业务需求下降时自动减少ECS实例以节约成本;

      • 弹性自愈,用户根据自己的业务需求自动替换不健康的ECS实例使业务始终保持正常的负载,为业务保驾护航。

    • 支持多种伸缩策略

      • 固定数量模式,通过“最小实例数”属性,可以让您始终保持健康运行的ECS实例数量,自动替换不健康实例,以保证日常场景实时可用;

      • 定时伸缩模式,配置定时任务,一次性在固定时间增加或减少ECS实例,适合于突发性的且业务需求比较明确的场景;

      • 周期伸缩模式,配置周期性任务,定时地增加或减少ECS实例,适合于比较稳定的业务预期;

  • 【集群】适配DataLeap:支持与大数据研发治理套件绑定,提供集数据集成、开发、运维、治理、资产管理于一生的大数据中台解决方法,支持Spark、Hive等作业开发(不包括Flink引擎相关的开发)。

  • 【组件】支持HDFS、YARN HA(高可用)模式,当Master节点上一个实例挂掉时,服务仍可正常运行。

  • 【组件】支持读取TOS、CFS:

    • Hadoop 客户端新增读写TOS数据的能力;Hive可使用TOS作为数据存储介质。

    • 支持多种方式访问TOS:自定义配置方式配置AK/SK、环境变量配置AK/SK和对VEECSforEMRRole角色授权TOS访问权限

  • 【组件】基于Ranger提供HDFS、YARN、Hive组件的权限访问控制。

已知问题

  • 高可用模式下master2节点宕机时,LDAP启动时会偶现失败。临时解决方法:重启未宕机的master节点上的ambari server即可。

  • 高可用模式下master2节点宕机时,执行Hive、Spark等作业非常缓慢。临时解决方法:调整HDFS的配置参数dfs.ha.namenodes.emr-cluster中的master1和matser2顺序即可。

  • 日志中心中部分组件日志为空,如YARN组件。可以通过登录到EMR集群的对应ECS节点上查看相应组件的日志。

组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件版本描述
zookeeper_server3.7.0用于维护配置信息、命名、提供分布式同步的集中式服务。
zookeeper_client3.7.0ZooKeeper命令行客户端。
hive_metastore2.3.9Hive元数据存储服务。
hive_server2.3.9用于将 Hive 查询作为 Web 请求接受的服务。
hive_client2.3.9Hive命令行客户端。
hdfs_namenode2.10.2用于跟踪HDFS文件名和数据块的服务。
hdfs_datanode2.10.2存储HDFS数据块的节点服务。
hdfs_secondary_namenode2.10.2对NameNode数据进行周期性合并的服务。
hdfs_client2.10.2HDFS客户端命令行。
hdfs_journalnode2.10.2用于管理 HA 模式下HDFS日志的服务。
hdfs_zkfc2.10.2用户维护HA模式下HDFS NameNode从动态的服务。
hue_server4.9.0用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。
knox_gateway1.5.0用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。
openldap2.4.58后台认证以及用户数据权限管控服务。
ranger_admin1.2.0Ranger安全管理的中心接口服务。
ranger_usersync1.2.0拉取用户和组的Ranger服务。
spark_jobhistoryserver3.2.1用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
ksana1.0为字节EMR团队自研组件,定位于SparkSQL数据仓库构建引擎,取代了Spark Thrift Server,兼容Hive的使用方式。
spark_client3.2.1Spark命令行客户端。
livy_server3.2.1提供REST接口来与Spark交互的服务。
sqoop1.4.7提供数据库与HDFS导入导出功能。
iceberg0.12.0Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。
yarn_resourcemanager2.10.2分配和管理集群资源与分布式应用程序的 YARN 服务。
yarn_nodemanager2.10.2管理单个节点上的容器的 YARN 服务。
yarn_client2.10.2YARN命令行客户端。
mapreduce2_historyserver2.10.2保存作业执行信息的MapReduce服务。
mapreduce2_client2.10.2MapReduce命令行客户端。
tez_client0.10.1Tez命令行客户端。
flink_client1.11.3Flink命令行客户端。
airflow_webserver2.2.0Airflow提供的web服务。
airflow_scheduler2.2.0Airflow的调度器。
presto_cli0.267Presto命令行客户端。

presto_coordinator

0.267

Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。

presto_worker0.267Presto中负责所有Query相关数据的计算工作。
trino_cli365Trino命令行客户端。
trino_coordinator365Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。
trino_worker365Trino中负责所有Query相关数据的计算工作。
kerby_server2.0.1Kerberos认证服务。
flume_agent1.9.0Flume中的数据采集工具。
flume_client1.9.0Flume命令行客户端。
catalogd3.4.1Impala元数据服务的应用程序。
statestored3.4.1Impala集群节点管理应用程序。
impalad3.4.1Impala计算节点应用程序。
kudu_tserver1.14.0Kudu存储节点应用程序。
kudu_master1.14.0Kudu元数据和集群节点管理应用程序。