You need to enable JavaScript to run this app.
E-MapReduce

E-MapReduce

复制全文
EMR 1.3.x版本
EMR 1.3.1版本说明
复制全文
EMR 1.3.1版本说明

环境信息

系统环境

版本

环境

OS

veLinux(Debian 10兼容版)

Python2

2.7.16

Python3

3.7.3

Java

ByteOpenJDK 1.8.0_302

应用程序版本

remote_base_log_folder

Hadoop集群

Flink集群

Kafka集群

Presto集群

Trino集群

HBase集群

OpenSearch集群

TensorFlow集群

Doris集群

Pulsar集群

Flume

1.9.0

1.9.0

1.9.0

OpenLDAP

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

2.4.58

Ranger

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

2.1.0

ZooKeeper

3.7.0

3.7.0

3.7.0

3.7.0

3.7.0

3.7.0

Flink

1.11

1.11

HDFS

3.3.1

3.3.1

3.3.1

3.3.1

3.3.1

3.3.1

MapReduce2

3.3.1

3.3.1

3.3.1

YARN

3.3.1

3.3.1

3.3.1

Airflow

2.2.0

2.2.0

2.2.0

Hive

3.1.2

3.1.2

3.1.2

Hue

4.9.0

4.9.0

4.9.0

Kafka

2.3

Knox

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

Presto

0.267

0.267

Presto on YARN

0.267

Trino

365

365

Trino on YARN

365

Spark

3.2.1

3.2.1

Sqoop

1.4.7

Kerby

2.0.1

Tez

0.10.1

Iceberg

0.12.0

0.12.0

0.12.0

Hudi

0.10.0

HBase

2.3.7

OpenSearch

1.2.3

TensorFlow

2.7.0

TensorFlow on YARN

1.0.0

Doris

1.0.0

Pulsar

2.9.1

BookKeeper

4.14.2

发布说明

以下发布说明包括有关 EMR V1.3.1 的信息, 更改与 1.3.0 有关。EMR V1.3.0为火山引擎EMR V1.3.x的第二个版本。
发布日期: 2022 年 08 月 04 日

新增功能

  • 【通用】Hadoop集群 弹性伸缩 白名单发布:
    • 支持多种伸缩场景
      • 弹性扩展,用户根据自己的业务需求自动调整其弹性计算资源,在满足业务需求高峰增长时无缝地增加ECS实例;
      • 弹性收缩,用户根据自己的业务需求自动调整其弹性计算资源,在业务需求下降时自动减少ECS实例以节约成本;
      • 弹性自愈,用户根据自己的业务需求自动替换不健康的ECS实例使业务始终保持正常的负载,为业务保驾护航。
    • 支持多种伸缩策略
      • 固定数量模式,通过“最小实例数”属性,可以让您始终保持健康运行的ECS实例数量,自动替换不健康实例,以保证日常场景实时可用;
      • 定时伸缩模式,配置定时任务,一次性在固定时间增加或减少ECS实例,适合于突发性的且业务需求比较明确的场景;
      • 周期伸缩模式,配置周期性任务,定时地增加或减少ECS实例,适合于比较稳定的业务预期;
  • 【集群】集群服务上下线:支持将某一节点上的一个组件下线(当组件实例数达到最小数量限制时就不能再继续下线)。
  • 【组件】Trino Bloom索引增强,包括
    • 支持在CREATE INDEX时,为Bloom索引设置roperties参数;
    • 只支持对Iceberg表开启索引功能,且要求Iceberg表的format.version=2;
    • 支持对INT等数字类型的字段构建Bloom索引。
  • 【组件】Hue增加支持PySpark
  • 【组件】支持Airflow RemoteLog写入TOS,配置如下:
    • 设置 remote_logging=True;
    • 通过 remote_base_log_folder 指定对应TOS路径;
    • 无需指定 remote_log_conn_id。

更改、增强和解决的问题

  • 【通用】修复云监控无法采集EMR的ECS实例的部分数据指标的问题。
  • 【通用】集群服务日志外置,不再占用集群内部存储和计算资源,提高集群性能。
  • 【组件】HDFS默认副本策略优化:根据用户选择的机型磁盘动态设置HDFS默认副本数(磁盘为云盘时默认副本是2,为本地盘时默认副本数是3),根据硬件配置优化参数配置。
  • 【组件】Doris稳定性增加:合入社区1.0.1分支的20多个bug,提升Doris组件的稳定性。
  • 【组件】Spark版本升级3.2.1
  • 【通用】监控指标链路升级改造:
    • 自 1.3.1 版本起的EMR集群,默认对接云监控,用户可以在云监控产品页面的 数据****中台 -- E-MapReduce 空间中查看更多的监控图标,进行更细致的告警配置。
    • 目前完成了 HDFS,HBase,Hive,YARN,Kafka,Presto,Trino 服务组件的接入。
    • Promethus 改单点为多实例部署,每节点实例收集本节点上的服务指标并输出,减轻 Master 单点收集的压力,规避单点导致整体指标不可用的问题。

已知问题

  • 【集群】可能会出现偶现的集群重启失败的问题,可以通过手工启动集群服务解决,实现集群的正常运行。

组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件

版本

描述

zookeeper_server

3.7.0

用于维护配置信息、命名、提供分布式同步的集中式服务。

zookeeper_client

3.7.0

ZooKeeper命令行客户端。

hive_metastore

3.1.2

Hive元数据存储服务。

hive_server

3.1.2

用于将 Hive 查询作为 Web 请求接受的服务。

hive_client

3.1.2

Hive命令行客户端。

hdfs_namenode

3.3.1

用于跟踪HDFS文件名和数据块的服务。

hdfs_datanode

3.3.1

存储HDFS数据块的节点服务。

hdfs_secondary_namenode

3.3.1

对NameNode数据进行周期性合并的服务。

hdfs_client

3.3.1

HDFS客户端命令行。

hdfs_journalnode

3.3.1

用于管理 HA 模式下HDFS日志的服务。

hdfs_zkfc

3.3.1

用户维护HA模式下HDFS NameNode从动态的服务。

hue_server

4.9.0

用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。

knox_gateway

1.5.0

用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。

openldap

2.4.58

后台认证以及用户数据权限管控服务。

ranger_admin

2.1.0

Ranger安全管理的中心接口服务。

ranger_usersync

2.1.0

拉取用户和组的Ranger服务。

spark_jobhistoryserver

3.2.1

用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。

ksana

1.0

为字节EMR团队自研组件,定位于SparkSQL数据仓库构建引擎,取代了Spark Thrift Server,兼容Hive的使用方式。

spark_client

3.2.1

Spark命令行客户端。

livy_server

3.2.1

提供REST接口来与Spark交互的服务。

sqoop

1.4.7

提供数据库与HDFS导入导出功能。

iceberg

0.12.0

Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。

hudi

0.10.0

增量处理框架,以支持低延迟和高效率的数据管道。

yarn_resourcemanager

3.3.1

分配和管理集群资源与分布式应用程序的 YARN 服务。

yarn_nodemanager

3.3.1

管理单个节点上的容器的 YARN 服务。

yarn_client

3.3.1

YARN命令行客户端。

mapreduce2_historyserver

3.3.1

保存作业执行信息的MapReduce服务。

mapreduce2_client

3.3.1

MapReduce命令行客户端。

tez_client

0.10.1

Tez命令行客户端。

flink_client

1.11.3

Flink命令行客户端。

airflow_webserver

2.2.0

Airflow提供的web服务。

airflow_scheduler

2.2.0

Airflow的调度器。

presto_cli

0.267

Presto命令行客户端。

presto_coordinator

0.267

Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。

presto_worker

0.267

Presto中负责所有Query相关数据的计算工作。

trino_cli

365

Trino命令行客户端。

trino_coordinator

365

Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。

trino_worker

365

Trino中负责所有Query相关数据的计算工作。

kerby_server

2.0.1

Kerberos认证服务。

flume_agent

1.9.0

Flume中的数据采集工具。

flume_client

1.9.0

Flume命令行客户端。

kafka_broker

2.3

Kafka中的消息处理节点。

hbase_master

2.3.7

适用于负责协调区域和执行管理命令的 HBase 集群的服务。

hbase_regionserver

2.3.7

用于服务于一个或多个 HBase 区域的服务。

hbase_client

2.3.7

HBase 命令行客户端。

opensearch

1.2.3

OpenSearch服务。

opensearch_dashboard

1.2.3

OpenSearch的可视化仪表盘。

tensorflow

2.7.0

适用于高性能数值计算的 TensorFlow 开源软件库。

tensorflow_on_yarn

1.0.0

TensorFlow YARN应用程序和库。

doris_fe

1.0.0

Doris的FE服务。

doris_be

1.0.0

Doris的BE服务。

bookie

4.14.2

负责Pulsar消息数据的存储。

pulsar_broker

2.9.1

提供读写服务以及 Pulsar 的计算逻辑。

pulsar_client

2.9.1

Pulsar 命令行客户端。

最近更新时间:2025.06.09 15:02:34
这个页面对您有帮助吗?
有用
有用
无用
无用