You need to enable JavaScript to run this app.
导航
EMR on VKE 功能发布记录
最近更新时间:2025.04.24 11:07:52首次发布时间:2024.03.01 11:05:41
我的收藏
有用
有用
无用
无用

本文介绍火山引擎 EMR 容器版各版本功能发布和文档动态,新特性将在各个地域陆续发布,欢迎体验。
2025年4月

  • EMR 平台功能更新

功能名称

功能概述

发布地域

虚拟集群支持部署数据湖加速服务 Proton(白名单)

EMR on VKE 从3.15.0版本开始允许用户在创建 EMR 虚拟集群时部署数据湖加速服务 Proton。目前该功能为白名单功能,您可以通过提工单的方式试用该服务。

华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)、华东智驾专区、华北智驾专区

Hive 元数据支持使用 LAS Catalog

Hive 元数据在支持外置 RDS 的基础上,新增支持 LAS Catalog。相比外置 RDS,LAS Catalog 的统一元数据能力,允许在数据湖场景下支持多个计算引擎/产品读取一份对象存储数据。目前 LAS Catalog 支持 EMR 三种形态(EMR Serverless, EMR on VKE, EMR on ECS) 和 Serverless Flink,支持 Bytehouse 也即将上线。

支持挂载存储卷(PVC)

机器学习、模型训练用户通常会将代码、数据预处理数据、模型训练数据存储在不同存储产品上,因其数据量、性能在不同阶段场景有所不同。从3.15.0版本开始,EMR 支持 Spark、RayCluster 的 Pod 可以挂载不同存储卷,包括 NAS、vePFS、TOS、EBS 等,支持用户以本地路径的方式访问这些存储。以满足其通过EMR快速读写不同存储产品上的数据诉求。

RayCluster 支持多 WorkerGroup

对于常驻的 RayCluster 存在不同负载使用不同资源(CPU 和 GPU 等),且做到负载互相隔离。EMR 支持可视化的对 RayCluster 进行多 WorkerGroup 配置。不同的 WorkerGroup 可以指定不同的资源类型和数量,用户在提交作业时可以指定提交到特定的 WorkerGroup。

作业管理正式发布

作业管理功能正式发布上线,目前支持 EMR on VKE 虚拟集群上的 Spark 和 Ray 作业的提交和查看,包括作业的耗时、资源消耗等,大幅提升作业的可观测性。我们将在后续版本中支持EMR Serverless 以及 EMR on ECS 的作业管理。

作业管理增强

之前 EMR 作业管理的作业提交主要针对 Ray Job(提交任务时拉起 RayCluster,任务结束时释放)。考虑到持续训练、推理场景大多提交任务到常驻的 RRayCluster,EMR作业管理新增支持用户提交 Ray 任务时指定提交到运行中的 RayCluster。你可以通过 OpenAPI 或者控制台提交。

更灵活的 RayCluster 镜像选择

以往您通过 EMR 控制台使用 EMR 基础镜像拉起 RayCluster 时,默认使用最新的版本。现在允许你选择经过 EMR 充分测试的多个版本,以满足您对不同版本的诉求。比如您期望持续使用相同的一个版本,减少新版本引入带来的问题。另外 EMR 提供多种类型的 Ray 镜像,我们按照使用场景分类,包含了一些场景下常用的第三方包,并做了充分的兼容性测试。目前提供ray、ray-ml、ray-ds 三种类型镜像。

资源类型为已有 VKE 的 EMR 虚拟集群,可以通过 EMR 控制台物理扩容节点

现在支持您通过 EMR 控制台直接对您的容器集群(VKE)进行物理节点扩容。以往如果您选择在已购买的 VKE 集群上部署 EMR 服务,您只能在 VKE 控制台上进行扩容,现在您可以将这些动作统一在 EMR 控制台上操作,减少不必要的产品控制台切换。

  • EMR 软件栈更新

软件栈版本

功能描述

相关文档

发布地域

软件栈 EMR-3.15.0

新增功能

  • 新增数据湖加速服务 Proton(白名单)
  • Hive元数据支持使用 LAS Catalog
  • 支持挂载存储卷(PVC)
  • 支持 RayCluster 配置多 WorkerGroup
  • 作业管理正式发布

更新、增强和解决的问题

  • 通过 OpenAPI 和控制台作业提交,支持将 Ray 任务提交到运行中的 RayCluster。
  • 更灵活的 RayCluster 镜像选择。
  • 资源类型为已有 VKE 的 EMR 虚拟集群,可以通过 EMR 控制台物理扩容节点。

遗留问题

  • 创建 EMR 虚拟集群时如果选择新建VKE资源,暂不支持部署 Kyuubi 和 Zookeeper 服务,待后续版本支持。

EMR-3.15.0发布说明

华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)、华东智驾专区、华北智驾专区

2025年3月

  • EMR 平台功能更新

功能名称

功能概述

发布地域

Volcano 服务正式化发布

从 EMR-3.14.0 版本开始,Volcano 服务将从白名单发布改成正式发布,用户无需提工单开白即可在 EMR 上部署和使用 Volcano 调度服务。Volcano 调度与Kubernetes自带调度相比,更适合大数据和批数据处理任务场景

华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)

华东智驾专区上线

EMR 容器形态在华东智驾专区上线,提供传统大数据和大模型数据预处理能力

EMR 虚拟集群运行时支持开启 RayHistoryServer

EMR-3.14.0 之前版本仅支持EMR虚拟集群创建时开启 Ray HistoryServer。 Ray HistoryServer 是火山 EMR 对开源 Ray 的引擎增强,支持对已释放的 RayCluster 的任务进行查看和分析。 EMR-3.14.0以及之后版本支持虚拟集群运行时手动开启 Ray HistoryServer

虚拟集群支持查看 Pod 部署详情

支持查看运行时 EMR 虚拟集群的Pod部署,包括节点调度策略,Pod 规格等

2024年12月

  • EMR 平台功能更新

功能名称

功能概述

发布地域

新增弹性伸缩功能

EMR 虚拟集群支持容器服务(VKE)的节点弹性伸缩能力,当节点池开启用弹性伸缩时,节点上的 Pod 因为资源不足处于 Pending 状态时触发自动扩容动作。用户通过 EMR 控制台可以查看和修改节点池弹性伸缩启用状态,查看扩缩容记录。弹性伸缩在后续的版本中将支持使用弹性容器实例 VCI 作为弹性算力

华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)

弹性容器实例 VCI 调度 Spark 和 Ray 作业开箱即用

EMR-VKE-1.7.0及之前版本允许用户在创建虚拟集群时选择使用弹性容器实例(VCI)调度Spark作业。从 EMR-VKE-1.8.0开始,允许用户在创建虚拟集群时选择使用 VCI 调度 Ray 作业。使用 VCI 调度 Spark 和 Ray 作业,无需预留固定资源,可以大幅减少资源成本

OpenAPI 支持作业的查看和提交
(仅白名单用户支持)

从 EMR-VKE-1.8.0开始,允许用户通过 OpenAPI 的方式提交和查看 Spark 和 Ray 作业。用户在工作流中通过 EMR OpenAPI 提交作业后,可通过 EMR 控制台监控和分析运行中和已完成的作业

  • EMR 软件栈更新

软件栈版本

功能描述

相关文档

发布地域

软件栈 EMR-3.13.0

引擎能力优化

Ray

  • Ray Data 增加算子背压指标。
  • 增加 openSearch datasource。
  • Ray Dashboard 增加分页功能,支持万级 task 展示。
  • Ray Dashboard 增加认证能力。
  • Ray Core优化Worker 弹性扩缩容性能。

Spark

  • 部分开箱参数优化。
  • 增加部分 Spark 指标。
  • Spark UI 支持显示 python 堆栈信息。

EMR-VKE-1.8.0发布说明

华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)

2024年11月

  • EMR 平台功能更新

功能名称

功能概述

发布地域

EMR 容器版正式商业化

自2024年11月1日起,火山引擎 EMR 容器版从公测阶段转为商业化,商业化后将收取EMR管理费用。北京、上海、广州 Region 按照 vCPU 0.04 元/核/小时,内存0.004 元/GB/小时收取。 柔佛 Region 按照 vCPU 0.07 元/核/小时,内存0.007 元/GB/小时收取管理费。 更多详情查看计费说明

华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)

集成 Volcano 调度器,支持可视化调度策略和队列管理

用户创建集群时支持对默认调度器进行设置,默认使用 Volcano 作为调度器。Volcano 调度器支持 Binpack、Gang等调度策略,相比 Kubernete 自带的调度器, 对大数据批处理任务更友好,便于管理

支持通过 EMR 控制台和 OpenAPI 提交 Spark 和 Ray 作业

EMR 3.12.0及之后版本支持用户通过 EMR 控制台和 OpenAPI 提交 Spark 和 Ray 作业。通过 EMR 作业管理实现一站式的作业全生命周期管理,包括作业提交、状态监控和作业日志分析

支持对 EMR 组件 Pod 进行扩容和规格调整

用户可以通过 EMR 控制台对 SparkHistoryServer、CelebornMaster/Worker、RayHistoryServer 等组件进行 Pod 扩容和规格调整,以适应不同业务的高可用、负载变化等需求

优化服务默认部署策略,允许用户手动调整节点和 Pod 级别部署策略

EMR 3.12.0版本开始提供更灵活的组件部署策略。用户在创建 EMR 虚拟集群时允许手动调整节点和 Pod 级别的部署策略,以满足各种亲和、反亲和需求。此外,EMR 优化了默认部署策略,尽量将相同角色的 Pod 打散到不同物理节点上,实现服务的高可用,提升整体资源利用

  • EMR 软件栈更新

软件栈版本

功能描述

相关文档

发布地域

软件栈 EMR-3.12.0

_

EMR-3.12.0发布说明

华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)

2024年9月

  • EMR 平台功能更新

功能名称

功能概述

发布地域

创建 EMR 虚拟集群时支持新建VKE集群

EMR-VKE-1.7.0及之后版本支持创建 EMR 虚拟集群时直接新建 VKE 集群,对算法工程师或无离在线混合部署需求的用户而言,减少了创建 EMR 虚拟集群的步骤和复杂度

华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)

提供更详细的操作日志

提供更丰富的操作信息详细信息,帮助用户分析操作(如创建集群/扩容等)失败原因

  • EMR 软件栈更新

软件栈版本

功能描述

相关文档

发布地域

软件栈 EMR-VKE 1.7.0

遗留问题
创建 EMR 虚拟集群时如果选择新建 VKE 资源,暂不支持部署 Kyuubi 和 Zookeeper 服务,待后续版本支持

EMR-VKE-1.7.0发布说明

华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)

2024年8月

  • EMR 平台功能更新

功能名称

功能概述

发布地域

使用弹性容器实例 VCI调度 Spark 作业

支持使用弹性容器实例(VCI)调度 Spark 作业,满足业务高峰弹性算力需求,减少常驻资源规模,实现降本

华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)

虚拟集群操作日志接入日志中心

虚拟集群操作日志接入 EMR 控制台日志中心,用于日常操作审计和问题排查

作业监控

通过作业管理可以监控虚拟集群上的 Spark 和 Ray 作业,支持作业详情和日志详情查看,便于作业问题分析排查。此功能当前为测试阶段

丰富监控指标

EMR 控制台丰富 Spark、Celeborn 监控指标,支持接入云上托管版 Prometheus,用于日常运维监控

  • EMR 软件栈更新

软件栈版本

功能描述

相关文档

发布地域

软件栈 EMR-VKE 1.6.0

遗留问题
【组件】单个 RayCluster 上持续运行超过1500+任务,可能会报 low memory 异常,为开源已知问题

EMR-VKE-1.6.0发布说明

华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)

2024年6月

  • EMR 平台功能更新

功能名称

功能概述

发布地域

Ray HistoryServer

部署 EMR Ray 服务时默认启动 Ray HistoryServer,对 Ray 作业日志进行持久化存储,便于查看和分析历史作业

华北2(北京)、华东2(上海)、亚太东南(柔佛)

百万级 Partition Shuffle

EMR on VKE 对 Celeborn 进行优化,提供百万级别的 Spark Partition Shuffle 能力,以满足文本数据预处理场景下百万级 Partition 需求

支持 Spark SQL 作业类型

用户在创建 EMR 虚拟集群时,如果选择部署 Spark 和 HiveMetastore 服务,将允许执行 Spark SQL 作业。EMR on VKE 以前版本仅支持 Spark Jar、PySpark 等作业类型

OpenAPI 更新

可以通过 AddComponentInstance 接口在安装了 Ray 的 EMR 虚拟集群上启动 RayCluster

新 Region 开服

EMR on VKE 开服 Region 新增华东2(上海)和亚太东南(柔佛), 已支持华北2(北京)、华东2(上海)和亚太东南(柔佛)

  • EMR 软件栈更新

软件栈版本

功能描述

相关文档

发布地域

软件栈 EMR-VKE 1.4.0

新功能

【组件】新增 HiveMetastore 组件,以满足允许 Spark SQL 作业需求

【组件】Ray 软件版本从2.9.3升级至2.22.0

遗留问题
【组件】Ray 任务运行中会产生大量日志,日志会占用磁盘空间,需要关注您的磁盘空间剩余情况。
【组件】RayCluster 运行作业建议并发在100以内,如果并发过大退出任务时可能会出现报错。
【组件】Spark 异常中断的作业,SparkHistoryServer 显示状态为运行中
【管控】暂不支持 Celeborn 参数值设置为数字

EMR-VKE-1.5.0发布说明

华北2(北京)、华东2(上海)、亚太东南(柔佛)

2024年4月

  • EMR 平台功能更新

功能名称

功能概述

发布地域

自定义镜像

EMR On VKE 支持将自定义 Docker 镜像作为集群中任务的默认工作负载运行时。用户可以从火山引擎镜像仓库获取EMR基础镜像做二次开发,并打包成新的镜像 。当前自定义镜像的范围仅包括Spark和Ray。使用自定义Docker镜像运行作业

华北2(北京)

灵活的调度规则

EMR 支持灵活的Pod 调度规则,支持容忍节点上 NoExecute、NoSchedule 等污点。配置容忍污点后,EMR的Pod Yaml 上会有相应配置。EMR 新增配置节点的亲和性规则,Pod 将调度到满足亲和性条件的节点上

OpenAPI 发布

EMR on VKE 支持以 OpenAPI 方式对虚拟集群和应用进行管理。查看EMR on VKE API列表

  • EMR 软件栈更新

软件栈版本

功能描述

相关文档

发布地域

软件栈 EMR-VKE 1.3.4

遗留问题
【组件】Spark HistoryServer,采用 TOS 做为 event log 存储时,若采用Spark Native 提交任务时,不支持查看正在执行的 Job。同时也不支持查看Local 模式下正在执行的 SparkJob

【组件】Ray 支持以 HDFS 协议读取 TOS, 但定义 HDFSFileSystem 时需要先执行 ray.init(),如下:
from pyarrow import fs
import ray
ray.init()

hdfs_fs = fs.HadoopFileSystem(host='tos://{bucket_name}', ...)

【组件】KubeRay 中采用 Volcano 做调度时会报错,需要升级下 KubeRay 的镜像,可联系火山工程师进行升级

EMR-VKE-1.4.0发布说明

华北2(北京)