本文介绍火山引擎 EMR 容器版各版本功能发布和文档动态,新特性将在各个地域陆续发布,欢迎体验。
2025年4月
功能名称 | 功能概述 | 发布地域 |
---|---|---|
虚拟集群支持部署数据湖加速服务 Proton(白名单) | EMR on VKE 从3.15.0版本开始允许用户在创建 EMR 虚拟集群时部署数据湖加速服务 Proton。目前该功能为白名单功能,您可以通过提工单的方式试用该服务。 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)、华东智驾专区、华北智驾专区 |
Hive 元数据支持使用 LAS Catalog | Hive 元数据在支持外置 RDS 的基础上,新增支持 LAS Catalog。相比外置 RDS,LAS Catalog 的统一元数据能力,允许在数据湖场景下支持多个计算引擎/产品读取一份对象存储数据。目前 LAS Catalog 支持 EMR 三种形态(EMR Serverless, EMR on VKE, EMR on ECS) 和 Serverless Flink,支持 Bytehouse 也即将上线。 | |
支持挂载存储卷(PVC) | 机器学习、模型训练用户通常会将代码、数据预处理数据、模型训练数据存储在不同存储产品上,因其数据量、性能在不同阶段场景有所不同。从3.15.0版本开始,EMR 支持 Spark、RayCluster 的 Pod 可以挂载不同存储卷,包括 NAS、vePFS、TOS、EBS 等,支持用户以本地路径的方式访问这些存储。以满足其通过EMR快速读写不同存储产品上的数据诉求。 | |
RayCluster 支持多 WorkerGroup | 对于常驻的 RayCluster 存在不同负载使用不同资源(CPU 和 GPU 等),且做到负载互相隔离。EMR 支持可视化的对 RayCluster 进行多 WorkerGroup 配置。不同的 WorkerGroup 可以指定不同的资源类型和数量,用户在提交作业时可以指定提交到特定的 WorkerGroup。 | |
作业管理正式发布 | 作业管理功能正式发布上线,目前支持 EMR on VKE 虚拟集群上的 Spark 和 Ray 作业的提交和查看,包括作业的耗时、资源消耗等,大幅提升作业的可观测性。我们将在后续版本中支持EMR Serverless 以及 EMR on ECS 的作业管理。 | |
作业管理增强 | 之前 EMR 作业管理的作业提交主要针对 Ray Job(提交任务时拉起 RayCluster,任务结束时释放)。考虑到持续训练、推理场景大多提交任务到常驻的 RRayCluster,EMR作业管理新增支持用户提交 Ray 任务时指定提交到运行中的 RayCluster。你可以通过 OpenAPI 或者控制台提交。 | |
更灵活的 RayCluster 镜像选择 | 以往您通过 EMR 控制台使用 EMR 基础镜像拉起 RayCluster 时,默认使用最新的版本。现在允许你选择经过 EMR 充分测试的多个版本,以满足您对不同版本的诉求。比如您期望持续使用相同的一个版本,减少新版本引入带来的问题。另外 EMR 提供多种类型的 Ray 镜像,我们按照使用场景分类,包含了一些场景下常用的第三方包,并做了充分的兼容性测试。目前提供ray、ray-ml、ray-ds 三种类型镜像。 | |
资源类型为已有 VKE 的 EMR 虚拟集群,可以通过 EMR 控制台物理扩容节点 | 现在支持您通过 EMR 控制台直接对您的容器集群(VKE)进行物理节点扩容。以往如果您选择在已购买的 VKE 集群上部署 EMR 服务,您只能在 VKE 控制台上进行扩容,现在您可以将这些动作统一在 EMR 控制台上操作,减少不必要的产品控制台切换。 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-3.15.0 | 新增功能
更新、增强和解决的问题
遗留问题
| 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州)、华东智驾专区、华北智驾专区 |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
Volcano 服务正式化发布 | 从 EMR-3.14.0 版本开始,Volcano 服务将从白名单发布改成正式发布,用户无需提工单开白即可在 EMR 上部署和使用 Volcano 调度服务。Volcano 调度与Kubernetes自带调度相比,更适合大数据和批数据处理任务场景 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
华东智驾专区上线 | EMR 容器形态在华东智驾专区上线,提供传统大数据和大模型数据预处理能力 | |
EMR 虚拟集群运行时支持开启 RayHistoryServer | EMR-3.14.0 之前版本仅支持EMR虚拟集群创建时开启 Ray HistoryServer。 Ray HistoryServer 是火山 EMR 对开源 Ray 的引擎增强,支持对已释放的 RayCluster 的任务进行查看和分析。 EMR-3.14.0以及之后版本支持虚拟集群运行时手动开启 Ray HistoryServer | |
虚拟集群支持查看 Pod 部署详情 | 支持查看运行时 EMR 虚拟集群的Pod部署,包括节点调度策略,Pod 规格等 |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
新增弹性伸缩功能 | EMR 虚拟集群支持容器服务(VKE)的节点弹性伸缩能力,当节点池开启用弹性伸缩时,节点上的 Pod 因为资源不足处于 Pending 状态时触发自动扩容动作。用户通过 EMR 控制台可以查看和修改节点池弹性伸缩启用状态,查看扩缩容记录。弹性伸缩在后续的版本中将支持使用弹性容器实例 VCI 作为弹性算力 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
弹性容器实例 VCI 调度 Spark 和 Ray 作业开箱即用 | EMR-VKE-1.7.0及之前版本允许用户在创建虚拟集群时选择使用弹性容器实例(VCI)调度Spark作业。从 EMR-VKE-1.8.0开始,允许用户在创建虚拟集群时选择使用 VCI 调度 Ray 作业。使用 VCI 调度 Spark 和 Ray 作业,无需预留固定资源,可以大幅减少资源成本 | |
OpenAPI 支持作业的查看和提交 | 从 EMR-VKE-1.8.0开始,允许用户通过 OpenAPI 的方式提交和查看 Spark 和 Ray 作业。用户在工作流中通过 EMR OpenAPI 提交作业后,可通过 EMR 控制台监控和分析运行中和已完成的作业 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-3.13.0 | 引擎能力优化Ray
Spark
| 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
EMR 容器版正式商业化 | 自2024年11月1日起,火山引擎 EMR 容器版从公测阶段转为商业化,商业化后将收取EMR管理费用。北京、上海、广州 Region 按照 vCPU 0.04 元/核/小时,内存0.004 元/GB/小时收取。 柔佛 Region 按照 vCPU 0.07 元/核/小时,内存0.007 元/GB/小时收取管理费。 更多详情查看计费说明 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
集成 Volcano 调度器,支持可视化调度策略和队列管理 | 用户创建集群时支持对默认调度器进行设置,默认使用 Volcano 作为调度器。Volcano 调度器支持 Binpack、Gang等调度策略,相比 Kubernete 自带的调度器, 对大数据批处理任务更友好,便于管理 | |
支持通过 EMR 控制台和 OpenAPI 提交 Spark 和 Ray 作业 | EMR 3.12.0及之后版本支持用户通过 EMR 控制台和 OpenAPI 提交 Spark 和 Ray 作业。通过 EMR 作业管理实现一站式的作业全生命周期管理,包括作业提交、状态监控和作业日志分析 | |
支持对 EMR 组件 Pod 进行扩容和规格调整 | 用户可以通过 EMR 控制台对 SparkHistoryServer、CelebornMaster/Worker、RayHistoryServer 等组件进行 Pod 扩容和规格调整,以适应不同业务的高可用、负载变化等需求 | |
优化服务默认部署策略,允许用户手动调整节点和 Pod 级别部署策略 | EMR 3.12.0版本开始提供更灵活的组件部署策略。用户在创建 EMR 虚拟集群时允许手动调整节点和 Pod 级别的部署策略,以满足各种亲和、反亲和需求。此外,EMR 优化了默认部署策略,尽量将相同角色的 Pod 打散到不同物理节点上,实现服务的高可用,提升整体资源利用 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-3.12.0 | _ | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
创建 EMR 虚拟集群时支持新建VKE集群 | EMR-VKE-1.7.0及之后版本支持创建 EMR 虚拟集群时直接新建 VKE 集群,对算法工程师或无离在线混合部署需求的用户而言,减少了创建 EMR 虚拟集群的步骤和复杂度 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
提供更详细的操作日志 | 提供更丰富的操作信息详细信息,帮助用户分析操作(如创建集群/扩容等)失败原因 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-VKE 1.7.0 | 遗留问题 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
使用弹性容器实例 VCI调度 Spark 作业 | 支持使用弹性容器实例(VCI)调度 Spark 作业,满足业务高峰弹性算力需求,减少常驻资源规模,实现降本 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
虚拟集群操作日志接入日志中心 | 虚拟集群操作日志接入 EMR 控制台日志中心,用于日常操作审计和问题排查 | |
作业监控 | 通过作业管理可以监控虚拟集群上的 Spark 和 Ray 作业,支持作业详情和日志详情查看,便于作业问题分析排查。此功能当前为测试阶段 | |
丰富监控指标 | EMR 控制台丰富 Spark、Celeborn 监控指标,支持接入云上托管版 Prometheus,用于日常运维监控 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-VKE 1.6.0 | 遗留问题 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
Ray HistoryServer | 部署 EMR Ray 服务时默认启动 Ray HistoryServer,对 Ray 作业日志进行持久化存储,便于查看和分析历史作业 | 华北2(北京)、华东2(上海)、亚太东南(柔佛) |
百万级 Partition Shuffle | EMR on VKE 对 Celeborn 进行优化,提供百万级别的 Spark Partition Shuffle 能力,以满足文本数据预处理场景下百万级 Partition 需求 | |
支持 Spark SQL 作业类型 | 用户在创建 EMR 虚拟集群时,如果选择部署 Spark 和 HiveMetastore 服务,将允许执行 Spark SQL 作业。EMR on VKE 以前版本仅支持 Spark Jar、PySpark 等作业类型 | |
OpenAPI 更新 | 可以通过 AddComponentInstance 接口在安装了 Ray 的 EMR 虚拟集群上启动 RayCluster | |
新 Region 开服 | EMR on VKE 开服 Region 新增华东2(上海)和亚太东南(柔佛), 已支持华北2(北京)、华东2(上海)和亚太东南(柔佛) |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-VKE 1.4.0 | 新功能 【组件】新增 HiveMetastore 组件,以满足允许 Spark SQL 作业需求 【组件】Ray 软件版本从2.9.3升级至2.22.0 遗留问题 | 华北2(北京)、华东2(上海)、亚太东南(柔佛) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
自定义镜像 | EMR On VKE 支持将自定义 Docker 镜像作为集群中任务的默认工作负载运行时。用户可以从火山引擎镜像仓库获取EMR基础镜像做二次开发,并打包成新的镜像 。当前自定义镜像的范围仅包括Spark和Ray。使用自定义Docker镜像运行作业 | 华北2(北京) |
灵活的调度规则 | EMR 支持灵活的Pod 调度规则,支持容忍节点上 NoExecute、NoSchedule 等污点。配置容忍污点后,EMR的Pod Yaml 上会有相应配置。EMR 新增配置节点的亲和性规则,Pod 将调度到满足亲和性条件的节点上 | |
OpenAPI 发布 | EMR on VKE 支持以 OpenAPI 方式对虚拟集群和应用进行管理。查看EMR on VKE API列表 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-VKE 1.3.4 | 遗留问题 【组件】Ray 支持以 HDFS 协议读取 TOS, 但定义 HDFSFileSystem 时需要先执行 ray.init(),如下: hdfs_fs = fs.HadoopFileSystem(host='tos://{bucket_name}', ...) 【组件】KubeRay 中采用 Volcano 做调度时会报错,需要升级下 KubeRay 的镜像,可联系火山工程师进行升级 | 华北2(北京) |