You need to enable JavaScript to run this app.
导航
EMR-3.16.0发布说明
最近更新时间:2025.06.12 15:42:47首次发布时间:2025.06.12 15:42:47
我的收藏
有用
有用
无用
无用

环境说明

系统环境

环境

语言

版本

OS

velinux1u3 SMP Debian 5.4.250-2

OS

Java

1.8.0_351

Spark

Java

1.8.0_351

Spark

Scala

2.12.18

Ray

Java

1.8.0_351

Celeborn

Java

1.8.0_351

Celeborn

Scala

2.12.15

应用程序版本

软件

版本

Spark

3.5.1

Ray

2.44.0

Kuberay

1.1.1

Celeborn

0.5.0

Hive

3.1.3

Zookeeper

3.7.1

Kyuubi

1.8.1

Lance

0.24.1

Proton

2.2.8

Volcano

1.10.0

EMR-3.16.0发布说明

新增功能

  • 运行中虚拟集群支持添加服务

支持用户以 UI 可视化的方式支持运行中的 EMR 虚拟集群添加服务,以满足用户后续服务部署需求,无需创建新的虚拟集群。典型场景用户此前仅使用 Spark 做文本数据处理,随着公司业务在多模态场景的发展,数据处理扩展到图片、视频等非结构化数据,此时用户可以通过添加服务部署 Ray 服务。此前仅支持通过 OpenAPI 的方式添加服务

  • 在已有 VKE 集群上部署 EMR 虚拟集群正式发布

创建 EMR 虚拟集群时允许用户选择 VKE 资源类型,包括新建 VKE 资源和使用已有 VKE 资源。之前使用已有 VKE 资源部署 EMR 虚拟集群为白名单功能,本次发布为正式商业化发布。用户可直接在 EMR 控制台使用已有 VKE 资源部署 EMR 虚拟集群,无需先开通白名单。

  • EMR 容器版 Ray 服务正式发布

创建 EMR 虚拟集群时允许用户选择需要部署的服务,包括 Spark、Ray、Proton、Hive、Volcano 等。此前 Ray 为白名单功能,现在用户无需开通白名单即可在 EMR 容器版上使用 Ray 服务,包括部署 KubeRay,创建 RayCluster,提交 Ray Job等。更多说明请参考 Ray 操作指南最佳实践

更新、增强和解决的问题

  • EMR 控制台总览页支持展示 EMR on VKE 虚拟集群信息

EMR 控制台总览页面将支持对 EMR on VKE 虚拟集群的信息展示,包括虚拟集群的状态,计费信息提醒等。

遗留问题

  • 创建 EMR 虚拟集群时如果选择新建 VKE 资源,暂不支持部署 Kyuubi 和 Zookeeper 服务,待后续版本支持。

组件说明

组件

描述

Celeborn Master

维护 Celeborn 集群整体状态、活跃 Shuffle 和高可用

Celeborn Worker

接收、存储和服务 Shuffle 数据

Spark Operator

用于在 Kubernetes 集群上部署和管理 Spark 应用程序

Spark History Server

Spark 的 Web UI 组件,用于展示已完成的 Spark 作业的详细视图,包括作业的执行时间线、任务详情和资源使用情况

Ray Operator

用于在 Kubernetes 集群上部署和管理 Ray 应用程序

Ray HistoryServer

支持查看已结束的 Ray 作业运行详情,是对 Dashboard 的补充

HiveMetastore

Hive 元数据存储服务

Kyuubi

分布式、多租户的大数据网关,用于在 Lakehouse 上提供无服务器 SQL 服务

Volcano

提供丰富的调度策略和优化机制,支持机器学习、大数据、科学计算等多种工作负载

Zookeeper

用于维护配置信息、命名、提供分布式同步的集中式服务

Proton DataServer

Proton 缓存服务

Proton MetaServer

Proton 元数据服务

Lance

一种高性能的列式存储格式,专为机器学习和数据分析场景设计,适合多模态数据存储和访问