You need to enable JavaScript to run this app.
导航
EMR-3.17.0发布说明
最近更新时间:2025.09.03 16:40:50首次发布时间:2025.09.03 16:40:50
复制全文
我的收藏
有用
有用
无用
无用

环境说明

系统环境

环境

语言

版本

OS

velinux1u3 SMP Debian 5.4.250-2

OS

Java

1.8.0_351

Spark

Java

1.8.0_351

Spark

Scala

2.12.18

Ray

Java

1.8.0_351

Celeborn

Java

1.8.0_351

Celeborn

Scala

2.12.15

应用程序版本

软件

版本

Spark

3.5.1

Ray

2.46.0

Kuberay

1.3.0

Celeborn

0.5.0

Hive

3.1.3

Zookeeper

3.7.1

Kyuubi

1.8.1

Lance

0.24.1

Proton

2.3.1

Volcano

1.10.0

EMR-3.17.0发布说明

新增功能

  • Pod 存储配置新增 Hostpath 挂载方式
    创建 RayCluster 时的 Pod 存储配置在原 PVC 的基础上新增宿主机路径(hostpath)方式,以满足用户不同方式访问 vePFS 等文件系统方式。
  • 基于新建 VKE 资源创建的EMR虚拟集群,运行时支持纳管其他节点池
    此前创建 EMR 虚拟集群时如果资源类型为新建 VKE 资源,那么在节点管理时要新增物理节点资源,只能通过新建节点池方式。我们对此进行了优化,针对这类场景,支持纳管用户通过容器服务(VKE)控制台创建的节点池,实现资源复用的目的。

更新、增强和解决的问题

  • 创建 RayCluster 时支持配置污点容忍策略
    在创建 EMR 虚拟集群时支持配置污点容忍的基础上,支持虚拟集群运行时新创建 RayCluster 时配置污点容忍策略,包括 NoSchedule、NoExecute、PreferNoSchedule。
  • Kuberay 支持跨 Namespace 管理 RayCluster
    EMR 3.17.0及之后的版本支持 Kuberay 跨 Namespace 管理多个 RayCluster,对于之前的版本需要先手动完成一些前置操作。详细说明请参考KubeRay 管理不同命名空间的RayCluster使用指导

遗留问题

  • 创建 EMR 虚拟集群时如果选择新建 VKE 资源,暂不支持部署 Kyuubi 和 Zookeeper 服务,待后续版本支持。

组件说明

组件

描述

Celeborn Master

维护 Celeborn 集群整体状态、活跃 Shuffle 和高可用

Celeborn Worker

接收、存储和服务 Shuffle 数据

Spark Operator

用于在 Kubernetes 集群上部署和管理 Spark 应用程序

Spark History Server

Spark 的 Web UI 组件,用于展示已完成的 Spark 作业的详细视图,包括作业的执行时间线、任务详情和资源使用情况

Ray Operator

用于在 Kubernetes 集群上部署和管理 Ray 应用程序

Ray HistoryServer

支持查看已结束的 Ray 作业运行详情,是对 Dashboard 的补充

HiveMetastore

Hive 元数据存储服务

Kyuubi

分布式、多租户的大数据网关,用于在 Lakehouse 上提供无服务器 SQL 服务

Volcano

提供丰富的调度策略和优化机制,支持机器学习、大数据、科学计算等多种工作负载

Zookeeper

用于维护配置信息、命名、提供分布式同步的集中式服务

Proton DataServer

Proton 缓存服务

Proton MetaServer

Proton 元数据服务

Lance

一种高性能的列式存储格式,专为机器学习和数据分析场景设计,适合多模态数据存储和访问