You need to enable JavaScript to run this app.
导航
RayCluster 管理
最近更新时间:2025.10.24 14:32:43首次发布时间:2025.10.24 14:32:43
复制全文
我的收藏
有用
有用
无用
无用

前提条件

  • EMR 虚拟集群已经部署了 Ray 服务。
  • 集群状态处于运行中。

操作步骤

添加 RayCluster

方法一:通过表单添加

  1. 登录 EMR 控制台
  2. 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray 页签。
  3. 点击添加RayCluster > 通过表单添加。进入添加 RayCluster 界面。

Image

配置参数说明

进入创建 RayCluster 界面后,完成以下配置信息,您需要进行基础信息、资源配置、高级配置等配置步骤:

配置项

说明

基础信息

名称

RayCluster名称,长度限制为1~16个字符,仅可使用小写字母

资源配置

组名称

Headgroup 和 Workergroup 名称,长度限制为1~16个字符,仅可使用小写字母数字以及中划线

Headgroup

主要负责整个 Ray 集群的调度控制、任务分发和集群管理

  • 数量:1,有且只有一个 Headgroup 组
  • Pod 资源:支持对Pod的CPU和内存进行设置
  • Pod 数量:1
  • 存储配置:支持以 Hostpath 和 PVC 的方式挂载各种存储介质,如 vePFS、EBS、TOS

说明

如使用 PVC 方式挂载存储介质,需要提前创建 PVC,详细操作可参考:存储管理

  • Resource 标签:支持用户精细控制任务和参与者的资源分配
  • 调度策略:节点选择机制,支持将 Pod 调度到具有特定标签的节点上

Workergroup

主要负责执行计算任务并提供可弹性伸缩的计算资源

  • 数量:默认为1,表格方式最多允许添加10个
  • Pod 资源:支持对 Pod 的 CPU、内存、GPU 算力和 GPU 卡做设置,支持设置 mGPU 分配策略

说明

如需使用 GPU 资源类型,请确保已在节点池中部署 GPU 资源。

  • Pod 数量:默认为1,取值范围为1~999
  • 存储配置:支持以 Hostpath 和 PVC 的方式挂载各种存储介质,如 vePFS、EBS、TOS
  • Resource 标签:支持用户精细控制任务和参与者的资源分配
  • 调度策略:节点选择机制,支持将 Pod 调度到具有特定标签的节点上

高级配置

污点容忍

  • NoSchedule:新调度的 Pod 不允许被调度到该节点
  • NoExecute:新调度的 Pod 不允许被调度到该节点,已运行但不容忍该污点的 Pod 将被驱逐
  • PreferNoSchedule: 尽量避免将 Pod 调度到该节点,如果没有其他合适节点可用,仍然会调度

镜像类型

支持 EMR 基础镜像和用户自定义镜像两种
其中 EMR 基础镜像分三类,适合不同的场景:

  • ray:包含 Ray 及其所需依赖的镜像,内置有 Conda、Java8、Hadoop 服务。
  • ray-ds:在 Ray 的基础镜像之上,提供 Spark、RayDP 及其依赖,可用于数据处理场景。
  • ray-ml:在 Ray-ds 的镜像之上,提供 Torch、Tensorflow 及其依赖,可用于机器学习场景。

支持用户基于 EMR 基础镜像构建自己的镜像,打入第三方包等,详情查看使用自定义 Docker 镜像运行作业

镜像名称

自定义镜像需要输入镜像仓库账号和仓库密码。

GOS 高可用

开启将数据持久化至外置 Redis,确保 Head 节点故障时可以继续正常使用。

Ray Data Checkpoint

默认关闭,开启后自动记录数据处理进度和任务状态。当任务意外失败后,RayCluster 将从最近的断点恢复,跳过已完成的工作,节省时间和计算资源。

配置完成后,右下角勾选 我同意 EMR 服务条款 选项,单击确定

修改 RayCluster 配置

RayCluster 创建后,支持对 RayCluster 修改配置,包括启动和关闭 Ray Data Checkpoint,扩缩容 Ray Worker 数量,修改存储配置等。

  1. 登录 EMR 控制台
  2. 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray > RayCluster 名称

方法二:通过 YAML 添加 RayCluster

创建 RayCluster

用户可以通过编辑 YAML 创建新的 RayCluster。

  1. 登录 EMR 控制台
  2. 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray 页签
  3. 点击 添加RayCluster > 通过 YAML 添加

管理 RayCluster

用户可以通过编辑 YAML 实现 RayCluster 的 Workergroup 添加/删除/编辑、Pod 资源、Pod 数量、调度策略等修改。

  1. 登录 EMR 控制台
  2. 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray > RayCluster
  3. 点击 编辑 YAML

释放 RayCluster

  1. 登录 EMR 控制台
  2. 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray > RayCluster
  3. 点击 移除。

添加 Workergroup

  1. 登录 EMR 控制台
  2. 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray > RayCluster
  3. 点击 添加 workergroup

配置项

说明

基础信息

名称

长度限制为1~16个字符,仅可使用小写字母数字以及中划线

资源配置

Pod 规格

支持对 Pod 的 CPU、内存、GPU 算力和 GPU 卡做设置,支持设置 mGPU 分配策略

Pod 数量

默认1,取值范围为1~999

调度策略

节点选择机制,支持将 Pod 调度到具有特定标签的节点上

高级配置

Resource 标签

支持用户精细控制任务和参与者的资源分配

存储配置

支持以 Hostpath 和 PVC 的方式挂载各种存储介质,如 vePFS、EBS、TOS

配置完成后,右下角勾选 我同意 EMR 服务条款 选项,单击确定