前提条件
- EMR 虚拟集群已经部署了 Ray 服务。
- 集群状态处于运行中。
操作步骤
添加 RayCluster
方法一:通过表单添加
- 登录 EMR 控制台。
- 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray 页签。
- 点击添加RayCluster > 通过表单添加。进入添加 RayCluster 界面。

配置参数说明
进入创建 RayCluster 界面后,完成以下配置信息,您需要进行基础信息、资源配置、高级配置等配置步骤:
配置项 | 说明 |
|---|
基础信息 |
名称 | RayCluster名称,长度限制为1~16个字符,仅可使用小写字母 |
资源配置 |
组名称 | Headgroup 和 Workergroup 名称,长度限制为1~16个字符,仅可使用小写字母数字以及中划线 |
Headgroup | 主要负责整个 Ray 集群的调度控制、任务分发和集群管理 - 数量:1,有且只有一个 Headgroup 组
- Pod 资源:支持对Pod的CPU和内存进行设置
- Pod 数量:1
- 存储配置:支持以 Hostpath 和 PVC 的方式挂载各种存储介质,如 vePFS、EBS、TOS
说明 如使用 PVC 方式挂载存储介质,需要提前创建 PVC,详细操作可参考:存储管理。 - Resource 标签:支持用户精细控制任务和参与者的资源分配
- 调度策略:节点选择机制,支持将 Pod 调度到具有特定标签的节点上
|
Workergroup | 主要负责执行计算任务并提供可弹性伸缩的计算资源 - 数量:默认为1,表格方式最多允许添加10个
- Pod 资源:支持对 Pod 的 CPU、内存、GPU 算力和 GPU 卡做设置,支持设置 mGPU 分配策略
说明 如需使用 GPU 资源类型,请确保已在节点池中部署 GPU 资源。 - Pod 数量:默认为1,取值范围为1~999
- 存储配置:支持以 Hostpath 和 PVC 的方式挂载各种存储介质,如 vePFS、EBS、TOS
- Resource 标签:支持用户精细控制任务和参与者的资源分配
- 调度策略:节点选择机制,支持将 Pod 调度到具有特定标签的节点上
|
高级配置 |
污点容忍 | - NoSchedule:新调度的 Pod 不允许被调度到该节点
- NoExecute:新调度的 Pod 不允许被调度到该节点,已运行但不容忍该污点的 Pod 将被驱逐
- PreferNoSchedule: 尽量避免将 Pod 调度到该节点,如果没有其他合适节点可用,仍然会调度
|
镜像类型 | 支持 EMR 基础镜像和用户自定义镜像两种
其中 EMR 基础镜像分三类,适合不同的场景: - ray:包含 Ray 及其所需依赖的镜像,内置有 Conda、Java8、Hadoop 服务。
- ray-ds:在 Ray 的基础镜像之上,提供 Spark、RayDP 及其依赖,可用于数据处理场景。
- ray-ml:在 Ray-ds 的镜像之上,提供 Torch、Tensorflow 及其依赖,可用于机器学习场景。
支持用户基于 EMR 基础镜像构建自己的镜像,打入第三方包等,详情查看使用自定义 Docker 镜像运行作业。 |
镜像名称 | 自定义镜像需要输入镜像仓库账号和仓库密码。 |
GOS 高可用 | 开启将数据持久化至外置 Redis,确保 Head 节点故障时可以继续正常使用。 |
Ray Data Checkpoint | 默认关闭,开启后自动记录数据处理进度和任务状态。当任务意外失败后,RayCluster 将从最近的断点恢复,跳过已完成的工作,节省时间和计算资源。 |
配置完成后,右下角勾选 “我同意 EMR 服务条款” 选项,单击确定。
修改 RayCluster 配置
RayCluster 创建后,支持对 RayCluster 修改配置,包括启动和关闭 Ray Data Checkpoint,扩缩容 Ray Worker 数量,修改存储配置等。
- 登录 EMR 控制台。
- 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray > RayCluster 名称 。
方法二:通过 YAML 添加 RayCluster
创建 RayCluster
用户可以通过编辑 YAML 创建新的 RayCluster。
- 登录 EMR 控制台。
- 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray 页签。
- 点击 添加RayCluster > 通过 YAML 添加。
管理 RayCluster
用户可以通过编辑 YAML 实现 RayCluster 的 Workergroup 添加/删除/编辑、Pod 资源、Pod 数量、调度策略等修改。
- 登录 EMR 控制台。
- 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray > RayCluster 。
- 点击 编辑 YAML。
释放 RayCluster
- 登录 EMR 控制台。
- 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray > RayCluster 。
- 点击 移除。
添加 Workergroup
- 登录 EMR 控制台。
- 从左侧导航栏中,进入资源管理 > on VKE > 虚拟集群详情 > 服务列表 > Ray > RayCluster 。
- 点击 添加 workergroup。
配置项 | 说明 |
|---|
基础信息 |
名称 | 长度限制为1~16个字符,仅可使用小写字母数字以及中划线 |
资源配置 |
Pod 规格 | 支持对 Pod 的 CPU、内存、GPU 算力和 GPU 卡做设置,支持设置 mGPU 分配策略 |
Pod 数量 | 默认1,取值范围为1~999 |
调度策略 | 节点选择机制,支持将 Pod 调度到具有特定标签的节点上 |
高级配置 |
Resource 标签 | 支持用户精细控制任务和参与者的资源分配 |
存储配置 | 支持以 Hostpath 和 PVC 的方式挂载各种存储介质,如 vePFS、EBS、TOS |
配置完成后,右下角勾选 “我同意 EMR 服务条款” 选项,单击确定。