You need to enable JavaScript to run this app.
导航
通过自定义镜像提交 Slurm 任务
最近更新时间:2025.07.23 17:22:03首次发布时间:2022.03.31 18:57:40
复制全文
我的收藏
有用
有用
无用
无用

背景

机器学习平台目前支持了在 K8S 之上运行 Slurm 负载。默认情况下,Slurm 负载运行在由平台提供的 Debian 镜像中,modules 软件环境管理正在设计开发中。
如果用户有额外的依赖和软件需求,则可以参考本文档进行镜像的自定义定制。本文以安装 python-pip3,以及利用 pip3 安装 requests 举例。

构建新的镜像

  1. 首先参考构建自定义镜像 ,进入到机器学习平台的自定义镜像构建页面。
  2. 在构建配置中,构建方式选择基于现有镜像,基础镜像选择预置镜像中 slurm 的最新版本。
  3. 在依赖项中,配置安装 pip3 以及 requests,具体参照如下示意图:
    alt
  4. 完成配置后,发起构建即可。

在 Slurm 作业中使用新镜像

  1. 获取到自定义镜像的镜像 ID: 在自定义镜像仓库列表页,点击 slurm_custom(前述构建的镜像名字),点击进入详情页
  2. 从详情页获取到镜像 ID,可参考如下示意图:
    alt
  3. 在自定义任务中,通过 Image 字段指定镜像 ID。举例假设job.conf的内容如下:
TaskName: "dynamic slurm cluster with custom image"
Image: "ml-platform-q6r4bhp2mj9zlw2kf7/slurm_custom:0.0.1"
  1. 使用 sbatch 发起 slurm 任务即可:
volc ml_task sbatch -c job.conf a.script

其中 a.sh 的内容为:

#!/usr/bin/env bash

#SBATCH --nodes 2
#SBATCH --partition ${your_own_resource_group_id}
echo 10
srun hostname
python3 -c "import requests; print(requests)"