You need to enable JavaScript to run this app.
机器学习平台

机器学习平台

复制全文
最佳实践
通过自定义镜像提交 Slurm 任务
复制全文
通过自定义镜像提交 Slurm 任务

背景

机器学习平台目前支持了在 K8S 之上运行 Slurm 负载。默认情况下,Slurm 负载运行在由平台提供的 Debian 镜像中,modules 软件环境管理正在设计开发中。
如果用户有额外的依赖和软件需求,则可以参考本文档进行镜像的自定义定制。本文以安装 python-pip3,以及利用 pip3 安装 requests 举例。

构建新的镜像

  1. 首先参考构建自定义镜像 ,进入到机器学习平台的自定义镜像构建页面。
  2. 在构建配置中,构建方式选择基于现有镜像,基础镜像选择预置镜像中 slurm 的最新版本。
  3. 在依赖项中,配置安装 pip3 以及 requests,具体参照如下示意图:
    alt
  4. 完成配置后,发起构建即可。

在 Slurm 作业中使用新镜像

  1. 获取到自定义镜像的镜像 ID: 在自定义镜像仓库列表页,点击 slurm_custom(前述构建的镜像名字),点击进入详情页
  2. 从详情页获取到镜像 ID,可参考如下示意图:
    alt
  3. 在自定义任务中,通过 Image 字段指定镜像 ID。举例假设job.conf的内容如下:
TaskName: "dynamic slurm cluster with custom image"
Image: "ml-platform-q6r4bhp2mj9zlw2kf7/slurm_custom:0.0.1"
  1. 使用 sbatch 发起 slurm 任务即可:
volc ml_task sbatch -c job.conf a.script

其中 a.sh 的内容为:

#!/usr/bin/env bash

#SBATCH --nodes 2
#SBATCH --partition ${your_own_resource_group_id}
echo 10
srun hostname
python3 -c "import requests; print(requests)"
最近更新时间:2025.07.23 17:22:03
这个页面对您有帮助吗?
有用
有用
无用
无用