机器学习平台目前支持了在 K8S 之上运行 Slurm 负载。默认情况下,Slurm 负载运行在由平台提供的 Debian 镜像中,modules 软件环境管理正在设计开发中。
如果用户有额外的依赖和软件需求,则可以参考本文档进行镜像的自定义定制。本文以安装 python-pip3,以及利用 pip3 安装 requests 举例。
slurm 的最新版本。pip3 以及 requests,具体参照如下示意图:
slurm_custom(前述构建的镜像名字),点击进入详情页
Image 字段指定镜像 ID。举例假设job.conf的内容如下:TaskName: "dynamic slurm cluster with custom image" Image: "ml-platform-q6r4bhp2mj9zlw2kf7/slurm_custom:0.0.1"
sbatch 发起 slurm 任务即可:volc ml_task sbatch -c job.conf a.script
其中 a.sh 的内容为:
#!/usr/bin/env bash #SBATCH --nodes 2 #SBATCH --partition ${your_own_resource_group_id} echo 10 srun hostname python3 -c "import requests; print(requests)"