Slurm作业默认CPU运行、GPU可用时自动启用GPU的实现方法咨询

阿华AIGC实验室

2026-4-21

您好！这个需求在集群日常使用中挺常见的——想让作业“见机行事”，有GPU就自动用上，没有就乖乖跑CPU，不用每次手动改提交脚本对吧？Slurm本身没有直接的参数能一键实现这个逻辑，但我们可以通过提交脚本的调度约束+运行时动态检测的组合来搞定，给你两种实用的方案：

方案一：调度全节点+运行时GPU检测

这是最通用的方法，不需要集群做特殊配置，只需要调整你的sbatch脚本：

第一步：调整sbatch的调度约束

首先，不要加#SBATCH --gres=gpu:1（加了就只能跑在有GPU的节点），而是用--constraint参数让作业可以被调度到有GPU或无GPU的节点上。比如假设你的集群里，GPU节点带有gpu属性标签，CPU节点带有nogpu标签（可以用sinfo -o "%N %f"命令查看节点的属性），那脚本开头可以这么写：

#!/bin/bash
#SBATCH --nodes=1
#SBATCH --ntasks=1
# 允许作业调度到有GPU或者无GPU的节点，根据你集群的节点属性调整标签
#SBATCH --constraint='gpu|nogpu'
# 其他资源参数（比如内存、CPU核心数）按需添加
#SBATCH --mem=16G
#SBATCH --cpus-per-task=4

第二步：脚本内动态判断并切换运行逻辑

在脚本主体里，通过nvidia-smi命令检测当前节点是否有可用GPU，然后分别执行对应的作业命令：

# 检测GPU是否可用（nvidia-smi能正常执行就说明有GPU）
if nvidia-smi > /dev/null 2>&1; then
    echo "✅ 检测到可用GPU，将使用GPU模式运行作业"
    # 这里放你的GPU作业命令，比如加载CUDA模块+运行GPU脚本
    module load cuda/11.8
    python your_gpu_application.py
else
    echo "ℹ️ 未检测到GPU，将使用CPU模式运行作业"
    # 这里放你的CPU作业命令
    python your_cpu_application.py
fi

这样一来，作业会被Slurm调度到任意符合约束的节点，运行时自动适配硬件环境。

方案二：利用集群混合分区调度（适合有特定分区的场景）

如果你的集群已经划分了包含CPU和GPU节点的混合分区，那可以直接指定这个分区，不需要加--constraint，剩下的逻辑和方案一一样：

#!/bin/bash
#SBATCH --partition=mixed_partition  # 替换成你的混合分区名
#SBATCH --nodes=1
#SBATCH --ntasks=1
# 其他资源参数...

# 同样的GPU检测逻辑
if nvidia-smi > /dev/null 2>&1; then
    # GPU模式执行命令
else
    # CPU模式执行命令
fi

注意事项

节点属性标签要对应集群实际情况：不同集群的节点属性命名可能不一样，有的是gpu/cpu，有的是has_gpu/no_gpu，一定要先用sinfo确认。
资源冲突问题：如果GPU节点上的GPU被其他作业占用，nvidia-smi还是能检测到GPU存在，但你的作业可能无法正常使用。如果需要确保独占GPU，可以拆分提交命令或使用作业数组，不过复杂度会高一些。
环境依赖处理：GPU作业通常需要CUDA等环境，记得在检测到GPU后加载对应的模块或设置环境变量。

备注：内容来源于stack exchange，提问作者Curantil