You need to enable JavaScript to run this app.
导航

NVIDIA GPU 调度

最近更新时间2024.04.26 15:35:03

首次发布时间2022.09.20 22:35:25

容器服务支持在工作负载中使用 GPU 资源。本文主要介绍在负载中使用 NVIDIA GPU 进行调度的方法。

步骤一:安装 nvidia-device-plugin 组件

  1. 登录 容器服务控制台
  2. 在顶部导航栏中选择您业务所在的地域。
  3. 在左侧导航栏中选择 集群,单击目标集群。
  4. 在集群管理页面的左侧导航栏中,选择 组件管理
  5. 组件管理 页面,单击 GPU 页签,找到 nvidia-device-plugin 组件,单击 安装
    alt

步骤二:创建 GPU 计算型节点池

  1. 在集群管理页面的左侧导航栏中,单击 节点池
  2. 节点池 页面,根据您的实际需求,参考 创建节点池 中的参数说明,创建节点池。
    其中,部分参数需按如下说明设置:
    • Worker 节点配置 处:计算规格 必须选择 GPU 计算型。该规格的详细介绍,请参见 GPU 计算型

    • (可选)更多配置 处:添加 key 为vke.node.gpu.schedule、Value 为nvidia节点标签,表示在该节点池中的节点上,开启 NVIDIA GPU 调度能力。

      说明

      GPU 调度时使用的更多标签相关说明,请参见 GPU 调度标签说明

      alt

步骤三:在工作负载中配置资源配额

本文以创建无状态负载(Deployment)为例。

  • 通过控制台配置
    1. 在集群管理页面的左侧导航栏中,选择 工作负载 > 无状态负载
    2. 无状态负载 页面,创建无状态负载或更新已有的负载。详细操作,请参见 创建无状态负载更新无状态负载
      其中,容器配置 步骤的 资源配额 处,根据需求配置 Nvidia 资源GPU 算力显卡类型
      alt

      说明

      根据工作负载所在的集群是否安装 mgpu 组件,控制台有如下不同显示:

      • 未安装 mgpu 组件:系统显示 GPU 算力显卡类型,请按实际需求配置参数即可。
      • 已安装 mgpu 组件:系统显示 GPU 算力GPU 显存 配置项。在 NVIDIA GPU 调度场景中,GPU 算力 必须输入大等于 1 的整数,此时 GPU 显存 会变为 显卡类型,且系统会显示 启用 nvidia 调度 按钮。
        NVIDIA GPU 调度场景,需要勾选 启用 nvidia 调度 按钮;若不勾选,表示不使用 NVIDIA GPU 调度,转为使用 mGPU 调度。mGPU 调度和 mgpu 组件目前是均为邀测功能,如需使用请提交 邀测功能试用申请
  • 通过 YAML 配置
    通过 YAML 配置 NVIDIA GPU 资源相关示例如下:
spec:
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
            - matchExpressions:
              - key: machine.cluster.vke.volcengine.com/gpu-name # 使用 GPU 显卡调度
                operator: In
                values:
                - Tesla-V100 # GPU 显卡类型
      containers:
      - image: cr-helm2-cn-beijing.cr.volces.com/sonobuoy/nfs-provisioner:v3.0.1
        imagePullPolicy: IfNotPresent
        name: doc-container
        resources:
          limits:
            nvidia.com/gpu: "1" # GPU 显卡数量

操作结果

使用 NVIDIA GPU 调度后,通过云监控查看节点调度情况。下文以无状态负载(Deployment)为例。

  1. 在集群管理页面的左侧导航栏中,选择 工作负载 > 无状态负载
  2. 找到已使用 NVIDIA GPU 调度的工作负载,单击对应 操作 列中的... > 查看监控
    系统会跳转到云监控控制台该工作负载的监控页面。您可以查看工作负载的 GPU 显存用量、GPU 使用率等信息。
    alt