You need to enable JavaScript to run this app.
导航

GPU 调度标签说明

最近更新时间2024.02.22 14:03:48

首次发布时间2022.09.20 22:36:16

在 GPU 调度场景中,需要为 GPU 计算型节点打上一些特殊标签,从而启用不同的调度功能。本文主要介绍 GPU 调度场景中节点的特定标签和使用注意事项。

节点标签说明

容器服务当前支持 Nvidia GPU 调度和容器共享 GPU 调度,实现这些调度时需要为节点配置如下标签。

标签说明
vke.node.gpu.schedule=nvidia在 GPU 计算型节点上开启 Nvidia GPU 调度能力。
vke.node.gpu.schedule=mgpu在 GPU 计算型节点上开启容器共享 GPU 调度能力和 GPU 显存隔离能力。

说明

  • 若 GPU 计算型节点不设置节点标签,即节点不存在 Key 为vke.node.gpu.schedule标签时,节点默认使用 Nvidia 调度。
  • vke.node.gpu.schedule赋值错误,则系统会判定该节点无法实现 GPU 调度。

使用标签注意事项

容器服务支持在节点上切换 GPU 调度标签,实现 GPU 能力的切换。此时必须要保证该节点上申请 GPU 资源的 Pod 已经运行完成。
例如,节点的标签需要从vke.node.gpu.schedule=nvidia切换到vke.node.gpu.schedule=mgpu,实现将 Nvidia GPU 调度切换为容器共享 GPU 调度。那么必须保证该节点上申请了 GPU 资源(算力/显存)的 Pod 全部运行完成后,才可以切换节点标签,否则原有的 Nvidia GPU 调度任务将失败。