在 GPU 调度场景中,需要为 GPU 计算型节点打上一些特殊标签,从而启用不同的调度功能。本文主要介绍 GPU 调度场景中节点的特定标签和使用注意事项。
容器服务当前支持 Nvidia GPU 调度和容器共享 GPU 调度,实现这些调度时需要为节点配置如下标签。
标签 | 说明 |
---|---|
vke.node.gpu.schedule=nvidia | 在 GPU 计算型节点上开启 Nvidia GPU 调度能力。 |
vke.node.gpu.schedule=mgpu | 在 GPU 计算型节点上开启容器共享 GPU 调度能力和 GPU 显存隔离能力。 |
说明
vke.node.gpu.schedule
标签时,节点默认使用 Nvidia 调度。vke.node.gpu.schedule
赋值错误,则系统会判定该节点无法实现 GPU 调度。容器服务支持在节点上切换 GPU 调度标签,实现 GPU 能力的切换。此时必须要保证该节点上申请 GPU 资源的 Pod 已经运行完成。
例如,节点的标签需要从vke.node.gpu.schedule=nvidia
切换到vke.node.gpu.schedule=mgpu
,实现将 Nvidia GPU 调度切换为容器共享 GPU 调度。那么必须保证该节点上申请了 GPU 资源(算力/显存)的 Pod 全部运行完成后,才可以切换节点标签,否则原有的 Nvidia GPU 调度任务将失败。