持续交付支持通过共享 GPU 的方式部署 AI 应用,支持算力与显存的灵活调度和严格隔离,降低 GPU 使用成本。
说明
本文重点介绍创建 AI 应用中 mGPU 功能的相关操作和参数说明。创建 AI 应用的详细参数介绍和操作说明参见 创建和部署 AI 应用(自定义创建)。
mGPU(multi-container GPU)是火山引擎基于内核虚拟化隔离 GPU,并结合自研调度框架提供的容器共享 GPU 方案。在保证性能和故障隔离的前提下,mGPU 支持多个容器共享一张或者多张 GPU 显卡,支持算力与显存的灵活调度和严格隔离,降低 GPU 使用成本,为充分利用 GPU 硬件资源进行训练和推理提供有效保障。
仅 ECS 部署场景支持 mGPU 功能。弹性容器 VCI 暂不支持。
已创建 VKE 集群,具体操作可参见 创建集群。
在集群管理页面的左侧导航栏单击 节点池。
在 节点池 页面,找到已完成 mGPU 相关配置的节点池,单击对应 操作 列下的 编辑。
注意
您也可以在满足配置 mGPU 算力分配策略环境要求(Kubernetes 版本、mgpu 组件版本等)的集群中,创建新的 mGPU 相关 GPU 计算型节点池,同时配置算力分配策略。此时无需重启节点。详细操作,请参见 mGPU 使用方法。
在 更多配置 处设置 节点标签 的 key 为vke.volcengine.com/mgpu-compute-policy
、Value 为fixed-share
、guaranteed-burst-share
或native-burst-share
,表示在该节点池中的节点上,配置 Value 取值对应的算力分配策略。
详细的参数说明,请参见 管理节点池。
注意
vke.volcengine.com/mgpu-compute-policy
节点标签),则默认按fixed-share
策略分配算力。在集群管理页面的左侧导航栏中,单击 节点。
在 节点 页面,找到已完成 mGPU 相关配置的节点,选择对应 操作 列下的...
> 标签管理。
在 标签 页签,单击 添加标签,在节点标签列表的最后,添加 key 为vke.volcengine.com/mgpu-compute-policy
、Value 为fixed-share
、guaranteed-burst-share
或native-burst-share
的标签,表示在该节点上,配置 Value 取值对应的算力分配策略。
vke.volcengine.com/mgpu-compute-policy
属于系统标签,节点上添加系统标签后不允许修改 Value 值。vke.volcengine.com/mgpu-compute-policy
节点标签),则默认按fixed-share
策略分配算力。登录 持续交付控制台。
在左侧导航栏选择 AI 应用。
在 AI 应用页面,单击 创建应用。
选择 自定义创建 模板,并单击 下一步:应用配置。
在 部署环境及规格 > 推理服务规格,配置 mGPU 相关参数。本文重点介绍 mGPU 相关参数,创建 AI 应用的详细参数介绍和操作说明参见 创建和部署 AI 应用(自定义创建)。
配置项 | 说明 |
---|---|
实例数 | 根据业务规模,设置应用的副本数。 |
弹性容器实例 | 不勾选 弹性容器实例。仅 ECS 部署场景支持 mGPU 功能。弹性容器实例 VCI 暂不支持。 |
资源配置类型 |
|
完成后单击 确定,应用将开始创建并部署。
配置 mGPU 算力分配策略后,可查看 mGPU 的各项监控指标。详细操作,请参见 查看 mGPU 监控指标。