本文主要介绍使用容器服务(VKE)快速部署基于 xLLM 的 DeepSeek-V3 满血版模型推理服务。
本方案提供在 Kubernetes 集群中实现 DeepSeek-V3 大语言模型的大语言模型的 Prefill-Decode(PD)分离部署。
方案核心优势:
本实践涉及较多组件,相互间有依赖,配置复杂,为了获得符合预期的结果,请务必根据本文指引操作。
同时开启 GDKV 模型加速和 EIC 时,实例节点的内存可能成为瓶颈。如有性能需求,建议只开启 EIC。操作方式请参见:EIC 性能测试方法。
为了获得符合预期的结果,同时符合容器服务的 使用限制,请按照本文方案(或在本文推荐的资源上)操作。如需替换方案,您可以联系对应的火山引擎客户经理咨询。
请勿使用 mGPU 对 GPU 进行切分。
完整的部署流程,依赖部分火山引擎邀测能力,请联系火山引擎客户经理申请如下功能的邀测试用:
高性能计算集群,用于实现高性能计算 GPU 实例(计算节点)的逻辑隔离,同一集群内实例间 RDMA 网络互联互通。详情请参见 创建高性能计算集群。
说明
高性能集群所在的 可用区 需要与 VKE 节点的 可用区 一致。
在容器服务中创建集群,需要注意以下列举的参数配置。其余参数说明和详细的操作步骤,请参见 创建集群。
配置项 | 说明 |
---|---|
集群配置 | |
Kubernetes 版本 | 选择 v1.28 及以上版本。 |
容器网络模型 | 选择 VPC-CNI。 |
节点池配置 | |
托管节点池 | 开启 托管节点池。 |
可用区 | 与 高性能计算集群 所在的可用区相同。 |
计算规格 | 选择前提条件中申请的高性能计算 GPU 型ecs.hpcpni3ln 规格。每个 worker tp 8 使用 8 卡 1 台 8 卡 ECS,1p1d 需要 2 台 ECS。 |
高性能计算机群 | 选择之前创建的高性能计算集群。 |
节点数量 | 2 个。 |
数据盘 | 配置如下两个数据盘:
|
节点标签 (Labels) | 通过 VKE 部署 DeepSeek 模型时,需设置节点标签来配置 RDMA 使用模式。 |
Kubelet 自定义参数 | 通过 VKE 部署 DeepSeek 模型时,需通过 Kubelet 自定义参数配置 RDMA 设备的 NUMA 亲和策略。 |
组件配置 | |
nvidia-device-plugin | (必装)NVIDIA 设备驱动,支持在容器里使用 GPU 显卡设备的管理组件。 |
rdma-device-plugin | (必装)支持 RDMA 网卡设备的管理,提供 Pod Container 使用 RDMA 设备能力。 |
apig-controller | (必装)API 网关控制器,提供云原生的 AI 网关能力,根据不同策略完成推理流量的智能负载均衡。 |
csi-ebs | (必装)支持容器集群使用存储服务的标准 CSI 接口实现。 |
prometheus-agent | (必装)托管 Prometheus 监控组件,采集 Kubernetes 集群监控指标数据到火山引擎托管 Prometheus 服务(VMP)。 |
apmplus-opentelemetry-collector | (暂不支持)采集 OpenTelemetry 数据和 Prometheus 指标并发送至应用性能监控全链路版(APMPlus)。 |
apmplus-server-agent | (暂不支持)采集服务和主机监控数据并发送至 APMPlus。 |
cr-credential-controller | (推荐安装)免密拉取镜像仓库(CR)镜像,简化部署操作。 |
keda | (推荐安装)基于 Kubernetes 的事件驱动的弹性伸缩器。基于复杂指标完成推理服务的弹性伸缩任务。 |
vci-virtual-kubelet | (推荐安装)利用弹性容器实例部署系统组件等 CPU 工作负载,免运维且不占用 GPU 节点计算资源。 |
成功创建 VKE 集群和节点后,执行以下命令将 xLLM License 上传到本方案涉及的所有 GPU 节点上。
scp ./license.lic root@your_ip_addr:~/
登录 容器服务控制台。
在左侧导航栏,选择 应用中心 > 应用模板。
在 应用模板 页面,找到 deepseek-v3-xllm-pd 应用模板,鼠标悬停在该应用模板区域,然后单击 部署。
在 部署应用 页面,配置 deepseek-v3-xllm-pd 服务参数。其中,部分参数按如下说明配置,其余参数根据界面提示或参考 应用模板 中的说明配置。
配置项 | 说明 |
---|---|
基本信息 | |
项目 | 选择需要部署应用的项目,确保与 VKE 集群所属项目相同。 |
集群 | 选择 前提条件 中创建的 VKE 集群。 |
命名空间 | 自定义选择目标集群下的命名空间。 |
编排模板 | |
Chart | 选择 deepseek-v3-xllm-pd 的 Chart 版本,建议选择最新版本。 |
参数配置 | 选择 deepseek-v3-xllm-pd 的配置方法。单击编辑图标,编辑values.yaml 文件,并按照如下 YAML 文件参数说明 表格内容更新 YAML 文件。 |
协议 | 阅读了解协议内容后勾选协议。 |
YAML 文件参数说明:
配置项 | 说明 | 示例 |
---|---|---|
modelConfig.local.path | 用于存放模型文件的 ECS 本地路径。如果希望使用本地盘,需要与节点池配置的挂载地址匹配。 | /data01/models |
prefillWorker.resources.limits.vke.volcengine.com/rdma | Prefill Worker 使用的 RNIC 数量。建议按照机型的 RNIC 数量(4 或 8)填写。 | 4 |
prefillWorker.resources.requests.vke.volcengine.com/rdma | 4 | |
decodeWorker.resources.limits.vke.volcengine.com/rdma | Decode Worker 使用的 RNIC 数量。建议按照机型的 RNIC 数量(4 或 8)填写。 | 4 |
decodeWorker.resources.requests.vke.volcengine.com/rdma | 4 |
执行以下命令验证部署是否成功。
curl localhost:80/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "xllm", "messages": [ { "role": "user", "content": "In the heart of Eldoria, an ancient land of boundless magic and mysterious creatures, lies the long-forgotten city of Aeloria. Once a beacon of knowledge and power, Aeloria was buried beneath the shifting sands of time, lost to the world for centuries. You are an intrepid explorer, known for your unparalleled curiosity and courage, who has stumbled upon an ancient map hinting at ests that Aeloria holds a secret so profound that it has the potential to reshape the very fabric of reality. Your journey will take you through treacherous deserts, enchanted forests, and across perilous mountain ranges. Your Task: Character Background: Develop a detailed background for your character. Describe their motivations for seeking out Aeloria, their skills and weaknesses, and any personal connections to the ancient city or its legends. Are they driven by a quest for knowledge, a search for lost familt clue is hidden." } ], "stream":false, "max_tokens": 30 }'
应用部署完成后,容器服务会自动创建名为${应用名}-httpsvc
的服务,推理服务在80
端口。
通过 APIG Ingress 配置模型路由。APIG Ingress 基于火山引擎 API 网关(API Gateway,APIG) 提供托管的云原生网关功能,实现高可用、高扩展的 Ingress 流量管理方式,满足在云原生应用场景下对业务流量稳定性和高可用性的需求。
说明
使用 API 网关(APIG)暴露集群中的模型服务时,配置建议如下:
503
错误码,以及具体的错误详情。xllm
,可查看到如下所示 xLLM 看板。