You need to enable JavaScript to run this app.
导航
快速部署基于 xLLM 的 DeepSeek-V3 满血版(PD 分离)
最近更新时间:2025.06.09 15:57:38首次发布时间:2025.06.07 21:16:51
我的收藏
有用
有用
无用
无用

本文主要介绍使用容器服务(VKE)快速部署基于 xLLM 的 DeepSeek-V3 满血版模型推理服务。

方案介绍

本方案提供在 Kubernetes 集群中实现 DeepSeek-V3 大语言模型的大语言模型的 Prefill-Decode(PD)分离部署。

  • DeepSeek-V3 模型:由中国 AI 初创公司深度求索(DeepSeek)发布,通用大语言大模型(MoE 结构,671B 参数,激活参数 37B),在 14.8T token 上进行了预训练,可以提供信息检索、数据分析、自然语言处理等服务,能够适应多种应用场景,如客户服务、教育辅导、内容创作等。
  • xLLM引擎:由火山方舟全自研的高效推理框架,支持 PD 分离、弹性扩缩等特性,性能显著领先开源框架。
  • PD 分离技术:将推理过程分为两阶段,部署于不同硬件资源以优化性能:
    • Prefill(预填充):计算密集型阶段。
    • Decode(解码):计算稀疏型阶段。

方案核心优势:

  • 资源利用优化:分离适配 Prefill 密集计算与 Decode 稀疏计算。
  • 提高吞吐量:Prefill 处理新请求时,Decode 可并行处理旧请求解码任务。
  • 降低延迟:减少并发请求等待时间,提升整体效率。

部署信息

  • 模型:DeepSeek-V3-671B
  • 推理引擎:xLLM
  • 实例规格:ecs.hpcpni3ln.45xlarge

支持能力

  • 并行策略:PD 分离、DP+TP+EP
  • 数据精度:FP8
  • 观测:托管 Prometheus(VMP)
  • 访问:API 网关(APIG)

使用说明

  • 本实践涉及较多组件,相互间有依赖,配置复杂,为了获得符合预期的结果,请务必根据本文指引操作。

  • 同时开启 GDKV 模型加速和 EIC 时,实例节点的内存可能成为瓶颈。如有性能需求,建议只开启 EIC。操作方式请参见:EIC 性能测试方法

  • 为了获得符合预期的结果,同时符合容器服务的 使用限制,请按照本文方案(或在本文推荐的资源上)操作。如需替换方案,您可以联系对应的火山引擎客户经理咨询。

  • 请勿使用 mGPU 对 GPU 进行切分。

  • 完整的部署流程,依赖部分火山引擎邀测能力,请联系火山引擎客户经理申请如下功能的邀测试用:

    邀测功能/资源涉及产品说明
    xLLM 推理加速方案火山方舟搭配 xLLM License 使用。
    高性能计算 GPU 型 hpcpni3ln 规格云服务器高性能计算实例,提供计算能力。
    节点挂载本地盘能力容器服务允许在 VKE 集群中配置本地盘挂载。

前提条件

创建高性能计算集群

高性能计算集群,用于实现高性能计算 GPU 实例(计算节点)的逻辑隔离,同一集群内实例间 RDMA 网络互联互通。详情请参见 创建高性能计算集群

说明

高性能集群所在的 可用区 需要与 VKE 节点的 可用区 一致。

创建 VKE 集群

  1. 在容器服务中创建集群,需要注意以下列举的参数配置。其余参数说明和详细的操作步骤,请参见 创建集群

    配置项说明
    集群配置
    Kubernetes 版本选择 v1.28 及以上版本。
    容器网络模型选择 VPC-CNI
    节点池配置
    托管节点池开启 托管节点池。
    可用区与 高性能计算集群 所在的可用区相同。
    计算规格选择前提条件中申请的高性能计算 GPU 型ecs.hpcpni3ln规格。每个 worker tp 8 使用 8 卡 1 台 8 卡 ECS,1p1d 需要 2 台 ECS。
    高性能计算机群选择之前创建的高性能计算集群。
    节点数量2 个。

    数据盘

    配置如下两个数据盘:

    • 极速型 SSD:规格选 1024 GiB,性能级别选择默认值 PL0
    • 本地盘 SSD:指定挂载目录为/data01

      注意

      • date01目录后续有相关依赖,不能修改和自定义。
      • 如果物理机宕机或本地盘损坏,将存在数据丢失的风险,因此请勿在本地盘上存储需要长期保存的数据,同时做好 数据备份

    alt

    节点标签 (Labels)

    通过 VKE 部署 DeepSeek 模型时,需设置节点标签来配置 RDMA 使用模式。
    标签键设置为:vke.node.rdma.mode,标签值设置为:shared(共享)。

    Kubelet 自定义参数

    通过 VKE 部署 DeepSeek 模型时,需通过 Kubelet 自定义参数配置 RDMA 设备的 NUMA 亲和策略。
    参数选择:topology-manager-policy,参数值选择:best-effort

    组件配置
    nvidia-device-plugin(必装)NVIDIA 设备驱动,支持在容器里使用 GPU 显卡设备的管理组件。
    rdma-device-plugin(必装)支持 RDMA 网卡设备的管理,提供 Pod Container 使用 RDMA 设备能力。
    apig-controller(必装)API 网关控制器,提供云原生的 AI 网关能力,根据不同策略完成推理流量的智能负载均衡。
    csi-ebs(必装)支持容器集群使用存储服务的标准 CSI 接口实现。
    prometheus-agent(必装)托管 Prometheus 监控组件,采集 Kubernetes 集群监控指标数据到火山引擎托管 Prometheus 服务(VMP)。
    apmplus-opentelemetry-collector(暂不支持)采集 OpenTelemetry 数据和 Prometheus 指标并发送至应用性能监控全链路版(APMPlus)。
    apmplus-server-agent(暂不支持)采集服务和主机监控数据并发送至 APMPlus。
    cr-credential-controller(推荐安装)免密拉取镜像仓库(CR)镜像,简化部署操作。
    keda(推荐安装)基于 Kubernetes 的事件驱动的弹性伸缩器。基于复杂指标完成推理服务的弹性伸缩任务。
    vci-virtual-kubelet(推荐安装)利用弹性容器实例部署系统组件等 CPU 工作负载,免运维且不占用 GPU 节点计算资源。
  2. 成功创建 VKE 集群和节点后,执行以下命令将 xLLM License 上传到本方案涉及的所有 GPU 节点上。

    scp ./license.lic root@your_ip_addr:~/
    

操作步骤

步骤一:部署应用

  1. 登录 容器服务控制台

  2. 在左侧导航栏,选择 应用中心 > 应用模板

  3. 应用模板 页面,找到 deepseek-v3-xllm-pd 应用模板,鼠标悬停在该应用模板区域,然后单击 部署

  4. 部署应用 页面,配置 deepseek-v3-xllm-pd 服务参数。其中,部分参数按如下说明配置,其余参数根据界面提示或参考 应用模板 中的说明配置。

    配置项说明
    基本信息
    项目选择需要部署应用的项目,确保与 VKE 集群所属项目相同。
    集群选择 前提条件 中创建的 VKE 集群。
    命名空间自定义选择目标集群下的命名空间。
    编排模板
    Chart选择 deepseek-v3-xllm-pd 的 Chart 版本,建议选择最新版本。
    参数配置选择 deepseek-v3-xllm-pd 的配置方法。单击编辑图标,编辑values.yaml文件,并按照如下 YAML 文件参数说明 表格内容更新 YAML 文件。
    协议阅读了解协议内容后勾选协议。

    YAML 文件参数说明

    配置项说明示例
    modelConfig.local.path用于存放模型文件的 ECS 本地路径。如果希望使用本地盘,需要与节点池配置的挂载地址匹配。/data01/models
    prefillWorker.resources.limits.vke.volcengine.com/rdmaPrefill Worker 使用的 RNIC 数量。建议按照机型的 RNIC 数量(4 或 8)填写。4
    prefillWorker.resources.requests.vke.volcengine.com/rdma4
    decodeWorker.resources.limits.vke.volcengine.com/rdmaDecode Worker 使用的 RNIC 数量。建议按照机型的 RNIC 数量(4 或 8)填写。4
    decodeWorker.resources.requests.vke.volcengine.com/rdma4
  5. 执行以下命令验证部署是否成功。

    curl localhost:80/v1/chat/completions \
      -H "Content-Type: application/json" \
      -d '{
        "model": "xllm",
        "messages": [
        {
            "role": "user",
            "content": "In the heart of Eldoria, an ancient land of boundless magic and mysterious creatures, lies the long-forgotten city of Aeloria. Once a beacon of knowledge and power, Aeloria was buried beneath the shifting sands of time, lost to the world for centuries. You are an intrepid explorer, known for your unparalleled curiosity and courage, who has stumbled upon an ancient map hinting at ests that Aeloria holds a secret so profound that it has the potential to reshape the very fabric of reality. Your journey will take you through treacherous deserts, enchanted forests, and across perilous mountain ranges. Your Task: Character Background: Develop a detailed background for your character. Describe their motivations for seeking out Aeloria, their skills and weaknesses, and any personal connections to the ancient city or its legends. Are they driven by a quest for knowledge, a search for lost familt clue is hidden."
        }
        ],
        "stream":false,
        "max_tokens": 30
      }'
    

步骤二:配置服务访问

应用部署完成后,容器服务会自动创建名为${应用名}-httpsvc的服务,推理服务在80端口。

步骤三:配置路由

通过 APIG Ingress 配置模型路由。APIG Ingress 基于火山引擎 API 网关(API Gateway,APIG) 提供托管的云原生网关功能,实现高可用、高扩展的 Ingress 流量管理方式,满足在云原生应用场景下对业务流量稳定性和高可用性的需求。

  1. 在集群管理页面的左侧导航栏中,选择 服务与路由 > 路由规则,单击 创建路由规则。使用 API 网关对外暴露集群内的模型服务。部分参数按如下说明配置,其余配置详情,请参见 通过控制台创建 APIG Ingress

    说明

    使用 API 网关(APIG)暴露集群中的模型服务时,配置建议如下:

    • 实例规格:建议选择 4c8g 规格,默认双可用区高可用。
    • 负载均衡算法:建议配置为 轮询。在后端负载近似均衡的前提下,更适用于后端升级变更的场景。
    • 熔断: 当某些 GPU 实例出现异常时,一般会希望尽快将故障实例下线,避免故障持续。同时希望能够保留故障现场为后续进一步排查提供依据。 可以通过配置网关的熔断规则,将出现故障的实例进行隔离。
    • 请求超时:API 网关默认不超时,建议保持默认。如有超时需求,支持在 API 网关控制台 中配置超时,详情请参见 高级路由策略
    • 带宽上限:VKE 控制台上的配置项为 API 网关下 CLB 负载均衡的带宽,如需更大带宽,可以在 API 网关控制台 中绑定自定义 CLB 实例,详情请参见 添加访问入口
    • 可观测性:在 VKE 控制台上创建的 API 网关实例,默认情况下未开启监控告警和日志功能。如有需要,建议您在 API 网关控制台 中开启对应实例的日志和监控告警能力。
      • 实例监控:能够帮助您从入口网关层面及时发现整个系统链路上的非预期现象。例如:后端不健康、后端 Crash 等,在 API 网关会报503错误码,以及具体的错误详情。
      • 实例日志:从访问日志里能够查看请求错误详情、请求耗时、请求在后端各个 Pod 的分布等详情。
  2. (可选)配置 API 网关认证鉴权。
    1. 登录 API 网关控制台
    2. 创建消费者:在左侧导航栏选择 消费者管理 > 消费者列表,单击 创建消费者
    3. 生成 API-KEY :在消费者列表中,单击目标消费者名称,进入消费者详情页面。在认证信息区域,单击 生成 API Key

      在弹出的对话框内容选择 自动创建 API Key 认证信息。

      单击 确定,生成 API Key 认证信息。
    4. 启用 Key Auth 插件:在左侧导航栏选择 插件管理 > Key Auth插件,单击 创建插件,配置插件参数。
      1. 生效级别:选择 路由级别,并配置插件所属实例、服务和路由。
      2. 认证配置:选择 header,并配置来源为 Authorization,表示在请求头中的 Authorization 附带 API Key 认证信息。
      3. 消费者:选择步骤一种创建的消费者。
      4. 其他配置保持缺省。

步骤四:开启观测配置

  1. 在集群管理页面的左侧导航栏中,选择 云原生观测 > 概览,单击 立即启用,开启云原生观测和容器服务观测。更多配置详情,请参见 开启观测容器服务观测
  2. 开启云原生观测后,xLLM 的指标会被采集到 VMP,您可以在VMP 服务控制台 预置面板查看 xLLM 监控。
    搜索xllm,可查看到如下所示 xLLM 看板。
    alt
  3. (可选)使用 Grafana 查看 xLLM 监控。
    如果希望使用 Grafana 查看 xLLM 的监控图表,可自行部署 Grafana 或者导入面板到自建 Grafana。
    1. 参考 在容器服务集群中部署 Grafana 并接入工作区 内容搭建 Grafana 服务。
    2. 登录 Grafana ,选择导入看版。
      xllm_default_dashboard.json
      28.76KB

      导入后效果如下图所示。
      alt