You need to enable JavaScript to run this app.
导航
快速部署 DeepSeek-R1-0528 推理服务
最近更新时间:2025.06.06 13:37:27首次发布时间:2025.06.06 13:37:27
我的收藏
有用
有用
无用
无用

本文介绍如何在火山引擎容器服务集群中,快速部署 DeepSeek-R1-0528 模型推理服务,满足您的业务需求。

背景信息

DeepSeek-R1-0528 是深度求索于 2025 年 5 月 28 日推出的推理模型升级版。它以 DeepSeek V3 Base 为基础,参数量达 685B 。通过强化推理链等优化,其推理、编程能力显著提升,在 AIME 2025 数学测试中,准确率从 70% 跃升至 87.5% 。该模型还支持 JSON 输出,幻觉率降低约 50%。并且,它完全开源,性能可与顶尖模型媲美,实用性强 。

使用说明

下文主要介绍测试并验证通过的实践内容,为了获得符合预期的结果,同时符合 使用限制,请按照本文方案(或在本文推荐的资源上)操作。如需替换方案,您可以联系对应的客户经理咨询。

前提条件

在容器服务创建容器集群,需要注意以下列举的参数配置,详细的操作说明参见 创建集群

  • 容器网络模型:选择 VPC-CNI
    alt

  • 计算规格:推荐使用不同的机型部署不同的模型,以发挥最大性价比。DeepSeek-R1-0528 的参数量达到了 685B,以下是推荐的机型以及对应的机器数量。

    alt

    模型名称推荐GPU 数量机器数量
    DeepSeek-R1-0528ecs.hpcpni3ln.45xlarge82
    ecs.ebmhpcpni2l.32xlarge82
  • 组件配置:安装 csi-tosnvidia-device-plugin 两个组件。

API 网关

  • 已创建 API 网关。 私有网络置必须和所创建 VKE 集群相同。网关节点的规格选择 1c2g 2协议HTTP1.1。创建 API 网关实例的详细说明参见 创建实例

    alt

操作步骤

第一步:开启 RDMA 资源配置

采用分布式推理的方式部署 DeepSeek-R1-0528。分布式部署需要 RDMA 网卡实现多节点之间的数据通信。在已创建的 VKE 集群中,来开启 RDMA 资源配置。

  1. 更新节点池配置。

    1. 登录已创建的容器服务集群,在左侧菜单栏中 节点管理 > 节点池,单击目标节点的 编辑,进入节点池编辑页面。
      alt
    2. 更多配置 > 节点标签 区域,新增标签 vke.node.rdma.mode: exclusive
      alt
    3. 高级配置 > Kubelet 自定义参数 区域,添加参数 topology-manager-policy: best-effort
      alt
  2. 安装 RDMA 组件。

    登录目标 VKE 集群,在 组件管理 > 网络 安装 rdma-device-plugin组件。
    alt

第二步:创建部署集群

将已创建的 VKE 集群接入持续交付平台。

  1. 登录 持续交付控制台

  2. 在左侧导航栏选择 资源管理

  3. 在资源管理页面,切换至 部署资源 页签。

  4. 在 部署资源 页签,单击 创建部署资源 。

  5. 在 创建部署资源 对话框,按要求配置部署资源信息。重点注意以下参数配置,其他参数说明参见 接入 VKE 集群

    alt

    配置项说明
    接入类型选择 容器服务 VKE
    地域选择已创建容器服务集群所在的地域。
    共享范围选择 所有工作区

第三步:创建 AI 应用

在持续交付的 AI 应用 模块,部署大模型应用。

  1. 登录 持续交付控制台

  2. 在左侧导航栏选择 AI 应用

  3. 在 AI 应用页面,单击 创建应用

  4. 选择 基于 AI 模型创建 > DeepSeek-R1-0528,单击 部署
    alt

  5. 按要求填写应用的相关配置信息。配置完成后单击 创建,应用将开始创建并部署。重点注意以下参数配置,其他参数说明参见 创建和部署 AI 应用(自定义创建)

    • 模型配置
      alt

      配置项说明
      配置方式本示例选择 vLLM。

      高级配置

      分布式推理支持连通多台主机来部署大模型服务,解决部分场景中单台主机无法部署大容量大模型服务的场景。本示例暂无此问题,不开启分布式推理。

      • 机器数:填写 部署单个实例所需的机器数。例如,一个大模型服务需要 4 个实例,部署单个实例所需的机器数为 2,则一共需要 4 ✖️ 2 = 8 台机器(节点)部署该服务。如果集群的节点数不足 8 台将导致部署失败。VKE 中增加节点的说明参见 集群扩容
      • RDMA 配置:是否在资源中开启 RDMA 功能。RDMA (Remote Direct Memroy Access,远程直接内存访问)是一种高性能网络协议,能够减少了CPU 占用,减少内存带宽瓶颈,提高带宽利用率。当前仅高性能计算 GPU 型实例支持 RDMA。在容器服务中,开启 RDMA 资源的使用请参考文档:VKE 集群中使用 RDMA 资源
      • RDMA 卡数:开启 RDMA 功能的卡数。
    • 部署集群
      alt

      配置项说明
      部署资源选择已创建的容器服务集群。
    • 推理服务规格

      alt

      配置项说明
      实例数选择 1
      弹性容器实例本示例不选择该功能。

      资源配置类型

      不同模型的资源配置不同,本示例的配置如下。

      • 实例数:1
      • CPU:保持默认设置。
      • 内存:保持默认设置。
      • GPU 配置类型:选择 Nvidia
      • GPU 算力:8 。
  6. 单击 创建,启动模型创建。

第三步:创建 API 网关访问推理服务

火山引擎 API 网关 APIG 是基于云原生的、高扩展、高可用的云上网关托管服务。在传统流量网关的基础上,集成丰富的服务发现和服务治理能力,打通微服务架构的内外部网络,实现安全通信。

  1. 登录当前应用。

    1. 登录 持续交付控制台
    2. 在左侧导航栏选择 AI 应用
    3. 在 AI 应用页面,选择目标 AI 应用,单击应用卡片,进入当前应用的基本信息页签。
  2. 在 基本信息 > 访问设置 页签,选择 API 网关

    alt

  3. 单击 添加 API 网关 ,添加符合 前提条件 要求的 API 网关。

    alt

  4. 完成上述操作后,即可在 访问设置 页面查看模型的公网域名。

    alt

操作结果

通过本地 curl 命令调用大模型 API,即可以成功和大模型对话。

curl -X POST http://example.com/v1/chat/completions -H "Content-Type: application/json" -d '{
    "model": "/model",
    "messages": [
        {
            "role": "user",
            "content": "你的问题"
        }
    ],
    "temperature": 0.7
}'