You need to enable JavaScript to run this app.
导航
基于 VKE 快速部署 Qwen3 推理服务
最近更新时间:2025.05.09 14:40:30首次发布时间:2025.05.09 14:40:30
我的收藏
有用
有用
无用
无用

本文介绍在火山引擎容器服务(VKE)集群中部署使用 Qwen3 模型推理服务的实践方案。

背景信息

Qwen3 是阿里云推出的最新一代通义千问大模型,于 2025 年 4 月 29 日发布并开源。它包含 2 款混合专家(MoE)与 6 款密集(Dense)模型,参数量从 0.6B 到 235B 不等,可满足多样化需求。

Qwen3 具备思考和非思考双模式,前者适用于复杂问题求解,后者在简单问答场景表现高效。在多语言处理、推理能力和工具调用方面表现出色,通过智能规划和工具协同,可处理复杂任务。在多个权威基准测试中,Qwen3 成绩优异,能为各行业应用提供有力支持。

使用说明

下文主要介绍容器服务测试并验证通过的实践内容,为了获得符合预期的结果,同时符合容器服务的 使用限制,请按照本文方案(或在本文推荐的资源上)操作。如需替换方案,您可以联系对应的火山引擎客户经理咨询。

准备工作

  • 开通火山引擎 持续交付(CP)产品。本方案依赖该产品的一站式流水线能力,将应用部署至 VKE 集群中。
  • 部署大模型应用时,需要使用 CP 的 AI 应用 功能。该功能在 CP 侧处于 邀测 阶段,请提前联系客户经理获取功能使用权限。
  • 开通火山引擎 API 网关(APIG)产品。本方案依赖 APIG 的云上网关托管能力,打通推理服务架构的内外部网络,实现安全通信。

部署模型

步骤一:创建 VKE 集群

  1. 登录 容器服务控制台
  2. 在集群管理页面的左侧导航栏,选择 集群
  3. 在集群列表页面,单击左上角 创建集群,配置创建集群所需的参数,完成 VKE 集群的创建。
    重点注意以下参数配置,其他参数说明请参见 创建集群
    • 集群配置 步骤 网络配置 模块的 容器网络模型 参数:选择 VPC-CNI
      alt

    • 节点池配置 步骤 节点池配置 模块的 计算规格 参数:推荐使用不同的机型部署不同的模型,以发挥最大性价比。以下为常用的 Qwen3 模型机型配置推荐,供参考。

      说明

      • 如下推荐的计算规格,在云服务器(ECS)侧均处于 邀测 阶段。如需使用,请联系您的火山引擎客户经理获取。
      • 为演示部署效果,本文以选择ecs.pni3l.11xlarge规格,部署 Qwen3-32B 模型为例。
      模型推荐计算规格GPU 数量
      Qwen3-8Becs.gni3cg.5xlarge1
      ecs.gni3cl.5xlarge1
      Qwen3-14Becs.gni3cg.5xlarge1
      ecs.gni3cl.5xlarge1
      ecs.pni3l.5xlarge1
      Qwen3-32Becs.pni3l.11xlarge2
      Qwen3-235B-A22Becs.hpcpni3ln.45xlarge8
      ecs.ebmhpcpni2l.32xlarge8

      alt

    • 组件配置 步骤的 平台功能组件 列表:额外安装和配置 csi-tosnvidia-device-plugin 两个组件。

步骤二:创建部署资源

将已创建的 VKE 集群接入持续交付平台。

  1. 登录 持续交付控制台

  2. 在左侧导航栏选择 资源管理

  3. 在资源管理页面,切换至 部署资源 页签。

  4. 在 部署资源 页签,单击 创建部署资源

  5. 在 创建部署资源 对话框,按界面提示配置部署资源信息。重点注意以下参数配置,其他参数说明请参见 接入 VKE 集群
    alt

    配置项说明
    接入类型选择 容器服务 VKE
    地域选择 步骤一 创建的 VKE 集群所在的地域。
    部署集群选择 步骤一 创建的 VKE 集群。
    共享范围选择 所有工作区

步骤三:创建 AI 应用

  1. 登录 持续交付控制台

  2. 在左侧导航栏选择 AI 应用

  3. 在 AI 应用页面,单击 创建应用

  4. 选择 开源 AI 模型部署 模板,并单击 下一步:应用配置
    alt

  5. 按界面提示填写应用配置信息。配置完成后单击 确定,开始创建并部署 AI 应用。
    下文以部署 Qwen3-32B 模型为例,需要注意以下参数配置,其他参数说明请参见 创建和部署 AI 应用

    配置项说明
    基本信息
    应用标识根据系统提示的命名规则,自定义应用的标识。创建后不可更改
    部署集群
    部署资源选择 步骤二 创建的 CP 部署资源。
    模型配置
    模型名称本文以部署 Qwen3-32B 模型为例,因此选择 文本生成 > Qwen3-32B
    部署方式选择 vLLM
    推理服务规格

    资源配置类型

    • CPU、内存资源相关配置:按需自定义配置。
    • GPU 资源类型:选择 Nvidia
    • GPU 算力:参考本文上方 步骤一 下模型和计算规格对应表中推荐使用的 GPU 数量,设置 GPU 卡数。
      本文前置步骤中选择了在ecs.pni3l.11xlarge规格中部署 Qwen3-32B 模型,因此此处 GPU 算力 设置为2

    等待 AI 应用部署完成。AI 应用的 运行状态 显示 运行中 后表示属于您的 Qwen3-32B 服务已部署完成。

步骤四:访问推理服务

部署完成后,通过 API 网关实例为 Qwen3 推理服务配置内外部网络访问。

  1. 登录 API 网关控制台

  2. 实例管理 页面 单击 创建实例。需要注意以下列举的参数配置,其余参数说明和详细的操作步骤请参见 创建实例
    alt

    配置项说明
    基本信息
    地域选择与 步骤二 创建的部署资源相同的地域。
    规格配置
    节点规格选择 1c2g
    节点数量设置为 2
    私有网络必须与 VKE 集群使用同一个私有网络(VPC)。
  3. 成功创建 API 网关实例后,返回 持续交付控制台

  4. AI 应用 页面找到已部署完成的 Qwen3-32B 应用,单击应用名称进入详情页面。

  5. 在应用的 基本信息 页面,选择 访问配置 > API 网关,单击 添加 API 网关,并在系统弹出的对话框中关联已创建的 API 网关实例。
    alt

  6. 完成上述操作后,即可在 访问设置 页签看到公网域名(服务域名)。至此,您已完成了 Qwen3-32B 推理服务的部署和对外暴露。
    alt

验证模型

通过如下所示的本地curl命令和 APIG 公网域名,调用 API 来体验大模型的问答能力。

curl http://******/v1/chat/completions     -H "Content-Type: application/json"     -d '{
        "model": "/model",
        "messages": [
            {"role": "user", "content": "输入您的问题?"}
        ],
        "stream": false
    }'

alt