You need to enable JavaScript to run this app.
容器服务

容器服务

复制全文
AI 应用
基于 VKE 快速部署 Qwen3 推理服务
复制全文
基于 VKE 快速部署 Qwen3 推理服务

本文介绍在火山引擎容器服务(VKE)集群中部署使用 Qwen3 模型推理服务的实践方案。

背景信息

Qwen3 是阿里云推出的最新一代通义千问大模型,于 2025 年 4 月 29 日发布并开源。它包含 2 款混合专家(MoE)与 6 款密集(Dense)模型,参数量从 0.6B 到 235B 不等,可满足多样化需求。

Qwen3 具备思考和非思考双模式,前者适用于复杂问题求解,后者在简单问答场景表现高效。在多语言处理、推理能力和工具调用方面表现出色,通过智能规划和工具协同,可处理复杂任务。在多个权威基准测试中,Qwen3 成绩优异,能为各行业应用提供有力支持。

使用说明

下文主要介绍容器服务测试并验证通过的实践内容,为了获得符合预期的结果,同时符合容器服务的 使用限制,请按照本文方案(或在本文推荐的资源上)操作。如需替换方案,您可以联系对应的火山引擎客户经理咨询。

准备工作

  • 开通火山引擎 持续交付(CP)产品。本方案依赖该产品的一站式流水线能力,将应用部署至 VKE 集群中。
  • 部署大模型应用时,需要使用 CP 的 AI 应用 功能。该功能在 CP 侧处于 邀测 阶段,请提前联系客户经理获取功能使用权限。
  • 开通火山引擎 API 网关(APIG)产品。本方案依赖 APIG 的云上网关托管能力,打通推理服务架构的内外部网络,实现安全通信。

部署模型

步骤一:创建 VKE 集群

  1. 登录 容器服务控制台
  2. 在集群管理页面的左侧导航栏,选择 集群
  3. 在集群列表页面,单击左上角 创建集群,配置创建集群所需的参数,完成 VKE 集群的创建。
    重点注意以下参数配置,其他参数说明请参见 创建集群
    • 集群配置 步骤 网络配置 模块的 容器网络模型 参数:选择 VPC-CNI
      alt

    • 节点池配置 步骤 节点池配置 模块的 计算规格 参数:推荐使用不同的机型部署不同的模型,以发挥最大性价比。以下为常用的 Qwen3 模型机型配置推荐,供参考。

      说明

      • 如下推荐的计算规格,在云服务器(ECS)侧均处于 邀测 阶段。如需使用,请联系您的火山引擎客户经理获取。
      • 为演示部署效果,本文以选择ecs.pni3l.11xlarge规格,部署 Qwen3-32B 模型为例。
      模型推荐计算规格GPU 数量
      Qwen3-8Becs.gni3cg.5xlarge1
      ecs.gni3cl.5xlarge1
      Qwen3-14Becs.gni3cg.5xlarge1
      ecs.gni3cl.5xlarge1
      ecs.pni3l.5xlarge1
      Qwen3-32Becs.pni3l.11xlarge2
      Qwen3-235B-A22Becs.hpcpni3ln.45xlarge8
      ecs.ebmhpcpni2l.32xlarge8

      alt

    • 组件配置 步骤的 平台功能组件 列表:额外安装和配置 csi-tosnvidia-device-plugin 两个组件。

步骤二:创建部署资源

将已创建的 VKE 集群接入持续交付平台。

  1. 登录 持续交付控制台

  2. 在左侧导航栏选择 资源管理

  3. 在资源管理页面,切换至 部署资源 页签。

  4. 在 部署资源 页签,单击 创建部署资源

  5. 在 创建部署资源 对话框,按界面提示配置部署资源信息。重点注意以下参数配置,其他参数说明请参见 接入 VKE 集群
    alt

    配置项说明
    接入类型选择 容器服务 VKE
    地域选择 步骤一 创建的 VKE 集群所在的地域。
    部署集群选择 步骤一 创建的 VKE 集群。
    共享范围选择 所有工作区

步骤三:创建 AI 应用

  1. 登录 持续交付控制台

  2. 在左侧导航栏选择 AI 应用

  3. 在 AI 应用页面,单击 创建应用

  4. 选择 开源 AI 模型部署 模板,并单击 下一步:应用配置
    alt

  5. 按界面提示填写应用配置信息。配置完成后单击 确定,开始创建并部署 AI 应用。
    下文以部署 Qwen3-32B 模型为例,需要注意以下参数配置,其他参数说明请参见 创建和部署 AI 应用

    配置项说明
    基本信息
    应用标识根据系统提示的命名规则,自定义应用的标识。创建后不可更改
    部署集群
    部署资源选择 步骤二 创建的 CP 部署资源。
    模型配置
    模型名称本文以部署 Qwen3-32B 模型为例,因此选择 文本生成 > Qwen3-32B
    部署方式选择 vLLM
    推理服务规格

    资源配置类型

    • CPU、内存资源相关配置:按需自定义配置。
    • GPU 资源类型:选择 Nvidia
    • GPU 算力:参考本文上方 步骤一 下模型和计算规格对应表中推荐使用的 GPU 数量,设置 GPU 卡数。
      本文前置步骤中选择了在ecs.pni3l.11xlarge规格中部署 Qwen3-32B 模型,因此此处 GPU 算力 设置为2

    等待 AI 应用部署完成。AI 应用的 运行状态 显示 运行中 后表示属于您的 Qwen3-32B 服务已部署完成。

步骤四:访问推理服务

部署完成后,通过 API 网关实例为 Qwen3 推理服务配置内外部网络访问。

  1. 登录 API 网关控制台

  2. 实例管理 页面 单击 创建实例。需要注意以下列举的参数配置,其余参数说明和详细的操作步骤请参见 创建实例
    alt

    配置项说明
    基本信息
    地域选择与 步骤二 创建的部署资源相同的地域。
    规格配置
    节点规格选择 1c2g
    节点数量设置为 2
    私有网络必须与 VKE 集群使用同一个私有网络(VPC)。
  3. 成功创建 API 网关实例后,返回 持续交付控制台

  4. AI 应用 页面找到已部署完成的 Qwen3-32B 应用,单击应用名称进入详情页面。

  5. 在应用的 基本信息 页面,选择 访问配置 > API 网关,单击 添加 API 网关,并在系统弹出的对话框中关联已创建的 API 网关实例。
    alt

  6. 完成上述操作后,即可在 访问设置 页签看到公网域名(服务域名)。至此,您已完成了 Qwen3-32B 推理服务的部署和对外暴露。
    alt

验证模型

通过如下所示的本地curl命令和 APIG 公网域名,调用 API 来体验大模型的问答能力。

curl http://******/v1/chat/completions     -H "Content-Type: application/json"     -d '{
        "model": "/model",
        "messages": [
            {"role": "user", "content": "输入您的问题?"}
        ],
        "stream": false
    }'

alt

最近更新时间:2025.05.09 14:40:30
这个页面对您有帮助吗?
有用
有用
无用
无用