本文介绍在火山引擎容器服务(VKE)集群中部署使用 Qwen3 模型推理服务的实践方案。
Qwen3 是阿里云推出的最新一代通义千问大模型,于 2025 年 4 月 29 日发布并开源。它包含 2 款混合专家(MoE)与 6 款密集(Dense)模型,参数量从 0.6B 到 235B 不等,可满足多样化需求。
Qwen3 具备思考和非思考双模式,前者适用于复杂问题求解,后者在简单问答场景表现高效。在多语言处理、推理能力和工具调用方面表现出色,通过智能规划和工具协同,可处理复杂任务。在多个权威基准测试中,Qwen3 成绩优异,能为各行业应用提供有力支持。
下文主要介绍容器服务测试并验证通过的实践内容,为了获得符合预期的结果,同时符合容器服务的 使用限制,请按照本文方案(或在本文推荐的资源上)操作。如需替换方案,您可以联系对应的火山引擎客户经理咨询。
集群配置 步骤 网络配置 模块的 容器网络模型 参数:选择 VPC-CNI。
节点池配置 步骤 节点池配置 模块的 计算规格 参数:推荐使用不同的机型部署不同的模型,以发挥最大性价比。以下为常用的 Qwen3 模型机型配置推荐,供参考。
说明
ecs.pni3l.11xlarge
规格,部署 Qwen3-32B 模型为例。模型 | 推荐计算规格 | GPU 数量 |
---|---|---|
Qwen3-8B | ecs.gni3cg.5xlarge | 1 |
ecs.gni3cl.5xlarge | 1 | |
Qwen3-14B | ecs.gni3cg.5xlarge | 1 |
ecs.gni3cl.5xlarge | 1 | |
ecs.pni3l.5xlarge | 1 | |
Qwen3-32B | ecs.pni3l.11xlarge | 2 |
Qwen3-235B-A22B | ecs.hpcpni3ln.45xlarge | 8 |
ecs.ebmhpcpni2l.32xlarge | 8 |
组件配置 步骤的 平台功能组件 列表:额外安装和配置 csi-tos、nvidia-device-plugin 两个组件。
将已创建的 VKE 集群接入持续交付平台。
登录 持续交付控制台。
在左侧导航栏选择 资源管理。
在资源管理页面,切换至 部署资源 页签。
在 部署资源 页签,单击 创建部署资源。
在 创建部署资源 对话框,按界面提示配置部署资源信息。重点注意以下参数配置,其他参数说明请参见 接入 VKE 集群。
配置项 | 说明 |
---|---|
接入类型 | 选择 容器服务 VKE。 |
地域 | 选择 步骤一 创建的 VKE 集群所在的地域。 |
部署集群 | 选择 步骤一 创建的 VKE 集群。 |
共享范围 | 选择 所有工作区。 |
登录 持续交付控制台。
在左侧导航栏选择 AI 应用。
在 AI 应用页面,单击 创建应用。
选择 开源 AI 模型部署 模板,并单击 下一步:应用配置。
按界面提示填写应用配置信息。配置完成后单击 确定,开始创建并部署 AI 应用。
下文以部署 Qwen3-32B 模型为例,需要注意以下参数配置,其他参数说明请参见 创建和部署 AI 应用。
配置项 | 说明 |
---|---|
基本信息 | |
应用标识 | 根据系统提示的命名规则,自定义应用的标识。创建后不可更改。 |
部署集群 | |
部署资源 | 选择 步骤二 创建的 CP 部署资源。 |
模型配置 | |
模型名称 | 本文以部署 Qwen3-32B 模型为例,因此选择 文本生成 > Qwen3-32B。 |
部署方式 | 选择 vLLM。 |
推理服务规格 | |
资源配置类型 |
|
等待 AI 应用部署完成。AI 应用的 运行状态 显示 运行中 后表示属于您的 Qwen3-32B 服务已部署完成。
部署完成后,通过 API 网关实例为 Qwen3 推理服务配置内外部网络访问。
登录 API 网关控制台。
在 实例管理 页面 单击 创建实例。需要注意以下列举的参数配置,其余参数说明和详细的操作步骤请参见 创建实例。
配置项 | 说明 |
---|---|
基本信息 | |
地域 | 选择与 步骤二 创建的部署资源相同的地域。 |
规格配置 | |
节点规格 | 选择 1c2g。 |
节点数量 | 设置为 2。 |
私有网络 | 必须与 VKE 集群使用同一个私有网络(VPC)。 |
成功创建 API 网关实例后,返回 持续交付控制台。
在 AI 应用 页面找到已部署完成的 Qwen3-32B 应用,单击应用名称进入详情页面。
在应用的 基本信息 页面,选择 访问配置 > API 网关,单击 添加 API 网关,并在系统弹出的对话框中关联已创建的 API 网关实例。
完成上述操作后,即可在 访问设置 页签看到公网域名(服务域名)。至此,您已完成了 Qwen3-32B 推理服务的部署和对外暴露。
通过如下所示的本地curl
命令和 APIG 公网域名,调用 API 来体验大模型的问答能力。
curl http://******/v1/chat/completions -H "Content-Type: application/json" -d '{ "model": "/model", "messages": [ {"role": "user", "content": "输入您的问题?"} ], "stream": false }'