You need to enable JavaScript to run this app.
导航
快速部署 Qwen2.5 大模型服务
最近更新时间:2025.06.04 10:39:01首次发布时间:2025.06.04 10:39:01
我的收藏
有用
有用
无用
无用

本文将结合火山引擎 AI 云原生推理套件 AI Cloud Native ServingKit 的能力,介绍如何通过容器服务 VKE、持续交付 CP 等产品快速实现 Qwen2.5-Omni-7B 部署。

背景信息

Qwen2.5-Omni 模型是 Qwen 系列中全新的旗舰级端到端多模态大模型,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出。

使用说明

下文主要介绍测试并验证通过的实践内容,为了获得符合预期的结果,同时符合 使用限制,请按照本文方案(或在本文推荐的资源上)操作。如需替换方案,您可以联系对应的客户经理咨询。

前提条件

容器服务

在容器服务创建容器集群,需要注意以下列举的参数配置,详细的操作说明参见 创建集群

  • 容器网络模型:选择 VPC-CNI
    alt

  • 计算规格:Qwen2.5-Omni-7B 参数规模达到 70亿,而且音频、视频处理需要消耗较多的显存。以下是不同视频时长的机型和 GPU 卡数推荐。
    alt

    视频时长推荐机型推荐显卡数量
    15秒ecs.pni3l.11xlarge2
    30秒ecs.pni3l.11xlarge2
    60秒ecs.hpcpni3ln.45xlarge 或 ecs.ebmhpcpni2l.32xlarge1
  • 组件配置:安装 csi-tosnvidia-device-plugin 两个组件。

负载均衡

  • 已创建负载均衡网关。 私有网络置必须和所创建 VKE 集群相同。创建负载均衡实例的详细说明参见 创建负载均衡实例

    alt

操作步骤

本文介绍通过火山引擎持续交付产品,完成模型在已创建的容器服务中的快速部署。

第一步:创建部署集群

将已创建的 VKE 集群接入持续交付平台。

  1. 登录 持续交付控制台

  2. 在左侧导航栏选择 资源管理

  3. 在资源管理页面,切换至 部署资源 页签。

  4. 在 部署资源 页签,单击 创建部署资源 。

  5. 在 创建部署资源 对话框,按要求配置部署资源信息。重点注意以下参数配置,其他参数说明参见 接入 VKE 集群

    alt

    配置项说明
    接入类型选择 容器服务 VKE
    地域选择已创建容器服务集群所在的地域。
    共享范围选择 所有工作区

第二步:创建 AI 应用

在持续交付的 AI 应用 模块,部署大模型应用。

  1. 登录 持续交付控制台

  2. 在左侧导航栏选择 AI 应用

  3. 在 AI 应用页面,单击 创建应用

  4. 选择 基于 AI 模型创建 > Qwen2.5-Omni-7B,单击 部署
    alt

  5. 按要求填写应用的相关配置信息。配置完成后单击 创建,应用将开始创建并部署。

    • 基本信息

      配置项说明
      应用标识自定义应用的标识。创建后不可更改。
      应用显示名自定义应用的显示名称。
      描述自定义应用的描述。
    • 部署集群

      配置项说明
      部署资源选择已创建的容器服务集群。
      命名空间选择集群中已创建的命名空间。
      环境标识默认自动生成环境标识,支持自定义修改。本示例暂不开启。
    • 推理服务规格

      模型所部署的云服务器规格不同,对应可配置服务规格也有所不同,本示例使用系统默认推荐参数。

      alt

      配置项说明
      实例数选择 1
      弹性容器实例本示例不选择该功能。
      资源配置类型模型所部署的云服务器规格不同,对应可配置服务规格也有所不同。本示例使用系统默认推荐参数。

第三步:创建负载均衡

火山引擎负载均衡 CLB 是一种将访问流量,按策略分发给多台后端服务器的服务,可以扩展系统对外服务能力,消除单点故障,提高系统的整体可用性。本示例使用负载均衡 CLB 对外暴露服务。

  1. 登录当前应用。

    1. 登录 持续交付控制台
    2. 在左侧导航栏选择 AI 应用
    3. 在 AI 应用页面,选择目标 AI 应用,单击应用卡片,进入当前应用的基本信息页签。
  2. 在 基本信息 > 访问设置 页签,选择 负载均衡(公网)

    alt

  3. 单击 添加负载均衡(公网) ,添加符合 前提条件 要求的负载均衡。

    alt

  4. 完成上述操作后,即可在 访问设置 页面查看模型的公网 IP 地址。

    alt

操作结果

操作完成后可以通过公网 IP 地址在浏览器访问推理服务。
alt

常见问题

摄像头、麦克风使用异常

问题原因
本示例是通过 HTTP(非安全链接)的方式访问的推理服务,由于浏览器的安全设置问题,在使用 摄像头、麦克风的时候可能会遇到image.no_webcam_support 的报错。

解决方案
基于常用的 Chrome 浏览器解决方案如下。

  1. 在浏览器页面输入以下地址。

    chrome://flags/#unsafely-treat-insecure-origin-as-secure
    
  2. Insecure origins treated as secure 配置为 已启用,并且将我们访问推理服务的公网 IP 填入配置中。

    alt

  3. 重启浏览器。