You need to enable JavaScript to run this app.
文档中心
复制全文
下载 pdf
控制台操作指南
创建 AI 加速网关实例
复制全文
下载 pdf
创建 AI 加速网关实例

AI 加速网关实例是统一管理和加速大模型 API 调用的入口。本文介绍如何在全站加速(DCDN)控制台创建 AI 加速网关实例。

使用场景

在以下场景中,您可以创建并使用 AI 加速网关实例:

  • 统一多模型入口:应用需要调用不同供应商(如火山方舟、第三方平台、自部署模型)的多个大模型时,通过实例提供统一的 API 调用地址。
  • 简化客户端开发:客户端使用统一的 OpenAI 协议与所有后端模型交互,无需单独编写适配逻辑。
  • 提升稳定性:通过负载均衡或主备容灾策略分配流量,保障服务高可用。
  • 降低成本与延迟:通过启用缓存,直接从边缘节点返回相似请求的结果,减少对后端模型的调用,降低成本和响应时间。

背景信息

创建 AI 加速网关实例时需要配置您的后端模型。实例创建成功后,您可以通过以下两种方式调用后端模型:

  • OpenAI 兼容协议:使用网关生成的 API Key,以统一的 OpenAI 协议格式发送请求和接收响应。
    • 该方式支持网关的全部能力,包括请求加速、模型路由(负载均衡 / 主备容灾)、语义缓存和限速等。
    • 适用于希望统一管理多厂商调用协议的场景。
  • 协议透传:使用模型厂商自身的 API Key 和原生协议。网关原样转发请求和响应,不做协议转换。
    • 您只需将厂商域名(BaseUrl)替换为网关实例的 BaseUrl(包含加速域名),即可获得请求加速能力(不支持模型路由、语义缓存和限速等其他能力)。
    • 适用于需要保留厂商原生接口行为的场景。

一个加速网关实例(对应一个 BaseUrl —— 含加速域名)可同时关联多种调用类型 / 用途(如文本生成、图像生成、语音合成等)的模型,网关会根据请求路径自动路由到对应类型的模型,无需为不同模型类型创建多个实例。

使用限制

  • 网关实例支持关联的模型包括火山方舟模型、部分第三方服务商模型、自部署模型。具体模型来源请参见 功能特性

    说明

    • 火山方舟模型、第三方服务商支持以 OpenAI 兼容协议和协议透传方式调用。
    • 自部署模型仅支持以 OpenAI 兼容协议方式调用。
  • 每个实例最多允许关联 50 个模型。

前提条件

创建实例前,请确保:

操作步骤

  1. 登录 全站加速控制台
  2. 在左侧导航栏,选择 AI 加速网关 > 实例管理
  3. 单击 新增实例
  4. 创建实例 页面完成以下配置。参数详情请参见 配置说明
    • 基础配置:填写实例名称并选择类型。
    • 模型配置:选择路由策略,添加并配置至少一个模型。
    • 高级配置:设置加速区域、缓存和限流策略。
      Image
  5. 单击 确定

创建成功后,页面自动返回 实例管理 列表。单击实例名称进入 实例详情 页面。您可以在 请求方式 区域获取 BaseUrlAPI Key,以及 Curl 和 Python 的调用示例。

说明

控制台默认展示 OpenAI 兼容协议的调用示例。如需查看协议透传的调用示例,请参见模型调用示例代码

多模型选择

如果网关绑定了多个模型,选择不同模型会影响调用示例中的 model 字段。建议根据模型路由策略选择相应模型。

路由策略

模型选择

主备容灾

选择您最希望优先访问的模型名称。网关将按配置的主备顺序调度,主模型失败或超时后自动切换到备用模型。

说明

路由策略仅在同一调用类型(如文本生成、图像生成、语音识别等)的模型之间生效。不同调用类型的模型独立调度,不互相容灾或均衡。

负载均衡

选择任一模型,则 model 字段自动填充所选模型。这种情况下,网关会直接使用该模型,不进行负载均衡。

注意

要使负载均衡生效(网关按权重在同一调用类型模型之间分配请求),model 字段不能是已配置的任何模型,建议留空或设置为 auto

Image

配置说明

实例创建页面的配置项说明如下:

配置分组

配置项

说明

基本信息

实例名称

实例的标识名称。

实例类型

指定实例用途。目前仅支持 MaaS API 加速,用于统一管理和加速大模型 API 调用。

模型配置

模型路由策略

请求分发规则。可选项:

  • 负载均衡:按配置的 权重(1-100 的整数)比例分配请求,适用于将流量分散到多个同类模型。
  • 主备容灾:按模型顺序(可拖拽调整)调用。主模型失败或超时后,自动尝试调用备用模型,适用于保障核心服务高可用。

模型/智能体

单击 添加模型 接入后端模型。最多支持添加 50 个。

  • 模型配置 - 字节跳动火山方舟

模型 API Key

火山方舟模型的访问凭证。推荐选择 从列表中选择,自动加载已创建的 API Key;也支持 自定义输入

说明

如果不传入,该模型仅支持通过协议透传方式调用(协议透传方式仅支持请求加速能力,不支持其他能力)。

推理接入点

模型在火山方舟的推理端点地址。

模型格式

模型通信协议,目前仅支持 OpenAI

说明

此为 OpenAI 兼容协议模式下的通信协议限制。使用协议透传时,网关原样转发厂商协议。

调用类型

模型服务场景。可选项:文本生成图像生成语音识别向量模型语音合成

  • 模型配置 - 第三方服务商

阿里云百炼大模型服务平台Kimi 开放平台智谱 AI 开放平台百度千帆腾讯混元硅基流动 SiliconCloudMiniMax 开放平台讯飞星辰 MaaS 平台DeepSeek 开放平台零一万物大模型开放平台

模型名称

在网关中显示的自定义名称。

API Key

第三方平台提供的 API Key。

说明

如果不传入,该模型仅支持通过协议透传方式调用(协议透传方式仅支持请求加速能力,不支持其他能力)。

模型格式

模型通信协议,目前仅支持 OpenAI

说明

此为 OpenAI 兼容协议模式下的通信协议限制。使用协议透传时,网关原样转发厂商协议。

调用类型

模型服务场景,目前仅支持 文本生成

  • 模型配置 - 自部署模型

模型名称

在网关中显示的自定义名称。

BaseURL

自部署模型的服务地址。

API Key

自部署模型的 API Key。

注意

自部署模型仅支持通过 OpenAI 兼容协议方式调用。您必须提供 API Key,否则无法调用。

模型格式

模型通信协议,目前仅支持 OpenAI

调用类型

模型服务场景。可选项:文本生成语音合成语音识别。对于语音合成和语音识别模型,网关支持透传以下额外配置:

协议类型

(仅语音合成)模型通信协议。可选项:HTTPWebSocket

采样率

(仅语音合成)音频采样率(Hz),需输入正整数。

位深

(仅语音合成)音频位深度,目前仅支持 16bit

通道数

(仅语音合成)音频通道数。可选项:1(单声道)、2(立体声)。

集成方式

(仅 HTTP 语音合成)网关处理用户请求的方式:

  • 攒句后合成:平衡延迟与连贯性。按首个短分句标点(如逗号)切分并发送首句给模型进行合成,以快速返回首包;后续按完整分句标点(如句号、问号等)切分;如果单个句子过长,网关也会自适应使用短分句标点切分。
  • 按短句合成:优先保证实时性。将每个分句(无论是短分句还是完整句子)直接发送给模型处理,可能导致合成语音在句子间的语调和情感上缺乏连贯性。

结果输出方式

(仅语音识别)识别结果返回方式:

  • 全量输出:识别结束后一次性返回。
  • 增量输出:识别过程中实时逐步返回。

是否支持 VAD

(仅语音识别)模型是否支持语音活动检测(Voice Activity Detection)。

高级配置

加速区域

选择您的用户主要所在的地理区域,以便网关能够就近接入,优化网络延迟。可选项:中国大陆全球全球(除中国大陆)

加速域名

设置实例的公开访问地址前缀。完整的加速域名将作为客户端调用的 BaseUrl

缓存启用状态

开启后,网关会缓存模型的成功响应。当后续收到相似的请求时,将直接从缓存中返回结果,提升性能并降低成本。

缓存时长

(仅开启缓存时)缓存的有效时间。超过此时长,缓存将被视为过期并自动清除。可选项:1 分钟、5 分钟、30 分钟、1 小时、1 天、1 周。

限流配置

设置请求速率限制,保护后端服务免受流量冲击。

HTTP 协议

(仅开启限流时)限制每分钟的请求数(RPM)。

WebSocket 协议

(仅开启限流时)限制并发连接数。

相关操作

  • 编辑实例
    实例管理 页面,找到目标实例,在 操作 列单击 编辑。您也可以在 实例详情 页面单击右上角的 编辑
  • 删除实例
    实例管理 页面,找到目标实例,在 操作 列单击 删除,并在确认框中单击 确定。删除后实例数据无法恢复。
最近更新时间:2026.05.09 17:26:39
这个页面对您有帮助吗?
有用
有用
无用
无用