You need to enable JavaScript to run this app.
全站加速

全站加速

复制全文
AI 加速网关
创建 AI 加速网关实例
复制全文
创建 AI 加速网关实例

AI 加速网关实例是统一管理和加速大模型 API 调用的入口。本文介绍如何在全站加速(DCDN)控制台创建 AI 加速网关实例。

使用场景

在以下场景中,您可以创建并使用 AI 加速网关实例:

  • 统一多模型入口:应用需要调用不同供应商(如火山方舟、第三方平台、自部署模型)的多个大模型时,通过实例提供统一的 API 调用地址。
  • 简化客户端开发:客户端使用统一的 OpenAI 协议与所有后端模型交互,无需单独编写适配逻辑。
  • 提升稳定性:通过负载均衡或主备容灾策略分配流量,保障服务高可用。
  • 降低成本与延迟:通过启用缓存,直接从边缘节点返回相似请求的结果,减少对后端模型的调用,降低成本和响应时间。

使用限制

  • 每个实例最多允许关联 50 个模型。支持的模型来源请参见 功能特性
  • 模型通信协议仅支持 OpenAI 标准。

前提条件

创建实例前,请确保:

  • 已开通全站加速服务。
  • 已准备好模型访问凭证:
    • 火山方舟模型:在 火山方舟控制台 创建 API Key,并获取模型的推理接入点(Endpoint)。
    • 第三方服务商模型:获取对应平台的 API Key
    • 自部署模型:准备服务的 API Key 和地址(BaseURL)。

操作步骤

  1. 登录 全站加速控制台

  2. 在左侧导航栏,选择 AI 加速网关 > 实例管理

  3. 单击 新增实例

  4. 创建实例 页面完成以下配置。参数详情请参见 配置说明

    • 基础配置:填写实例名称并选择类型。
    • 模型配置:选择路由策略,添加并配置至少一个模型。
    • 高级配置:设置加速区域、缓存和限流策略。

    Image

  5. 单击 确定

创建成功后,页面自动返回 实例管理 列表。单击实例名称进入 实例详情 页面。您可以在 请求方式 区域获取 BaseUrlAPIKey,以及 Curl 和 Python 的调用示例。
Image

配置说明

实例创建页面的配置项说明如下:

配置分组

配置项

说明

基本信息

实例名称

实例的标识名称。

实例类型

指定实例用途。目前仅支持 MaaS API 加速,用于统一管理和加速大模型 API 调用。

模型配置

模型路由策略

请求分发规则。可选项:

  • 负载均衡:按配置的 权重(1-100 的整数)比例分配请求,适用于将流量分散到多个同类模型。
  • 主备容灾:按模型顺序(可拖拽调整)调用。主模型失败或超时后,自动尝试调用备用模型,适用于保障核心服务高可用。

模型/智能体

单击 添加模型 接入后端模型,最多支持添加 50 个。

  • 模型配置 - 字节跳动火山方舟

模型 API Key

火山方舟模型的访问凭证。推荐选择 从列表中选择,自动加载已创建的 API Key;也支持 自定义输入

推理接入点

模型在火山方舟的推理端点地址。

模型格式

模型通信协议,目前仅支持 OpenAI

调用类型

模型服务场景。可选项:文本生成图像生成语音识别向量模型语音合成

  • 模型配置 - 第三方服务商

阿里云百炼大模型服务平台Kimi 开放平台智谱 AI 开放平台百度千帆腾讯混元硅基流动 SiliconCloudMiniMax 开放平台讯飞星辰 MaaS 平台DeepSeek 开放平台零一万物大模型开放平台

模型名称

在网关中显示的自定义名称。

API Key

第三方平台提供的 API Key。

模型格式

模型通信协议,目前仅支持 OpenAI

调用类型

模型服务场景,目前仅支持 文本生成

  • 模型配置 - 自部署模型

模型名称

在网关中显示的自定义名称。

BaseURL

自部署模型的服务地址。

API Key

自部署模型的 API Key。

模型格式

模型通信协议,目前仅支持 OpenAI

调用类型

模型服务场景。可选项:文本生成语音合成语音识别。对于语音合成和语音识别模型,网关支持透传以下额外配置:

协议类型

(仅语音合成)模型通信协议。可选项:HTTPWebSocket

采样率

(仅语音合成)音频采样率(Hz),需输入正整数。

位深

(仅语音合成)音频位深度,目前仅支持 16bit

通道数

(仅语音合成)音频通道数。可选项:1(单声道)、2(立体声)。

集成方式

(仅 HTTP 语音合成)网关处理用户请求的方式:

  • 攒句后合成:平衡延迟与连贯性。按首个短分句标点(如逗号)切分并发送首句给模型进行合成,以快速返回首包;后续按完整分句标点(如句号、问号等)切分;如果单个句子过长,网关也会自适应使用短分句标点切分。
  • 按短句合成:优先保证实时性。将每个分句(无论是短分句还是完整句子)直接发送给模型处理,可能导致合成语音在句子间的语调和情感上缺乏连贯性。

结果输出方式

(仅语音识别)识别结果返回方式:

  • 全量输出:识别结束后一次性返回。
  • 增量输出:识别过程中实时逐步返回。

是否支持 VAD

(仅语音识别)模型是否支持语音活动检测(Voice Activity Detection)。

高级配置

加速区域

选择您的用户主要所在的地理区域,以便网关能够就近接入,优化网络延迟。可选项:中国大陆全球全球(除中国大陆)

加速域名

设置实例的公开访问地址前缀。完整的加速域名将作为客户端调用的 BaseUrl

缓存启用状态

开启后,网关会缓存模型的成功响应。当后续收到相似的请求时,将直接从缓存中返回结果,提升性能并降低成本。

缓存时长

(仅开启缓存时)缓存的有效时间。超过此时长,缓存将被视为过期并自动清除。可选项:1 分钟、5 分钟、30 分钟、1 小时、1 天、1 周。

限流配置

设置请求速率限制,保护后端服务免受流量冲击。

HTTP 协议

(仅开启限流时)限制每分钟的请求数(RPM)。

WebSocket 协议

(仅开启限流时)限制并发连接数。

相关操作

  • 编辑实例
    实例管理 页面,找到目标实例,在 操作 列单击 编辑。您也可以在 实例详情 页面单击右上角的 编辑
  • 删除实例
    实例管理 页面,找到目标实例,在 操作 列单击 删除,并在确认框中单击 确定。删除后实例数据无法恢复。

最近更新时间:2026.03.29 14:39:45
这个页面对您有帮助吗?
有用
有用
无用
无用