AI 加速网关实例是统一管理和加速大模型 API 调用的入口。本文介绍如何在全站加速(DCDN)控制台创建 AI 加速网关实例。
在以下场景中,您可以创建并使用 AI 加速网关实例:
创建 AI 加速网关实例时需要配置您的后端模型。实例创建成功后,您可以通过以下两种方式调用后端模型:
一个加速网关实例(对应一个 BaseUrl —— 含加速域名)可同时关联多种调用类型 / 用途(如文本生成、图像生成、语音合成等)的模型,网关会根据请求路径自动路由到对应类型的模型,无需为不同模型类型创建多个实例。
说明
创建实例前,请确保:
注意
自部署文本生成模型必须兼容 OpenAI Chat Completions API 格式;自部署语音识别和语音合成模型必须满足 AI 加速网关的协议规范。更多信息,请参见自部署模型接入 AI 加速网关接口协议规范。
创建成功后,页面自动返回 实例管理 列表。单击实例名称进入 实例详情 页面。您可以在 请求方式 区域获取 BaseUrl、API Key,以及 Curl 和 Python 的调用示例。
说明
控制台默认展示 OpenAI 兼容协议的调用示例。如需查看协议透传的调用示例,请参见模型调用示例代码。
如果网关绑定了多个模型,选择不同模型会影响调用示例中的 model 字段。建议根据模型路由策略选择相应模型。
路由策略 | 模型选择 |
|---|---|
主备容灾 | 选择您最希望优先访问的模型名称。网关将按配置的主备顺序调度,主模型失败或超时后自动切换到备用模型。 说明 路由策略仅在同一调用类型(如文本生成、图像生成、语音识别等)的模型之间生效。不同调用类型的模型独立调度,不互相容灾或均衡。 |
负载均衡 | 选择任一模型,则 注意 要使负载均衡生效(网关按权重在同一调用类型模型之间分配请求), |
实例创建页面的配置项说明如下:
配置分组 | 配置项 | 说明 |
|---|---|---|
基本信息 | 实例名称 | 实例的标识名称。 |
实例类型 | 指定实例用途。目前仅支持 MaaS API 加速,用于统一管理和加速大模型 API 调用。 | |
模型配置 | 模型路由策略 | 请求分发规则。可选项:
|
模型/智能体 | 单击 添加模型 接入后端模型。最多支持添加 50 个。 | |
| ||
模型 API Key | 火山方舟模型的访问凭证。推荐选择 从列表中选择,自动加载已创建的 API Key;也支持 自定义输入。 说明 如果不传入,该模型仅支持通过协议透传方式调用(协议透传方式仅支持请求加速能力,不支持其他能力)。 | |
推理接入点 | 模型在火山方舟的推理端点地址。 | |
模型格式 | 模型通信协议,目前仅支持 OpenAI。 说明 此为 OpenAI 兼容协议模式下的通信协议限制。使用协议透传时,网关原样转发厂商协议。 | |
调用类型 | 模型服务场景。可选项:文本生成、图像生成、语音识别、向量模型、语音合成。 | |
(阿里云百炼大模型服务平台、Kimi 开放平台、智谱 AI 开放平台、百度千帆、腾讯混元、硅基流动 SiliconCloud、MiniMax 开放平台、讯飞星辰 MaaS 平台、DeepSeek 开放平台、零一万物大模型开放平台) | ||
模型名称 | 在网关中显示的自定义名称。 | |
API Key | 第三方平台提供的 API Key。 说明 如果不传入,该模型仅支持通过协议透传方式调用(协议透传方式仅支持请求加速能力,不支持其他能力)。 | |
模型格式 | 模型通信协议,目前仅支持 OpenAI。 说明 此为 OpenAI 兼容协议模式下的通信协议限制。使用协议透传时,网关原样转发厂商协议。 | |
调用类型 | 模型服务场景,目前仅支持 文本生成。 | |
| ||
模型名称 | 在网关中显示的自定义名称。 | |
BaseURL | 自部署模型的服务地址。 | |
API Key | 自部署模型的 API Key。 注意 自部署模型仅支持通过 OpenAI 兼容协议方式调用。您必须提供 API Key,否则无法调用。 | |
模型格式 | 模型通信协议,目前仅支持 OpenAI。 | |
调用类型 | 模型服务场景。可选项:文本生成、语音合成、语音识别。对于语音合成和语音识别模型,网关支持透传以下额外配置: | |
协议类型 | (仅语音合成)模型通信协议。可选项:HTTP、WebSocket。 | |
采样率 | (仅语音合成)音频采样率(Hz),需输入正整数。 | |
位深 | (仅语音合成)音频位深度,目前仅支持 16bit。 | |
通道数 | (仅语音合成)音频通道数。可选项:1(单声道)、2(立体声)。 | |
集成方式 | (仅 HTTP 语音合成)网关处理用户请求的方式:
| |
结果输出方式 | (仅语音识别)识别结果返回方式:
| |
是否支持 VAD | (仅语音识别)模型是否支持语音活动检测(Voice Activity Detection)。 | |
高级配置 | 加速区域 | 选择您的用户主要所在的地理区域,以便网关能够就近接入,优化网络延迟。可选项:中国大陆、全球、全球(除中国大陆)。 |
加速域名 | 设置实例的公开访问地址前缀。完整的加速域名将作为客户端调用的 | |
缓存启用状态 | 开启后,网关会缓存模型的成功响应。当后续收到相似的请求时,将直接从缓存中返回结果,提升性能并降低成本。 | |
缓存时长 | (仅开启缓存时)缓存的有效时间。超过此时长,缓存将被视为过期并自动清除。可选项:1 分钟、5 分钟、30 分钟、1 小时、1 天、1 周。 | |
限流配置 | 设置请求速率限制,保护后端服务免受流量冲击。 | |
HTTP 协议 | (仅开启限流时)限制每分钟的请求数(RPM)。 | |
WebSocket 协议 | (仅开启限流时)限制并发连接数。 | |