创建 AI 加速网关实例--全站加速-火山引擎

文档中心

全站加速

控制台操作指南

创建 AI 加速网关实例

AI 加速网关实例是统一管理和加速大模型 API 调用的入口。本文介绍如何在全站加速（DCDN）控制台创建 AI 加速网关实例。

使用场景

在以下场景中，您可以创建并使用 AI 加速网关实例：

统一多模型入口：应用需要调用不同供应商（如火山方舟、第三方平台、自部署模型）的多个大模型时，通过实例提供统一的 API 调用地址。
简化客户端开发：客户端使用统一的 OpenAI 协议与所有后端模型交互，无需单独编写适配逻辑。
提升稳定性：通过负载均衡或主备容灾策略分配流量，保障服务高可用。
降低成本与延迟：通过启用缓存，直接从边缘节点返回相似请求的结果，减少对后端模型的调用，降低成本和响应时间。

背景信息

创建 AI 加速网关实例时需要配置您的后端模型。实例创建成功后，您可以通过以下两种方式调用后端模型：

OpenAI 兼容协议：使用网关生成的 API Key，以统一的 OpenAI 协议格式发送请求和接收响应。
- 该方式支持网关的全部能力，包括请求加速、模型路由（负载均衡 / 主备容灾）、语义缓存和限速等。
- 适用于希望统一管理多厂商调用协议的场景。
协议透传：使用模型厂商自身的 API Key 和原生协议。网关原样转发请求和响应，不做协议转换。
- 您只需将厂商域名（BaseUrl）替换为网关实例的 BaseUrl（包含加速域名），即可获得请求加速能力（不支持模型路由、语义缓存和限速等其他能力）。
- 适用于需要保留厂商原生接口行为的场景。

一个加速网关实例（对应一个 BaseUrl —— 含加速域名）可同时关联多种调用类型 / 用途（如文本生成、图像生成、语音合成等）的模型，网关会根据请求路径自动路由到对应类型的模型，无需为不同模型类型创建多个实例。

使用限制

网关实例支持关联的模型包括火山方舟模型、部分第三方服务商模型、自部署模型。具体模型来源请参见功能特性。
说明
- 火山方舟模型、第三方服务商支持以 OpenAI 兼容协议和协议透传方式调用。
- 自部署模型仅支持以 OpenAI 兼容协议方式调用。
每个实例最多允许关联 50 个模型。

前提条件

创建实例前，请确保：

已开通全站加速服务。
已准备好要接入的模型。
准备模型配置所需信息：
- 火山方舟模型：在火山方舟控制台创建 API Key，并获取模型的推理接入点（Endpoint）。
- 第三方服务商模型：获取对应平台的 API Key。详情请参见从模型提供商平台获取模型调用密钥。
- 自部署模型：准备服务的 API Key 和地址（BaseUrl）。
  注意
  自部署文本生成模型必须兼容 OpenAI Chat Completions API 格式；自部署语音识别和语音合成模型必须满足 AI 加速网关的协议规范。更多信息，请参见自部署模型接入 AI 加速网关接口协议规范。

操作步骤

登录全站加速控制台。
在左侧导航栏，选择 AI 加速网关 > 实例管理。
单击 新增实例。
在 创建实例 页面完成以下配置。参数详情请参见配置说明。
- 基础配置：填写实例名称并选择类型。
- 模型配置：选择路由策略，添加并配置至少一个模型。
- 高级配置：设置加速区域、缓存和限流策略。
单击确定。

创建成功后，页面自动返回 实例管理 列表。单击实例名称进入 实例详情 页面。您可以在 请求方式 区域获取 BaseUrl、API Key，以及 Curl 和 Python 的调用示例。

说明

控制台默认展示 OpenAI 兼容协议的调用示例。如需查看协议透传的调用示例，请参见模型调用示例代码。

多模型选择

如果网关绑定了多个模型，选择不同模型会影响调用示例中的 model 字段。建议根据模型路由策略选择相应模型。

路由策略	模型选择
主备容灾	选择您最希望优先访问的模型名称。网关将按配置的主备顺序调度，主模型失败或超时后自动切换到备用模型。说明路由策略仅在同一调用类型（如文本生成、图像生成、语音识别等）的模型之间生效。不同调用类型的模型独立调度，不互相容灾或均衡。
负载均衡	选择任一模型，则 `model` 字段自动填充所选模型。这种情况下，网关会直接使用该模型，不进行负载均衡。注意要使负载均衡生效（网关按权重在同一调用类型模型之间分配请求），`model` 字段不能是已配置的任何模型，建议留空或设置为 `auto`。

配置说明

实例创建页面的配置项说明如下：

配置分组	配置项	说明
基本信息	实例名称	实例的标识名称。
基本信息	实例类型	指定实例用途。目前仅支持 MaaS API 加速，用于统一管理和加速大模型 API 调用。
模型配置	模型路由策略	请求分发规则。可选项：负载均衡：按配置的权重（1-100 的整数）比例分配请求，适用于将流量分散到多个同类模型。主备容灾：按模型顺序（可拖拽调整）调用。主模型失败或超时后，自动尝试调用备用模型，适用于保障核心服务高可用。
	模型/智能体	单击添加模型接入后端模型。最多支持添加 50 个。
	模型配置 - 字节跳动火山方舟
	模型 API Key	火山方舟模型的访问凭证。推荐选择从列表中选择，自动加载已创建的 API Key；也支持自定义输入。说明如果不传入，该模型仅支持通过协议透传方式调用（协议透传方式仅支持请求加速能力，不支持其他能力）。
	推理接入点	模型在火山方舟的推理端点地址。
	模型格式	模型通信协议，目前仅支持 OpenAI。说明此为 OpenAI 兼容协议模式下的通信协议限制。使用协议透传时，网关原样转发厂商协议。
	调用类型	模型服务场景。可选项：文本生成、图像生成、语音识别、向量模型、语音合成。
	模型配置 - 第三方服务商（阿里云百炼大模型服务平台、Kimi 开放平台、智谱 AI 开放平台、百度千帆、腾讯混元、硅基流动 SiliconCloud、MiniMax 开放平台、讯飞星辰 MaaS 平台、DeepSeek 开放平台、零一万物大模型开放平台）
	模型名称	在网关中显示的自定义名称。
	API Key	第三方平台提供的 API Key。说明如果不传入，该模型仅支持通过协议透传方式调用（协议透传方式仅支持请求加速能力，不支持其他能力）。
	模型格式	模型通信协议，目前仅支持 OpenAI。说明此为 OpenAI 兼容协议模式下的通信协议限制。使用协议透传时，网关原样转发厂商协议。
	调用类型	模型服务场景，目前仅支持文本生成。
	模型配置 - 自部署模型
	模型名称	在网关中显示的自定义名称。
	BaseURL	自部署模型的服务地址。
	API Key	自部署模型的 API Key。注意自部署模型仅支持通过 OpenAI 兼容协议方式调用。您必须提供 API Key，否则无法调用。
	模型格式	模型通信协议，目前仅支持 OpenAI。
	调用类型	模型服务场景。可选项：文本生成、语音合成、语音识别。对于语音合成和语音识别模型，网关支持透传以下额外配置：
	协议类型	（仅语音合成）模型通信协议。可选项：HTTP、WebSocket。
	采样率	（仅语音合成）音频采样率（Hz），需输入正整数。
	位深	（仅语音合成）音频位深度，目前仅支持 16bit。
	通道数	（仅语音合成）音频通道数。可选项：1（单声道）、2（立体声）。
	集成方式	（仅 HTTP 语音合成）网关处理用户请求的方式：攒句后合成：平衡延迟与连贯性。按首个短分句标点（如逗号）切分并发送首句给模型进行合成，以快速返回首包；后续按完整分句标点（如句号、问号等）切分；如果单个句子过长，网关也会自适应使用短分句标点切分。按短句合成：优先保证实时性。将每个分句（无论是短分句还是完整句子）直接发送给模型处理，可能导致合成语音在句子间的语调和情感上缺乏连贯性。
	结果输出方式	（仅语音识别）识别结果返回方式：全量输出：识别结束后一次性返回。增量输出：识别过程中实时逐步返回。
	是否支持 VAD	（仅语音识别）模型是否支持语音活动检测（Voice Activity Detection）。
高级配置	加速区域	选择您的用户主要所在的地理区域，以便网关能够就近接入，优化网络延迟。可选项：中国大陆、全球、全球（除中国大陆）。
	加速域名	设置实例的公开访问地址前缀。完整的加速域名将作为客户端调用的 `BaseUrl`。
	缓存启用状态	开启后，网关会缓存模型的成功响应。当后续收到相似的请求时，将直接从缓存中返回结果，提升性能并降低成本。
	缓存时长	（仅开启缓存时）缓存的有效时间。超过此时长，缓存将被视为过期并自动清除。可选项：1 分钟、5 分钟、30 分钟、1 小时、1 天、1 周。
	限流配置	设置请求速率限制，保护后端服务免受流量冲击。
	HTTP 协议	（仅开启限流时）限制每分钟的请求数（RPM）。
	WebSocket 协议	（仅开启限流时）限制并发连接数。

全站加速

使用场景 #

背景信息 #

使用限制 #

前提条件 #

操作步骤 #

多模型选择 #

配置说明 #

相关操作 #