什么是 AI 加速网关--全站加速-火山引擎

文档中心

全站加速

产品简介

什么是 AI 加速网关

AI 加速网关是基于全站加速（DCDN）边缘网络构建的模型服务网关。它提供了一个集中平台，用于加速和管理对各类大模型服务（MaaS）的 API 调用。
您可以将火山引擎方舟、第三方模型服务商及自部署的大模型 API 统一接入网关，实现通过全球边缘节点就近转发请求，以降低跨地域调用的延迟。同时，网关内置了模型路由、语义缓存、限流和用量监控等功能。

背景信息

在实际业务中集成多个大模型时，开发者通常会遇到以下问题：

接入点繁杂：各家模型服务商的 API 格式和认证方式互不兼容。
网络延迟高：模型通常部署在特定区域，跨地域调用容易出现高延迟和连接不稳定。
单点故障风险：仅依赖单一模型或服务商，一旦服务宕机，业务就会中断。
用量管理困难：很难跨平台统一统计 Token 消耗和调用成本。

AI 加速网关提供了一个统一的流量入口，让大模型应用的开发和运维变得更简单。

核心优势

调用方式
网关支持以 OpenAI 兼容协议和协议透传方式调用后端模型。
全球加速
借助 DCDN 的全球边缘节点，网关会将用户请求就近路由处理，从而减少跨国调用时的延迟和丢包。
智能路由
单个网关实例支持配置多个模型，并提供两种路由策略：
- 主备容灾：按优先级调用。主模型出现故障时，流量自动切换到备用模型。
- 负载均衡：按设定的权重比例，将请求分发给不同的模型。
语义缓存
网关可以缓存之前的成功调用结果。当遇到语义相似的请求时，直接返回缓存内容，从而节省 Token 开销并加快响应速度。
集中观测
您可以在控制台中统一配置路由、缓存和限流策略，并通过仪表盘查看网关实例的请求数、Token 用量及 QPS。

应用场景

多模型集成：作为统一入口，一次性对接来自不同供应商的多个大模型。
全球化业务：利用边缘节点加速，让不同地区的用户都能获得低延迟的响应。
高可用保障：配置多个备用模型，在主模型不可用时自动切换，防止业务中断。
成本控制：结合语义缓存与负载均衡策略，将部分流量分发给成本更低的模型。

功能特性

网关充当客户端与大模型之间的中间层。它接收 API 请求，按预设规则处理后，转发给后端模型。
核心功能模块包括：

功能	说明
模型服务支持	支持接入以下平台的模型服务：火山引擎方舟第三方模型服务商：阿里云百炼、Kimi、智谱 AI、百度千帆、腾讯混元、硅基流动、MiniMax、讯飞星辰、DeepSeek、零一万物自部署模型
调用方式	接入 AI 加速网关的模型支持如下两种调用方式： OpenAI 兼容协议：网关将各厂商的请求和响应统一转换为 OpenAI 格式。您只需按照 OpenAI 标准格式发送请求，无需关心后端模型的实际协议。协议透传：网关原样转发厂商原生协议，不做格式转换。说明不同调用方式下，支持的网关能力和调用代码有差异。详情请参见调用方式与能力对照、模型调用示例代码。
模型路由	通过负载均衡或主备容灾策略分发请求。
语义缓存	拦截相似请求并返回缓存结果。
限流	支持分别为 HTTP 和 WebSocket 设置请求速率（RPM）及并发连接数限制。
监控指标	统计并展示请求数、Token 消耗和 QPS 等数据。

调用方式与能力对照

不同模型调用方式支持的网关能力有差异，具体如下表所示。

网关能力	OpenAI 兼容协议	协议透传
请求加速	✅ 支持	✅ 支持
模型路由（负载均衡 / 主备容灾）	✅ 支持	❌ 不支持
语义缓存	✅ 支持	❌ 不支持
限速	✅ 支持	❌ 不支持

计费方式

AI 加速网关的费用包含两部分：

后端模型服务费：由您接入的后端模型服务商（如火山方舟或第三方平台）按其定价策略收取。网关仅负责请求转发，不收取此部分费用。
网关服务费：使用 AI 加速网关提供的加速、路由、缓存等功能产生的费用。
- 计费项：包含流量（按分发的数据传输量计算）和请求数（按网关收到的请求次数计算）。
- 计费模式：采用按量计费的后付费模式，按小时结算。
- 资源包：您可以购买预付费资源包，以获取更优惠的抵扣价格。

详情请参见 AI 加速网关计费说明。

快速上手

请参考快速上手 MaaS API 加速教程，创建并配置您的第一个网关实例。

最近更新时间：2026.05.06 16:20:03

这个页面对您有帮助吗？

有用

无用

全站加速

背景信息 #

核心优势 #

应用场景 #

功能特性 #

调用方式与能力对照 #

计费方式 #