AI 加速网关是基于全站加速(DCDN)边缘网络构建的模型服务网关。它提供了一个集中平台,用于加速和管理对各类大模型服务(MaaS)的 API 调用。
您可以将火山引擎方舟、第三方模型服务商及自部署的大模型 API 统一接入网关。网关支持将不同模型的接口转换为标准的 OpenAI 格式,并通过全球边缘节点就近转发请求,以降低跨地域调用的延迟。同时,网关内置了模型路由、语义缓存、限流和用量监控等功能。
背景信息
在实际业务中集成多个大模型时,开发者通常会遇到以下问题:
- 接入点繁杂:各家模型服务商的 API 格式和认证方式互不兼容。
- 网络延迟高:模型通常部署在特定区域,跨地域调用容易出现高延迟和连接不稳定。
- 单点故障风险:仅依赖单一模型或服务商,一旦服务宕机,业务就会中断。
- 用量管理困难:很难跨平台统一统计 Token 消耗和调用成本。
AI 加速网关提供了一个统一的流量入口,让大模型应用的开发和运维变得更简单。
核心优势
- 协议转换
网关提供兼容 OpenAI API 的统一接口。即使后端模型采用不同协议,您也只需按照 OpenAI 的标准格式发送请求,网关会在后台自动完成转换。 - 全球加速
借助 DCDN 的全球边缘节点,网关会将用户请求就近路由处理,从而减少跨国调用时的延迟和丢包。 - 智能路由
单个网关实例支持配置多个模型,并提供两种路由策略:
- 主备容灾:按优先级调用。主模型出现故障时,流量自动切换到备用模型。
- 负载均衡:按设定的权重比例,将请求分发给不同的模型。
- 语义缓存
网关可以缓存之前的成功调用结果。当遇到语义相似的请求时,直接返回缓存内容,从而节省 Token 开销并加快响应速度。 - 集中观测
您可以在控制台中统一配置路由、缓存和限流策略,并通过仪表盘查看网关实例的请求数、Token 用量及 QPS。
应用场景
- 多模型集成:作为统一入口,一次性对接来自不同供应商的多个大模型。
- 全球化业务:利用边缘节点加速,让不同地区的用户都能获得低延迟的响应。
- 高可用保障:配置多个备用模型,在主模型不可用时自动切换,防止业务中断。
- 成本控制:结合语义缓存与负载均衡策略,将部分流量分发给成本更低的模型。
功能特性
网关充当客户端与大模型之间的中间层。它接收 API 请求,按预设规则处理后,转发给后端模型。
核心功能模块包括:
功能 | 说明 |
|---|
模型服务支持 | 支持接入以下平台的模型服务: - 火山引擎方舟
- 第三方模型服务商:阿里云百炼、Kimi、智谱 AI、百度千帆、腾讯混元、硅基流动、MiniMax、讯飞星辰、DeepSeek、零一万物
- 自部署模型
|
模型路由 | 通过负载均衡或主备容灾策略分发请求。 |
语义缓存 | 拦截相似请求并返回缓存结果。 |
限流 | 支持分别为 HTTP 和 WebSocket 设置请求速率(RPM)及并发连接数限制。 |
监控指标 | 统计并展示请求数、Token 消耗和 QPS 等数据。 |
计费方式
AI 加速网关的费用包含两部分:
- 后端模型服务费:由您接入的后端模型服务商(如火山方舟或第三方平台)按其定价策略收取。网关仅负责请求转发,不收取此部分费用。
- 网关服务费:使用 AI 加速网关提供的加速、路由、缓存等功能产生的费用。
- 计费项:包含流量(按分发的数据传输量计算)和请求数(按网关收到的请求次数计算)。
- 计费模式:采用按量计费的后付费模式,按小时结算。
- 资源包:您可以购买预付费资源包,以获取更优惠的抵扣价格。
详情请参见 AI 加速网关计费说明。
快速上手
请参考 快速上手 MaaS API 加速 教程,创建并配置您的第一个网关实例。