You need to enable JavaScript to run this app.
全站加速

全站加速

复制全文
AI 加速网关
什么是 AI 加速网关
复制全文
什么是 AI 加速网关

AI 加速网关是基于全站加速(DCDN)边缘网络构建的模型服务网关。它提供了一个集中平台,用于加速和管理对各类大模型服务(MaaS)的 API 调用。
您可以将火山引擎方舟、第三方模型服务商及自部署的大模型 API 统一接入网关。网关支持将不同模型的接口转换为标准的 OpenAI 格式,并通过全球边缘节点就近转发请求,以降低跨地域调用的延迟。同时,网关内置了模型路由、语义缓存、限流和用量监控等功能。

背景信息

在实际业务中集成多个大模型时,开发者通常会遇到以下问题:

  • 接入点繁杂:各家模型服务商的 API 格式和认证方式互不兼容。
  • 网络延迟高:模型通常部署在特定区域,跨地域调用容易出现高延迟和连接不稳定。
  • 单点故障风险:仅依赖单一模型或服务商,一旦服务宕机,业务就会中断。
  • 用量管理困难:很难跨平台统一统计 Token 消耗和调用成本。

AI 加速网关提供了一个统一的流量入口,让大模型应用的开发和运维变得更简单。

核心优势

  • 协议转换
    网关提供兼容 OpenAI API 的统一接口。即使后端模型采用不同协议,您也只需按照 OpenAI 的标准格式发送请求,网关会在后台自动完成转换。
  • 全球加速
    借助 DCDN 的全球边缘节点,网关会将用户请求就近路由处理,从而减少跨国调用时的延迟和丢包。
  • 智能路由
    单个网关实例支持配置多个模型,并提供两种路由策略:
    • 主备容灾:按优先级调用。主模型出现故障时,流量自动切换到备用模型。
    • 负载均衡:按设定的权重比例,将请求分发给不同的模型。
  • 语义缓存
    网关可以缓存之前的成功调用结果。当遇到语义相似的请求时,直接返回缓存内容,从而节省 Token 开销并加快响应速度。
  • 集中观测
    您可以在控制台中统一配置路由、缓存和限流策略,并通过仪表盘查看网关实例的请求数、Token 用量及 QPS。

应用场景

  • 多模型集成:作为统一入口,一次性对接来自不同供应商的多个大模型。
  • 全球化业务:利用边缘节点加速,让不同地区的用户都能获得低延迟的响应。
  • 高可用保障:配置多个备用模型,在主模型不可用时自动切换,防止业务中断。
  • 成本控制:结合语义缓存与负载均衡策略,将部分流量分发给成本更低的模型。

功能特性

网关充当客户端与大模型之间的中间层。它接收 API 请求,按预设规则处理后,转发给后端模型。
核心功能模块包括:

功能

说明

模型服务支持

支持接入以下平台的模型服务:

  • 火山引擎方舟
  • 第三方模型服务商:阿里云百炼Kimi智谱 AI百度千帆腾讯混元硅基流动MiniMax讯飞星辰DeepSeek零一万物
  • 自部署模型

模型路由

通过负载均衡或主备容灾策略分发请求。

语义缓存

拦截相似请求并返回缓存结果。

限流

支持分别为 HTTP 和 WebSocket 设置请求速率(RPM)及并发连接数限制。

监控指标

统计并展示请求数、Token 消耗和 QPS 等数据。

计费方式

AI 加速网关的费用包含两部分:

  • 后端模型服务费:由您接入的后端模型服务商(如火山方舟或第三方平台)按其定价策略收取。网关仅负责请求转发,不收取此部分费用。
  • 网关服务费:使用 AI 加速网关提供的加速、路由、缓存等功能产生的费用。
    • 计费项:包含流量(按分发的数据传输量计算)和请求数(按网关收到的请求次数计算)。
    • 计费模式:采用按量计费的后付费模式,按小时结算。
    • 资源包:您可以购买预付费资源包,以获取更优惠的抵扣价格。

详情请参见 AI 加速网关计费说明

快速上手

请参考 快速上手 MaaS API 加速 教程,创建并配置您的第一个网关实例。

最近更新时间:2026.03.29 14:39:44
这个页面对您有帮助吗?
有用
有用
无用
无用