We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
文档
备案
控制台
登录
立即注册
NEW
AI 云原生 Agent 套件全新上线
NEW
AI 云原生训练套件全新上线
AI 云原生推理套件
依托字节跳动大规模 AI 实践、火山方舟海量业务经验,通过容器编排、AI 网关、推理全链路观测和分布式缓存,支持企业在大规模 GPU 集群上高效、稳定、高性价比地运行主流的推理模型。
依托字节跳动大规模 AI 实践、火山方舟海量业务经验,通过容器编排、AI 网关、推理全链路观测和分布式缓存,支持企业在大规模 GPU 集群上高效、稳定、高性价比地运行主流的推理模型。
立即体验
性能评估
核心能力
方案架构
方案优势
视频演示
合作案例
性能评估
性能评估
性能评估
性能评估
DeepSeek R1 671B
DiT 模型
核心能力
AI 生态
丰富推理框架兼容
深度适配 vLLM/SGLang/Dynamo 等主流推理引擎和框架,率先支持 PD 分离架构,助力推理效率提升。
灵活高效
模型权重加速
提供模型权重加速引擎,助力大模型加载速度提升 8 倍,百台 GPU 分钟级即可部署 DeepSeek-R1 完整模型。
卓越性能
推理性能增强
针对主流推理引擎和 GPU 卡型进行算子优化,实现 DeepSeek-R1 模型推理吞吐提升 1-3 倍。
全面追踪
全链路推理观测
推理全链路透明埋点,全方位覆盖 AI 推理引擎观测指标,推理问题分钟级精准定位。
方案架构
方案架构
AI 云原生推理套件适用于在分布式环境中部署和交付大模型推理服务,为用户提供更强的推理性能、更省的推理成本、更广泛的生态支持。
架构优势
吞吐 TPS 提升 1~3 倍
TTFT 降低 60%
分钟级拉起服务
全链路应用观测,0 侵入埋点
立即咨询
相关产品
GPU 云服务器
容器服务
API 网关
弹性极速缓存
架构优势
吞吐 TPS 提升 1~3 倍
TTFT 降低 60%
分钟级拉起服务
相关产品
GPU 云服务器
容器服务
API 网关
弹性极速缓存
架构优势
吞吐 TPS 提升 1~3 倍
TTFT 降低 60%
分钟级拉起服务
相关产品
GPU 云服务器
容器服务
API 网关
弹性极速缓存
方案优势
模型极速启动
算子加速
AI 网关
PD 分离编排
极速 KVCache 缓存
推理全链路观测
模型极速启动
基于 P2P 技术和模型加载工具,实现百台 GPU 分钟级部署 DeepSeek-R1-671B 完整模型,极大缩短模型部署时间。
产品优势
镜像加速
支撑百台镜像分钟级别服务拉起。
模型加速
支持 GDKV 模型预热,基于 RDMA 网络实现模型权重加速。
立即咨询
相关产品
容器服务
镜像仓库
产品优势
镜像加速
模型加速
相关产品
容器服务
镜像仓库
算子加速
适配多种推理引擎,叠加算子优化,提升推理性能。
产品优势
自研 SGLang 算子优化,单卡总吞吐提升
立即咨询
相关产品
GPU 云服务器
容器服务
产品优势
自研 SGLang 算子优化,单卡总吞吐提升
相关产品
GPU 云服务器
容器服务
AI 网关
AI 推理应用的接入层必要组件,通过开启多模型流量智能调度和管理,确保对外服务的稳定性以及灵活性。
产品优势
身份鉴权及 Token 限流
多模型统一访问
插件增强:联网查询、内容安全、灰度发布
负载感知路由 & KVCache 感知路由
立即咨询
相关产品
API 网关
产品优势
身份鉴权及 Token 限流
多模型统一访问
插件增强:联网查询、内容安全、灰度发布
相关产品
API 网关
PD 分离编排
PD 分离动态调整,复合指标指导精准扩缩。
产品优势
PD 分离编排,提升资源管理效率
兼容 vLLM/Dynamo/SGLang 等分布式推理引擎;统一管理 P 和 D 节点,支持 xPyD,调度异构 GPU。
更准的弹性扩缩,提升 GPU 利用率
引入 KEDA 增强 HPA 能力,自定义扩缩容指标;通过复合指标,实现 P 和 D 独立伸缩。
立即咨询
相关产品
容器服务
托管 Prometheus
API 网关
产品优势
PD 分离编排,提升资源管理效率
更准的弹性扩缩,提升 GPU 利用率
相关产品
容器服务
托管 Prometheus
API 网关
极速 KVCache 缓存
弹性极速缓存 EIC 提供丰富多样的 KVCache 缓存服务。
产品优势
丰富 KVCache 缓存服务
支持 GPU Direct RDMA(GDR)访问,相比传统 KV,时延降低至 1/50。
弹性极速缓存 EIC
充分利用 GPU 机器闲置 DRAM 和本地盘,降低资源成本。
立即咨询
相关产品
弹性极速缓存
容器服务
产品优势
丰富 KVCache 缓存服务
弹性极速缓存 EIC
相关产品
弹性极速缓存
容器服务
推理全链路观测
推理全链路透明埋点,业务故障可观测。
产品优势
模型推理的全链路覆盖
支持 vLLM/Dynamo/SGLang 等推理框架指标观测。
性能分析
支持无侵入、轻量级动态开启,快速定位 AI 服务性能瓶颈。
立即咨询
应用性能监控全链路版
托管 Prometheus
产品优势
模型推理的全链路覆盖
性能分析
应用性能监控全链路版
托管 Prometheus
模型极速启动
产品优势
镜像加速
模型加速
相关产品
容器服务
镜像仓库
算子加速
产品优势
自研 SGLang 算子优化,单卡总吞吐提升
相关产品
GPU 云服务器
容器服务
AI 网关
产品优势
身份鉴权及 Token 限流
多模型统一访问
插件增强:联网查询、内容安全、灰度发布
相关产品
API 网关
PD 分离编排
产品优势
PD 分离编排,提升资源管理效率
更准的弹性扩缩,提升 GPU 利用率
相关产品
容器服务
托管 Prometheus
API 网关
极速 KVCache 缓存
产品优势
丰富 KVCache 缓存服务
弹性极速缓存 EIC
相关产品
弹性极速缓存
容器服务
推理全链路观测
产品优势
模型推理的全链路覆盖
性能分析
应用性能监控全链路版
托管 Prometheus
大模型时代更开放普惠的 AI 云
大模型时代更开放普惠的 AI 云
大模型时代更开放普惠的 AI 云
大模型时代更开放普惠的 AI 云
合作案例
合作案例
合作案例
合作案例