We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
文档
备案
控制台
登录
立即注册
NEW
AI 云原生推理套件全新升级
NEW
AI 云原生 Agent 套件全新上线
AI 云原生训练套件
立足字节跳动超大规模 AI 基建与大模型训练实践,依托高性能计算集群,提供集合通信库优化、BCC 拥塞控制算法、全链路可观测等能力,训练效率及稳定性达业界领先,助力企业低资源消耗、短周期完成模型高效开发。
立足字节跳动 AI 基础设施及实践,助力训练降本提效。
99
%+
ETTR
60
%+
MFU
提升20倍+
强化学习性能
立即咨询
核心能力
方案架构
方案优势
合作案例
核心能力
极致性能
高效智算服务
专为训练优化的万卡 HPN 智算集群,集成 veCCL 集合通信优化库与 BCC 拥塞控制算法,同时依托高速文件缓存和弹性缓存,通信和存储全面加速,提升模型训练效能,助力实现 MFU(模型算力利用率)60%+。
稳定可靠
超高稳定性
集群一键诊断、故障事件通知与自愈、毫秒级观测、全链路健康监测,企业级容错架构保障平均 ETTR(有效训练时长)> 99%。
灵活高效
多样化编排调度
集成&调优字节开源加速训练框架 veRL,支持 PPO/GRPO 等强化学习算法扩展,无缝衔接多种训推框架。并结合拓扑感知、NUMA 亲和、KEDA 弹性伸缩等调度策略,满足多样训练需求。
全景洞察
全链路可观测
一键开启透明埋点,无需额外代码改造。秒级定位强化学习训练过程中智能体、推理引擎、周边服务的链路问题,可视化训练过程数据,为训练的全过程保驾护航。
方案架构
预训练架构
后训练架构
预训练架构
面向超大规模分布式预训练,提供万卡智算集群、高性能存储、通信加速、一键诊断、故障自愈等能力,全面提升训练稳定性及效率。
架构优势
高训练稳定性 ETTR 99%+
高训练效率 MFU 60%+
立即咨询
相关产品
GPU 云服务器
容器服务
vePFS 文件存储
托管 Prometheus
架构优势
高训练稳定性 ETTR 99%+
高训练效率 MFU 60%+
相关产品
GPU 云服务器
容器服务
vePFS 文件存储
托管 Prometheus
后训练架构
聚焦强化学习场景,集成 veRL 框架支持 PPO/GRPO 等算法,搭配 Sandbox 弹性环境与推理优化,提升模型训练效率与推理性能。
架构优势
训练吞吐量提升 20 倍
高效的资源利用率
Sandbox 支持 100 万核秒并发,150 毫秒冷启动
立即咨询
相关产品
GPU 云服务器
弹性预约实例
容器服务
函数服务
架构优势
训练吞吐量提升 20 倍
高效的资源利用率
Sandbox 支持 100 万核秒并发,150 毫秒冷启动
相关产品
GPU 云服务器
弹性预约实例
容器服务
函数服务
预训练架构
架构优势
高训练稳定性 ETTR 99%+
高训练效率 MFU 60%+
相关产品
GPU 云服务器
容器服务
vePFS 文件存储
托管 Prometheus
后训练架构
架构优势
训练吞吐量提升 20 倍
高效的资源利用率
Sandbox 支持 100 万核秒并发,150 毫秒冷启动
相关产品
GPU 云服务器
弹性预约实例
容器服务
函数服务
方案优势
高效训练提速
MFU 超 60%,依托 HPN 智算网络等释放算力。Sandbox 支持百万核秒级并发、150ms 冷启动,提升强化学习效率。
相关产品:
GPU 云服务器
容器服务
镜像仓库
函数服务
稳定可靠保障
ETTR 超 99%。通过集群一键诊断、全链路健康监测、节点故障自愈及任务自动重启能力,保障集群训练持续稳定运行。
相关产品:
容器服务
托管 Prometheus
应用性能监控全链路版
灵活高性能训练框架
集成字节开源 veRL 加速框架,提供调优镜像及部署模板,veRL HybridEngine 技术较开源框架提升 20 倍训练吞吐,灵活适配各训推框架。
相关产品:
容器服务
函数服务
开箱即用体验
提供预调优镜像、部署模板及 Ray 集群快速构建工具,简化环境搭建。内置算法指标看板与一键诊断,支持算力智能评估与训推环境分钟级部署。
相关产品:
容器服务
托管 Prometheus
高性价比弹性算力
分钟级千卡 GPU 弹性预约与拉起,可灵活配置 GPU 的拉起和退订时间,海量资源精准匹配业务弹性负载,成本更低,大幅提升训练性价比。
相关产品:
弹性预约实例
GPU 云服务器
容器服务
高效训练提速
稳定可靠保障
灵活高性能训练框架
开箱即用体验
高性价比弹性算力
高效训练提速
MFU 超 60%,依托 HPN 智算网络等释放算力。Sandbox 支持百万核秒级并发、150ms 冷启动,提升强化学习效率。
立即咨询
相关产品:
GPU 云服务器
高并行、高精度计算的 GPU 算力。
容器服务
高性能 Kubernetes 容器集群管理。
镜像仓库
安全高可用的容器镜像托管服务。
函数服务
无服务器函数托管计算平台。
稳定可靠保障
ETTR 超 99%。通过集群一键诊断、全链路健康监测、节点故障自愈及任务自动重启能力,保障集群训练持续稳定运行。
立即咨询
相关产品:
容器服务
高性能 Kubernetes 容器集群管理。
托管 Prometheus
免运维、高可用的云原生监控引擎。
应用性能监控全链路版
快速定位异常、优化应用品质。
灵活高性能训练框架
集成字节开源 veRL 加速框架,提供调优镜像及部署模板,veRL HybridEngine 技术较开源框架提升 20 倍训练吞吐,灵活适配各训推框架。
立即咨询
相关产品:
容器服务
高性能 Kubernetes 容器集群管理。
函数服务
无服务器函数托管计算平台。
开箱即用体验
提供预调优镜像、部署模板及 Ray 集群快速构建工具,简化环境搭建。内置算法指标看板与一键诊断,支持算力智能评估与训推环境分钟级部署。
立即咨询
相关产品:
容器服务
高性能 Kubernetes 容器集群管理。
托管 Prometheus
免运维、高可用的云原生监控引擎。
高性价比弹性算力
分钟级千卡 GPU 弹性预约与拉起,可灵活配置 GPU 的拉起和退订时间,海量资源精准匹配业务弹性负载,成本更低,大幅提升训练性价比。
立即咨询
相关产品:
弹性预约实例
提前预约实例,保障资源的稳定供应。
GPU 云服务器
高并行、高精度计算的 GPU 算力。
容器服务
高性能 Kubernetes 容器集群管理。
合作案例
合作案例
合作案例
合作案例