火山引擎-AI 云原生训练套件

立足字节跳动超大规模 AI 基建与大模型训练实践，依托高性能计算集群，提供集合通信库优化、BCC 拥塞控制算法、全链路可观测等能力，训练效率及稳定性达业界领先，助力企业低资源消耗、短周期完成模型高效开发。

立足字节跳动 AI 基础设施及实践，助力训练降本提效。

性能评估

核心能力

方案架构

方案优势

最佳实践

合作案例

性能评估

veFusionX 是针对智能驾驶、具身智能等场景推出的一键式训练加速框架。veOmni 是统一的多模态模型训练框架，核心定位是 “统一多模态、统一并行策略、统一算力底座”。

性能评估

veFusionX

veOmni

BEVFormer

测试数据

加速版VS开源版 90%

YOLO

BEVFusion

Sparse4D

MapTRv2

veFusionX

BEVFormer

测试数据

加速版VS开源版 90%

YOLO

BEVFusion

Sparse4D

MapTRv2

veOmni

核心能力

极致性能

高效智算服务

专为训练优化的万卡 HPN 智算集群，集成 veCCL 集合通信优化库与 BCC 拥塞控制算法，同时依托高速文件缓存和弹性缓存，通信和存储全面加速，提升模型训练效能，助力实现 MFU（模型算力利用率）60%+。

稳定可靠

超高稳定性

集群一键诊断、故障事件通知与自愈、毫秒级观测、全链路健康监测，企业级容错架构保障平均 ETTR（有效训练时长）> 99%。

灵活高效

多样化编排调度

集成&调优字节开源加速训练框架 veRL，支持 PPO/GRPO 等强化学习算法扩展，无缝衔接多种训推框架。并结合拓扑感知、NUMA 亲和、KEDA 弹性伸缩等调度策略，满足多样训练需求。

全景洞察

全链路可观测

一键开启透明埋点，无需额外代码改造。秒级定位强化学习训练过程中智能体、推理引擎、周边服务的链路问题，可视化训练过程数据，为训练的全过程保驾护航。

方案架构

预训练架构

后训练架构

预训练架构

面向超大规模分布式预训练，提供万卡智算集群、高性能存储、通信加速、一键诊断、故障自愈等能力，全面提升训练稳定性及效率。

架构优势

高训练稳定性 ETTR 99%+

高训练效率 MFU 60%+

架构优势

高训练稳定性 ETTR 99%+

高训练效率 MFU 60%+

架构优势

训练吞吐量提升 20 倍

高效的资源利用率

Sandbox 支持 100 万核秒并发，150 毫秒冷启动

架构优势

训练吞吐量提升 20 倍

高效的资源利用率

Sandbox 支持 100 万核秒并发，150 毫秒冷启动

预训练架构

架构优势

高训练稳定性 ETTR 99%+

高训练效率 MFU 60%+

后训练架构

架构优势

训练吞吐量提升 20 倍

高效的资源利用率

Sandbox 支持 100 万核秒并发，150 毫秒冷启动

方案优势

高效训练提速

MFU 超 60%，依托 HPN 智算网络等释放算力。Sandbox 支持百万核秒级并发、150ms 冷启动，提升强化学习效率。

相关产品：

GPU 云服务器容器服务镜像仓库函数服务

稳定可靠保障

ETTR 超 99%。通过集群一键诊断、全链路健康监测、节点故障自愈及任务自动重启能力，保障集群训练持续稳定运行。

相关产品：

容器服务托管 Prometheus 应用性能监控全链路版

灵活高性能训练框架

集成字节开源 veRL 加速框架，提供调优镜像及部署模板，veRL HybridEngine 技术较开源框架提升 20 倍训练吞吐，灵活适配各训推框架。

相关产品：

容器服务函数服务

开箱即用体验

提供预调优镜像、部署模板及 Ray 集群快速构建工具，简化环境搭建。内置算法指标看板与一键诊断，支持算力智能评估与训推环境分钟级部署。

相关产品：

容器服务托管 Prometheus

高性价比弹性算力

分钟级千卡 GPU 弹性预约与拉起，可灵活配置 GPU 的拉起和退订时间，海量资源精准匹配业务弹性负载，成本更低，大幅提升训练性价比。

相关产品：

弹性预约实例 GPU 云服务器容器服务

高效训练提速

稳定可靠保障

灵活高性能训练框架

开箱即用体验

高性价比弹性算力

高效训练提速

MFU 超 60%，依托 HPN 智算网络等释放算力。Sandbox 支持百万核秒级并发、150ms 冷启动，提升强化学习效率。

相关产品：

高性能 Kubernetes 容器集群管理。

稳定可靠保障

ETTR 超 99%。通过集群一键诊断、全链路健康监测、节点故障自愈及任务自动重启能力，保障集群训练持续稳定运行。

立即咨询

相关产品：

容器服务

高性能 Kubernetes 容器集群管理。

灵活高性能训练框架

集成字节开源 veRL 加速框架，提供调优镜像及部署模板，veRL HybridEngine 技术较开源框架提升 20 倍训练吞吐，灵活适配各训推框架。

立即咨询

相关产品：

容器服务

高性能 Kubernetes 容器集群管理。

函数服务

无服务器函数托管计算平台。

开箱即用体验

提供预调优镜像、部署模板及 Ray 集群快速构建工具，简化环境搭建。内置算法指标看板与一键诊断，支持算力智能评估与训推环境分钟级部署。

立即咨询

相关产品：

容器服务

高性能 Kubernetes 容器集群管理。

托管 Prometheus

免运维、高可用的云原生监控引擎。

高性价比弹性算力

分钟级千卡 GPU 弹性预约与拉起，可灵活配置 GPU 的拉起和退订时间，海量资源精准匹配业务弹性负载，成本更低，大幅提升训练性价比。

相关产品：

高性能 Kubernetes 容器集群管理。

最佳实践

veMLP 机器学习平台

使用 veRL 进行 GRPO 强化学习训练

本文介绍在火山引擎机器学习平台（veMLP）上如何使用 veRL 进行 GRPO 强化学习训练。

VKE 容器服务

构建 Ray+veRL 强化学习训练环境

本文介绍在强化学习训练场景中，使用分布式强化学习框架（veRL+Ray）提供基于 VKE 集群的多节点训练环境部署方案。

HPC 高性能计算

veRL Code Sandbox 最佳实践

本文介绍 VeRL Code Sandbox 在构建高效且安全的代码生成强化学习环境方面的最佳实践方法。

veMLP 机器学习平台

使用 veRL 进行 GRPO 强化学习训练

本文介绍在火山引擎机器学习平台（veMLP）上如何使用 veRL 进行 GRPO 强化学习训练。

VKE 容器服务

构建 Ray+veRL 强化学习训练环境

本文介绍在强化学习训练场景中，使用分布式强化学习框架（veRL+Ray）提供基于 VKE 集群的多节点训练环境部署方案。

HPC 高性能计算

veRL Code Sandbox 最佳实践

本文介绍 VeRL Code Sandbox 在构建高效且安全的代码生成强化学习环境方面的最佳实践方法。

合作案例

上火山引擎，用豆包大模型

免费试用