You need to enable JavaScript to run this app.
导航

高性能计算GPU型实例支持秒级监控(邀测)

最近更新时间2023.09.26 10:55:38

首次发布时间2023.09.26 10:55:38

功能简介
在大模型训练场景中,常使用TP(Tensor Parallelism)/PP(Pipeline Parallelism)/DP(Data Parallelism )三者融合的方式训练,可以有效提升训练任务的并行效率,降低训练过程中的数据通信开销,加速整体训练效率。为方便您高效的观测和解决大模型并行训练通信中的问题,火山引擎高性能计算GPU型实例提供了秒级监控功能,通过更细粒度的监控,实时监测训练通信流量,助力业务调优 3D 并行 (3D Parallelism)参数,辅助定位训练故障。

应用场景

  • 大模型训练性能调优:在训练场景下提供秒级及更细粒度的监控能力,提供性能实时监控观测能力。

  • 大模型训练通信故障定位:辅助定位训练场景中通信过程故障问题。

使用说明

发布地域
全部地域