GPU 性能分析--机器学习平台-火山引擎

文档中心

机器学习平台

自定义任务

GPU 性能分析

性能分析功能旨在帮助您深入了解并定位模型训练任务中的性能瓶颈。当您发现训练速度不达预期、资源利用率低下时，可以使用本工具从 GPU、CPU、PyTorch 操作等多个维度采集性能数据，并通过可视化的时间线（Timeline）报告，快速找到耗时最长的操作或算子，从而进行针对性优化。

关键特性

在开始使用性能分析功能前，请确保满足以下条件：

请按照以下步骤，为运行中的自定义任务创建性能分析任务。

配置项	必选	说明
分析类型	是	选择需要分析的处理器类型。可选项为 GPU 和 CPU。默认为 GPU。
存储位置	是	性能分析结果文件的存储位置。文件将自动存储在系统预置的 TOS 存储桶中，无需你手动配置。
实例列表	是	选择要采集性能数据的实例。列表中会展示当前自定义任务的所有实例，支持搜索和多选。此项为必选项。
采集内容	是	选择要采集的性能数据类型。可选项包括 CUDA、PyTorch 和 Python。默认为全选。此项为必选项。
采集方式	是	选择数据采集的触发方式。支持按训练步数采集和按时间采集。默认为按训练步数采集。切换采集方式时，系统会缓存已配置的内容。
采集步数	是	当采集方式为按训练步数采集时配置。指定需要采集的训练 step 数量。取值范围：1～10 之间的整数。默认值：10。
采集开始时间	是	当采集方式为按训练步数采集时配置。指定在任务创建成功多少个 step 之后，开始执行数据采集。取值范围：1～100 之间的整数。默认值：5。
采集时长	是	当采集方式为按时间采集时配置。指定数据采集的持续时间。取值范围：1～10 秒之间的整数。默认值：10。

任务创建后会进行采集，采集完成后，你可以在性能分析结果列表页面管理所有分析任务并查看结果。

说明：每个 Worker 节点会根据其拥有的 GPU 数量或进程数生成多个进程文件。平台会将这些文件聚合成一个单一的结果文件，并根据 perfetto 的限制进行自动分片。

在目标任务的操作列，可以执行以下操作：
- 下载文件：单击下载，将原始数据文件下载到本地。
- 编辑：修改任务的名称和描述。
- 删除：从列表中删除该性能分析任务。

点击查看后，系统将在新标签页中打开性能分析的可视化界面 (Perfetto UI)。
界面核心是 Timeline（时间线） 视图，它详细记录了在采集时间段内，CPU 和 GPU 上的所有活动。
- 您可以通过缩放、平移时间轴来查看不同粒度的事件。
- 点击某个具体的事件块（例如一个 CUDA Kernel），可以在下方看到其详细信息，如持续时间、输入参数等。
您也可以点击右上角的 Download 按钮，将分析报告下载到本地。

最近更新时间：2025.07.15 19:32:10

这个页面对您有帮助吗？

有用

无用