性能分析功能旨在帮助您深入了解并定位模型训练任务中的性能瓶颈。当您发现训练速度不达预期、资源利用率低下时,可以使用本工具从 GPU、CPU、PyTorch 操作等多个维度采集性能数据,并通过可视化的时间线(Timeline)报告,快速找到耗时最长的操作或算子,从而进行针对性优化。
关键特性
- 按需创建分析任务:支持在自定义任务详情页为运行中的任务创建 GPU 或 CPU 性能分析,可灵活配置采集实例、采集内容、采集方式和时长。
- 集中管理分析结果:在统一的列表中展示所有性能分析任务的状态和结果,并提供编辑、删除、查看可视化报告以及下载原始数据文件等管理操作。
- 结果可视化呈现:在控制台内直接以时间线 (Timeline) 等可视化的方式展示性能分析结果,便于直观地定位性能问题。
使用限制
- 同一时间只能有一个性能分析任务处于“初始化中”或“采集中”状态,请勿重复创建。
- 任务状态为“创建中”或“创建失败”时,无法查看分析结果。
- 按训练步数采集的功能当前仅支持 PyTorch 框架。若在其他框架下使用,任务将超时失败。
前提条件
在开始使用性能分析功能前,请确保满足以下条件:
- 目标自定义任务的状态为运行中。
- 你的训练环境已安装 Python 3.8 ~ 3.11 版本以及 PyTorch 1.13 ~ 2.6.0 版本。
操作步骤
创建性能分析任务
请按照以下步骤,为运行中的自定义任务创建性能分析任务。
- 导航到 自定义任务 > 任务详情 页面,在目标任务的管理页面单击 创建性能分析。

- 在弹出的配置页面,根据下表配置分析任务的参数。
配置项 | 必选 | 说明 |
---|
分析类型 | 是 | 选择需要分析的处理器类型。可选项为 GPU 和 CPU。默认为 GPU。 |
存储位置 | 是 | 性能分析结果文件的存储位置。文件将自动存储在系统预置的 TOS 存储桶中,无需你手动配置。 |
实例列表 | 是 | 选择要采集性能数据的实例。列表中会展示当前自定义任务的所有实例,支持搜索和多选。此项为必选项。 |
采集内容 | 是 | 选择要采集的性能数据类型。可选项包括 CUDA、PyTorch 和 Python。默认为全选。此项为必选项。 |
采集方式 | 是 | 选择数据采集的触发方式。支持 按训练步数采集 和 按时间采集。默认为 按训练步数采集。 切换采集方式时,系统会缓存已配置的内容。
|
采集步数 | 是 | 当采集方式为按训练步数采集时配置。指定需要采集的训练 step 数量。 取值范围:1~10 之间的整数。 默认值:10。 |
采集开始时间 | 是 | 当采集方式为按训练步数采集时配置。指定在任务创建成功多少个 step 之后,开始执行数据采集。取值范围:1~100 之间的整数。默认值:5。 |
采集时长 | 是 | 当采集方式为按时间采集时配置。指定数据采集的持续时间。 取值范围:1~10 秒之间的整数。 默认值:10。 |
- 完成所有配置后,单击 提交。
管理与查看性能分析任务
任务创建后会进行采集,采集完成后,你可以在性能分析结果列表页面管理所有分析任务并查看结果。
- 在列表中查看性能分析任务的详细信息。列表分为 GPU 和 CPU 两个标签页,默认展示 GPU 页签。
说明:每个 Worker 节点会根据其拥有的 GPU 数量或进程数生成多个进程文件。平台会将这些文件聚合成一个单一的结果文件,并根据 perfetto 的限制进行自动分片。
- 在目标任务的 操作 列,可以执行以下操作:
- 下载文件:单击 下载,将原始数据文件下载到本地。
- 编辑:修改任务的名称和描述。
- 删除:从列表中删除该性能分析任务。
分析可视化结果
- 点击查看后,系统将在新标签页中打开性能分析的可视化界面 (Perfetto UI)。
- 界面核心是 Timeline(时间线) 视图,它详细记录了在采集时间段内,CPU 和 GPU 上的所有活动。
- 您可以通过缩放、平移时间轴来查看不同粒度的事件。
- 点击某个具体的事件块(例如一个 CUDA Kernel),可以在下方看到其详细信息,如持续时间、输入参数等。
- 您也可以点击右上角的 Download 按钮,将分析报告下载到本地。