机器学习平台支持查看任务及实例的状态、运行日志、监控数据等信息,用户通过这些信息能够获取当前训练任务的进度及健康状况,除此之外用户还能通过 WebShell 进入训练容器内部进行问题排查。
使用前提
- 【自定义训练】存在 >=1 个训练任务。
操作步骤
登录机器学习平台,单击左侧导航栏中的【模型训练】-【自定义训练】进入列表页面。列表页中的状态、运行时长简单描述了任务的总体情况。
单击任务名称进入详情页面后能够查看所有 实例 的状态,所有训练实例的状态共同影响着 任务 的状态。
参数名称 | 参数说明 |
|---|
实例状态 | - 排队中:该状态下实例正在等待资源分配和节点调度。
- 部署中:镜像拉取、存储挂载、创建容器等过程。
- 运行中:执行训练代码。
- 停止中:用户触发取消操作或者任务超过最长运行时间,正在删除实例。
- 异常:实例在排队、部署及停止的过程出现系统错误。
- 完成:执行完成。
- 失败:运行失败或者异常超时。
- 已删除:实例已被删除。
- 完成(保留中):配置了
实例保留时长且实例运行完成。 - 失败(保留中):配置了
实例保留时长且实例运行失败。
|
概览信息 | - 创建中:提交任务创建的请求后,等待请求返回的阶段。
- 排队中:所有实例的状态均为
排队中。 - 部署中:所有实例已完成排队,实例的状态均为
部署中或者包含部分运行中的状态。 - 运行中:所有实例完成部署,实例状态均为
运行中。 - 停止中:用户触发取消操作或者任务超过最长运行时间,正在删除实例。
- 异常:该阶段下存在 >=1 个状态为
异常的实例。 - 完成:所有实例执行完成。
- 失败:存在 >=1 个状态为
失败的实例。 - 已停止:任务因手动取消、运行超时、被抢占,使得所有未完成的实例最终到达
已删除 的状态。 - 失败(保留中):存在 >=1 个状态为
失败(保留中)的实例。 - 完成(保留中):所有实例的状态为
完成(保留中)。
|
监控 | 查看任务的 CPU和内存、GPU、网卡、vePFS、CloudFS、XID 维度的信息。 |
日志 | 支持查看历史日志和实时日志。 |
时间线 | 展示任务运行的重要时间节点,如创建完成、开始排队、启动运行等。 |
性能分析 | 可以查看 GPU、CPU 数据分析,具体使用见文档:CPU 性能分析、GPU 性能分析。 |
进程栈分析 | 查看程序的执行流程、函数调用关系以及变量的存储情况等。 |
重试记录 | 在创建自定义任务时,如果配置自动重试(具体见创建单机 / 分布式训练任务),可以查询重试记录以及配置。 |