You need to enable JavaScript to run this app.
导航
查看任务的状态 / 监控 / 日志
最近更新时间:2025.09.28 17:37:06首次发布时间:2021.09.01 16:30:36
复制全文
我的收藏
有用
有用
无用
无用

机器学习平台支持查看任务及实例的状态、运行日志、监控数据等信息,用户通过这些信息能够获取当前训练任务的进度及健康状况,除此之外用户还能通过 WebShell 进入训练容器内部进行问题排查。

使用前提
  1. 【自定义训练】存在 >=1 个训练任务。

操作步骤
  1. 登录机器学习平台,单击左侧导航栏中的【模型训练】-【自定义训练】进入列表页面。列表页中的状态、运行时长简单描述了任务的总体情况。

  2. 单击任务名称进入详情页面后能够查看所有 实例 的状态,所有训练实例的状态共同影响着 任务 的状态。

    参数名称

    参数说明

    实例状态

    • 排队中:该状态下实例正在等待资源分配和节点调度。
    • 部署中:镜像拉取、存储挂载、创建容器等过程。
    • 运行中:执行训练代码。
    • 停止中:用户触发取消操作或者任务超过最长运行时间,正在删除实例。
    • 异常:实例在排队、部署及停止的过程出现系统错误。
    • 完成:执行完成。
    • 失败:运行失败或者异常超时。
    • 已删除:实例已被删除。
    • 完成(保留中):配置了实例保留时长且实例运行完成
    • 失败(保留中):配置了实例保留时长且实例运行失败

    概览信息

    • 创建中:提交任务创建的请求后,等待请求返回的阶段。
    • 排队中:所有实例的状态均为排队中
    • 部署中:所有实例已完成排队,实例的状态均为部署中或者包含部分运行中的状态。
    • 运行中:所有实例完成部署,实例状态均为运行中
    • 停止中:用户触发取消操作或者任务超过最长运行时间,正在删除实例。
    • 异常:该阶段下存在 >=1 个状态为异常的实例。
    • 完成:所有实例执行完成。
    • 失败:存在 >=1 个状态为失败的实例。
    • 已停止:任务因手动取消、运行超时、被抢占,使得所有未完成的实例最终到达 已删除 的状态。
    • 失败(保留中):存在 >=1 个状态为失败(保留中)的实例。
    • 完成(保留中):所有实例的状态为完成(保留中)

    监控

    查看任务的 CPU和内存、GPU、网卡、vePFS、CloudFS、XID 维度的信息。

    日志

    支持查看历史日志和实时日志。

    时间线

    展示任务运行的重要时间节点,如创建完成、开始排队、启动运行等。

    性能分析

    可以查看 GPU、CPU 数据分析,具体使用见文档:CPU 性能分析GPU 性能分析

    进程栈分析

    查看程序的执行流程、函数调用关系以及变量的存储情况等。

    说明

    需先在全局配置配置日志投递规则。

    重试记录

    在创建自定义任务时,如果配置自动重试(具体见创建单机 / 分布式训练任务),可以查询重试记录以及配置。