You need to enable JavaScript to run this app.
导航

查看任务的状态 / 监控 / 日志

最近更新时间2023.10.16 21:30:56

首次发布时间2021.09.01 16:30:36

机器学习平台支持查看任务及实例的状态、运行日志、监控数据等信息,用户通过这些信息能够获取当前训练任务的进度及健康状况,除此之外用户还能通过 WebShell 进入训练容器内部进行问题排查。

使用前提
  1. 【自定义训练】存在 >=1 个训练任务。
操作步骤
  1. 登录机器学习平台,单击左侧导航栏中的【模型训练】-【自定义训练】进入列表页面。列表页中的状态、运行时长简单描述了任务的总体情况。

  2. 单击任务名称进入详情页面后能够查看所有 实例 的状态,所有训练实例的状态共同影响着 任务 的状态。单击【Timeline】查看任务的一些重要时间节点。为便于用户理解,对如下信息做特别说明:

    参数名称参数说明
    实例状态* 排队中:该状态下实例正在等待资源分配和节点调度。
    * 部署中:镜像拉取、存储挂载、创建容器等过程。
    * 运行中:执行训练代码。
    * 停止中:用户触发取消操作或者任务超过最长运行时间,正在删除实例。
    * 异常:实例在排队、部署及停止的过程出现系统错误。
    * 完成:执行完成。
    * 失败:运行失败或者异常超时。
    * 已删除:实例已被删除。
    * 完成(保留中):配置了实例保留时长且实例运行完成
    * 失败(保留中):配置了实例保留时长且实例运行失败
    任务状态* 创建中:提交任务创建的请求后,等待请求返回的阶段。
    * 排队中:所有实例的状态均为排队中
    * 部署中:所有实例已完成排队,实例的状态均为部署中或者包含部分运行中的状态。
    * 运行中:所有实例完成部署,实例状态均为运行中
    * 停止中:用户触发取消操作或者任务超过最长运行时间,正在删除实例。
    * 异常:该阶段下存在 >=1 个状态为异常的实例。
    * 完成:所有实例执行完成。
    * 失败:存在 >=1 个状态为失败的实例。
    * 已停止:任务因手动取消、运行超时、被抢占,使得所有未完成的实例最终到达 已删除 的状态。
    * 失败(保留中):存在 >=1 个状态为失败(保留中)的实例。
    * 完成(保留中):所有实例的状态为完成(保留中)
    Timeline* 展示任务运行的重要时间节点,如创建完成、开始排队、启动运行等。

    image.png
    image.png
    image.png

  3. 单击某个实例在操作区的【监控】可跳转到该实例的监控页面查看更详细的监控指标,具体支持的监控指标如下。

    • CPU:利用率、使用量。
    • 内存:利用率、使用量。
    • 网络:流入的速率、流出的速率。
    • GPU:利用率、显存利用率、显存使用量。当实例中包含多张 GPU 时将多条曲线汇总在图表上。
      image.png
      image.png
  4. 单击某个实例在操作区的【日志】可跳转到该实例的日志页面查看更详细的运行日志。

    • 支持在全文中做关键词的检索。如检索出所有包含 error 字符串的日志条目。

      • 关键词不区分大小写,均能够被检索出来。如搜索 “Error”、“error”、“ERROR” 均会检索到如下内容。

        Error
        error
        ERROR
        erroR
        ... error ...
        
        
      • 多个单词以空格或特殊字符分隔时,会将空格或特殊字符忽略。如搜索 “worker 5”、“worker-5” 均会检索到如下内容。

        worker-5
        worker_5
        worker 5
        worker^5
        ... worker 5 ...
        
        
    • 支持日志的自动更新,开启后平台将定时更新新的训练日志,并且支持用户选择每次更新的日志条数(100 / 500 / 2000 / 5000)。

    • 支持下载最近的 3 千条日志到本地查看,更多的日志可通过volc ml_task logs的指令查看。

  5. 当实例状态为运行中,单击操作区的【WebShell】可进入实例容器内部手动执行命令或排查问题。