You need to enable JavaScript to run this app.
导航

查看服务的状态 / 监控 / 日志

最近更新时间2022.08.25 15:33:06

首次发布时间2021.09.01 16:30:36

机器学习平台支持查看服务及实例的状态,并且提供详细的监控和日志以及 WebShell,帮助用户了解从服务创建到删除的整个生命周期的健康状况。

使用前提
  1. 【在线服务】中存在 >= 1 个服务。
操作步骤
  1. 登录机器学习平台,单击左侧导航栏中的【模型服务】-【在线服务】进入列表页面。列表页中的服务状态、实例数量代表了 服务 的总体健康情况。

  2. 在列表页单击某个服务名称进入详情页面,单击【实例列表】进一步查看当前服务所有实例的状态,这代表了 实例 的总体健康情况,所有实例的状态共同影响着 服务 的状态。为便于理解,对如下信息做特别说明:

    参数名称参数说明

    实例状态

    • 部署中:节点调度、镜像拉取、启动实例的阶段。
    • 运行中:该阶段下实例能够正常对外提供服务。
    • 停止中:用户触发删除服务的操作,正在删除实例的阶段。
    • 异常:所有实例部署超时或者运行过程中出错。

    服务状态

    • 未运行:服务被停止后,所有服务实例被清空。
    • 部署中:所有实例均处于部署阶段,实例状态为部署中
    • 运行中:该阶段存在 >=1 个状态为运行中的实例。
    • 停止中:用户触发停止服务的操作,正在删除实例的阶段。
    • 异常:所有实例状态均为异常。此时需要进入详情页查看实例状态及日志从而定位出问题所在。

    实例数量

    • 可用的实例数量 / 预期的实例数量。
    • 一个服务包含若干实例,可用的实例数量也一定程度反映了服务的健康状况。

  3. 单击某个实例在操作区的【监控】可跳转到该实例的监控页面查看更详细的监控指标,具体支持的监控指标如下。

    • CPU:利用率、使用量。
    • 内存:利用率、使用量。
    • 网络:流入的速率、流出的速率。
    • GPU:利用率、显存利用率、显存使用量。当实例中包含多张 GPU 时将多条曲线汇总在图表上。
      image.png
      image.png
  4. 单击某个实例在操作区的【日志】可跳转到该实例的日志页面查看更详细的运行日志。

    • 支持以 Lucene 语法进行日志的全文检索。如填写 error 将检索出所有包含 error 的日志条目。
    • 支持日志的自动更新,开启后平台将定时更新新的训练日志,并且支持用户选择每次更新的日志条数(100 / 500 / 2000 / 5000)。
    • 支持下载最近的 3 千条日志到本地查看。
      alt