You need to enable JavaScript to run this app.
导航
查看服务的状态 / 监控 / 日志
最近更新时间:2025.04.21 16:00:25首次发布时间:2021.09.01 16:30:36
我的收藏
有用
有用
无用
无用

机器学习平台支持查看服务及实例的状态,并且提供详细的监控和日志以及 WebShell,帮助用户了解从服务创建到删除的整个生命周期的健康状况。

使用前提
  1. 【在线服务】中存在 >= 1 个服务。

状态

  1. 登录机器学习平台,单击左侧导航栏中的【模型服务】-【在线服务】进入列表页面。列表页中的服务状态、实例数量代表了 服务 的总体健康情况。

  2. 在列表页单击某个服务名称进入详情页面,单击【部署】进一步查看当前服务所有部署及实例的状态,所有实例的状态共同影响着 部署 以及 服务 的状态。为便于理解,对如下信息做特别说明:

    参数名称参数说明

    实例状态

    • 部署中:节点调度、镜像拉取、启动实例的阶段。
    • 运行中:该阶段下实例能够正常对外提供服务。
    • 停止中:用户触发删除服务的操作,正在删除实例的阶段。
    • 异常:所有实例部署超时或者运行过程中出错。

    部署状态

    • 未运行:部署被停止后,所有部署实例被清空。
    • 部署中:所有实例均处于部署阶段,实例状态为部署中
    • 运行中:该阶段存在 >=1 个状态为运行中的实例。
    • 停止中:用户触发停止部署的操作,正在删除实例的阶段。
    • 异常:所有实例状态均为异常。此时需要进入详情页查看实例状态及日志从而定位出问题所在。

    服务状态

    • 未运行:服务被停止后,所有服务实例被清空。
    • 部署中:所有实例均处于部署阶段,实例状态为部署中
    • 运行中:该阶段存在 >=1 个状态为运行中的实例。
    • 停止中:用户触发停止服务的操作,正在删除实例的阶段。
    • 异常:所有实例状态均为异常。此时需要进入详情页查看实例状态及日志从而定位出问题所在。

    实例数量

    • 可用的实例数量 / 预期的实例数量。
    • 一个服务包含若干实例,可用的实例数量也一定程度反映了服务的健康状况。

监控

  1. 单击【监控】可跳转到该服务/部署/实例的监控页面查看更详细的监控指标,监控指标包括 业务指标资源运行指标

  2. 仅当使用 API 网关时,支持查看 业务指标,采集间隔为1分钟一次。在页面中可查看7层相关指标监控数据。详细监控指标说明可见API 网关监控指标说明

  3. 资源运行指标 支持如下:

    • CPU:利用率、使用量。
    • 内存:利用率、使用量。
    • 网卡:流入的速率、流出的速率。
    • GPU:利用率、显存利用率、显存使用量。当实例中包含多张 GPU 时将多条曲线汇总在图表上。
  4. 推理性能指标 使用限制如下:

    • 全局配置中配置 VMP 工作区
    • 服务正确配置「metrics」采集端口。
    • 使用的推理引擎为 xLLM、SGLang 或者 vLLM
    • 详细指标字典如下:
    指标解释

    卡均TPS

    单一 xLLM 角色上每 GPU 的 TPS 处理能力。
    (Note: 通用指标面板中的 TPS 为服务所有实例的GPU均值,而 xLLM 的 TPS 为该角色所有实例的 GPU 均值)

    Prefill / Decode 承载力

    反映角色当前负载水平。 等于当前角色卡均TPS与压测出的相应流量 Pattern 最大 TPS 的比值。
    需设置变量“Prefill 满载卡均 TPS ”及 “Decode 满载卡均 TPS”,例如,对于输入长度为 8K,输出为 1K 的请求,“Prefill 满载卡均TPS”为 650,“Decode 满载卡均TPS”在 30ms TPOT下为55。

    SM activity表示 SM 执行计算任务的时间占总时间的比例。这通常包括执行指令、访问内存、进行数据传输等。
    KV Cache 命中率请求内容被 KV Cache 命中的比例平均值,反映请求间 Prompt 重复度
    RPMRequests Per Min 每分钟处理的请求数量,反映处理能力
    wTPMTokens Per Min(万) 每分钟处理的 Token 数量,反映处理能力
    TTFT首 Token 延迟,反映服务质量
    TPOT生成 Token 延迟,反映服务质量
    E2E请求端到端完成延迟,反映服务质量
    Input Token Length请求的输入长度的均值和统计值,反映请求特征
    Output Token Length请求的输出长度的均值和统计值,反映请求特征

日志

  1. 单击某个实例在操作区的【日志】可跳转到该实例的日志页面查看更详细的运行日志,【实时日志】默认可用,【历史日志】需用户主动开通,详细步骤见日志功能升级变更说明
    1. 实时日志

      1. 支持在全文中做关键词的检索。如检索出所有包含 error 字符串的日志条目。

        • 关键词不区分大小写,均能够被检索出来。如搜索 “Error”、“error”、“ERROR” 均会检索到如下内容。

          Error
          error
          ERROR
          erroR
          ... error ...
          
        • 多个单词以空格或特殊字符分隔时,会将空格或特殊字符忽略。如搜索 “worker 5”、“worker-5” 均会检索到如下内容。

          worker-5
          worker_5
          worker 5
          worker^5
          ... worker 5 ...
          
      2. 支持查看大小限制在 <500MB 或 <5000条的日志。查看的日志越多等待时间可能越长。使用 volc ml_task logs 指令可以查看完整日志,详见命令行工具使用文档

      3. 支持日志的自动更新,开启后平台将定时更新训练日志,并且支持用户选择每次更新的日志条数。

    2. 历史日志

      1. 支持通过检索条件筛选出符合条件的日志,详见检索语法

        • 全文查询:error

        • 键值查询:Latency :> 5000

        • 短语查询:"http error"

      2. 支持通过SQL语句进行统计分析,详见分析概述

        • 在状态码为 200 的请求中统计访问次数:status:200 | SELECT COUNT(*) AS PV
      3. 支持历史日志的全量下载及存为定时SQL分析。

      4. 支持以【原始日志】和【图表分析】两种方式对日志数据进行查看与检索。

        通过前述方式检索出的结果,通过原始或表格两种格式展示,展示允许多种个性化设置,如换行、紧凑布局、过滤空字段、平铺JSON类字段和使用翻页器。

        • 对于【原始日志】,支持选择字段进行显示或隐藏。支持单页日志条数设置(10/20/30/40/50)。

        • 对于【图表分析】,支持使用多种图表对数据进行可视化分析,如折线图、柱状图等,对于每种图表的使用建议场景详见统计图表概述。对于图表效果细节,支持通用配置、字段配置和交互事件三种个性化设置方式。