机器学习平台支持查看服务及实例的状态,并且提供详细的监控和日志以及 WebShell,帮助用户了解从服务创建到删除的整个生命周期的健康状况。
登录机器学习平台,单击左侧导航栏中的【模型服务】-【在线服务】进入列表页面。列表页中的服务状态、实例数量代表了 服务 的总体健康情况。
在列表页单击某个服务名称进入详情页面,单击【部署】进一步查看当前服务所有部署及实例的状态,所有实例的状态共同影响着 部署 以及 服务 的状态。为便于理解,对如下信息做特别说明:
参数名称 | 参数说明 |
---|---|
实例状态 |
|
部署状态 |
|
服务状态 |
|
实例数量 |
|
单击【监控】可跳转到该服务/部署/实例的监控页面查看更详细的监控指标,监控指标包括 业务指标 和 资源运行指标。
仅当使用 API 网关时,支持查看 业务指标,采集间隔为1分钟一次。在页面中可查看7层相关指标监控数据。详细监控指标说明可见API 网关监控指标说明。
资源运行指标 支持如下:
推理性能指标 使用限制如下:
指标 | 解释 |
---|---|
卡均TPS | 单一 xLLM 角色上每 GPU 的 TPS 处理能力。 |
Prefill / Decode 承载力 | 反映角色当前负载水平。 等于当前角色卡均TPS与压测出的相应流量 Pattern 最大 TPS 的比值。 |
SM activity | 表示 SM 执行计算任务的时间占总时间的比例。这通常包括执行指令、访问内存、进行数据传输等。 |
KV Cache 命中率 | 请求内容被 KV Cache 命中的比例平均值,反映请求间 Prompt 重复度 |
RPM | Requests Per Min 每分钟处理的请求数量,反映处理能力 |
wTPM | Tokens Per Min(万) 每分钟处理的 Token 数量,反映处理能力 |
TTFT | 首 Token 延迟,反映服务质量 |
TPOT | 生成 Token 延迟,反映服务质量 |
E2E | 请求端到端完成延迟,反映服务质量 |
Input Token Length | 请求的输入长度的均值和统计值,反映请求特征 |
Output Token Length | 请求的输出长度的均值和统计值,反映请求特征 |
实时日志
支持在全文中做关键词的检索。如检索出所有包含 error
字符串的日志条目。
关键词不区分大小写,均能够被检索出来。如搜索 “Error”、“error”、“ERROR” 均会检索到如下内容。
Error error ERROR erroR ... error ...
多个单词以空格或特殊字符分隔时,会将空格或特殊字符忽略。如搜索 “worker 5”、“worker-5” 均会检索到如下内容。
worker-5 worker_5 worker 5 worker^5 ... worker 5 ...
支持查看大小限制在 <500MB 或 <5000条的日志。查看的日志越多等待时间可能越长。使用 volc ml_task logs 指令可以查看完整日志,详见命令行工具使用文档。
支持日志的自动更新,开启后平台将定时更新训练日志,并且支持用户选择每次更新的日志条数。
历史日志
支持通过检索条件筛选出符合条件的日志,详见检索语法。
全文查询:error
键值查询:Latency :> 5000
短语查询:"http error"
支持通过SQL语句进行统计分析,详见分析概述。
status:200 | SELECT COUNT(*) AS PV
支持历史日志的全量下载及存为定时SQL分析。
支持以【原始日志】和【图表分析】两种方式对日志数据进行查看与检索。
通过前述方式检索出的结果,通过原始或表格两种格式展示,展示允许多种个性化设置,如换行、紧凑布局、过滤空字段、平铺JSON类字段和使用翻页器。
对于【原始日志】,支持选择字段进行显示或隐藏。支持单页日志条数设置(10/20/30/40/50)。
对于【图表分析】,支持使用多种图表对数据进行可视化分析,如折线图、柱状图等,对于每种图表的使用建议场景详见统计图表概述。对于图表效果细节,支持通用配置、字段配置和交互事件三种个性化设置方式。