查看服务的状态 / 监控 / 日志（new）--机器学习平台-火山引擎

文档中心

机器学习平台

在线服务

查看服务的状态 / 监控 / 日志（new）

机器学习平台支持查看服务及实例的状态，并且提供详细的监控和日志以及 WebShell，帮助用户了解从服务创建到删除的整个生命周期的健康状况。

使用前提

【在线服务】中存在 >= 1 个服务。

状态

登录机器学习平台，单击左侧导航栏中的【模型服务】-【在线服务】进入列表页面。列表页中的服务状态、实例数量代表了服务的总体健康情况。
在列表页单击某个服务名称进入详情页面，单击【部署】进一步查看当前服务所有部署及实例的状态，所有实例的状态共同影响着部署以及服务的状态。为便于理解，对如下信息做特别说明：

参数名称	参数说明
实例状态	部署中：节点调度、镜像拉取、启动实例的阶段。运行中：该阶段下实例能够正常对外提供服务。停止中：用户触发删除服务的操作，正在删除实例的阶段。异常：所有实例部署超时或者运行过程中出错。
部署状态	未运行：部署被停止后，所有部署实例被清空。部署中：所有实例均处于部署阶段，实例状态为`部署中`。运行中：该阶段存在 >=1 个状态为`运行中`的实例。停止中：用户触发停止部署的操作，正在删除实例的阶段。异常：所有实例状态均为`异常`。此时需要进入详情页查看实例状态及日志从而定位出问题所在。
服务状态	未运行：服务被停止后，所有服务实例被清空。部署中：所有实例均处于部署阶段，实例状态为`部署中`。运行中：该阶段存在 >=1 个状态为`运行中`的实例。停止中：用户触发停止服务的操作，正在删除实例的阶段。异常：所有实例状态均为`异常`。此时需要进入详情页查看实例状态及日志从而定位出问题所在。
实例数量	可用的实例数量 / 预期的实例数量。一个服务包含若干实例，可用的实例数量也一定程度反映了服务的健康状况。

监控

单击【监控】可跳转到该服务/部署/实例的监控页面查看更详细的监控指标，监控指标包括 业务指标 和 资源运行指标。
仅当使用 API 网关时，支持查看 业务指标，采集间隔为1分钟一次。在页面中可查看7层相关指标监控数据。详细监控指标说明可见API 网关监控指标说明。
资源运行指标 支持如下：
- CPU：利用率、使用量。
- 内存：利用率、使用量。
- 网卡：流入的速率、流出的速率。
- GPU：利用率、显存利用率、显存使用量。当实例中包含多张 GPU 时将多条曲线汇总在图表上。

日志

单击某个实例在操作区的【日志】可跳转到该实例的日志页面查看更详细的运行日志，【实时日志】默认可用，【历史日志】需用户主动开通，详细步骤见日志功能升级变更说明。
1. 实时日志
  1. 支持在全文中做关键词的检索。如检索出所有包含 error 字符串的日志条目。
    - 关键词不区分大小写，均能够被检索出来。如搜索 “Error”、“error”、“ERROR” 均会检索到如下内容。
```
Error
error
ERROR
erroR
... error ...
```
    - 多个单词以空格或特殊字符分隔时，会将空格或特殊字符忽略。如搜索 “worker 5”、“worker-5” 均会检索到如下内容。
```
worker-5
worker_5
worker 5
worker^5
... worker 5 ...
```
  2. 支持查看大小限制在 <500MB 或 <5000条的日志。查看的日志越多等待时间可能越长。使用 volc ml_task logs 指令可以查看完整日志，详见命令行工具使用文档。
  3. 支持日志的自动更新，开启后平台将定时更新训练日志，并且支持用户选择每次更新的日志条数。
2. 历史日志
  1. 支持通过检索条件筛选出符合条件的日志，详见检索语法。
    - 全文查询：error
    - 键值查询：Latency :> 5000
    - 短语查询："http error"
  2. 支持通过SQL语句进行统计分析，详见分析概述。
    - 在状态码为 200 的请求中统计访问次数：status:200 | SELECT COUNT(*) AS PV
  3. 支持历史日志的全量下载及存为定时SQL分析。
  4. 支持以【原始日志】和【图表分析】两种方式对日志数据进行查看与检索。
    通过前述方式检索出的结果，通过原始或表格两种格式展示，展示允许多种个性化设置，如换行、紧凑布局、过滤空字段、平铺JSON类字段和使用翻页器。
    - 对于【原始日志】，支持选择字段进行显示或隐藏。支持单页日志条数设置（10/20/30/40/50）。
    - 对于【图表分析】，支持使用多种图表对数据进行可视化分析，如折线图、柱状图等，对于每种图表的使用建议场景详见统计图表概述。对于图表效果细节，支持通用配置、字段配置和交互事件三种个性化设置方式。

最近更新时间：2026.04.22 16:29:57

这个页面对您有帮助吗？

有用

无用

机器学习平台

状态 #

监控 #

日志 #

状态

监控

日志