You need to enable JavaScript to run this app.
导航
监控配置说明
最近更新时间:2025.05.30 16:08:35首次发布时间:2023.04.23 14:32:55
我的收藏
有用
有用
无用
无用

机器学习平台为常用的负载都提供了监控看板并预置了大量的监控指标,但仍然有可能无法满足部分用户的定制化需求,最为常见的有基于某些基础指标进行聚合得到新的指标。为解决这类问题,机器学习平台支持用户将监控数据归档至自身火山引擎账号下的托管 Prometheus 服务(VMP) ,归档后的数据用户能够自由查询及灵活使用。

相关概念

使用前提
  1. 当前用户拥有 MLPlatformAdminAccess 的 IAM 策略(配置策略的方法详见权限管理)。
  2. 当前账号下拥有 >=1 个 VMP 工作区。
    • 如果该账号下未创建过工作时,可能联系具备相关权限如 VMPFullAccess IAM 策略的用户前往 VMP 的控制台页面创建。

配置监控归档
  1. 前往机器学习平台的【全局配置】-【监控】模块,单击【授权】进入配置页面。
  2. 启动监控归档的功能并将适当的 VMP 工作区配置为归档位置。
  3. 提交表单后新创建的负载的监控数据将推送至对应的 VMP 工作区,用户即可实现数据的自由处理。

注意事项

  1. 开启归档之前创建的自定义任务、在线服务的监控数据不会推送至 VMP,但是开发机关机再开机后可推送。
  2. 修改归档位置后,旧的自定义任务、在线服务只会推送到旧的归档位置,开发机关机再开机后可推送到新的归档位置。

如何使用归档后数据

监控数据归档到用户的 VMP 后可以完整地查看各项指标,此外也可以利用这部分指标在 VMP 上配置告警。详细的指标和 label 列表详见下文中的指标及 label 说明

VMP Explore 指标检索

  1. 前往 VMP 的【Explore】模块,选择用作监控数据归档的工作区。
  2. 在查询框内输入指标名称或 PromQL 查询语句。

说明

自2024年12月,平台支持用户按任务/开发机名称、任务标签聚合查看监控,新增指标及标签说明见下方工作负载指标

  1. 通过 label 和 values 还能做更细粒度的筛选。

Image

自建 Grafana 监控看板

Grafana 是一个跨平台的开源度量分析和可视化工具,可以通过将采集的数据查询然后可视化的展示。具体操作步骤详见如何通过 Grafana 对监控数据指标搭建可视化看板——以配置GPU资源总量看板为例--机器学习平台-火山引擎。您可以通过火山引擎为您提供的镜像来部署 Grafana,也可以使用开源的镜像部署。部署 Grafana 的方法如下:

  • 方法 1:在火山引擎容器服务 VKE 中部署 Grafana,详见VMP - 部署 Grafana
  • 方法 2:在火山引擎云服务器 ECS 中部署 Grafana。
    • 前往 ECS 创建实例并在实例中安装 Grafana。
    • 为 ECS 绑定公网 IP,并设置安全组规则:入方向规则中,允许 Grafana 端口(默认为3000)。
    • 在浏览器访问http://<公网IP>:<``Grafana 端口``>,初始用户名和密码都为admin
    • 在 Grafana 设置中新增数据源,选择 Prometheus,填入 VMP 的 Basic Auth、Query URL(上述信息均可从 VMP 的工作区详情页面获得)。

通过 VMP 配置告警

因为所有监控数据已经推送到用户的 VMP 下,用户便能够通过编写 PromQL 查询语句灵活地配置告警规则,当机器学习平台的工作负载的监控指标出现异常时可以及时地发送告警消息给对应的告警联系群组。具体操作步骤详见创建告警规则

PromQL检索示例

mlp 在 VMP 提供多个预置看板,详细的预置看板变量和PromQL查询语句介绍请参考MLP 在 VMP 的预置看板介绍。下面给出几个常用指标的检索示例。

  • CPU 使用量。
irate(container_cpu_usage_seconds_total{name!=""}[5m])
  • CPU 使用率。
irate(container\_cpu\_usage\_seconds\_total{name!=""}\[5m\])/on (pod,name) (container\_spec\_cpu\_quota/1000/100) * 100
  • 显存利用率。
avg by(gpu, pod)(DCGM_FI_DEV_FB_USED{pod="%s"} / (DCGM_FI_DEV_FB_FREE{pod="%s"} + DCGM_FI_DEV_FB_USED{pod="%s"}) * 100)
  • 查看每个自定义任务的平均 GPU 利用率(因为自定义任务中一个任务会有多个 pod,需要按任务 id 聚合一下)。
avg (DCGM_FI_DEV_GPU_UTIL * ON(pod) group_left(mlp_customtask) mlp_customtask_instance_info) by (mlp_customtask)
  • 实现 10 天内某个队列(q-20211224114108-78qvl)各个自定义任务的平均利用率(各任务生命周期内的平均利用率)。
avg_over_time(
    (avg (
        DCGM_FI_DEV_GPU_UTIL * ON(pod) group_left(mlp_customtask) mlp_customtask_instance_info{mlp_resource_queue="q-20211224114108-78qvl"}) by (mlp_customtask)) 
[10d:30s])
  • 某个任务(t-20230519123538-vr2nl)10 天内的 GPU 使用时间。
    • 该任务使用了多少张 GPU 则监控图表中展示多少条数据曲线。
count_over_time(DCGM_FI_DEV_GPU_UTIL AND ON(pod) mlp_customtask_instance_info{mlp_customtask="t-20230519123538-vr2nl"} [10d:1m])
  • 按照任务的维度统计过去 5 天内每种 GPU 型号的总使用卡时。
    • 查询语句解析:
      • count_over_time():计算指定时间范围内的样本数量。在该示例中用于计算过去 1 天每分钟内的样本数量。
      • DCGM_FI_DEV_GPU_UTIL: 该示例中选择了 DCGM_FI_DEV_GPU_UTIL 指标用于计算使用时间
      • * ON(pod) group_left(mlp_customtask) mlp_customtask_instance_info: 该示例中要筛选自定义任务,需要将DCGM指标和自定义任务实例指标按照相同pod进行匹配。由于单个pod可能有多张卡, 需要使用group_left操作进行多对一匹配, 并将自定义任务IDmlp_customtask传递给最终结果。详细的匹配规则请参阅PromQL官方文档。
      • sum by (mlp_customtask, modelName): 对于相同 mlp_customtaskmodelName 标签值的数据点,将它们的计数值相加得到一个总数。
        • 其中 modelName 为 DCGM 自带的标签,指 GPU 型号。
sum by (mlp_customtask, modelName) (count_over_time((DCGM_FI_DEV_GPU_UTIL * ON(pod) group_left(mlp_customtask) mlp_customtask_instance_info)[5d:1m]))

指标及其说明

RDMA整机监控指标

指标描述

指标

类型

单位

含义

mlp_node_exporter_infiniband_link_downed_total

Counter

链路从错误状态中恢复失败并停止运行的次数。

mlp_node_exporter_infiniband_link_error_recovery_total

Counter

链路从错误状态成功恢复的次数。

mlp_node_exporter_infiniband_physical_state_id

Gauge

端口的物理状态(0: no change, 1: sleep, 2: polling, 3: disable, 4: shift, 5: link up, 6: link error recover, 7: phytest)。

mlp_node_exporter_infiniband_state_id

Gauge

端口的状态(0: no change, 1: down, 2: init, 3: armed, 4: active, 5: act defer)。

mlp_node_exporter_infiniband_excessive_buffer_overrun_errors_total

Counter

连续出现溢出错误的流控制更新期间的次数。

mlp_node_exporter_infiniband_local_link_integrity_errors_total

Counter

本地物理错误计数超过由本地物理错误(LocalPhyErrors)指定阈值的次数。

mlp_node_exporter_infiniband_port_constraint_errors_received_total

Counter

在交换机物理端口上接收后被丢弃的数据包数量。

mlp_node_exporter_infiniband_port_constraint_errors_transmitted_total

Counter

未从交换机物理端口传输的数据包数量。

mlp_node_exporter_infiniband_port_errors_received_total

Counter

在该端口接收到的包含错误的数据包数量。

mlp_node_exporter_infiniband_port_receive_remote_physical_errors_total

Counter

在该端口接收到的标有坏包结束(EBP)分隔符的数据包数量。

mlp_node_exporter_infiniband_port_receive_switch_relay_errors_total

Counter

交换机无法转发的数据包数量。

mlp_node_exporter_infiniband_symbol_error_total

Counter

在一个或多个物理通道上检测到的轻微链路错误数量。

mlp_rdma_exporter_infiniband_implied_nak_seq_err_total

Counter

Read response 乱序次数。

mlp_rdma_exporter_infiniband_local_ack_timeout_err_total

Counter

出方向超时次数。

mlp_rdma_exporter_infiniband_np_cnp_sent_total

Counter

出方向采集周期内网卡发出的 CNP 报文数量。代表接收端路径上出现了拥塞,需要通知发送端减少发送。

mlp_rdma_exporter_infiniband_np_ecn_marked_roce_packets_total

Counter

入方向采集周期内网卡收到的 ECN mark 的报文数量。代表路径上出现了拥塞。

mlp_rdma_exporter_infiniband_out_of_sequence_total

Counter

入方向乱序次数。该指标增长可能是链路有问题。

mlp_rdma_exporter_infiniband_packet_seq_err_total

Counter

出方向乱序次数。

mlp_rdma_exporter_infiniband_port_data_received_bytes_total

Counter

bytes

驱动层面入方向流量,包括 TCP/IP 和 RDMA。

mlp_rdma_exporter_infiniband_port_data_transmitted_bytes_total

Counter

bytes

驱动层面出方向流量,包括 TCP/IP 和 RDMA。

mlp_rdma_exporter_infiniband_port_packets_received_total

Counter

packets

驱动层面入方向包数量,包括 TCP/IP 和 RDMA。

mlp_rdma_exporter_infiniband_port_packets_transmitted_total

Counter

packets

驱动层面出方向包数量,包括 TCP/IP 和 RDMA。

mlp_rdma_exporter_infiniband_rdma_data_received_bytes_total

Counter

bytes

RDMA 入方向流量。

mlp_rdma_exporter_infiniband_rdma_data_transmitted_bytes_total

Counter

bytes

RDMA 出方向流量。

mlp_rdma_exporter_infiniband_rdma_packets_received_total

Counter

packets

RDMA 入方向包数量。

mlp_rdma_exporter_infiniband_rdma_packets_transmitted_total

Counter

packets

RDMA 出方向包数量。

mlp_rdma_exporter_infiniband_rp_cnp_handled_total

Counter

入方向采集周期内网卡处理的 CNP 报文数量。需要降低发送频率。

mlp_rdma_exporter_infiniband_rp_cnp_ignored_total

Counter

入方向采集周期内网卡忽略的 CNP 报文数量。该指标不应该增长。如果增长要查看网卡的拥塞控制配置是否正常,是否使能 ECN/CNP。

mlp_rdma_exporter_infiniband_rx_pause_duration_seconds

Counter

s

入方向 pause 时长。该指标一般指向网络拥塞,代表网卡作为发送端收到的 PFC 包, 意味着接收端处于严重拥塞,接收端要求网卡停止发送。

mlp_rdma_exporter_infiniband_tx_pause_duration_seconds

Counter

s

出方向 pause 时长。该指标一般指向主机异常,网卡发出 PFC 包,意味着网卡作为接收端处于严重拥塞,网卡要求发送端停止发送。

mlp_rdma_exporter_infiniband_rx_pause_total

Counter

入方向接收到的 PFC pause 报文数量。

mlp_rdma_exporter_infiniband_tx_pause_total

Counter

出方向发送的 PFC pause 报文数量。

mlp_node_exporter_infiniband_max_link_speed

Gauge

GT/s

RDMA 网卡 PCIE 的最大速率

mlp_node_exporter_infiniband_max_link_width

Gauge

RDMA 网卡 PCIE 的最大带宽

mlp_node_exporter_infiniband_current_link_speed

Gauge

GT/s

RDMA 网卡 PCIE 的当前速率

mlp_node_exporter_infiniband_current_link_width

Gauge

RDMA 网卡 PCIE 的当前带宽

mlp_node_exporter_nvidia_max_link_speed

Gauge

GT/s

Nvidida GPU PCIE 的最大速率

mlp_node_exporter_nvidia_max_link_width

Gauge

Nvidida GPU PCIE 的最大带宽

mlp_node_exporter_nvidia_current_link_speed

Gauge

GT/s

Nvidida GPU PCIE 的当前速率

mlp_node_exporter_nvidia_current_link_width

Gauge

Nvidida GPU PCIE 的当前带宽

mlp_node_exporter_infiniband_rate_bytes_per_second

Gauge

bytes/s

RDMA 网卡的最大速率

标签描述

公共标签

标签名

示例值

含义

device

mlx5_0

RDMA 设备名

pod

t-20240101120000-abcde-worker-0

使用 RDMA 的 pod id

namespace

mlplatform-customtask

所属的命名空间名称

DCGM常见指标

指标描述

指标

类型

单位

含义

DCGM_FI_DEV_SM_CLOCK

Gauge

MHz

SM时钟频率

DCGM_FI_DEV_MEM_CLOCK

Gauge

MHz

SM内存时钟频率

DCGM_FI_DEV_POWER_USAGE

Gauge

W

功率

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

Counter

mJ

能量消耗

DCGM_FI_DEV_PCIE_REPLAY_COUNTER

Counter

PCIe replay 次数

DCGM_FI_DEV_GPU_UTIL

Gauge

% (1-100)

单位时间内至少一个核函数处于Active的时间的百分比

DCGM_FI_DEV_MEM_COPY_UTIL

Gauge

% (1-100)

内存带宽利用率

DCGM_FI_DEV_ENC_UTIL

Gauge

% (1-100)

编码器利用率

DCGM_FI_DEV_DEC_UTIL

Gauge

% (1-100)

解码器利用率

DCGM_FI_DEV_XID_ERRORS

Gauge

上一次发生的 XID 错误的错误码

DCGM_FI_DEV_POWER_VIOLATION

Counter

μs

因功率上限而导致的违规的累积持续时间

DCGM_FI_DEV_THERMAL_VIOLATION

Counter

μs

因热限制导致的违规的累积持续时间

DCGM_FI_DEV_SYNC_BOOST_VIOLATION

Counter

μs

因同步提升限制而导致的违规的累积持续时间

DCGM_FI_DEV_BOARD_LIMIT_VIOLATION

Counter

μs

因电路板限制而导致的违规的累积持续时间

DCGM_FI_DEV_LOW_UTIL_VIOLATION

Counter

μs

因低利用率限制导致的违规的累积持续时间

DCGM_FI_DEV_RELIABILITY_VIOLATION

Counter

μs

因电路板可靠性限制导致违规的累积持续时间

DCGM_FI_DEV_FB_FREE

Gauge

MB

未使用的BAR1

DCGM_FI_DEV_FB_USED

Gauge

MB

已使用的BAR1

DCGM_FI_DEV_RETIRED_SBE

Counter

因单bit错误而停用的 page

DCGM_FI_DEV_RETIRED_DBE

Counter

因双bit错误而停用的 page

DCGM_FI_PROF_GR_ENGINE_ACTIVE

Gauge

占比(0-1)

在一个时间间隔内,Graphics或Compute引擎处于Active的时间占比

DCGM_FI_PROF_SM_ACTIVE

Gauge

占比(0-1)

在一个时间间隔内,至少一个线程束在一个SM 上处于Active的时间占比。统计的是所有 SM 的均值

DCGM_FI_PROF_SM_OCCUPANCY

Gauge

占比(0-1)

在一个时间间隔内,驻留在SM上的线程束与该SM最大可驻留线程束的比例。统计的是所有 SM 的均值

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

Gauge

占比(0-1)

单位时间内 Tensor Pipes 平均处于Active 状态的周期分数

DCGM_FI_PROF_DRAM_ACTIVE

Gauge

占比(0-1)

内存拷贝活跃周期分数(一个周期内有一次 DRAM 指令则该周期为 100%)

DCGM_FI_PROF_PIPE_FP64_ACTIVE

Gauge

占比(0-1)

单位时间内 F64 Pipes 平均处于Active 状态的周期分数

DCGM_FI_PROF_PIPE_FP32_ACTIVE

Gauge

占比(0-1)

单位时间内 F32 Pipes 平均处于Active 状态的周期分数

DCGM_FI_PROF_PIPE_FP16_ACTIVE

Gauge

占比(0-1)

单位时间内 F16 Pipes 平均处于Active 状态的周期分数

DCGM_FI_PROF_PCIE_TX_BYTES

Counter

B/s

通过 PCIe 总线传输的数据流量

DCGM_FI_PROF_PCIE_RX_BYTES

Counter

B/s

通过 PCIe 总线接收的数据流量

DCGM_FI_PROF_NVLINK_RX_BYTES

Counter

B/s

通过 NVLink 传输的数据流量

DCGM_FI_PROF_NVLINK_TX_BYTES

Counter

B/s

通过 NVLink 接收的数据流量

标签描述

公共标签

标签名

示例值

含义

Hostname

dcgm-exporter-abcde

指标源dcgm-exporter实例名称

UUID

GPU-000000000-0000-0000-0000-000000000000

GPU UUID标识符

container

mljob

使用GPU的容器名称

device

nvidia1

GPU设备名称

gpu

1

GPU编号

instance

t-20240101120000-abcde-worker-0

使用GPU的实例id

modelName

NVIDIA A10

GPU型号

namespace

mlplatform-customtask

实例所在Kubernetes命名空间

cAdvisor常见指标

指标描述

分类

指标

类型

单位

指标含义

CPU

container_cpu_load_average_10s

gauge

过去 10 秒容器 CPU 的平均负载

container_cpu_usage_seconds_total

counter

s

容器 CPU 累计使用量

container_cpu_system_seconds_total

counter

s

System CPU 累计占用时间

container_cpu_user_seconds_total

counter

s

User CPU 累计占用时间

内存

container_memory_max_usage_bytes

gauge

Byte

容器的最大内存使用量

container_memory_usage_bytes

gauge

Byte

容器当前的内存使用量,包括缓存等可释放的内存

container_memory_working_set_bytes

gauge

Byte

容器当前的内存使用量

container_spec_memory_limit_bytes

gauge

Byte

容器的内存使用量限制

machine_memory_bytes

gauge

Byte

当前主机的内存总量

标签描述

公共标签

标签名

示例值

含义

id

/kubepods/burstable/pod-id/container-name

容器的全局id标识

image

python:3.10

容器镜像的名称和版本标签

name

container-name

容器名称

namespace

mlplatform-service

所属命名空间名称

pod

s-20240101120000-abcde-abcde

容器所属 Pod id

job

kubernetes-cadvisor

固定的采集来源名称

资源组指标

指标描述

指标

类型

单位

含义

mlp_resourcegroup_info

Gauge

ResourceGroup 的元数据,取值永远为 1

mlp_resourcegroup_created_timestamp_seconds

Gauge

s

创建时间(UNIX 时间戳)

mlp_resourcegroup_resource_capacity

Gauge

ResourceGroup 资源的 ResourceCapability 字段,取值为具体 resource 的值,换算为 unit 中标注的单位

mlp_resourcegroup_flavor_capacity

Gauge

ResourceGroup 资源的 FlavorCapability 字段,描述资源组各规格的实例数量上限

mlp_resourcegroup_flavor_allocated

Gauge

ResourceGroup 资源的 FlavorAllocated 字段,描述资源组各规格的已分配实例数量

mlp_resourcegroup_volume_capacity

Gauge

GiB

ResourceGroup 资源的 VolumeCapability 字段,描述资源组各规格的云盘容量上限

mlp_resourcegroup_volume_allocated

Gauge

GiB

ResourceGroup 资源的 VolumeAllocated 字段,描述资源组各规格的已分配云盘容量

mlp_resourcegroup_expired_timestamp_seconds

Gauge

s

ResourceGroup 资源的 ExpiredTime 字段,取值为字段值转换为 Unix 时间戳

mlp_resourcegroup_state

Gauge

ResourceGroup 资源的 State 字段,取值逻辑是,如果当前状态是 state label 对应值,则取 1,否则取 0

标签描述

公共标签

标签名

示例值

标签含义

mlp_resource_group

r-20240101120000-abcde

资源组id

专有标签

指标

标签名

示例值

标签含义

mlp_resourcegroup_info

charge_type

PrePaid

资源组计费方式

mlp_resourcegroup_resource_capacity

resource

GPU

资源类型,可选值:VCPU,Memory,RDMA_ENI,GPU_Memory,GPU

gpu_type

NVIDIA A10

具体 GPU 型号(非 GPU 资源取空值)

unit

core

计量单位,可选值:core,GiB,count

mlp_resourcegroup_flavor_capacity

flavor

ml.g1ie.large

实例规格

availability_zone

cn-beijing-a

所在可用区

mlp_resourcegroup_flavor_allocated

flavor

ml.g1ie.large

实例规格

availability_zone

cn-beijing-a

所在可用区

mlp_resourcegroup_volume_capacity

flavor

ml.essd.pl1

云盘规格

availability_zone

cn-beijing-a

所在可用区

mlp_resourcegroup_volume_allocated

flavor

ml.essd.pl1

云盘规格

availability_zone

cn-beijing-a

所在可用区

mlp_resourcegroup_state

state

Running

资源组 State 字段的枚举值

队列指标

指标描述

指标

类型

单位

含义

mlp_resourcequeue_info

Gauge

队列的元数据。取值永远为 1。

mlp_resourcequeue_created_timestamp_seconds

Gauge

s

创建时间(UNIX 时间戳)

mlp_resourcequeue_quota_capacity

Gauge

ResourceQueue 资源的 QuotaCapability 字段,取值为具体 resource 的值,换算为 unit 中标注的单位

mlp_resourcequeue_quota_allocated

Gauge

ResourceQueue 资源的 QuotaAllocated 字段,取值为具体 resource 的值,换算为 unit 中标注的单位

mlp_resourcequeue_flavor_resources

Gauge

ResourceQueue 资源的 FlavorResources 字段,描述队列各规格的实例数量

mlp_resourcequeue_volume_capacity

Gauge

GiB

ResourceQueue 资源的 VolumeCapability 字段,描述队列各规格的云盘容量上限

mlp_resourcequeue_volume_allocated

Gauge

GiB

ResourceQueue 资源的 VolumeAllocated 字段,描述队列各规格的已分配云盘容量

mlp_resourcequeue_state

Gauge

ResourceQueue 资源的 State 字段,取值逻辑是,如果当前状态是 state label 对应值,则取 1,否则取 0

标签描述

公共标签

标签名

示例值

标签含义

mlp_resource_queue

q-20240101120000-abcde

队列id

专有标签

指标

标签名

示例值

标签含义

mlp_resourcequeue_info

mlp_resource_group

r-20240101120000-abcde

队列所属资源组的id

availability_zone

cn-beijing-a

所在可用区

charge_type

PrePaid

资源组计费方式

mlp_resourcequeue_quota_capacity

resource

GPU

资源类型,可选值:VCPU,Memory,RDMA_ENI,GPU_Memory,GPU

gpu_type

NVIDIA A10

具体 GPU 型号(非 GPU 资源取空值)

unit

core

计量单位,可选值:core,GiB,count

mlp_resourcequeue_quota_allocated

resource

GPU

资源类型,可选值:VCPU,Memory,RDMA_ENI,GPU_Memory,GPU

gpu_type

NVIDIA A10

具体 GPU 型号(非 GPU 资源取空值)

unit

core

计量单位,可选值:core,GiB,count

mlp_resourcequeue_flavor_resources

flavor

ml.g1ie.large

实例规格

mlp_resourcequeue_volume_capacity

flavor

ml.essd.pl1

云盘规格

mlp_resourcequeue_volume_allocated

flavor

ml.essd.pl1

云盘规格

mlp_resourcequeue_state

state

Running

队列 State 字段的枚举值

工作负载指标

指标描述

分类

指标

类型

单位

指标含义

自定义任务

mlp_customtask_info

Gauge

自定义任务元数据。取值永远为 1。

mlp_customtask_instance_info

Gauge

自定义任务实例元数据。取值永远为 1。

mlp_customtask_alias

Gauge

自定义任务名称。

mlp_customtask_tag

Gauge

自定义任务标签。

在线服务

mlp_service_info

Gauge

在线服务元数据。取值永远为 1。

mlp_deployment_info

Gauge

在线服务部署元数据。取值永远为 1。

mlp_deployment_instance_info

Gauge

在线服务实例元数据。取值永远为 1。

mlp_deployment_spec_replicas

Gauge

部署(多部署)的期望实例数

mlp_deployment_status_replicas

Gauge

部署(多部署)的实际实例数

mlp_deployment_status_replicas_available

Gauge

部署(多部署)的可用实例数

mlp_multirole_deployment_spec_replicas

Gauge

部署(多角色)的期望实例数

mlp_multirole_deployment_status_replicas

Gauge

部署(多角色)的实际实例数

mlp_multirole_deployment_status_replicas_available

Gauge

部署(多角色)的可用实例数

开发机

mlp_devinstance_info

Gauge

开发机元数据。取值永远为 1。

mlp_devinstance_alias

Gauge

开发机名称

实例

mlp_instance_pod_status_phase

Gauge

负载实例的Kubernetes Pod Phase状态

mlp_instance_pod_status_ready

Gauge

负载实例的Kubernetes Pod Ready状态

mlp_instance_created_timestamp_seconds

Gauge

s

实例的创建时间(UNIX 时间戳)

mlp_instance_resource_requests

Gauge

实例占用的逻辑资源

标签描述

分类

指标

标签名

标签含义

自定义任务

mlp_customtask_info

mlp_customtask

资源 ID

mlp_pipeline

所属流水线 ID

mlp_resource_group

任务所属资源组 ID

mlp_resource_queue

任务所属队列 ID

mlp_customtask_instance_info

mlp_customtask

实例所属任务 ID

namespace

实例所属 K8 namespace

pod

实例对应的 K8 Pod

role

实例角色

role_index

实例序号(按角色)

flavor

实例规格,如 ml.g1ie.large

mlp_pipeline

所属流水线 ID

mlp_resource_group

任务所属资源组 ID

mlp_resource_queue

任务所属队列 ID

availability_zone

所在可用区

mlp_customtask_alias

mlp_customtask

资源 ID

alias

资源名

mlp_customtask_tag

mlp_customtask

资源 ID

tag

资源标签

在线服务

mlp_service_info

mlp_service

资源 ID

type

服务类型,大写驼峰格式,如 General 或 Credible

mlp_deployment_info

mlp_deployment

资源 ID

mlp_service

部署所属的服务的 ID

mlp_role_name

角色名

type

部署类型,大写驼峰格式,如 Stable,Canary,和 Debug

mlp_resource_group

所属资源组 ID

mlp_resource_queue

所属队列 ID

availability_zone

所在可用区

mlp_deployment_instance_info

mlp_deployment

实例所属的部署的 ID

mlp_service

实例所属的服务的 ID

mlp_service_instance

实例 ID

role

实例角色

role_index

实例序号(按角色)

namespace

实例所属 K8 namespace

pod

实例对应的 K8 Pod

flavor

实例规格,如 ml.g1ie.large

mlp_resource_group

所属资源组 ID

mlp_resource_queue

所属队列 ID

availability_zone

所在可用区

开发机

mlp_devinstance_info

mlp_devinstance

开发机 ID

namespace

实例所属 K8 namespace

pod

实例对应的 K8 Pod

flavor

实例规格,如 ml.g1ie.large

mlp_resource_group

所属资源组 ID

mlp_resource_queue

所属队列 ID

availability_zone

所在可用区

mlp_devinstance_alias

mlp_devinstance

资源 ID

alias

资源名

实例

mlp_instance_pod_status_phase

pod

Pod 名

phase

Pod phase 的枚举值,包含 Failed,Pending,Running,Succeeded,Unknown,当前 phase 的指标值取 1 其他 phase 取 0

mlp_instance_pod_status_ready

pod

Pod 名

ready

Ready condition 的枚举值,包含True/False/Unknown,pod当前ready的状态取1,其他取0

mlp_instance_created_timestamp_seconds

pod

Pod 名

mlp_instance_resource_requests

pod

Pod 名

resource

可选值:VCPU,Memory,GPU

gpu_type

具体 GPU 型号(非 GPU 资源取空值)

unit

计量单位,可选值:core, GiB, count

mlp_instance_info

pod

Pod 名

mlp_resource_queue

实例所属队列ID

mlp_resource_group

实例所属资源组ID

在线服务

mlp_deployment_info

mlp_deployment

资源 ID

mlp_service

部署所属的服务的 ID

type

部署类型,大写驼峰格式,如 Stable,Canary,和 Debug

mlp_resource_group

所属资源组 ID

mlp_resource_queue

所属队列 ID

availability_zone

所在可用区

mlp_deployment_instance_info

mlp_role_name

角色名称