最近更新时间:2024.01.30 10:58:46
首次发布时间:2023.11.28 19:44:03
本文主要描述 VCI 支持的 GPU 监控指标以及指标获取方法。
VCI GPU 监控使用的 GPU Exporter 兼容开源 DCGM Exporter 提供的监控指标。更多 DCGM Exporter 相关信息,请参见 DCGM 常见指标。
VCI 实例默认会通过 1025 端口对外暴露监控数据,通过如下命令可获取 VCI GPU 监控指标:
curl http://<pod-ip>:1025/metrics
其中变量<pod-ip>
替换为实际的 VCI 实例 IP(Pod IP)。完整命令示例如下所示:
curl http://10.16.**.**:1025/metrics
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_SM_CLOCK | Gauge | MHz | GPU 流式多处理器时钟频率。 |
DCGM_FI_DEV_MEM_CLOCK | Gauge | MHz | GPU 内存时钟频率。 |
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_FB_FREE | Gauge | MiB | GPU 帧缓存剩余量。 |
DCGM_FI_DEV_FB_USED | Gauge | MiB | GPU 帧缓存使用量。 |
说明
在 GPU 里,显卡内存(显存)也被称为帧缓存。
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_GPU_TEMP | Gauge | ℃ | GPU 当前温度。 |
DCGM_FI_DEV_MEMORY_TEMP | Gauge | ℃ | GPU 显存当前温度。 |
DCGM_FI_DEV_POWER_USAGE | Gauge | W | GPU 当前使用功率。 |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | Counter | mJ | 从上一次加载驱动以来 GPU 的总能耗。 |
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_GPU_UTIL | Gauge | % | GPU 利用率。 |
DCGM_FI_DEV_MEM_COPY_UTIL | Gauge | % | GPU 内存带宽利用率。 |
DCGM_FI_DEV_ENC_UTIL | Gauge | % | GPU 编码器利用率。 |
DCGM_FI_DEV_DEC_UTIL | Gauge | % | GPU 解码器利用率。 |
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_XID_ERRORS | Gauge | - | 最后发生的 XID 错误号。 |
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_PROF_PCIE_RX_BYTES | Counter | B/s | 通过 PCIe 总线接收的字节数。 |
DCGM_FI_PROF_PCIE_TX_BYTES | Counter | B/s | 通过 PCIe 总线传输的字节数。 |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER | Counter | 次 | GPU PCIe 总线的重试次数。 |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL | Counter | - | GPU 所有通道的 NVLink 带宽计数器总数。 |
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_VGPU_LICENSE_STATUS | Gauge | - | vGPU 许可证状态。 |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS | Counter | - | 因无法纠正的错误而重新映射的行数。 |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS | Counter | - | 因可纠正的错误而重新映射的行数。 |
DCGM_FI_DEV_ROW_REMAP_FAILURE | Gauge | - | 重新映射行是否失败。 |
DCGM_FI_DRIVER_VERSION | Label | - | GPU 的驱动版本。 |