You need to enable JavaScript to run this app.
导航

VCI GPU 监控指标

最近更新时间2024.01.30 10:58:46

首次发布时间2023.11.28 19:44:03

本文主要描述 VCI 支持的 GPU 监控指标以及指标获取方法。

指标说明

VCI GPU 监控使用的 GPU Exporter 兼容开源 DCGM Exporter 提供的监控指标。更多 DCGM Exporter 相关信息,请参见 DCGM 常见指标

指标获取方式

VCI 实例默认会通过 1025 端口对外暴露监控数据,通过如下命令可获取 VCI GPU 监控指标:

curl http://<pod-ip>:1025/metrics

其中变量<pod-ip>替换为实际的 VCI 实例 IP(Pod IP)。完整命令示例如下所示:

curl http://10.16.**.**:1025/metrics

DCGM 支持的指标

频率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_SM_CLOCKGaugeMHzGPU 流式多处理器时钟频率。
DCGM_FI_DEV_MEM_CLOCKGaugeMHzGPU 内存时钟频率。

内存

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_FB_FREEGaugeMiBGPU 帧缓存剩余量。
DCGM_FI_DEV_FB_USEDGaugeMiBGPU 帧缓存使用量。

说明

在 GPU 里,显卡内存(显存)也被称为帧缓存。

温度和功率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_GPU_TEMPGaugeGPU 当前温度。
DCGM_FI_DEV_MEMORY_TEMPGaugeGPU 显存当前温度。
DCGM_FI_DEV_POWER_USAGEGaugeWGPU 当前使用功率。
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTIONCountermJ从上一次加载驱动以来 GPU 的总能耗。

利用率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_GPU_UTILGauge%GPU 利用率。
DCGM_FI_DEV_MEM_COPY_UTILGauge%GPU 内存带宽利用率。
DCGM_FI_DEV_ENC_UTILGauge%GPU 编码器利用率。
DCGM_FI_DEV_DEC_UTILGauge%GPU 解码器利用率。

XID 错误&违规

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_XID_ERRORSGauge-最后发生的 XID 错误号。

剖析

指标名称指标类型指标单位指标含义
DCGM_FI_PROF_PCIE_RX_BYTESCounterB/s通过 PCIe 总线接收的字节数。
DCGM_FI_PROF_PCIE_TX_BYTESCounterB/s通过 PCIe 总线传输的字节数。
DCGM_FI_DEV_PCIE_REPLAY_COUNTERCounterGPU PCIe 总线的重试次数。
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTALCounter-GPU 所有通道的 NVLink 带宽计数器总数。

其他

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_VGPU_LICENSE_STATUSGauge-vGPU 许可证状态。
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWSCounter-因无法纠正的错误而重新映射的行数。
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWSCounter-因可纠正的错误而重新映射的行数。
DCGM_FI_DEV_ROW_REMAP_FAILUREGauge-重新映射行是否失败。
DCGM_FI_DRIVER_VERSIONLabel-GPU 的驱动版本。