最近更新时间:2023.04.27 11:00:37
首次发布时间:2022.12.12 15:45:24
NVIDIA DCGM 是用于管理和监控基于 Linux 系统的 NVIDIA GPU 大规模集群的一体化工具。本文介绍 DCGM 常见的查询指标。
指标分类 | 指标名称 | 指标类型 | 指标含义 |
---|---|---|---|
利用率 | DCGM_FI_DEV_GPU_UTIL | Gauge | GPU 利用率(单位:%) |
DCGM_FI_DEV_MEM_COPY_UTIL | Gauge | GPU 内存带宽利用率(单位:%) | |
DCGM_FI_DEV_ENC_UTIL | Gauge | GPU 编码器利用率(单位:%) | |
DCGM_FI_DEV_DEC_UTIL | Gauge | GPU 解码器利用率(单位:%) | |
显存 | DCGM_FI_DEV_FB_FREE | Gauge | GPU 帧缓存剩余量(单位:MiB) |
DCGM_FI_DEV_FB_USED | Gauge | GPU 帧缓存使用量(单位:MiB) | |
温度和功率 | DCGM_FI_DEV_GPU_TEMP | Gauge | GPU 当前温度(单位:℃) |
DCGM_FI_DEV_MEMORY_TEMP | Gauge | 显存当前温度(单位:℃) | |
DCGM_FI_DEV_POWER_USAGE | Gauge | GPU 当前使用功率(单位:W) | |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | Counter | GPU 启动以来的总能耗(单位:mJ) | |
其他 | DCGM_FI_DEV_SM_CLOCK | Gauge | GPU SM 时钟(单位:MHZ) |
DCGM_FI_DEV_VGPU_LICENSE_STATUS | Gauge | vGPU 许可证状态 | |
DCGM_FI_PROF_PCIE_RX_BYTES | Gauge | GPU PCIE 接收字节总数(单位:字节) | |
DCGM_FI_PROF_PCIE_TX_BYTES | Gauge | GPU PCIE 发送字节总数(单位:字节) | |
DCGM_FI_DEV_MEM_CLOCK | Gauge | GPU 内存时钟(单位:MHZ) | |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL | Gauge | GPU 所有通道的 NVLink 带宽计数器总数 | |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER | Gauge | GPU PCIE 重试次数 |
说明
DCGM 其他指标详情,请参见 DCGM 官方文档。