You need to enable JavaScript to run this app.
导航

DCGM 常见指标

最近更新时间2023.11.02 14:05:01

首次发布时间2022.12.12 15:45:24

NVIDIA DCGM 是用于管理和监控基于 Linux 系统的 NVIDIA GPU 大规模集群的一体化工具。本文介绍 DCGM 常见的查询指标。

利用率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_GPU_UTILGauge%GPU 利用率。
DCGM_FI_DEV_MEM_COPY_UTILGauge%GPU 内存带宽利用率。
DCGM_FI_DEV_ENC_UTILGauge%GPU 编码器利用率。
DCGM_FI_DEV_DEC_UTILGauge%GPU 解码器利用率。

内存

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_FB_FREEGaugeMiBGPU 帧缓存剩余量。
DCGM_FI_DEV_FB_USEDGaugeMiBGPU 帧缓存使用量。

说明

在 GPU 里,显卡内存(显存)也被称为帧缓存。

频率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_SM_CLOCKGaugeMHzGPU SM 时钟频率。
DCGM_FI_DEV_MEM_CLOCKGaugeMHzGPU 内存时钟频率。

剖析

指标名称指标类型指标单位指标含义
DCGM_FI_PROF_GR_ENGINE_ACTIVEGauge%在一个时间间隔内,Graphics 或 Compute 引擎处于 Active 的时间占比。
DCGM_FI_PROF_SM_ACTIVEGauge%在一个时间间隔内,至少一个线程束在一个 SM(Streaming Multiprocessor)上处于 Active 的时间占比。
该值统计的是所有 SM 的均值。
DCGM_FI_PROF_SM_OCCUPANCYGauge%在一个时间间隔内,驻留在 SM 上的线程束与该 SM 最大可驻留线程束的比例。
该值统计的是所有 SM 的均值。
DCGM_FI_PROF_PIPE_TENSOR_ACTIVEGauge%单位时间内 Tensor Pipes 平均处于 Active 状态的周期分数。
DCGM_FI_PROF_DRAM_ACTIVEGauge%内存拷贝活跃周期分数(一个周期内有一次 DRAM 指令则该周期为 100%)。
DCGM_FI_PROF_PIPE_FP64_ACTIVEGauge%单位时间内 F64 Pipes 平均处于 Active 状态的周期分数。
DCGM_FI_PROF_PIPE_FP32_ACTIVEGauge%单位时间内 F32 Pipes 平均处于 Active 状态的周期分数。
DCGM_FI_PROF_PIPE_FP16_ACTIVEGauge%单位时间内 F16 Pipes 平均处于 Active 状态的周期分数。
DCGM_FI_PROF_NVLINK_RX_BYTESCounterB/s通过 NVLink 接收的数据流量。
DCGM_FI_PROF_NVLINK_TX_BYTESCounterB/s通过 NVLink 传输的数据流量。
DCGM_FI_PROF_PCIE_RX_BYTESCounterB/s通过 PCIe 总线接收字节数。
DCGM_FI_PROF_PCIE_TX_BYTESCounterB/s通过 PCIe 总线传输字节数。
DCGM_FI_DEV_PCIE_REPLAY_COUNTERCounterGPU PCIe 总线的重试次数。
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTALCounter-GPU 所有通道的 NVLink 带宽计数器总数。

温度和功率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_GPU_TEMPGaugeGPU 当前温度。
DCGM_FI_DEV_MEMORY_TEMPGaugeGPU 显存当前温度。
DCGM_FI_DEV_POWER_USAGEGaugeWGPU 当前使用功率。
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTIONCountermJGPU 启动以来的总能耗。

XID 错误&违规

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_XID_ERRORSGauge-最近发生的错误代码。
DCGM_CUSTOM_XID_ERRORS_TOTAL_COUNTERCounter-发生错误代码总数。
DCGM_FI_DEV_POWER_VIOLATIONCounterμs因功率上限而导致违规的累积持续时间。
DCGM_FI_DEV_THERMAL_VIOLATIONCounterμs因热限制导致违规的累积持续时间。
DCGM_FI_DEV_SYNC_BOOST_VIOLATIONCounterμs因同步提升限制而导致违规的累积持续时间。
DCGM_FI_DEV_BOARD_LIMIT_VIOLATIONCounterμs因电路板限制而导致违规的累积持续时间。
DCGM_FI_DEV_LOW_UTIL_VIOLATIONCounterμs因低利用率限制导致违规的累积持续时间。
DCGM_FI_DEV_RELIABILITY_VIOLATIONCounterμs因电路板可靠性限制导致违规的累积持续时间。

停用的内存页面

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_RETIRED_SBECounter因单 bit 错误而停用的内存页面。
DCGM_FI_DEV_RETIRED_DBECounter因双 bit 错误而停用的内存页面。

其他

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_VGPU_LICENSE_STATUSGauge-vGPU 许可证状态。
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWSCounter-因无法纠正的错误而重新映射的行数。
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWSCounter-因可纠正的错误而重新映射的行数。
DCGM_FI_DEV_ROW_REMAP_FAILUREGauge-重新映射行是否失败。

说明

DCGM 其他指标详情,请参见 DCGM 官方文档