DCGM_FI_PROF_PIPE_FP32_ACTIVE 指标在老版本上同时统计 FP32 和 INT 两种负载,新版本按照预期只统计 FP32 负载。
从 DCGM_FI_PROF_PIPE_FP32_ACTIVE 中移除的 INT 负载由 DCGM_FI_PROF_PIPE_INT_ACTIVE 表达,该指标仅在 H100 和更新的机型上支持,平台售卖的机型暂不支持。
新增 DCGM_FI_PROF_SM_OCCUPANCY 指标,表达在一个时间间隔内,驻留在SM上的线程束与该SM最大可驻留线程束的比例。统计的是所有 SM 的均值,
新增其他指标若干。后续版本中,重要的新指标均会在告警模板中推荐告警配置。
指标标签规范化
新增一系列 info 指标
mlp_customtask_info
mlp_customtask_instance_info
mlp_service_info
mlp_deployment_info
mlp_deployment_instance_info
mlp_devinstance_info
实例维度指标的标签大规模删减,新版本只保留 namespace 和 pod,删减掉的元数据可以在上述 info 类指标上找到。查询时,可以基于 namespace 和 pod label,联合数据指标和 info 指标查询,例如
# 查询某个队列下的所有实例的内存用量
container_memory_working_set_bytes
AND ON (namespace, pod)
mlp_customtask_instance_info{mlp_resource_queue="q-20240101000000-a1b2c"}