You need to enable JavaScript to run this app.
导航

有关 MLP 基础指标升级变更说明

最近更新时间2024.01.30 16:02:12

首次发布时间2024.01.30 16:02:12

升级概要
  • 支持开启新版本指标采集。新版本指标和老版本指标可以单独开启和关闭,互不干扰。

  • 新版本指标在 VMP 侧会计为 “云产品免费指标”,不再收费(老版本依然收费)。

  • 新版本指标包含老版原有的容器资源指标和 GPU 资源(DCGM)指标。

  • 平台 DCGM 指标版本从 2.2.9 升级至 3.1.8,修复了包括 DCGM_FI_PROF_SM_ACTIVE 异常归零等问题,以及支持了少量新指标。

  • 新版本指标采用新的标签规范,调整了一些标签的定义和位置。现在大部分元数据可以在 mlp_{{ resource }}_info 系列指标上查到。

变化细节
  • 支持开启新版本指标采集

    • 配置入口在【全局配置】>【监控】>【授权】。

    • 新旧版本可以分别开启或关闭,互不干扰。

    • 旧版本指标不再有功能迭代,后续会逐步下线,请合理安排迁移时间。

  • 新版本指标在 VMP 侧会计为 “云产品免费指标”,不再收费(老版本依然收费)。

  • GPU 资源(DCGM)指标变化

    • 变更把 DCGM 版本从原来的 2.2.9 升级至 3.1.8。新版本完整优化和修复可以参考 Nvidia 的 release note(https://docs.nvidia.com/datacenter/dcgm/latest/release-notes/changelog.html)。注意该变更的影响范围是全平台,新老版本指标均适用。

    • 表达 GPU 综合负载的关键指标 DCGM_FI_PROF_SM_ACTIVE 无规律归 0 问题,新版本得到修复

    • DCGM_FI_PROF_PIPE_FP32_ACTIVE 指标在老版本上同时统计 FP32 和 INT 两种负载,新版本按照预期只统计 FP32 负载。

      • 从 DCGM_FI_PROF_PIPE_FP32_ACTIVE 中移除的 INT 负载由 DCGM_FI_PROF_PIPE_INT_ACTIVE 表达,该指标仅在 H100 和更新的机型上支持,平台售卖的机型暂不支持。
    • 新增 DCGM_FI_PROF_SM_OCCUPANCY 指标,表达在一个时间间隔内,驻留在SM上的线程束与该SM最大可驻留线程束的比例。统计的是所有 SM 的均值,

    • 新增其他指标若干。后续版本中,重要的新指标均会在告警模板中推荐告警配置。

  • 指标标签规范化

    • 新增一系列 info 指标

      • mlp_customtask_info

      • mlp_customtask_instance_info

      • mlp_service_info

      • mlp_deployment_info

      • mlp_deployment_instance_info

      • mlp_devinstance_info

    • 实例维度指标的标签大规模删减,新版本只保留 namespacepod,删减掉的元数据可以在上述 info 类指标上找到。查询时,可以基于 namespacepod label,联合数据指标和 info 指标查询,例如

      # 查询某个队列下的所有实例的内存用量
      container_memory_working_set_bytes
        AND ON (namespace, pod)
        mlp_customtask_instance_info{mlp_resource_queue="q-20240101000000-a1b2c"}
      
后续规划
  • 新版本指标预期会支持 VMP 预置告警模板

  • 更多指标会在新版本上逐步放出