You need to enable JavaScript to run this app.
导航

优化 GPU 时钟频率配置

最近更新时间2023.12.12 14:40:15

首次发布时间2023.12.11 18:59:43

本文主要介绍容器服务中集群 GPU 资源的时钟频率(Clock)相关配置指导。

适用场景

为获得 GPU 资源的最大性能,您可以根据实际业务情况设置 GPU 时钟频率,控制 GPU 功耗和发热,提升 GPU 运行稳定性。

前提条件

  • 已创建集群。详细操作,请参见 创建集群
  • 集群中存在 GPU 型(例如 GPU 计算型、高性能计算 GPU 型)节点资源。详细操作,请参见 创建节点池

配置命令

容器服务提供如下命令,支持您自定义配置 GPU 时钟频率。

  1. 登录 GPU 型节点。详细操作,请参见 ECS Terminal
  2. (可选)查看 GPU 时钟频率信息。
    nvidia-smi -q -d CLOCK
    
  3. 将 GPU 设置为最大时钟频率,即配置锁频,从而获得 GPU 资源的最大性能。
    nvidia-smi -pm 1
    MCLOCKS=`nvidia-smi -i 0 --query-gpu=clocks.max.mem --format=csv,noheader,nounits`
    GCLOCKS=`nvidia-smi -i 0 --query-gpu=clocks.max.gr --format=csv,noheader,nounits`
    nvidia-smi -ac $MCLOCKS,$GCLOCKS
    nvidia-smi -lgc $GCLOCKS
    
  4. 查看 GPU 时钟频率信息。
    nvidia-smi -q -d CLOCK
    
    返回信息中看到时钟频率被设为和 Max 值相同,表示已配置 GPU 锁频。
    alt
    您也可以在集群 Prometheus 监控看板中查看看 GPU 时钟频率。详细操作,请参见 GPU 监控
    alt