You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

Ubuntu 23.10 性能模式因误报高温被禁用问题求助

Ubuntu 23.10 性能模式因误报高温被禁用问题求助

兄弟,我太懂你这种糟心的情况了——明明传感器显示所有硬件温度都远低于安全阈值,系统却硬弹出「Performance mode temporarily disabled due to high operating temperature」的提示,连屏幕休眠都跟着出问题,十有八九是系统更新搞乱了热管理相关的配置!结合你给出的详细系统信息,咱们一步步来排查修复:

先确认你的系统和温度数据(方便后续排查参考)

uname -a输出:

Linux exbigboss-ubuntu 6.5.0-14-generic #14-Ubuntu SMP PREEMPT_DYNAMIC Tue Nov 14 14:59:49 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux

sensors输出:

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +28.0°C  (high = +60.0°C, crit = +80.0°C)
Core 0:        +25.0°C  (high = +60.0°C, crit = +80.0°C)
Core 4:        +25.0°C  (high = +60.0°C, crit = +80.0°C)
Core 8:        +23.0°C  (high = +60.0°C, crit = +80.0°C)
Core 12:       +22.0°C  (high = +60.0°C, crit = +80.0°C)
Core 16:       +23.0°C  (high = +60.0°C, crit = +80.0°C)
Core 20:       +22.0°C  (high = +60.0°C, crit = +80.0°C)
Core 24:       +25.0°C  (high = +60.0°C, crit = +80.0°C)
Core 28:       +25.0°C  (high = +60.0°C, crit = +80.0°C)
Core 36:       +24.0°C  (high = +60.0°C, crit = +80.0°C)
Core 37:       +24.0°C  (high = +60.0°C, crit = +80.0°C)
Core 38:       +24.0°C  (high = +60.0°C, crit = +80.0°C)
Core 39:       +24.0°C  (high = +60.0°C, crit = +80.0°C)

acpitz-acpi-0
Adapter: ACPI interface
temp1:        +27.8°C  (crit = +85.0°C)

iwlwifi_1-virtual-0
Adapter: Virtual device
temp1:        +35.0°C

nvme-pci-0700
Adapter: PCI adapter
Composite:    +33.9°C  (low  =  -5.2°C, high = +79.8°C)
(crit = +84.8°C)

nvidia-smi输出:

Sun Dec 31 07:12:21 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03             Driver Version: 535.129.03   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3070        Off | 00000000:01:00.0  On |                  N/A |
|  0%   43C    P8              14W / 220W |    497MiB /  8192MiB |      8%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

具体修复步骤

1. 重置系统热管理配置(最可能的原因)

系统更新很容易搞乱thermald的配置文件,咱们先恢复默认配置试试:

  • 先备份当前配置以防万一:
    sudo cp /etc/thermald/thermal-conf.xml /etc/thermald/thermal-conf.xml.bak
    
  • 恢复官方默认配置:
    sudo cp /usr/share/thermald/thermal-conf.xml /etc/thermald/
    
  • 重启热管理服务:
    sudo systemctl restart thermald
    
  • 等待几分钟,看看还会不会弹出高温提示,同时测试屏幕休眠是否正常。

2. 检查并调整NVIDIA显卡的热策略

你的RTX3070驱动版本是535.129.03,有时候显卡的热管理会影响系统全局的性能模式判断:

  • 先尝试更新到最新的稳定NVIDIA驱动:
    sudo ubuntu-drivers autoinstall
    
    重启系统后再观察问题是否消失。
  • 如果不想更新驱动,也可以打开nvidia-settings图形界面,找到「PowerMizer」或者「热设置」选项,确认显卡的高温阈值是否被误设成了很低的值(比如低于当前显示的43℃),如果是调回默认值即可。

3. 排查内核相关的热管理bug

你用的是6.5.0-14内核,这个版本可能存在小的热管理bug:

  • 重启系统,在GRUB菜单选择「Advanced options for Ubuntu」,然后选一个更早的稳定内核(比如6.2系列)启动,看看问题是否消失。如果消失,说明是新内核的问题,你可以暂时用旧内核,等待Ubuntu推送内核更新修复。
  • 也可以尝试临时禁用可能冲突的热管理模块(谨慎操作,测试完要恢复):
    # 查看加载的热管理模块
    lsmod | grep thermal
    # 临时卸载模块(如果有thermal_sys的话)
    sudo rmmod thermal_sys
    
    测试后如果要恢复,重启系统即可。

4. 修复屏幕休眠关联问题

既然屏幕休眠异常和性能模式有关,咱们重置电源配置试试:

  • 执行命令重置GNOME电源配置(如果你用的是GNOME桌面):
    dconf reset -f /org/gnome/settings-daemon/plugins/power/
    
  • 重启系统后,重新打开「设置-电源」,手动配置屏幕休眠时间和挂起条件,再测试是否正常。

备注:内容来源于stack exchange,提问作者ExBigBoss

火山引擎 最新活动