Ubuntu 23.10 性能模式因误报高温被禁用问题求助
Ubuntu 23.10 性能模式因误报高温被禁用问题求助
兄弟,我太懂你这种糟心的情况了——明明传感器显示所有硬件温度都远低于安全阈值,系统却硬弹出「Performance mode temporarily disabled due to high operating temperature」的提示,连屏幕休眠都跟着出问题,十有八九是系统更新搞乱了热管理相关的配置!结合你给出的详细系统信息,咱们一步步来排查修复:
先确认你的系统和温度数据(方便后续排查参考)
uname -a输出:Linux exbigboss-ubuntu 6.5.0-14-generic #14-Ubuntu SMP PREEMPT_DYNAMIC Tue Nov 14 14:59:49 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux
sensors输出:coretemp-isa-0000 Adapter: ISA adapter Package id 0: +28.0°C (high = +60.0°C, crit = +80.0°C) Core 0: +25.0°C (high = +60.0°C, crit = +80.0°C) Core 4: +25.0°C (high = +60.0°C, crit = +80.0°C) Core 8: +23.0°C (high = +60.0°C, crit = +80.0°C) Core 12: +22.0°C (high = +60.0°C, crit = +80.0°C) Core 16: +23.0°C (high = +60.0°C, crit = +80.0°C) Core 20: +22.0°C (high = +60.0°C, crit = +80.0°C) Core 24: +25.0°C (high = +60.0°C, crit = +80.0°C) Core 28: +25.0°C (high = +60.0°C, crit = +80.0°C) Core 36: +24.0°C (high = +60.0°C, crit = +80.0°C) Core 37: +24.0°C (high = +60.0°C, crit = +80.0°C) Core 38: +24.0°C (high = +60.0°C, crit = +80.0°C) Core 39: +24.0°C (high = +60.0°C, crit = +80.0°C) acpitz-acpi-0 Adapter: ACPI interface temp1: +27.8°C (crit = +85.0°C) iwlwifi_1-virtual-0 Adapter: Virtual device temp1: +35.0°C nvme-pci-0700 Adapter: PCI adapter Composite: +33.9°C (low = -5.2°C, high = +79.8°C) (crit = +84.8°C)
nvidia-smi输出:Sun Dec 31 07:12:21 2023 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.129.03 Driver Version: 535.129.03 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA GeForce RTX 3070 Off | 00000000:01:00.0 On | N/A | | 0% 43C P8 14W / 220W | 497MiB / 8192MiB | 8% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+
具体修复步骤
1. 重置系统热管理配置(最可能的原因)
系统更新很容易搞乱thermald的配置文件,咱们先恢复默认配置试试:
- 先备份当前配置以防万一:
sudo cp /etc/thermald/thermal-conf.xml /etc/thermald/thermal-conf.xml.bak - 恢复官方默认配置:
sudo cp /usr/share/thermald/thermal-conf.xml /etc/thermald/ - 重启热管理服务:
sudo systemctl restart thermald - 等待几分钟,看看还会不会弹出高温提示,同时测试屏幕休眠是否正常。
2. 检查并调整NVIDIA显卡的热策略
你的RTX3070驱动版本是535.129.03,有时候显卡的热管理会影响系统全局的性能模式判断:
- 先尝试更新到最新的稳定NVIDIA驱动:
重启系统后再观察问题是否消失。sudo ubuntu-drivers autoinstall - 如果不想更新驱动,也可以打开
nvidia-settings图形界面,找到「PowerMizer」或者「热设置」选项,确认显卡的高温阈值是否被误设成了很低的值(比如低于当前显示的43℃),如果是调回默认值即可。
3. 排查内核相关的热管理bug
你用的是6.5.0-14内核,这个版本可能存在小的热管理bug:
- 重启系统,在GRUB菜单选择「Advanced options for Ubuntu」,然后选一个更早的稳定内核(比如6.2系列)启动,看看问题是否消失。如果消失,说明是新内核的问题,你可以暂时用旧内核,等待Ubuntu推送内核更新修复。
- 也可以尝试临时禁用可能冲突的热管理模块(谨慎操作,测试完要恢复):
测试后如果要恢复,重启系统即可。# 查看加载的热管理模块 lsmod | grep thermal # 临时卸载模块(如果有thermal_sys的话) sudo rmmod thermal_sys
4. 修复屏幕休眠关联问题
既然屏幕休眠异常和性能模式有关,咱们重置电源配置试试:
- 执行命令重置GNOME电源配置(如果你用的是GNOME桌面):
dconf reset -f /org/gnome/settings-daemon/plugins/power/ - 重启系统后,重新打开「设置-电源」,手动配置屏幕休眠时间和挂起条件,再测试是否正常。
备注:内容来源于stack exchange,提问作者ExBigBoss




