You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

Debian 11.6系统不定期死机的诊断与排查方案求助

Debian 11.6系统不定期死机的诊断与排查方案求助

最近几个月我的台式机时不时会出现无征兆死机:屏幕内容包括鼠标直接卡死,键盘没法触发重启也切不到虚拟控制台,连SysRq序列都完全没用——唯一的办法就是按机箱上的按钮硬重启。

我平时主要用Debian 11.6,只有偶尔开Windows 11玩游戏,玩游戏的时候从没遇到过死机,但也有可能是我玩得太少了,没碰到触发条件。

奇怪的触发线索

  • 死机是今年夏天本地超40℃热浪的时候开始的,我一开始以为是过热问题,入秋后确实死机频率降下来了,但没彻底消失:之前一两天就犯一次,现在大概一周一次。
  • 死机经常发生在我看全屏视频的时候,有时候(不是每次)屏幕会蹦出类似随机数据乱入显存的彩色图案,所以我怀疑是显卡问题(我装了VDPAU,视频播放会用到硬件解码)。不过正常桌面办公、浏览的时候也会死机,不是只在看视频时发作。

我已经做过的诊断尝试

  • 每次死机重启后我都会查系统日志,但根本找不到相关的报错信息,最后几条日志往往是几分钟前的常规系统事件,大概率是死机前的最后日志没能写进去就挂了。
  • dd if=/dev/zero of=/dev/null做CPU负载测试,开了7个并行任务(我的CPU是4核超线程,总共8个虚拟核心),htop显示所有核心都跑满100%,但跑了10分钟左右也没触发死机。
  • 装了memtest86和memtest86+两款内存测试工具,从启动菜单运行测试,但两款工具都是刚启动1秒左右就直接死机,连错误提示都没有(附了死机后的屏幕照片)。

这里我有点困惑:这真的是内存坏了吗?我本来以为内存故障会弹出明确的错误提示的。而且我经常处理几十GB的大文件,从没遇到过文件损坏;偶尔做科学计算把内存占满也没死机过(倒是经常因为过度交换把系统搞瘫)。目前唯一能稳定快速触发死机的场景就是跑内存测试。

想请教的几个问题

  • 如果确实是内存问题,怎么找出到底哪一根内存坏了?还是说这种情况必须把四根全换掉?
  • 我看到不少类似的死机问题里有人说是电源故障,我一年半前因为旧电源坏了换了新的,本来想换同款但停产了,就换了个规格稍高的,换的时候还彻底清理了机箱内部。这会不会是死机的原因?
  • 从软件层面还有什么办法能更好地诊断这个问题?特别是怎么保存死机前的最后那几条日志?Debian 11用的是systemd日志,有没有办法把日志同步到另一台服务器,或者额外存一份到不会因为死机丢失的地方?

我的系统配置

  • 主板:ASUSTeK COMPUTER INC. P8Z77-M Rev 1.xx(SMBIOS 2.7)
  • BIOS:一开始是American Megatrends Inc. 版本1806,后来更到了2015年的最新版2203,但问题依旧
  • 电源:be quiet! Straight Power 11 750W ATX
  • CPU:Intel(R) Core(TM) i7-3770 CPU @ 3.40GHz(L3缓存8MiB,但似乎被禁用了,我完全没印象自己改过这个设置)
  • 芯片组:Intel Corporation 7 Series/C216 Chipset
  • 内存:4根Transcend JM1333KLN-8GK DDR3 1333MHz 4GB内存
  • 显卡:NVIDIA Corporation GP106 [GeForce GTX 1060 6GB] (rev a1)
  • 存储:SAMSUNG SSD 830 Series + WDC WD60EFRX,两块盘的SMART检测都没报错
  • 整机使用时长:大概10年,期间做过几次小升级(加内存、换了稍好的CPU、升级显卡),但这些升级都不是最近做的,应该和死机无关

后续补充的排查操作

  • 按照建议检查了内存模块:所有内存都插得很紧,触点也干净;重新插拔时发现有时候看似插到位了其实没卡紧,用力按下去就好了,但这种情况电脑根本开不了机,不会出现内存错误或者死机的情况。
  • 单根插内存跑测试:每一根单独插进去跑memtest,都能顺利通过,没报错也没死机。
  • 两根组合插内存跑测试:试了好几组(没测全6种组合),结果都是刚跑几秒内存测试就直接死机。
  • 尝试在BIOS里降低内存时钟,但系统提示“超频失败”,这个操作没成功。

备注:内容来源于stack exchange,提问作者A. Donda

火山引擎 最新活动