You need to enable JavaScript to run this app.
导航

使用A100显卡的训练进程异常中断,如何排查问题?

最近更新时间2023.01.16 15:19:17

首次发布时间2023.01.16 15:19:17

  1. 进入系统的syslogdmesg中查看在出错时间附近是否有“xid”错误,“xid”错误信息包含NVRM: Xid,例如“xid”错误值为63:

    [Mon Jan  9 13:49:48 2023] NVRM: Xid (PCI:0000:6b:01): 63, pid=4881, Row Remapper: New row marked for remapping, reset gpu to activate.
    

    说明

    • 如果“xid”为13,31,43,45,68的错误,通常GPU可以自行修复。
    • 如果出现其他“xid”错误,请提交工单处理,本文为您介绍如何手动修复“xid”为63的问题。
  2. 当出现以上“xid”错误63并提示“reset gpu”问题时,可以使用以下命令查看问题GPU.

    nvidia-smi -q | grep -Ei "ECC Errors|Correctable|Volatile|Aggregate|Remap|^GPU|Bit ECC|Retired Pages"
    

    例如下图GPU 6在remmap rows出现了不可修复的错误:
    alt

  3. 执行以下命令,查看nvidia-fabricmanager运行状态是否正常,回显Active: active (running)则表示正常。
    systemctl status nvidia-fabricmanager

  4. 执行nvidia-smi -r命令进行修复。