You need to enable JavaScript to run this app.
导航
常见 Xid 事件的处理方法
最近更新时间:2023.06.14 11:31:33首次发布时间:2023.06.14 11:16:12

Xid 消息是 NVIDIA 驱动程序向操作系统的内核日志或事件日志打印的错误报告。Xid 消息表明发生了一般的 GPU 错误,通常是由于驱动程序错误地编程或者发送给 GPU 的命令被损坏所导致的。GPU 硬件、NVIDIA 软件或者用户应用程序出现问题时都有可能产生 Xid 消息。

常见的 Xid 事件

用户在机器学习平台使用 GPU 时,可以通过任务 / 服务详情页的监控面板查看一段时间内的 Xid 数量。不同 Xid 事件的含义不同,下文以 “用户是否可能自行解决” 为标准,将常见的 Xid 错误分成两类进行介绍,完整的 Xid 说明详见 NVIDIA 官方文档

尝试自行解决

当遇到下列 Xid 错误时建议依次按照如下步骤尝试解决:

  1. 尝试重新提交负载并观察 Xid 错误是否消失。

  2. 若错误仍有发生则尝试自检代码或分析日志,确认是否因用户代码导致的 Xid 错误。

  3. 若确认代码无误则联系机器学习平台客服人员处理。

Xid说明

13

Graphics Engine Exception。
通常是数组越界、指令错误,小概率是硬件问题。

31

GPU memory page fault。
通常是应用程序的非法地址访问,极小概率是驱动或者硬件问题。

43

GPU stopped processing。
通常是用户应用自身错误而非硬件问题。

45

Preemptive cleanup, due to previous errors -- Most likely to see when running multiple cuda applications and hitting a DBE。
通常是用户手动退出或者其他故障(硬件、资源限制等)导致 GPU 应用退出,Xid 45 只是一个结果,通常需要分析日志。

68

NVDEC0 Exception。
通常是硬件或驱动问题。

联系平台处理

当遇到下列 Xid 错误时建议直接联系机器学习平台客服人员处理:

Xid说明

32

Invalid or corrupted push buffer stream。
事件由 PCIE 总线上管理 NVIDIA 驱动和 GPU 之间通信的 DMA 控制器上报,通常是 PCI 质量问题导致,而非用户程序产生。

38

Driver firmware error。
通常是驱动固件错误而非硬件问题。

48

Double Bit ECC Error(DBE)。
当 GPU 发生不可纠正的错误时,会上报 Xid48 事件。该错误也会同时反馈给用户的应用程序。通常需要重置 GPU 或重启节点来清除这个错误。

61

Internal micro-controller breakpoint/warning。
GPU 内部引擎停止工作,客户业务已经受到影响。

62

Internal micro-controller halt。
与 Xid61 的触发场景类似。

63

ECC page retirement or row remapping recording event。
当应用程序遭遇到 GPU 显存硬件错误时,NVIDIA 自纠错机制会将错误的内存区域retire 或者 remap,retirement 和remapped 信息需要记录到 infoROM 中才能永久生效。
Volt 架构:记录 ECC page retirement 事件到 infoROM 成功。
Ampere 架构:记录 row remapping 事件到 infoROM 成功

64

ECC page retirement or row remapper recording failure。
与 Xid63 的触发场景类似,只是 Xid63 代表 retirement 和 remapped 信息成功记录到了 infoROM,Xid64 代表该记录操作失败。

74

NVLINK Error。
NVLink 硬件错误产生的 Xid,收到此事件说明 GPU 已经出现严重硬件故障,需要下线维修。

79

GPU has fallen off the bus。
GPU 硬件检测到掉卡,无法从总线上检测到,收到此事件说明 GPU 已经出现严重硬件故障,需要下线维修。

92

High single-bit ECC error rate。
硬件或驱动故障。

94

Contained ECC error。
当应用程序遭遇到 GPU 不可纠正的显存 ECC 错误时,NVIDIA 错误抑制机制会尝试将错误抑制在踩到硬件故障的应用程序,而不会让错误导致 GPU 上的所有应用程序受到影响。
当抑制机制成功抑制错误时,会产生Xid 94事件,仅影响遭遇了不可纠正 ECC 错误的应用程序。

95

Uncontained ECC error。
与 Xid94 的触发场景类似。只是 Xid94 代表抑制成功,而 Xid95 代表抑制失败,此时表明运行在该 GPU 上的所有应用程序都已受到影响。