## 如何判断和处理硬件相关故障？ GPU实例相比普通云服务器实例，增加了较多的外设，包括GPU、RDMA网络直通网卡、本地盘等。因此，除普通云服务器可能发生的常见问题外，还有如GPU、直通网卡以及PCIe链路上发生的亚健康或故障。针对GPU实例的常见故障和处理建议具体如[图1](#.5Zu-MS3luLjop4HmlYXpmpzlj4rlpITnkIblu7rorq4=)所示。 ### 图1 常见故障及处理建议 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_5d5b67b05c21d4231745e53d85708505.png =849x) ### 图2 故障处理流程 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_9fbab9baca636c25dad5b166c5de7a84.png =300x) GPU亚健康或故障处理流程如图2所示，以下重点介绍亚健康现象的处理流程。 > 除亚健康外的其它故障现象，您可以通过[工单系统](https://console.volcengine.com/workorder/create/)直接发起故障单或等待系统自动监控到异常情况从而自动发起故障单进行处理。 1. 当发生“监控异常事件通知”、“业务中断实例异常”情况时，需要分析是否为亚健康现象（参考[图1](#.5Zu-MS3luLjop4HmlYXpmpzlj4rlpITnkIblu7rorq4=)）。 * 若是，请[重启实例](https://www.volcengine.com/docs/6396/67753)或[重置GPU](https://www.volcengine.com/docs/6419/974898)，具体请参见[图1](#.5Zu-MS3luLjop4HmlYXpmpzlj4rlpITnkIblu7rorq4=)的“亚健康处理”栏。 * 若不是，则为故障，请发起Oncall或提交工单处理。 2. 查看亚健康现象是否恢复。 * 未恢复，发起Oncall或提交工单处理。 * 已恢复，处理完毕。 ## 常见问题列表 |故障类型（见[图1](#.5Zu-MS3luLjop4HmlYXpmpzlj4rlpITnkIblu7rorq4=)） |相关文档 | |---|---| |掉卡故障 |[如何查看GPU是否掉卡？](https://www.volcengine.com/docs/6419/1115088#%E5%A6%82%E4%BD%95%E6%9F%A5%E7%9C%8Bgpu%E6%98%AF%E5%90%A6%E6%8E%89%E5%8D%A1%EF%BC%9F) | |链路故障 |[如何查看带宽/链路是否正常？](https://www.volcengine.com/docs/6419/1115088#%E5%A6%82%E4%BD%95%E6%9F%A5%E7%9C%8B%E5%B8%A6%E5%AE%BD-%E9%93%BE%E8%B7%AF%E6%98%AF%E5%90%A6%E6%AD%A3%E5%B8%B8%EF%BC%9F) | |内存故障 |[如何判断GPU实例是否为Ampere架构？](https://www.volcengine.com/docs/6419/1115088#%E5%A6%82%E4%BD%95%E5%88%A4%E6%96%ADgpu%E5%AE%9E%E4%BE%8B%E6%98%AF%E5%90%A6%E4%B8%BAampere%E6%9E%B6%E6%9E%84%EF%BC%9F) | |^^|[如何查看Remapped Rows相关指标（仅Ampere架构）？](https://www.volcengine.com/docs/6419/1115088#%E5%A6%82%E4%BD%95%E6%9F%A5%E7%9C%8Bremapped-rows%E7%9B%B8%E5%85%B3%E6%8C%87%E6%A0%87%EF%BC%88%E4%BB%85ampere%E6%9E%B6%E6%9E%84%EF%BC%89%EF%BC%9F) | |^^|[如何查看Retired Pages相关指标（除Ampere外的其它架构）？](https://www.volcengine.com/docs/6419/1115088#%E5%A6%82%E4%BD%95%E6%9F%A5%E7%9C%8Bretired-pages%E7%9B%B8%E5%85%B3%E6%8C%87%E6%A0%87%EF%BC%88%E9%99%A4ampere%E5%A4%96%E7%9A%84%E5%85%B6%E5%AE%83%E6%9E%B6%E6%9E%84%EF%BC%89%EF%BC%9F) | |\- |[如何查看Xid信息？](https://www.volcengine.com/docs/6419/1115088#%E5%A6%82%E4%BD%95%E6%9F%A5%E7%9C%8Bxid%E4%BF%A1%E6%81%AF%EF%BC%9F) | |\- |[如何收集NVIDIA日志？](https://www.volcengine.com/docs/6419/1115088#%E5%A6%82%E4%BD%95%E6%94%B6%E9%9B%86nvidia%E6%97%A5%E5%BF%97%EF%BC%9F) | ### 如何查看GPU是否掉卡？ * **方式一** 1. [登录实例](https://www.volcengine.com/docs/6396/81032)。 2. 执行如下命令，若回显结尾为（rev ff），表明GPU识别异常。 `lspci | grep -i nvidia` ```Plain Text # lspci | grep -i nvidia 31:00.0 3D controller: NVIDIA Corporation Device 2236 (rev a1) 65:00.0 3D controller: NVIDIA Corporation Device 2236 (rev a1) 98:00.0 3D controller: NVIDIA Corporation Device 2236 (rev a1) e3:00.0 3D controller: NVIDIA Corporation Device 2236 (rev ff) ``` 3. 执行如下命令查看GPU卡数量，如下图，查询的是4卡规格，丢失1张。 `nvidia-smi` ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_ccb4c2e7ec2fcda74451974c188f4bd1.jpg =600x) * **方式二** 1. [登录实例](https://www.volcengine.com/docs/6396/81032)。 2. 执行如下命令查看系统日志。 `cat /var/log/kern.log | grep -i xid` 回显如下，表明GPU卡丢失。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_35c3b444c3266366ff5deeb8c969594d.jpg =600x) ### 如何查看带宽/链路是否正常？ * **方式一：Lspci带宽检测** 1. [登录实例](https://www.volcengine.com/docs/6396/81032)。 2. 执行如下命令。 `lspci -vvd 10de: | grep -i "Lnkcap:\|Lnksta:"` 回显如下，其中Lnkcap为额定带宽，Lnksta为当前带宽，两者一致则表明带宽/链路未发生异常。 ```Plain Text # lspci -vvd 10de: | grep -i Lnkcap: LnkCap: Port #0, Speed 8GT/s, Width x16, ASPM not supported LnkCap: Port #4, Speed 8GT/s, Width x16, ASPM not supported LnkCap: Port #16, Speed 8GT/s, Width x16, ASPM not supported LnkCap: Port #20, Speed 8GT/s, Width x16, ASPM not supported # lspci -vvd 10de: | grep -i Lnksta: LnkSta: Speed 2.5GT/s (downgraded), Width x16 (ok) LnkSta: Speed 2.5GT/s (downgraded), Width x16 (ok) LnkSta: Speed 2.5GT/s (downgraded), Width x16 (ok) LnkSta: Speed 2.5GT/s (downgraded), Width x16 (ok) ``` * **方式二：Nvidia\-smi检查** 1. [登录实例](https://www.volcengine.com/docs/6396/81032)。 2. 执行如下命令。 `nvidia-smi -q | grep -i -A 2 'Link width'` 回显如下，Max和Current的值保持一致，表明带宽/链路未发生异常。 ```Plain Text # nvidia-smi -q | grep -i -A 2 'Link width' Link Width Max : 16x Current : 16x -- Link Width Max : 16x Current : 16x -- Link Width Max : 16x Current : 16x -- Link Width Max : 16x Current : 16x ``` ### 如何判断GPU实例是否为Ampere架构？根据GPU显卡判断架构类型，具体如下表所示。 |架构类型 |GPU卡 |实例规格 | |---|---|---| |Ampere 架构 |A100 |不同规格挂载的GPU卡不同，具体请参见[实例规格清单](https://www.volcengine.com/docs/6419/68537)。 | |^^|A800 |^^| |^^|A30 |^^| |^^|A10 |^^| |Volt 架构 |V100 |^^| |Turing 架构 |T4 |^^| ### 如何查看Remapped Rows相关指标（仅Ampere架构）？ Remapped Rows是NVIDIA Ampere架构新增的一种硬件机制，用于提高GPU上帧缓冲存储器的可靠性，GPU检测到内存错误时，会尝试重新映射到GPU设备内存行，当一行被重新映射时，NVIDIA驱动程序会将错误的行重新映射到保留行，后续对该行的所有访问都将访问保留行而不是错误行。您可以通过以下操作查看Remapped Rows相关指标： 1. [登录实例](https://www.volcengine.com/docs/6396/81032)。 2. 执行如下命令。 `nvidia-smi -q -d ECC,ROW_REMAPPER` 正常返回如下图所示。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_5d6ae4f934fe509ebd03245aeef9f8cf.png =600x) > * 如果Pending指标为YES，表示当前发生行重映射，需要重启实例。 > * 如果Remapping Failure Occurred指标为YES，表示当前行重映射发生异常，主机需要下线检修。 > * 如果Bank Remap Availability Histogram指标的Low/None值 \> 0，表示可用的重映射保留行不足，主机需要下线检修。 ### 如何查看Retired Pages相关指标（除Ampere外的其它架构）？当发生Double Bit ECC错误或多个Single Bit ECC错误时，可能会淘汰GPU设备内存页面。当页面被淘汰时，NVIDIA驱动程序会将其隐藏，这样任何驱动程序或应用程序内存分配都无法访问该页面。 > ECC：Error Correcting Code，错误检查和纠正技术。您可以通过以下操作查看Retired Pages相关指标： 1. [登录实例](https://www.volcengine.com/docs/6396/81032)。 2. 执行如下命令。 `nvidia-smi -q -d ECC,PAGE_RETIREMENT` 正常返回如下图所示。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_d934eccced9f49a1061fb2a48d53bfad.png =600x) > * 如果Pending Page Blacklist指标为YES，需要重启实例。 > * Single Bit ECC错误淘汰的内存页数超过60或者Double Bit ECC错误淘汰的内存页数超过5（见[图1](https://www.volcengine.com/docs/6419/1115088#%E5%9B%BE1-%E5%B8%B8%E8%A7%81%E6%95%85%E9%9A%9C%E5%8F%8A%E5%A4%84%E7%90%86%E5%BB%BA%E8%AE%AE)），需要下线检修物理机。 ### 如何查看XID信息？ 1. [登录实例](https://www.volcengine.com/docs/6396/81032)。 2. 执行如下命令。 ```Bash cat /var/log/messages | grep "Xid (PCI" cat /var/log/kern.log | grep "Xid (PCI" ``` 结果如下图所示。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_93fc78005749205da81bdbbb51f0a76f.jpg =415x) 若检查到GPU节点存在XID错误信息，可根据XID错误代码对应的处理建议进行处理，详情请参见[常见XID处理方法](https://www.volcengine.com/docs/6419/1928467#Rtznt7dq)。 ### 如何收集NVIDIA日志？ #### 虚拟机场景 1. [登录实例](https://www.volcengine.com/docs/6396/81032)。 2. 执行如下命令。 ```JSON sudo nvidia-bug-report.sh ``` 收集到的文件如下图所示。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_dd54345e90d81deab99f7e9e48d5a435.jpg =429x) **`nvidia-bug-report.sh`**脚本会自动收集系统内核日志、NVIDIA驱动日志等调试信息，生成压缩文件`nvidia-bug-report.log.gz`。 > 在提工单时可附上此文件。 **`nvidia-bug-report.sh`**通常能快速完成执行。 * 若运行缓慢，预留最长一小时等待时间。 * 若命令出现卡死现象，可通过附加参数方式以安全模式收集替代日志，规避卡死风险。 ```Bash nvidia-bug-report.sh --safe-mode --extra-system-data ``` #### **VKE场景** 1. [登录实例](https://www.volcengine.com/docs/6396/81032)。 2. 执行如下命令获取日志下载链接 ```Bash curl -s https://diagnose-beijing.tos-cn-beijing.ivolces.com/cmds/diagnose.sh | bash ``` 结果如下图所示。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_128844c365fe8ab45a09d7032d697b23.jpg =458x) 3. 执行上面生成的wget命令获取日志文件。

GPU云服务器