You need to enable JavaScript to run this app.
导航

GPU A100/A800 多卡机型 RDMA 网络连通异常如何处理?

最近更新时间2023.06.14 12:05:16

首次发布时间2022.10.12 11:44:56

问题现象

如下图所示,搭载了多张 A100/A800 显卡的节点,多张显卡间的网络无法连通。

alt

原因分析

NVIDIA-Fabric Manager 服务能够保证多张支持 NVSwitch 的显卡(例如:A100、A800)间通过 NVSwitch 互联,确保网络正常连通。当节点中未能启动 NVIDIA-Fabric Manager 服务时,将导致多张支持 NVSwitch 的显卡间网络无法连通。

解决方案

创建节点池或节点扩容等新增节点场景,可将 NVIDIA-Fabric Manager 软件包内置到自定义镜像中;已有节点场景,可直接安装 NVIDIA-Fabric Manager 以解决此问题。

方案一:新增节点场景

  1. 提交工单申请自定义镜像 或自主打包自定义镜像,自主打包方法参见:基于 Docker 打包自定义镜像
  2. 选择已经打包的自定义镜像创建节点池或扩容节点。

方案二:已有节点场景

为 GPU 节点安装并启动与 GPU 驱动版本对应的 NVIDIA-Fabric Manager 软件包,详细介绍参见:安装 NVIDIA-Fabric Manager 软件包