You need to enable JavaScript to run this app.
导航

HPC-单机&多机点对点RDMA网络性能测试

最近更新时间2023.12.07 17:10:25

首次发布时间2022.12.22 17:59:41

本文以Ubuntu 20.04的ecs.hpcpni2.28xlarge实例为例,介绍如何使用InfiniBand在单台实例内或两台实例间测试RDMA网络性能。

背景信息

HPC实例是在原有GPU实例的基础上,加入了RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。

InfiniBand是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。

检查RDMA网卡速率

  1. 登录Linux实例

  2. 执行以下命令,安装测试软件包。
    apt update && apt install -y infiniband-diags

  3. 使用 ibstatus 命令查看网卡速率,回显如下,表示有4张RDMA网卡,单张网卡速率为200 Gbps。
    alt

检查RDMA相关库

执行以下命令,检查是否已安装RDMA相关库及正确版本。火山引擎已为您默认安装,您无需重新安装。

dpkg -l perftest ibverbs-providers libibumad3 libibverbs1 libnl-3-200 libnl-route-3-200 librdmacm1

回显如下,表示已全部安装。
alt

单机测试

  1. 执行ib_write_bw -d mlx5_1 &命令,回显如下。

    alt

  2. 继续执行ib_write_bw -d mlx5_1 127.0.0.1 --report_gbits命令,回显如下,带宽值接近 200Gb/s。

    alt

多机测试

进行多机测试时,请确认两台实例已加入同一高性能计算集群。

  1. 在 A 实例中执行ib_write_bw -d mlx5_1 -x 3命令。
    alt

  2. 在 B 实例中输入如下命令,<MACHINE_A_HOST> 请替换为 A 实例的 RDMA 网卡 IP,本文以名为mlx5_1的RDMA网卡为例。

    ib_write_bw -d mlx5_1 -x 3 <MACHINE_A_HOST> --report_gbits

    回显如下,带宽值接近 200Gb/s。

    alt