本文以Ubuntu 20.04的hpcpni2实例为例,介绍在LLaMA多机训练时如何配置RDMA网络,充分发挥GPU算力和RDMA高速网络性能。 背景信息LLaMA(Large Language Model Meta AI )是Meta于2023年2月推出的大型语言模型系统(Larg... 执行ip a命令检查是否可以看到eth0 ~ eth4共5张网卡,其中eth0为以太网卡,其它为RDMA网卡。 在两台实例上分别运行如下脚本启动训练,需注意: nnodes:设置为总的实例数量。 node_rank:node1上设置为0,node2上设置为1...