You need to enable JavaScript to run this app.
导航

支持通过openAPI查询HPCGPU实例的RDMA网络交换机信息

最近更新时间2023.07.10 19:27:48

首次发布时间2023.07.10 19:27:48

功能简介
可以通过openAPI查询高性能计算GPU型实例所在物理位置的RDMA网络交换机信息,以此进行训练任务调度和排序,提高通信效率和训练性能。

适用场景
在大模型训练场景通常会采用几百卡甚至几千卡共同进行一个大模型训练任务,往往会涉及多种并行方式,如Data Parallelism、Tensor Parallelism和Pipeline Parallelism,不同的并行方式实际上是将实例进行分组训练,同一组内实例的RDMA网络通讯频率远高于组与组之间的RDMA网络通信频率。所以,此功能支持查询高性能GPU型云服务器所在物理位置的交换机信息,感知实例间的亲和关系,可以将同一组的训练任务尽可能调度到更亲和(交换机信息返回值相同)的实例上,从而大幅降低大规模训练发生通信拥塞可能。

使用说明:使用该功能需要开启openAPI白名单。

发布地域:华北2、华东2。