You need to enable JavaScript to run this app.
导航

高性能计算GPU型实例监控新增RDMA指标

最近更新时间2024.02.04 15:14:37

首次发布时间2023.09.21 19:51:52

在使用高性能计算GPU型实例进行多机训练时,用户希望能对RDMA性能进行实时监控,并根据相关指标判断网络状态。

本次高性能计算GPU型实例监控新增RDMA相关6个指标,您可以直接通过云监控服务实时监控RDMA网络接收/发送包数量、RDMA网络入/出方向暂停包数量和RDMA网络入/出方向流量暂停时间,如果发现业务运行速度变慢可参考此指标分析是否存在网络拥塞。

说明:此指标和模型算法、网络配置等多种因素有关,建议仅作为观测指标辅助业务分析,不作为网络拥塞或故障的绝对判断依据。

可以参考以下内容查看高性能计算GPU型实例的监控指标:

发布地域:全部地域。