You need to enable JavaScript to run this app.
导航

RDMA网络监控(hpcpni2)

最近更新时间2024.01.19 16:28:35

首次发布时间2022.09.13 20:08:28

创建 高性能计算GPU型hpcpni2 实例后,您可在实例内部手动安装RDMA网络观测性增强插件,用于监控RDMA网络的健康状况。

操作场景

  • 使用公共镜像创建的未开启“RDMA网络观测性增强”的 高性能计算GPU型hpcpni2 实例。“RDMA网络观测性增强”相关信息请参见创建高性能计算GPU型实例
  • 使用自定义镜像创建的 高性能计算GPU型hpcpni2 实例。

安装RDMA网络增强

  1. 登录云服务器控制台

  2. 在左侧导航树中选择“实例与镜像 > 实例”。

  3. 在顶部导航栏,选择目标实例的地域。

  4. 在实例列表页,使用root账号登录Linux实例

  5. 登录成功后,按地域粘贴以下安装命令,并按回车键开始执行。

    • 华北2(北京):
    bash -c "$(wget -q -O -  wget https://rdma-tool-beijing.tos-cn-beijing.volces.com/install_rdma_monitor.sh)"
    
    • 华东2(上海):
    bash -c "$(wget -q -O -  wget https://rdma-tool-shanghai.tos-cn-shanghai.volces.com/install_rdma_monitor.sh)"
    
    • 华南1(广州):
    bash -c "$(wget -q -O -  wget https://rdma-tool-guangzhou.tos-cn-guangzhou.volces.com/install_rdma_monitor.sh)"
    
  6. 查看安装结果。
    反馈如下信息则安装成功,等待3-5分钟后插件即可正常采集监控数据。

    rdma-monitor	installed	
    rdma-monitor.service	start
    

卸载RDMA网络增强

如果您不再需要RDMA网络观测性增强功能,可以卸载RDMA网络增强插件。

  1. 请参考登录Linux实例,登录待卸载监控插件的 高性能计算GPU型hpcpni2 实例。
  2. 执行以下命令完成卸载。
    bash	/usr/local/rdma-monitor/uninstall.sh