最近更新时间:2023.07.31 16:42:52
首次发布时间:2021.07.09 11:14:25
您可以根据业务场景购买高性能计算GPU型实例。
高性能计算GPU实例自身的使用限制如下:
创建高性能计算GPU型实例后,高性能计算集群的RDMA网络会在VPC网络的基础上增加RDMA网卡,当前默认RDMA设备IP地址为固定的198.x.x.x/33.x.x.x网段,您可以使用该网段在多个具有RDMA网卡的高性能GPU实例之间进行RDMA网络通信。
RDMA网卡和GPU实例绑定后,不支持挂载、卸载RDMA网卡。
RDMA网卡和VPC网络之间不可以互相通信,GPU实例之间只能采用VPC网卡对VPC网卡、RDMA网卡对RDMA网卡的方式通信。
不能为RDMA网卡挂载公网IP地址和配置负载均衡。
参数 | 说明 | 取值示例 |
---|---|---|
地域 | 不同地域间内网完全隔离。建议选择距离您业务更近的地域,可以降低网络延时,提高访问速度。 | 华北2(北京) |
可用区 | 可用区是指同一地域中电力、网络隔离的物理区域。为保证集群内实例RDMA网络互通,您需要确定集群和集群内实例所属的可用区。 | 可用区A |
名称 | 配置高性能计算集群的名称。 | - |
购买高性能计算GPU实例与购买ECS实例过程相同,详情请参见购买云服务器。
说明
开启RDMA网络观测性增强(hpcpni2)
当您使用公共镜像创建 高性能计算GPU型hpcpni2 实例时,还需要在选择镜像阶段,决定是否开启“RDMA网络观测性增强”(默认开启),开启后系统将自动安装RDMA网络监控插件,用于监控RDMA网络的健康状况。
说明
NVIDIA-Fabric Manager服务可以使多A100显卡间通过NVSwitch互联。
当您选用公共镜像购买 高性能计算GPU型hpcpni2 实例后,将默认安装该服务,您需要手动将其启动,否则将无法正常使用实例。如果您选用未安装该服务的镜像,请首先参见安装NVIDIA-Fabric Manager软件包手动完成安装。
执行以下命令启动Fabric Manager服务。sudo systemctl start nvidia-fabricmanager
执行以下命令查看Fabric Manager服务是否正常启动,回显active(running)
表示启动成功。sudo systemctl status nvidia-fabricmanager
(可选)执行以下命令配置Fabric Manager服务随实例开机自启动。sudo systemctl enable nvidia-fabricmanager