You need to enable JavaScript to run this app.
导航

购买高性能计算GPU型实例

最近更新时间2024.01.19 16:28:12

首次发布时间2021.07.09 11:14:25

您可以根据业务场景购买高性能计算GPU型实例。

约束限制

高性能计算GPU实例自身的使用限制如下:

  • 创建高性能计算GPU型实例后,高性能计算集群的RDMA网络会在VPC网络的基础上增加RDMA网卡,当前默认RDMA设备IP地址为固定的198.x.x.x/33.x.x.x网段,您可以使用该网段在多个具有RDMA网卡的高性能GPU实例之间进行RDMA网络通信。

  • RDMA网卡和GPU实例绑定后,不支持挂载、卸载RDMA网卡。

  • RDMA网卡和VPC网络之间不可以互相通信,GPU实例之间只能采用VPC网卡对VPC网卡、RDMA网卡对RDMA网卡的方式通信。

  • 不能为RDMA网卡挂载公网IP地址和配置负载均衡。

步骤一:创建高性能计算集群

创建高性能计算GPU实例前,您需要首先创建高性能计算集群,后续将新购买的高性能计算GPU型实例部署在该集群中即可,但不允许将已创建的云服务器加入高性能计算集群。

  1. 登录高性能计算集群控制台
  2. 单击“创建集群”按钮,配置以下参数。
    参数说明取值示例
    地域不同地域间内网完全隔离。建议选择距离您业务更近的地域,可以降低网络延时,提高访问速度。华北2(北京)
    可用区可用区是指同一地域中电力、网络隔离的物理区域。为保证集群内实例RDMA网络互通,您需要确定集群和集群内实例所属的可用区。可用区A
    名称配置高性能计算集群的名称。-
  1. 单击“确定”按钮,创建集群。

步骤二:购买高性能计算GPU型实例

高性能计算GPU型实例的购买过程,除了在基础配置页面选择步骤一创建的高性能计算集群外,其余操作与ECS实例相似,详情请参见通过向导购买实例

说明

开启RDMA网络观测性增强(hpcpni2)

当您使用公共镜像创建 高性能计算GPU型hpcpni2 实例时,还需要在选择镜像阶段,决定是否开启“RDMA网络观测性增强”(默认开启),开启后系统将自动安装RDMA网络监控插件,用于监控RDMA网络的健康状况。
alt

说明

  • 您也可以在实例创建成功后,参考RDMA网络监控手动安装插件。
  • 请不要在插件安装过程中停止或重启实例,导致安装失败,实例重新启动后不再继续安装。
  • 若您使用开启了“RDMA网络观测性增强”功能的hpcpni2实例创建自定义镜像,则该镜像中包含RDMA监控插件。
  • 为hpcpni2实例更换操作系统时,若您开启了“RDMA网络观测性增强”,则更换后的镜像同样包含RDMA监控插件。

步骤三:启动Fabric Manager服务

NVIDIA-Fabric Manager服务可以使多A100/A800显卡间通过NVSwitch互联。
当您选用公共镜像购买搭载了多张A100/A800显卡的高性能计算GPU型实例后,将默认安装该服务,您需要手动将其启动,否则将无法正常使用实例。如果您选用未安装该服务的镜像,请首先参见安装NVIDIA-Fabric Manager软件包手动完成安装。

  1. 执行以下命令启动Fabric Manager服务。
    sudo systemctl start nvidia-fabricmanager

  2. 执行以下命令查看Fabric Manager服务是否正常启动,回显active(running)表示启动成功。
    sudo systemctl status nvidia-fabricmanager

  3. (可选)执行以下命令配置Fabric Manager服务随实例开机自启动。
    sudo systemctl enable nvidia-fabricmanager