云服务器(ElasticComputeService,简称ECS)是一种安全稳定、可弹性伸缩的云上虚拟服务器,包含CPU、内存、硬盘、网络等资源,帮助您打造弹性易用、安全可靠的业务环境,有效降低IT维护成本,助力核心业务增长。![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/3d3d3bf8a6584b3d82c7789ad440601a~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1714839675&x-signature=G5EJuGgRy1Cf9tuw...
为保障云服务器安全,避免实例受到攻击产生损失,火山引擎提供了DDoS基础防护、安全加固、安全组等多种防护功能及容灾备份能力,提升云服务器安全性、降低被入侵风险。![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/f2baa9d9b60d4c338873ff2289e89a83~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1714839672&x-signature=oKIN8i2QuwFuTcCuVPqaa%2FrP28A%3D)
为保障云服务器安全,避免实例受到攻击产生损失,火山引擎提供了DDoS基础防护、安全加固、安全组等多种防护功能及容灾备份能力,提升云服务器安全性、降低被入侵风险。![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/f4718d9c4ec44855918a708cca3080bb~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1714839672&x-signature=3bmzkRfEOdAQLgnJsYmL9gF0jtY%3D)
镜像是包含云服务器实例运行所需的操作系统和应用数据的文件,多样可选的镜像为您创建、配置云服务器实例,提供功能丰富的系统环境和软件支持。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/01095482bf9143858c9c31b39e70fc0f~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1714839693&x-signature=xq05I29MLyPCXeGr0Evh13fzuUc%3D)
RDMA网络交换机信息,以此进行训练任务调度和排序,提高通信效率和训练性能。 适用场景在大模型训练场景通常会采用几百卡甚至几千卡共同进行一个大模型训练任务,往往会涉及多种并行方式,如Data Parallelism、Tensor Parallelism和Pipeline Parallelism,不同的并行方式实际上是将实例进行分组训练,同一组内实例的RDMA网络通讯频率远高于组与组之间的RDMA网络通信频率。所以,此功能支持查询高性能GPU型云服务器所在物理位置的交换机信...
本文以Ubuntu 20.04的hpcpni2实例为例,介绍在LLaMA多机训练时如何配置RDMA网络,充分发挥GPU算力和RDMA高速网络性能。 背景信息LLaMA(Large Language Model Meta AI )是Meta于2023年2月推出的大型语言模型系统(Larg... tf32 True --fsdp_transformer_layer_cls_to_wrap 'LlamaDecoderLayer' --fsdp 'full_shard auto_wrap' 若回显含有GDRDMA,表示RDMA已成功启用。 结果验证RDMA成功启用后,您可以在云服务器...
概述高性能计算GPU型规格在原有GPU型规格的基础上,加入RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。 说明 您可以在价格计算器页面,查看实例的价格及其配置项(系统盘、数据盘、公网IP等)费用。价格计算器为参考价格,具体请以云服务器控制台实际下单结果为准。 高性能计算GPU型实例不支持变更实例规格。 规格名称 显卡类型 特点 高性能计算GPU型ebmhpcpni2l A800 搭载NV...
RDMA网卡和GPU实例绑定后,不支持挂载、卸载RDMA网卡。 RDMA网卡和VPC网络之间不可以互相通信,GPU实例之间只能采用VPC网卡对VPC网卡、RDMA网卡对RDMA网卡的方式通信。 不能为RDMA网卡挂载公网IP地址和配置负载均衡。 步骤一:创建高性能计算集群创建高性能计算GPU实例前,您需要首先创建高性能计算集群,后续将新购买的高性能计算GPU型实例部署在该集群中即可,但不允许将已创建的云服务器加入高性能计算集群。 登录高性能计算集...
您可以通过云服务器控制台或云监控控制台查看监控数据。 通过云服务器控制台获取云服务器在实例的详情页面,提供了单独的监控数据统计页面。在该页面,您可以查看30天内云服务器实例的CPU、内存、网络出入带宽、磁盘IO带宽、GPU卡、RDMA网络等监控数据。 登录云服务器控制台。 在实例列表页,单击需要查看监控数据的实例名称,进入该实例的详情页面。 单击“监控”页签,即可获取实例的监控数据。单击“基础监控/操作系统监控/GPU监控...
GPU实例相比普通云服务器实例,增加了较多的外设,包括GPU、RDMA网络直通网卡、本地盘等。因此,除普通云服务器可能发生的常见问题外,还有如GPU、直通网卡及PCIe链路上发生的亚健康或故障,围绕GPU实例的常见故障,梳理处理建议和FAQ,提升用户体验。 具体内容请参考GPU实例硬件相关FAQ。
RDMA(Remote Direct Memory Access)是新一代的网络传输技术,其诞生主要是为了解决网络传输中服务器端数据处理的延迟。在大规模的分布式训练任务中通过使用 RDMA 技术可以获得高吞吐、低延迟的网络通信,提升训练效率。本文将介绍如何在机器学习平台上基于 RDMA 的高性能 GPU 实例进行分布式训练。 相关概念 实例规格 NCCL 使用前提 拥有 >= 1 个专有资源组的使用权限。 队列中包含至少 2 台支持 RDMA 的高性能 GPU 实例。 参考验证...
后续将新购买的高性能GPU云服务器部署在该集群中即可,但不允许将已创建的云服务器加入高性能计算集群。 操作步骤登录高性能计算集群控制台。 单击“创建集群”按钮,配置以下参数。参数 说明 取值示例 地域 不同地域间内网完全隔离。建议选择距离您业务更近的地域,可以降低网络延时,提高访问速度。 华北2(北京) 可用区 可用区是指同一地域中电力、网络隔离的物理区域。为保证集群内实例RDMA网络互通,您需要确定集群和集群内实例所...
本文主描述 GPU 实例硬件相关问题及其解决方法。 如何判断和处理硬件相关故障?GPU实例相比普通云服务器实例,增加了较多的外设,包括GPU、RDMA网络直通网卡、本地盘等。因此,除普通云服务器可能发生的常见问题外,还有如GPU、直通网卡以及PCIe链路上发生的亚健康或故障。针对GPU实例的常见故障和处理建议具体如图1所示。 图1 常见故障及处理建议 图2 故障处理流程GPU亚健康或故障处理流程如图2所示,以下重点介绍亚健康现象的处理流程...