RDMA支持GPUDirect特性

通过使用CUDA和RDMA库，在GPU和远程内存之间启用GPUDirect RDMA功能，可以实现RDMA支持GPUDirect特性。

下面是使用GPUDirect RDMA的示例代码：

// 1. 初始化CUDA和RDMA
cudaSetDevice(0);
cudaMalloc(&dptr, size);
ibv_device **dev_list = ibv_get_device_list(&num_devices);
context = ibv_open_device(*dev_list);
pd = ibv_alloc_pd(context);
cq = ibv_create_cq(context, 10, NULL, NULL, 0);

// 2. 创建GPUDirect RDMA使用的MR（内存区域）
mr = ibv_reg_mr(pd, dptr, size, IBV_ACCESS_LOCAL_WRITE | IBV_ACCESS_REMOTE_WRITE | IBV_ACCESS_REMOTE_READ);

// 3. 获取目标Infiniband RDMA网卡的IP和端口号
struct sockaddr_in addr;
addr.sin_family = AF_INET;
addr.sin_port = htons(12345);
inet_pton(AF_INET, "192.168.1.2", &addr.sin_addr);

// 4. 获取远程内存区域（MR）的RKEY（指向内存区域的关键字）
ibv_qp_init_attr init_attr;
memset(&init_attr, 0, sizeof(init_attr));
init_attr.send_cq = cq;
init_attr.recv_cq = cq;
init_attr.qp_type = IBV_QPT_RC;
init_attr.cap.max_send_wr = 1;
init_attr.cap.max_recv_wr = 1;
init_attr.cap.max_send_sge = 1;
init_attr.cap.max_recv_sge = 1;
qp = ibv_create_qp(pd, &init_attr);
ibv_connect_qp(qp, &addr, NULL);
ibv_post_recv(qp, &r_wr, &bad_wr);
while (!r_wr.done);

// 5. 在目标主机上写入数据
struct ibv_send_wr s_wr;
struct ibv_sge s_sge;
memset(&s_wr, 0, sizeof(s_wr));
memset(&s_sge, 0, sizeof(s_sge));
void *msg = malloc(size);
memcpy(msg, buf, size);
s_sge.addr = (uintptr_t)msg;
s_sge.length = size;
s_sge.lkey = mr->lkey;
s_wr.wr_id = (uintptr_t)msg;
s_wr.sg_list = &s_sge;
s_wr.num_sge = 1;
s_wr.opcode = IBV_WR_RDMA_WRITE_WITH_IMM;
s_wr.send_flags = IBV_SEND_SIGNALED;
s_wr.wr.rdma.remote_addr = raddr

本文内容通过AI工具匹配关键字智能整合而成，仅供参考，火山引擎不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见，您可以通过联系service@volcengine.com进行反馈，火山引擎收到您的反馈后将及时答复和处理。

展开更多

开发者特惠

面向开发者的云福利中心，ECS 60元/年，域名1元起，助力开发者快速在云上构建可靠应用

ECS首年60元

社区干货

**超强网络性能:** 机内 600GBps 双向 NVLink 通道,800Gbps RDMA 网络高速互联,支持 GPU Direct Access。 - **并行文件系统 vePFS:** 百 Gb 带宽,亚毫秒延迟,支持数亿小文件随机读取。![1280X1280 (1).PNG](https://p9-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/c0535ac7c0854c7b92de764041a46f10~tplv-k3u1fbpfcp-5.jpeg?)#### 资源池化,按需弹性创建计算资源在强大的硬件之上,调度侧首先需要对资源(包括计算资源和存...

火山引擎大规模机器学习平台架构设计与应用实践

单一集群 2000+ GPU 卡,提供 1 EFLOPS 算力。* **超强网络性能**:机内 600GBps 双向 NVLink 通道,800Gbps RDMA 网络高速互联,支持 GPU Direct Access。* **并行文件系统 vePFS**:百 Gb 带宽,亚毫秒延迟,支持数亿小文件随机读取。![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/94876b5cf1cd48b19444e0fb27fbad81~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1715271663&...

ByteFUSE的演进与落地

自动将来自该Client的请求Redirect到新的活着的Proxy,该机制对客户端是完全透明的。但是使用TTGW具有以下缺点:- **无法支持大吞吐场景;** 用户的吞吐不仅受限于TTGW集群本身吞吐的限制,而且受限于NFS协议单次读... 支持一写多读/多写多读- 自研以及可维护性强,提供定制化特性能力支持## 演进路线### 1. ByteFUSE 1.0 — 基础功能完备,云原生化部署支持#### 通过原生FUSE接入ByteNAS原生FUSE对接ByteNAS的整体架构...

「跨越障碍,迈向新的征程」盘点一下2022年度我们开发团队对于云原生的技术体系的变革|社区征文

此版本尚且没有得到相关的修正且官方不支持修复,只能使用新版本了!2. **【安全问题,以及workaround的问题较多】** 其实新版本与旧版本区别主要在于应用了社区中经过cherrypick挑选出来的PR以及修复了安全性漏洞、... DirectMemorySize的控制。以及定时执行System.gc()。![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/d0fa7ea732fe495a8b3c13206105282f~tplv-k3u1fbpfcp-zoom-1.image)#### K8s探测Java进程与堆内存不...

特惠活动

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

RDMA支持GPUDirect特性 -优选内容

通过 RDMA 网络加速训练

RDMA(Remote Direct Memory Access)是新一代的网络传输技术,其诞生主要是为了解决网络传输中服务器端数据处理的延迟。在大规模的分布式训练任务中通过使用 RDMA 技术可以获得高吞吐、低延迟的网络通信,提升训练效率。本文将介绍如何在机器学习平台上基于 RDMA 的高性能 GPU 实例进行分布式训练。相关概念实例规格 NCCL 使用前提拥有 >= 1 个专有资源组的使用权限。队列中包含至少 2 台支持 RDMA 的高性能 GPU 实例。参考验证...

HPC裸金属-基于NCCL的单机/多机RDMA网络性能测试

使用NCCL测试ebmhpcpni2l实例的RDMA网络性能。背景信息ebmhpcpni2l实例搭载NVIDIA A800显卡,同时支持800Gbps RDMA高速网络,大幅提升集群通信性能,提高大规模训练加速比。更多信息,请参见高性能计算GPU型ebmhpcpni... 加载nv_peer_mem服务使能GPU Direct RDMA。 apt-get install nvidia-modprobemodprobe nvidia_peermem 步骤三:安装OpenMPI依次执行以下命令,安装OpenMPI。 cd ~wget https://download.open-mpi.org/release/open-m...

RDMA网络监控(hpcpni2)

创建高性能计算GPU型hpcpni2 实例后,您可在实例内部手动安装RDMA网络观测性增强插件,用于监控RDMA网络的健康状况。操作场景使用公共镜像创建的未开启“RDMA网络观测性增强”的高性能计算GPU型hpcpni2 实例。“RDMA网络观测性增强”相关信息请参见创建高性能计算GPU型实例。使用自定义镜像创建的高性能计算GPU型hpcpni2 实例。安装RDMA网络增强登录云服务器控制台。在左侧导航树中选择“实例与镜像 > 实例”。在顶部导航...

HPC-基于LLaMA的RDMA配置指南

本文以Ubuntu 20.04的hpcpni2实例为例,介绍在LLaMA多机训练时如何配置RDMA网络,充分发挥GPU算力和RDMA高速网络性能。背景信息LLaMA(Large Language Model Meta AI )是Meta于2023年2月推出的大型语言模型系统(Large Language Model, LLM),目前提供有70亿、130亿、330亿和650亿四种参数规模,且仅使用完全公开的数据集进行训练,其训练原理是将一系列单词作为“输入”并预测下一个单词以递归生成文本,旨在帮助研究人员推进研究工作。...

RDMA支持GPUDirect特性 -相关内容

高性能计算GPU型

概述高性能计算GPU型规格在原有GPU型规格的基础上,加入RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。说明您可以在价格计算器页面,查看实例的价格及其配置项(系统盘、数据盘、公网IP等)费用。价格计算器为参考价格,具体请以云服务器控制台实际下单结果为准。高性能计算GPU型实例不支持变更实例规格。高性能计算GPU型规格提供的显卡特点如下: 规格名称显卡类型特点 ...

高性能计算GPU型实例监控新增RDMA相关指标

高性能计算GPU型实例监控新增RDMA相关指标,您可以直接通过云监控服务实时监控RDMA CNP、ECN和QP等相关指标数据,通过自定义指标阈值和告警通知,能够及时知晓高性能计算实例规格中RDMA网卡CNP、ECN和QP等指标超出阈值的情况,及时发现异常指标,确保业务的稳定运行。可以参考以下内容配置高性能计算GPU型实例的监控告警能力: 高性能计算GPU实例监控指标配置告警策略应用场景业务使用高性能计算GPU型实例,希望实时监控RDMA网络情...

高性能计算GPU型

概述高性能计算GPU型规格在原有GPU型规格的基础上,加入RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。说明您可以在价格计算器页面,查看实例的价格及其配置项(系统盘、数据盘、公网IP等)费用。价格计算器为参考价格,具体请以云服务器控制台实际下单结果为准。高性能计算GPU型实例不支持变更实例规格。规格名称显卡类型特点高性能计算GPU型ebmhpcpni2l A800 搭载NV...

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

VKE 集群中使用 RDMA 资源

本文为您介绍 VKE 集群如何使用 RDMA 资源。说明【邀测·申请试用】:VKE 集群中使用 RDMA 资源与其依赖的 kubelet 自定义参数功能均处于邀测阶段,如需使用,请提交申请。背景信息RDMA (Remote Direct Memroy ... shared-multi 模式不建议与 GPU 一起使用。 RDMA 设备仅支持在 VPC-CNI 容器网络模型场景中使用,且集群网络组件vpc-cni要求使用 v1.7.1 及以上版本。集群 Kubernetes 版本要求 v1.24.15-vke.12 及以上的 1.2...

RDMA 拓扑感知调度

会导致不同 RDMA 网卡之间的通讯距离不一样,因此不同的 GPU 设备之间的通讯性能也会有差异。针对上述情况,火山引擎容器服务提供 RDMA 拓扑感知调度能力,通过对 GPU 卡和 RDMA 设备的网络拓扑信息的感知,调度器能够将同一个 Job 中的所有 Pod 调度到 RDMA 网络中拓扑距离尽可能接近的节点和 RDMA 网卡上,进而帮助用户充分发挥 RDMA 网络的通信能力,提升 AI 大模型训练性能。使用限制项目要求补充说明集群版本当前仅支持 Ku...

购买高性能计算GPU型实例

您可以根据业务场景购买高性能计算GPU型实例。约束限制高性能计算GPU实例自身的使用限制如下: 创建高性能计算GPU型实例后,高性能计算集群的RDMA网络会在VPC网络的基础上增加RDMA网卡,当前默认RDMA设备IP地址为固定的198.x.x.x/33.x.x.x网段,您可以使用该网段在多个具有RDMA网卡的高性能GPU实例之间进行RDMA网络通信。 RDMA网卡和GPU实例绑定后,不支持挂载、卸载RDMA网卡。 RDMA网卡和VPC网络之间不可以互相通信,GPU实例之间只...

查看实例GPU/RDMA监控数据

针对GPU云服务器,火山引擎为您提供了其特有的GPU监控及RDMA监控,可帮助您快速了解实例显卡、RDMA网络信息。使用说明暂仅支持GPU云服务器使用,规格详情可查看异构计算。您还可根据创建告警策略指引,配置GPU卡、RDMA卡指标数据异常告警。说明 “告警对象”请选择“弹性计算 > 云服务器”。 “维度”请选择“GPU卡”或“RDMA卡”。操作步骤登录云服务器控制台。在顶部导航栏选择目标实例所属的项目和地域。在左侧导航树,选择...

RDMA 网络监控

容器服务支持通过组件使用 RDMA 资源,以消除传统网络通信带给计算任务的瓶颈。同时,支持对 RDMA 网络进行监控。本文为您介绍如何配置和查看 RDMA 网络的监控信息。说明【邀测·申请试用】:该功能目前处于邀测阶段,如需使用,请提交申请。使用限制仅支持 NVIDIA GPU 模式下,采集节点和 Pod 的 RDMA 指标。不支持 mGPU 模式。共享(shared)模式下,仅上报节点的 RDMA 指标。独占(exclusive)模式下,仅上报 Pod 的 RDMA 指标。 ...

HPC-单机&多机点对点RDMA网络性能测试

本文以Ubuntu 20.04的ecs.hpcpni2.28xlarge实例为例,介绍如何使用InfiniBand在单台实例内或两台实例间测试RDMA网络性能。背景信息HPC实例是在原有GPU实例的基础上,加入了RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。 InfiniBand是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。检查RDMA网卡速率登录Linu...

特惠活动

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

RDMA支持GPUDirect特性

开发者特惠

社区干货

火山引擎大规模机器学习平台架构设计与应用实践

火山引擎大规模机器学习平台架构设计与应用实践

ByteFUSE的演进与落地

「跨越障碍,迈向新的征程」盘点一下2022年度我们开发团队对于云原生的技术体系的变革|社区征文

特惠活动

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

RDMA支持GPUDirect特性 -优选内容

RDMA支持GPUDirect特性 -相关内容

高性能计算GPU型

高性能计算GPU型实例监控新增RDMA相关指标

高性能计算GPU型

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

VKE 集群中使用 RDMA 资源

RDMA 拓扑感知调度

购买高性能计算GPU型实例

查看实例GPU/RDMA监控数据

RDMA 网络监控

HPC-单机&多机点对点RDMA网络性能测试

特惠活动

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

产品体验

体验中心

云服务器特惠

白皮书

相关主题

最新活动

爆款1核2G共享型服务器

火山引擎增长体验专区

数据智能VeDI

热门访问

一键开启云上增长新空间