You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

RDMA支持GPUDirect特性

通过使用CUDA和RDMA库,在GPU和远程内存之间启用GPUDirect RDMA功能,可以实现RDMA支持GPUDirect特性。

下面是使用GPUDirect RDMA的示例代码:

// 1. 初始化CUDA和RDMA
cudaSetDevice(0);
cudaMalloc(&dptr, size);
ibv_device **dev_list = ibv_get_device_list(&num_devices);
context = ibv_open_device(*dev_list);
pd = ibv_alloc_pd(context);
cq = ibv_create_cq(context, 10, NULL, NULL, 0);

// 2. 创建GPUDirect RDMA使用的MR(内存区域)
mr = ibv_reg_mr(pd, dptr, size, IBV_ACCESS_LOCAL_WRITE | IBV_ACCESS_REMOTE_WRITE | IBV_ACCESS_REMOTE_READ);

// 3. 获取目标Infiniband RDMA网卡的IP和端口号
struct sockaddr_in addr;
addr.sin_family = AF_INET;
addr.sin_port = htons(12345);
inet_pton(AF_INET, "192.168.1.2", &addr.sin_addr);

// 4. 获取远程内存区域(MR)的RKEY(指向内存区域的关键字)
ibv_qp_init_attr init_attr;
memset(&init_attr, 0, sizeof(init_attr));
init_attr.send_cq = cq;
init_attr.recv_cq = cq;
init_attr.qp_type = IBV_QPT_RC;
init_attr.cap.max_send_wr = 1;
init_attr.cap.max_recv_wr = 1;
init_attr.cap.max_send_sge = 1;
init_attr.cap.max_recv_sge = 1;
qp = ibv_create_qp(pd, &init_attr);
ibv_connect_qp(qp, &addr, NULL);
ibv_post_recv(qp, &r_wr, &bad_wr);
while (!r_wr.done);

// 5. 在目标主机上写入数据
struct ibv_send_wr s_wr;
struct ibv_sge s_sge;
memset(&s_wr, 0, sizeof(s_wr));
memset(&s_sge, 0, sizeof(s_sge));
void *msg = malloc(size);
memcpy(msg, buf, size);
s_sge.addr = (uintptr_t)msg;
s_sge.length = size;
s_sge.lkey = mr->lkey;
s_wr.wr_id = (uintptr_t)msg;
s_wr.sg_list = &s_sge;
s_wr.num_sge = 1;
s_wr.opcode = IBV_WR_RDMA_WRITE_WITH_IMM;
s_wr.send_flags = IBV_SEND_SIGNALED;
s_wr.wr.rdma.remote_addr = raddr
本文内容通过AI工具匹配关键字智能整合而成,仅供参考,火山引擎不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见,您可以通过联系service@volcengine.com进行反馈,火山引擎收到您的反馈后将及时答复和处理。
展开更多
面向开发者的云福利中心,ECS 60元/年,域名1元起,助力开发者快速在云上构建可靠应用

社区干货

火山引擎大规模机器学习平台架构设计与应用实践

**超强网络性能:** 机内 600GBps 双向 NVLink 通道,800Gbps RDMA 网络高速互联,支持 GPU Direct Access。 - **并行文件系统 vePFS:** 百 Gb 带宽,亚毫秒延迟,支持数亿小文件随机读取。![1280X1280 (1).PNG](https://p9-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/c0535ac7c0854c7b92de764041a46f10~tplv-k3u1fbpfcp-5.jpeg?)#### 资源池化,按需弹性创建计算资源在强大的硬件之上,调度侧首先需要对资源(包括计算资源和存...

火山引擎大规模机器学习平台架构设计与应用实践

单一集群 2000+ GPU 卡,提供 1 EFLOPS 算力。* **超强网络性能**:机内 600GBps 双向 NVLink 通道,800Gbps RDMA 网络高速互联,支持 GPU Direct Access。* **并行文件系统 vePFS**:百 Gb 带宽,亚毫秒延迟,支持数亿小文件随机读取。![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/94876b5cf1cd48b19444e0fb27fbad81~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1715271663&...

ByteFUSE的演进与落地

自动将来自该Client的请求Redirect到新的活着的Proxy,该机制对客户端是完全透明的。但是使用TTGW具有以下缺点:- **无法支持大吞吐场景;** 用户的吞吐不仅受限于TTGW集群本身吞吐的限制,而且受限于NFS协议单次读... 支持一写多读/多写多读- 自研以及可维护性强,提供定制化特性能力支持## 演进路线### 1. ByteFUSE 1.0 — 基础功能完备,云原生化部署支持#### 通过原生FUSE接入ByteNAS原生FUSE对接ByteNAS的整体架构...

「跨越障碍,迈向新的征程」盘点一下2022年度我们开发团队对于云原生的技术体系的变革|社区征文

此版本尚且没有得到相关的修正且官方不支持修复,只能使用新版本了!2. **【安全问题,以及workaround的问题较多】** 其实新版本与旧版本区别主要在于应用了社区中经过cherrypick挑选出来的PR以及修复了安全性漏洞、... DirectMemorySize的控制。以及定时执行System.gc()。![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/d0fa7ea732fe495a8b3c13206105282f~tplv-k3u1fbpfcp-zoom-1.image)#### K8s探测Java进程与堆内存不...

特惠活动

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

RDMA支持GPUDirect特性 -优选内容

通过 RDMA 网络加速训练
RDMA(Remote Direct Memory Access)是新一代的网络传输技术,其诞生主要是为了解决网络传输中服务器端数据处理的延迟。在大规模的分布式训练任务中通过使用 RDMA 技术可以获得高吞吐、低延迟的网络通信,提升训练效率。本文将介绍如何在机器学习平台上基于 RDMA 的高性能 GPU 实例进行分布式训练。 相关概念 实例规格 NCCL 使用前提 拥有 >= 1 个专有资源组的使用权限。 队列中包含至少 2 台支持 RDMA 的高性能 GPU 实例。 参考验证...
HPC裸金属-基于NCCL的单机/多机RDMA网络性能测试
使用NCCL测试ebmhpcpni2l实例的RDMA网络性能。 背景信息ebmhpcpni2l实例搭载NVIDIA A800显卡,同时支持800Gbps RDMA高速网络,大幅提升集群通信性能,提高大规模训练加速比。更多信息,请参见高性能计算GPU型ebmhpcpni... 加载nv_peer_mem服务使能GPU Direct RDMA。 apt-get install nvidia-modprobemodprobe nvidia_peermem 步骤三:安装OpenMPI依次执行以下命令,安装OpenMPI。 cd ~wget https://download.open-mpi.org/release/open-m...
RDMA网络监控(hpcpni2)
创建 高性能计算GPU型hpcpni2 实例后,您可在实例内部手动安装RDMA网络观测性增强插件,用于监控RDMA网络的健康状况。 操作场景使用公共镜像创建的未开启“RDMA网络观测性增强”的 高性能计算GPU型hpcpni2 实例。“RDMA网络观测性增强”相关信息请参见创建高性能计算GPU型实例。 使用自定义镜像创建的 高性能计算GPU型hpcpni2 实例。 安装RDMA网络增强登录云服务器控制台。 在左侧导航树中选择“实例与镜像 > 实例”。 在顶部导航...
HPC-基于LLaMA的RDMA配置指南
本文以Ubuntu 20.04的hpcpni2实例为例,介绍在LLaMA多机训练时如何配置RDMA网络,充分发挥GPU算力和RDMA高速网络性能。 背景信息LLaMA(Large Language Model Meta AI )是Meta于2023年2月推出的大型语言模型系统(Large Language Model, LLM),目前提供有70亿、130亿、330亿和650亿四种参数规模,且仅使用完全公开的数据集进行训练,其训练原理是将一系列单词作为“输入”并预测下一个单词以递归生成文本,旨在帮助研究人员推进研究工作。...

RDMA支持GPUDirect特性 -相关内容

高性能计算GPU

概述高性能计算GPU型规格在原有GPU型规格的基础上,加入RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。 说明 您可以在价格计算器页面,查看实例的价格及其配置项(系统盘、数据盘、公网IP等)费用。价格计算器为参考价格,具体请以云服务器控制台实际下单结果为准。 高性能计算GPU型实例不支持变更实例规格。 高性能计算GPU型规格提供的显卡特点如下: 规格名称 显卡类型 特点 ...

高性能计算GPU型实例监控新增RDMA相关指标

高性能计算GPU型实例监控新增RDMA相关指标,您可以直接通过云监控服务实时监控RDMA CNP、ECN和QP等相关指标数据,通过自定义指标阈值和告警通知,能够及时知晓高性能计算实例规格中RDMA网卡CNP、ECN和QP等指标超出阈值的情况,及时发现异常指标,确保业务的稳定运行。 可以参考以下内容配置高性能计算GPU型实例的监控告警能力: 高性能计算GPU实例监控指标 配置告警策略 应用场景业务使用高性能计算GPU型实例,希望实时监控RDMA网络情...

高性能计算GPU

概述高性能计算GPU型规格在原有GPU型规格的基础上,加入RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。 说明 您可以在价格计算器页面,查看实例的价格及其配置项(系统盘、数据盘、公网IP等)费用。价格计算器为参考价格,具体请以云服务器控制台实际下单结果为准。 高性能计算GPU型实例不支持变更实例规格。 规格名称 显卡类型 特点 高性能计算GPU型ebmhpcpni2l A800 搭载NV...

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

VKE 集群中使用 RDMA 资源

本文为您介绍 VKE 集群如何使用 RDMA 资源。 说明 【邀测·申请试用】:VKE 集群中使用 RDMA 资源 与其依赖的 kubelet 自定义参数 功能均处于邀测阶段,如需使用,请提交申请。 背景信息RDMA (Remote Direct Memroy ... shared-multi 模式不建议与 GPU 一起使用。 RDMA 设备仅支持在 VPC-CNI 容器网络模型场景中使用,且集群网络组件vpc-cni要求使用 v1.7.1 及以上版本。 集群 Kubernetes 版本要求 v1.24.15-vke.12 及以上的 1.2...

RDMA 拓扑感知调度

会导致不同 RDMA 网卡之间的通讯距离不一样,因此不同的 GPU 设备之间的通讯性能也会有差异。 针对上述情况,火山引擎容器服务提供 RDMA 拓扑感知调度能力,通过对 GPU 卡和 RDMA 设备的网络拓扑信息的感知,调度器能够将同一个 Job 中的所有 Pod 调度到 RDMA 网络中拓扑距离尽可能接近的节点和 RDMA 网卡上,进而帮助用户充分发挥 RDMA 网络的通信能力,提升 AI 大模型训练性能。 使用限制项目 要求 补充说明 集群版本 当前仅支持 Ku...

购买高性能计算GPU型实例

您可以根据业务场景购买高性能计算GPU型实例。 约束限制高性能计算GPU实例自身的使用限制如下: 创建高性能计算GPU型实例后,高性能计算集群的RDMA网络会在VPC网络的基础上增加RDMA网卡,当前默认RDMA设备IP地址为固定的198.x.x.x/33.x.x.x网段,您可以使用该网段在多个具有RDMA网卡的高性能GPU实例之间进行RDMA网络通信。 RDMA网卡和GPU实例绑定后,不支持挂载、卸载RDMA网卡。 RDMA网卡和VPC网络之间不可以互相通信,GPU实例之间只...

查看实例GPU/RDMA监控数据

针对GPU云服务器,火山引擎为您提供了其特有的GPU监控及RDMA监控,可帮助您快速了解实例显卡、RDMA网络信息。 使用说明暂仅支持GPU云服务器使用,规格详情可查看异构计算。 您还可根据创建告警策略指引,配置GPU卡、RDMA卡指标数据异常告警。说明 “告警对象”请选择“弹性计算 > 云服务器”。 “维度”请选择“GPU卡”或“RDMA卡”。 操作步骤登录云服务器控制台。 在顶部导航栏选择目标实例所属的项目和地域。 在左侧导航树,选择...

RDMA 网络监控

容器服务支持通过组件使用 RDMA 资源,以消除传统网络通信带给计算任务的瓶颈。同时,支持RDMA 网络进行监控。本文为您介绍如何配置和查看 RDMA 网络的监控信息。 说明 【邀测·申请试用】:该功能目前处于 邀测 阶段,如需使用,请提交申请。 使用限制仅支持 NVIDIA GPU 模式下,采集节点和 Pod 的 RDMA 指标。不支持 mGPU 模式。 共享(shared)模式下,仅上报节点的 RDMA 指标。 独占(exclusive)模式下,仅上报 Pod 的 RDMA 指标。 ...

HPC-单机&多机点对点RDMA网络性能测试

本文以Ubuntu 20.04的ecs.hpcpni2.28xlarge实例为例,介绍如何使用InfiniBand在单台实例内或两台实例间测试RDMA网络性能。 背景信息HPC实例是在原有GPU实例的基础上,加入了RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。 InfiniBand是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。 检查RDMA网卡速率登录Linu...

特惠活动

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

一图详解大模型
浓缩大模型架构,厘清生产和应用链路关系
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询