You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

RDMA集群基准测试

面向开发者的云福利中心,ECS 60元/年,域名1元起,助力开发者快速在云上构建可靠应用

社区干货

火山引擎大规模机器学习平台架构设计与应用实践

使集群利用率维持在较高水平。模型训练的第二个痛点是偏管理上的。比如在算法问题上,一个方法比另外一好,其中的原因多种多样,可能是基础架构不同,也可能是算法不同。在字节跳动的实践中发现,基础架构对性能或迭代... **超强网络性能:** 机内 600GBps 双向 NVLink 通道,800Gbps RDMA 网络高速互联,支持 GPU Direct Access。 - **并行文件系统 vePFS:** 百 Gb 带宽,亚毫秒延迟,支持数亿小文件随机读取。![1280X1280 (1).PNG...

AI ASIC 的基准测试、优化和生态系统协作的整合|KubeCon China

字节跳动高级软件工程师余明辉分享了 **《AI ASIC 的基准测试、优化和生态系统协作的整合》** 议题。以下是本次演讲的文字稿。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tld... 使得我们不得不更依赖集群计算。*说到这里,大概就能回答第一部分的第一个问题: **为什么 AI ASIC 现在越来越受关注** ——在物理世界的约束下,依赖摩尔定律的通用算力没法满足需求增长,而为了破局,专项专用计...

基于ClickHouse的复杂查询实现与优化|社区征文

难以发挥集群的全部资源。![image.png](https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/48c436d0c89443539d52f2748bb85732~tplv-k3u1fbpfcp-5.jpeg?)随着企业业务复杂度的不断提升,复杂查询,特别是有多轮... 另一方面可以引入 RDMA 来减少一定的开销。经过测试,在一些数据传输量大的场景,有不小的收益。**利用Runtime Filter的优化在不少数据库也有使用。** Join的算子通常是OLAP引擎里最耗时的算子,优化Join算子有两种...

字节跳动流式数仓和实时服务分析的思考与实践

两条链路有各自独立的计算集群和调度,数据有不同的入口和不同的处理方式,这种模式下做数据的端到端一致性挑战很大,成本非常高。 **实现流批一体后,通过自动调度资源,自动调度流式链路的数据处理流程,把链路中的... RDMA、PMEM、内存等手段,提升查询及 Shuffle 效率 - 物化视图满足数据预计算 - 用 C++ 重写向量化引擎,提升整体效率几个改变下来,可以满足像头条、抖音等产品实时的写入、更新、高并发要求以及数据的可视化...

特惠活动

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

RDMA集群基准测试-优选内容

HPC-基于NCCL通信库的多机RDMA网络性能测试
全面的评估多台实例组成的集群的性能,我们推荐采用NCCL(NVIDIA Collective Communications Library)集合通信库测试,可在实例内和实例间实现多个GPU的快速集合。如何配置NCCL? 本文基于火山引擎创建两台高性能计算GPU型机器,请根据实际需要选择计算规格。 实践指南关键组件火山引擎高性能计算GPU型实例 高性能计算GPU型实例实例在GPU型规格和基础私有网络VPC的基础上,加入RDMA网络,可大幅提升内网网络性能,提高大规模集群加速比,适...
VKE 集群中使用 RDMA 资源
容器服务支持通过组件使用 RDMA 资源,以消除传统网络通信带给计算任务的瓶颈。本文为您介绍 VKE 集群如何使用 RDMA 资源。 说明 【邀测·申请试用】:VKE 集群中使用 RDMA 资源 与其依赖的 kubelet 自定义参数 功能均处于邀测阶段,如需使用,请提交申请。 背景信息RDMA (Remote Direct Memroy Access,远程直接内存访问)是一种高性能网络协议,能够减少了CPU 占用,减少内存带宽瓶颈,提高带宽利用率。主要具有以下优势: Zero Copy:应...
HPC-单机&多机点对点RDMA网络性能测试
本文以Ubuntu 20.04的ecs.hpcpni2.28xlarge实例为例,介绍如何使用InfiniBand在单台实例内或两台实例间测试RDMA网络性能。 背景信息HPC实例是在原有GPU实例的基础上,加入了RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。 InfiniBand是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。 检查RDMA网卡速率登录Linu...
HPC裸金属-基于NCCL的单机/多机RDMA网络性能测试
本文介绍如何在虚拟环境或容器环境中,使用NCCL测试ebmhpcpni2l实例的RDMA网络性能。 背景信息ebmhpcpni2l实例搭载NVIDIA A800显卡,同时支持800Gbps RDMA高速网络,大幅提升集群通信性能,提高大规模训练加速比。更多信息,请参见高性能计算GPU型ebmhpcpni2l。 NCCL是NVIDIA的集合通信库,支持安装在单个节点或多个节点的大量GPU卡上,实现多个GPU的快速通信。 关键组件本文所述操作需要安装的软件包介绍如下。 关键组件 说明 NVIDIA驱...

RDMA集群基准测试-相关内容

RDMA 拓扑感知调度

会导致不同 RDMA 网卡之间的通讯距离不一样,因此不同的 GPU 设备之间的通讯性能也会有差异。 针对上述情况,火山引擎容器服务提供 RDMA 拓扑感知调度能力,通过对 GPU 卡和 RDMA 设备的网络拓扑信息的感知,调度器能够将同一个 Job 中的所有 Pod 调度到 RDMA 网络中拓扑距离尽可能接近的节点和 RDMA 网卡上,进而帮助用户充分发挥 RDMA 网络的通信能力,提升 AI 大模型训练性能。 使用限制项目 要求 补充说明 集群版本 当前仅支持 Ku...

高性能计算集群概述

高性能计算集群为可用区级别的资源,用于实现高性能计算GPU实例的逻辑隔离。同一可用区内实例间RDMA网络互联互通,不同可用区内实例间RDMA网络相互隔离。 创建高性能计算GPU实例前,您需要首先创建高性能计算集群,后续将新购买的GPU云服务器部署在该集群中,实现大规模集群业务场景。

购买高性能计算GPU型实例

您可以根据业务场景购买高性能计算GPU型实例。 约束限制高性能计算GPU实例自身的使用限制如下: 创建高性能计算GPU型实例后,高性能计算集群RDMA网络会在VPC网络的基础上增加RDMA网卡,当前默认RDMA设备IP地址为固定的198.x.x.x/33.x.x.x网段,您可以使用该网段在多个具有RDMA网卡的高性能GPU实例之间进行RDMA网络通信。 RDMA网卡和GPU实例绑定后,不支持挂载、卸载RDMA网卡。 RDMA网卡和VPC网络之间不可以互相通信,GPU实例之间只...

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

高性能计算GPU型

概述高性能计算GPU型规格在原有GPU型规格的基础上,加入RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。 说明 您可以在价格计算器页面,查看实例的价格及其配置项(系统盘、数据盘、公网IP等)费用。价格计算器为参考价格,具体请以云服务器控制台实际下单结果为准。 高性能计算GPU型实例不支持变更实例规格。 高性能计算GPU型规格提供的显卡特点如下: 规格名称 显卡类型 特点 ...

高性能计算GPU型

概述高性能计算GPU型规格在原有GPU型规格的基础上,加入RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。 说明 您可以在价格计算器页面,查看实例的价格及其配置项(系统盘、数据盘、公网IP等)费用。价格计算器为参考价格,具体请以云服务器控制台实际下单结果为准。 高性能计算GPU型实例不支持变更实例规格。 规格名称 显卡类型 特点 高性能计算GPU型ebmhpcpni2l A800 搭载NV...

AI 资源观测

容器服务支持监控集群的 AI 资源,即 GPU 资源、RDMA 资源的状态。本文为您介绍如何配置 AI 资源观测。 说明 【邀测·申请试用】:该功能目前处于 邀测 阶段,如需使用,请提交申请。 前提条件已开启云原生观测功能,详情请参见 开启云原生观测。 已开启容器服务观测功能,详情请参见 容器服务观测。 已安装对应的组件,包括:GPU 观测:已安装 nvidia-device-plugin 组件,并同步安装了 dcgm-exporter 插件,详情请参见 安装组件。 mGPU 观...

单个高性能计算集群最高支持挂载5个vePFS并行文件系统

产品功能 HPC GPU高性能计算集群与vePFS智算版并行文件系统互通RDMA,绑定数量从1:1增加到1:5,单个集群下最多可以绑定5个vePFS。 HPC GPU集群与vePFS智算版支持绑定状态中扩缩容。 删除高性能计算集群或vePFS智算版前,需先解除绑定再删除。 产品优势 通过计算节点与并行文件系统之间互通 RDMA 能力,提供持续稳定的高吞吐、低延迟的数据传输性能。 单个vePFS智算版存储容量用满,可新增绑定vePFS智算版并行文件系统增加存储容量...

监控容器服务中的 AI 训练任务

在 AI 训练模型处理业务用例时,监控训练任务状态和底层资源负载至关重要。本文为您介绍在容器服务集群中监控 AI 训练任务的方法。 前提条件集群已接入托管 Prometheus,并同步安装了 node-exporter 组件。详情请参见 接入托管 Prometheus。 说明 prometheus-agent 组件需要升级到 v2.0.5 及以上版本。详情请参见 升级组件。 已安装 rdma-device-plugin 组件,详情请参见 安装组件。 已安装 nvidia-device-plugin 组件,并同步安装了...

HPC-制作RDMA容器镜像

搭建训练环境时,可能需要使用容器镜像,本文介绍如何在高性能计算GPU实例(即HPC实例)搭建容器镜像。您也可以参考本文检查您现有的容器镜像是否符合要求。 前提条件本文HPC实例的镜像以 Ubuntu 20.04 64位(RDMA) 为例... /[镜像名称]:[镜像版本号] 第五步:多实例集合通信能力测试使用两台高性能计算GPU型实例对已制作的容器镜像进行集合通信能力测试。集合通信能力是介于网络带宽和AI训练场景间的一个评价通信能力的指标。 参考购买高...

特惠活动

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

一图详解大模型
浓缩大模型架构,厘清生产和应用链路关系
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询