RDMA集群基准测试

开发者特惠

面向开发者的云福利中心，ECS 60元/年，域名1元起，助力开发者快速在云上构建可靠应用

社区干货

使集群利用率维持在较高水平。模型训练的第二个痛点是偏管理上的。比如在算法问题上,一个方法比另外一好,其中的原因多种多样,可能是基础架构不同,也可能是算法不同。在字节跳动的实践中发现,基础架构对性能或迭代... **超强网络性能:** 机内 600GBps 双向 NVLink 通道,800Gbps RDMA 网络高速互联,支持 GPU Direct Access。 - **并行文件系统 vePFS:** 百 Gb 带宽,亚毫秒延迟,支持数亿小文件随机读取。![1280X1280 (1).PNG...

AI ASIC 的基准测试、优化和生态系统协作的整合|KubeCon China

字节跳动高级软件工程师余明辉分享了 **《AI ASIC 的基准测试、优化和生态系统协作的整合》** 议题。以下是本次演讲的文字稿。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tld... 使得我们不得不更依赖集群计算。*说到这里,大概就能回答第一部分的第一个问题: **为什么 AI ASIC 现在越来越受关注** ——在物理世界的约束下,依赖摩尔定律的通用算力没法满足需求增长,而为了破局,专项专用计...

基于ClickHouse的复杂查询实现与优化|社区征文

难以发挥集群的全部资源。![image.png](https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/48c436d0c89443539d52f2748bb85732~tplv-k3u1fbpfcp-5.jpeg?)随着企业业务复杂度的不断提升,复杂查询,特别是有多轮... 另一方面可以引入 RDMA 来减少一定的开销。经过测试,在一些数据传输量大的场景,有不小的收益。**利用Runtime Filter的优化在不少数据库也有使用。** Join的算子通常是OLAP引擎里最耗时的算子,优化Join算子有两种...

字节跳动流式数仓和实时服务分析的思考与实践

两条链路有各自独立的计算集群和调度,数据有不同的入口和不同的处理方式,这种模式下做数据的端到端一致性挑战很大,成本非常高。 **实现流批一体后,通过自动调度资源,自动调度流式链路的数据处理流程,把链路中的... RDMA、PMEM、内存等手段,提升查询及 Shuffle 效率 - 物化视图满足数据预计算 - 用 C++ 重写向量化引擎,提升整体效率几个改变下来,可以满足像头条、抖音等产品实时的写入、更新、高并发要求以及数据的可视化...

特惠活动

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

RDMA集群基准测试-优选内容

HPC-基于NCCL通信库的多机RDMA网络性能测试

全面的评估多台实例组成的集群的性能,我们推荐采用NCCL(NVIDIA Collective Communications Library)集合通信库测试,可在实例内和实例间实现多个GPU的快速集合。如何配置NCCL? 本文基于火山引擎创建两台高性能计算GPU型机器,请根据实际需要选择计算规格。实践指南关键组件火山引擎高性能计算GPU型实例高性能计算GPU型实例实例在GPU型规格和基础私有网络VPC的基础上,加入RDMA网络,可大幅提升内网网络性能,提高大规模集群加速比,适...

VKE 集群中使用 RDMA 资源

容器服务支持通过组件使用 RDMA 资源,以消除传统网络通信带给计算任务的瓶颈。本文为您介绍 VKE 集群如何使用 RDMA 资源。说明【邀测·申请试用】:VKE 集群中使用 RDMA 资源与其依赖的 kubelet 自定义参数功能均处于邀测阶段,如需使用,请提交申请。背景信息RDMA (Remote Direct Memroy Access,远程直接内存访问)是一种高性能网络协议,能够减少了CPU 占用,减少内存带宽瓶颈,提高带宽利用率。主要具有以下优势: Zero Copy:应...

HPC-单机&多机点对点RDMA网络性能测试

本文以Ubuntu 20.04的ecs.hpcpni2.28xlarge实例为例,介绍如何使用InfiniBand在单台实例内或两台实例间测试RDMA网络性能。背景信息HPC实例是在原有GPU实例的基础上,加入了RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。 InfiniBand是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。检查RDMA网卡速率登录Linu...

HPC裸金属-基于NCCL的单机/多机RDMA网络性能测试

本文介绍如何在虚拟环境或容器环境中,使用NCCL测试ebmhpcpni2l实例的RDMA网络性能。背景信息ebmhpcpni2l实例搭载NVIDIA A800显卡,同时支持800Gbps RDMA高速网络,大幅提升集群通信性能,提高大规模训练加速比。更多信息,请参见高性能计算GPU型ebmhpcpni2l。 NCCL是NVIDIA的集合通信库,支持安装在单个节点或多个节点的大量GPU卡上,实现多个GPU的快速通信。关键组件本文所述操作需要安装的软件包介绍如下。关键组件说明 NVIDIA驱...

RDMA集群基准测试-相关内容

RDMA 拓扑感知调度

会导致不同 RDMA 网卡之间的通讯距离不一样,因此不同的 GPU 设备之间的通讯性能也会有差异。针对上述情况,火山引擎容器服务提供 RDMA 拓扑感知调度能力,通过对 GPU 卡和 RDMA 设备的网络拓扑信息的感知,调度器能够将同一个 Job 中的所有 Pod 调度到 RDMA 网络中拓扑距离尽可能接近的节点和 RDMA 网卡上,进而帮助用户充分发挥 RDMA 网络的通信能力,提升 AI 大模型训练性能。使用限制项目要求补充说明集群版本当前仅支持 Ku...

高性能计算集群概述

高性能计算集群为可用区级别的资源,用于实现高性能计算GPU实例的逻辑隔离。同一可用区内实例间RDMA网络互联互通,不同可用区内实例间RDMA网络相互隔离。创建高性能计算GPU实例前,您需要首先创建高性能计算集群,后续将新购买的GPU云服务器部署在该集群中,实现大规模集群业务场景。

购买高性能计算GPU型实例

您可以根据业务场景购买高性能计算GPU型实例。约束限制高性能计算GPU实例自身的使用限制如下: 创建高性能计算GPU型实例后,高性能计算集群的RDMA网络会在VPC网络的基础上增加RDMA网卡,当前默认RDMA设备IP地址为固定的198.x.x.x/33.x.x.x网段,您可以使用该网段在多个具有RDMA网卡的高性能GPU实例之间进行RDMA网络通信。 RDMA网卡和GPU实例绑定后,不支持挂载、卸载RDMA网卡。 RDMA网卡和VPC网络之间不可以互相通信,GPU实例之间只...

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

高性能计算GPU型

概述高性能计算GPU型规格在原有GPU型规格的基础上,加入RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。说明您可以在价格计算器页面,查看实例的价格及其配置项(系统盘、数据盘、公网IP等)费用。价格计算器为参考价格,具体请以云服务器控制台实际下单结果为准。高性能计算GPU型实例不支持变更实例规格。高性能计算GPU型规格提供的显卡特点如下: 规格名称显卡类型特点 ...

高性能计算GPU型

概述高性能计算GPU型规格在原有GPU型规格的基础上,加入RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。说明您可以在价格计算器页面,查看实例的价格及其配置项(系统盘、数据盘、公网IP等)费用。价格计算器为参考价格,具体请以云服务器控制台实际下单结果为准。高性能计算GPU型实例不支持变更实例规格。规格名称显卡类型特点高性能计算GPU型ebmhpcpni2l A800 搭载NV...

AI 资源观测

容器服务支持监控集群的 AI 资源,即 GPU 资源、RDMA 资源的状态。本文为您介绍如何配置 AI 资源观测。说明【邀测·申请试用】:该功能目前处于邀测阶段,如需使用,请提交申请。前提条件已开启云原生观测功能,详情请参见开启云原生观测。已开启容器服务观测功能,详情请参见容器服务观测。已安装对应的组件,包括:GPU 观测:已安装 nvidia-device-plugin 组件,并同步安装了 dcgm-exporter 插件,详情请参见安装组件。 mGPU 观...

单个高性能计算集群最高支持挂载5个vePFS并行文件系统

产品功能 HPC GPU高性能计算集群与vePFS智算版并行文件系统互通RDMA,绑定数量从1:1增加到1:5,单个集群下最多可以绑定5个vePFS。 HPC GPU集群与vePFS智算版支持绑定状态中扩缩容。删除高性能计算集群或vePFS智算版前,需先解除绑定再删除。产品优势通过计算节点与并行文件系统之间互通 RDMA 能力,提供持续稳定的高吞吐、低延迟的数据传输性能。单个vePFS智算版存储容量用满,可新增绑定vePFS智算版并行文件系统增加存储容量...

监控容器服务中的 AI 训练任务

在 AI 训练模型处理业务用例时,监控训练任务状态和底层资源负载至关重要。本文为您介绍在容器服务集群中监控 AI 训练任务的方法。前提条件集群已接入托管 Prometheus,并同步安装了 node-exporter 组件。详情请参见接入托管 Prometheus。说明 prometheus-agent 组件需要升级到 v2.0.5 及以上版本。详情请参见升级组件。已安装 rdma-device-plugin 组件,详情请参见安装组件。已安装 nvidia-device-plugin 组件,并同步安装了...

HPC-制作RDMA容器镜像

搭建训练环境时,可能需要使用容器镜像,本文介绍如何在高性能计算GPU实例(即HPC实例)搭建容器镜像。您也可以参考本文检查您现有的容器镜像是否符合要求。前提条件本文HPC实例的镜像以 Ubuntu 20.04 64位(RDMA) 为例... /[镜像名称]:[镜像版本号] 第五步:多实例集合通信能力测试使用两台高性能计算GPU型实例对已制作的容器镜像进行集合通信能力测试。集合通信能力是介于网络带宽和AI训练场景间的一个评价通信能力的指标。参考购买高...

特惠活动

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

产品体验

体验中心

云服务器特惠

云服务器

云服务器ECS新人特惠

立即抢购

白皮书

一图详解大模型

浓缩大模型架构，厘清生产和应用链路关系

立即获取

RDMA集群基准测试

开发者特惠

社区干货

火山引擎大规模机器学习平台架构设计与应用实践

AI ASIC 的基准测试、优化和生态系统协作的整合|KubeCon China

基于ClickHouse的复杂查询实现与优化|社区征文

字节跳动流式数仓和实时服务分析的思考与实践

特惠活动

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

RDMA集群基准测试-优选内容

RDMA集群基准测试-相关内容

RDMA 拓扑感知调度

高性能计算集群概述

购买高性能计算GPU型实例

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

高性能计算GPU型

高性能计算GPU型

AI 资源观测

单个高性能计算集群最高支持挂载5个vePFS并行文件系统

监控容器服务中的 AI 训练任务

HPC-制作RDMA容器镜像

特惠活动

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

产品体验

体验中心

云服务器特惠

白皮书

相关主题

最新活动

爆款1核2G共享型服务器

火山引擎增长体验专区

数据智能VeDI

热门访问

一键开启云上增长新空间