You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

Rdmainfiniband无法打开主机(iberror:发现失败)端口状态:停机

这个问题通常发生在使用RDMA Infiniband时,主机无法进行ib路由或端口连接。为了解决这个问题,可以先使用“ibstat”命令检查端口状态和通信速率是否正确。如果端口状态是“Stopped”或“LinkDown”,则需要检查物理连接并修复问题。如果端口状态是“Active”,则需要使用“ibping”命令来测试主机之间的连接。如果主机之间的连接没有问题,则可能是因为未安装或配置正确的驱动程序,这时候需要检查并安装正确的驱动程序。以下是参考示例:

#使用ibstat命令检查端口状态
$ ibstat
CA 'mlx4_0'
        CA type: MT4099
        Number of ports: 2
        Firmware version: 2.11.5000
        Hardware version: 0
        Node GUID: 0x0025:90ff:ffff:ff00
        System image GUID: 0x0025:90ff:ffff:ff03
        Port 1:
                State: Down
                Physical state: Disabled
                Rate: 10
                Base lid: 0
                LMC: 0
                SM lid: 0
                Capability mask: 0x0251486a
                Port GUID: 0x0025:90ff:ffff:ff01
                Link layer: InfiniBand

#使用ibping命令检查主机之间的连接
$ ibping -c4 <hostname>
PING <hostname>: (non-default port)
     56 bytes from <hostname> (Lid 2): time=119.558 usec
     56 bytes from <hostname> (Lid 2): time=110.068 usec
     56 bytes from <hostname> (Lid 2): time=104.129 usec

#如果驱动程序存在问题,可以使用以下命令安装或更新驱动程序
$ yum install -y rdma-core
本文内容通过AI工具匹配关键字智能整合而成,仅供参考,火山引擎不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见,您可以通过联系service@volcengine.com进行反馈,火山引擎收到您的反馈后将及时答复和处理。
展开更多
面向开发者的云福利中心,ECS 60元/年,域名1元起,助力开发者快速在云上构建可靠应用

社区干货

ByteFUSE的演进与落地

CSI-Driver会记录每个挂载点的状态,当CSI-Drvier异常退出重启时会recover所有挂载点来保证高可用性。- **FUSE** **Client:** 即上面提到的ByteFUSE Daemon,在1.0架构下,针对每个挂载点,CSI-Driver都会启动一个F... 使ByteFUSE Daemon能够同时支持从虚机或者宿主机(容器)挂载。同时,相较于传统的FUSE框架,基于VDUSE实现的FUSE Daemon不再依赖/dev/fuse这个字符设备,而是通过共享内存机制来和内核通信,这种方式一方面对后续的性能...

特惠活动

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

Rdmainfiniband无法打开主机(iberror:发现失败)端口状态:停机 -优选内容

HPC-单机&多机点对点RDMA网络性能测试
RDMA网络性能。 背景信息HPC实例是在原有GPU实例的基础上,加入了RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。 InfiniBand是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。 检查RDMA网卡速率登录Linux实例。 执行以下命令,安装测试软件包。apt update && apt install -y infiniband-diags 使用 ibstatus ...
RDMA 网络监控
指标清单rdma-device-pluginrdma-device-plugin 组件的指标清单如下表所示。 指标分类 指标名称 指标类型 指标含义 节点指标 rdma_exporter_node_infiniband_implied_nak_seq_err_total Counter Read response 乱... rdma_exporter_node_infiniband_tx_pause_duration_seconds Counter 出方向 pause 时长。该指标一般指向主机异常,网卡发出 PFC 包,意味着网卡作为接收端处于严重拥塞,网卡要求发送端停止发送。 rdma_exporter_nod...
通过 RDMA 网络加速训练
RDMA(Remote Direct Memory Access)是新一代的网络传输技术,其诞生主要是为了解决网络传输中服务器端数据处理的延迟。在大规模的分布式训练任务中通过使用 RDMA 技术可以获得高吞吐、低延迟的网络通信,提升训练效率... NCCL_IB_TIMEOUT=${NCCL_IB_TIMEOUT:-23}NCCL_IB_RETRY_CNT=${NCCL_IB_RETRY_CNT:-7} 如下变量建议用户直接使用默认值,不要自行修改NCCL_IB_HCA=<平台根据实例规格自动注入>NCCL_IB_DISABLE=0 NCCL_IB_GID_INDEX=<...
VKE 集群中使用 RDMA 资源
Kernel Bypass:RDMA 提供一个专有的 Verbs interface,应用程序可以直接从用户空间执行数据传输,不需要在内核态与用户态之间执行上下文切换。 CPU Offload:应用程序可以访问远程主机内存,不消耗远程主机中的任何 C... then echo "Not found RDMA device, get max rate device error" return 1 fi for ((i=0; i<${devs[@]}; i+=1)); do rate=$(cat /sys/class/infiniband/${devs[i]}/ports/${ports[i]}/rate 2>/dev/nul...

Rdmainfiniband无法打开主机(iberror:发现失败)端口状态:停机 -相关内容

HPC裸金属-基于NCCL的单机/多机RDMA网络性能测试

本文介绍如何在虚拟环境或容器环境中,使用NCCL测试ebmhpcpni2l实例的RDMA网络性能。 背景信息ebmhpcpni2l实例搭载NVIDIA A800显卡,同时支持800Gbps RDMA高速网络,大幅提升集群通信性能,提高大规模训练加速比。更多... OFED MLNX OFED(OpenFabrics Enterprise Distribution)是一组开源软件驱动、核心内核代码、中间件和支持InfiniBand Fabric的用户级接口程序,用于监视InfiniBand网络的运行情况,包括监视传输带宽和监视Fabric内部的...

HPC-基于NCCL通信库的多机RDMA网络性能测试

InfiniBand上实现较高的通信速度。NCCL支持安装在单个节点或多个节点上的大量GPU卡上,并可用于单进程或多进程(如MPI)应用。 NCCL Tests NCCL Tests是一个测试工具集,可以用来评估NCCL的运行性能和正确性。 关键环境变量说明环境变量 解释 hpcg1ve规格设置 hpcpni2规格设置 ebmhpcpni2/ebmhpchfpni2规格设置 NCCL_IB_HCA 环境中的RDMA网卡 推荐配置为:NCCL_IB_HCA=mlx5_1:1 推荐配置为:NCCL_IB_HCA=mlx5_1:1,mlx5_2:1,mlx5_3...

验证镜像是否支持 RDMA

plain apt update && apt install -y infiniband-diags使用 ibstatus 命令查看网卡速率。可以看到本例中网卡(mlx5_1)速率(rate)为 100Gb/s,对 V100 RDMA 机型而言这是符合预期的。 plain ibstatusInfiniband dev... Error: Failed to download metadata for repo 'appstream': Cannot prepare internal mirrorlist: No URLs in mirrorlist此时可先使用如下两条命令,然后再次执行 yum install -y infiniband-diags 即可。 sed -i ...

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

HPC-配置NCCL

本文介绍如何为高性能计算GPU实例手动配置NCCL,从而避免RDMA网络断链,影响业务正常运行。 NCCL简介NCCL(Nvidia Collective Communication Library)是NVIDIA的集合通信库,可以在实例内或实例间实现多个GPU的快速通信。 操作步骤CentOS 7.8/veLinux 1.0/Ubuntu 16.04 登录云服务器,具体操作请参见登录Linux实例。 修改业务的超时时间和超时次数。执行vim /etc/profile命令,打开/etc/profile文件。 您也可以执行vim /etc/environmen...

AI 资源观测

容器服务支持监控集群的 AI 资源,即 GPU 资源、RDMA 资源的状态。本文为您介绍如何配置 AI 资源观测。 说明 【邀测·申请试用】:该功能目前处于 邀测 阶段,如需使用,请提交申请。 前提条件已开启云原生观测功能,详... 故障的 GPU 数 Count count(DCGM_FI_DEV_XID_ERRORS{cluster="$clusterId",job=~"dcgm"}>0) or on() vector(0) GPU 节点数 Count count(kube_node_status_capacity{resource="nvidia_com_gpu", cluster="$cluster...

HPC-制作RDMA容器镜像

apt update && apt install -y infiniband-diags openssh-server locate wget vim回显如下时,输入“6”。回显如下时,输入“19”,等待执行完成。 在容器中,执行ibstatus 命令查看网卡速率,回显如下,本例中网卡速率为200Gb/s。 在容器中,执行以下命令,安装RDMA相关库。apt update && apt install -y perftest ibverbs-providers libibumad3 libibverbs1 libnl-3-200 libnl-route-3-200 librdmacm1 在容器中,执行以下命令,检查RD...

ByteFUSE的演进与落地

CSI-Driver会记录每个挂载点的状态,当CSI-Drvier异常退出重启时会recover所有挂载点来保证高可用性。- **FUSE** **Client:** 即上面提到的ByteFUSE Daemon,在1.0架构下,针对每个挂载点,CSI-Driver都会启动一个F... 使ByteFUSE Daemon能够同时支持从虚机或者宿主机(容器)挂载。同时,相较于传统的FUSE框架,基于VDUSE实现的FUSE Daemon不再依赖/dev/fuse这个字符设备,而是通过共享内存机制来和内核通信,这种方式一方面对后续的性能...

火山引擎混合云进入信通院&沙利文报告领导者象限

高性能无损网络: 支持 IB 和 ROCE 网络类型,3.2Tbps RDMA 带宽以及万卡以上规模集群,端到端时延低至2us;高性能并行文件存储: 最大支持1500GB/s的 I/O 吞吐量和1200万 IOPS ;集成 MLP 机器学习平台: 如大模型训练、自动驾驶感知算法训练等场景,千卡多机线性加速比97.78%,千卡任务稳定运行数百小时;集成火山方舟: 为客户提供精选大模型;灵活的算力供应模式: 包括 GPU 专区、云服务、买断、软件订阅等。 此外,依托字节跳动自身在大模...

特惠活动

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

一图详解大模型
浓缩大模型架构,厘清生产和应用链路关系
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询