You need to enable JavaScript to run this app.
导航

RDMA 网络监控

最近更新时间2023.11.21 14:35:52

首次发布时间2023.08.30 10:31:45

容器服务支持通过组件使用 RDMA 资源,以消除传统网络通信带给计算任务的瓶颈。同时,支持对 RDMA 网络进行监控。本文为您介绍如何配置和查看 RDMA 网络的监控信息。

说明

邀测·申请试用】:该功能目前处于 邀测 阶段,如需使用,请提交申请。

使用限制

  • 仅支持 NVIDIA GPU 模式下,采集节点和 Pod 的 RDMA 指标。不支持 mGPU 模式。
  • 共享(shared)模式下,仅上报节点的 RDMA 指标。
  • 独占(exclusive)模式下,仅上报 Pod 的 RDMA 指标。

前提条件

  • 容器服务集群已接入托管 Prometheus,并同步安装了 node-exporter 组件。详情请参见 接入托管 Prometheus
  • 已安装 rdma-device-plugin 组件,详情请参见 安装组件

说明

安装 rdma-device-plugin 组件时,系统会自动以 DaemonSet 的形式,在节点中安装 rdma-exporter 监控组件。

  • prometheus-agent 组件已升级到 v2.2.0 及以上版本,详情请参见 组件发布记录

操作步骤

当您将容器服务集群正确接入托管 Prometheus,并安装了对应的组件后,需要配置对应的采集规则,才能正确采集指标。

  • 节点 RDMA 网络指标,由 rdma-device-plugin 组件和 node-exporter 组件采集。
  • Pod RDMA 网络指标,由 rdma-device-plugin 组件采集。

操作步骤如下:

  1. 登录 容器服务控制台
  2. 在左侧导航栏中选择 集群
  3. 在集群列表页面,单击目标集群。
  4. 在集群管理页面的左侧导航栏中,选择 运维管理 > Prometheus 监控
  5. 在配置页面右上角,单击 指标采集配置
  6. 选择 数据面组件 页签,在组件列表 是否采集 列,单击开关,开启 rdma-device-plugin 组件的采集规则。
    alt
  7. (可选)单击组件列表 操作 栏中的 编辑指标,支持选择或丢弃组件的具体指标,并配置面向该组件的采集间隔。
    • 在 采集间隔 下拉菜单中,选择该组件指标的采集间隔。不同组件支持的采集间隔不同。
    • 在指标列表中,勾选指标,则采集该指标。取消勾选,则丢弃该指标。单击 指标类型 表头,允许基于指标类型对指标项进行筛选。
      alt

      说明

      • 减小指标采集间隔,会增加单位时间内上报的指标数量,可以提升监控精度。但会增加托管 Prometheus 标准版工作区的费用。增加指标采集间隔,会减少单位时间内上报的指标数量,可以减少托管 Prometheus 标准版工作区的费用,但会降低监控精度。请根据实际需要配置。
      • 云产品的指标类型分为 基础指标 和 其他指标,不同类型指标的计费方式不同,详情请参见 托管 Prometheus 计费方式

查看大盘

您可以在集群中自建 Grafana,并通过 Grafana 查看指标和创建大盘。详情请参见 在容器服务集群中部署 Grafana 并接入工作区

指标清单

rdma-device-plugin

rdma-device-plugin 组件的指标清单如下表所示。

指标分类指标名称指标类型指标含义
节点指标rdma_exporter_node_infiniband_implied_nak_seq_err_totalCounterRead response 乱序次数。
rdma_exporter_node_infiniband_local_ack_timeout_err_totalCounter出方向超时次数。
rdma_exporter_node_infiniband_np_cnp_sent_totalCounter出方向采集周期内网卡发出的 CNP 报文数量。代表接收端路径上出现了拥塞,需要通知发送端减少发送。
rdma_exporter_node_infiniband_np_ecn_marked_roce_packets_totalCounter入方向采集周期内网卡收到的 ECN mark 的报文数量。代表路径上出现了拥塞。
rdma_exporter_node_infiniband_out_of_sequence_totalCounter入方向乱序次数。该指标增长可能是链路有问题。
rdma_exporter_node_infiniband_packet_seq_err_totalCounter出方向乱序次数。
rdma_exporter_node_infiniband_port_data_received_bytes_totalCounter驱动层面入方向流量,包括 TCP/IP 和 RDMA。
rdma_exporter_node_infiniband_port_data_transmitted_bytes_totalCounter驱动层面出方向流量,包括 TCP/IP 和 RDMA。
rdma_exporter_node_infiniband_port_packets_received_totalCounter驱动层面入方向包数量,包括 TCP/IP 和 RDMA。
rdma_exporter_node_infiniband_port_packets_transmitted_totalCounter驱动层面出方向包数量,包括 TCP/IP 和 RDMA。
rdma_exporter_node_infiniband_rdma_data_received_bytes_totalCounterRDMA 入方向流量。
rdma_exporter_node_infiniband_rdma_data_transmitted_bytes_totalCounterRDMA 出方向流量。
rdma_exporter_node_infiniband_rdma_packets_received_totalCounterRDMA 入方向包数量。
rdma_exporter_node_infiniband_rdma_packets_transmitted_totalCounterRDMA 出方向包数量。
rdma_exporter_node_infiniband_rp_cnp_handled_totalCounter入方向采集周期内网卡处理的 CNP 报文数量。需要降低发送频率。
rdma_exporter_node_infiniband_rp_cnp_ignored_totalCounter入方向采集周期内网卡忽略的 CNP 报文数量。该指标不应该增长。如果增长要查看网卡的拥塞控制配置是否正常,是否使能 ECN/CNP。
rdma_exporter_node_infiniband_rx_pause_duration_secondsCounter入方向 pause 时长。该指标一般指向网络拥塞,代表网卡作为发送端收到的 PFC 包, 意味着接收端处于严重拥塞,接收端要求网卡停止发送。
rdma_exporter_node_infiniband_tx_pause_duration_secondsCounter出方向 pause 时长。该指标一般指向主机异常,网卡发出 PFC 包,意味着网卡作为接收端处于严重拥塞,网卡要求发送端停止发送。
rdma_exporter_node_infiniband_rx_pause_totalCounter入方向接收到的 PFC pause 报文数量,当前都是使用了优先级 5。
rdma_exporter_node_infiniband_tx_pause_totalCounter出方向发送的 PFC pause 报文数量。
Pod 指标rdma_exporter_pod_infiniband_implied_nak_seq_err_totalCounterRead response 乱序次数。
rdma_exporter_pod_infiniband_local_ack_timeout_err_totalCounter出方向超时次数。
rdma_exporter_pod_infiniband_np_cnp_sent_totalCounter出方向采集周期内网卡发出的 CNP 报文数量。代表接收端路径上出现了拥塞,需要通知发送端减少发送。
rdma_exporter_pod_infiniband_np_ecn_marked_roce_packets_totalCounter入方向采集周期内网卡收到的 ECN mark 的报文数量。代表路径上出现了拥塞。
rdma_exporter_pod_infiniband_out_of_sequence_totalCounter入方向乱序次数。该指标增长可能是链路有问题。
rdma_exporter_pod_infiniband_packet_seq_err_totalCounter出方向乱序次数。
rdma_exporter_pod_infiniband_port_data_received_bytes_totalCounter驱动层面入方向流量,包括 TCP/IP 和 RDMA。
rdma_exporter_pod_infiniband_port_data_transmitted_bytes_totalCounter驱动层面出方向流量,包括 TCP/IP 和 RDMA。
rdma_exporter_pod_infiniband_port_packets_received_totalCounter驱动层面入方向包数量,包括 TCP/IP 和 RDMA。
rdma_exporter_pod_infiniband_port_packets_transmitted_totalCounter驱动层面出方向包数量,包括 TCP/IP 和 RDMA。
rdma_exporter_pod_infiniband_rdma_data_received_bytes_totalCounterRDMA 入方向流量。
rdma_exporter_pod_infiniband_rdma_data_transmitted_bytes_totalCounterRDMA 出方向流量。
rdma_exporter_pod_infiniband_rdma_packets_received_totalCounterRDMA 入方向包数量。
rdma_exporter_pod_infiniband_rdma_packets_transmitted_totalCounterRDMA 出方向包数量。
rdma_exporter_pod_infiniband_rp_cnp_handled_totalCounter入方向采集周期内网卡处理的 CNP 报文数量。需要降低发送频率。
rdma_exporter_pod_infiniband_rp_cnp_ignored_totalCounter入方向采集周期内网卡忽略的 CNP 报文数量。该指标不应该增长。如果增长要查看网卡的拥塞控制配置是否正常,是否使能 ECN/CNP。
rdma_exporter_pod_infiniband_rx_pause_duration_secondsCounter入方向 pause 时长。该指标一般指向网络拥塞,代表网卡作为发送端收到的 PFC 包, 意味着接收端处于严重拥塞,接收端要求网卡停止发送。
rdma_exporter_pod_infiniband_tx_pause_duration_secondsCounter出方向 pause 时长。该指标一般指向主机异常,网卡发出 PFC 包,意味着网卡作为接收端处于严重拥塞,网卡要求发送端停止发送。
rdma_exporter_pod_infiniband_rx_pause_totalCounter入方向接收到的 PFC pause 报文数量,当前都是使用了优先级 5。
rdma_exporter_pod_infiniband_tx_pause_totalCounter出方向发送的 PFC pause 报文数量。

rdma-device-plugin 组件的指标中自定义了部分标签,您可以使用这些标签对指标进行筛选和查看。常用指标标签说明如下表所示。

标签名称说明
Pod使用 RDMA 设备的容器组 ID,例如pcji9mk1***
Namespace使用 RDMA 设备的容器组所在命名空间。

RdmaMode

RDMA 网络模式,取值包括:

  • exclusive:独占模式。
  • shared:共享模式。
Container使用 RDMA 设备的容器名称。
DeviceRDMA 网络设备名称,例如mlx5_1

说明

Prometheus 通用标签,比如clusterinstance等,不再单独说明。

node-exporter

node-exporter 采集的 RDMA 指标清单,请参见 官方文档。您可以在 Explore 中,通过node_infiniband_前缀查询这些指标。
alt

查看指标

您可以使用托管 Prometheus 的 Explore 功能来快速查询和展示指标数据。详情请参见 指标查询

配置告警

您可以在托管 Prometheus 的告警中心配置集群相关告警。详情请参见 创建告警规则