最近更新时间:2024.02.28 20:04:51
首次发布时间:2023.08.30 10:31:45
容器服务支持通过组件使用 RDMA 资源,以消除传统网络通信带给计算任务的瓶颈。同时,支持对 RDMA 网络进行监控。本文为您介绍如何配置和查看 RDMA 网络的监控信息。
说明
【邀测·申请试用】:该功能目前处于 邀测 阶段,如需使用,请提交申请。
说明
安装 rdma-device-plugin 组件时,系统会自动以 DaemonSet 的形式,在节点中安装 rdma-exporter 监控组件。
当您将容器服务集群正确接入托管 Prometheus,并安装了对应的组件后,需要配置对应的采集规则,才能正确采集指标。
操作步骤如下:
说明
您可以在集群中自建 Grafana,并通过 Grafana 查看指标和创建大盘。详情请参见 在容器服务集群中部署 Grafana 并接入工作区。
rdma-device-plugin 组件的指标清单如下表所示。
指标分类 | 指标名称 | 指标类型 | 指标含义 |
---|---|---|---|
节点指标 | rdma_exporter_node_infiniband_implied_nak_seq_err_total | Counter | Read response 乱序次数。 |
rdma_exporter_node_infiniband_local_ack_timeout_err_total | Counter | 出方向超时次数。 | |
rdma_exporter_node_infiniband_np_cnp_sent_total | Counter | 出方向采集周期内网卡发出的 CNP 报文数量。代表接收端路径上出现了拥塞,需要通知发送端减少发送。 | |
rdma_exporter_node_infiniband_np_ecn_marked_roce_packets_total | Counter | 入方向采集周期内网卡收到的 ECN mark 的报文数量。代表路径上出现了拥塞。 | |
rdma_exporter_node_infiniband_out_of_sequence_total | Counter | 入方向乱序次数。该指标增长可能是链路有问题。 | |
rdma_exporter_node_infiniband_packet_seq_err_total | Counter | 出方向乱序次数。 | |
rdma_exporter_node_infiniband_port_data_received_bytes_total | Counter | 驱动层面入方向流量,包括 TCP/IP 和 RDMA。 | |
rdma_exporter_node_infiniband_port_data_transmitted_bytes_total | Counter | 驱动层面出方向流量,包括 TCP/IP 和 RDMA。 | |
rdma_exporter_node_infiniband_port_packets_received_total | Counter | 驱动层面入方向包数量,包括 TCP/IP 和 RDMA。 | |
rdma_exporter_node_infiniband_port_packets_transmitted_total | Counter | 驱动层面出方向包数量,包括 TCP/IP 和 RDMA。 | |
rdma_exporter_node_infiniband_rdma_data_received_bytes_total | Counter | RDMA 入方向流量。 | |
rdma_exporter_node_infiniband_rdma_data_transmitted_bytes_total | Counter | RDMA 出方向流量。 | |
rdma_exporter_node_infiniband_rdma_packets_received_total | Counter | RDMA 入方向包数量。 | |
rdma_exporter_node_infiniband_rdma_packets_transmitted_total | Counter | RDMA 出方向包数量。 | |
rdma_exporter_node_infiniband_rp_cnp_handled_total | Counter | 入方向采集周期内网卡处理的 CNP 报文数量。需要降低发送频率。 | |
rdma_exporter_node_infiniband_rp_cnp_ignored_total | Counter | 入方向采集周期内网卡忽略的 CNP 报文数量。该指标不应该增长。如果增长要查看网卡的拥塞控制配置是否正常,是否使能 ECN/CNP。 | |
rdma_exporter_node_infiniband_rx_pause_duration_seconds | Counter | 入方向 pause 时长。该指标一般指向网络拥塞,代表网卡作为发送端收到的 PFC 包, 意味着接收端处于严重拥塞,接收端要求网卡停止发送。 | |
rdma_exporter_node_infiniband_tx_pause_duration_seconds | Counter | 出方向 pause 时长。该指标一般指向主机异常,网卡发出 PFC 包,意味着网卡作为接收端处于严重拥塞,网卡要求发送端停止发送。 | |
rdma_exporter_node_infiniband_rx_pause_total | Counter | 入方向接收到的 PFC pause 报文数量,当前都是使用了优先级 5。 | |
rdma_exporter_node_infiniband_tx_pause_total | Counter | 出方向发送的 PFC pause 报文数量。 | |
Pod 指标 | rdma_exporter_pod_infiniband_implied_nak_seq_err_total | Counter | Read response 乱序次数。 |
rdma_exporter_pod_infiniband_local_ack_timeout_err_total | Counter | 出方向超时次数。 | |
rdma_exporter_pod_infiniband_np_cnp_sent_total | Counter | 出方向采集周期内网卡发出的 CNP 报文数量。代表接收端路径上出现了拥塞,需要通知发送端减少发送。 | |
rdma_exporter_pod_infiniband_np_ecn_marked_roce_packets_total | Counter | 入方向采集周期内网卡收到的 ECN mark 的报文数量。代表路径上出现了拥塞。 | |
rdma_exporter_pod_infiniband_out_of_sequence_total | Counter | 入方向乱序次数。该指标增长可能是链路有问题。 | |
rdma_exporter_pod_infiniband_packet_seq_err_total | Counter | 出方向乱序次数。 | |
rdma_exporter_pod_infiniband_port_data_received_bytes_total | Counter | 驱动层面入方向流量,包括 TCP/IP 和 RDMA。 | |
rdma_exporter_pod_infiniband_port_data_transmitted_bytes_total | Counter | 驱动层面出方向流量,包括 TCP/IP 和 RDMA。 | |
rdma_exporter_pod_infiniband_port_packets_received_total | Counter | 驱动层面入方向包数量,包括 TCP/IP 和 RDMA。 | |
rdma_exporter_pod_infiniband_port_packets_transmitted_total | Counter | 驱动层面出方向包数量,包括 TCP/IP 和 RDMA。 | |
rdma_exporter_pod_infiniband_rdma_data_received_bytes_total | Counter | RDMA 入方向流量。 | |
rdma_exporter_pod_infiniband_rdma_data_transmitted_bytes_total | Counter | RDMA 出方向流量。 | |
rdma_exporter_pod_infiniband_rdma_packets_received_total | Counter | RDMA 入方向包数量。 | |
rdma_exporter_pod_infiniband_rdma_packets_transmitted_total | Counter | RDMA 出方向包数量。 | |
rdma_exporter_pod_infiniband_rp_cnp_handled_total | Counter | 入方向采集周期内网卡处理的 CNP 报文数量。需要降低发送频率。 | |
rdma_exporter_pod_infiniband_rp_cnp_ignored_total | Counter | 入方向采集周期内网卡忽略的 CNP 报文数量。该指标不应该增长。如果增长要查看网卡的拥塞控制配置是否正常,是否使能 ECN/CNP。 | |
rdma_exporter_pod_infiniband_rx_pause_duration_seconds | Counter | 入方向 pause 时长。该指标一般指向网络拥塞,代表网卡作为发送端收到的 PFC 包, 意味着接收端处于严重拥塞,接收端要求网卡停止发送。 | |
rdma_exporter_pod_infiniband_tx_pause_duration_seconds | Counter | 出方向 pause 时长。该指标一般指向主机异常,网卡发出 PFC 包,意味着网卡作为接收端处于严重拥塞,网卡要求发送端停止发送。 | |
rdma_exporter_pod_infiniband_rx_pause_total | Counter | 入方向接收到的 PFC pause 报文数量,当前都是使用了优先级 5。 | |
rdma_exporter_pod_infiniband_tx_pause_total | Counter | 出方向发送的 PFC pause 报文数量。 |
rdma-device-plugin 组件的指标中自定义了部分标签,您可以使用这些标签对指标进行筛选和查看。常用指标标签说明如下表所示。
标签名称 | 说明 |
---|---|
Pod | 使用 RDMA 设备的容器组 ID,例如pcji9mk1*** 。 |
Namespace | 使用 RDMA 设备的容器组所在命名空间。 |
RdmaMode | RDMA 网络模式,取值包括:
|
Container | 使用 RDMA 设备的容器名称。 |
Device | RDMA 网络设备名称,例如mlx5_1 。 |
说明
Prometheus 通用标签,比如cluster
、instance
等,不再单独说明。
node-exporter 采集的 RDMA 指标清单,请参见 官方文档。您可以在 Explore 中,通过node_infiniband_
前缀查询这些指标。
您可以使用托管 Prometheus 的 Explore 功能来快速查询和展示指标数据。详情请参见 指标查询。
您可以在托管 Prometheus 的告警中心配置集群相关告警。详情请参见 创建告警规则。