You need to enable JavaScript to run this app.
导航

推荐配置的告警规则

最近更新时间2023.12.11 21:55:05

首次发布时间2023.09.13 14:24:12

消息队列 Kafka版支持配置云监控告警规则,帮助您实时关注实例的运行状态。本文档介绍典型场景下的告警规则配置示例,建议参考这些推荐的告警策略,配置监控指标的告警规则。

实例维度

实例磁盘使用容量超过 85%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件 1

    • 监控指标:容量使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:85%

    告警级别

    通知

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 清理磁盘空间。您可以缩短 Topic 的消息保留时长,促使消息尽快过期,以此来清理磁盘空间。操作步骤请参考修改 Topic 配置
    • 扩容实例磁盘。为了避免实例磁盘超限,触发实例的消息自动删除策略,建议及时扩容实例磁盘,增加存储空间。操作步骤请参考升级实例规格

实例磁盘使用容量超过 30% 且磁盘倾斜率超过 30%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    指标类型

    多指标

    触发条件 1

    • 监控指标:容量使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:30%

    触发条件 2

    • 监控指标:磁盘倾斜率
    • 持续周期:持续1个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:30%

    告警级别

    通知

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 扩容实例磁盘。为了避免单个节点磁盘被写满、影响后续的数据写入,建议及时扩容实例磁盘,增加存储空间。操作步骤请参考升级实例规格
    • 排查业务侧的代码逻辑。调整数据写入方式,确保数据均衡写入到实例的各个节点。
    • 数据再均衡。在数据再均衡的过程中,后端服务会检查集群中的所有 Broker 磁盘使用量差异,并参考其中的 Topic 分区流量差异,自动均衡所有 Broker 的数据,使不同 Broker 的磁盘使用量基本一致。操作步骤请参考数据再均衡

实例生产流量超过规格上限的 85%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:消息生产速率
    • 持续周期:持续5个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:当前规格流量峰值的 85%。各个规格的流量限制请参考产品规格

    告警级别

    警告

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 如果是短暂的流量高峰,建议持续观察业务运行状态和资源水位。
    • 如果流量持续抬升,则考虑升级实例规格。为了避免实例流量超限,导致生产受限、消息堆积,建议及时升级实例的计算规格,提高消息的生产和消费速率。操作步骤请参考升级实例规格

实例消费流量超过规格上限的 85%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:消息消费速率
    • 持续周期:持续5个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:当前规格流量峰值的 85%。各个规格的流量限制请参考产品规格

    告警级别

    警告

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 如果是短暂的流量高峰,建议持续观察业务运行状态和资源水位。
    • 如果流量持续抬升,则考虑升级实例规格。为了避免实例流量超限,导致生产受限、消息堆积,建议及时升级实例的计算规格,提高消息的生产和消费速率。操作步骤请参考升级实例规格

消息生产 P99 耗时过高

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:消息生产P99耗时
    • 持续周期:持续1个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:100ms

    告警级别

    严重

    示例如下:
    图片

  • 处理建议
    触发告警后,建议检查客户端的参数配置,并设置合理的客户端参数。处理后建议持续观测该指标,确认是否达到了预期效果。

消息消费 P99 耗时过高

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:消息消费P99耗时
    • 持续周期:持续1个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:1s

    告警级别

    警告

    示例如下:
    图片

  • 处理建议
    触发告警后,建议及时查看业务端的消费逻辑,判断是否有影响消费速度的原因存在。处理后建议持续观测该指标,确认是否达到了预期效果。

CPU 使用率超过 85%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:CPU使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:85%

    告警级别

    警告

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 判断是否由客户端引起,例如以下客户端侧的问题可能导致 CPU 占用率高:
      • Kakfa 版本切换、客户端 kafka 版本和服务端实例版本不一致。
      • 请求数多,但生产者的 batch.size 小,或设置了同步生产方式。
      • 压缩策略为 LZ4。
    • 如果确认非客户端问题导致的 CPU 占用率高,建议及时升级实例规格以便提高实例的各项处理性能。操作步骤请参考升级实例规格。处理后建议持续观测该指标,确认是否达到了预期效果。

内存使用率超过 95%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:内存使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:95%

    告警级别

    警告

    示例如下:

    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 如果是短暂的业务高峰,建议持续观察业务运行状态和资源水位。
    • 检查实例是否已达到当前计算规格的各个阈值,例如 TPS 等。如果任意一项规格限制达到了计算规格的最大限制,则推荐升级实例规格,以便提高实例的各项处理性能。操作步骤请参考升级实例规格。处理后建议持续观测该指标,确认是否达到了预期效果。

IP 连接数过高

说明

每个 Kafka 实例的 IP 连接数上限为 20000,推荐设置 IP 连接数超过 90% 的告警。

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:IP 连接数
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:18000

    告警级别

    通知

    示例如下:
    图片

  • 处理建议
    触发告警后,建议根据业务需求合理设置 IP 连接数。处理后建议持续观测该指标,确认是否达到了预期效果。

实例剩余可用分区数不足

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:剩余可用分区数
    • 持续周期:持续1个周期
    • 取值方式:最小值
    • 比较方式:<
    • 阈值:根据业务需求自行设置,推荐设置为 50。

    告警级别

    • 如果通常通过控制台创建 Topic,推荐设置为通知
    • 如果通常通过 OpenAPI 创建 Topic,推荐设置为警告

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 清理闲置资源。检查是否存在未使用的闲置分区,如果有,建议及时清理。
    • 如果清理后仍旧触发此告警,则考虑购买更多分区,或升级实例规格。业务高峰时分区数量会在短期内快速增加,为了避免分区数量不足影响实例的业务处理带宽,建议提前购买分区或升级实例规格,预留足够的分区数量。操作步骤请参考升级实例规格

实例剩余可用消费组数不足

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:剩余可用消费组数
    • 持续周期:持续1个周期
    • 取值方式:最小值
    • 比较方式:<
    • 阈值:根据业务需求自行设置,推荐设置为 50。

    告警级别

    • 如果通常通过控制台创建 Group,推荐设置为通知
    • 如果通常通过 OpenAPI 或自动创建 Group,推荐设置为警告

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 清理闲置资源。检查是否存在未使用的闲置消费组,如果有,建议及时清理。您也可以开启自动删除 Group 功能,后端会自动清理闲置的 Group 资源,详细信息请参考修改参数配置删除 Group
    • 如果清理后仍旧触发此告警,则考虑购买更多分区,或升级实例规格。业务高峰时分区数量会在短期内快速增加,为了避免分区数量不足影响实例的业务处理带宽,建议提前购买分区或升级实例规格,预留足够的分区数量。操作步骤请参考升级实例规格

节点维度

节点磁盘使用率超过 85%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    节点

    触发条件

    • 监控指标:磁盘使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:85%

    告警级别

    通知

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 清理磁盘空间。您可以缩短 Topic 的消息保留时长,促使消息尽快过期,以此来清理磁盘空间。操作步骤请参考修改 Topic 配置
    • 扩容实例磁盘。为了避免实例磁盘超限,触发实例的消息自动删除策略,建议及时扩容实例磁盘,增加存储空间。操作步骤请参考升级实例规格
    • 如果仅部分节点磁盘使用率超出阈值,且实例磁盘倾斜率数值高,表示存在节点之间数据不均衡的现象。建议参考数据再均衡均衡各个节点的数据。

消息生产 P99 耗时过高

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    节点

    触发条件

    • 监控指标:消息生产P99耗时
    • 持续周期:持续1个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:100ms

    告警级别

    严重

    示例如下:
    图片

  • 处理建议
    触发告警后,建议检查客户端的参数配置,并设置合理的客户端参数。处理后建议持续观测该指标,确认是否达到了预期效果。

消息消费 P99 耗时过高

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    节点

    触发条件

    • 监控指标:消息消费P99耗时
    • 持续周期:持续1个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:1s

    告警级别

    警告

    示例如下:
    图片

  • 处理建议
    触发告警后,建议及时查看业务端的消费逻辑,判断是否有影响消费速度的原因存在。处理后建议持续观测该指标,确认是否达到了预期效果。

CPU 使用率超过 85%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    节点

    触发条件

    • 监控指标:CPU使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:85%

    告警级别

    警告

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 判断是否由客户端引起,例如以下客户端侧的问题可能导致 CPU 占用率高:
      • Kakfa 版本切换、客户端 kafka 版本和服务端实例版本不一致。
      • 请求数多,但生产者的 batch.size 小,或设置了同步生产方式。
      • 压缩策略为 LZ4。
    • 如果确认非客户端问题导致的 CPU 占用率高,建议及时升级实例规格以便提高实例的各项处理性能。操作步骤请参考升级实例规格。处理后建议持续观测该指标,确认是否达到了预期效果。

内存使用率超过 95%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    节点

    触发条件

    • 监控指标:内存使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:95%

    告警级别

    警告

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 如果是短暂的业务高峰,建议持续观察业务运行状态和资源水位。
    • 检查实例是否已达到当前计算规格的各个阈值,例如 TPS 等。如果任意一项规格限制达到了计算规格的最大限制,则推荐升级实例规格,以便提高实例的各项处理性能。操作步骤请参考升级实例规格

节点连接数过高

说明

每个 Kafka 实例的 IP 连接数上限为 20000,推荐设置 IP 连接数超过 90% 的告警。

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    节点

    触发条件

    • 监控指标:节点连接数
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:18000

    告警级别

    通知

    示例如下:
    图片

  • 处理建议
    触发告警后,建议根据业务需求合理设置 IP 连接数。处理后建议持续观测该指标,确认是否达到了预期效果。

分区堆积维度

分区消息堆积

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    分区

    触发条件

    • 监控指标:分区消息堆积量
    • 持续周期:持续1个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:根据业务需求自定义设置

    告警级别

    警告

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 查看实例流量是否已接近规格上限,判断是否需要紧急扩容,防止流量超出实例规格导致消息堆积。
    • 排查生产环境,判断消费者客户端是否出现消费问题,导致消费堆积。如果确定是消费侧性能问题,及时扩容消费者或者提升单个消费者的消费性能。

消费组维度

消费组消息堆积

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    消费组

    触发条件

    • 监控指标:消费组消息堆积量
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:根据业务需求自定义设置

    告警级别

    通知

    示例如下:
    图片

  • 处理建议
    触发告警后,您可以通过以下方式处理。处理后建议持续观测该指标,确认是否达到了预期效果。

    • 查看实例流量是否已接近规格上限,判断是否需要紧急扩容,防止流量超出实例规格导致消息堆积。
    • 排查生产环境,判断消费者客户端是否出现消费问题,导致消费堆积。如果确定是消费侧性能问题,及时扩容消费者或者提升单个消费者的消费性能。