推荐配置的告警规则--流式计算 Flink版-火山引擎

文档中心

流式计算 Flink版

告警管理

推荐配置的告警规则

流式计算 Flink版支持配置云监控告警规则，帮助您实时关注任务的运行状态。本文档介绍一些告警规则配置示例，建议参考这些推荐的告警策略进行配置。

过去10 分钟内作业 Failover 次数 ≥ 2

告警规则配置

配置	取值
维度	作业运行状态
触发条件	监控指标：过去 10 分钟内作业 Failover 次数持续周期：3 取值方式：最大值比较方式：>= 阈值：2
告警级别	警告

处理建议
观察作业是否自行恢复，告警是否持续，查看 JM & TM 日志排查作业重启原因。

作业失败状态 ≥ 1

告警规则配置

配置	取值
维度	作业运行状态
触发条件	监控指标：作业失败状态持续周期：3 取值方式：最大值比较方式：>= 阈值：1
告警级别	警告

处理建议
查看 TM & JM 日志。若日志中包含业务相关报错堆栈，需自行判断作业自动拉起后能否恢复；否则请提工单向技术支持人员反馈。

作业完成状态 ≥ 1

告警规则配置

配置	取值
维度	作业运行状态
触发条件	监控指标：作业完成状态持续周期：1 取值方式：最大值比较方式：>= 阈值：1
告警级别	通知

处理建议
该告警标识了（批）作业执行完毕，若为流式作业触发该告警请联系技术支持人员定位。

作业失败自动拉起 ≥ 1

告警规则配置

配置	取值
维度	作业运行状态
触发条件	监控指标：作业失败 GTS 自动拉起持续周期：1 取值方式：最大值比较方式：>= 阈值：1
告警级别	警告

处理建议
- 查看 TM & JM 日志。若日志中包含业务相关报错堆栈，需自行判断作业自动拉起后能否恢复；否则请提工单向技术支持人员反馈。
- 观察告警是否持续。若只是偶现，且对业务无影响，则可以忽略，否则处理同上。

作业 Checkpoint 失败次数 ≥ 1

告警规则配置

配置	取值
维度	作业运行状态
触发条件	监控指标：过去 5 分钟内作业 Checkpoint 失败次数过去 10 分钟内作业 Checkpoint 失败次数过去 15 分钟内作业 Checkpoint 失败次数持续周期：3 取值方式：最大值比较方式：>= 阈值：1
告警级别	警告
说明	建议配置的周期大于作业的 Checkpoint 间隔，避免报警误报。比如 Checkpoint 间隔为 10min，则推荐配置过去 15 分钟内作业 Checkpoint 失败次数 >= 1。如果Checkpoint 间隔为 1min，则推荐配置过去 5 分钟内作业 Checkpoint 失败次数 >= 1。

处理建议
- 查看 Flink UI 是否存在算子反压，如果反压，优先解决反压问题，解决后，再观察 checkpoint 是否失败，因为大部分 checkpoint 失败都是由于反压导致的。
- 观察告警是否持续。若只是偶现，且对业务无影响，则可以忽略，否则处理同上。

业务延迟 ≥ 15 min

业务延迟一般指的是 Kafka 消息的业务时间与 Flink 处理的时间的差值。
一般来说，业务延迟能够反映 Flink 处理能力，但是单独监控业务延迟可能会有偏差，比如上游数据出现延迟、乱序等情况，虽然 Flink 能够实时处理，但是会产生告警误报。一般建议业务延迟和 Kafka Lag 用多指标同时监控。例如业务延迟大于 15 分钟，同时 Kafka 存在 Lag 延迟才会触发告警。

告警规则配置

配置	取值
维度	Kafka
触发条件	多指标监控（满足全部指标条件）监控指标 1：Kafka 业务延迟持续周期：3 取值方式：最大值比较方式：>= 阈值：15（min）（说明：建议根据作业实时性要求，配置合适的阈值）监控指标 2：Max KafkaConsumer Records Lag v16/v11（说明：Flink 1.16 以上版本或者 1.11 版本的 Kafka lag 指标）持续周期：3 取值方式：最大值比较方式：> 阈值：0（说明：建议根据 Source QPS 来配置合适的阈值）
告警级别	警告
说明	当前仅支持在 Flink 1.16 及以上引擎、使用 Kafka/MySQL CDC /Mongo CDC Source 的场景中，支持配置业务延迟指标监控告警。

处理建议
- 观察数据曲线中资源是否达到瓶颈，考虑扩容，并观察告警是否持续。
- 查看 TM & JM，排查错误信息。

Max KafkaConsumer Records Lag > 100 万

告警规则配置

配置	取值
维度	Kafka
触发条件	监控指标： Max KafkaConsumer Records Lag v16（说明：Flink 1.16 的 Kafka lag 指标） Max KafkaConsumer Records Lag v11（说明：Flink 1.11 的 Kafka lag 指标）持续周期：3 取值方式：最大值比较方式：> 阈值：100 万（说明：建议根据 Source QPS 来配置合适的阈值）
告警级别	警告

处理建议
- 观察数据曲线中资源是否达到瓶颈，考虑扩容，并观察告警是否持续。
- 查看 TM & JM，排查错误信息。

最近更新时间：2025.05.07 16:04:21

这个页面对您有帮助吗？

有用

无用

流式计算 Flink版

过去10 分钟内作业 Failover 次数 ≥ 2 #

作业失败状态 ≥ 1 #

作业完成状态 ≥ 1 #

作业失败自动拉起 ≥ 1 #

作业 Checkpoint 失败次数 ≥ 1 #

业务延迟 ≥ 15 min #