流式计算 Flink版支持配置云监控告警规则,帮助您实时关注任务的运行状态。本文档介绍一些告警规则配置示例,建议参考这些推荐的告警策略进行配置。
作业 failed(含 recover)的时间 ≥ 60000ms
告警规则配置
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:作业 failed(含 recover)的时间长度
- 持续周期:3
- 取值方式:最大值
- 比较方式:>=
- 阈值:60000 (ms)
|
告警级别 | 通知 |
- 处理建议
查看 TM & JM 日志。若日志中包含业务相关报错堆栈,观察任务是否自行恢复;否则请提工单向技术支持人员反馈。
FullRestart 重启(差值)≥ 1
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:FullRestart 重启(差值)
- 持续周期:1
- 取值方式:最大值
- 比较方式:>=
- 阈值:1
|
告警级别 | 警告 |
- 处理建议
观察作业是否自行恢复,告警是否持续,查看 JM & TM 日志排查作业重启原因。
作业失败状态 ≥ 1
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:作业失败状态
- 持续周期:1
- 取值方式:最大值
- 比较方式:>=
- 阈值:1
|
告警级别 | 警告 |
- 处理建议
查看 TM & JM 日志。若日志中包含业务相关报错堆栈,需自行判断作业自动拉起后能否恢复;否则请提工单向技术支持人员反馈。
作业完成状态 ≥ 1
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:作业完成状态
- 持续周期:1
- 取值方式:最大值
- 比较方式:>=
- 阈值:1
|
告警级别 | 通知 |
- 处理建议
该告警标识了(批)作业执行完毕,若为流式作业触发该告警请联系技术支持人员定位。
作业失败自动拉起 ≥ 1
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:作业失败 GTS 自动拉起
- 持续周期:1
- 取值方式:最大值
- 比较方式:>=
- 阈值:1
|
告警级别 | 警告 |
- 处理建议
- 查看 TM & JM 日志。若日志中包含业务相关报错堆栈,需自行判断作业自动拉起后能否恢复;否则请提工单向技术支持人员反馈。
- 观察告警是否持续。若只是偶现,且对业务无影响,则可以忽略,否则处理同上。
业务延迟 ≥ 600000ms
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:业务延迟
- 持续周期:5
- 取值方式:最大值
- 比较方式:>=
- 阈值:600000(ms)
|
告警级别 | 警告 |
说明 | 当前仅支持在 Flink 1.16 引擎、使用 kafka connector 的场景中,支持配置业务延迟指标监控告警。 |
- 处理建议
- 观察数据曲线中资源是否达到瓶颈,考虑扩容,并观察告警是否持续。
- 查看 TM & JM,排查错误信息。