You need to enable JavaScript to run this app.
导航

推荐配置的告警规则

最近更新时间2024.04.01 15:24:35

首次发布时间2024.04.01 15:24:35

流式计算 Flink版支持配置云监控告警规则,帮助您实时关注任务的运行状态。本文档介绍一些告警规则配置示例,建议参考这些推荐的告警策略进行配置。

作业 failed(含 recover)的时间 ≥ 60000ms

告警规则配置
图片

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:作业 failed(含 recover)的时间长度
  • 持续周期:3
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:60000 (ms)

告警级别

通知

  • 处理建议
    查看 TM & JM 日志。若日志中包含业务相关报错堆栈,观察任务是否自行恢复;否则请提工单向技术支持人员反馈。

FullRestart 重启(差值)≥ 1

  • 告警规则配置

图片

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:FullRestart 重启(差值)
  • 持续周期:1
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:1

告警级别

警告

  • 处理建议
    观察作业是否自行恢复,告警是否持续,查看 JM & TM 日志排查作业重启原因。

作业失败状态 ≥ 1

  • 告警规则配置

图片

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:作业失败状态
  • 持续周期:1
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:1

告警级别

警告

  • 处理建议
    查看 TM & JM 日志。若日志中包含业务相关报错堆栈,需自行判断作业自动拉起后能否恢复;否则请提工单向技术支持人员反馈。

作业完成状态 ≥ 1

  • 告警规则配置

图片

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:作业完成状态
  • 持续周期:1
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:1

告警级别

通知

  • 处理建议
    该告警标识了(批)作业执行完毕,若为流式作业触发该告警请联系技术支持人员定位。

作业失败自动拉起 ≥ 1

  • 告警规则配置

图片

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:作业失败 GTS 自动拉起
  • 持续周期:1
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:1

告警级别

警告

  • 处理建议
    • 查看 TM & JM 日志。若日志中包含业务相关报错堆栈,需自行判断作业自动拉起后能否恢复;否则请提工单向技术支持人员反馈。
    • 观察告警是否持续。若只是偶现,且对业务无影响,则可以忽略,否则处理同上。

业务延迟 ≥ 600000ms

  • 告警规则配置

图片

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:业务延迟
  • 持续周期:5
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:600000(ms)

告警级别

警告

说明

当前仅支持在 Flink 1.16 引擎、使用 kafka connector 的场景中,支持配置业务延迟指标监控告警。

  • 处理建议
    • 观察数据曲线中资源是否达到瓶颈,考虑扩容,并观察告警是否持续。
    • 查看 TM & JM,排查错误信息。