You need to enable JavaScript to run this app.
导航

告警监控任务时效性

最近更新时间2024.05.09 16:32:18

首次发布时间2024.05.09 16:32:18

日志服务告警监控任务是基于检索分析结果触发告警,这个过程涉及查询的时间范围、监控任务的执行时间。合理的时间配置可提高监控任务的时效性,避免漏告警、误告警。本文介绍告警监控任务的时效性及时间配置建议。

时效性说明

日志写入到查询、索引构建都存在低时间差,可能引起漏告警、误告警,具体说明如下:

  • 日志写入到查询存在延时
    写入日志到日志主题和日志被查询到,这之间存在延时,虽然延时很低,但也可能导致日志漏查。因此在创建告警策略时,不建议将查询时间范围执行周期设置为一样的相对时间。例如设置执行周期为每隔 1 分钟执行一次,查询的时间范围为近一分钟,则某次告警监控任务的执行时间为 10:30:30时,对应的查询时间范围为 [10:29:30,10:30:30],由于存在延时,因此在 10:30:29 写入的日志,不确保能在 10:30:30 这次任务中被查询到,从而可能导致告警误差。
  • 索引构建的低时间差
    日志索引的构建存在低时间差,当您写入包含同一分钟不同秒的日志时,时间较晚的日志的索引数据可能落盘到较早的时间点。例如设置执行周期为每隔 1 分钟执行一次,查询的时间范围为近一分钟,则某次告警监控任务的执行时间为 10:30:30 时,对应的查询时间范围为 [10:29:30,10:30:30]。如果您在 10:29:40 写入多条日志,这些日志的时间为 10:29:2010:29:40 等,那么这一批日志的索引数据可能会落盘在 10:29:20 这个时间点,因此不会在 10:30:30 这次任务中被查询到,从而可能导致告警误差。

时间配置建议

假设执行周期为每隔 1 分钟执行一次,针对不同的场景,配置合理的查询时间范围。

  • 对告警的准确性要求高,不允许重复告警和漏告警。
    建议将查询时间范围的起止时间往前推 1 分钟,如 2 分钟前~ 1 分钟前。例如告警监控任务的执行时间为 10:30:30,查询时间范围为[10:28:30,10:29:30]
    图片
  • 对告警的实时性要求高,要求第一时间触发告警,但允许重复告警。
    建议将查询时间范围的开始时间往前推 1 分钟,扩大查询的时间范围,如 2 分钟前~ 0 分钟前。例如告警监控任务的执行时间为 10:30:30,查询时间范围为[10:28:30,10:30:30]
    图片