You need to enable JavaScript to run this app.
导航

报警任务

最近更新时间2022.12.27 16:15:28

首次发布时间2022.01.13 20:55:51

报警功能检测指标值或watchdog事件,满足配置条件时发送报警消息。通过报警任务,您可以监测目标服务的配置项指标的异常情况,并及时收到通知,帮助您关注服务的健康状况。

前提条件

  • 基础指标:接入APMPlus Server Agent,完成对主机、容器、进程的监控。

  • 服务指标:服务接入APMPlus、Skywalking、OpenTelemetry、Jaeger、Zipkin等应用监控能力。

  • 自定义指标:接入APMPlus、OpenTelemetry、Prometheus等自定义打点能力。

报警发送策略

当报警频繁产生,以至于每次运行报警规则都会触发报警时,为了降低无效报警对您的打扰,避免报警风暴,您可以通过配置报警发送策略控制报警通知发送频率,并过滤可能的数据突刺。

  • 规则运行频率:1分钟/次,发送策略:3分钟为一个发送周期。

    报警通知的时间为:1分钟,4(1+3)分钟,7(1+3+3)分钟,10(1+3+3+3)分钟,...

  • 规则运行频率:1分钟/次,发送策略:3分钟为一个发送周期,一个发送周期内触发2次则第2次发送报警(毛刺过滤)。

    报警通知的时间为:2分钟,5(2+3)分钟,8(2+3+3)分钟,11(2+3+3)分钟,...

  • 规则运行频率:1分钟/次,发送策略:3分钟为一个发送周期,一个发送周期内触发2次则第2次发送报警(毛刺过滤),打开发送降频,报警批次聚合间隔:5分钟。

    报警通知的时间为:2分钟,5(2+3)分钟,11(2+3+6)分钟,23(2+3+6+12)分钟,...
    聚合情况为:2分钟、5分钟发送的报警聚合为一个报警组,11分钟发送的报警为一个报警组,23分钟发送的报警为一个报警组。

综上所述,把发送周期设为d,毛刺设为k,就可以得到报警通知通用的计算方式:
报警通知的时间为:k,k+20d,k+21d,k+22d,...
其中,通知间隔不能超过60分钟。如果超过的话,按照60分钟为通知间隔发送通知。

创建报警任务

  1. 登录应用性能监控全链路版控制台

  2. 在左侧导航栏,单击服务端监控

  3. 选择开服region。

  4. 单击服务端监控旁边的点击进入服务端列表

  5. 在控制台左上角选择全部功能 > 报警任务

  6. 报警任务页面,单击创建报警任务

  7. 新建报警任务页面,完成配置,然后单击保存

    配置项说明如下所示:

    配置区域配置项说明
    基本信息报警任务名称自定义名称,用于标识报警任务。

    报警策略

    报警类型

    已支持的报警类型:服务、自定义指标、主机、进程、容器和WatchDog。
    WatchDog需要配置监控类型和事件名称,WatchDog事件可以在事件中心查询。

    报警级别

    报警级别支持多选,支持对不同的指标值设置不同的报警级别。

    • Notice:提示

    • Warning:警告

    • Fatal:严重

    报警引擎阈值引擎。

    多策略关系

    当配置多个策略关系时,可以配置策略之间的关系。

    • 同时满足:默认配置,多个策略同时满足才报警。

    • 满足一项:多个策略满足一个就报警。

    报警触发策略

    • 指标查询:不同报警类型下有不同的指标。

    • 筛选条件:在指标基础上,添加筛选条件,定位更精准的数据。

      筛选条件包括:服务类型、服务名、接口名、下游服务类型、下游服务名、下游接口名、状态码、主机、进程id。

    • 分组:支持多维度的分组。

      开启分组告警后,任意分组满足报警条件则触发报警。例如有多个服务,开启服务分组,任一服务满足告警阈值则触发告警。使用此功能可用一条报警规则实现对所有分组的监控告警。

    • 触发条件:AVG/SUM/MAX/MIN值在一定时间内达到设置的取值。

      • AVG:N分钟内指标的平均值

      • SUM:N分钟内指标的和

      • MAX:N分钟内指标的最大值

      • MIN:N分钟内指标的最小值

      • 阈值:单个时间窗口内异常数目达到一定量,就会触发报警。

      • 比:指单个时间窗口内,相对n个时间单位前同一时间窗口内的值,上升或下降幅度是否超过设置的值。

    所属服务

    选择所属服务。
    有时候,服务A里的数据有问题,但可能是服务B导致的。

    自定义tag自定义tag和取值。可以在告警列表根据tag进行筛选。
    报警验证选择触发报警的时间点,验证报警任务是否按预期生成。

    报警发送策略

    规则运行频率

    设置规则每几分钟/次的运行频率。默认为1分钟/次。

    发送策略

    • 设置发送周期,默认为1分钟为一个发送周期。

    • 设置一个发送周期内触发的第几次报警,用于发送报警通知。默认为一个发送周期内触发1次,则第1次发送报警。

    发送降频

    打开时,如报警连续触发则发送间隔会逐步衰减变长。
    衰减策略为:下次发送周期=本次发送周期*2。例如,第一次发送周期为1分钟,第二次发送周期为2分钟,第三次发送周期为4分钟,第四次发送周期为8分钟,以此类推。

    报警批次聚合间隔

    设置将间隔不超过n分钟的报警聚合。

    • 一个报警产生时,如果检查前n分钟内存在报警,那么跟前n分钟的报警合并在一个告警组。

    • 一个报警产生时,如果检查前n分钟内没有报警,那么重新生成一个告警组,不跟前n分钟的报警合并。

    通知方式报警方式支持通过飞书、邮件、webhook进行报警。 webhook配置详见如何进行webhook配置?
    报警说明报警说明输入报警说明。

编辑报警任务

  1. 登录应用性能监控全链路版控制台

  2. 在左侧导航栏,单击服务端监控

  3. 选择开服region。

  4. 单击服务端监控旁边的点击进入服务端列表

  5. 在控制台左上角选择全部功能 > 报警任务

  6. 报警任务页面,找到目标报警任务,在其右侧操作列,单击编辑

  7. 编辑报警任务页面,修改配置,然后单击保存

    配置项说明,请参见创建报警任务

复制报警任务

  1. 登录应用性能监控全链路版控制台

  2. 在左侧导航栏,单击服务端监控

  3. 选择开服region。

  4. 单击服务端监控旁边的点击进入服务端列表

  5. 在控制台左上角选择全部功能 > 报警任务

  6. 报警任务页面,找到目标报警任务,在其右侧操作列,单击复制

  7. 新建报警任务页面,修改配置,然后单击保存

    配置项说明,请参见创建报警任务

删除报警任务

  1. 登录应用性能监控全链路版控制台

  2. 在左侧导航栏,单击服务端监控

  3. 选择开服region。

  4. 单击服务端监控旁边的点击进入服务端列表

  5. 在控制台左上角选择全部功能 > 报警任务

  6. 报警任务页面,找到目标报警任务,在其右侧操作列,单击删除

  7. 在确定删除对话框中,单击确定

查看报警任务列表

  1. 登录应用性能监控全链路版控制台

  2. 在左侧导航栏,单击服务端监控

  3. 选择开服region。

  4. 单击服务端监控旁边的点击进入服务端列表

  5. 在控制台左上角选择全部功能 > 报警任务

  6. 报警任务页面,查看报警任务。

    报警任务集中展示所有报警配置,所有告警任务均可以在此页面查看和管理,支持对状态和类型进行筛选。
    列表内容包括任务名称,报警类型、报警规则摘要、报警方式、最近一个月报警次数、状态以及操作栏。其中操作栏支持开关、编辑、复制和删除报警任务。

查看报警详情

  1. 登录应用性能监控全链路版控制台

  2. 在左侧导航栏,单击服务端监控

  3. 选择开服region。

  4. 单击服务端监控旁边的点击进入服务端列表

  5. 在控制台左上角选择全部功能 > 报警任务

  6. 报警任务页面,单击报警任务名称进入报警详情页。

    详情页分为报警规则摘要报警趋势图报警历史三部分。

    • 报警规则摘要:展示报警规则及运行状态,可开关、编辑和ACK该报警任务。

      • ACK将屏蔽3小时内的告警消息。屏蔽消息不发送报警通知,屏蔽期间产生的报警仍然可以在报警历史中查看。
    • 报警趋势图:展示该报警任务检测的指标趋势图,如果触发告警则途中有红点展示。

    • 报警历史:展示触发告警的发送时间、规则快照、报警指标值和当次报警的通知方式。