You need to enable JavaScript to run this app.
导航
报警管理
最近更新时间:2023.11.10 17:53:20首次发布时间:2022.03.16 11:25:37

报警任务从用户分析、性能指标、JS错误指标、静态资源指标、请求指标、复合指标等多个维度配置报警策略,同时支持灵活复杂的自定义配置规则,满足您对各项指标的检测。

新建报警任务

基本概念

概念

说明

SLA

服务等级协议(Service Level Agreement)。

SLO

服务等级目标(Service Level Objectives)。在报警任务中,SLO指的是报警指标配置的阈值。

SLI

服务等级指标(Service Level Indicators)。在报警任务中,SLI指的是报警指标的实际统计值。

预算

  • 数类指标的预算计算方式:
    例如,报警10分钟错误数超过10,那么1天的预算为10624。
  • 率类指标的预算计算方式:
    例如,报警10分钟错误率超过1%,那么1天的预算为1天的平均错误率为1%。

预算消耗比例

  • 数类指标的预算消耗比例的计算方式:
    例如,报警10分钟错误数超过10,那么30分钟错误数50,消耗的预算比例为50/(10624)。
  • 率类指标的预算消耗比例的计算方式:
    例如,报警10分钟错误率超过1%,那么30分钟错误率2%,消耗的预算比例为302/(2460*1)。

尖刺

因为一些偶然原因导致SLI波动产生的报警。

操作步骤

  1. 登录应用性能监控全链路版控制台

  2. 单击目标应用下的Webpro端监控

  3. 在控制台左上角选择全部功能 > 报警管理

  4. 在报警任务页面,单击新建报警任务
    图片
    参数说明:

    配置区域

    配置项

    说明

    报警基本信息

    报警任务名称

    自定义名称,用于标识报警任务。

    报警级别

    支持Warning、Fatal两个级别。

    • Warning:警告
    • Fatal:严重

    报警说明

    描述该报警任务的目的以及发生报警后的处理方案或其他信息。

    制定报警策略

    报警类型

    不同的报警类型对应不同报警指标。
    已支持的报警类型:用户分析性能指标JS错误指标静态资源指标静态资源错误指标白屏指标请求指标请求错误指标事件指标复合指标自定义日志

    任务执行间隔

    任务执行间隔指后端轮询服务的运行频率,比如配置5分钟的间隔,那么每5分钟都会检测一次最近一段时间内的指标值是否满足报警阈值。
    支持5分钟10分钟30分钟60分钟

    多策略关系

    当配置多个策略关系时,可以配置策略之间的关系。

    • 同时满足以下规则:默认配置,多个策略同时满足才报警。
    • 满足下述任一规则:多个策略满足一个就报警。

    报警指标

    • 指标:不同报警类型下有不同的指标,如果报警类型选择复合指标,那此处的指标将是一个复杂配置,需要单独配置复合指标计算规则。
    • 筛选条件:
      • 阈值:单个时间窗口内异常数目达到一定量,就会触发报警。
      • :指单个时间窗口内,相对n个时间单位前同一时间窗口内的值,上涨或下跌幅度是否超过设置的值。
    • 样本量阈值:上报的样本量达到一定数量,才会触发报警,避免样本过少,报警不具有代表性。
    • 用户量阈值:上报的用户数达到一定数量,才会触发报警,避免用户过少,报警不具有代表性。
    • 分组:目前支持单一维度的分组,单个维度内有一项满足报警条件则触发报警。例如,分组选择地域,地域包含中国、新加坡、美国,那么只要中国、新加坡、美国里任何一个地域满足报警条件都会上报报警。
    • 归因维度:提供默认归因维度,对报警进行智能归因。维度与过滤项相同,配置后,报警历史可一键查看该维度的Top3信息。

    报警生效时间

    生效时间默认为全天00:00~23:59。如果所选指标在一天内的波动很大,不同时间范围的报警阈值不同,可通过设置报警生效时间避免过多干扰。

    报警优化

    • 尖刺过滤:减少误报警,提高报警的准确性。
      尖刺是因为一些偶然原因导致服务水平指标SLI波动产生的报警,从长周期来看,并不影响SLI,并无处理的价值。
      哪些报警会被认为是尖刺呢?
      • 场景A:30分钟的预算消耗比例超过了14天总预算的1%
      • 场景B1:最近5小时的SLI超过SLO
      • 场景B2:最近10分钟的SLI超过SLO
        最终出现尖刺报警的场景:A
    • PCT报警:报警子窗口数达到阈值,才报警。
      例如,报警统计X分钟内错误数超过阈值Y,则报警。
      开启PCT报警后,每分钟是一个子窗口,查询每一分钟的错误数,判断有多少个分钟的错误数超过了Y/X,则报警。

    更多概念说明,请参见基本概念

    配置通知受众

    报警方式

    支持通过飞书邮件企业微信钉钉报警回调进行报警。

    飞书webhook

    输入飞书webhook。当报警方式选择飞书时,此项必填。
    webhook配置详见如何进行webhook配置?

    飞书需要@的人

    按照User ID或者Open ID配置报警通知的飞书用户。当报警方式选择飞书时,此项选填。
    User ID和Open ID的获取方法,请参见如何获取User ID、Open ID和Union ID

    注意

    • 通知的个人必须和群机器人在一个群里。
    • 请确保User ID和Open ID正确,否则,通知将无法推送给该用户。

    邮件通知组

    配置邮件通知的接收组。当报警方式选择邮件时,此项必填。

    企业微信webhook

    输入企业微信webhook。当报警方式选择企业微信时,此项必填。
    webhook配置详见如何进行webhook配置?

    企业微信需要@的人

    按照手机号或者User ID配置报警通知的企业微信用户。当报警方式选择企业微信时,此项选填。
    User ID的获取方法,请参见User ID

    注意

    通知的个人必须和群机器人在一个群里。

    钉钉webhook

    输入钉钉webhook。当报警方式选择钉钉时,此项必填。
    webhook配置详见如何进行webhook配置?

    钉钉需要@的人

    按照手机号或者User ID配置报警通知的钉钉用户。当报警方式选择钉钉时,此项选填。
    User ID的获取方法,请参见User ID

    注意

    通知的个人必须和群机器人在一个群里。

    报警回调webhook

    输入报警回调webhook。当报警方式选择报警回调时,此项必填。

结果验证

报警任务新建完成后,在各通知平台上查看报警信息。以下是飞书webhook的示例报警信息。

报警策略

报警信息

单策略,无分组,无归因

图片
链接附在结果描述中,指向导致报警的所有错误。

单策略,有分组,无归因

图片
每个分组都附有相应的链接,链接指向相应的分组。

单策略,无分组,有归因

图片
每个归因结果都附有相应的链接,链接指向相应的归因结果。

多策略,有分组,有归因

导致报警的策略的每个分组、每个归因结果都附有相应的链接。

报警返回

request body字段

request body中以JSON格式包含回调信息,具体字段:

字段

类型

示例值

说明

title

string

APMPlus报警

报警任务的名称。

content

object

-

报警任务触发后回调的内容。

  • 1:没有返回内容。
  • 有返回内容,具体请参见content数据结构

content数据结构

字段

类型

示例值

说明

alarm_param

object

-

报警任务里配置的参数。具体请参见alarm_param数据结构

alarm_result

object

-

报警返回结果。具体请参见alarm_result数据结构

alarm_param数据结构

字段

类型

示例值

说明

aid

string

123456

应用ID。

alarm_level

string

warning

报警级别。

  • warning:警告
  • fatal:严重

alarm_period

array

-

报警生效的时间。该时间范围外的报警不通知。

category

string

-

报警类别。

category_label

string

-

报警类别的标签。

desc

string

-

报警说明。

id

int

766

报警任务ID。

interval_seconds

string

300

报警任务执行间隔。

  • 300:5分钟
  • 600:10分钟
  • 1800:30分钟
  • 3600:60分钟

is_avoid_spike

boolean

false

报警优化,是否过滤尖刺报警。

is_close

int

0

是否关闭报警。

  • 0:开启
  • 1:关闭

name

string

webpro报警回调

报警任务的名称。

notify_config

array

-

报警任务的通知配置。

os

string

webpro

服务的类型。

site_type

string

-

web站点的类型。

strategy_list

array

-

报警策略列表。

strategy_op

string

and

报警多策略关系。

  • and:同时满足所有策略
  • or:满足任一策略

alarm_result数据结构

字段

类型

示例值

说明

group_result_list

array

-

报警返回列表。
具体请参见group_result_list数据结构

is_alarm

boolean

true

是否报警任务触发的报警。

is_attributable

boolean

false

是否归因。

title

string

pv阈值报警

报警返回的标题。

group_result_list数据结构

字段

类型

示例值

说明

alarm_tag_list

array

[{
"format_value":"4290",
"label":"当前值",
"value":4290
}]

报警取值。

alarm_value

object

-

报警指标和取值。不同的报警类型里不同的报警取值,包括阈值、当前值、样本量、用户数、时间窗口等等。

attribution_results

object

-

归因结果。

group_value

string

-

分组结果。

is_alarm

boolean

true

是否触发报警。

is_spike

boolean

false

是否屏蔽尖刺。默认为false。当开启报警优化或尖刺过滤,并且出现尖刺时,为true。

报警任务列表

报警任务列表展示了已添加的报警任务,包括任务名称、创建人、报警级别、报警方式、报警规则摘要、指标类型、最近更新时间、最近一个月报警次数、监控状态。
图片

  • 单击任务名称,可以在任务详情中快速查看报警任务的详细信息。
  • 操作列,单击编辑,可以重新配置该报警任务。
  • 操作列,单击报警详情,可以查看该报警的报警详情。

报警详情

报警详情页面展示了报警情况概览和报警列表。
图片

  • 报警详情页面支持设置报警ACK,ACK生效时间取决于项目设置中的报警ACK设置。
  • 报警情况概览展示了所选时间范围内报警情况的趋势图。
  • 报警列表展示了报警内容、报警时间、报警详情、报警方式和创建人。单击报警详情可以跳转到数据探索,查看Requests详细数据。