You need to enable JavaScript to run this app.
导航

报警管理

最近更新时间2023.11.10 18:43:39

首次发布时间2022.09.01 16:20:38

报警任务从用户分析、性能指标、JS错误指标、请求指标、复合指标等多个维度配置报警策略,同时支持灵活复杂的自定义配置规则,帮助您关注应用的健康状态。

新建报警任务

基本概念

概念

说明

SLA

服务等级协议(Service Level Agreement)。

SLO

服务等级目标(Service Level Objectives)。在报警任务中,SLO指的是报警指标配置的阈值。

SLI

服务等级指标(Service Level Indicators)。在报警任务中,SLI指的是报警指标的实际统计值。

预算

  • 数类指标的预算计算方式:
    例如,报警10分钟错误数超过10,那么1天的预算为10624。
  • 率类指标的预算计算方式:
    例如,报警10分钟错误率超过1%,那么1天的预算为1天的平均错误率为1%。

预算消耗比例

  • 数类指标的预算消耗比例的计算方式:
    例如,报警10分钟错误数超过10,那么30分钟错误数50,消耗的预算比例为50/(10624)。
  • 率类指标的预算消耗比例的计算方式:
    例如,报警10分钟错误率超过1%,那么30分钟错误率2%,消耗的预算比例为302/(2460*1)。

尖刺

因为一些偶然原因导致SLI波动产生的报警。

操作步骤

  1. 登录应用性能监控全链路版控制台

  2. 单击目标应用下的小程序pro监控

  3. 在控制台左上角选择全部功能 > 报警管理

  4. 在报警任务页面,单击新建报警任务
    图片
    参数说明:

    配置区域

    配置项

    说明

    报警基本信息

    报警任务名称

    自定义名称,用于标识报警任务。

    报警级别

    支持Warning、Fatal两个级别。

    • Warning:警告
    • Fatal:严重

    小程序类型

    选择小程序类型。

    • 抖音小程序
    • 微信小程序
    • 支付宝小程序
    • 百度小程序
    • 飞书小程序

    报警说明

    描述该报警任务的目的以及发生报警后的处理方案或其他信息。

    制定报警策略

    报警类型

    不同的报警类型对应不同报警指标。
    已支持的报警类型:用户分析性能指标JS错误指标请求指标事件指标复合指标自定义日志

    任务执行间隔

    任务执行间隔指后端轮询服务的运行频率,比如配置5分钟的间隔,那么每5分钟都会检测一次最近一段时间内的指标值是否满足报警阈值。
    支持5分钟10分钟30分钟60分钟

    多策略关系

    当配置多个策略关系时,可以配置策略之间的关系。

    • 同时满足以下规则:多个报警策略同时触发阈值才报警。
    • 满足下述任一规则:多个报警策略其中一个触发阈值就报警。

    报警指标

    • 指标:不同报警类型下有不同的指标,如果报警类型选择复合指标,那此处的指标将是一个复杂配置,需要单独配置复合指标计算规则。
    • 筛选条件:
      • 阈值:单个时间窗口内异常数目达到一定量,就会触发报警。
      • :指单个时间窗口内,相对n个时间单位前同一时间窗口内的值,上涨或下跌幅度是否超过设置的值。
    • 样本量阈值:上报的样本量达到一定数量,才会触发报警,避免样本过少,报警不具有代表性。
    • 用户量阈值:上报的用户数达到一定数量,才会触发报警,避免用户过少,报警不具有代表性。
    • 分组:目前支持单一维度的分组,单个维度内有一项满足报警条件则触发报警。例如,分组选择地域,地域包含中国、新加坡、美国,那么只要中国、新加坡、美国里任何一个地域满足报警条件都会上报报警。
    • 归因维度:提供默认归因维度,对报警进行智能归因。维度与过滤项相同,配置后,报警历史可一键查看该维度的Top3信息。

    报警生效时间

    生效时间默认为全天00:00~23:59。如果所选指标在一天内的波动很大,不同时间范围的报警阈值不同,可通过设置报警生效时间避免过多干扰。

    报警优化

    • 尖刺过滤:减少误报警,提高报警的准确性。
      尖刺是因为一些偶然原因导致服务水平指标SLI波动产生的报警,从长周期来看,并不影响SLI,并无处理的价值。
      哪些报警会被认为是尖刺呢?
      • 场景A:30分钟的预算消耗比例超过了14天总预算的1%
      • 场景B1:最近5小时的SLI超过SLO
      • 场景B2:最近10分钟的SLI超过SLO
        最终出现尖刺报警的场景:A
    • PCT报警:报警子窗口数达到阈值,才报警。
      例如,报警统计X分钟内错误数超过阈值Y,则报警。
      开启PCT报警后,每分钟是一个子窗口,查询每一分钟的错误数,判断有多少个分钟的错误数超过了Y/X,则报警。

    更多概念说明,请参见基本概念

    配置通知受众

    报警方式

    支持通过飞书邮件企业微信钉钉报警回调进行报警。

    飞书webhook

    输入飞书webhook。当报警方式选择飞书时,此项必填。
    webhook配置详见如何进行webhook配置?

    飞书需要@的人

    按照User ID或者Open ID配置报警通知的飞书用户。当报警方式选择飞书时,此项选填。
    User ID和Open ID的获取方法,请参见如何获取User ID、Open ID和Union ID

    注意

    • 通知的个人必须和群机器人在一个群里。
    • 请确保User ID和Open ID正确,否则,通知将无法推送给该用户。

    邮件通知组

    配置邮件通知的接收组。当报警方式选择邮件时,此项必填。

    企业微信webhook

    输入企业微信webhook。当报警方式选择企业微信时,此项必填。
    webhook配置详见如何进行webhook配置?

    企业微信需要@的人

    按照手机号或者User ID配置报警通知的企业微信用户。当报警方式选择企业微信时,此项选填。
    User ID的获取方法,请参见User ID

    注意

    通知的个人必须和群机器人在一个群里。

    钉钉webhook

    输入钉钉webhook。当报警方式选择钉钉时,此项必填。
    webhook配置详见如何进行webhook配置?

    钉钉需要@的人

    按照手机号或者User ID配置报警通知的钉钉用户。当报警方式选择钉钉时,此项选填。
    User ID的获取方法,请参见User ID

    注意

    通知的个人必须和群机器人在一个群里。

    报警回调webhook

    输入报警回调webhook。当报警方式选择报警回调时,此项必填。

报警返回

request body字段

request body中以JSON格式包含回调信息,具体字段:

字段

类型

示例值

说明

title

string

APMPlus报警

报警任务的名称。

content

object

-

报警任务触发后回调的内容。

  • 1:没有返回内容。
  • 有返回内容,具体请参见content数据结构

content数据结构

字段

类型

示例值

说明

alarm_param

object

-

报警任务里配置的参数。具体请参见alarm_param数据结构

alarm_result

object

-

报警返回结果。具体请参见alarm_result数据结构

alarm_param数据结构

字段

类型

示例值

说明

aid

string

123456

应用ID。

alarm_level

string

warning

报警级别。

  • warning:警告
  • fatal:严重

alarm_period

array

-

报警生效的时间。该时间范围外的报警不通知。

category

string

-

报警类别。

category_label

string

-

报警类别的标签。

desc

string

-

报警说明。

id

int

766

报警任务ID。

interval_seconds

string

300

报警任务执行间隔。

  • 300:5分钟
  • 600:10分钟
  • 1800:30分钟
  • 3600:60分钟

is_avoid_spike

boolean

false

报警优化,是否过滤尖刺报警。

is_close

int

0

是否关闭报警。

  • 0:开启
  • 1:关闭

name

string

报警回调

报警任务的名称。

notify_config

array

-

报警任务的通知配置。

os

string

minipro

服务的类型。

site_type

string

-

web站点的类型。

strategy_list

array

-

报警策略列表。

strategy_op

string

and

报警多策略关系。

  • and:同时满足所有策略
  • or:满足任一策略

alarm_result数据结构

字段

类型

示例值

说明

group_result_list

array

-

报警返回列表。
具体请参见group_result_list数据结构

is_alarm

boolean

true

是否报警任务触发的报警。

is_attributable

boolean

false

是否归因。

title

string

pv阈值报警

报警返回的标题。

group_result_list数据结构

字段

类型

示例值

说明

alarm_tag_list

array

[{
"format_value":"4290",
"label":"当前值",
"value":4290
}]

报警取值。

alarm_value

object

-

报警指标和取值。不同的报警类型里不同的报警取值,包括阈值、当前值、样本量、用户数、时间窗口等等。

attribution_results

object

-

归因结果。

group_value

string

-

分组结果。

is_alarm

boolean

true

是否触发报警。

is_spike

boolean

false

是否屏蔽尖刺。默认为false。当开启报警优化或尖刺过滤,并且出现尖刺时,为true。

报警任务列表

报警任务列表展示了已添加的报警任务,包括任务名称、创建人、报警级别、报警方式、小程序类型、指标类型、最近更新时间、最近一个月报警次数、监控状态。
图片

  • 单击任务名称,可以在任务详情中快速查看报警任务的详细信息。
  • 操作列,单击编辑,可以重新配置该报警任务。
  • 操作列,单击报警详情,可以查看该报警的报警详情。

报警详情

报警详情页面展示了报警情况概览和报警列表。
图片

  • 报警详情页面支持设置报警ACK,ACK生效时间取决于项目设置中的报警ACK设置。
  • 报警情况概览展示了所选时间范围内报警情况的趋势图。
  • 报警列表展示了报警内容、报警时间、报警详情、报警方式和创建人。单击报警详情可以跳转到数据探索,查看Requests详细数据。