You need to enable JavaScript to run this app.
导航

报警管理

最近更新时间2023.11.15 17:16:35

首次发布时间2021.08.09 17:26:33

报警任务分崩溃报警、错误报警、卡顿报警、页面监控报警、Flutter监控报警等。每一类报警任务的配置方式类似,指标有所不同。

新建报警任务

操作步骤

以崩溃报警为例,介绍如何新建报警任务。

  1. 登录应用性能监控全链路版控制台

  2. 单击目标应用下的App端监控

  3. 在控制台左上角选择全部功能 > 崩溃报警

  4. 崩溃报警任务页面,单击新建报警任务

  5. 新建报警任务页面,完成以下配置,然后单击保存
    图片
    配置说明:

    配置区域

    配置项

    说明

    报警基本信息

    报警任务名称

    自定义名称,用于标识报警任务。

    报警说明

    描述该报警任务的目的以及发生报警后的处理方案或其他信息。

    报警级别

    支持Warning、Fatal两个级别。

    • Warning:警告
    • Fatal:严重

    制定报警策略

    筛选维度

    支持对指标按维度进行筛选。
    已支持的筛选条件:操作系统名称操作系统版本APP版本设备IDSDK版本issue状态崩溃类型设备机型APP小版本号下载渠道APP页面issue新增状态崩溃详情宿主APP ID
    其中,issue新增依赖版本号,和首次出现的版本有关。

    说明

    每一类报警任务的维度会有所区别,具体以界面中的为准。

    报警规则

    当配置多个策略关系时,可以配置策略之间的关系。

    • 同时满足以下规则:多个报警策略同时触发阈值才报警。
    • 满足下述任一规则:多个报警策略其中一个触发阈值就报警。

    任务执行间隔

    任务执行间隔指后端轮询服务的运行频率,比如配置5分钟的间隔,那么每5分钟都会检测一次最近一段时间内的指标值是否满足报警阈值。
    支持5分钟10分钟30分钟60分钟

    报警指标

    可以添加多条指标策略。

    • 最近N分钟:检查数据的时间窗口大小。
    • 指标:不同报警类型下有不同的指标,如果报警类型选择复合指标,那此处的指标将是一个复杂配置,需要单独配置复合指标计算规则。
    • 筛选条件:
      • 阈值:单个时间窗口内异常数目达到一定量,就会触发报警。
      • :指单个时间窗口内,相对n个时间单位前同一时间窗口内的值,上涨或下跌幅度是否超过设置的值。

    报警生效时间

    生效时间默认为全天00:00~23:59。如果所选指标在一天内的波动很大,不同时间范围的报警阈值不同,可通过设置报警生效时间避免过多干扰。

    报警分组

    开启分组报警后,任意分组满足报警条件则触发报警。

    报警回调

    设置报警回调地址后,触发报警后会向你指定接收回调的URL地址发起HTTP POST请求。具体回调信息请参见request body字段

    配置通知受众

    报警方式

    支持通过飞书邮件企业微信钉钉进行报警。

    飞书webhook

    输入飞书webhook。当报警方式选择飞书时,此项必填。
    webhook配置详见如何进行webhook配置?

    飞书需要@的人

    按照User ID或者Open ID配置报警通知的飞书用户。当报警方式选择飞书时,此项选填。
    User ID和Open ID的获取方法,请参见如何获取User ID、Open ID和Union ID

    注意

    • 通知的个人必须和群机器人在一个群里。
    • 请确保User ID和Open ID正确,否则,通知将无法推送给该用户。

    邮件通知组

    配置邮件通知的接收组。当报警方式选择邮件时,此项必填。

    企业微信webhook

    输入企业微信webhook。当报警方式选择企业微信时,此项必填。
    webhook配置详见如何进行webhook配置?

    企业微信需要@的人

    按照手机号或者User ID配置报警通知的企业微信用户。当报警方式选择企业微信时,此项选填。
    User ID的获取方法,请参见User ID

    注意

    通知的个人必须和群机器人在一个群里。

    钉钉webhook

    输入钉钉webhook。当报警方式选择钉钉时,此项必填。
    webhook配置详见如何进行webhook配置?

    钉钉需要@的人

    按照手机号或者User ID配置报警通知的钉钉用户。当报警方式选择钉钉时,此项选填。
    User ID的获取方法,请参见User ID

    注意

    通知的个人必须和群机器人在一个群里。

    报警事件名称

    自定义名称,用于标识该报警事件。

    报警内容

    自定义报警内容。

报警返回

request body字段

request body中以JSON格式包含回调信息,具体字段:

字段

类型

示例值

说明

rule

object

-

原始报警规则。具体请参见rule数据结构

context

object

-

报警触发后回调的内容。具体请参见context数据结构

context数据结构

字段

类型

示例值

说明

top_issue_infos

array[TopIssueInfo]

-

推测跟报警相关的top issue。最多5个。具体请参见TopIssueInfo数据结构

detail_url

string

https://console.volcengine.com/apmplus/app/crash/alarm_record?aid=123456

报警详情页。

message

string

【APM报警】
应用名称【测试app】
报警模块:崩溃/异常-测试崩溃报警-按issue
报警时间:2022-05-07 18:01:43
触发条件(且):
崩溃次数最近180分钟内>=1
分组1:崩溃类型:Native崩溃
操作系统名称:Android issue详情

报警信息。

TopIssueInfo数据结构

字段

类型

示例值

说明

title

string

com.ixigua.feature.video.player.layer.playtips.PlayTipLayer

issue标题。

link

string

-

issue链接。

info

string

异常数=1,同比波动上涨100%;处理人:无

issue指标值、指标波动幅度和处理人信息。

rule数据结构

字段

类型

示例值

说明

alarm_level

int

0

报警级别。

  • 0:warning
  • 1:fatal

check_cycle

int

5

监测周期 ,分钟为单位,瞬时报警为0。

rule_status

int

1

报警状态。

  • 1:启用
  • 2:停用
  • 0:删除

id

uint64

737

报警ID。

aid

int64

123456

应用ID。

day_active_start

int64

1654858020

每天任务的生效起始时间。

day_active_end

int64

1654858020

每天任务的生效终止时间。

create_at

string

2022-04-20T20:56:30+08:00

任务创建时间,Y-M-HTh:m:s+08:00。

update_at

string

2022-04-20T20:56:30+08:00

任务最新更新时间,Y-M-HTh:m:s+08:00。

name

string

测试崩溃报警-按issue

报警规则名称。

description

string

测试报警

报警规则描述。

monitor_type

string

crash

报警规则类型。

  • crash:崩溃
  • crash_defend:崩溃防护
  • lag:卡顿
  • flutter_crash:flutter监控
  • app_page_js_err:页面监控/js错误
  • app_page_ajax_err:页面监控/请求错误
  • app_page_perf:页面监控/性能
  • app_event:事件报警
  • net_err:网络错误
  • custom_exception:自定义错误
  • traffic_exception:流量
  • disk_exception:磁盘
  • battery_trace:电量
  • cpu_exception:CPU

owner

string

cc

规则创建。

day_active

string

[
{
"activation_start":"00:00",
"activation_end":"23:59",
"activation_start_stamp":1541174400,
"activation_end_stamp":1541260740
}
]

每天任务生效起始时间。

callback_url

string

https://console.volcengine.com/

报警回调地址。

报警列表

报警列表用于展示和管理创建好的报警任务。在列表中您可以看到每条报警任务的关键字段和信息,并且可以操作来开启或关闭某个或多个报警任务。
图片

  • 任务名称:单击进入报警详情,查看该报警任务的报警历史和统计页面。
  • 编辑:单击可以修改报警说明、指标类型、筛选维度、报警规则等参数,报警任务名称和报警级别不可以修改。
  • 报警详情:单击进入报警详情,查看报警情况概览和报警列表。

报警详情

筛选项

图片

  • 筛选条件:时间范围、时间粒度、报警任务。
  • ACK:单击ACK,可以屏蔽报警通知,但报警事件依旧正常生成,规则依然处于生效状态。
    • 默认只有规则设定的处理人以及群成员可以ACK。
    • 初始状态为ACK,一次ACK默认屏蔽时长为24小时,您可以在平台管理配置页面修改ACK时长,详情请参见平台管理配置
    • 单击ACK后,设定到期时间,同时按钮状态为重置ACK。在ACK的24小时内,有权限者可以随时重置ACK,倒计时刷新。24小时后,按钮状态恢复ACK

报警情况概览

报警趋势图展示的是报警任务的报警次数,您可以了解到每个报警任务触发报警的波动情况以及在哪个时间段内的报警更加高频等信息。
图片

报警列表

在崩溃分析、错误分析等功能模块中,有其对应的报警统计模块。
图片
以崩溃分析为例,在崩溃分析下有崩溃报警功能,其作用是对崩溃类型的报警做报警历史的展示与统计。您也可以筛选报警任务来查询关心的任务历史数据。