最近更新时间:2023.05.26 20:10:00
首次发布时间:2021.02.23 10:42:08
监控告警功能可用于监控图表中的指标,提供分钟、小时、日、月粒度的实时监控。用户可通过配置监控规则、监控频率设置监控。
若推送到飞书/飞书群,当监控消息过长时,由于飞书消息大小限制 30k,可能出现消息截断不完整的情况。
常见应用场景
例如公司在多地发展了线下店铺,根据城市-店铺的名单,需监控城市覆盖情况的变化。则可以选择维度值变化监控,监控维度为“城市”。当列表中出现新的城市,或者某一城市消失时,会收到对应报警推送。
第一步 配置监控之前,需要满足以下前置条件:
底表需要例行更新
日期筛选需要设置为最近/最近有数
保存图表
第二步 点击新建监控,呼出设置框
第三步 设置监控参数,如下图:
第四步 点击发送测试,可以在lark上查看测试信息,并调整参数
第五步 点击确认,新建监控成功;更多历史监控可以在项目中心的「监控管理」里查看
第一步 配置监控之前,需要满足前置条件:
底表需要例行更新
日期筛选需要设置为最近/最近有数
保存图表
底表为kafka的实时数据
时间分区字段需要做聚合
选择维度上的时间字段,选择一段时间或者一个最近的时间点;
以下面的图表为例,选择“最近一个时间点”则监控p_date为2020-02-20的数据;
如果选择“已选择时间范围”,则监控p_date在2020-02-14~2020-02-20范围内的数据
支持以下两种方式的触发设定:
全部规则/任一规则 :选择全部规则,则维度条件和指标条件同时满足时报警;选择任一规则,则维度条件满足或指标条件满足时报警。
指标监控支持设置多个报警规则,指标条件为必填项,维度条件为可选项。
设置 维度条件 ,以实现仅监控该条件下的指标波动
指标条件支持设置 指定 指标 在 特定区间 的 异动 (差异/波动)监控,或设置两个指标值对比监控
任一数据/全部数据 :默认为任一数据,即数据满足条件后立即报警。设置全部数据后,则在指定维度条件下所有数据均满足条件后才会报警。
指定指标 :图表页面内指标栏内放置的指标为可选项,支持隐藏指标字段
特定区间 :选择对比口径。其中绝对值会忽略数据正负影响,原始值则保留数据本身的正负属性;
比N天则与前N天数据对比;比前一时间点则与上一个数据点数据对比(如分区为小时,则比较1小时之前;分区为分钟,则比较1分钟之前)
异动监控 :支持波动超过、上升超过、下降超过三种波动类型,进行单个指标监控;当选择对比值为其他指标时,支持大于、小于、等于三种波动类型。
维度取值 变化
支持监控维度相比于1天、7天、30天前的波动
任何维度值的增加、更新、减少都会触发告警
订阅时间
定时
周级:可以多选每周一、二、三。。。,并选择触发的时间点;时间点建议设置为底部数据能够保证更新后的时间点。支持UTC时区选择
天级:每天都会触发监控,选择触发的时间点。支持UTC时区选择
小时级:每N小时触发一次监控,监控起始时间从每天0点开始计时
分钟级:可选每10、20、30分钟触发
数据完成同步时触发,支持UTC时区选择
仅更新频率为天的图表(对应数据集同步周期为天级同步,或自动同步)能够看到此选项。配置后,触发监控需要:
T-N的时间分区数据完成同步
到达最早触发时间
例:触发订阅的日期是2020-01-02, 设定触发的日期为T-1,最早触发时间为10:00
当2020-01-01日9:00数据集完成同步,则监控通知会等待到10:00发出
当2020-01-01日11:00数据集完成同步,则监控通知会延后到11:00发出
推送方式
报警处理建议
可以添加文本和URL
报警结果
触发监控发送lark后是否需要确认逻辑,如果设置了需要确认逻辑,不确认报警信息则每隔1小时都会重复一次报警
发送测试
立即发送一条对该配置条件的Lark通知,以预览监控效果(发送测试的时候不发送到群)
配置监控之前,需要满足前置条件:
底表需要例行更新
日期筛选需要设置为最近/最近有数
保存图表
底表为kafka的实时数据
时间分区字段需要做聚合
时间范围
选择维度上的时间字段,支持选择已选择时间范围或者最近N个时间点
最近N个时间点的设置:例如设置最近3个时间点,剔除最近1个时间点,那么实际监控的时间点为倒数第2、3个时间点
监控频率
周级:可以多选每周一、二、三。。。,并选择触发的时间点;时间点建议设置为底部数据能够保证更新后的时间点
天级:每天都会触发监控,选择触发的时间点
小时级:每N小时触发一次监控,监控起始时间从每天0点开始计时
分钟级:每10/20/30分钟触发一次,从每小时的0分开始计时
具体规则
数值变化
选择监控的指标
比前一天/比7天前/比30天前/绝对值,当时间聚合字段是按照分钟/小时聚合,则时间对比变为:比前一天同期/比7天前同期/比30日前同期 eg:比前一天同期,监控时间点为:2019/8/25 11:10:00,则对比的时间点为前一天同期:2019/8/25 11:10:00 VS 2019/8/24 11:10:00 支持选择时间同环比的条件:分组中时间分区字段位于首位,且分组中不包含其他时间字段,时间戳字段按照时间粒度进行聚合
对比参数
- TOPN变动-主要监控进出某个TOPN榜单的变动情况
选择监控的维度
选择对比的条件
报警通知
支持飞书/飞书群
飞书群:可以添加多个群号,中间用英文逗号分隔,且要保证每个群里都有机器人
报警处理建议
选填,可以添加文本和URL
发送测试
立即发送一条对该配置条件的Lark通知(发送测试的时候不发送到群)
监控列表进入:
可通过可视化页面监控的下拉栏进入监控列表
或者点击项目中心-定时任务-监控管理进入
可以查看编辑监控的角色
可以查看编辑监控的人:监控创建人、项目管理员以及监控对应图表的所有者
监控属于隐私信息,个人仪表盘的监控他人无法编辑,如果想要让其他人能够编辑监控,就把需要监控的图表放在公共仪表盘,然后给别人授予这个仪表盘的管理权限
查看范围 | 操作范围 | |
---|---|---|
项目管理员 | 可以看到项目下全部监控 | 拥有全部操作权限 |
项目成员 | 我创建的全部监控 | 拥有全部操作权限 |
基于我管理的图表所创建的全部监控 | 拥有全部操作权限 | |
我是接收人的全部监控 | 无操作权限 |
数据:各个APP在安卓和ios双端的DAU情况
监控场景:监控1000万以上量级的产品中月同比增长超过10%的产品
配置参数为:
有APP满足条件,则会触发报警:
数据:中国苹果应用商店排行榜-总榜
监控场景:监控每天TOP10 APP的变化
配置参数为:
有 APP 满足条件,则会触发报警:
图表数据:城市、订单量
监控需求:每一条数据,与该城市前10天的8分位订单量进行对比,超过则报警。
实现方式:
1. 创建【8分位订单量】字段=quantile(0.8)(sum([订单量]))
2. 将【8分位订单量】放到可视化图表上。
3. 利用同环比计算10天前的原始值(计算方式选用“高级”)
4. 使用同环比生成的指标字段进行监控对比
图表数据:城市、订单量
监控需求:每一条数据,与该城市前10天的8分位订单量进行对比,超过则报警。
实现方式:
1. 创建【8分位订单量】字段=quantile(0.8)(sum([订单量]))
2. 将【8分位订单量】放到可视化图表上。
3. 利用同环比计算10天前的原始值(计算方式选用“高级”)
4. 使用同环比生成的指标字段进行监控对比
适用场景
实时监控网络延时,超过50ms即报警。由于特殊情况造成的不稳定,某时刻突然上升到120ms触发了报警,但是进行排查时,数据已经立刻回落到正常范围内。为了避免毛刺现象导致的误报警,可设置为最近 3分钟的数据均超过 50ms 再报警。
实现方式
在维度条件中,将时间范围选择为最近 3分钟
指标满足条件选择“全部数据”,设置条件为网络延迟>50