You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

监控管理

最近更新时间2023.05.26 20:10:00

首次发布时间2021.02.23 10:42:08

1. 概述

监控告警功能可用于监控图表中的指标,提供分钟、小时、日、月粒度的实时监控。用户可通过配置监控规则、监控频率设置监控。

若推送到飞书/飞书群,当监控消息过长时,由于飞书消息大小限制 30k,可能出现消息截断不完整的情况。

常见应用场景

  • 检测维度项的变化:

例如公司在多地发展了线下店铺,根据城市-店铺的名单,需监控城市覆盖情况的变化。则可以选择维度值变化监控,监控维度为“城市”。当列表中出现新的城市,或者某一城市消失时,会收到对应报警推送。

  • 监控指标异常波动:例如监控公司销售额的波动情况,当波动额上涨/下跌高出预期值时,发送报警推送,相关分析人员第一时间介入定位原因。

2. 快速入门

2.1 离线数据监控

第一步 配置监控之前,需要满足以下前置条件:

  • 底表需要例行更新

  • 日期筛选需要设置为最近/最近有数

  • 保存图表


第二步 点击新建监控,呼出设置框

第三步 设置监控参数,如下图:

第四步 点击发送测试,可以在lark上查看测试信息,并调整参数

第五步 点击确认,新建监控成功;更多历史监控可以在项目中心的「监控管理」里查看

2.2 实时数据监控

第一步 配置监控之前,需要满足前置条件:

  • 底表需要例行更新

  • 日期筛选需要设置为最近/最近有数

  • 保存图表

  • 底表为kafka的实时数据

  • 时间分区字段需要做聚合

3. 功能介绍

3.1 离线数据监控配置

3.1.1 时间范围

选择维度上的时间字段,选择一段时间或者一个最近的时间点;
以下面的图表为例,选择“最近一个时间点”则监控p_date为2020-02-20的数据;
如果选择“已选择时间范围”,则监控p_date在2020-02-14~2020-02-20范围内的数据

3.1.2 触发因素

支持以下两种方式的触发设定:

  • 指标值 变化

全部规则/任一规则 :选择全部规则,则维度条件和指标条件同时满足时报警;选择任一规则,则维度条件满足或指标条件满足时报警。
指标监控支持设置多个报警规则,指标条件为必填项,维度条件为可选项。
设置 维度条件 ,以实现仅监控该条件下的指标波动

指标条件支持设置 指定 指标 在 特定区间 的 异动 (差异/波动)监控,或设置两个指标值对比监控
任一数据/全部数据 :默认为任一数据,即数据满足条件后立即报警。设置全部数据后,则在指定维度条件下所有数据均满足条件后才会报警。
指定指标 :图表页面内指标栏内放置的指标为可选项,支持隐藏指标字段
特定区间 :选择对比口径。其中绝对值会忽略数据正负影响,原始值则保留数据本身的正负属性;
比N天则与前N天数据对比;比前一时间点则与上一个数据点数据对比(如分区为小时,则比较1小时之前;分区为分钟,则比较1分钟之前)

异动监控 :支持波动超过、上升超过、下降超过三种波动类型,进行单个指标监控;当选择对比值为其他指标时,支持大于、小于、等于三种波动类型。

  • 对比值 :支持数值、百分比和其他指标。对比指标支持普通指标、对比衍生指标、同环比指标

  • 维度取值 变化

    • 支持监控维度相比于1天、7天、30天前的波动

    • 任何维度值的增加、更新、减少都会触发告警

  • 订阅时间

    • 定时

    • 周级:可以多选每周一、二、三。。。,并选择触发的时间点;时间点建议设置为底部数据能够保证更新后的时间点。支持UTC时区选择

    • 天级:每天都会触发监控,选择触发的时间点。支持UTC时区选择

    • 小时级:每N小时触发一次监控,监控起始时间从每天0点开始计时

    • 分钟级:可选每10、20、30分钟触发

  • 数据完成同步时触发,支持UTC时区选择

    • 仅更新频率为天的图表(对应数据集同步周期为天级同步,或自动同步)能够看到此选项。配置后,触发监控需要:

      • T-N的时间分区数据完成同步

      • 到达最早触发时间

    • 例:触发订阅的日期是2020-01-02, 设定触发的日期为T-1,最早触发时间为10:00

    • 当2020-01-01日9:00数据集完成同步,则监控通知会等待到10:00发出

    • 当2020-01-01日11:00数据集完成同步,则监控通知会延后到11:00发出

推送方式

  • 飞书:可以添加多个接收人
  • 电话
  • 如此处无可选推送方式,请参照办公平台集成进行配置
  • 飞书群:可以添加多个群号,中间用英文逗号分隔,且要保证每个群里都有机器人

报警处理建议
可以添加文本和URL

报警结果
触发监控发送lark后是否需要确认逻辑,如果设置了需要确认逻辑,不确认报警信息则每隔1小时都会重复一次报警

发送测试
立即发送一条对该配置条件的Lark通知,以预览监控效果(发送测试的时候不发送到群)

3.2 实时数据监控配置

  • 配置监控之前,需要满足前置条件:

    • 底表需要例行更新

    • 日期筛选需要设置为最近/最近有数

    • 保存图表

    • 底表为kafka的实时数据

    • 时间分区字段需要做聚合

  • 时间范围

  • 选择维度上的时间字段,支持选择已选择时间范围或者最近N个时间点

  • 最近N个时间点的设置:例如设置最近3个时间点,剔除最近1个时间点,那么实际监控的时间点为倒数第2、3个时间点

  • 监控频率

    • 周级:可以多选每周一、二、三。。。,并选择触发的时间点;时间点建议设置为底部数据能够保证更新后的时间点

    • 天级:每天都会触发监控,选择触发的时间点

    • 小时级:每N小时触发一次监控,监控起始时间从每天0点开始计时

    • 分钟级:每10/20/30分钟触发一次,从每小时的0分开始计时

  • 具体规则

  • 数值变化

    • 选择监控的指标

    • 比前一天/比7天前/比30天前/绝对值,当时间聚合字段是按照分钟/小时聚合,则时间对比变为:比前一天同期/比7天前同期/比30日前同期 eg:比前一天同期,监控时间点为:2019/8/25 11:10:00,则对比的时间点为前一天同期:2019/8/25 11:10:00 VS 2019/8/24 11:10:00 支持选择时间同环比的条件:分组中时间分区字段位于首位,且分组中不包含其他时间字段,时间戳字段按照时间粒度进行聚合

  • 对比参数
    - TOPN变动-主要监控进出某个TOPN榜单的变动情况

    • 选择监控的维度

    • 选择对比的条件

  • 报警通知

    • 支持飞书/飞书群

    • 飞书群:可以添加多个群号,中间用英文逗号分隔,且要保证每个群里都有机器人

  • 报警处理建议

    • 选填,可以添加文本和URL

    • 发送测试

    • 立即发送一条对该配置条件的Lark通知(发送测试的时候不发送到群)

3.3 监控列表管理

  • 监控列表进入:
    可通过可视化页面监控的下拉栏进入监控列表
    alt
    或者点击项目中心-定时任务-监控管理进入

  • 可以查看编辑监控的角色

可以查看编辑监控的人:监控创建人、项目管理员以及监控对应图表的所有者

监控属于隐私信息,个人仪表盘的监控他人无法编辑,如果想要让其他人能够编辑监控,就把需要监控的图表放在公共仪表盘,然后给别人授予这个仪表盘的管理权限

查看范围操作范围
项目管理员可以看到项目下全部监控拥有全部操作权限
项目成员我创建的全部监控拥有全部操作权限
基于我管理的图表所创建的全部监控拥有全部操作权限
我是接收人的全部监控无操作权限
  • 监控与订阅支持批量“转移所有者”
    alt
    提示:如果监控接收人为空,则监控无法生效
4. 使用场景示例

4.1 DAU 增速波动监控

数据:各个APP在安卓和ios双端的DAU情况
监控场景:监控1000万以上量级的产品中月同比增长超过10%的产品

配置参数为:

有APP满足条件,则会触发报警:

4.2 应用商店排行榜排名变化监控

数据:中国苹果应用商店排行榜-总榜
监控场景:监控每天TOP10 APP的变化

配置参数为:

有 APP 满足条件,则会触发报警:

4.3 离职率监控,超过全国平均离职率时报警

  • 图表数据:城市、订单量

  • 监控需求:每一条数据,与该城市前10天的8分位订单量进行对比,超过则报警。

  • 实现方式:

    • 1. 创建【8分位订单量】字段=quantile(0.8)(sum([订单量]))

    • 2. 将【8分位订单量】放到可视化图表上。

    • 3. 利用同环比计算10天前的原始值(计算方式选用“高级”)

    • 4. 使用同环比生成的指标字段进行监控对比

4.4 订单量监控,超过前10天的8分位值时报警

  • 图表数据:城市、订单量

  • 监控需求:每一条数据,与该城市前10天的8分位订单量进行对比,超过则报警。

  • 实现方式:

    • 1. 创建【8分位订单量】字段=quantile(0.8)(sum([订单量]))

    • 2. 将【8分位订单量】放到可视化图表上。

    • 3. 利用同环比计算10天前的原始值(计算方式选用“高级”)

    • 4. 使用同环比生成的指标字段进行监控对比

4.5 防止数据毛刺导致的报警

  • 适用场景

  • 实时监控网络延时,超过50ms即报警。由于特殊情况造成的不稳定,某时刻突然上升到120ms触发了报警,但是进行排查时,数据已经立刻回落到正常范围内。为了避免毛刺现象导致的误报警,可设置为最近 3分钟的数据均超过 50ms 再报警。

  • 实现方式

    • 在维度条件中,将时间范围选择为最近 3分钟

    • 指标满足条件选择“全部数据”,设置条件为网络延迟>50