基线监控概述
通过基线监控,可对目标任务及其全部上游任务组成的数据链路,进行全方位的监控,具体如下:

- 将某个任务加入基线后,它自身及其全部上游,都将被基线监控。
例如将candy_yilai3放入基线1,candy_yilai3及其全部上游任务组成的数据链路,都将被基线进行监控。 - 基线中设置监控任务的最晚完成时间和用于处理异常的余量时间,当上游任务运行
情况将影响这两个时间点时,基线进行相关报警。
例如对于candy_yilai3可接受的最晚完成时间是下午16:00,当发现问题,负责人用于处理异常的余量时间是30min,则基线1保障的两个时间点是15:30和16:00,当系统发现,随着上游任务的依次运行,candy_yilai3无法在15:30完成运行,基线发出预警;当发现candy_yilai3无法在16:00完成运行,基线发出破线报警。
基线监控设置
可在“运维中心-离线任务运维-监控报警-基线管理”模块中,管理基线监控规则。

基线管理:新建或管理项目下所有已创建的基线规则。
基线实例:基线每一次执行生成的运行记录列表。
基线事件:基线在每一次执行过程中,出现的各种异常事件。
新建基线
进入“基线管理”,点击新建按钮,创建一个新的基线监控。

基线的具体配置页面如下:

- 基线名称:用户可按需进行设置。
- 创建人:系统直接获取创建人账号信息,不可修改。
- 优先级:可选类型有普通和紧急,默认选中普通,两者的区别在于,对于紧急基线,基线监控链路上的任一节点,运行失败,系统都会给任务负责人发送失败报警(对上游任务责人打扰较强,设置“紧急”请谨慎)。
- 基线类型:小时基线/天基线,根据加入基线的保障任务的频率决定,保障任务是天频率,则选择天基线;保障任务是小时频率,则选择小时基线,保障任务的上游任务,可以是任意频率。
- 保障任务:基线需要保障的任务。
- 承诺时间:加入基线的保障任务,最晚可接受的完成时间。
- 预警余量:承诺时间-预警余量,即为基线预警时间,一般保障任务发生异常,需要预留多少时间进行处理,预警余量即设置多少。
- 发送形式:支持邮件和webhook两种形式,当用户选择邮件时,需在报警对象中填写具体接收人信息;当用户选择webhook时,需要填写具体的hookurl,hookUrl 为 post 类型,且必须添加 http 或 https 协议头。
- 报警对象:当发送形式选择邮件时,出现具体报警对象设置。
任务加入基线
- 若不同任务可接受的最晚完成时间和处理异常需要预留的余量时间相同,任务可加入同一基线。
- 一个任务,只能加入一条基线。
通过基线配置页加入多个任务
编辑已有基线,加入更多任务。

在基线配置页面,加入更多任务

通过任务列表加任务加入已有基线

基线实例
每一个业务时间,都会对应一个基线实例,通过基线实例的状态,可判断基线监控任务(保障任务及其上游),是否有正常运行。

基线状态
- 预警:基线预估最终完成时间超出了预期时间(即,需要消耗余量时间),则该基线状态会置为“预警”。
- 破线:如果已经到达基线最终时间,基线内的任务至少有一个尚未运行结束;或基线预估最终完成时间必然超出承诺时间,则基线状态会置为“破线”。
- 安全:当前基线中的所有任务都在预期情况下执行。
- 其他:指当基线实例已经生成,但用户关闭了基线时实例的状态。该状态下,基线会停止监控,不会发出基线和事件报警。
基线事件
基线监控任务(保障任务及其上游任务),在执行过程中,若出现失败、变慢等情况,将被当作基线的异常事件,进行记录。
1. 变慢事件
识别基线监控任务(保障任务及其上游)运行慢变的情况。
识别对象:
基线监控链路中,系统调度的任务在同一业务日期下一次完整的运行时间(包含自动重试次数)。
识别条件:
如果实例运行时长较平均运行时长相比,上涨了X%,则视为一个变慢异常事件。
不同运行时长任务,对应的变慢标准如下:
平均运行时长区间 | 变慢识别算法(X%) |
---|
0 - 10mins | 100 |
10 - 60mins | 60 |
60 - 120mins | 40 |
120 - 180mins | 30 |
180mins以上 | 20 |
2. 失败事件
识别基线监控任务(保障任务及其上游)运行失败的情况。
识别对象:
基线监控链路中,系统调度的任务在同一业务日期下实例的运行状态。
识别条件:
如果实例运行过程中出现过失败,则视为一个失败事件。
报警记录
