通过基线监控,可对目标任务及其全部上游任务组成的数据链路,进行全方位的监控,具体如下:

通过基线监控,可监控保障任务及其全部上游,保证保障任务按时产出。
登录DataLeap控制台。
选择数据开发 > 运维中心 > 离线任务运维 > 报警监控 > 基线管理,进入基线管理界面。
在基线管理界面,单击右上角新建基线按钮,进入基线设置界面。
在基线设置界面,完成以下相关参数配置:
参数 | 说明 |
|---|---|
基本信息设置 | |
基线名称 | 根据需要,设置基线名称。 |
规则描述 | 您可输入当前基线相关的规则描述信息或报警描述信息等,可便于基线负责人了解报警描述内容。 注意 备注信息不支持填写“" ' { } \”字符,且备注长度不支持超过1000个字符,上述特殊字符可能导致发送消息失败。 |
优先级 | 包括普通和紧急两个选项,默认选择普通。
|
基线类型 | 包括天基线和小时基线两个选项,由加入基线的保障任务的频率来决定。
|
保障任务 | 输入任务ID或者任务名称,选择任务后,单击添加按钮,将需要保障的任务添加进基线中。
|
承诺时间 | 加入基线的保障任务,最晚可接受的完成时间。 |
预警余量 | 承诺时间–预警余量即为基线预警时间。一般保障任务发生异常,需要预留多少时间进行处理,预警余量即设置多少。 |
监控报警设置 | |
报警类型 | 基线提供基线预警、基线破线、基线破线加剧、基线保障任务未完成预警、基线保障任务未完成5种报警类型,根据实际需要,您可选择自己想要用的报警类型。 各报警类型触发报警的条件说明,请参见下方“报警类型参数说明”表。 |
监控范围 | 基线监控链路,由加入基线的保障任务及其全部上游任务组成。
|
报警形式 |
|
报警类型 | 当报警形式选择高级时,可按照上述不同报警类型,设置不同的报警对象。 |
语言 | 支持报警消息语言类型选择,若发送方式为飞书,则收到告警的语言类型需基于飞书客户端设置中的语言类型选择。 |
发送方式 | 支持邮件、飞书、Webhook形式发送。其余说明详见新建监控规则中的发送方式相关说明。 |
报警对象 | 支持项目用户、飞书群、值班计划、保障任务责任人作为报警对象。其余说明详见新建监控规则中的接收人相关说明。 |
报警范围 | 基线监控链路,由加入的保障任务及其全部上游任务组成:
|
发送次数 | 普通的报警形式,您可自定义报警发送次数。 |
发送间隔 | 每次报警消息发送的时间间隔,以min为时间单位。 |
免打扰时段 |
|
基线信息设置完成后,单击确定按钮,完成基线创建。
报警类型参数说明表
报警类型 | 报警触发条件 |
|---|---|
基线预警 | 基线监控的路上,首个没有在基线预警时间点开始运行的节点。 |
基线破线 |
|
基线破线加剧 |
|
基线保障任务未完成预警 | 基线预警时间到达(承诺时间-预警余量),检查基线所有保障任务是否完成运行。 |
基线保障任务未完成 | 基线承诺时间到达,检查基线所有保障任务是否完成运行:
|
基线创建完成后,您可在基线列表中进行以下相关操作:
说明
当修改已有基线时,对应配置无法实时生效,具体生效时间为:
每一个业务时间,都会对应一个基线实例,通过基线实例的状态,可判断基线监控任务(保障任务及其上游),是否正常运行。
查看基线实例的步骤如下:
基线实例状态说明
状态 | 说明 |
|---|---|
安全 | 截止当前为止,该基线实例没有发出过任何报警,监控任务均在预期情况下执行。 |
预警 | 基线的承诺时间尚未到达,截止当前为止,基线已经发出【基线预警】报警 |
预警,实际破线 | 基线的承诺时间已到达,基线曾发出【基线预警】报警;在承诺时间到达时,保障任务没有完成运行 |
预警,实际未破线 | 基线的承诺时间已到达,基线曾发出【基线预警】报警;在承诺时间到达时,保障任务完成运行 |
预测破线 | 基线的承诺时间尚未到达,截止当前为止,基线已经发出【基线破线】报警 |
预测破线,实际破线 | 基线的承诺时间已到达,基线曾发出【基线破线】报警;在承诺时间到达时,保障任务没有完成运行 |
预测破线,实际未破线 | 基线的承诺时间已到达,基线曾发出【基线破线】报警;在承诺时间到达时,保障任务完成运行 |
保障任务自身运行变慢导致基线实际破线 | 由于保障任务自身运行变慢,在承诺时间到达时,保障任务没有完成运行 |
其他 | 除了列出的8中状态外的其他情况,例如当基线实例已经生成,但用户关闭了基线时实例的状态。该状态下,基线会停止监控,不会发出基线和事件报警。 |
基线监控任务(保障任务及其上游任务),在执行过程中,若出现失败、变慢等情况,将被当作基线的异常事件,进行记录。
变慢事件
识别基线监控任务(保障任务及其上游)运行变慢的情况。
平均运行时长区间 | 变慢识别算法(N%) |
|---|---|
0 - 10mins | 100 |
10 - 60mins | 60 |
60 - 120mins | 40 |
120 - 180mins | 30 |
180mins以上 | 20 |
失败事件
识别基线监控任务(保障任务及其上游)运行失败的情况。
异常事件
当基线生成基线实例时,进行异常事件检查,目前主要捕获两种异常信息: