You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
批运维
基线监控
复制全文
基线监控

通过基线监控,可对目标任务及其全部上游任务组成的数据链路,进行全方位的监控,具体如下:

  1. 将某个任务加入基线后,它自身及其全部上游,都将被基线监控。
    例如将candy_yilai3放入基线1,candy_yilai3及其全部上游任务组成的数据链路,都将被基线进行监控。
  2. 基线中设置监控任务的最晚完成时间和用于处理异常的余量时间,当上游任务运行情况将影响这两个时间点时,基线进行相关报警。
    例如对于candy_yilai3可接受的最晚完成时间是下午16:00,当发现问题,负责人用于处理异常的余量时间是30min,则基线1保障的两个时间点是15:30和16:00,当系统发现,随着上游任务的依次运行,candy_yilai3无法在15:30完成运行,基线发出预警;当发现candy_yilai3无法在16:00完成运行,基线发出破线报警。
    Image

配置管理基线

通过基线监控,可监控保障任务及其全部上游,保证保障任务按时产出。

新建基线

  1. 登录DataLeap控制台。

  2. 选择数据开发 > 运维中心 > 离线任务运维 > 报警监控 > 基线管理,进入基线管理界面。
    Image

  3. 在基线管理界面,单击右上角新建基线按钮,进入基线设置界面。

  4. 在基线设置界面,完成以下相关参数配置:

    参数

    说明

    基本信息设置

    基线名称

    根据需要,设置基线名称。

    规则描述

    您可输入当前基线相关的规则描述信息或报警描述信息等,可便于基线负责人了解报警描述内容。

    注意

    备注信息不支持填写“" ' { } \”字符,且备注长度不支持超过1000个字符,上述特殊字符可能导致发送消息失败。

    优先级

    包括普通和紧急两个选项,默认选择普通。

    • 紧急:默认会将基线失败事件作为报警,通过邮件发送给失败任务责任人(对上游任务责任人打扰较强,设置“紧急”请谨慎)。
    • 普通:无默认报警设置,全部基线报警,以用户自主设置为准。

    基线类型

    包括天基线小时基线两个选项,由加入基线的保障任务的频率来决定。

    • 若保障任务是天频率,则选择天基线。
    • 若保障任务是小时频率,则选择小时基线。
    • 保障任务的上游任务,可以是任意频率。

    保障任务

    输入任务ID或者任务名称,选择任务后,单击添加按钮,将需要保障的任务添加进基线中。

    • 若不同任务可接受的最晚完成时间和处理异常需要预留的余量时间相同,任务可加入同一基线。
    • 一个任务,只能加入一条基线。

    承诺时间

    加入基线的保障任务,最晚可接受的完成时间。

    预警余量

    承诺时间–预警余量即为基线预警时间。一般保障任务发生异常,需要预留多少时间进行处理,预警余量即设置多少。

    监控报警设置

    报警类型

    基线提供基线预警基线破线基线破线加剧基线保障任务未完成预警基线保障任务未完成5种报警类型,根据实际需要,您可选择自己想要用的报警类型。 各报警类型触发报警的条件说明,请参见下方“报警类型参数说明”表。

    监控范围

    基线监控链路,由加入基线的保障任务及其全部上游任务组成。

    • 监控链路上全部任务:监控基线链路上的全部节点,全部作为监控对象。
    • 指定项目:在基线监控链路上,仅在指定项目中的节点,才作为监控对象。

    报警形式

    • 普通:所有基线报警类型,采用同样的发送形式进行发送。
    • 高级:不同基线报警类型,可采用不同的发送形式进行发送。

    报警类型

    报警形式选择高级时,可按照上述不同报警类型,设置不同的报警对象。

    语言

    支持报警消息语言类型选择,若发送方式为飞书,则收到告警的语言类型需基于飞书客户端设置中的语言类型选择。

    发送方式

    支持邮件、飞书、Webhook形式发送。其余说明详见新建监控规则中的发送方式相关说明。

    报警对象

    支持项目用户、飞书群、值班计划、保障任务责任人作为报警对象。其余说明详见新建监控规则中的接收人相关说明。

    报警范围

    基线监控链路,由加入的保障任务及其全部上游任务组成:

    • 监控链路上全部任务:基线监控链路上的全部节点,触发基线监控,发送对应报警。
    • 指定项目:基线监控链路上,仅在指定项目中的节点,触发基线监控,发送对应报警。

    发送次数

    普通的报警形式,您可自定义报警发送次数。

    发送间隔

    每次报警消息发送的时间间隔,以min为时间单位。

    免打扰时段

    • 开启:您可自定义免打扰时间段,在这段时间内,您不会收到报警。
    • 关闭:任何时段,您都可以接收到报警。
  5. 基线信息设置完成后,单击确定按钮,完成基线创建。

报警类型参数说明表

报警类型

报警触发条件

基线预警

基线监控的路上,首个没有在基线预警时间点开始运行的节点。

基线破线

  1. 该节点的上游(直接、间接节点)没有出现过破线。
  2. 该节点没有在预测破线时间点开始运行。

基线破线加剧

  1. 节点所在链路已发送首次破线报警。
  2. 检查节点运行耗时增加导致破线加剧。
    • 节点实际开始时间 < 破线开始时间:
      将“节点实际开始时间+(节点平均运行耗时*(1+N%)+(破线开始时间-实际开始时间))”作为检测时间点,该节点到达检测时间点,还没有运行完成。
      计算过程:实际开始时间+(节点平均运行耗时*(1+N%))+(破线开始时间-实际开始时间)。
    • 节点实际开始时间>破线开始时间
      将“节点实际开始时间+(节点平均运行耗时*(1+N%))”作为检测时间点,该节点到达检测时间点,还没有运行完成。

基线保障任务未完成预警

基线预警时间到达(承诺时间-预警余量),检查基线所有保障任务是否完成运行。
若有保障任务未运行完成,且基线之前无基线预警、基线破线报警,则触发报警。

基线保障任务未完成

基线承诺时间到达,检查基线所有保障任务是否完成运行:

  1. 若有保障任务未运行完成,则触发报警。
  2. 若所有保障任务都已完成运行,基线监控停止(即使基线监控链路上仍然有实例正在运行)。

基线管理操作

基线创建完成后,您可在基线列表中进行以下相关操作:

  • 搜索基线
    设置搜索信息,查询符合条件的任务列表。
    单击重置按钮,可以恢复项目下的默认展示。
    当设置多个搜索条件时,会取各个条件的交集,进行查询。
  • 批量操作
    勾选列表中一条或多条信息,单击报警ACK设置按钮,批量设置基线报警ACK。
  • 单基线操作
    • 单击列表中某条信息操作列的相应按钮,可以编辑关闭删除该基线,以及管理该基线的报警ACK设置
    • 单击列表中某条信息的基线名称,可以查看该基线的详细配置信息。

说明

当修改已有基线时,对应配置无法实时生效,具体生效时间为:

  • 修改时间早于22:00时,对应修改在第二天的基线监控中体现。
  • 修改时间晚于22:00时,对应修改在第三天的基线监控中体现。

查看基线实例

每一个业务时间,都会对应一个基线实例,通过基线实例的状态,可判断基线监控任务(保障任务及其上游),是否正常运行。
查看基线实例的步骤如下:

  1. 登录DataLeap控制台。
  2. 选择数据开发 > 运维中心 > 离线任务运维 > 报警监控 > 基线实例,进入基线实例界面。
  3. 可查看基线实例状态,并执行以下操作:
    • 单击某条信息的基线名称,可以查看基线设置详情。
    • 单击某条信息操作列的详情按钮,查看实例保障任务的状态分布,可以查看完整监控链路最晚完成链路等信息。
    • 单击某条信息操作列的查看事件按钮,可以查看基线事件详情。详细说明可参见“4.21.6.3基线事件”。
    • 报警ACK设置
      基线状态处于非安全状态时,可以进行报警ACK设置,根据实际情况,选择是否需要开启报警屏蔽时间。

基线实例状态说明

状态

说明

安全

截止当前为止,该基线实例没有发出过任何报警,监控任务均在预期情况下执行。

预警

基线的承诺时间尚未到达,截止当前为止,基线已经发出【基线预警】报警

预警,实际破线

基线的承诺时间已到达,基线曾发出【基线预警】报警;在承诺时间到达时,保障任务没有完成运行

预警,实际未破线

基线的承诺时间已到达,基线曾发出【基线预警】报警;在承诺时间到达时,保障任务完成运行

预测破线

基线的承诺时间尚未到达,截止当前为止,基线已经发出【基线破线】报警

预测破线,实际破线

基线的承诺时间已到达,基线曾发出【基线破线】报警;在承诺时间到达时,保障任务没有完成运行

预测破线,实际未破线

基线的承诺时间已到达,基线曾发出【基线破线】报警;在承诺时间到达时,保障任务完成运行

保障任务自身运行变慢导致基线实际破线

由于保障任务自身运行变慢,在承诺时间到达时,保障任务没有完成运行

其他

除了列出的8中状态外的其他情况,例如当基线实例已经生成,但用户关闭了基线时实例的状态。该状态下,基线会停止监控,不会发出基线和事件报警。

基线事件

基线监控任务(保障任务及其上游任务),在执行过程中,若出现失败、变慢等情况,将被当作基线的异常事件,进行记录。

  • 变慢事件
    识别基线监控任务(保障任务及其上游)运行变慢的情况。

    • 识别对象:
      基线监控链路中,系统调度的任务在同一业务日期下一次完整的运行时间(包含自动重试次数)。
    • 识别条件:
      如果实例运行时长较平均运行时长相比,上涨了N%,则视为一个变慢异常事件。
      不同运行时长任务,对应的变慢标准如下:

    平均运行时长区间

    变慢识别算法(N%)

    0 - 10mins

    100

    10 - 60mins

    60

    60 - 120mins

    40

    120 - 180mins

    30

    180mins以上

    20

  • 失败事件
    识别基线监控任务(保障任务及其上游)运行失败的情况。

    • 识别对象:
      基线监控链路中,系统调度的任务在同一业务日期下实例的运行状态。
    • 识别条件:
      如果实例运行过程中出现过失败,则视为一个失败事件。
  • 异常事件
    当基线生成基线实例时,进行异常事件检查,目前主要捕获两种异常信息:

    • 监控链路中,是否出现了无法计算平均运行耗时的节点,该节点将导致基线预警、破线、破线加剧三种类型的报警,无法作用于该节点及其上游节点,使得基线监控在局部失效。
    • 监控链路中,基线预警时间和承诺时间是否有合理,即按照链路各节点的运行情况推算,必定出现基线预警、破线的情况。
      当发现基线异常事件,将通过邮件发送给基线报警接收人,方便及时进行跟进和调整。
最近更新时间:2026.02.04 10:41:49
这个页面对您有帮助吗?
有用
有用
无用
无用