You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
流运维
报警监控
复制全文
报警监控

通过任务监控规则,可对单任务运行进行监控,一个监控规则可被多个任务使用,一个任务可使用多个监控规则。
您可以查看该项目全部已创建的规则监控,并对其进行管理。如有需要,可通过新建监控规则,增加新的监控规则。同时,在报警记录页面,可查看项目下全部已触发的报警。

新建监控规则

配置监控规则的步骤如下:

  1. 登录DataLeap控制台。

  2. 选择数据开发 > 运维中心 > 实时任务运维 > 报警监控 > 监控规则,进入监控规则页面。
    Image

  3. 单击右上角新建监控规则按钮,进入报警设置页面,在新建监控规则界面,完成以下参数配置:

    参数

    说明

    基本信息

    规则名称

    实时任务监控规则的名称,支持中英文字符、数字、下划线和中小括号。

    规则对象

    根据任务ID和任务名称,进行搜索实时任务,可监控多个任务对象。

    规则描述

    可填写收到该报警后,应有的处理方式,方便定位管理,非必填。

    注意

    备注信息不支持填写“" ' { } \”字符,且备注长度不支持超过1000个字符,上述特殊字符可能导致发送消息失败。

    监控内容

    数据源监控

    1. 如需使用数据源监控,数据开发类任务请保证线上版本,已登记数据源Source和Sink信息;数据集成任务,可自动从任务配置中获取数据源信息,无需登记。
    2. 数据源监控针对Source整个Topic的 lagsize 定值监控:设置最近 N 分钟,当 lagsize>X 条数据时,即触发报警。

    运行监控

    • 任务执行状态:每隔3分钟,检查任务状态,任务状态非“运行中”则进行报警。
    • 任务定时启停异常:针对 LAS 引擎中的 LAS Flink SQL、LAS JAVA Flink 流式任务,设置定时启停规则并后续触发启停规则时,若任务出现以下情况便会触发告警:
      • 任务定时启动或重启,5分钟后未进入 “运行中” 状态;
      • 或者操作任务停止,5分钟后未进入 “已停止、已失败、已取消、流式任务成功” 状态。
    • Flink failover 次数:Flink 作业,连续 N 分钟,重启大于几次时,会开始发送告警。
    • Checkpoint 失败次数:当任务连续 N分钟,失败X次时,进行报警。

    接收人

    接收人

    报警接收人支持选择项目用户、飞书群、任务责任人作为报警对象。详细配置说明参见新建监控规则中的接收人相关说明。

    报警设置

    发送方式

    支持邮件、飞书、Webhook 方式发送报警通知。飞书方式发送所需的前置操作说明详见新建监控规则中的发送方式相关说明。

    语言

    支持报警消息语言类型选择,若发送方式为飞书,则收到告警的语言类型需基于飞书客户端设置中的语言类型选择。

    报警卡片

    按需配置在报警卡片中,是否需要@责任人。

    发送降频

    按需选择是否需要开启发送降频能力:

    1. 开启后,如报警连续触发,则发送间隔会逐步衰减,衰减策略为:下次发送间隔=本次发送间隔 *2;默认发送间隔=3min;上限为24小时。
    2. 启用“发送降频”后,将影响值班计划升级,目前值班计划主备升级逻辑为:连续15min,3次报警之后,若主值班人没有ack,那么下一次报警发送给备值班人。

    免打扰时段

    设置免打扰时间段,在免打扰时段内,不会收到任务告警。

  4. 报警规则信息设置完成后,单击提交按钮,完成规则创建。

说明

创建规则时,可直接设置监控对象;在任务的不同阶段,也可为其设置相应的监控规则。

管理监控规则

监控规则创建完后,您可在界面进行以下操作:

  • 搜索监控规则
    • 设置搜索信息,查询符合条件的任务列表。单击重置按钮,可以恢复项目下的默认展示。
    • 当设置多个搜索条件时,会取各个条件的交集,进行查询。
  • 批量操作
    勾选一个或多个规则,单击相应按钮,对规则进行开启/关闭删除接收人替换接收人重置等批量操作。
  • 单规则操作
    单击列表中某个规则操作列的相应按钮,可以编辑开启/关闭删除该规则,以及查看该规则的操作记录

报警记录

本功能用于展示所选项目下全部触发的监控报警记录,相关操作步骤如下:

  1. 登录DataLeap控制台。
  2. 选择数据开发 > 运维中心 > 实时任务运维 > 报警监控 > 报警记录,进入报警记录页面。
    Image
  3. 可以查看所选项目下的所有报警记录,并执行以下操作:
  • 搜索报警记录
    设置搜索信息,查询符合条件的任务列表。当设置多个搜索条件时,会取各个条件的交集,进行查询。
  • 单击列表中某个记录相应列的蓝色数据,可以查看对应的数据信息。
  • 单击列表中某个记录操作列的ACK按钮,屏幕该报警信息。
最近更新时间:2026.02.04 10:41:49
这个页面对您有帮助吗?
有用
有用
无用
无用