You need to enable JavaScript to run this app.
导航
报警监控
最近更新时间:2025.06.05 10:59:07首次发布时间:2022.05.27 17:34:59
我的收藏
有用
有用
无用
无用

实时任务运维报警监控功能,支持您通过配置自定义报警规则,来实现对实时任务运行状态的监控。本文将为您介绍实时任务报警监控规则配置的相关操作。

1 功能概述

流式任务报警监控支持对任务运行的全流程监控与智能告警。您可按需配置数据源监控、运行状态监控规则,实时监测流式数据的完整性、运行稳定性等关键指标;同时,您可通过配置飞书、短信、Webhook 等多渠道告警方式,确保告警信息秒级触达,有效提升告警及时性。
在监控规则管理页面,您也可一站式查看项目下所有规则,并对其进行创建、编辑、删除等操作,实现可视化监控规则管理,协助您快速响应任务异常,提升任务运维效率与管理效能。

说明

一个监控规则可被多个任务使用,一个任务可使用多个监控规则。

2 监控规则配置

  1. 登录 DataLeap租户控制台
  2. 选择数据开发 > 运维中心 > 实时任务运维 > 报警监控 > 监控规则,进入监控规则页面。
  3. 右上角单击新建监控规则按钮,进入报警设置页面,可以对任务监控规则进行配置,配置信息包括:基本信息、监控内容、接收人和报警设置四部分。

Image

2.1 基本信息

在新建监控规则界面,填写以下监控基本信息:

配置项

说明

规则名称

输入实时任务监控规则的名称,支持中英文字符、数字、下划线和中小括号。

规则对象

根据任务 ID 和任务名称,进行搜索实时任务,可设置监控多个任务对象。

规则描述

可填写收到该报警后,应有的处理方式,方便定位管理,非必填。

2.2 监控内容

按需对流式任务的数据源及运行状态进行监控内容配置:

配置项

说明

数据源监控:
如需使用数据源监控,数据开发类任务请保证线上版本,已登记数据源 Source 和 Sink 信息。

注意

DataSail 全域数据集成流式集成任务,暂不支持配置此数据源监控告警,您可前往云监控控制台配置其他监控告警策略,详见4.1 云监控告警策略配置

业务延迟

计算数据进入 Flink 时间与在 Kafka Client 生产时间之间的差值情况,当该业务数据延迟超过 N 分钟时,即触发任务报警。

注意

该监控项仅针对 Serverless Flink SQL 任务,且版本为 Flink 1.16+ 引擎,使用 Kafka/MySQL CDC /Mongo CDC Source 的场景中生效。

针对 Source 整个 Topic lagsize 的定值监控

支持静态口径、动态口径两种监控方式:

  • 静态口径-定值监控:设置最近 N 分钟,当 lagsize>X 条数据时,即触发报警。
  • 动态口径-Lagsize 同比: Lagsize 同比昨天上升 N 百分比时,触发相应的报警。

注意

所有引擎类型的流式任务都支持此报警,但仅支持配置火山引擎 Kakfa、RocketMQ,不支持自建数据源。

数据写入断流

数据写入断流监控可进行写入流量下降时监控,监控 Source、Sink 端在指定时间段内,最近 N min 流量的均值,同比昨天下降至 N 百分比时,触发监控报警。

数据写入上涨

监控数据写入 QPS 在指定时间段内,是否有明显的波动异常:

  • 动态监控:Source、Sink端连续 N 分钟,写入的 QPS 同比昨日上涨 N 百分比时,触发监控报警。
  • 定值监控:Source、Sink端连续 N 分钟,写入 QPS 超过 N 次/s 。

运行监控

任务执行状态

通过任务状态来判断实时同步任务是否异常,每隔3分钟检查任务状态,当检查到任务处于"已失败"、或“失败恢复中” 状态则进行报警。

Flink failover 次数

Flink 作业是否存在异常频繁发生 Failove,连续 N 分钟,重启大于几次时,会开始发送告警。

注意

仅对 Serverless Flink 引擎提供的流式任务生效。

Checkpoint 失败次数监控

连续失败 N 次时,即触发报警。

注意

仅对 Serverless Flink 引擎提供的流式任务会生效。

2.3 接收人

监控内容配置完成后,您可进行告警接受人信息的配置,对象包含项目用户、飞书群、值班计划三种。

配置项

说明

项目用户

任务监控规则的内容触发后,可将任务责任人或指定项目成员,设置为报警/通知的接收人,支持配置多个接收人。

注意

项目用户作为接收人,您需保证接收人在火山控制台 > 访问控制中个人信息邮箱、手机号已填写完整。

飞书群

将告警发送至指定的目标飞书群中,您可通过在飞书设置界面,开启 Debug 模式后查看您所在的所有飞书群 ID 信息,支持添加多个群 ID,用英文逗号分隔。飞书群 ID 查看方式详见3 飞书群 ID 信息获取
飞书群作为接收人,您可选择以下两种发送方式,将告警发送到飞书群中:

  1. 方式一:发送方式勾选为“飞书”或“飞书加急”。
    此方式您需前往飞书开发者后台,自建一个飞书应用机器人,并将应用机器人添加至对应的飞书群中。飞书应用机器人创建操作详见飞书告警前置说明
  2. 方式二:发送方式勾选为“Webhook”。
    此方式您需在目标飞书、钉钉或企业微信群中添加一个自定义机器人,并在其安全设置中,勾选“自定义关键词”,并且输入关键词:DataLeapdataleap
    配置完成后,DataLeap 方可通过自定义机器人生成的 Webhook 地址,将告警消息推送至目标飞书群中,自定义机器人创建方式详见飞书告警前置说明

    说明

    请妥善保管好此 Webhook 地址,不要公布在 GitHub、博客等可公开查阅的网站上,以防止地址泄露后被恶意调用发送垃圾信息。

值班计划

您可填写值班计划中的唯一名称信息,支持填写多个值班计划唯一名称,用英文逗号分隔即可。
Image
当任务监控规则的内容触发后,根据配置的值班计划,可将告警消息通过下方报警设置 > 发送方式中设置的方式,发送至值班计划中配置的值班人员,您可在值班计划中灵活安排值班人员来处理告警。值班表操作配置详见值班计划

2.4 报警设置

在报警设置中,需要对报警的发送方式、报警卡片、免打扰时段信息进行设置。

配置项

说明

发送方式

支持邮件、短信、Webhook、飞书、飞书加急、电话等方式。

注意

  • 目前火山对于短信发送,有频控限制,每分钟最多发送10条短信。
  • 发送方式为飞书、飞书加急,且接收人配置项目用户任务责任人时,您需额外自建应用机器人并进行飞书账号绑定。操作详见1.1 飞书应用机器人创建
  • 填写 Webhook hookUrl 地址,需为 post 类型,且必须添加 http 或 https 协议头。
  • Webhook 地址也可添加为飞书、钉钉或企业微信群自定义机器人中的 Webhook 地址,创建机器人时,关键词可设置为 DataLeapdataleap。详见1.2 自定义机器人创建
  • 请求 body 样例说明详见 4.1 格式样例

报警卡片

报警卡片中若已勾选“@责任人”,且满足以下任一条件时,告警发送才会 @ 任务责任人以进行消息提醒:

  • 当发送方式选择飞书或飞书加急时:
    • 在接收人选项中,已选定对应的任务责任人为接收人或直接勾选“任务责任人”,则可接收 @ 责任人消息;
    • 或在接收人选项中,填写飞书群信息作为接收人,同样可接收 @ 责任人消息;
  • 当发送方式选择 Webhook,且配置的 Webhook 链接为钉钉群机器人时,会在钉钉群中 @相应任务责任人。

注意

  • 告警接收任务责任人对应的火山引擎账号,需在火山引擎 - 账号管理 中绑定相应手机号和邮箱信息,且该手机号必须与钉钉、飞书账号绑定的手机号一致,方可正常接收告警 @ 信息。
  • 已选定对应的任务责任人为接收人或直接勾选“任务责任人”时,才可接受飞书加急消息提醒。
  • 任务执行成功的通知消息,发送时不会@ 任务责任人,请注意。

免打扰时段

选择是否开启免打扰时段,在设置的免打扰时段内,不会收到任务告警。

报警设置所有设置项填写完成后,单击右上角提交按钮,完成监控规则的配置。

3 监控规则管理

实时任务报警监控规则配置完成后,您可在监控规则界面进行监控规则的管理。

  1. 搜索监控规则:
    设置搜索信息,查询符合条件的任务列表。单击重置按钮,可以恢复项目下的默认展示。 当设置多个搜索条件时,会取各个条件的交集,进行查询。
  2. 管理已建规则:
    • 批量操作:勾选一个或多个规则,单击相应按钮,对规则进行开启/关闭、删除、接收人替换、接收人重置等批量操作。
    • 单规则操作:单击列表中某个规则操作列的相应按钮,可以编辑、开启/关闭、删除该规则,以及查看该规则的操作记录

4 监控规则添加

任务开发的不同阶段,可按需进行监控规则的设置,具体操作入口如下:

  • 任务运维页面:通过单任务操作列的报警配置或批量操作栏的添加监控规则 ,给指定任务进行监控规则设置。
  • 监控规则页面:在监控规则列表中,单击某个规则操作列的编辑按钮,可以将指定的任务添加至规则对象

附件

流式任务告警 Webhook Url 回传数据格式说明

{
    "taskType":630,   // 任务类型
    "taskOwner":"tianxxxxx", // 任务责任人
    "alarmInstId":180879272,  // 报警记录id
    "externalRuleId":502567967, //云监控规则id
    "alarmTime":"2023-04-13 20:57:56", // 报警时间
    "taskPriority":1,  // 任务优先级
    "ruleName":"[voc]webhook回调测试",  // 报警规则名称
    "taskName":"google_play_source_save", // 报警任务名称
    "ruleId":3791818,  // 报警规则id
    "projectId":1030,  // 任务项目id
    "taskId":102125772,// 任务id
    "alarmItemType":2  // 报警项类型
}

字段名

类型

说明

taskType

Integer

任务类型:

  • 614:流式集成通道任务
  • 640:LAS Flink SQL 任务
  • 641:LAS Java Flink 任务
  • 630:EMR Flink SQL任务
  • 631:EMR Java Flink 任务
  • 650:Serverless Flink SQL任务
  • 651:Serverless Java Flink 任务

taskOwner

String

任务责任人

alarmInstId

Long

报警记录 ID

externalRuleId

Long

云监控规则 ID

alarmTime

String

报警时间

taskPriority

Integer

任务优先级:

  • 0: 普通 (D5)
  • 1: 高优 (D4)
  • 2: 超高优 (D3)
  • 3: 核心 (D2)
  • 5: 超核心 (D1)

ruleName

String

报警规则名称

taskName

String

报警任务名称

ruleId

Long

实时任务运维中心配置的报警规则 ID

projectId

Long

任务所属项目 ID

taskId

Long

任务 ID

alarmItemType

Integer

监控内容所属报警项类型 ID:

  • 2: Flink Full-restart 次数:连续 N 分钟,重启大于几次时,开始发送告警。
  • 7: 任务执行状态:每隔 3 分钟检查任务状态,非"运行中"状态则进行报警
  • 10: 数据源 topic lagsize 上涨:最近 N 分钟内,当 lagsize>X 条数据时,即触发报警。
  • 13: Checkpoint 失败次数:连续失败 N 次时,即触发报警。