You need to enable JavaScript to run this app.
导航
报警监控
最近更新时间:2024.09.24 12:10:40首次发布时间:2022.05.27 17:34:59

实时任务报警监控功能,支持您通过配置自定义报警规则,来实现对实时任务运行状态的监控。
本文将为您介绍实时任务报警监控规则配置的相关操作。

1 监控规则

通过任务监控规则,可对流式任务运行进行监控,在监控规则页面,您可查看该项目下全部已创建的规则监控,并对其进行管理。您也可以通过新建监控规则按钮,增加新的监控规则。

说明

一个监控规则可被多个任务使用,一个任务可使用多个监控规则。

1.1 监控规则配置

  1. 登录 DataLeap租户控制台

  2. 选择数据开发 > 运维中心 > 实时任务运维 > 报警监控 > 监控规则,进入监控规则页面。

  3. 右上角单击新建监控规则按钮,进入报警设置页面,可以对任务监控规则进行配置,配置信息包括:基本信息、监控内容、接收人和报警设置四部分:

    参数

    说明

    基本信息

    规则名称

    输入实时任务监控规则的名称,支持中英文字符、数字、下划线和中小括号。

    规则对象

    根据任务ID和任务名称,进行搜索实时任务,可监控多个任务对象。

    规则描述

    可填写收到该报警后,应有的处理方式,方便定位管理,非必填。

    监控内容

    数据源监控

    如需使用数据源监控,数据开发类任务请保证线上版本,已登记数据源Source和Sink信息;数据集成任务,可自动从任务配置中获取数据源信息,无需登记。

    • 针对 Source 整个 Topic lagsize 的定值监控:
      • 静态口径-定值监控:设置最近 N 分钟,当 lagsize>X 条数据时,即触发报警。
      • 动态口径-Lagsize 同比: Lagsize 同比昨天上升 N 百分比时,触发相应的报警。
        所有引擎类型的流式任务都支持此报警,但仅支持配置火山引擎 Kakfa、RocketMQ,不支持自建数据源。
    • 数据写入断流:
      • 数据写入断流监控可进行写入流量下降时监控,监控 Source、Sink 端在指定时间段内,最近 N min 流量的均值,同比昨天下降至 N 百分比时,触发监控报警。
    • 数据写入上涨:
      • 动态监控:Source、Sink端连续 N 分钟,写入的 QPS 同比昨日上涨 N 百分比时,触发监控报警。
      • 定值监控:Source、Sink端连续 N 分钟,写入 QPS 超过 N 次/s 。

    运行监控

    1. 任务执行状态监控:通过任务状态来判断实时同步任务是否异常,每隔3分钟检查任务状态,当检查到任务处于"已失败"、或“失败恢复中” 状态则进行报警。
    2. Flink failover 次数:Flink 作业是否存在异常频繁发生 Failove,连续 N 分钟,重启大于几次时,会开始发送告警。
    3. Checkpoint 失败次数监控:连续失败 N 次时,即触发报警。

    注意

    其中 Checkpoint 失败次数监控,目前仅对 Serverless Flink 引擎提供的流式任务会生效。

    接收人

    项目用户

    任务监控规则的内容触发后,可将任务责任人或指定项目成员,设置为报警/通知的接收人,支持配置多个接收人。

    注意

    项目用户作为接收人,您需保证接收人在火山控制台 > 访问控制中个人信息邮箱、手机号已填写完整。

    飞书群

    将告警发送至指定的目标飞书群中,您可通过在飞书设置界面,开启 Debug 模式后查看您所在的所有飞书群 ID 信息,支持添加多个群 ID,用英文逗号分隔。飞书群 ID 查看方式详见3 飞书群 ID 信息获取
    飞书群作为接收人,您可选择以下两种发送方式,将告警发送到飞书群中:

    1. 方式一:发送方式勾选为“飞书”或“飞书加急”。
      此方式您需前往飞书开发者后台,自建一个飞书应用机器人,并将应用机器人添加至对应的飞书群中。飞书应用机器人创建操作详见飞书告警前置说明
    2. 方式二:发送方式勾选为“Webhook”。
      此方式您需在目标飞书、钉钉或企业微信群中添加一个自定义机器人,并在其安全设置中,勾选“自定义关键词”,并且输入关键词:DataLeapdataleap
      配置完成后,DataLeap 方可通过自定义机器人生成的 Webhook 地址,将告警消息推送至目标飞书群中,自定义机器人创建方式详见飞书告警前置说明

      说明

      请妥善保管好此 Webhook 地址,不要公布在 GitHub、博客等可公开查阅的网站上,以防止地址泄露后被恶意调用发送垃圾信息。

    值班计划

    您可填写值班计划中的唯一名称信息,支持填写多个值班计划唯一名称,用英文逗号分隔即可。
    图片
    当任务监控规则的内容触发后,根据配置的值班计划,可将告警消息通过下方报警设置 > 发送方式中设置的方式,发送至值班计划中配置的值班人员,您可在值班计划中灵活安排值班人员来处理告警。值班表操作配置详见值班计划

    报警设置

    发送方式

    支持邮件、短信、Webhook、飞书、飞书加急、电话等方式。

    注意

    • 目前火山对于短信发送,有频控限制,每分钟最多发送10条短信。
    • 发送方式为飞书、飞书加急,且接收人配置项目用户任务责任人时,您需额外自建应用机器人并进行飞书账号绑定。操作详见1.1 飞书应用机器人创建
    • 填写 Webhook hookUrl 地址,需为 post 类型,且必须添加 http 或 https 协议头。
    • Webhook 地址也可添加为飞书、钉钉或企业微信群自定义机器人中的 Webhook 地址,创建机器人时,关键词可设置为 DataLeapdataleap。详见1.2 自定义机器人创建
    • 请求 body 样例说明详见 4.1 格式样例

    免打扰时段

    选择是否开启免打扰时段,在免打扰时段内,不会收到任务告警。

1.2 监控规则管理

  1. 搜索监控规则:
    设置搜索信息,查询符合条件的任务列表。单击重置按钮,可以恢复项目下的默认展示。 当设置多个搜索条件时,会取各个条件的交集,进行查询。
  2. 管理已建规则:
    • 批量操作:勾选一个或多个规则,单击相应按钮,对规则进行开启/关闭、删除、接收人替换、接收人重置等批量操作。
    • 单规则操作:单击列表中某个规则操作列的相应按钮,可以编辑、开启/关闭、删除该规则,以及查看该规则的操作记录

1.3 监控规则添加

任务开发的不同阶段,可按需进行监控规则的设置,具体操作入口如下:

  • 任务运维页面:通过单任务操作列的报警配置或批量操作栏的添加监控规则 ,给指定任务进行监控规则设置。
  • 监控规则页面:在监控规则列表中,单击某个规则操作列的编辑按钮,可以将指定的任务添加至规则对象

1.4 流式任务告警 Webhook Url 回传数据格式说明

{
    "taskType":630,   // 任务类型
    "taskOwner":"tianxxxxx", // 任务责任人
    "alarmInstId":180879272,  // 报警记录id
    "externalRuleId":502567967, //云监控规则id
    "alarmTime":"2023-04-13 20:57:56", // 报警时间
    "taskPriority":1,  // 任务优先级
    "ruleName":"[voc]webhook回调测试",  // 报警规则名称
    "taskName":"google_play_source_save", // 报警任务名称
    "ruleId":3791818,  // 报警规则id
    "projectId":1030,  // 任务项目id
    "taskId":102125772,// 任务id
    "alarmItemType":2  // 报警项类型
}

字段名

类型

说明

taskType

Integer

任务类型:

  • 614:流式集成通道任务
  • 640:LAS Flink SQL 任务
  • 641:LAS Java Flink 任务
  • 630:EMR Flink SQL任务
  • 631:EMR Java Flink 任务
  • 650:Serverless Flink SQL任务
  • 651:Serverless Java Flink 任务

taskOwner

String

任务责任人

alarmInstId

Long

报警记录 ID

externalRuleId

Long

云监控规则 ID

alarmTime

String

报警时间

taskPriority

Integer

任务优先级:

  • 0: 普通 (D5)
  • 1: 高优 (D4)
  • 2: 超高优 (D3)
  • 3: 核心 (D2)
  • 5: 超核心 (D1)

ruleName

String

报警规则名称

taskName

String

报警任务名称

ruleId

Long

实时任务运维中心配置的报警规则 ID

projectId

Long

任务所属项目 ID

taskId

Long

任务 ID

alarmItemType

Integer

监控内容所属报警项类型 ID:

  • 2: Flink Full-restart 次数:连续 N 分钟,重启大于几次时,开始发送告警。
  • 7: 任务执行状态:每隔 3 分钟检查任务状态,非"运行中"状态则进行报警
  • 10: 数据源 topic lagsize 上涨:最近 N 分钟内,当 lagsize>X 条数据时,即触发报警。
  • 13: Checkpoint 失败次数:连续失败 N 次时,即触发报警。

2 报警记录

在报警记录页面,您可以根据报警记录列表,查看报警监控下流式监控规则触发的报警信息。
您可以进行以下操作:
图片

  1. 搜索报警记录:
    您可通过任务 ID、任务名称、规则 ID、规则名称、报警时间、发送方式等选项,来设置搜索信息,查询符合条件的报警记录列表。当设置多个搜索条件时,会取各个条件的交集,进行查询。
  2. 单击报警列表中的报警任务、对应规则栏,您可以查看相应的任务运维信息和监控规则信息。
  3. 对于已触发的报警项,您可单击操作列ACK 按钮,以分钟小时粒度,设置报警屏蔽时间,将对应的报警信息进行屏蔽。

图片