You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

报警监控

最近更新时间2023.07.06 10:49:28

首次发布时间2022.05.27 17:34:59

实时任务报警监控功能,支持您通过配置自定义报警规则,来实现对实时任务运行状态的监控。
本文将为您介绍实时任务报警监控规则配置的相关操作。

1 监控规则

通过任务监控规则,可对流式任务运行进行监控,在监控规则页面,您可查看该项目下全部已创建的规则监控,并对其进行管理。您也可以通过新建监控规则按钮,增加新的监控规则。

说明

一个监控规则可被多个任务使用,一个任务可使用多个监控规则。

1.1 监控规则配置

  1. 登录 DataLeap租户控制台

  2. 选择数据开发 > 运维中心 > 实时任务运维 > 报警监控 > 监控规则,进入监控规则页面。

  3. 右上角单击新建监控规则按钮,进入报警设置页面,可以对任务监控规则进行配置,配置信息包括:基本信息、监控内容、接收人和报警设置四部分:

    参数说明
    基本信息
    规则名称输入实时任务监控规则的名称,支持中英文字符、数字、下划线和中小括号。
    规则对象根据任务ID和任务名称,进行搜索实时任务,可监控多个任务对象。
    规则描述可填写收到该报警后,应有的处理方式,方便定位管理,非必填。
    监控内容

    数据源监控

    1. 如需使用数据源监控,数据开发类任务请保证线上版本,已登记数据源Source和Sink信息;数据集成任务,可自动从任务配置中获取数据源信息,无需登记。

    2. 数据源监控是针对 Source 整个 Topic lagsize 的定值监控:设置最近 N 分钟,当 lagsize>X 条数据时,即触发报警。

      所有引擎类型的流式任务都支持此报警,但仅支持配置火山引擎 Kakfa、RocketMQ,不支持自建数据源。

    运行监控

    1. 任务运行状态监控:每隔3分钟检查任务状态,当检查到任务处于非 "运行中" 则进行报警。

    2. Flink Full-restart 次数:Flink 作业,连续 N 分钟,重启大于几次时,会开始发送告警。

    3. Checkpoint 失败次数监控:连续失败 N 次时,即触发报警。

    注意

    其中 Flink Full-restart 次数、Checkpoint 失败次数监控,目前仅对 Serverless Flink、LAS 引擎提供的流式任务会生效。

    接收人

    项目用户

    可将任务责任人或指定项目成员,设置为报警/通知的接收人,支持配置多个接收人。

    注意

    项目用户作为接收人,您需保证接收人在火山控制台 > 访问控制中个人信息邮箱、手机号已填写完整。

    报警设置

    发送方式

    支持邮件、短信、Webhook、电话等发送方式。

    注意

    1. 目前火山引擎对于短信发送,有频控限制,每分钟最多发送10条短信。

    2. Webhook 报警发送方式需额外填写 hookurl:

      1. 勾选 Webhook 后,实例状态将主动推送至对应 hookUrl 中。

      2. hookUrl 为 post 类型,且必须添加 http 或 https 协议头。

    免打扰时段选择是否开启免打扰时段,在免打扰时段内,不会收到任务告警。

1.2 监控规则管理

  1. 搜索监控规则:

    设置搜索信息,查询符合条件的任务列表。单击重置按钮,可以恢复项目下的默认展示。 当设置多个搜索条件时,会取各个条件的交集,进行查询。

  2. 管理已建规则:

    • 批量操作:勾选一个或多个规则,单击相应按钮,对规则进行开启/关闭、删除、接收人替换、接收人重置等批量操作。

    • 单规则操作:单击列表中某个规则操作列的相应按钮,可以编辑、开启/关闭、删除该规则,以及查看该规则的操作记录

1.3 监控规则添加

任务开发的不同阶段,可按需进行监控规则的设置,具体操作入口如下:

  • 任务运维页面:通过单任务操作列的报警配置或批量操作栏的添加监控规则 ,给指定任务进行监控规则设置。

  • 监控规则页面:在监控规则列表中,单击某个规则操作列的编辑按钮,可以将指定的任务添加至规则对象

1.4 流式任务告警 Webhook Url 回传数据格式说明

{
    "taskType":630,   // 任务类型
    "taskOwner":"tianxxxxx", // 任务责任人
    "alarmInstId":180879272,  // 报警记录id
    "externalRuleId":502567967, //云监控规则id
    "alarmTime":"2023-04-13 20:57:56", // 报警时间
    "taskPriority":1,  // 任务优先级
    "ruleName":"[voc]webhook回调测试",  // 报警规则名称
    "taskName":"google_play_source_save", // 报警任务名称
    "ruleId":3791818,  // 报警规则id
    "projectId":1030,  // 任务项目id
    "taskId":102125772,// 任务id
    "alarmItemType":2  // 报警项类型
}
字段名类型说明

taskType

Integer

任务类型:

  • 614:流式集成通道任务

  • 640:LAS Flink SQL 任务

  • 641:LAS Java Flink 任务

  • 630:EMR Flink SQL任务

  • 631:EMR Java Flink 任务

  • 650:Serverless Flink SQL任务

  • 651:Serverless Java Flink 任务

taskOwnerString任务责任人
alarmInstIdLong报警记录 ID
externalRuleIdLong云监控规则 ID
alarmTimeString报警时间

taskPriority

Integer

任务优先级:

  • 0: 普通 (D5)

  • 1: 高优 (D4)

  • 2: 超高优 (D3)

  • 3: 核心 (D2)

  • 5: 超核心 (D1)

ruleNameString报警规则名称
taskNameString报警任务名称
ruleIdLong实时任务运维中心配置的报警规则 ID
projectIdLong任务所属项目 ID
taskIdLong任务 ID

alarmItemType

Integer

监控内容所属报警项类型 ID:

  • 2: Flink Full-restart 次数:连续 N 分钟,重启大于几次时,开始发送告警。

  • 7: 任务执行状态:每隔 3 分钟检查任务状态,非"运行中"状态则进行报警

  • 10: 数据源 topic lagsize 上涨:最近 N 分钟内,当 lagsize>X 条数据时,即触发报警。

  • 13: Checkpoint 失败次数:连续失败 N 次时,即触发报警。

2 报警记录

在报警记录页面,您可以根据报警记录列表,查看报警监控下所有触发的报警信息,包括监控规则产生的规则报警、基线触发的预警和破线告警等。您可以进行以下操作:

  1. 搜索报警记录:

    设置搜索信息,查询符合条件的报警记录列表。当设置多个搜索条件时,会取各个条件的交集,进行查询。

  2. 单击报警列表中的报警任务、对应规则栏,您可以查看相应的任务信息监控规则信息。

  3. 对于已触发的报警项,您可单击操作列ACK 按钮,以分钟小时粒度,设置报警屏蔽时间,将对应的报警信息进行屏蔽。