实时任务报警监控功能,支持您通过配置自定义报警规则,来实现对实时任务运行状态的监控。
本文将为您介绍实时任务报警监控规则配置的相关操作。
1 监控规则
通过任务监控规则,可对流式任务运行进行监控,在监控规则页面,您可查看该项目下全部已创建的规则监控,并对其进行管理。您也可以通过新建监控规则按钮,增加新的监控规则。
说明
一个监控规则可被多个任务使用,一个任务可使用多个监控规则。
1.1 监控规则配置
登录 DataLeap租户控制台 。
选择数据开发 > 运维中心 > 实时任务运维 > 报警监控 > 监控规则,进入监控规则页面。
右上角单击新建监控规则按钮,进入报警设置页面,可以对任务监控规则进行配置,配置信息包括:基本信息、监控内容、接收人和报警设置四部分:
参数 | 说明 |
---|
基本信息 |
规则名称 | 输入实时任务监控规则的名称,支持中英文字符、数字、下划线和中小括号。 |
规则对象 | 根据任务ID和任务名称,进行搜索实时任务,可监控多个任务对象。 |
规则描述 | 可填写收到该报警后,应有的处理方式,方便定位管理,非必填。 |
监控内容 |
数据源监控 | 如需使用数据源监控,数据开发类任务请保证线上版本,已登记数据源Source和Sink信息;数据集成任务,可自动从任务配置中获取数据源信息,无需登记。 - 针对 Source 整个 Topic lagsize 的定值监控:
- 静态口径-定值监控:设置最近 N 分钟,当 lagsize>X 条数据时,即触发报警。
- 动态口径-Lagsize 同比: Lagsize 同比昨天上升 N 百分比时,触发相应的报警。
所有引擎类型的流式任务都支持此报警,但仅支持配置火山引擎 Kakfa、RocketMQ,不支持自建数据源。
- 数据写入断流:
- 数据写入断流监控可进行写入流量下降时监控,监控 Source、Sink 端在指定时间段内,最近 N min 流量的均值,同比昨天下降至 N 百分比时,触发监控报警。
- 数据写入上涨:
- 动态监控:Source、Sink端连续 N 分钟,写入的 QPS 同比昨日上涨 N 百分比时,触发监控报警。
- 定值监控:Source、Sink端连续 N 分钟,写入 QPS 超过 N 次/s 。
|
运行监控 | - 任务执行状态监控:通过任务状态来判断实时同步任务是否异常,每隔3分钟检查任务状态,当检查到任务处于"已失败"、或“失败恢复中” 状态则进行报警。
- Flink failover 次数:Flink 作业是否存在异常频繁发生 Failove,连续 N 分钟,重启大于几次时,会开始发送告警。
- Checkpoint 失败次数监控:连续失败 N 次时,即触发报警。
注意 其中 Checkpoint 失败次数监控,目前仅对 Serverless Flink 引擎提供的流式任务会生效。 |
接收人 |
项目用户 | 任务监控规则的内容触发后,可将任务责任人或指定项目成员,设置为报警/通知的接收人,支持配置多个接收人。 注意 项目用户作为接收人,您需保证接收人在火山控制台 > 访问控制中个人信息邮箱、手机号已填写完整。 |
飞书群 | 将告警发送至指定的目标飞书群中,您可通过在飞书设置界面,开启 Debug 模式后查看您所在的所有飞书群 ID 信息,支持添加多个群 ID,用英文逗号分隔。飞书群 ID 查看方式详见3 飞书群 ID 信息获取。
飞书群作为接收人,您可选择以下两种发送方式,将告警发送到飞书群中: - 方式一:发送方式勾选为“飞书”或“飞书加急”。
此方式您需前往飞书开发者后台,自建一个飞书应用机器人,并将应用机器人添加至对应的飞书群中。飞书应用机器人创建操作详见飞书告警前置说明。 - 方式二:发送方式勾选为“Webhook”。
此方式您需在目标飞书、钉钉或企业微信群中添加一个自定义机器人,并在其安全设置中,勾选“自定义关键词”,并且输入关键词:DataLeap 或 dataleap。
配置完成后,DataLeap 方可通过自定义机器人生成的 Webhook 地址,将告警消息推送至目标飞书群中,自定义机器人创建方式详见飞书告警前置说明。说明 请妥善保管好此 Webhook 地址,不要公布在 GitHub、博客等可公开查阅的网站上,以防止地址泄露后被恶意调用发送垃圾信息。
|
值班计划 | 您可填写值班计划中的唯一名称信息,支持填写多个值班计划唯一名称,用英文逗号分隔即可。
当任务监控规则的内容触发后,根据配置的值班计划,可将告警消息通过下方报警设置 > 发送方式中设置的方式,发送至值班计划中配置的值班人员,您可在值班计划中灵活安排值班人员来处理告警。值班表操作配置详见值班计划。 |
报警设置 |
发送方式 | 支持邮件、短信、Webhook、飞书、飞书加急、电话等方式。 注意 - 目前火山对于短信发送,有频控限制,每分钟最多发送10条短信。
- 发送方式为飞书、飞书加急,且接收人配置项目用户或任务责任人时,您需额外自建应用机器人并进行飞书账号绑定。操作详见1.1 飞书应用机器人创建
- 填写 Webhook hookUrl 地址,需为 post 类型,且必须添加 http 或 https 协议头。
- Webhook 地址也可添加为飞书、钉钉或企业微信群自定义机器人中的 Webhook 地址,创建机器人时,关键词可设置为 DataLeap 或 dataleap。详见1.2 自定义机器人创建。
- 请求 body 样例说明详见 4.1 格式样例。
|
免打扰时段 | 选择是否开启免打扰时段,在免打扰时段内,不会收到任务告警。 |
1.2 监控规则管理
- 搜索监控规则:
设置搜索信息,查询符合条件的任务列表。单击重置按钮,可以恢复项目下的默认展示。 当设置多个搜索条件时,会取各个条件的交集,进行查询。 - 管理已建规则:
- 批量操作:勾选一个或多个规则,单击相应按钮,对规则进行开启/关闭、删除、接收人替换、接收人重置等批量操作。
- 单规则操作:单击列表中某个规则操作列的相应按钮,可以编辑、开启/关闭、删除该规则,以及查看该规则的操作记录。
1.3 监控规则添加
任务开发的不同阶段,可按需进行监控规则的设置,具体操作入口如下:
- 任务运维页面:通过单任务操作列的报警配置或批量操作栏的添加监控规则 ,给指定任务进行监控规则设置。
- 监控规则页面:在监控规则列表中,单击某个规则操作列的编辑按钮,可以将指定的任务添加至规则对象。
1.4 流式任务告警 Webhook Url 回传数据格式说明
{
"taskType":630, // 任务类型
"taskOwner":"tianxxxxx", // 任务责任人
"alarmInstId":180879272, // 报警记录id
"externalRuleId":502567967, //云监控规则id
"alarmTime":"2023-04-13 20:57:56", // 报警时间
"taskPriority":1, // 任务优先级
"ruleName":"[voc]webhook回调测试", // 报警规则名称
"taskName":"google_play_source_save", // 报警任务名称
"ruleId":3791818, // 报警规则id
"projectId":1030, // 任务项目id
"taskId":102125772,// 任务id
"alarmItemType":2 // 报警项类型
}
字段名 | 类型 | 说明 |
---|
taskType | Integer | 任务类型: - 614:流式集成通道任务
- 640:LAS Flink SQL 任务
- 641:LAS Java Flink 任务
- 630:EMR Flink SQL任务
- 631:EMR Java Flink 任务
- 650:Serverless Flink SQL任务
- 651:Serverless Java Flink 任务
|
taskOwner | String | 任务责任人 |
alarmInstId | Long | 报警记录 ID |
externalRuleId | Long | 云监控规则 ID |
alarmTime | String | 报警时间 |
taskPriority | Integer | 任务优先级: - 0: 普通 (D5)
- 1: 高优 (D4)
- 2: 超高优 (D3)
- 3: 核心 (D2)
- 5: 超核心 (D1)
|
ruleName | String | 报警规则名称 |
taskName | String | 报警任务名称 |
ruleId | Long | 实时任务运维中心配置的报警规则 ID |
projectId | Long | 任务所属项目 ID |
taskId | Long | 任务 ID |
alarmItemType | Integer | 监控内容所属报警项类型 ID: - 2: Flink Full-restart 次数:连续 N 分钟,重启大于几次时,开始发送告警。
- 7: 任务执行状态:每隔 3 分钟检查任务状态,非"运行中"状态则进行报警
- 10: 数据源 topic lagsize 上涨:最近 N 分钟内,当 lagsize>X 条数据时,即触发报警。
- 13: Checkpoint 失败次数:连续失败 N 次时,即触发报警。
|
2 报警记录
在报警记录页面,您可以根据报警记录列表,查看报警监控下流式监控规则触发的报警信息。
您可以进行以下操作:
- 搜索报警记录:
您可通过任务 ID、任务名称、规则 ID、规则名称、报警时间、发送方式等选项,来设置搜索信息,查询符合条件的报警记录列表。当设置多个搜索条件时,会取各个条件的交集,进行查询。 - 单击报警列表中的报警任务、对应规则栏,您可以查看相应的任务运维信息和监控规则信息。
- 对于已触发的报警项,您可单击操作列的 ACK 按钮,以分钟或小时粒度,设置报警屏蔽时间,将对应的报警信息进行屏蔽。