实时任务运维报警监控功能,支持您通过配置自定义报警规则,来实现对实时任务运行状态的监控。本文将为您介绍实时任务报警监控规则配置的相关操作。
流式任务报警监控支持对任务运行的全流程监控与智能告警。您可按需配置数据源监控、运行状态监控规则,实时监测流式数据的完整性、运行稳定性等关键指标;同时,您可通过配置飞书、短信、Webhook 等多渠道告警方式,确保告警信息秒级触达,有效提升告警及时性。
在监控规则管理页面,您也可一站式查看项目下所有规则,并对其进行创建、编辑、删除等操作,实现可视化监控规则管理,协助您快速响应任务异常,提升任务运维效率与管理效能。
说明
一个监控规则可被多个任务使用,一个任务可使用多个监控规则。
在新建监控规则界面,填写以下监控基本信息:
配置项 | 说明 |
---|---|
规则名称 | 输入实时任务监控规则的名称,支持中英文字符、数字、下划线和中小括号。 |
规则对象 | 根据任务 ID 和任务名称,进行搜索实时任务,可设置监控多个任务对象。 |
规则描述 | 可填写收到该报警后,应有的处理方式,方便定位管理,非必填。 |
按需对流式任务的数据源及运行状态进行监控内容配置:
配置项 | 说明 |
---|---|
数据源监控: 注意 DataSail 全域数据集成流式集成任务,暂不支持配置此数据源监控告警,您可前往云监控控制台配置其他监控告警策略,详见4.1 云监控告警策略配置。 | |
业务延迟 | 计算数据进入 Flink 时间与在 Kafka Client 生产时间之间的差值情况,当该业务数据延迟超过 N 分钟时,即触发任务报警。 注意 该监控项仅针对 Serverless Flink SQL 任务,且版本为 Flink 1.16+ 引擎,使用 Kafka/MySQL CDC /Mongo CDC Source 的场景中生效。 |
针对 Source 整个 Topic lagsize 的定值监控 | 支持静态口径、动态口径两种监控方式:
注意 所有引擎类型的流式任务都支持此报警,但仅支持配置火山引擎 Kakfa、RocketMQ,不支持自建数据源。 |
数据写入断流 | 数据写入断流监控可进行写入流量下降时监控,监控 Source、Sink 端在指定时间段内,最近 N min 流量的均值,同比昨天下降至 N 百分比时,触发监控报警。 |
数据写入上涨 | 监控数据写入 QPS 在指定时间段内,是否有明显的波动异常:
|
运行监控 | |
任务执行状态 | 通过任务状态来判断实时同步任务是否异常,每隔3分钟检查任务状态,当检查到任务处于"已失败"、或“失败恢复中” 状态则进行报警。 |
Flink failover 次数 | Flink 作业是否存在异常频繁发生 Failove,连续 N 分钟,重启大于几次时,会开始发送告警。 注意 仅对 Serverless Flink 引擎提供的流式任务生效。 |
Checkpoint 失败次数监控 | 连续失败 N 次时,即触发报警。 注意 仅对 Serverless Flink 引擎提供的流式任务会生效。 |
监控内容配置完成后,您可进行告警接受人信息的配置,对象包含项目用户、飞书群、值班计划三种。
配置项 | 说明 |
---|---|
项目用户 | 任务监控规则的内容触发后,可将任务责任人或指定项目成员,设置为报警/通知的接收人,支持配置多个接收人。 注意 项目用户作为接收人,您需保证接收人在火山控制台 > 访问控制中个人信息邮箱、手机号已填写完整。 |
飞书群 | 将告警发送至指定的目标飞书群中,您可通过在飞书设置界面,开启 Debug 模式后查看您所在的所有飞书群 ID 信息,支持添加多个群 ID,用英文逗号分隔。飞书群 ID 查看方式详见3 飞书群 ID 信息获取。
|
值班计划 | 您可填写值班计划中的唯一名称信息,支持填写多个值班计划唯一名称,用英文逗号分隔即可。 |
在报警设置中,需要对报警的发送方式、报警卡片、免打扰时段信息进行设置。
配置项 | 说明 |
---|---|
发送方式 | 支持邮件、短信、Webhook、飞书、飞书加急、电话等方式。 注意
|
报警卡片 | 报警卡片中若已勾选“@责任人”,且满足以下任一条件时,告警发送才会 @ 任务责任人以进行消息提醒:
注意
|
免打扰时段 | 选择是否开启免打扰时段,在设置的免打扰时段内,不会收到任务告警。 |
报警设置所有设置项填写完成后,单击右上角提交按钮,完成监控规则的配置。
实时任务报警监控规则配置完成后,您可在监控规则界面进行监控规则的管理。
任务开发的不同阶段,可按需进行监控规则的设置,具体操作入口如下:
{ "taskType":630, // 任务类型 "taskOwner":"tianxxxxx", // 任务责任人 "alarmInstId":180879272, // 报警记录id "externalRuleId":502567967, //云监控规则id "alarmTime":"2023-04-13 20:57:56", // 报警时间 "taskPriority":1, // 任务优先级 "ruleName":"[voc]webhook回调测试", // 报警规则名称 "taskName":"google_play_source_save", // 报警任务名称 "ruleId":3791818, // 报警规则id "projectId":1030, // 任务项目id "taskId":102125772,// 任务id "alarmItemType":2 // 报警项类型 }
字段名 | 类型 | 说明 |
---|---|---|
taskType | Integer | 任务类型:
|
taskOwner | String | 任务责任人 |
alarmInstId | Long | 报警记录 ID |
externalRuleId | Long | 云监控规则 ID |
alarmTime | String | 报警时间 |
taskPriority | Integer | 任务优先级:
|
ruleName | String | 报警规则名称 |
taskName | String | 报警任务名称 |
ruleId | Long | 实时任务运维中心配置的报警规则 ID |
projectId | Long | 任务所属项目 ID |
taskId | Long | 任务 ID |
alarmItemType | Integer | 监控内容所属报警项类型 ID:
|