1 概述
全域数据集成 DataSail 提供离线任务监控和实时任务监控,本文将为您介绍实时任务监控指标信息,并配置实时任务告警规则,方便监控实时同步解决方案和流式集成任务的状态,及时发现任务问题,提高任务运维效率。
2 使用前提
已创建流式集成任务或同步解决方案。详见流式数据同步、整体解决方案。
3 实时任务监控指标查看和说明
3.1 解决方案指标监控查看入口
- 登录 DataSail 控制台。
- 在左侧导航栏中,单击数据同步方案按钮,进入同步解决方案列表界面。
- 单击目录树中项目选择入口,选择已创建的 DataLeap 项目。
- 在项目下的解决方案列表中,选择已创建并执行的实时同步解决方案或实时采集解决方案任务,单击运维列下的执行详情按钮,进入执行详情界面。
- 单击监控页签,进入查看任务运行指标界面。
3.2 解决方案指标说明
- 实时集成读写指标
- 成功写入条数:作业启动后,成功写入的数据总条数(不含脏数据);
- 写入失败条数:作业启动后,写入失败的脏数据条数;
- 写入接收条数:作业启动后,Flink 尝试写入下游的数据总条数
- 写入延迟:作业启动后,Flink 尝试写入下游的数据的延迟(开启攒批写入后,指标可能不准确,该参数仅供参考);
- 读取成功条数:作业启动后,成功读取的数据总条数。
- CDC 监控指标
- 输入数据条数:同上文的 “读取成功条数”;
- 输出数据条数:同上文的 “写入成功条数”;
- Binlog 输出条数:作业启动后,收到的 Binlog 记录数;
注意
对于更新类消息,前值(before)和后值(after)只算做一条。
- Binlog 事件时间:消息写入 Binlog 时的时间戳(例如实际写入 MySQL 时的时间戳);
- Binlog 推送延迟:读到最近一条消息的当前时间减去“Binlog 事件时间”指标的差值。该指标和“当前处理消息的事件时间延迟”类似,且该指标表示直连作业;“当前处理消息的事件时间延迟”表示经过 Kafka 中转缓存的作业;
- Binlog 空闲消费时间:当前时间减去最近一条消息的处理时间,值越大,表示越久没有收到新的 Binlog 消息;
- 当前 Binlog 文件名称:数字形式,表示当前消费到的 Binlog 文件名的数字后缀;
- 当前 Binlog 文件位点:最近一条消息在 Binlog 中的位点(offset);
- CDC 源端到目的端耗时(output_record_transaction_latency):从数据写入 CDC 数据源的时刻算起,到最终写入下游(含攒批、异步刷新等操作),中间全链路的耗时;
- 端到端延迟指标(with 告警能力):数据输出到下游时刻和数据写入时刻的差值。
- DUMP 监控指标(DUMP 类作业专用)
DUMP 指的是 Kafka → Hive 类作业,该命名属于历史原因。直连作业方式没有该组监控指标数据。
- 输出成功条数
- 输出脏数据条数
- Dump Task 最小事件时间
- Dump 作业最小业务时间
- Dump 归档成功行数
- Dump 归档时间异常行数
- Dump 归档时间小于最小事件时间行数
- MQ 数据重复
- MQ 数据丢失
- MQ 数据乱序
- 当前处理消息的事件时间:dump.task.cdc.event.time,Debezium 处理最新一条记录时的时间戳
- 当前处理消息的事件时间延迟:dump.task.cdc.event.latency,表示当前时间与上述指标(当前处理消息的事件时间)之间的差值
- 资源组使用率
实时任务执行所在的资源组使用率情况,您可前往 DataLeap 控制台 > 资源组管理 > 独享集成资源组列表,查看对应资源组的使用率详情。
3.3 实时任务指标监控查看
实时任务实际执行时,您可通过以下方式查看单任务的指标监控:
- 登录 DataLeap 租户控制台。
- 在概览界面,选择对应项目下的运维中心 > 实时任务运维 > 任务运维,进入实时任务运维列表页面。
- 在具体实时任务列表中,鼠标移动至操作列下的监控按钮,您便可按需查看 Flink Metrick 监控、集成监控界面。
说明
- Flink Metrick 监控、集成监控,可在任务日志的运行监控页中,以嵌套页面方式打开;
- 单击“云监控 →”按钮,便可直接跳转到云监控页面打开。
3.4 实时任务指标监控说明
实时任务指标监控说明,您可参考「流式计算 FLink 版」 的配置告警策略说明,详见: https://www.volcengine.com/docs/6581/151457
4 实时任务监控指标告警策略配置
4.1 云监控告警策略配置
实时任务监控指标对应的告警策略配置,需前往云监控平台创建:
- 登录云监控控制台。
- 在左侧导航栏,选择告警中心 > 告警策略。
- 在告警策略页面,单击创建告警策略按钮。
- 在告警策略配置界面,完成以下配置信息:
基本信息
配置项 | 说明 |
---|
名称 | 自定义告警策略名称,用于标识告警策略。不能以数字、中划线开头,名称长度限制在 1~128 字符之间。 |
描述 | 自定义告警策略的说明性信息。 |
告警对象
配置项 | 说明 |
---|
资源类型 | 选择数据中台-全域数据集成。 |
地域 | 选择实时任务所在的地域信息。 |
维度 | 以作业维度配置。 |
资源 | 您可选择全部或部分作业资源进行监控。 |
告警规则
配置项 | 说明 |
---|
指标类型 | 支持单指标或多指标类型进行按需选择。 |
触发条件 | 全域数据集成目前支持以下 6 种指标配置告警触发条件: - **输出记录失败个数:**实时集成读写指标 - 写入失败条数
- 输出记录延迟:实时集成读写指标 - 写入延迟
- CDC 处理事件时间延迟:CDC 监控指标 - Binlog 事件时间
- Dump 输出脏数据条数:DUMP 监控指标-输出脏数据条数
- Binlog 投递延迟:CDC 监控指标 - Binlog 推送延迟
- Binlog 消费空闲时间:CDC 监控指标 - Binlog 空闲消费时间
- CDC 源端到目的端总延迟:CDC 监控指标 - CDC 源端数据写入时刻到数据写入目的端时刻的差值
|
告警级别 | 标识告警的严重程度。支持设置严重、警告、通知。 |
生效时间 | 配置告警策略的生效时间。告警策略只在生效时间内监控资源的数据是否达到触发条件。 |
告警发送周期 | 触发告警策略后,如果被监控的资源仍然持续触发告警,为避免打扰,系统会周期性发送告警通知。 - 支持配置为 5 分钟、10 分钟、15 分钟、30 分钟、60 分钟、3 小时、6 小时、12 小时、24 小时。
- 默认为 5 分钟。
|
告警恢复通知 | 告警恢复后向用户发送一条恢复通知,默认为打开。 注意 告警恢复通知是对告警策略维度的恢复通知,当告警策略的状态恢复为正常时,云监控判断为告警恢复。 |
告警方式
配置项 | 说明 |
---|
告警渠道 | 选择一个或多个渠道。支持邮箱、电话、短信以及告警回调。
其中,电话和短信通知的接收限制,请参见使用限制。 |
告警联系组 | 当告警渠道选择邮箱、电话或者短信中的一个或多个渠道时,页面将展示告警联系组。 - 必须设置至少 1 个联系组作为告警通知的接收方。
- 至多设置 5 个联系组作为告警通知的接收方。
|
告警回调 | 当告警渠道选择告警回调时,页面将展示告警回调文本框。 - 必须指定一个公网可用的 URL。后续如果资源触发告警策略,则系统会把告警的详细信息通过 POST 请求发送至该 URL,便于您进行深入的数据分析。
- 支持选择已创建的回调地址,最多选择 8 个。
- 支持填写回调地址,只能填写 1 个。
- 建议您准备一台已开启 HTTP 服务且能在公网访问的服务器,然后将服务器的 HTTP URL 设置为告警回调 URL。
- 关于告警回调的更多信息,请参见告警回调使用说明。
- 告警回调支持关联飞书、钉钉、企业微信中的群机器人,以实现自动推送告警通知。具体操作,请参见通过飞书群接收告警通知、通过钉钉群接收告警通知、通过微信群接收告警通知。
|
4.2 实时运维中心配置
实时任务监控,也可通过 DataLeap 实时报警监控规则进行单独配置,可通过以下配置指标进行监控:
- 任务运行状态指标
- 任务支持状态:通过任务状态来判断实时同步任务是否异常,每隔 3 分钟检查任务状态,当检查到任务处于非 "运行中" 则进行报警。
- Failover 次数:Flink 作业是否存在异常频繁发生 Failove,连续 N 分钟,重启大于几次时,会开始发送告警。
- Checkpoint 失败次数:连续失败 N 次时,即触发报警。
- 数据源指标
- Source 整个 Topic 的 lagsize:所有引擎类型的流式任务都支持此报警,仅支持配置火山引擎 Kakfa、RocketMQ,不支持自建数据源。
具体配置步骤详见报警监控。
5 其他参考
实时任务告警最佳实践详见 DataSail 实时任务报警设置最佳实践。