全域数据集成 DataSail 提供离线任务监控和实时任务监控,本文将为您介绍实时任务监控指标信息,并配置实时任务告警规则,方便监控实时同步解决方案和流式集成任务的状态,及时发现任务问题,提高任务运维效率。
说明
离线任务监控操作详见监控规则。
已创建流式集成任务或同步解决方案。详见流式数据同步、整体解决方案。
集成读写指标
指标名称 | 指标说明 |
---|---|
每秒读取条数 | 作业启动后,记录每秒读取的数据条数。 |
每秒写入条数 | 作业启动后,记录每秒写入的数据条数。 |
每秒读取字节数 | 作业启动后,记录每秒读取的数据字节大小。 |
每秒写入字节数 | 作业启动后,记录每秒写入的数据字节大小。 |
写入失败条数 | 作业启动后,写入失败的脏数据条数。 |
尝试写入总条数 | 作业启动后,Flink 尝试写入下游的数据总条数。 |
写入阶段延迟 | 作业启动后 Flink 尝试写入下游的数据的延迟(开启攒批写入后,指标可能不准确,该参数仅供参考)。 |
读取阶段延迟(μs) | Flink 尝试从上游读取数据过程中的延迟。 |
CDC 监控指标
指标名称 | 指标说明 |
---|---|
读取 Binlog 条数 | 任务启动后,当前累计已读取的 Binlog 数据条数 说明 对于更新类消息,前值(before)和后值(after)只算做一条。 |
端到端业务延迟 | 从数据写入上游源表的实际时刻,到实际写入下游目标表时刻之间的延迟(包含数据在外部系统的处理延迟) |
端到端传输延迟 | 从数据读入集成系统的时刻,到准备写入下游时刻之间的延迟(不包含数据在外部系统的处理延迟) |
当前 Binlog 事件时间 | 消息写入 Binlog 时的时间戳(例如实际写入 MySQL 时的时间戳) |
当前 Binlog 读取延迟=推送延迟? | 读到最近一条消息的当前时间减去“Binlog 事件时间”指标的差值。该指标和“当前处理消息的事件时间延迟”类似,且该指标表示直连作业;“当前处理消息的事件时间延迟”表示经过 Kafka 中转缓存的作业; |
当前 Binlog 读取空闲时长 | 当前时间减去最近一条消息的处理时间,值越大,表示越久没有收到新的 Binlog 消息 |
当前 Binlog 文件序号 | 数字形式,表示当前消费到的 Binlog 文件名的数字后缀 说明 通常是递增,但发生主备切换后可能会重新累加。 |
当前 Binlog 位点 | 最近一条消息在 Binlog 中的位点(offset); |
DUMP 监控指标(DUMP 类作业专用)
DUMP 指的是 Kafka → Hive 类作业,该命名属于历史原因。直连作业方式没有该组监控指标数据。
指标名称 | 指标说明 |
---|---|
写入成功条数 | 作业启动后,成功写入目标端的数据条数。 |
写入失败条数 | 作业启动后,写入目标端失败的数据条数。 |
算子最低水位 | 数据处理算子当前处理数据的最早时间戳,衡量算子处理数据的进展。 |
全局最低水位 | 整个 DUMP 作业中所有算子处理数据的最早时间戳,反应整体数据处理的最“前沿”时间点。 |
归档成功条数 | 记录成功写入目标端的有效数据记录数。 |
时间戳异常的归档条数 | 数据归档过程中,记录时间戳格式不符合业务逻辑的数据条数。 |
时间戳早于最低水位的归档条数 | 在归档数据中,时间戳早于当前全局最低水位的数据条数。 |
MQ 重复条数 | 统计 MQ 消息数据传输过程中,出现重复消息的数据条数。 |
MQ 丢失条数 | 统计 MQ 消息数据传输过程中,未成功消费而丢失消息的数据条数。 |
MQ 乱序条数 | 统计 MQ 消息数据传输过程中,消息未按照生产顺序消费写入目标端的数据条数。 |
MQ 业务延迟 | 计算源数据消息从生产时间到数据成功写入目标端的时间差。 |
资源组使用率
实时任务执行所在的资源组使用率情况,您可前往 DataLeap 控制台 > 资源组管理 > 独享集成资源组列表,查看对应资源组的使用率详情。
实时任务实际执行时,您可通过以下方式查看单任务的指标监控:
说明
实时任务指标监控说明,您可参考「流式计算 FLink 版」 的配置告警策略说明,详见: https://www.volcengine.com/docs/6581/151457
实时任务监控指标对应的告警策略配置,需前往云监控平台创建:
基本信息
配置项 | 说明 |
---|---|
名称 | 自定义告警策略名称,用于标识告警策略。不能以数字、中划线开头,名称长度限制在 1~128 字符之间。 |
描述 | 自定义告警策略的说明性信息。 |
告警对象
配置项 | 说明 |
---|---|
资源类型 | 选择数据中台-全域数据集成。 |
地域 | 选择实时任务所在的地域信息。 |
维度 | 以作业维度配置。 |
资源 | 您可选择全部或部分作业资源进行监控。 说明 部分作业配置时,需要相应的作业权限。 |
告警规则
配置项 | 说明 |
---|---|
指标类型 | 支持单指标或多指标类型进行按需选择。 |
触发条件 | 全域数据集成目前支持以下 6 种指标配置告警触发条件:
|
告警级别 | 标识告警的严重程度。支持设置严重、警告、通知。 |
生效时间 | 配置告警策略的生效时间。告警策略只在生效时间内监控资源的数据是否达到触发条件。 |
告警发送周期 | 触发告警策略后,如果被监控的资源仍然持续触发告警,为避免打扰,系统会周期性发送告警通知。
|
告警恢复通知 | 告警恢复后向用户发送一条恢复通知,默认为打开。 注意 告警恢复通知是对告警策略维度的恢复通知,当告警策略的状态恢复为正常时,云监控判断为告警恢复。 |
告警方式
配置项 | 说明 |
---|---|
告警渠道 | 选择一个或多个渠道。支持邮箱、电话、短信以及告警回调。 |
告警联系组 | 当告警渠道选择邮箱、电话或者短信中的一个或多个渠道时,页面将展示告警联系组。
|
告警回调 | 当告警渠道选择告警回调时,页面将展示告警回调文本框。
|
实时任务监控,也可通过 DataLeap 实时报警监控规则进行单独配置,可通过以下配置指标进行监控:
具体配置步骤详见报警监控。
实时任务告警最佳实践详见 DataSail 实时任务报警设置最佳实践。