You need to enable JavaScript to run this app.
导航
实时任务监控指标及告警配置
最近更新时间:2025.04.18 17:56:43首次发布时间:2024.05.27 11:27:45
我的收藏
有用
有用
无用
无用

1 概述

全域数据集成 DataSail 提供离线任务监控和实时任务监控,本文将为您介绍实时任务监控指标信息,并配置实时任务告警规则,方便监控实时同步解决方案和流式集成任务的状态,及时发现任务问题,提高任务运维效率。

说明

离线任务监控操作详见监控规则

2 使用前提

已创建流式集成任务或同步解决方案。详见流式数据同步整体解决方案

3 实时任务监控指标查看和说明

3.1 解决方案指标监控查看入口

  1. 登录 DataSail 控制台
  2. 在左侧导航栏中,单击数据同步方案按钮,进入同步解决方案列表界面。
  3. 单击目录树中项目选择入口,选择已创建的 DataLeap 项目。
    Image
  4. 在项目下的解决方案列表中,选择已创建并执行的实时同步解决方案实时采集解决方案任务,单击运维列下的执行详情按钮,进入执行详情界面。
    Image
  5. 单击监控页签,进入查看任务运行指标界面。

3.2 解决方案指标说明

  • 集成读写指标

    指标名称

    指标说明

    每秒读取条数

    作业启动后,记录每秒读取的数据条数。

    每秒写入条数

    作业启动后,记录每秒写入的数据条数。

    每秒读取字节数

    作业启动后,记录每秒读取的数据字节大小。

    每秒写入字节数

    作业启动后,记录每秒写入的数据字节大小。

    写入失败条数

    作业启动后,写入失败的脏数据条数。

    尝试写入总条数

    作业启动后,Flink 尝试写入下游的数据总条数。

    写入阶段延迟

    作业启动后 Flink 尝试写入下游的数据的延迟(开启攒批写入后,指标可能不准确,该参数仅供参考)。

    读取阶段延迟(μs)

    Flink 尝试从上游读取数据过程中的延迟。

  • CDC 监控指标

    指标名称

    指标说明

    读取 Binlog 条数

    任务启动后,当前累计已读取的 Binlog 数据条数

    说明

    对于更新类消息,前值(before)和后值(after)只算做一条。

    端到端业务延迟

    从数据写入上游源表的实际时刻,到实际写入下游目标表时刻之间的延迟(包含数据在外部系统的处理延迟)

    端到端传输延迟

    从数据读入集成系统的时刻,到准备写入下游时刻之间的延迟(不包含数据在外部系统的处理延迟)

    当前 Binlog 事件时间

    消息写入 Binlog 时的时间戳(例如实际写入 MySQL 时的时间戳)

    当前 Binlog 读取延迟=推送延迟?

    读到最近一条消息的当前时间减去“Binlog 事件时间”指标的差值。该指标和“当前处理消息的事件时间延迟”类似,且该指标表示直连作业;“当前处理消息的事件时间延迟”表示经过 Kafka 中转缓存的作业;

    当前 Binlog 读取空闲时长

    当前时间减去最近一条消息的处理时间,值越大,表示越久没有收到新的 Binlog 消息

    当前 Binlog 文件序号

    数字形式,表示当前消费到的 Binlog 文件名的数字后缀

    说明

    通常是递增,但发生主备切换后可能会重新累加。

    当前 Binlog 位点

    最近一条消息在 Binlog 中的位点(offset);

  • DUMP 监控指标(DUMP 类作业专用)
    DUMP 指的是 Kafka → Hive 类作业,该命名属于历史原因。直连作业方式没有该组监控指标数据。

    指标名称

    指标说明

    写入成功条数

    作业启动后,成功写入目标端的数据条数。

    写入失败条数

    作业启动后,写入目标端失败的数据条数。

    算子最低水位

    数据处理算子当前处理数据的最早时间戳,衡量算子处理数据的进展。

    全局最低水位

    整个 DUMP 作业中所有算子处理数据的最早时间戳,反应整体数据处理的最“前沿”时间点。

    归档成功条数

    记录成功写入目标端的有效数据记录数。

    时间戳异常的归档条数

    数据归档过程中,记录时间戳格式不符合业务逻辑的数据条数。

    时间戳早于最低水位的归档条数

    在归档数据中,时间戳早于当前全局最低水位的数据条数。

    MQ 重复条数

    统计 MQ 消息数据传输过程中,出现重复消息的数据条数。

    MQ 丢失条数

    统计 MQ 消息数据传输过程中,未成功消费而丢失消息的数据条数。

    MQ 乱序条数

    统计 MQ 消息数据传输过程中,消息未按照生产顺序消费写入目标端的数据条数。

    MQ 业务延迟

    计算源数据消息从生产时间到数据成功写入目标端的时间差。

  • 资源组使用率
    实时任务执行所在的资源组使用率情况,您可前往 DataLeap 控制台 > 资源组管理 > 独享集成资源组列表,查看对应资源组的使用率详情。
    Image

3.3 实时任务指标监控查看

实时任务实际执行时,您可通过以下方式查看单任务的指标监控:

  1. 登录 DataLeap 租户控制台
  2. 在概览界面,选择对应项目下的运维中心 > 实时任务运维 > 任务运维,进入实时任务运维列表页面。
    Image
  3. 在具体实时任务列表中,鼠标移动至操作列下的监控按钮,您便可按需查看 Flink Metrick 监控、集成监控界面。

说明

  • Flink Metrick 监控、集成监控,可在任务日志的运行监控页中,以嵌套页面方式打开;
  • 单击“云监控 →”按钮,便可直接跳转到云监控页面打开。

Image

3.4 实时任务指标监控说明

实时任务指标监控说明,您可参考「流式计算 FLink 版」 的配置告警策略说明,详见: https://www.volcengine.com/docs/6581/151457

4 实时任务监控指标告警策略配置

4.1 云监控告警策略配置

实时任务监控指标对应的告警策略配置,需前往云监控平台创建:

  1. 登录云监控控制台
  2. 在左侧导航栏,选择告警中心 > 告警策略
  3. 告警策略页面,单击创建告警策略按钮。
    Image
  4. 在告警策略配置界面,完成以下配置信息:
    • 基本信息

      配置项

      说明

      名称

      自定义告警策略名称,用于标识告警策略。不能以数字、中划线开头,名称长度限制在 1~128 字符之间。

      描述

      自定义告警策略的说明性信息。

    • 告警对象
      Image

      配置项

      说明

      资源类型

      选择数据中台-全域数据集成。

      地域

      选择实时任务所在的地域信息。

      维度

      以作业维度配置。

      资源

      您可选择全部或部分作业资源进行监控。

      说明

      部分作业配置时,需要相应的作业权限。

    • 告警规则
      Image

      配置项

      说明

      指标类型

      支持单指标或多指标类型进行按需选择。

      触发条件

      全域数据集成目前支持以下 6 种指标配置告警触发条件:

      • 输出记录失败个数:实时集成读写指标 - 写入失败条数
      • 输出记录延迟:实时集成读写指标 - 写入延迟
      • CDC 处理事件时间延迟:CDC 监控指标 - Binlog 事件时间
      • Dump 输出脏数据条数:DUMP 监控指标-输出脏数据条数
      • Binlog 投递延迟:CDC 监控指标 - Binlog 推送延迟
      • Binlog 消费空闲时间:CDC 监控指标 - Binlog 空闲消费时间
      • CDC 源端到目的端总延迟:CDC 监控指标 - CDC 源端数据写入时刻到数据写入目的端时刻的差值

      告警级别

      标识告警的严重程度。支持设置严重警告通知

      生效时间

      配置告警策略的生效时间。告警策略只在生效时间内监控资源的数据是否达到触发条件。

      告警发送周期

      触发告警策略后,如果被监控的资源仍然持续触发告警,为避免打扰,系统会周期性发送告警通知。

      • 支持配置为 5 分钟10 分钟15 分钟30 分钟60 分钟3 小时6 小时12 小时24 小时
      • 默认为 5 分钟。

      告警恢复通知

      告警恢复后向用户发送一条恢复通知,默认为打开。

      注意

      告警恢复通知是对告警策略维度的恢复通知,当告警策略的状态恢复为正常时,云监控判断为告警恢复。

    • 告警方式
      Image

      配置项

      说明

      告警渠道

      选择一个或多个渠道。支持邮箱电话短信以及告警回调
      其中,电话和短信通知的接收限制,请参见使用限制

      告警联系组

      告警渠道选择邮箱电话或者短信中的一个或多个渠道时,页面将展示告警联系组

      • 必须设置至少 1 个联系组作为告警通知的接收方。
      • 至多设置 5 个联系组作为告警通知的接收方。

      告警回调

      告警渠道选择告警回调时,页面将展示告警回调文本框。

      • 必须指定一个公网可用的 URL。后续如果资源触发告警策略,则系统会把告警的详细信息通过 POST 请求发送至该 URL,便于您进行深入的数据分析。
        • 支持选择已创建的回调地址,最多选择 8 个。
        • 支持填写回调地址,只能填写 1 个。
      • 建议您准备一台已开启 HTTP 服务且能在公网访问的服务器,然后将服务器的 HTTP URL 设置为告警回调 URL。
      • 关于告警回调的更多信息,请参见告警回调使用说明
      • 告警回调支持关联飞书、钉钉、企业微信中的群机器人,以实现自动推送告警通知。具体操作,请参见通过飞书群接收告警通知通过钉钉群接收告警通知通过微信群接收告警通知

4.2 实时运维中心配置

实时任务监控,也可通过 DataLeap 实时报警监控规则进行单独配置,可通过以下配置指标进行监控:

  • 任务运行状态指标
    • 任务执行状态:通过任务状态来判断实时同步任务是否异常,每隔 3 分钟检查任务状态,当检查到任务处于非 "运行中" 则进行报警。
    • Failover 次数:Flink 作业是否存在异常频繁发生 Failove,连续 N 分钟,重启大于几次时,会开始发送告警。
    • Checkpoint 失败次数:连续失败 N 次时,即触发报警。

具体配置步骤详见报警监控

5 其他参考

实时任务告警最佳实践详见 DataSail 实时任务报警设置最佳实践