You need to enable JavaScript to run this app.
导航
实时任务监控指标及告警配置
最近更新时间:2025.09.09 15:22:47首次发布时间:2024.05.27 11:27:45
复制全文
我的收藏
有用
有用
无用
无用

全域数据集成 DataSail 提供离线任务监控和实时任务监控,本文将为您介绍实时任务监控指标信息,并配置实时任务告警规则,方便监控实时同步解决方案和流式集成任务的状态,及时发现任务问题,提高任务运维效率。

说明

离线任务监控操作详见监控规则

1 使用前提

已创建流式集成任务或同步解决方案。详见流式数据同步整体解决方案

2 实时任务监控指标查看和说明

2.1 解决方案指标监控查看入口

  1. 登录 DataSail 控制台
  2. 在左侧导航栏中,单击数据同步方案按钮,进入同步解决方案列表界面。
  3. 单击目录树中项目选择入口,选择已创建的 DataLeap 项目。
    Image
  4. 在项目下的解决方案列表中,选择已创建并执行的实时同步解决方案实时采集解决方案任务,单击运维列下的执行详情按钮,进入执行详情界面。
    Image
  5. 单击监控页签,进入查看任务运行指标界面。

2.2 解决方案指标说明

  • 集成读写指标

    指标名称

    指标说明

    每秒读取条数

    作业启动后,记录每秒读取的数据条数。

    每秒写入条数

    作业启动后,记录每秒写入的数据条数。

    每秒读取字节数

    作业启动后,记录每秒读取的数据字节大小。

    每秒写入字节数

    作业启动后,记录每秒写入的数据字节大小。

    写入失败条数

    作业启动后,写入失败的脏数据条数。

    尝试写入总条数

    作业启动后,Flink 尝试写入下游的数据总条数。

    写入阶段延迟

    作业启动后 Flink 尝试写入下游的数据的延迟(开启攒批写入后,指标可能不准确,该参数仅供参考)。

    读取阶段延迟(μs)

    Flink 尝试从上游读取数据过程中的延迟。

  • CDC 监控指标

    指标名称

    指标说明

    读取 Binlog 条数

    任务启动后,当前累计已读取的 Binlog 数据条数

    说明

    对于更新类消息,前值(before)和后值(after)只算做一条。

    端到端业务延迟

    从数据写入上游源表的实际时刻,到实际写入下游目标表时刻之间的延迟(包含数据在外部系统的处理延迟)

    端到端传输延迟

    从数据读入集成系统的时刻,到准备写入下游时刻之间的延迟(不包含数据在外部系统的处理延迟)

    当前 Binlog 事件时间

    消息写入 Binlog 时的时间戳(例如实际写入 MySQL 时的时间戳)

    当前 Binlog 读取延迟

    读到最近一条消息的当前时间减去“Binlog 事件时间”指标的差值。该指标和“当前处理消息的事件时间延迟”类似,且该指标表示直连作业;“当前处理消息的事件时间延迟”表示经过 Kafka 中转缓存的作业;

    当前 Binlog 读取空闲时长

    当前时间减去最近一条消息的处理时间,值越大,表示越久没有收到新的 Binlog 消息

    当前 Binlog 文件序号

    数字形式,表示当前消费到的 Binlog 文件名的数字后缀

    说明

    通常是递增,但发生主备切换后可能会重新累加。

    当前 Binlog 位点

    最近一条消息在 Binlog 中的位点(offset);

  • DUMP 监控指标(DUMP 类作业专用)
    DUMP 指的是 Kafka → Hive 类作业,该命名属于历史原因。直连作业方式没有该组监控指标数据。

    指标名称

    指标说明

    写入成功条数

    作业启动后,成功写入目标端的数据条数。

    写入失败条数

    作业启动后,写入目标端失败的数据条数。

    算子最低水位

    数据处理算子当前处理数据的最早时间戳,衡量算子处理数据的进展。

    全局最低水位

    整个 DUMP 作业中所有算子处理数据的最早时间戳,反应整体数据处理的最“前沿”时间点。

    归档成功条数

    记录成功写入目标端的有效数据记录数。

    时间戳异常的归档条数

    数据归档过程中,记录时间戳格式不符合业务逻辑的数据条数。

    时间戳早于最低水位的归档条数

    在归档数据中,时间戳早于当前全局最低水位的数据条数。

    MQ 重复条数

    统计 MQ 消息数据传输过程中,出现重复消息的数据条数。

    MQ 丢失条数

    统计 MQ 消息数据传输过程中,未成功消费而丢失消息的数据条数。

    MQ 乱序条数

    统计 MQ 消息数据传输过程中,消息未按照生产顺序消费写入目标端的数据条数。

    MQ 业务延迟

    计算源数据消息从生产时间到数据成功写入目标端的时间差。

    HDFS 分区提交时跳过的文件数

    监控 Kafka 数据实时写入 Hive 时,在 HDFS 分区最终提交阶段,被判定为“不符合提交条件”而跳过的文件数量。

    注意

    HDFS 分区提交时跳过的文件数,如果大于 0 则可能有数据丢失风险,建议重点关注!

  • 资源组使用率
    实时任务执行所在的资源组使用率情况,您可前往 DataLeap 控制台 > 资源组管理 > 独享集成资源组列表,查看对应资源组的使用率详情。
    Image

2.3 实时任务指标监控查看

实时任务实际执行时,您可通过以下方式查看单任务的指标监控:

  1. 登录 DataLeap 租户控制台
  2. 在概览界面,选择对应项目下的运维中心 > 实时任务运维 > 任务运维,进入实时任务运维列表页面。
    Image
  3. 在具体实时任务列表中,鼠标移动至操作列下的监控按钮,您便可按需查看 Flink Metrick 监控、集成监控界面。

说明

  • Flink Metrick 监控、集成监控,可在任务日志的运行监控页中,以嵌套页面方式打开;
  • 单击“云监控 →”按钮,便可直接跳转到云监控页面打开。

Image

2.4 实时任务指标监控说明

实时任务指标监控说明,您可参考「流式计算 FLink 版」 的配置告警策略说明,详见: https://www.volcengine.com/docs/6581/151457

3 实时任务监控指标告警策略配置

3.1 云监控告警策略配置

实时任务监控指标对应的告警策略配置,需前往云监控平台创建:

  1. 登录云监控控制台
  2. 在左侧导航栏,选择告警中心 > 告警策略
  3. 告警策略页面,单击创建告警策略按钮。
    Image
  4. 在告警策略配置界面,完成以下配置信息:
    • 基本信息

      配置项

      说明

      名称

      自定义告警策略名称,用于标识告警策略。不能以数字、中划线开头,名称长度限制在 1~128 字符之间。

      描述

      自定义告警策略的说明性信息。

    • 告警对象

      配置项

      说明

      资源类型

      选择数据中台-全域数据集成。

      维度

      以作业、资源组维度配置。

      选择方式

      支持手动选择、资源名称、对象分组三种对象选择方式。

      地域

      选择实时任务或资源组所在的地域信息。

      维度

      以作业、资源组维度配置。

      资源/资源名称

      您可选择全部或部分作业资源进行监控。

      说明

      部分作业配置时,需要相应的作业权限。

      对象分组

      当上方选择方式为“对象分组”时,可下拉选择已创建的对象分组。详见对象分组操作。

    • 告警规则

      配置项

      说明

      指标类型

      支持单指标或多指标类型进行按需选择。

      触发条件

      全域数据集成目前支持以下几种指标配置告警触发条件,如 写入失败条数、写入阶段延迟、(Dump)当前读取延迟、(Dump)写入失败条数、当前 Binlog 读取延迟、当前 Binlog 读取空闲时长、端到端业务延迟、端到端传输延迟、(Dump)HDFS 分区提交时跳过的文件数等触发条件,各条件指标说明详见2.2 解决方案指标说明

      告警级别

      标识告警的严重程度。支持设置严重警告通知

      生效时间

      配置告警策略的生效时间。告警策略只在生效时间内监控资源的数据是否达到触发条件。

      告警发送周期

      触发告警策略后,如果被监控的资源仍然持续触发告警,为避免打扰,系统会周期性发送告警通知。

      • 支持配置为 5 分钟10 分钟15 分钟30 分钟60 分钟3 小时6 小时12 小时24 小时
      • 默认为 5 分钟。

      发送聚合策略

      按需选择告警发送聚合策略:

      • 规则和资源:告警规则中的不同资源在告警发送周期内持续超过告警阈值,在告警发送周期内均会分别发送告警通知;如果监控指标在告警发送周期后仍未恢复正常,则云监控再次发送告警通知。
      • 规则:告警规则中的任意资源在告警发送周期内持续超过告警阈值,在告警发送周期内只发送 1 次告警通知。

      告警恢复通知

      告警恢复后向用户发送一条恢复通知,默认为打开。

      注意

      • 阈值告警场景中,资源连续 5 分钟不产生告警,视为恢复。
      • 无数据告警场景中,资源连续 5 分钟有数据上报,视为恢复。
      • 发送聚合策略选择 规则 时,所有资源的告警都恢复后,发送 1 条告警恢复通知。
      • 发送聚合策略选择 规则和资源 时,每个资源的告警恢复后,都会发送 1 条告警恢复通知。

      无数据告警

      配置无数据告警,包括:

      • 指定资源连续指定 n 个周期,无数据上报,则会触发无数据告警。
      • 配置无数据告警级别,支持配置为 严重警告通知

      注意

      • 支持配置 3~20 个周期,默认为 10 个周期。
      • 不是所有的云产品指标都支持无数据告警。目前只有告警对象里 维度实例,且资源只涉及一个层级的云产品指标可以配置无数据告警,以控制台显示为准。
      • 一条规则同时触发阈值告警和无数据告警,则会分别发送 2 条通知。
      • 资源被删除不发送无数据告警通知。
        例如,告警对象中配置了全部资源。资源 A被删除,连续 n 个周期没有上报数据,不发送无数据告警。
    • 告警方式

      配置项

      说明

      通知方式

      选择告警通知渠道。包括:

      • 手动选择:​手工配置该告警策略的通知方式。
      • 通知策略:​指定已配置的通知策略,详情请参见 创建通知策略

      告警渠道

      选择一个或多个渠道。支持邮箱电话短信以及告警回调
      其中,电话和短信通知的接收限制,请参见使用限制

      告警联系组

      告警渠道选择邮箱电话或者短信中的一个或多个渠道时,页面将展示告警联系组

      • 必须设置至少 1 个联系组作为告警通知的接收方。
      • 至多设置 5 个联系组作为告警通知的接收方。

      告警回调

      告警渠道选择告警回调时,页面将展示告警回调文本框。

      • 必须指定一个公网可用的 URL。后续如果资源触发告警策略,则系统会把告警的详细信息通过 POST 请求发送至该 URL,便于您进行深入的数据分析。
        • 支持选择已创建的回调地址,最多选择 8 个。
        • 支持填写回调地址,只能填写 1 个。
      • 建议您准备一台已开启 HTTP 服务且能在公网访问的服务器,然后将服务器的 HTTP URL 设置为告警回调 URL。
      • 关于告警回调的更多信息,请参见告警回调使用说明
      • 告警回调支持关联飞书、钉钉、企业微信中的群机器人,以实现自动推送告警通知。具体操作,请参见通过飞书群接收告警通知通过钉钉群接收告警通知通过微信群接收告警通知

更多告警配置说明详见创建云监控告警策略

3.2 实时运维中心配置

实时任务监控,也可通过 DataLeap 实时报警监控规则进行单独配置,可通过以下配置指标进行监控:

  • 任务运行状态指标
    • 任务执行状态:通过任务状态来判断实时同步任务是否异常,每隔 3 分钟检查任务状态,当检查到任务处于非 "运行中" 则进行报警。
    • Failover 次数:Flink 作业是否存在异常频繁发生 Failove,连续 N 分钟,重启大于几次时,会开始发送告警。
    • Checkpoint 失败次数:连续失败 N 次时,即触发报警。

具体配置步骤详见报警监控

4 其他参考

实时任务告警最佳实践详见 DataSail 实时任务报警设置最佳实践