You need to enable JavaScript to run this app.
导航
实时任务监控指标及告警配置
最近更新时间:2024.05.27 11:57:30首次发布时间:2024.05.27 11:27:45

1 概述

全域数据集成 DataSail 提供离线任务监控和实时任务监控,本文将为您介绍实时任务监控指标信息,并配置实时任务告警规则,方便监控实时同步解决方案和流式集成任务的状态,及时发现任务问题,提高任务运维效率。

说明

离线任务监控操作详见监控规则

2 使用前提

已创建流式集成任务或同步解决方案。详见流式数据同步整体解决方案

3 实时任务监控指标查看和说明

3.1 解决方案指标监控查看入口

  1. 登录 DataSail 控制台
  2. 在左侧导航栏中,单击数据同步方案按钮,进入同步解决方案列表界面。
  3. 单击目录树中项目选择入口,选择已创建的 DataLeap 项目。
    图片
  4. 在项目下的解决方案列表中,选择已创建并执行的实时同步解决方案实时采集解决方案任务,单击运维列下的执行详情按钮,进入执行详情界面。
    图片
  5. 单击监控页签,进入查看任务运行指标界面。
    图片

3.2 解决方案指标说明

  • 实时集成读写指标
    • 成功写入条数:作业启动后,成功写入的数据总条数(不含脏数据);
    • 写入失败条数:作业启动后,写入失败的脏数据条数;
    • 写入接收条数:作业启动后,Flink 尝试写入下游的数据总条数
    • 写入延迟:作业启动后,Flink 尝试写入下游的数据的延迟(开启攒批写入后,指标可能不准确,该参数仅供参考);
    • 读取成功条数:作业启动后,成功读取的数据总条数。
  • CDC 监控指标
    • 输入数据条数:同上文的 “读取成功条数”;
    • 输出数据条数:同上文的 “写入成功条数”;
    • Binlog 输出条数:作业启动后,收到的 Binlog 记录数;

      注意

      对于更新类消息,前值(before)和后值(after)只算做一条。

    • Binlog 事件时间:消息写入 Binlog 时的时间戳(例如实际写入 MySQL 时的时间戳);
    • Binlog 推送延迟:读到最近一条消息的当前时间减去“Binlog 事件时间”指标的差值。该指标和“当前处理消息的事件时间延迟”类似,且该指标表示直连作业;“当前处理消息的事件时间延迟”表示经过 Kafka 中转缓存的作业;
    • Binlog 空闲消费时间:当前时间减去最近一条消息的处理时间,值越大,表示越久没有收到新的 Binlog 消息;
    • 当前 Binlog 文件名称:数字形式,表示当前消费到的 Binlog 文件名的数字后缀;

      说明

      通常是递增,但发生主备切换后可能会重新累加。

    • 当前 Binlog 文件位点:最近一条消息在 Binlog 中的位点(offset);
    • CDC 源端到目的端耗时(output_record_transaction_latency):从数据写入 CDC 数据源的时刻算起,到最终写入下游(含攒批、异步刷新等操作),中间全链路的耗时;
    • 端到端延迟指标(with 告警能力):数据输出到下游时刻和数据写入时刻的差值。
  • DUMP 监控指标(DUMP 类作业专用)
    DUMP 指的是 Kafka → Hive 类作业,该命名属于历史原因。直连作业方式没有该组监控指标数据。
    • 输出成功条数
    • 输出脏数据条数
    • Dump Task 最小事件时间
    • Dump 作业最小业务时间
    • Dump 归档成功行数
    • Dump 归档时间异常行数
    • Dump 归档时间小于最小事件时间行数
    • MQ 数据重复
    • MQ 数据丢失
    • MQ 数据乱序
    • 当前处理消息的事件时间:dump.task.cdc.event.time,Debezium 处理最新一条记录时的时间戳
    • 当前处理消息的事件时间延迟:dump.task.cdc.event.latency,表示当前时间与上述指标(当前处理消息的事件时间)之间的差值
  • 资源组使用率
    实时任务执行所在的资源组使用率情况,您可前往 DataLeap 控制台 > 资源组管理 > 独享集成资源组列表,查看对应资源组的使用率详情。
    图片

3.3 实时任务指标监控查看

实时任务实际执行时,您可通过以下方式查看单任务的指标监控:

  1. 登录 DataLeap 租户控制台
  2. 在概览界面,选择对应项目下的运维中心 > 实时任务运维 > 任务运维,进入实时任务运维列表页面。
    图片
  3. 在具体实时任务列表中,鼠标移动至操作列下的监控按钮,您便可按需查看 Flink Metrick 监控、集成监控界面。

说明

  • Flink Metrick 监控、集成监控,可在任务日志的运行监控页中,以嵌套页面方式打开;
  • 单击“云监控 →”按钮,便可直接跳转到云监控页面打开。

图片

3.4 实时任务指标监控说明

实时任务指标监控说明,您可参考「流式计算 FLink 版」 的配置告警策略说明,详见: https://www.volcengine.com/docs/6581/151457

4 实时任务监控指标告警策略配置

4.1 云监控告警策略配置

实时任务监控指标对应的告警策略配置,需前往云监控平台创建:

  1. 登录云监控控制台
  2. 在左侧导航栏,选择告警中心 > 告警策略
  3. 告警策略页面,单击创建告警策略按钮。
    图片
  4. 在告警策略配置界面,完成以下配置信息:
    • 基本信息

      配置项

      说明

      名称

      自定义告警策略名称,用于标识告警策略。不能以数字、中划线开头,名称长度限制在 1~128 字符之间。

      描述

      自定义告警策略的说明性信息。

    • 告警对象
      图片

      配置项

      说明

      资源类型

      选择数据中台-全域数据集成。

      地域

      选择实时任务所在的地域信息。

      维度

      以作业维度配置。

      资源

      您可选择全部或部分作业资源进行监控。

      说明

      部分作业配置时,需要相应的作业权限。

    • 告警规则
      图片

      配置项

      说明

      指标类型

      支持单指标或多指标类型进行按需选择。

      触发条件

      全域数据集成目前支持以下 6 种指标配置告警触发条件:

      • **输出记录失败个数:**实时集成读写指标 - 写入失败条数
      • 输出记录延迟:实时集成读写指标 - 写入延迟
      • CDC 处理事件时间延迟:CDC 监控指标 - Binlog 事件时间
      • Dump 输出脏数据条数:DUMP 监控指标-输出脏数据条数
      • Binlog 投递延迟:CDC 监控指标 - Binlog 推送延迟
      • Binlog 消费空闲时间:CDC 监控指标 - Binlog 空闲消费时间
      • CDC 源端到目的端总延迟:CDC 监控指标 - CDC 源端数据写入时刻到数据写入目的端时刻的差值

      告警级别

      标识告警的严重程度。支持设置严重警告通知

      生效时间

      配置告警策略的生效时间。告警策略只在生效时间内监控资源的数据是否达到触发条件。

      告警发送周期

      触发告警策略后,如果被监控的资源仍然持续触发告警,为避免打扰,系统会周期性发送告警通知。

      • 支持配置为 5 分钟10 分钟15 分钟30 分钟60 分钟3 小时6 小时12 小时24 小时
      • 默认为 5 分钟。

      告警恢复通知

      告警恢复后向用户发送一条恢复通知,默认为打开。

      注意

      告警恢复通知是对告警策略维度的恢复通知,当告警策略的状态恢复为正常时,云监控判断为告警恢复。

    • 告警方式
      图片

      配置项

      说明

      告警渠道

      选择一个或多个渠道。支持邮箱电话短信以及告警回调
      其中,电话和短信通知的接收限制,请参见使用限制

      告警联系组

      告警渠道选择邮箱电话或者短信中的一个或多个渠道时,页面将展示告警联系组

      • 必须设置至少 1 个联系组作为告警通知的接收方。
      • 至多设置 5 个联系组作为告警通知的接收方。

      告警回调

      告警渠道选择告警回调时,页面将展示告警回调文本框。

      • 必须指定一个公网可用的 URL。后续如果资源触发告警策略,则系统会把告警的详细信息通过 POST 请求发送至该 URL,便于您进行深入的数据分析。
        • 支持选择已创建的回调地址,最多选择 8 个。
        • 支持填写回调地址,只能填写 1 个。
      • 建议您准备一台已开启 HTTP 服务且能在公网访问的服务器,然后将服务器的 HTTP URL 设置为告警回调 URL。
      • 关于告警回调的更多信息,请参见告警回调使用说明
      • 告警回调支持关联飞书、钉钉、企业微信中的群机器人,以实现自动推送告警通知。具体操作,请参见通过飞书群接收告警通知通过钉钉群接收告警通知通过微信群接收告警通知

4.2 实时运维中心配置

实时任务监控,也可通过 DataLeap 实时报警监控规则进行单独配置,可通过以下配置指标进行监控:

  • 任务运行状态指标
    • 任务支持状态:通过任务状态来判断实时同步任务是否异常,每隔 3 分钟检查任务状态,当检查到任务处于非 "运行中" 则进行报警。
    • Failover 次数:Flink 作业是否存在异常频繁发生 Failove,连续 N 分钟,重启大于几次时,会开始发送告警。
    • Checkpoint 失败次数:连续失败 N 次时,即触发报警。
  • 数据源指标
    • Source 整个 Topic 的 lagsize:所有引擎类型的流式任务都支持此报警,仅支持配置火山引擎 Kakfa、RocketMQ,不支持自建数据源。

具体配置步骤详见报警监控

5 其他参考

实时任务告警最佳实践详见 DataSail 实时任务报警设置最佳实践