You need to enable JavaScript to run this app.
导航

流式数据监控

最近更新时间2024.02.07 15:45:14

首次发布时间2022.08.31 11:25:28

流式数据监控依据监控规则,对消息队列 Kafka 版流式数据进行监控。本文将为您介绍如何设置并管理数据质量监控规则、报警提醒等。

1 前提条件

  • 已在概览页面购买大数据分析湖仓一体DataOps 敏捷研发分布式数据自治解决方案。
  • 已在消息队列 Kafka 版控制台创建消息队列 Kafka 版实例和 Topic。欲了解相关操作,可参见创建实例创建Topic
  • 在项目的数据源管理页面,已配置 Kafka 数据源。欲了解相关操作,可参见配置数据源

2 创建监控规则

配置监控规则的步骤如下:

  1. 登录DataLeap控制台。
  2. 选择数据质量 > 数据监控 > 流式数据监控 > 规则管理,进入流式监控页面。
  3. 在页面右上角的项目下拉列表中,选择要管理的项目。
  4. 单击新建规则按钮,进入新建规则页面。
    图片

    说明

    项目首次创建监控规则时,系统会检查该项目是否已完成初始化。

    • 如未完成,则先进入初始化操作,通过后才可创建规则。
    • 如已完成,则直接进入规则创建页面。
  5. 设置规则信息,单击确定按钮,完成规则创建。

    说明

    • 同一项目下同一 Topic 的所有监控规则共享一个监控数据源。
    • 流式数据监控规则基于配置的监控数据源进行监控报警。配置规则时,存在以下情形:
    • 若所选 Topic 下没有配置过监控规则,则创建规则时,需要配置监控数据源信息。
    • 若所选 Topic 下已存在监控数据源,则根据页面提示,直接配置规则即可。

监控规则配置相关参数说明如下表所示。

参数

说明

初始化

绑定引擎

支持 LAS。

关联实例

默认default,下拉可选。

关联Schema

关联数据库的 Schema。下拉可选,可输入数据库名称关键词快速筛选。

保存至

监控规则的保存路径,下拉可选。

说明

在配置项目的数据开发 > 任务开发 > 资源库页面,至少已创建一个子目录,才能下拉选择。

选择Topic

类型

支持的 Topic 类型,支持选项 Kafka。

数据源

Kafka 数据源,下拉可选已创建的数据源。

Topic名称

Kafka 的 Topic名称,下拉可选已创建的Topic。

数据类型

支持Json。

监控数据源配置

TaskManager个数

Flink 作业中 TaskManager 的数量,自动填充默认值,可编辑。

开启跨VPC访问能力

默认开启,不可编辑。

私有VPCID

数据源关联的消息队列 Kafka 版实例的私有网络ID。
可登录消息队列 Kafka 版控制台查看相应信息。

子网ID

数据源关联的消息队列 Kafka 版实例的子网 ID。
可登录消息队列 Kafka 版控制台查看相应信息。

安全组ID

数据源关联的消息队列 Kafka 版实例的私有网络安全组 ID。
可登录消息队列 Kafka 版控制台,跳转至实例的私有网络页面查看。

单TaskManager内存大小(MB)

单个 TaskManager 所占用的内存大小。

单TaskManager CPU数

单个 TaskManager 所占用的CPU数量。

单TaskManager slot数

单个 TaskManager 中slot的数量。

JobManager CPU数

单个 JobManager 所占用的CPU数量。

JobManager内存

单个 JobManager 所占用的内存大小。

监控规则配置
支持按时间字段延迟字段监控空值监控自定义指标Schema校验进行配置。

规则名称

监控规则名称,可自行设置。

时间字段

根据Topic中该字段的取值,与该条数据进入Kafka的时间之间的差异来计算数据延迟。例如时间字段为A,数据进入Kafka的时间为T,则延迟为T-A。
当选择时间字段延迟页签时,需设置该参数。

字段格式

根据对应格式解析时间字段,并计算延迟指标。
提供毫秒级13位整数、秒级别10位整数、yyyy-MM-dd HH:mm:ss三种选项,下拉可选。
当选择时间字段延迟页签时,需设置该参数。

监控字段

Topic内需要监控的字段名称。
当选择字段监控空值监控页签时,需设置该参数。

字段类型

根据实际的监控字段类型选择。
当选择字段监控空值监控页签时,需设置该参数。

自定义逻辑

Kafka数据已自动映射至manta_source表,需通过select ***** from manta_source编写自定义SQL。
当选择自定义指标页签时,需设置该参数。

SQL中用的Json字段

设置SQL中用的Json字段的字段名称和字段类型。

  • 字段名称:填入SQL中使用到的Json字段Schema信息,以便正确解析SQL。
  • 字段类型:下拉可选。

当选择自定义指标页签时,需设置该参数。

监控指标

SQL产出的监控指标名称。
当选择自定义指标页签时,需设置该参数。

开启数据Filter

可选择是否开启数据Filter。
若勾选,则对符合filter schema的数据进行校验;若不勾选,则不对数据做过滤。
当选择 Schema校验页签时,可设置该参数。

数据校验Schema

根据该schema校验数据是否符合要求。如果某条数据不满足该schema,会被记为一条错误记录。
当选择 Schema校验页签时,需设置该参数。

报警粒度

可选择按整体或字段进行监控报警。
当选择字段报警时,需设置监控字段
当选择 Schema校验页签时,需设置该参数。

时间窗口

提供 1分钟、3分钟、5分钟、10分钟、30分钟 五个选项,下拉可选。
流式规则的计算结果是时序数据,会按时间窗口切分成段。每隔一个时间窗口,检测前一段窗口内的数据是否触发报警。
举例:在5分钟窗口内,最大pct99延迟为10s,则会触发报警条件“pct99延迟>5s”;在10分钟窗口内,最小pct95延迟为5s,则会触发报警条件“pct95延迟<10s”。

报警条件

是指规则发出报警时,指标需要满足的条件。当监控指标被计算出来后,如果满足报警条件,就会发出报警。

  • 当选择时间字段延迟字段监控自定义指标页签时,支持数值、分位数的报警,多个报警条件之间的关系为
    • 数值:即定义的计算指标本身,如sum(money)、count(*)等,该指标会直接跟设定的阈值做对比,判断是否报警。
      • Mean:计算30秒内的平均值。
      • Max:计算30秒内的最大值。
      • Min:计算30秒内的最小值。
    • 百分位数:计算30秒内的百分位数,支持pct50、pct90、pct95、pct99、pct999等多个选项。根据当次监控规则计算出的指标结果,与某段时间内的该指标做比值,计算出分位数后,再与设定的阈值进行比较判断。
  • 空值占比:仅当选择空值监控页签时,需设置该参数。
  • 仅当选择 Schema校验页签时,需设置以下参数。多个报警条件之间的关系可设置为或者
    • 错误率:窗口内错误次数/窗口内统计的总数据条数。
    • 错误率波动:本次统计的错误率/上次统计的错误率-100%。

*报警渠道

支持邮箱、短信、电话、Webhook 和飞书的告警方式,支持多选。

说明

  • 配置相应的飞书报警机器人后,才会显示飞书选项。报警机器人由您自行创建并配置,相关操作说明请参见告警机器人配置
  • 当选择电话报警时,会默认选中飞书,若支持飞书渠道,则会发送飞书消息。

*hookUrl

Webhook 请求地址,以 http 或 https 开头。
从下拉列表中选择 http 或 https,填写 Webhook URL 地址。欲了解详细的配置说明,请参见 Webhook 使用说明
报警渠道选择 Webhook 时,需设置该参数。

说明

设置 Webhook 后,通知消息将主动推送至对应 hookUrl 中。

*报警对象

接收报警的用户、飞书群或值班计划接收人。

  • 报警渠道选择邮箱短信Webhook 时,需选择接收报警的用户或值班计划。
    • 用户:输入用户账号关键词后,在下拉列表中选择,支持设置多个。
    • 值班计划:输入值班计划名称的关键词后,在下拉列表中选择。设置后,报警消息将发送至值班计划中的接收人。
  • 报警渠道选择电话飞书时,需设置接收报警消息的用户、值班计划或您所加入的飞书群。
    • 用户:报警消息将发送至用户名对应的飞书中。
      输入用户账号关键词后,在下拉列表中选择,支持设置多个。
    • 飞书群:报警消息将发送至飞书群ID对应的飞书群中。
      可通过飞书开放平台的开发工具模块,查看要输入的飞书群ID。获取ID的相关说明可通过下拉列表中的获取群ID查看。
    • 值班计划:报警消息将发送至值班计划中接收人的飞书中。
      输入值班计划名称的关键词后,在下拉列表中选择。

    说明

    • 将配置好的数据质量报警机器人加入飞书群后,才可发送消息至相应的飞书群。
    • 可通过查看值班计划按钮,查看值班计划列表及值班设置是否符合预期,并支持添加新值班计划,相关操作说明请参见值班管理

*报警形式

支持普通和紧急两种形式。
报警渠道选择飞书时,才需设置该参数。

*报警发送

报警发送的次数。

  • 发送次数 X:可按需配置发送的次数,默认 1 次。
  • 无限制,直至手动ACK解除:无次数限制,若取消发送,需手动ACK(Acknowledgement)来解除报警。
    • 报警频率
      若不及时ACK,系统会从首次报警起至次日(天级监控至次日00:00点;小时级监控至次日对应小时)按照固定频率发起规则校验,若不通过则触发报警。
    • 报警ACK
      ACK表示您已知晓这个报警信息,并会采取相应行动处理,不希望再次收到报警。ACK某个监控后,在设置的时间段内不会重复报警,最长23小时59分钟,过期后将再次发起重复检测。
      综上,建议及时ACK或进行任务/数据处理!

说明

  • 报警渠道选择飞书时,才支持无限制,直至手动ACK解除选项。收到报警消息后,可在飞书端执行报警ACK操作。
  • 报警形式选择紧急时,自动选中无限制,直至手动ACK解除,不可编辑。

*发送间隔

报警发送的间隔时间,默认5分钟,可编辑。

*报警免打扰

可选择是否开启报警免打扰。
当选择开启时,可按需设置免打扰的时间段。

数据过滤

可选择是否开启过滤。
开启后,需输入SQL语句过滤。仅监控指定条件的数据,格式按 Flink SQL 的语法,不需要写WHERE。
当选择时间字段延迟字段监控控制监控页签时,可设置该参数。

3 管理已创建的规则

对监控规则的管理,主要分为抽样数据源运维和监控规则运维两大类,相关操作步骤如下:

  1. 登录DataLeap控制台。
  2. 选择数据质量 > 数据监控 > 流式数据监控 > 规则管理,进入流式监控页面。
  3. 在页面右上角的项目下拉列表中,选择要管理的项目。
    图片
  4. 可执行以下操作:
    • 设置搜索信息,查看符合条件的规则列表。
    • 数据源运维。
      • 单击列表中某条信息操作列的新建监控按钮,进入新建规则页面,可在该Topic下直接增加新规则,规则将基于该数据源进行监控报警。
      • 单击列表中某条信息操作列的任务运维按钮,可以前往实时任务运维页面,查看数据源任务信息。
      • 单击列表中某条信息操作列的 ... > 数据源配置按钮,在弹出的窗口中,可以快速修改数据源相关配置。
    • 监控规则运维。
      • 单击列表中某条规则信息操作列的历史统计按钮,可以查看该规则的监控结果历史统计。
      • 单击列表中某条规则信息操作列的暂停/启动复合按钮,在弹出的确认对话框中,单击确定按钮,可以对规则进行相应的启停操作。
        暂停的规则将不再监控报警。
      • 单击列表中某条规则信息操作列的编辑按钮,可以修改该规则。
      • 单击列表中某条规则信息操作列的 ... > 删除按钮,在弹出的确认对话框中,单击确定按钮,可以删除该规则。
      • 单击列表中某条规则信息操作列的 ... > 分享链接按钮,可以复制该规则链接并发送给他人。