You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

流式数据监控

最近更新时间2023.02.14 19:41:04

首次发布时间2022.08.31 11:25:28

流式数据监控依据监控规则,对消息队列 Kafka 版流式数据进行监控。本文将为您介绍如何设置并管理数据质量监控规则、报警提醒等。

1 前提条件

  • 已在概览页面购买大数据分析湖仓一体DataOps 敏捷研发分布式数据自治解决方案。

  • 已在消息队列 Kafka 版控制台创建消息队列 Kafka 版实例和 Topic。欲了解相关操作,可参见创建实例创建Topic

  • 在项目的数据源管理页面,已配置 Kafka 数据源。欲了解相关操作,可参见配置数据源

2 创建监控规则

配置监控规则的步骤如下:

  1. 登录DataLeap控制台。

  2. 选择数据质量 > 数据监控 > 流式数据监控 > 规则管理,进入流式监控页面。

  3. 在页面右上角的项目下拉列表中,选择要管理的项目。

  4. 引擎下拉列表中,选择 LAS 后,单击新建规则按钮,进入新建规则页面。

    说明

    项目首次创建监控规则时,系统会检查该项目是否已完成初始化。

    • 如未完成,则先进入初始化操作,通过后才可创建规则。

    • 如已完成,则直接进入规则创建页面。

  5. 设置规则信息,单击确定按钮,完成规则创建。

    说明

    • 同一项目下同一 Topic 的所有监控规则共享一个监控数据源。

    • 流式数据监控规则基于配置的监控数据源进行监控报警。配置规则时,存在以下情形:

      • 若所选 Topic 下没有配置过监控规则,则创建规则时,需要配置监控数据源信息。

      • 若所选 Topic 下已存在监控数据源,则根据页面提示,直接配置规则即可。

监控规则配置相关参数说明如下表所示。

参数说明
初始化
绑定引擎支持 LAS。
关联实例默认default,下拉可选。
关联Schema关联数据库的 Schema。下拉可选,可输入数据库名称关键词快速筛选。

保存至

监控规则的保存路径,下拉可选。

说明

在配置项目的数据开发 > 任务开发 > 资源库页面,至少已创建一个子目录,才能下拉选择。

选择Topic
类型支持的 Topic 类型,支持选项 Kafka。
数据源Kafka 数据源,下拉可选。
Topic名称Kafka 的 Topic名称,下拉可选。
数据类型支持Json。
监控数据源配置
TaskManager个数Flink 作业中 TaskManager 的数量,自动填充默认值,可编辑。
开启跨VPC访问能力默认开启,不可编辑。

私有VPCID

数据源关联的消息队列 Kafka 版实例的私有网络ID。
可登录消息队列 Kafka 版控制台查看相应信息。

子网ID

数据源关联的消息队列 Kafka 版实例的子网 ID。
可登录消息队列 Kafka 版控制台查看相应信息。

安全组ID

数据源关联的消息队列 Kafka 版实例的私有网络安全组 ID。
可登录消息队列 Kafka 版控制台,跳转至实例的私有网络页面查看。

单TaskManager内存大小(MB)单个 TaskManager 所占用的内存大小。
单TaskManager CPU数单个 TaskManager 所占用的CPU数量。
单TaskManager slot数单个 TaskManager 中slot的数量。
JobManager CPU数单个 JobManager 所占用的CPU数量。
JobManager内存单个 JobManager 所占用的内存大小。

监控规则配置
支持按时间字段延迟字段监控空值监控自定义指标Schema校验进行配置。

规则名称监控规则名称,可自行设置。

时间字段

根据Topic中该字段的取值,与该条数据进入Kafka的时间之间的差异来计算数据延迟。例如时间字段为A,数据进入Kafka的时间为T,则延迟为T-A。
当选择时间字段延迟页签时,需设置该参数。

字段格式

根据对应格式解析时间字段,并计算延迟指标。
提供毫秒级13位整数、秒级别10位整数、yyyy-MM-dd HH:mm:ss三种选项,下拉可选。
当选择时间字段延迟页签时,需设置该参数。

监控字段

Topic内需要监控的字段名称。
当选择字段监控空值监控页签时,需设置该参数。

字段类型

根据实际的监控字段类型选择。
当选择字段监控空值监控页签时,需设置该参数。

自定义逻辑

Kafka数据已自动映射至manta_source表,需通过select ***** from manta_source编写自定义SQL。
当选择自定义指标页签时,需设置该参数。

SQL中用的Json字段

设置SQL中用的Json字段的字段名称和字段类型。

  • 字段名称:填入SQL中使用到的Json字段Schema信息,以便正确解析SQL。

  • 字段类型:下拉可选。

当选择自定义指标页签时,需设置该参数。

监控指标

SQL产出的监控指标名称。
当选择自定义指标页签时,需设置该参数。

开启数据Filter

可选择是否开启数据Filter。
若勾选,则对符合filter schema的数据进行校验;若不勾选,则不对数据做过滤。
当选择 Schema校验页签时,可设置该参数。

数据校验Schema

根据该schema校验数据是否符合要求。如果某条数据不满足该schema,会被记为一条错误记录。
当选择 Schema校验页签时,需设置该参数。

报警粒度

可选择按整体或字段进行监控报警。
当选择字段报警时,需设置监控字段
当选择 Schema校验页签时,需设置该参数。

时间窗口

提供 1分钟、3分钟、5分钟、10分钟、30分钟 五个选项,下拉可选。
流式规则的计算结果是时序数据,会按时间窗口切分成段。每隔一个时间窗口,检测前一段窗口内的数据是否触发报警。
举例:在5分钟窗口内,最大pct99延迟为10s,则会触发报警条件“pct99延迟>5s”;在10分钟窗口内,最小pct95延迟为5s,则会触发报警条件“pct95延迟<10s”。

报警条件

是指规则发出报警时,指标需要满足的条件。当监控指标被计算出来后,如果满足报警条件,就会发出报警。

  • 当选择时间字段延迟字段监控自定义指标页签时,支持数值、分位数的报警,多个报警条件之间的关系为

    • 数值:即定义的计算指标本身,如sum(money)、count(*)等,该指标会直接跟设定的阈值做对比,判断是否报警。

      • Mean:计算30秒内的平均值。

      • Max:计算30秒内的最大值。

      • Min:计算30秒内的最小值。

    • 百分位数:计算30秒内的百分位数,支持pct50、pct90、pct95、pct99、pct999等多个选项。根据当次监控规则计算出的指标结果,与某段时间内的该指标做比值,计算出分位数后,再与设定的阈值进行比较判断。

  • 空值占比:仅当选择空值监控页签时,需设置该参数。

  • 仅当选择 Schema校验页签时,需设置以下参数。多个报警条件之间的关系可设置为或者

    • 错误率:窗口内错误次数/窗口内统计的总数据条数。

    • 错误率波动:本次统计的错误率/上次统计的错误率-100%。

报警方式支持邮箱、短信的告警方式。
报警接收人支持选择多个接收人。

数据过滤

可选择是否开启过滤。
开启后,需输入SQL语句过滤。仅监控指定条件的数据,格式按 Flink SQL 的语法,不需要写WHERE。
当选择时间字段延迟字段监控控制监控页签时,可设置该参数。

3 管理已创建的规则

对监控规则的管理,主要分为抽样数据源运维和监控规则运维两大类,相关操作步骤如下:

  1. 登录DataLeap控制台。

  2. 选择数据质量 > 数据监控 > 流式数据监控 > 规则管理,进入流式监控页面。

  3. 在页面右上角的项目下拉列表中,选择要管理的项目。

  4. 可执行以下操作:

    • 设置搜索信息,查看符合条件的规则列表。

    • 数据源运维。

      • 单击列表中某条信息操作列的新建监控按钮,进入新建规则页面,可在该Topic下直接增加新规则,规则将基于该数据源进行监控报警。

      • 单击列表中某条信息操作列的任务运维按钮,可以前往实时任务运维页面,查看数据源任务信息。

      • 单击列表中某条信息操作列的更多图标 > 数据源配置按钮,在弹出的窗口中,可以快速修改数据源相关配置。

    • 监控规则运维。

      • 单击列表中某条规则信息操作列的历史统计按钮,可以查看该规则的监控结果历史统计。

      • 单击列表中某条规则信息操作列的暂停/启动复合按钮,在弹出的确认对话框中,单击确定按钮,可以对规则进行相应的启停操作。
        暂停的规则将不再监控报警。

      • 单击列表中某条规则信息操作列的编辑按钮,可以修改该规则。

      • 单击列表中某条规则信息操作列的更多图标 > 删除按钮,在弹出的确认对话框中,单击确定按钮,可以删除该规则。

      • 单击列表中某条规则信息操作列的更多图标 > 分享链接按钮,可以复制该规则链接并发送给他人。