最近更新时间:2023.02.14 19:41:04
首次发布时间:2022.08.31 11:25:28
流式数据监控依据监控规则,对消息队列 Kafka 版流式数据进行监控。本文将为您介绍如何设置并管理数据质量监控规则、报警提醒等。
已在概览页面购买大数据分析、湖仓一体、DataOps 敏捷研发或分布式数据自治解决方案。
已在消息队列 Kafka 版控制台创建消息队列 Kafka 版实例和 Topic。欲了解相关操作,可参见创建实例和创建Topic。
在项目的数据源管理页面,已配置 Kafka 数据源。欲了解相关操作,可参见配置数据源。
配置监控规则的步骤如下:
登录DataLeap控制台。
选择数据质量 > 数据监控 > 流式数据监控 > 规则管理,进入流式监控页面。
在页面右上角的项目下拉列表中,选择要管理的项目。
在引擎下拉列表中,选择 LAS 后,单击新建规则按钮,进入新建规则页面。
说明
项目首次创建监控规则时,系统会检查该项目是否已完成初始化。
如未完成,则先进入初始化操作,通过后才可创建规则。
如已完成,则直接进入规则创建页面。
设置规则信息,单击确定按钮,完成规则创建。
说明
同一项目下同一 Topic 的所有监控规则共享一个监控数据源。
流式数据监控规则基于配置的监控数据源进行监控报警。配置规则时,存在以下情形:
若所选 Topic 下没有配置过监控规则,则创建规则时,需要配置监控数据源信息。
若所选 Topic 下已存在监控数据源,则根据页面提示,直接配置规则即可。
监控规则配置相关参数说明如下表所示。
参数 | 说明 |
---|---|
初始化 | |
绑定引擎 | 支持 LAS。 |
关联实例 | 默认default,下拉可选。 |
关联Schema | 关联数据库的 Schema。下拉可选,可输入数据库名称关键词快速筛选。 |
保存至 | 监控规则的保存路径,下拉可选。 说明 在配置项目的数据开发 > 任务开发 > 资源库页面,至少已创建一个子目录,才能下拉选择。 |
选择Topic | |
类型 | 支持的 Topic 类型,支持选项 Kafka。 |
数据源 | Kafka 数据源,下拉可选。 |
Topic名称 | Kafka 的 Topic名称,下拉可选。 |
数据类型 | 支持Json。 |
监控数据源配置 | |
TaskManager个数 | Flink 作业中 TaskManager 的数量,自动填充默认值,可编辑。 |
开启跨VPC访问能力 | 默认开启,不可编辑。 |
私有VPCID | 数据源关联的消息队列 Kafka 版实例的私有网络ID。 |
子网ID | 数据源关联的消息队列 Kafka 版实例的子网 ID。 |
安全组ID | 数据源关联的消息队列 Kafka 版实例的私有网络安全组 ID。 |
单TaskManager内存大小(MB) | 单个 TaskManager 所占用的内存大小。 |
单TaskManager CPU数 | 单个 TaskManager 所占用的CPU数量。 |
单TaskManager slot数 | 单个 TaskManager 中slot的数量。 |
JobManager CPU数 | 单个 JobManager 所占用的CPU数量。 |
JobManager内存 | 单个 JobManager 所占用的内存大小。 |
监控规则配置 | |
规则名称 | 监控规则名称,可自行设置。 |
时间字段 | 根据Topic中该字段的取值,与该条数据进入Kafka的时间之间的差异来计算数据延迟。例如时间字段为A,数据进入Kafka的时间为T,则延迟为T-A。 |
字段格式 | 根据对应格式解析时间字段,并计算延迟指标。 |
监控字段 | Topic内需要监控的字段名称。 |
字段类型 | 根据实际的监控字段类型选择。 |
自定义逻辑 | Kafka数据已自动映射至manta_source表,需通过select ***** from manta_source编写自定义SQL。 |
SQL中用的Json字段 | 设置SQL中用的Json字段的字段名称和字段类型。
当选择自定义指标页签时,需设置该参数。 |
监控指标 | SQL产出的监控指标名称。 |
开启数据Filter | 可选择是否开启数据Filter。 |
数据校验Schema | 根据该schema校验数据是否符合要求。如果某条数据不满足该schema,会被记为一条错误记录。 |
报警粒度 | 可选择按整体或字段进行监控报警。 |
时间窗口 | 提供 1分钟、3分钟、5分钟、10分钟、30分钟 五个选项,下拉可选。 |
报警条件 | 是指规则发出报警时,指标需要满足的条件。当监控指标被计算出来后,如果满足报警条件,就会发出报警。
|
报警方式 | 支持邮箱、短信的告警方式。 |
报警接收人 | 支持选择多个接收人。 |
数据过滤 | 可选择是否开启过滤。 |
对监控规则的管理,主要分为抽样数据源运维和监控规则运维两大类,相关操作步骤如下:
登录DataLeap控制台。
选择数据质量 > 数据监控 > 流式数据监控 > 规则管理,进入流式监控页面。
在页面右上角的项目下拉列表中,选择要管理的项目。
可执行以下操作:
设置搜索信息,查看符合条件的规则列表。
数据源运维。
单击列表中某条信息操作列的新建监控按钮,进入新建规则页面,可在该Topic下直接增加新规则,规则将基于该数据源进行监控报警。
单击列表中某条信息操作列的任务运维按钮,可以前往实时任务运维页面,查看数据源任务信息。
单击列表中某条信息操作列的更多图标 > 数据源配置按钮,在弹出的窗口中,可以快速修改数据源相关配置。
监控规则运维。
单击列表中某条规则信息操作列的历史统计按钮,可以查看该规则的监控结果历史统计。
单击列表中某条规则信息操作列的暂停/启动复合按钮,在弹出的确认对话框中,单击确定按钮,可以对规则进行相应的启停操作。
暂停的规则将不再监控报警。
单击列表中某条规则信息操作列的编辑按钮,可以修改该规则。
单击列表中某条规则信息操作列的更多图标 > 删除按钮,在弹出的确认对话框中,单击确定按钮,可以删除该规则。
单击列表中某条规则信息操作列的更多图标 > 分享链接按钮,可以复制该规则链接并发送给他人。