You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
管理监控对象
配置双数据源校验规则
复制全文
配置双数据源校验规则

双数据源校验通过聚合指标来实现任意两种数据源聚合数据比对,例如,同类型数据源不同表之间的表行数是否一致、不同类型数据源两表中的相同字段总值(SUM)是否一致等等。本功能支持自定义 SQL 方式创建校验规则,本文将为您介绍如何配置双数据源校验规则。

约束限制

角色类型为管理员、开发或复查人的项目成员才可创建并管理规则,而访客和非项目成员仅具备查看权限。管理项目成员的操作请参见成员管理

前提条件

已绑定要监控数据的引擎服务,相关操作可参见新建项目

创建规则

  1. 登录 DataLeap 控制台。
  2. 选择数据质量 > 数据监控,直接进入离线数据监控对象页面。
  3. 在页面右上角的项目下拉列表中,选择要管理的项目。
  4. 单击双数据源校验页签,进入双数据源校验页面。
    Image
  5. 单击新建规则按钮,进入规则创建页面。
  6. 设置相关参数后,根据页面提示,依次单击下一步按钮,设置完成后,单击创建规则按钮完成新建。

创建双数据源校验规则相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

参数

说明

双数据源校验逻辑-选择数据源A

*数据源类型

进行比对的数据源A的类型,支持 Apache Hadoop、GaussDB(DWS)两个选项,下拉可选。

*集群

使用的所选类型的集群,自动填充一个已注册并创建采集器的集群,下拉可选其他。
注册及采集的相关说明请参见集群管理元数据采集

说明

仅可选择当前项目下的集群。

*运行队列

规则使用的运行队列,下拉可选当前集群已绑定的队列。若未申请队列,请前往控制台资源管理进行申请。

说明

数据源类型选择 Apache Hadoop 时,需设置该参数。

*XX查询语句

对应所选类型的查询语句,用来定义需要检查的指标,按需输入,例如以下 Apache Hadoop查询语句:

select count(*) as cnt, sum(price) as price
from table
where date='${date}'

说明

  • 仅支持单行聚合数据比对。
  • 举例中,cnt和price为该Hive SQL产出的两个指标(单行2列)。

双数据源校验逻辑-选择数据源B

*数据源类型

进行比对的数据源B的类型,支持 Apache Hadoop、GaussDB(DWS)两个选项,下拉可选。

*集群

使用的所选类型的集群,自动填充一个已注册并创建采集器的集群,下拉可选其他。
注册及采集的相关说明请参见集群管理元数据采集

说明

仅可选择当前项目下的集群。

*运行队列

规则使用的运行队列,下拉可选当前集群已绑定的队列。若未申请队列,请前往控制台资源管理进行申请。

说明

数据源类型选择 Apache Hadoop 时,需设置该参数。

*XX查询语句

对应所选类型的查询语句,用来定义需要检查的指标,如 Apache Hadoop查询语句,按需输入。

说明

仅支持单行聚合数据比对。

双数据源校验逻辑-关联维度(通过关联维度可实现检验字段的细粒度比对)

source维度

源端数据源A查询语句产出的维度字段,可配置多个。

说明

配置多个维度字段可能会导致校验任务执行时长增加。

target维度

目标端数据源B查询语句产出的维度字段,可配置多个。

双数据源校验逻辑-字段映射及逻辑检查

*source字段

源端数据源A查询语句产出的指标字段,至少配置一个。

*target字段

目标端数据源B查询语句产出的指标字段,至少配置一个。

*报警条件

是指规则发出报警时,指标需要满足的条件。当监控指标被计算出来后,如果满足报警条件,就会发出报警。
报警条件支持不相等差值绝对值大于两种报警选项。

  • 不相等:若A指标和B指标不相等,则发出报警。
  • 差值绝对值大于:若A指标和B指标的差值绝对值大于所设置的数值,则发出报警。

说明

一组指标字段可设置一个报警条件,多组字段之间的报警关系为

设置监控规则

*规则名称

该监控规则的名称,根据所选两端数据源类型和日期自动创建,支持手动修改。

描述信息

规则的描述信息。

设置监控规则-执行方式

*执行方式

监控规则的执行方式,支持关联任务、定时调度和手动执行三种方式。

  • 关联任务:按照关联开发任务的调度时间执行。
  • 定时调度:自行设置监控规则的执行时间。
  • 手动执行:不自动调度执行,可按需手动调度。

*任务名称

要关联任务的名称,可通过任务名称关键词或ID进行搜索选择。

说明

  • 执行方式选择关联任务时,需设置该参数。
  • 仅支持关联当前项目下调度频率为小时/天/周/月级的离线任务。
  • 该任务每次运行完成(包括重跑、回溯、上线调度),会启动监控规则的执行。

*规则强弱

提供强、弱两个配置选项。

  • 当选择时,需设置熔断方式。关联任务执行完成之后会进入强规则运行阶段,由熔断方式决定下游任务运行情况。
  • 当选择时,关联任务执行完成之后会进入弱规则运行阶段,如果发现关联任务质量异常,则该规则发送报警通知,但不会阻塞下游任务运行。

说明

执行方式选择关联任务时,需设置该参数。

*熔断方式

如果是强规则,可选择以下两种熔断方式:

  • 在规则运行完成之前,Dorado实例将一直处于运行中状态:是指在质量规则运行完成之前,关联任务实例一直处于运行中,期间若触发强规则告警,则关联任务实例状态置为失败,阻塞下游任务运行;若未触发告警,则关联任务实例置为成功,并触发下游任务运行。
  • 若规则运行超过x分钟仍未结束,直接置Dorado实例为成功:是指质量规则运行超过设定时间,关联任务实例状态会直接置为成功,但规则仍继续运行,可以触发告警通知。此时,下游任务仍被触发运行,但可能存在数据质量污染风险,需要及时关注监控结果。超时时间可自行设定,取值范围为0~200。

*执行频率

任务监控规则执行频率,提供分钟级、小时级、天级三个选项。
执行方式选择定时调度时,需设置该参数。

*执行时间

根据执行频率,设置具体的执行时间。
执行方式选择定时调度时,需设置该参数。

报警设置

*报警方式

支持邮箱、Webhook 和飞书的告警方式,下拉可选。

说明

配置相应的飞书报警机器人后,才会显示飞书选项。报警机器人由您自行创建并配置,相关操作说明请参见报警接收渠道配置

*hookUrl

Webhook 请求地址,以 http 或 https 开头。 从下拉列表中选择 http 或 https,填写 Webhook URL 地址。欲了解详细的配置说明,请参见Webhook使用说明

说明

  • 报警方式选择 Webhook 时,需设置该参数。
  • 选择webhook后,通知消息将主动推送至对应hookUrl中。

*报警接收

接收报警的用户、飞书群。

  • 报警方式选择邮箱Webhook 时,需选择接收报警的用户。
    • 用户:输入用户账号关键词后,在下拉列表中选择,支持设置多个。
  • 报警方式选择飞书时,需设置接收报警消息的用户或您所加入的飞书群。
    • 用户:报警消息将发送至用户名对应的飞书中。
      输入用户账号关键词后,在下拉列表中选择,支持设置多个。
    • 飞书群:报警消息将发送至飞书群ID对应的飞书群中。
      可通过下拉列表中的获取群ID按钮,查看要输入的飞书群ID。

    说明

    满足以下两个条件,才可接收飞书消息。

    • 已配置相应的飞书消息通知机器人信息,相关配置操作请参见报警接收渠道配置
    • 目标用户为通过飞书账号登录后创建的用户。

管理规则

对已创建监控规则的监控对象,可进行相应的管理操作,步骤如下:

  1. 单击双数据源校验页签,进入双数据源校验页面。
    Image
  2. 可执行以下操作:
    • 设置搜索信息,搜索符合条件的监控对象。
    • 单击某条规则名称操作列的试跑按钮,在弹出的窗口中,设置试跑时间,可以开启新的试跑。
    • 单击某条规则名称操作列的开启/关闭按钮,在弹出的确认对话框中,单击确定按钮,可以开启/关闭该规则。
    • 单击某条规则名称操作列的编辑按钮,在编辑规则页面中,可以修改其规则信息。
    • 单击某条规则名称操作列的 ... > 删除按钮,在弹出的确认对话框中,单击确定按钮,可以删除该规则。
    • 单击某条规则名称操作列的 ... > 分享链接按钮,可以复制相应对象的链接。
    • 单击某条规则名称操作列的 ... > 复制按钮,在复制规则页面,可以编辑已复制的规则信息。
    • 单击某条规则名称操作列的 ... > 查看7天结果按钮,跳转到监控结果页面,查看截止到操作当天的7天监控结果。
    • 单击某条规则名称操作列的 ... > 转让owner 按钮,在弹出的窗口中,可以选择将规则转让给新的owner。
    • 勾选一条或多条规则后,单击对应的按钮,执行批量操作。

后续操作

规则运行后,您可到运行结果页面查看该规则的运行结果,查看报警情况,查找并分析问题。管理规则运行结果的相关操作说明请参见管理双数据源校验监控结果

最近更新时间:2025.10.11 16:46:02
这个页面对您有帮助吗?
有用
有用
无用
无用