You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
数据对比
新建对比
复制全文
新建对比

前提条件

  • 已创建支持类型的集群。注册集群的相关说明请参见集群管理
  • 已具备数据表的读取权限。申请权限的相关操作说明请参见申请权限

操作步骤

  1. 登录DataLeap控制台。
  2. 选择数据质量 > 数据对比,进入数据对比页面。
    Image
  3. 单击新建对比按钮,进入新建数据对比页面。
  4. 设置对比信息。
    1. 选择对比模式,并选择设置对比的两表。
    2. 选择校验的内容。
      1. 指定两份数据对比的唯一键。

        注意

        当主键出现重复值时,会影响对比报告结果,需提前检验主键唯一性的数据质量。

      2. 选择要校验的字段,并对其设置 Diff 逻辑。

        说明

        该设置仅对唯一键匹配上的数据进行计算。如果匹配上的数量为0,则不会进行计算,报告中也不会展示 Diff 明细。

      3. 根据需要,可设置运行参数。
  5. 单击提交按钮,完成新建对比。

相关数据对比参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

参数

说明

选择对比模式

对比的对象为两张已持久化到相应引擎类型的 A 表和 B 表。

SQL

对比的对象为两段 SQL 产出的虚拟数据集,该数据尚未持久化到相应表中。

*引擎

已支持引擎类型 LAS、Apache Hadoop、MiniBase Hadoop、DWS、STARROCKS,下拉可选所需引擎及已注册的相应集群。

说明

LAS、Apache Hadoop、DWS、STARROCKS支持快捷模式和安全模式两类集群,MiniBase Hadoop仅支持安全模式集群。

  • 快捷模式:选择数据表时不会进行鉴权,可选择集群下所有数据表进行对比。
  • 安全模式:选择数据表时会进行数据鉴权,若无该表的读取权限,则无法创建相应的对比。

表模式

*库名

所选引擎下要对比的数据库名称,下拉可选。

*表名

所选数据库下要对比的数据表名称,下拉可选。

表负责人

选择数据表后自动显示。

*分区信息

选择数据表后自动显示,可编辑。
分区取值无需填写引号。例如,可填写date=20201016/hour=10/app=数据质量,无需填写date='20201016'/hour='10'/app='数据质量'。

说明

  • 当数据表为分区表时,选择表名后才显示该参数。
  • 当存在多个分区时,需至少选中一个分区名称,且对应分区表达式不能为空。

其他过滤条件

根据需要增加过滤条件。

*唯一键

用于两表匹配,表对比默认从数据地图上获取唯一键信息,可以更改。

说明

当主键出现重复值时,会影响对比报告结果。

*字段

两表对应的校验字段。 A表自动填充,B表可编辑,设置时至少选择一行字段。

*Diff逻辑

Diff 逻辑支持以下两种计算方式:

  • 等值匹配:新旧两字段中不相等的取值行数,占旧表总行数的百分比,越小意味着 Diff 越小。计算方式:count(A!=B)/count(A)
  • 差值绝对值:新旧两字段数值差值的绝对值求和,占旧表字段求和的百分比,越小意味着 Diff 越小。计算方式:SUM(|A-B|)/SUM(A) 设置时至少选择一种Diff计算方式。

是否查询Diff明细

可选择是否查询Diff明细。 勾选后,若该字段出现Diff,系统会提供Diff数据明细。

注意

该查询会额外消耗计算资源,勾选重要字段即可。

*执行方式

仅支持立即执行,即提交后立刻执行,仅执行一次。默认选中。

*运行队列

数据对比使用的引擎运行队列,下拉可选当前所选集群下已添加的队列。若未申请队列,请前往控制台资源管理处申请。
仅选择 LASApache HadoopMiniBase Hadoop 引擎时,需设置该参数。

运行参数

SQL语句前的运行参数,如“set 参数名1=取值;”,按需配置。

SQL模式

SQL别名

自行设置的两表的SQL别名,便于后续快速理解对比报告。

*对比字段

解析输入的SQL语句后,自动填充,可按需编辑。 相关参数说明,可参见“表模式”。

说明

目前SQL语句暂不支持 map、arrary[double]、struct 三种类型数据的对比。

*执行方式

仅支持立即执行,即提交后立刻执行,仅执行一次。默认选中。

*运行队列

数据对比使用的引擎运行队列,下拉可选当前所选集群下已添加的队列。若未申请队列,请前往控制台资源管理处申请。
仅选择 LASApache HadoopMiniBase Hadoop 引擎时,需设置该参数。

运行参数

SQL语句前的运行参数,如“set 参数名1=取值;”,按需配置。

最近更新时间:2025.03.18 10:53:36
这个页面对您有帮助吗?
有用
有用
无用
无用