最近更新时间:2024.03.20 10:55:16
首次发布时间:2021.08.13 15:07:15
在数据发生变动的时候,如更改数据 Schema、变更数据源等,需要对变更前后的数据进行对比,通过量化评估两份数据的差异,来避免变更导致的数据变化影响数据下游正常使用的情况发生。
通过数据对比功能,对新旧数据表到字段级进行差异量化对比,精确衡量数据变动的影响,为数据责任人提供参考依据。
产品提供了以下两种模式进行对比。
新建数据对比的步骤如下:
注意
若唯一键重复,可能导致校验报告数据不可信,请提前检验主键唯一性的数据质量。
说明
该设置仅对两份数据中,唯一键匹配上的数据进行计算。如果匹配上的数量为0,则不会进行计算,报告中也不会展示 Diff 明细。
创建数据对比的相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
---|---|
*选择对比模式 | 提供表和SQL两种对比模式选项。
|
*引擎 | 要使用的引擎实例,提供 EMR 和 LAS 两种引擎选项。
说明 EMR支持快捷模式和安全模式两类集群,集群访问模式的相关配置说明请参见绑定 EMR 集群。
|
表模式 | |
*库名 | 所选引擎下要对比的数据库名称,下拉可选已创建的数据库。 |
*表名 | 所选数据库下要对比的数据表名称,下拉可选已创建的数据表。 |
表负责人 | 数据表的负责人,选择表名后自动显示。 |
*分区信息 | 数据表的分区字段,选择表名后自动显示。 |
其他过滤条件 | 根据需要增加过滤条件。 |
*唯一键 | 用于两表匹配,表对比默认从数据地图上获取唯一键信息,可以更改。 注意 当主键出现重复值时,会影响对比报告结果。 |
*字段 | 两表对应的校验字段,自动填充,B 表可编辑。 |
*Diff逻辑 | Diff 逻辑支持以下两种计算方式,设置时需至少选择一种。
|
是否查询Diff明细 | 可选择是否查询 Diff 明细。 注意 该查询会额外消耗计算资源,勾选重要字段即可。 |
SQL模式 | |
SQL 别名 | 自行设置的两表的 SQL 别名,便于后续快速理解对比报告。 |
*SQL 语句 | 使用SQL语句对比两个表的数据,按需手动输入。 |
*对比字段 | 解析输入的 SQL 语句后,自动填充,可按需编辑。 |
运行设置 | |
*执行方式 | 数据对比采取的执行方式,支持立即执行、定时调度和关联任务三种方式。
|
*执行频率 | 数据对比的执行频率,仅支持天级。 |
*执行时间 | 数据对比的执行时间,仅支持北京时间 每天的某个时间点,可自行设定。 |
*任务名称 | 要关联任务的名称,可通过任务名称关键词或ID进行搜索选择。 |
*运行队列 | 规则使用的运行队列,支持使用默认队列、自行指定队列两个选项。
当引擎选择 LAS 时,需设置该参数。 |
运行参数 | SQL 语句前的运行参数,如“set 参数名 1=取值;”,按需配置。 |
报警配置(可选择是否开启报警配置,开启后则需配置以下参数。) | |
*报警条件 | 可通过新增SQL字段按钮增加报警项,每项包括字段名称和报警条件两部分内容。
|
*报警渠道 | 仅支持邮箱告警方式。 |
*报警对象 | 接收报警信息的用户或值班计划接收人。
说明 可通过查看值班计划按钮,查看值班计划列表及值班设置是否符合预期,并支持添加新值班计划,相关操作说明请参见值班管理。 |
数据对比创建成功后,可以执行查看对比报告、搜索对比结果、查看运行日志等操作,步骤如下:
说明
创建的数据对比运行成功后,才可以查看对比报告。
若新建对比采用的执行方式是定时对比,则会生成定时对比任务,您可通过本功能对其进行相应管理,操作如下: