在数据发生变动的时候,如更改数据Schema、变更数据源等,需要对变更前后的数据进行对比,通过量化评估两份数据的差异,来避免变更导致的数据变化影响数据下游正常使用的情况发生。
通过数据对比功能,对新旧数据表到字段级进行差异量化对比,精确衡量数据变动的影响,为数据责任人提供参考依据。
产品提供了以下两种模式进行对比。
- 表:对比的对象为两张已持久化到相应引擎类型的 A 表和 B 表。
- SQL:对比的对象为两段 SQL 产出的虚拟数据集,该数据尚未持久化到相应表中。
相比表对比,SQL 对比具有以下优势:
- 如果需要对比多个日期分区,可以在 SQL 中直接查询出某一段日期分区下的数据进行对比,而表对比仅可选择一个固定分区。
- 对比的数据在原表基础上,需要进行一些过滤、聚合、Join 等,更适合用 SQL 对比。
- 有些需要更改表结构的数据变动(如增加字段、更改字段类型等),由于可以先对比数据结果,再进行变更,用 SQL 对比更方便。