在使用数据过程中,您可利用数据探查功能,对一张数据表进行全量探查,一键生成探查报告,展示探查后列的统计分布结果,如下:
- 各个字段空值、0值的占比。
- 唯一键重复情况。
- 一些重要字段的枚举值、均值、分位数等分布的情况。
探查作为所有数据工作的基础,可帮助您了解数据全貌、发现潜在问题、理解数据分布,从而更好的使用数据。
前提条件
- 已创建支持类型的集群。注册集群的相关说明请参见集群管理。
- 已具备数据表的读取权限。申请权限的相关操作说明请参见申请权限。
创建探查
- 登录 DataLeap 控制台。
- 选择数据质量 > 数据探查 > 创建探查,进入创建探查页面。

- 设置探查信息后,单击确定按钮,完成创建,进入探查结果页面。
说明
通过探查结果页面的新建探查按钮,也可创建新的探查。
创建全量探查的相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
|---|
选择探查对象 |
*集群 | 要探查的数据库所属集群,支持 LAS、Apache Hadoop、MiniBase Hadoop、DWS、STARROCKS、GBASE8A 等类型选项,下拉可选已创建的相应集群。 |
*库名 | 要探查的数据库名称,下拉可选已创建的库。 |
*表名 | 所选数据库下要探查的数据表名称,下拉可选已创建的表。 |
负责人 | 数据表的负责人,选择表名后自动显示。 |
*探查分区 | 数据表的分区字段,选择表名后自动显示。
一级分区必填,可通过以下方式设置: - 输入设置,分区取值无需填写引号。
例如,可填写date=20201016/hour=10/app=数据质量,无需填写date='20201016'/hour='10'/app='数据质量'。 - 从下拉列表中选择推荐的分区表达式,并可根据需要进行编辑。
|
探查设置 |
主键重复值 | 若需要探查,则需要指定主键,可选择多个。 |
字段探查 | 包含各字段NULL值、0值、数值分布、枚举值等指标。默认全选,可以在详细设置中进行更改,未勾选的探查项不会展示在探查报告中。 - NULL值:默认对所有字段探查NULL值。
- 0值:默认对所有数值类字段探查0值。
- 枚举值:默认对所有字段探查枚举值,若无需求,可移除勾选。
- 数值分布:默认对所有数值类字段探查数值分布,包含Min/Max/Mean/Sum/分位数/标准差。
- 空字符串:默认对所有字段探查没有字符的字符串"" ,若无需求,可移除勾选。
|
执行引擎 | 仅提供Spark选项,默认选择。 说明 仅当集群选择Apache Hadoop、MiniBase Hadoop或LAS时,需设置该参数。 |
运行队列 | 规则使用的运行队列,下拉可选当前集群已绑定的队列。若未申请队列,请前往控制台资源管理进行申请。 说明 仅当集群选择Apache Hadoop、MiniBase Hadoop或LAS时,需设置该参数。 |
高级参数设置 |
描述 | 支持对探查报告进行简单描述,方便探查报告的浏览者理解探查信息。 |
运行参数 | 支持Set高级参数,便于调控探查运行状况。 |
过滤条件 | 支持输入语法逻辑与HSQL一致的条件语句,如type=‘***’,无需输入‘where’ |
管理探查结果
数据探查创建成功后,可以执行查看探查报告、搜索探查结果、查看运行日志等操作,步骤如下:
- 登录DataLeap控制台。
- 选择数据质量 > 数据探查 > 探查结果,进入探查结果页面。
- 在探查结果页面,单击探查结果列表前的折叠图标,展开列表信息。

- 可执行以下操作:
- 设置搜索信息,快速查找符合条件的探查结果列表。
- 单击某条运行成功的探查结果操作列的探查报告按钮,查看数据探查结果。
内容包括该分区的行数、字段数、表大小、存储格式、填写的探查描述信息等,并统计字段探查信息的总结。字段详情如下:
- NULL值:统计该字段中,出现NULL的个数和占比。
- 0值:统计该字段中,出现0值的个数和占比。仅支持数值类字段。
- 枚举值:统计该字段中的枚举值,按占比从大到小排序,最多展示前100个。
- 数值分布:统计该字段中分位数、均值、标准差、SUM,统计前会过滤掉NULL值。其中,分位数可选择查看10% - 90%分位数或查看25%/50%/75%分位数。仅支持数值类字段。
说明
创建的数据探查运行成功后,才可以查看探查报告。
- 单击列表中某条探查信息操作列的分享按钮,可以复制该报告地址,并分享给他人。
- 单击列表中某条探查信息操作列的复制按钮,可以复制并修改其探查信息,快速创建新的探查。
- 单击列表中某条探查信息操作列的 ... > 运行日志按钮,可以查看该探查的运行日志。
- 单击列表中某条运行中的探查信息操作列的 ... > 终止按钮,可以终止该探查。
- 单击列表中某条探查信息操作列的 ... > 重跑按钮,可以重跑该探查任务。