最近更新时间:2023.03.27 11:09:50
首次发布时间:2021.08.13 15:07:15
在使用数据过程中,您可利用数据探查功能,对一张数据表进行全量探查,一键生成探查报告,展示探查后列的统计分布结果,如下:
各个字段空值、0值的占比。
唯一键重复情况。
一些重要字段的枚举值、均值、分位数等分布的情况。
探查作为所有数据工作的基础,可帮助您了解数据全貌、发现潜在问题、理解数据分布,从而更好的使用数据。
已具备数据表的读取权限,才可对其进行探查。申请权限的相关操作说明请参见权限申请。
登录 DataLeap 控制台。
选择数据质量 > 数据探查 > 创建探查,进入创建探查页面。
设置探查信息。
选择探查对象。
选择您需要探查的数据源,包含引擎、库、表及探查分区等信息。
设置探查指标。
设置高级参数。
创建探查的相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
---|---|
选择探查对象 | |
*引擎 | 提供 EMR 和 LAS 两种引擎选项。
|
*库名 | 要探查的数据库名称,下拉可选已创建的数据库。 |
*表名 | 所选数据库下要探查的数据表名称,下拉可选已创建的数据表。 |
负责人 | 数据表的负责人,选择表名后自动显示。 |
*探查分区 | 数据表的分区字段,选择表名后自动显示。
|
探查设置 | |
主键重复值 | 若需要探查,则需要指定主键,可选择多个。 |
字段探查 | 包含各字段NULL值、0值、数值分布、枚举值等指标。可以在详细设置中进行更改,未勾选的探查项不会展示在探查报告中。
|
高级参数设置 | |
描述 | 支持对探查报告进行简单描述,方便探查报告的浏览者理解探查信息。 |
运行参数 | 支持Set高级参数,便于调控探查运行状况。 |
过滤条件 | 支持输入语法逻辑与 SQL 一致的条件语句,如type=‘***’,无需输入‘where’。 |
点击确定按钮,完成创建,进入探查结果页面。
说明
通过探查结果页面的新建探查按钮,也可创建新的探查。
对于需要经常查看数据的表,可以通过配置定期探查来自动更新探查报告,从而减少报告查看的等待时间。
登录 DataLeap 控制台。
选择数据质量 > 数据探查 > 创建定期探查,进入创建定期探查页面。
设置探查信息后,单击确定按钮,完成定期探查创建。
创建定期探查的相关参数说明如下表所示。
参数 | 说明 |
---|---|
选择探查对象 | |
*引擎 | 提供 EMR 和 LAS 两种引擎选项。
|
*库名 | 要探查的数据库名称,下拉可选已创建的数据库。 |
*表名 | 所选数据库下要探查的数据表名称,下拉可选已创建的数据表,支持选择多个。 |
*探查分区 | 数据表的分区字段,选择表名后自动显示。
说明 当选择多个表名时,有相同分区名称的表会显示在同一行,并进行统一配置。 |
探查设置 | |
字段探查 | 包含各字段NULL值、0值、数值分布、枚举值等指标。可以在详细设置中进行更改,未勾选的探查项不会展示在探查报告中。
说明 默认探查所有字段,不支持筛选字段。 |
定时执行设置 | |
执行方式 | 定期探查的执行方式,支持以下两个选项:
|
任务名称 | 要关联任务的名称。自动关联第一个推荐关联的任务,可输入任务名称关键词或任务 ID 后下拉选择。 |
执行频率 | 仅支持天级。 |
执行时间 | 定期探查的执行时间,仅支持设置为北京时间的每天 X 点,精确到分钟。 |
高级参数设置 | |
描述 | 支持对探查报告进行简单描述,方便探查报告的浏览者理解探查信息。 |
运行参数 | 支持Set高级参数,便于调控探查运行状况。 |
过滤条件 | 支持输入语法逻辑与 SQL 一致的条件语句,如type=‘***’,无需输入‘where’。 |
说明
一个数据表只能配置一个定期探查,可以多次配置,但每次配置后会覆盖前一次的配置。
通过探查结果页面的新建定期探查按钮,也可创建新的定期探查。
数据探查创建成功后,可以执行查看探查报告、搜索探查结果、查看运行日志等操作,步骤如下:
登录 DataLeap 控制台。
选择数据质量 > 数据探查 > 探查结果,进入探查结果页面。
在引擎下拉列表中,选择要查看的引擎和对应的实例。
点击探查结果列表前的折叠图标或点击全部展开按钮,展开列表信息。
可执行以下操作:
设置搜索信息,快速查找符合条件的探查结果列表。
管理定期探查
单击列表中某条数据操作列的编辑定时探查按钮,可以编辑该数据的定期探查信息。
勾选一条或多条数据后,单击关闭定期探查按钮,二次确认后可以批量关闭定期探查。
勾选一条或多条数据后,单击开启定期探查按钮,二次确认后可以批量开启定期探查。
说明
相关数据创建定期探查后,才可执行以上管理操作。
点击列表中某条探查信息操作列的探查报告按钮,进入探查报告页面,查看数据探查结果。
内容包括该分区的行数、字段数、表大小、存储格式、填写的探查描述信息等,并统计字段探查信息的总结。字段详情如下:
NULL值:统计该字段中,出现NULL的个数和占比。
0值:统计该字段中,出现0的个数和占比。仅支持数值类字段。
枚举值:统计该字段中的枚举值,按占比从大到小排序。点击更多按钮,可查看所有枚举值,最多展示前100个。
数值统计:统计该字段中分位数、均值、标准差、SUM,统计前会过滤掉NULL值。其中,分位数可选择 查看10% - 90%分位数 或 查看25%/50%/75%分位数。仅支持数值类字段。
说明
创建的数据探查运行成功后,才可以查看探查报告。
点击列表中某条探查信息操作列的分享按钮,可以复制该报告地址,并分享给他人。
点击列表中某条探查信息操作列的复制按钮,可以复制并修改其探查信息,快速创建新的探查。
点击列表中某条探查信息操作列的更多图标 > 运行日志按钮,可以查看该探查的运行日志。
点击列表中某条运行中的探查信息操作列的更多图标 > 终止按钮,可以终止该探查。
点击列表中某条探查信息操作列的更多图标 > 重跑按钮,可以重跑该探查任务。