You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

全量探查

最近更新时间2023.03.27 11:09:50

首次发布时间2021.08.13 15:07:15

在使用数据过程中,您可利用数据探查功能,对一张数据表进行全量探查,一键生成探查报告,展示探查后列的统计分布结果,如下:

  • 各个字段空值、0值的占比。

  • 唯一键重复情况。

  • 一些重要字段的枚举值、均值、分位数等分布的情况。

探查作为所有数据工作的基础,可帮助您了解数据全貌、发现潜在问题、理解数据分布,从而更好的使用数据。

1 前提条件

已具备数据表的读取权限,才可对其进行探查。申请权限的相关操作说明请参见权限申请

2 创建探查

  1. 登录 DataLeap 控制台。

  2. 选择数据质量 > 数据探查 > 创建探查,进入创建探查页面。

  3. 设置探查信息。

    1. 选择探查对象。

      选择您需要探查的数据源,包含引擎、库、表及探查分区等信息。

    2. 设置探查指标。

    3. 设置高级参数。

    创建探查的相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数说明
    选择探查对象

    *引擎

    提供 EMR 和 LAS 两种引擎选项。

    • 当选择 EMR 时,可从下拉列表中选择一个已创建的实例。

    • 当选择 LAS 时,实例默认为 default

    *库名要探查的数据库名称,下拉可选已创建的数据库。
    *表名所选数据库下要探查的数据表名称,下拉可选已创建的数据表。
    负责人数据表的负责人,选择表名后自动显示。

    *探查分区

    数据表的分区字段,选择表名后自动显示。
    一级分区必填,可通过以下方式设置:

    • 输入设置,分区取值无需填写引号。

      例如,可填写date=20201016/hour=10/app=数据质量,无需填写date='20201016'/hour='10'/app='数据质量'。

    • 从下拉列表中选择推荐的分区表达式,并可根据需要进行编辑。

    探查设置
    主键重复值若需要探查,则需要指定主键,可选择多个。

    字段探查

    包含各字段NULL值、0值、数值分布、枚举值等指标。可以在详细设置中进行更改,未勾选的探查项不会展示在探查报告中。

    • NULL值:默认对所有字段探查NULL值。

    • 0值:默认对所有数值类字段探查0值。

    • 枚举值:默认对所有字段探查枚举值,若无需求,可移除勾选。

    • 数值分布:默认对所有数值类字段探查数值分布,包含Min/Max/Mean/Sum/分位数/标准差。

    • 空字符串:默认对所有字段探查没有字符的字符串"",若无需求,可移除勾选。

    高级参数设置
    描述支持对探查报告进行简单描述,方便探查报告的浏览者理解探查信息。
    运行参数支持Set高级参数,便于调控探查运行状况。
    过滤条件支持输入语法逻辑与 SQL 一致的条件语句,如type=‘***’,无需输入‘where’。
  4. 点击确定按钮,完成创建,进入探查结果页面。

说明

通过探查结果页面的新建探查按钮,也可创建新的探查。

3 创建定期探查

对于需要经常查看数据的表,可以通过配置定期探查来自动更新探查报告,从而减少报告查看的等待时间。

  1. 登录 DataLeap 控制台。

  2. 选择数据质量 > 数据探查 > 创建定期探查,进入创建定期探查页面。

  3. 设置探查信息后,单击确定按钮,完成定期探查创建。

    创建定期探查的相关参数说明如下表所示。

    参数说明
    选择探查对象

    *引擎

    提供 EMR 和 LAS 两种引擎选项。

    • 当选择 EMR 时,可从下拉列表中选择一个已创建的实例。

    • 当选择 LAS 时,实例默认为 default

    *库名要探查的数据库名称,下拉可选已创建的数据库。
    *表名所选数据库下要探查的数据表名称,下拉可选已创建的数据表,支持选择多个。

    *探查分区

    数据表的分区字段,选择表名后自动显示。
    一级分区必填,可通过以下方式设置:

    • 输入设置,分区取值无需填写引号。

      例如,可填写date=20201016/hour=10/app=数据质量,无需填写date='20201016'/hour='10'/app='数据质量'。

    • 从下拉列表中选择推荐的分区表达式,并可根据需要进行编辑。

    说明

    当选择多个表名时,有相同分区名称的表会显示在同一行,并进行统一配置。

    探查设置

    字段探查

    包含各字段NULL值、0值、数值分布、枚举值等指标。可以在详细设置中进行更改,未勾选的探查项不会展示在探查报告中。

    • NULL值:默认对所有字段探查NULL值。

    • 0值:默认对所有数值类字段探查0值。

    • 枚举值:默认对所有字段探查枚举值,若无需求,可移除勾选。

    • 数值分布:默认对所有数值类字段探查数值分布,包含Min/Max/Mean/Sum/分位数/标准差。

    • 空字符串:默认对所有字段探查没有字符的字符串"",若无需求,可移除勾选。

    说明

    默认探查所有字段,不支持筛选字段。

    定时执行设置

    执行方式

    定期探查的执行方式,支持以下两个选项:

    • 关联任务:按照关联任务的执行周期定期探查。

    • 定时调度:按照设定的调度时间定期探查。

    任务名称

    要关联任务的名称。自动关联第一个推荐关联的任务,可输入任务名称关键词或任务 ID 后下拉选择。
    执行方式选择关联任务时,需设置该参数。

    执行频率

    仅支持天级。
    执行方式选择定时调度时,需设置该参数。

    执行时间

    定期探查的执行时间,仅支持设置为北京时间的每天 X 点,精确到分钟。
    执行方式选择定时调度时,需设置该参数。

    高级参数设置
    描述支持对探查报告进行简单描述,方便探查报告的浏览者理解探查信息。
    运行参数支持Set高级参数,便于调控探查运行状况。
    过滤条件支持输入语法逻辑与 SQL 一致的条件语句,如type=‘***’,无需输入‘where’。

说明

  • 一个数据表只能配置一个定期探查,可以多次配置,但每次配置后会覆盖前一次的配置。

  • 通过探查结果页面的新建定期探查按钮,也可创建新的定期探查。

4 管理探查结果

数据探查创建成功后,可以执行查看探查报告、搜索探查结果、查看运行日志等操作,步骤如下:

  1. 登录 DataLeap 控制台。

  2. 选择数据质量 > 数据探查 > 探查结果,进入探查结果页面。

  3. 引擎下拉列表中,选择要查看的引擎和对应的实例。

  4. 点击探查结果列表前的折叠图标或点击全部展开按钮,展开列表信息。

  5. 可执行以下操作:

    • 设置搜索信息,快速查找符合条件的探查结果列表。

    • 管理定期探查

      • 单击列表中某条数据操作列的编辑定时探查按钮,可以编辑该数据的定期探查信息。

      • 勾选一条或多条数据后,单击关闭定期探查按钮,二次确认后可以批量关闭定期探查。

      • 勾选一条或多条数据后,单击开启定期探查按钮,二次确认后可以批量开启定期探查。

      说明

      相关数据创建定期探查后,才可执行以上管理操作。

    • 点击列表中某条探查信息操作列的探查报告按钮,进入探查报告页面,查看数据探查结果。

      内容包括该分区的行数、字段数、表大小、存储格式、填写的探查描述信息等,并统计字段探查信息的总结。字段详情如下:

      • NULL值:统计该字段中,出现NULL的个数和占比。

      • 0值:统计该字段中,出现0的个数和占比。仅支持数值类字段。

      • 枚举值:统计该字段中的枚举值,按占比从大到小排序。点击更多按钮,可查看所有枚举值,最多展示前100个。

      • 数值统计:统计该字段中分位数、均值、标准差、SUM,统计前会过滤掉NULL值。其中,分位数可选择 查看10% - 90%分位数查看25%/50%/75%分位数。仅支持数值类字段。

      说明

      创建的数据探查运行成功后,才可以查看探查报告。

    • 点击列表中某条探查信息操作列的分享按钮,可以复制该报告地址,并分享给他人。

    • 点击列表中某条探查信息操作列的复制按钮,可以复制并修改其探查信息,快速创建新的探查。

    • 点击列表中某条探查信息操作列的更多图标 > 运行日志按钮,可以查看该探查的运行日志。

    • 点击列表中某条运行中的探查信息操作列的更多图标 > 终止按钮,可以终止该探查。

    • 点击列表中某条探查信息操作列的更多图标 > 重跑按钮,可以重跑该探查任务。