You need to enable JavaScript to run this app.
导航
全量探查
最近更新时间:2024.04.30 17:00:24首次发布时间:2021.08.13 15:07:15

在使用数据过程中,您可利用数据探查功能,对一张数据表进行全量探查,一键生成探查报告,展示探查后列的统计分布结果,如下:

  • 各个字段空值、0值的占比。
  • 唯一键重复情况。
  • 一些重要字段的枚举值、均值、分位数等分布的情况。

探查作为所有数据工作的基础,可帮助您了解数据全貌、发现潜在问题、理解数据分布,从而更好的使用数据。

1 前提条件

已具备数据表的读取权限,才可对其进行探查。申请权限的相关操作说明请参见权限申请

2 创建探查

  1. 登录 DataLeap 控制台。

  2. 选择数据质量 > 数据探查 > 创建探查,进入创建探查页面。
    图片

  3. 设置探查信息。

    1. 选择探查对象。
      选择您需要探查的数据源,包含引擎、库、表及探查分区等信息。
    2. 设置探查指标。
    3. 设置高级参数。
      创建探查的相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    选择探查对象

    *数据源类型

    探查对象的数据源类型,支持 HiveByteHouse 企业版两个选项,下拉可选。

    *引擎

    要使用的引擎实例,提供 EMRLAS 两种引擎选项,下拉可选。

    • 当选择 EMR 时,可从下拉列表中选择一个已创建的实例。
    • 当选择 LAS 时,实例默认为 default

    数据源类型选择 Hive 时,需设置该参数。

    说明

    EMR支持快捷模式和安全模式两类集群,集群访问模式的相关配置说明请参见绑定 EMR 集群

    • 快捷模式:选择监控对象时不会进行鉴权,可选择监控集群下所有数据表。
    • 安全模式:选择监控对象时会进行数据鉴权,若无该表的读取权限,则无法创建相应的监控规则。

    *数据源/引擎

    要使用的数据源/引擎,下拉可选 BHCE 引擎及一个已创建的引擎实例。
    数据源类型选择 Bytehouse 企业版时,需设置该参数。

    *库名

    要探查的数据库名称,下拉可选已创建的数据库。

    *表名

    所选数据库下要探查的数据表名称,下拉可选已创建的数据表。

    负责人

    数据表的负责人,选择表名后自动显示。

    *探查分区

    数据表的分区字段,选择表名后自动显示。
    一级分区必填,可通过以下方式设置:

    • 输入设置,分区取值无需填写引号。
      例如,可填写date=20201016/hour=10/app=数据质量,无需填写date='20201016'/hour='10'/app='数据质量'。
    • 从下拉列表中选择推荐的分区表达式,并可根据需要进行编辑。

    说明

    仅 Hive 类型的表展示该参数。

    探查设置

    主键重复值

    若需要探查,则需要指定主键,可选择多个。

    字段探查

    包含各字段NULL值、0值、数值分布、枚举值等指标。可以在详细设置中进行更改,未勾选的探查项不会展示在探查报告中。

    • NULL值:默认对所有字段探查NULL值。
    • 0值:默认对所有数值类字段探查0值。
    • 枚举值:默认对所有字段探查枚举值,若无需求,可移除勾选。
    • 数值分布:默认对所有数值类字段探查数值分布,包含Min/Max/Mean/Sum/分位数/标准差。
    • 空字符串:默认对所有字段探查没有字符的字符串"",若无需求,可移除勾选。

    高级参数设置

    描述

    支持对探查报告进行简单描述,方便探查报告的浏览者理解探查信息。

    运行参数

    支持Set高级参数,便于调控探查运行状况。

    过滤条件

    支持输入语法逻辑与 SQL 一致的条件语句,如type=‘***’,无需输入‘where’。

  4. 点击确定按钮,完成创建,进入探查结果页面。

说明

通过探查结果页面的新建探查按钮,也可创建新的探查。

3 创建定期探查

对于需要经常查看数据的表,可以通过配置定期探查来自动更新探查报告,从而减少报告查看的等待时间。

  1. 登录 DataLeap 控制台。

  2. 选择数据质量 > 数据探查 > 创建定期探查,进入创建定期探查页面。
    图片

  3. 设置探查信息后,单击确定按钮,完成定期探查创建。
    创建定期探查的相关参数说明如下表所示。

    参数

    说明

    选择探查对象

    *数据源类型

    探查对象的数据源类型,支持 HiveByteHouse 企业版两个选项,下拉可选。

    *引擎

    要使用的引擎实例,提供 EMRLAS 两种引擎选项,下拉可选。

    • 当选择 EMR 时,可从下拉列表中选择一个已创建的实例。
    • 当选择 LAS 时,实例默认为 default

    数据源类型选择 Hive 时,需设置该参数。

    说明

    EMR支持快捷模式和安全模式两类集群,集群访问模式的相关配置说明请参见绑定 EMR 集群

    • 快捷模式:选择监控对象时不会进行鉴权,可选择监控集群下所有数据表。
    • 安全模式:选择监控对象时会进行数据鉴权,若无该表的读取权限,则无法创建相应的监控规则。

    *数据源/引擎

    要使用的数据源/引擎,下拉可选 BHCE 引擎及一个已创建的引擎实例。
    数据源类型选择 Bytehouse 企业版时,需设置该参数。

    *库名

    要探查的数据库名称,下拉可选已创建的数据库。

    *表名

    所选数据库下要探查的数据表名称,下拉可选已创建的数据表,支持选择多个。

    *探查分区

    数据表的分区字段,选择表名后自动显示。
    一级分区必填,可通过以下方式设置:

    • 输入设置,分区取值无需填写引号。
      例如,可填写date=20201016/hour=10/app=数据质量,无需填写date='20201016'/hour='10'/app='数据质量'。
    • 从下拉列表中选择推荐的分区表达式,并可根据需要进行编辑。

    说明

    • 当选择多个表名时,有相同分区名称的表会显示在同一行,并进行统一配置。
    • 仅 Hive 类型的表展示该参数。

    探查设置

    主键重复值

    若需要探查,则需要指定主键,可选择多个。

    字段探查

    包含各字段NULL值、0值、数值分布、枚举值等指标。可以在详细设置中进行更改,未勾选的探查项不会展示在探查报告中。

    • NULL值:默认对所有字段探查NULL值。
    • 0值:默认对所有数值类字段探查0值。
    • 枚举值:默认对所有字段探查枚举值,若无需求,可移除勾选。
    • 数值分布:默认对所有数值类字段探查数值分布,包含Min/Max/Mean/Sum/分位数/标准差。
    • 空字符串:默认对所有字段探查没有字符的字符串"",若无需求,可移除勾选。

    说明

    默认探查所有字段,不支持筛选字段。

    定时执行设置

    *执行方式

    定期探查的执行方式,仅支持定时调度选项,即按照设定的调度时间定期探查。

    *执行频率

    定期探查的执行频率,仅支持天级选项。

    *执行时间

    定期探查的执行时间,仅支持设置为北京时间的每天 X 点,精确到分钟。

    高级参数设置

    描述

    支持对探查报告进行简单描述,方便探查报告的浏览者理解探查信息。

    运行参数

    支持Set高级参数,便于调控探查运行状况。

    过滤条件

    支持输入语法逻辑与 SQL 一致的条件语句,如type=‘***’,无需输入‘where’。

说明

  • 一个数据表只能配置一个定期探查,可以多次配置,但每次配置后会覆盖前一次的配置。
  • 通过探查结果页面的新建定期探查按钮,也可创建新的定期探查。

4 管理探查结果

数据探查创建成功后,可以执行查看探查报告、搜索探查结果、查看运行日志等操作,步骤如下:

  1. 登录 DataLeap 控制台。
  2. 选择数据质量 > 数据探查 > 探查结果,进入探查结果页面。
  3. 在数据源类型和对应引擎下拉列表中,选择要查看的引擎和对应的实例。
  4. 点击探查结果列表前的折叠图标或点击全部展开按钮,展开列表信息。
    图片
  5. 可执行以下操作:
    • 设置搜索信息,快速查找符合条件的探查结果列表。
    • 管理定期探查
      • 单击列表中某条数据操作列的编辑定时探查按钮,可以编辑该数据的定期探查信息。
      • 勾选一条或多条数据后,单击关闭定期探查按钮,二次确认后可以批量关闭定期探查。
      • 勾选一条或多条数据后,单击开启定期探查按钮,二次确认后可以批量开启定期探查。

      说明

      相关数据创建定期探查后,才可执行以上管理操作。

    • 点击列表中某条探查信息操作列的探查报告按钮,进入探查报告页面,查看数据探查结果。
      内容包括该分区的表行数、字段数、表大小、存储格式、填写的探查描述信息等,并统计字段探查信息的总结。字段详情如下:
      • NULL值:统计该字段中,出现NULL的个数和占比。
      • 0值:统计该字段中,出现0的个数和占比。仅支持数值类字段。
      • 枚举值:统计该字段中的枚举值,按占比从大到小排序。点击更多按钮,可查看所有枚举值,最多展示前100个。
      • 数值统计:统计该字段中分位数、均值、标准差、SUM,统计前会过滤掉NULL值。其中,分位数可选择 查看10% - 90%分位数查看25%/50%/75%分位数。仅支持数值类字段。
        图片

      说明

      • 创建的数据探查运行成功后,才可以查看探查报告。
      • 当探查报告中表行数为 0 时,字段详情无相关数据可展示,建议您重新探查或检查表数据情况。
    • 点击列表中某条探查信息操作列的分享按钮,可以复制该报告地址,并分享给他人。
    • 点击列表中某条探查信息操作列的复制按钮,可以复制并修改其探查信息,快速创建新的探查。
    • 点击列表中某条探查信息操作列的 ... > 运行日志按钮,可以查看该探查的运行日志。
    • 点击列表中某条运行中的探查信息操作列的 ... > 终止按钮,可以终止该探查。
    • 点击列表中某条探查信息操作列的 ... > 重跑按钮,可以重跑该探查任务。