You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
数据探查
全量探查
复制全文
全量探查

在使用数据过程中,您可利用数据探查功能,对一张数据表进行全量探查,一键生成探查报告,展示探查后列的统计分布结果,如下:

  • 各个字段空值、0值的占比。
  • 唯一键重复情况。
  • 一些重要字段的枚举值、均值、分位数等分布的情况。

探查作为所有数据工作的基础,可帮助您了解数据全貌、发现潜在问题、理解数据分布,从而更好的使用数据。

前提条件

  • 已创建支持类型的集群。注册集群的相关说明请参见集群管理
  • 已具备数据表的读取权限。申请权限的相关操作说明请参见申请权限

创建探查

  1. 登录 DataLeap 控制台。
  2. 选择数据质量 > 数据探查 > 创建探查,进入创建探查页面。
    Image
  3. 设置探查信息后,单击确定按钮,完成创建,进入探查结果页面。

说明

通过探查结果页面的新建探查按钮,也可创建新的探查。

创建全量探查的相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

参数

说明

选择探查对象

*集群

要探查的数据库所属集群,支持 LAS、Apache Hadoop、MiniBase Hadoop、DWS、STARROCKS、GBASE8A 等类型选项,下拉可选已创建的相应集群。

*库名

要探查的数据库名称,下拉可选已创建的库。

*表名

所选数据库下要探查的数据表名称,下拉可选已创建的表。

负责人

数据表的负责人,选择表名后自动显示。

*探查分区

数据表的分区字段,选择表名后自动显示。
一级分区必填,可通过以下方式设置:

  • 输入设置,分区取值无需填写引号。
    例如,可填写date=20201016/hour=10/app=数据质量,无需填写date='20201016'/hour='10'/app='数据质量'。
  • 从下拉列表中选择推荐的分区表达式,并可根据需要进行编辑。

探查设置

主键重复值

若需要探查,则需要指定主键,可选择多个。

字段探查

包含各字段NULL值、0值、数值分布、枚举值等指标。默认全选,可以在详细设置中进行更改,未勾选的探查项不会展示在探查报告中。

  • NULL值:默认对所有字段探查NULL值。
  • 0值:默认对所有数值类字段探查0值。
  • 枚举值:默认对所有字段探查枚举值,若无需求,可移除勾选。
  • 数值分布:默认对所有数值类字段探查数值分布,包含Min/Max/Mean/Sum/分位数/标准差。
  • 空字符串:默认对所有字段探查没有字符的字符串"" ,若无需求,可移除勾选。

执行引擎

仅提供Spark选项,默认选择。

说明

仅当集群选择Apache Hadoop、MiniBase HadoopLAS时,需设置该参数。

运行队列

规则使用的运行队列,下拉可选当前集群已绑定的队列。若未申请队列,请前往控制台资源管理进行申请。

说明

仅当集群选择Apache Hadoop、MiniBase HadoopLAS时,需设置该参数。

高级参数设置

描述

支持对探查报告进行简单描述,方便探查报告的浏览者理解探查信息。

运行参数

支持Set高级参数,便于调控探查运行状况。

过滤条件

支持输入语法逻辑与HSQL一致的条件语句,如type=‘***’,无需输入‘where’

管理探查结果

数据探查创建成功后,可以执行查看探查报告、搜索探查结果、查看运行日志等操作,步骤如下:

  1. 登录DataLeap控制台。
  2. 选择数据质量 > 数据探查 > 探查结果,进入探查结果页面。
  3. 在探查结果页面,单击探查结果列表前的折叠图标,展开列表信息。
    Image
  4. 可执行以下操作:
    • 设置搜索信息,快速查找符合条件的探查结果列表。
    • 单击某条运行成功的探查结果操作列的探查报告按钮,查看数据探查结果。
      内容包括该分区的行数、字段数、表大小、存储格式、填写的探查描述信息等,并统计字段探查信息的总结。字段详情如下:
      • NULL值:统计该字段中,出现NULL的个数和占比。
      • 0值:统计该字段中,出现0值的个数和占比。仅支持数值类字段。
      • 枚举值:统计该字段中的枚举值,按占比从大到小排序,最多展示前100个。
      • 数值分布:统计该字段中分位数、均值、标准差、SUM,统计前会过滤掉NULL值。其中,分位数可选择查看10% - 90%分位数查看25%/50%/75%分位数。仅支持数值类字段。

      说明

      创建的数据探查运行成功后,才可以查看探查报告。

    • 单击列表中某条探查信息操作列的分享按钮,可以复制该报告地址,并分享给他人。
    • 单击列表中某条探查信息操作列的复制按钮,可以复制并修改其探查信息,快速创建新的探查。
    • 单击列表中某条探查信息操作列的 ... > 运行日志按钮,可以查看该探查的运行日志。
    • 单击列表中某条运行中的探查信息操作列的 ... > 终止按钮,可以终止该探查。
    • 单击列表中某条探查信息操作列的 ... > 重跑按钮,可以重跑该探查任务。
最近更新时间:2025.12.04 17:51:11
这个页面对您有帮助吗?
有用
有用
无用
无用