最近更新时间:2024.02.07 15:45:14
首次发布时间:2022.09.13 20:02:15
动态探查提供全局数据视角、完善的抽样策略裁剪数据,将数据缩小在一定的范围内,从而提高响应速率。
动态探查基于抽样的部分数据进行探查,展示字段明细以及字段的 0 值、Null 值、枚举值等探查信息,并支持通过过滤、group by等操作分析数据质量问题,实时展示统计分布结果。
当前动态探查支持的主要使用场景如下:
已具备数据表的读取权限,才可对其进行探查。申请权限的相关操作说明请参见权限申请。
登录 DataLeap 控制台。
选择数据质量 > 数据探查 > 动态探查,进入动态探查页面。
设置探查信息。
参数 | 说明 |
---|---|
选择探查对象 | |
*数据源类型 | 探查对象的数据源类型,支持 Hive、ByteHouse 企业版两个选项,下拉可选。 |
*引擎 | 要使用的引擎实例,提供 EMR 和 LAS 两种引擎选项,下拉可选。
当数据源类型选择 Hive 时,需设置该参数。 说明 EMR支持快捷模式和安全模式两类集群,集群访问模式的相关配置说明请参见绑定 EMR 集群。
|
*数据源/引擎 | 要使用的数据源/引擎,下拉可选 BHCE 引擎及一个已创建的引擎实例。 |
*库名 | 要探查的数据库名称,下拉可选已创建的数据库。 |
*表名 | 所选数据库下要探查的数据表名称,下拉可选已创建的数据表。 |
负责人 | 数据表的负责人,选择表名后自动显示。 |
*探查分区 | 数据表的分区字段,选择表名后自动显示。 说明 仅 Hive 类型的表展示该参数。 |
探查设置 | |
*抽样方式 | 提供连续抽样、过滤抽样和随机抽样三个选项。
|
*抽样条件 | 抽样的筛选条件。使用where过滤语句进行过滤。 |
*抽样条数 | 抽样的数量,仅可设置为正整数,最大支持5000条。 说明 探查将消耗一定计算资源,若数量较大,探查运行时间将会变长。 |
探查字段选择 | 要探查的表字段,默认全选,可通过详细设置按钮编辑。 |
单击确定按钮,进入抽样探查结果页面,可查看抽样条数的快速探查结果。
内容包括预览对象、行列数、操作步骤数等信息,并展示探查信息和数据列表。
还可对探查结果执行以下操作:
说明
仅 Hive 类型的数据表支持该功能。
参数 | 说明 |
---|---|
过滤 | |
过滤方式 | 目前仅支持过滤模板。
|
Group By | |
Group By | 要分组的列字段,下拉可选,支持多选。 |
展示方式 | 提供新生成表格和作为新列两个选项。
|
列删除 | |
字段名称 | 要删除的列字段,下拉可选,支持多选。 |
列排序 | |
排序规则 | 选择字段,设置其升降序排序规则。 |