DataWind 支持对数据源数据进行筛选,仅保留符合条件部分数据。本文将为您介绍如何对数据集进行数据筛选。
支持对数据集模型配置前及配置后的数据进行筛选,配置数据筛选后,数据集内将只会同步满足筛选条件的数据。
数据筛选类别 | 筛选对象 | 支持模式 | 使用场景 |
|---|---|---|---|
模型配置前 | 对join或union前的单表字段进行筛选 | 直连和抽取 | 当原始单表数据中存在大量与业务无关的冗余信息时,可在进行多表关联或合并前,先对单表进行筛选。这样能减少后续关联操作的数据量,提升模型配置效率,同时避免无关数据对后续分析的干扰。 |
模型配置后 | 对join或union后产生的数据模型进行筛选(支持对跨数据源非聚合表达式结果的筛选) | 仅抽取 | 完成模型配置后的数据集,数据量非常大,但是实际业务不需要全量的数据,此时可通过数据筛选筛选出需要的数据,缩减数据量,提高查询性能,节省存储空间。 |
数据筛选功能支持在新建数据集时设置,也支持在对已有数据集进行编辑时设置。
直连模式:
模型配置前 | 模型配置后 | |
|---|---|---|
新建数据集 | 新建数据集,进入模型配置页面,将所需数据表拖拽至右侧画布中,点击该数据表,即可在下方的配置区域看到「数据筛选」功能。 | 直连模式下,不支持对模型配置后的数据进行筛选。 说明 直连模式不存储模型配置后的中间数据,而抽取模式通过本地存储中间结果,因此仅抽取模式支持此类筛选。 |
已有数据集 | 编辑数据集,进入模型配置页面,点击任一需要进行筛选的数据表,即可在下方的配置区域看到「数据筛选」功能。 | 直连模式下,不支持对模型配置后的数据进行筛选。 说明 直连模式不存储模型配置后的中间数据,而抽取模式通过本地存储中间结果,因此仅抽取模式支持此类筛选。 |
抽取模式:
模型配置前 | 模型配置后 | |
|---|---|---|
新建数据集 | 新建数据集,进入模型配置页面,将所需数据表拖拽至右侧画布中,点击该数据表,即可在下方的配置区域看到「数据筛选」功能。 | 新建数据集,进入模型配置页面,完成模型配置操作后,点击右上角的「数据筛选」图标,即可在弹出的数据筛选配置弹窗中进行筛选条件配置。 |
已有数据集 | 编辑数据集,进入模型配置页面,点击任一需要进行筛选的数据表,即可在下方的配置区域看到「数据筛选」功能。 | 编辑数据集,进入模型配置页面,完成模型配置修改操作后,点击右上角的「数据筛选」图标,即可在弹出的数据筛选配置弹窗中进行筛选条件配置。 |
模型配置前的筛选为针对单个数据表的数据筛选。
直连模式:仅支持单表的「字段筛选」,且多个条件之间仅支持「且」的关系。每个条件包含字段、操作符、值,例如:一级渠道 = 营销活动。
抽取模式:仅支持单表的「字段筛选」,包括分区字段筛选和非分区字段筛选,多个条件之间仅支持「且」的关系。
说明
分区是将一张大型数据表按照特定规则(如时间、地域、类别等)拆分为多个更小的、可独立管理的子表(称为 “分区”)的机制。这些子表在逻辑上仍属于同一张表,但物理上可能存储在不同位置,便于高效查询和数据管理。
抽取模式字段筛选类型 | 介绍 |
|---|---|
分区筛选 | 对于抽取数据集,当数据集模型中,使用了带有分区的数据源表时,点开该表节点,可以在数据筛选处找到「分区筛选」的选项。
|
非分区筛选 | 对于抽取数据集,点开任一数据源的表节点,均可以在数据筛选处找到「非分区筛选」的选项。
|
将鼠标悬浮在该条件上,点击条件后方的「删除」,即可删除该条件。
模型配置后的筛选为针对配置好的数据模型进行筛选,同时支持对跨数据源非聚合表达式结果的筛选。
注意
直连数据集不支持模型配置后的筛选,仅抽取数据集支持。
将鼠标悬浮在该条件上,点击条件后方的「删除」,即可删除该条件。
字段类型 | 操作符列表 |
|---|---|
字符串 | =、≠、IN、NOT IN、LIKE、NOT LIKE、为空、不为空、为空字符串、不为空字符串、包含、不包含。 |
数值 | =、≠、>、<、>=、<=、IN、NOT IN、为空、不为空、区间、不在区间。 注意 如果选择了「区间」或 「不在区间」,还需要指定区间边界是开区间还是闭区间。 |
日期 | 可选某一范围内的固定日期或单个日期。 |