You need to enable JavaScript to run this app.
文档中心
智能数据洞察(私有化)

智能数据洞察(私有化)

复制全文
下载 pdf
数据集创建
数据筛选
复制全文
下载 pdf
数据筛选

DataWind 支持对数据源数据进行筛选,仅保留符合条件部分数据。本文将为您介绍如何对数据集进行数据筛选。

功能概述

支持对数据集模型配置前及配置后的数据进行筛选,配置数据筛选后,数据集内将只会同步满足筛选条件的数据。

数据筛选类别

筛选对象

支持模式

使用场景

模型配置前

对join或union前的单表字段进行筛选

直连和抽取

当原始单表数据中存在大量与业务无关的冗余信息时,可在进行多表关联或合并前,先对单表进行筛选。这样能减少后续关联操作的数据量,提升模型配置效率,同时避免无关数据对后续分析的干扰。

模型配置后

对join或union后产生的数据模型进行筛选(支持对跨数据源非聚合表达式结果的筛选)

仅抽取

完成模型配置后的数据集,数据量非常大,但是实际业务不需要全量的数据,此时可通过数据筛选筛选出需要的数据,缩减数据量,提高查询性能,节省存储空间。

功能入口

数据筛选功能支持在新建数据集时设置,也支持在对已有数据集进行编辑时设置。

  • 直连模式:

    模型配置前

    模型配置后

    新建数据集

    新建数据集,进入模型配置页面,将所需数据表拖拽至右侧画布中,点击该数据表,即可在下方的配置区域看到「数据筛选」功能。
    Image

    直连模式下,不支持对模型配置后的数据进行筛选。

    说明

    直连模式不存储模型配置后的中间数据,而抽取模式通过本地存储中间结果,因此仅抽取模式支持此类筛选。

    已有数据集

    编辑数据集,进入模型配置页面,点击任一需要进行筛选的数据表,即可在下方的配置区域看到「数据筛选」功能。
    Image

    直连模式下,不支持对模型配置后的数据进行筛选。

    说明

    直连模式不存储模型配置后的中间数据,而抽取模式通过本地存储中间结果,因此仅抽取模式支持此类筛选。

  • 抽取模式:

    模型配置前

    模型配置后

    新建数据集

    新建数据集,进入模型配置页面,将所需数据表拖拽至右侧画布中,点击该数据表,即可在下方的配置区域看到「数据筛选」功能。
    Image

    新建数据集,进入模型配置页面,完成模型配置操作后,点击右上角的「数据筛选」图标,即可在弹出的数据筛选配置弹窗中进行筛选条件配置。
    Image

    已有数据集

    编辑数据集,进入模型配置页面,点击任一需要进行筛选的数据表,即可在下方的配置区域看到「数据筛选」功能。
    Image

    编辑数据集,进入模型配置页面,完成模型配置修改操作后,点击右上角的「数据筛选」图标,即可在弹出的数据筛选配置弹窗中进行筛选条件配置。
    Image

功能介绍

模型配置前

模型配置前的筛选为针对单个数据表的数据筛选。

配置条件

  • 直连模式:仅支持单表的「字段筛选」,且多个条件之间仅支持「且」的关系。每个条件包含字段、操作符、值,例如:一级渠道 = 营销活动。
    Image

  • 抽取模式:仅支持单表的「字段筛选」,包括分区字段筛选和非分区字段筛选,多个条件之间仅支持「且」的关系。

    说明

    分区是将一张大型数据表按照特定规则(如时间、地域、类别等)拆分为多个更小的、可独立管理的子表(称为 “分区”)的机制。这些子表在逻辑上仍属于同一张表,但物理上可能存储在不同位置,便于高效查询和数据管理。

    Image

    抽取模式字段筛选类型

    介绍

    分区筛选

    对于抽取数据集,当数据集模型中,使用了带有分区的数据源表时,点开该表节点,可以在数据筛选处找到「分区筛选」的选项。

    • 分区筛选是针对表的分区字段(如时间字段、区域字段)进行的条件设置,用于指定同步的具体分区范围,直接影响数据同步的效率和范围。
    • 分区筛选条件仍包含字段、操作符、值,但是此处字段为分区字段,不可改选,且操作符只包括 = 、in、无限制。

    非分区筛选

    对于抽取数据集,点开任一数据源的表节点,均可以在数据筛选处找到「非分区筛选」的选项。

    • 非分区筛选是针对表中除分区字段外的其他普通字段进行的条件设置,用于过滤符合业务需求的具体数据记录,不涉及数据表的分区结构,仅对单表内的具体数据内容进行筛选。
    • 非分区筛选条件包含字段、操作符、值,例如:user_id ≠ 11111111。

删除条件

将鼠标悬浮在该条件上,点击条件后方的「删除」,即可删除该条件。
Image

模型配置后

模型配置后的筛选为针对配置好的数据模型进行筛选,同时支持对跨数据源非聚合表达式结果的筛选。

注意

直连数据集不支持模型配置后的筛选,仅抽取数据集支持。

配置条件

配置多层且或条件

  • 多层条件:包含内层和外层。
    Image
    • 内层:添加一条筛选条件后,点击下方的「+字段条件」或「+表达式条件」,可以添加并列条件。
    • 外层:存在多条筛选条件时,点击外层的「+字段条件」或「+表达式条件」,可以添加并列的条件组。
  • 且或条件切换:点击条件组左侧的且/或图标,可以改变条件之间的且或逻辑。
    Image

配置字段条件与表达式条件

  • 字段条件:选择某一字段后,筛选字段值。每个条件包含字段、操作符、值,例如:一级渠道 = 营销活动。
    Image
  • 表达式条件:编写表达式,筛选该表达式为某值的数据。用户可在「添加表达式」弹窗中双击选择字段构造表达式,然后回到筛选条件中添加表达式的操作符等相关信息。
    • 例如:
      • 筛选两个指标相减的结果 > 100 的数据:字段 A - 字段 B,值选 > 100。
        Image
      • 筛选两个指标值相等的数据:字段A = 字段B,值选为真。
        Image

删除条件

将鼠标悬浮在该条件上,点击条件后方的「删除」,即可删除该条件。
Image

相关参考

操作符

字段类型

操作符列表

字符串

=、≠、IN、NOT IN、LIKE、NOT LIKE、为空、不为空、为空字符串、不为空字符串、包含、不包含。

数值

=、≠、>、<、>=、<=、IN、NOT IN、为空、不为空、区间、不在区间。

注意

如果选择了「区间」或 「不在区间」,还需要指定区间边界是开区间还是闭区间。

日期

可选某一范围内的固定日期或单个日期。
Image

最近更新时间:2025.07.24 11:59:56
这个页面对您有帮助吗?
有用
有用
无用
无用