You need to enable JavaScript to run this app.
导航
Data Fabric 概述
最近更新时间:2025.11.28 17:52:41首次发布时间:2025.07.30 15:34:25
复制全文
我的收藏
有用
有用
无用
无用

本文为您系统介绍 Data Fabric 新版数据集相关的功能,DataFabric 包含 Fabric 模型、分析主题、衍生指标、关联数据集四大模块功能。

功能概述

Data Fabric 并不是单独的某个功能,而是 DataWind 针对数仓数据集建设与用户找数过程中的常见难题,推出的一站式解决方案,我们为数据建设与消费的各个阶段,提供了以下几个功能:

  • 生产:Fabric 模型、分析主题、衍生指标
  • 消费:关联数据集

用户如果想要在 DataWind上查询数据,它的基础就是数据集,而数据集的建设通常会伴随一系列的数据处理(ETL)工作。
DataWind 推出 Data Fabric 功能最终的目标,是希望:

  • 可以让数据集建设的过程实现 NoETL,以减少这种建设的必要性和技术门槛,实现降本增效;
  • 结合分析主题功能实现以解决用户经常遇到的找数难和口径歧义问题。

旧版数仓生产流程

Data Fabric 数仓生产流程

Image

Image

注意事项
  • Data Fabric 模块相关功能为增值功能,默认关闭。如果您希望使用,可联系火山引擎技术支持人员咨询,购买开通后方可使用。
  • Data Fabric 模块当前存在 Fabric 开关(Fabric 模型、分析主题与衍生指标功能)和指标管理开关(衍生指标管理页面)两个开关,请按需开通。
  • Data Fabric 模块当前仅私有化环境 V 2.86.1 及以上版本支持。

使用流程

流程

流程名称

流程含义

概览

第一步

构建Fabric 模型概述

核心数据建模:采用“关系”连接替代传统物理 Join,构建支持多事实表的灵活数据模型。此举旨在减少数据冗余和重复建设,用一个模型满足多种业务场景,从源头降低数据集建设和维护成本。

Image

第二步

基于模型创建分析主题

业务视角封装:基于上一步构建的 Fabric 模型,将不同业务线关心的字段(维度/指标)分类归集到不同的分析主题中。每个主题像一个虚拟数据集,便于业务用户快速找到自己所需的口径统一的数据,解决“找数难”问题。

  • 数据集页面:
    Image
  • 可视化查询页面:
    Image

第三步

创建与管理衍生指标

统一指标口径:在 Fabric 模型或分析主题的基础上,为常用指标创建预设筛选条件的固定口径指标(衍生指标概述)。实现“一处定义,多处消费”,确保指标一致性,降低普通用户的指标生产门槛。

第四步

消费端使用与探索数据

灵活数据消费:用户可以在可视化查询、仪表盘界面直接利用分析主题、衍生指标进行探索分析;对于需要临时关联其他数据的场景,可使用关联数据集功能进行快速的跨数据集查询,满足即时分析需求。

  • 分析主题消费:可视化查询页面或仪表盘页面,具体可查看分析主题
    Image
  • 衍生指标消费:可视化查询页面或仪表盘页面,具体请查看使用衍生指标
    Image
  • 关联数据集消费:可视化查询页面或仪表盘页面,具体请查看关联数据集
    Image

Fabric 模型

在之前的数据集模型配置中,表与表之间的连接方式是普通的 Join 连接,不过由于普通 Join 连接可能存在的数据膨胀和重复计算等问题,所以通常还需要提前对数据源表进行预处理,或者在DataWind 中使用自定义 SQL 进行连接。

  • 对数仓人员来说,数据建模会存在比较高的成本;
  • 而对于普通用户来说,数据集的建设也存在一定的门槛。

为此 DataWind 近期对数据集进行了一次迭代更新,在传统 Join 连接的基础上,引入了新的关系连接,极大的提高大家在处理复杂数据模型(尤其是多事实表模型)时的效率和灵活性,同时也为大家在建模效率、数据准确性、性能优化和多粒度分析能力等方面的带来提效和收益。对于新版Fabric模型介绍和新旧版本数据集差异对比,可查看Fabric 模型概述

旧版数据建设方案

Fabric 建设方案

Image

Image

存在问题:

  • 随着需求的增多会重复生产很多ADS表和数据集,会消耗更多同步和存储资源;
  • 在很多场景中不同表的聚合粒度不同,表或者数据集的重复建设也带来了更多的ETL工作。

解决方案:

  • Fabric 模型支持在一个数据集中同时配置多个事实表和维表,并且可以自由配置它们之间的关联关系,实现一个事实表关联多个维度表,或多个事实表关联一个维度表;
  • 数据集在创建时不再需要选择Join方式,只需要配置各表之间的关系即可,在查询的时候自动选择Join方式。

Fabric 模型的优势

  • 建设侧:降低数据集创建和维护的人力成本,模型清晰可维护
    • 减少数据集创建投入:无需因为业务需求的不同创建额外的数据集及ETL开发;
    • 减少数据集维护投入:模型清晰可维护,减少数据集维护、回溯等成本。
  • 消费侧:资产数量减少收敛,提升业务体感,加快数据集消费效率

分析主题

当数据集建设完成后,就需要来考虑用户如何更好地基于数据集提供更加高效的生产服务及业务消费方式,尤其是当数据集数量和数据集中字段的数量越来越多,如何让数据生产者减少面向业务的数据集建设及维护、用户更好地找到自己需要的数据就成了重要的问题。
分析主题可以把它理解成一个虚拟的数据集,用户可以将来自同一个或者不同数据集的字段,添加进这个分析主题中,并对这些字段进行分类,作为一些字段的集合,并支持对这些字段进行查询。具体功能请查看分析主题

旧版数据建设方案

Fabric 建设方案

Image

Image

存在问题:

  • 生产侧:
    • 数据集的创建和维护人力成本高,且存在较多相似度较高的数据集;
    • 数据集数量变多,随之带来较大的存储计算资源成本。
  • 消费侧:缺乏业务语义的服务逻辑,对于消费者来说,找数据集、数据集中找具体字段,均存在较大成本。

解决方案:

  • 基于Fabric模型或普通数据集,通过高效圈选数据集字段,并提供字段标准化配置能力,可以实现将面向不同业务线的数据集中字段收录在不同分析主题中;
  • 同时,分析主题可按照业务视角做设计和建设,并可直接对分析主题进行可视化查询,以此可以在减少数据集数量、避免过多ETL的同时,也能提升业务线人员的数据查找、消费效率;

具体应用
与 Fabric 模型联动,基于一个 Fabric 模型创建多个分析主题并提供给不同业务方使用。以此实现传统数据建设方案中,不同数据集提供给不同业务方的效果。不同的是,这些数据集都是虚拟的,没有实际的存储,最终需要维护的只有 Fabric 模型数据集。

衍生指标

DataWind 中的 “衍生指标” 功能,并非数据集中普通的指标字段,而是针对指标消费场景中 “开发成本高、逻辑固化、消费分散” 三大痛点设计的解决方案:

  • 开发成本高:业务迭代快导致指标频繁变动,新增指标依赖数仓人员排期,响应效率低;
  • 指标逻辑固化:指标计算逻辑封装于底层数仓,普通用户难以自主创建或调整;
  • 消费场景分散:指标需在 DataWind、飞书文档、业务系统等多场景使用,但缺乏联动能力。

为此,DataWind 将 “衍生指标” 定义为用户消费的最小数据单位,支持基于数据集已有字段,快捷创建固定口径的指标,并实现 “一处生产、多处消费”—— 既降低普通用户的指标生产门槛,又通过多场景联动缩短消费链路,未来还将支持指标在 DataWind 各模块自由组合,打造个性化专属数据库。具体功能介绍可查看衍生指标概述

关联数据集

在实际业务场景中,用户查询数据时常需整合多个数据集信息(如订单数据与商品数据联动分析),但传统可视化查询仅支持单数据集操作,跨数据集查询需提前在数据生产层合并数据,流程繁琐且效率低。
为此,Data Fabric 关联数据集功能支持在可视化查询页面快速关联两个数据集查询(多数据集需创建正式关联数据集),提供明细关联与结果关联两种方式,满足不同跨数据集查询需求。具体可查看关联数据集