本文为您系统介绍 Data Fabric 新版数据集相关的功能,DataFabric 包含 Fabric 模型、分析主题、衍生指标、关联数据集四大模块功能。
Data Fabric 并不是单独的某个功能,而是 DataWind 针对数仓数据集建设与用户找数过程中的常见难题,推出的一站式解决方案,我们为数据建设与消费的各个阶段,提供了以下几个功能:
用户如果想要在 DataWind上查询数据,它的基础就是数据集,而数据集的建设通常会伴随一系列的数据处理(ETL)工作。
DataWind 推出 Data Fabric 功能最终的目标,是希望:
旧版数仓生产流程 | Data Fabric 数仓生产流程 |
|---|---|
流程 | 流程名称 | 流程含义 | 概览 |
|---|---|---|---|
第一步 | 核心数据建模:采用“关系”连接替代传统物理 Join,构建支持多事实表的灵活数据模型。此举旨在减少数据冗余和重复建设,用一个模型满足多种业务场景,从源头降低数据集建设和维护成本。 | ||
第二步 | 基于模型创建分析主题 | 业务视角封装:基于上一步构建的 Fabric 模型,将不同业务线关心的字段(维度/指标)分类归集到不同的分析主题中。每个主题像一个虚拟数据集,便于业务用户快速找到自己所需的口径统一的数据,解决“找数难”问题。 |
|
第三步 | 创建与管理衍生指标 | 统一指标口径:在 Fabric 模型或分析主题的基础上,为常用指标创建预设筛选条件的固定口径指标(衍生指标概述)。实现“一处定义,多处消费”,确保指标一致性,降低普通用户的指标生产门槛。 |
|
第四步 | 消费端使用与探索数据 | 灵活数据消费:用户可以在可视化查询、仪表盘界面直接利用分析主题、衍生指标进行探索分析;对于需要临时关联其他数据的场景,可使用关联数据集功能进行快速的跨数据集查询,满足即时分析需求。 |
在之前的数据集模型配置中,表与表之间的连接方式是普通的 Join 连接,不过由于普通 Join 连接可能存在的数据膨胀和重复计算等问题,所以通常还需要提前对数据源表进行预处理,或者在DataWind 中使用自定义 SQL 进行连接。
为此 DataWind 近期对数据集进行了一次迭代更新,在传统 Join 连接的基础上,引入了新的关系连接,极大的提高大家在处理复杂数据模型(尤其是多事实表模型)时的效率和灵活性,同时也为大家在建模效率、数据准确性、性能优化和多粒度分析能力等方面的带来提效和收益。对于新版Fabric模型介绍和新旧版本数据集差异对比,可查看Fabric 模型概述。
旧版数据建设方案 | Fabric 建设方案 |
|---|---|
存在问题:
| 解决方案:
|
Fabric 模型的优势:
当数据集建设完成后,就需要来考虑用户如何更好地基于数据集提供更加高效的生产服务及业务消费方式,尤其是当数据集数量和数据集中字段的数量越来越多,如何让数据生产者减少面向业务的数据集建设及维护、用户更好地找到自己需要的数据就成了重要的问题。
分析主题可以把它理解成一个虚拟的数据集,用户可以将来自同一个或者不同数据集的字段,添加进这个分析主题中,并对这些字段进行分类,作为一些字段的集合,并支持对这些字段进行查询。具体功能请查看分析主题。
旧版数据建设方案 | Fabric 建设方案 |
|---|---|
存在问题:
| 解决方案:
|
具体应用:
与 Fabric 模型联动,基于一个 Fabric 模型创建多个分析主题并提供给不同业务方使用。以此实现传统数据建设方案中,不同数据集提供给不同业务方的效果。不同的是,这些数据集都是虚拟的,没有实际的存储,最终需要维护的只有 Fabric 模型数据集。
DataWind 中的 “衍生指标” 功能,并非数据集中普通的指标字段,而是针对指标消费场景中 “开发成本高、逻辑固化、消费分散” 三大痛点设计的解决方案:
为此,DataWind 将 “衍生指标” 定义为用户消费的最小数据单位,支持基于数据集已有字段,快捷创建固定口径的指标,并实现 “一处生产、多处消费”—— 既降低普通用户的指标生产门槛,又通过多场景联动缩短消费链路,未来还将支持指标在 DataWind 各模块自由组合,打造个性化专属数据库。具体功能介绍可查看衍生指标概述。
在实际业务场景中,用户查询数据时常需整合多个数据集信息(如订单数据与商品数据联动分析),但传统可视化查询仅支持单数据集操作,跨数据集查询需提前在数据生产层合并数据,流程繁琐且效率低。
为此,Data Fabric 关联数据集功能支持在可视化查询页面快速关联两个数据集查询(多数据集需创建正式关联数据集),提供明细关联与结果关联两种方式,满足不同跨数据集查询需求。具体可查看关联数据集。