You need to enable JavaScript to run this app.
导航

数据集

最近更新时间2023.12.12 16:49:21

首次发布时间2021.12.10 16:19:26

1. 产品概述

数据集是由一张或多张表组成的数据模型,是创建标签、分群、洞察的基础,在应用数据前,需要将数据连接对接的源数据信息,通过可视化建模功能输出为数据集。

2. 流程介绍

3. 操作步骤

3.1 数据集列表

在【数据融合】-【数据集】模块,可以查看项目内所有数据集的情况概览,包括数据集来源、CDP应用(数据源标识)、存储类型、存储总量、生命周期、更新时间等。

  • 数据集来源: 包含三类来源「可视化建模」、「客户数据平台」、「智能数据洞察」

    • 可视化建模:通过可视化建模功能模块,主动搭建任务并输出构建的数据集;

    • 客户数据平台:即CDP系统数据集,系统通过可视化建模任务或系统接口输出的数据集,如标签数据集,系统数据集不支持人为删除及二次编辑;

    • 智能数据洞察:如增购智能数据洞察且同CDP混合部署,两个平台相同项目下可共享数据集的使用(不包含智能数据洞察中直连数据集),但智能数据洞察来源的数据集只允许使用不允许编辑删除。

  • CDP应用: 即创建数据集定义的应用场景,包括四类「普通数据集」、「IDMapping图谱配置」、「元数据-一般数据源」、「元数据-维度数据源」

    • 注意:维度数据源会限定存储格式且只能用于维度数据源注册

各类应用场景的区别如下:

  • 普通数据集: 不做特殊限定,可作为底表重复生产加工、注册元数据数据源,但无法注册为【元数据-维度数据源】;

  • IDMapping图谱配置: 用于配置IDMapping图谱,仅支持输出Hive数据集,且一般要求全量数据;

  • 元数据-一般数据源: 用于注册明细/行为/单据类型数据源,可提前在画布流程中添加IDM算子转换生成基准ID(OneID),并指定基准ID字段避免注册数据源过程做数据转换,基准ID需满足字段类型是int/short/long 且 基准ID为分片字段两个条件;

  • 元数据-维度数据源: 用于注册维度数据源且需定义维度主键字段,存储上每个分片节点会存储全量数据且会对主键字段去重,不可直接用于CDP其他任何模块。

3.2 数据集管理

点击 查看血缘信息 ,即可展示当前数据集下游的血缘明细。

点击 编辑 ,即可修改当前数据集的名称、描述,以及生命周期天数(即数据的有效保存天数,如选择7天,则根据数据更新时间最多保存7天的数据,超出7天的数据将根据数据更新时间定时滑动清空)。

建议:如每天保存全部数据,建议保留7天以内数据以降低存储压力,如每天保存新增的数据或非分区表,建议根据常用数据范围自定义生命周期。

点击 注册数据源,将跳转到元数据模块便捷创建为数据源。

点击 删除 ,支持删除当前数据源。注意:删除操作有可能影响上下游使用,请谨慎操作。

3.3 数据集授权

项目中心-权限-按内容管理-资源 页面,支持对 数据集 进行授权。选择“数据集”类型的资源。

支持单个/批量授权,支持授予查看、编辑、管理权限。

3.4 数据集应用

1)可视化建模

输入:在可视化建模新建任务时,支持选择 数据集 连接的形式。

输出:支持将数据输出到数据集,支持输出到hive/clickhouse。

2)元数据登记

数据融合-元数据管理-新建数据源 页面,新增数据源时,支持选择数据集连接源。若该数据集有baseid,则直接使用该表;若无,需系统自动创建对应的idmapping映射可视化建模任务。

3)ID-Mapping输入

*仅项目/系统管理员有权限拉取系统内所有抽取到Hive的数据集。

数据融合-ID图谱构建 页面,引入该ID类型的全量ID时,以及选择任意两个ID类型(非基准ID)建立连接时,在注册类型关系页面,均需选择存储为Hive的数据集。