最近更新时间:2023.12.12 16:49:21
首次发布时间:2021.12.10 16:19:26
数据集是由一张或多张表组成的数据模型,是创建标签、分群、洞察的基础,在应用数据前,需要将数据连接对接的源数据信息,通过可视化建模功能输出为数据集。
在【数据融合】-【数据集】模块,可以查看项目内所有数据集的情况概览,包括数据集来源、CDP应用(数据源标识)、存储类型、存储总量、生命周期、更新时间等。
数据集来源: 包含三类来源「可视化建模」、「客户数据平台」、「智能数据洞察」
可视化建模:通过可视化建模功能模块,主动搭建任务并输出构建的数据集;
客户数据平台:即CDP系统数据集,系统通过可视化建模任务或系统接口输出的数据集,如标签数据集,系统数据集不支持人为删除及二次编辑;
智能数据洞察:如增购智能数据洞察且同CDP混合部署,两个平台相同项目下可共享数据集的使用(不包含智能数据洞察中直连数据集),但智能数据洞察来源的数据集只允许使用不允许编辑删除。
CDP应用: 即创建数据集定义的应用场景,包括四类「普通数据集」、「IDMapping图谱配置」、「元数据-一般数据源」、「元数据-维度数据源」
各类应用场景的区别如下:
普通数据集: 不做特殊限定,可作为底表重复生产加工、注册元数据数据源,但无法注册为【元数据-维度数据源】;
IDMapping图谱配置: 用于配置IDMapping图谱,仅支持输出Hive数据集,且一般要求全量数据;
元数据-一般数据源: 用于注册明细/行为/单据类型数据源,可提前在画布流程中添加IDM算子转换生成基准ID(OneID),并指定基准ID字段避免注册数据源过程做数据转换,基准ID需满足字段类型是int/short/long 且 基准ID为分片字段两个条件;
元数据-维度数据源: 用于注册维度数据源且需定义维度主键字段,存储上每个分片节点会存储全量数据且会对主键字段去重,不可直接用于CDP其他任何模块。
点击 查看血缘信息 ,即可展示当前数据集下游的血缘明细。
点击 编辑 ,即可修改当前数据集的名称、描述,以及生命周期天数(即数据的有效保存天数,如选择7天,则根据数据更新时间最多保存7天的数据,超出7天的数据将根据数据更新时间定时滑动清空)。
建议:如每天保存全部数据,建议保留7天以内数据以降低存储压力,如每天保存新增的数据或非分区表,建议根据常用数据范围自定义生命周期。
点击 注册数据源,将跳转到元数据模块便捷创建为数据源。
点击 删除 ,支持删除当前数据源。注意:删除操作有可能影响上下游使用,请谨慎操作。
在 项目中心-权限-按内容管理-资源 页面,支持对 数据集 进行授权。选择“数据集”类型的资源。
支持单个/批量授权,支持授予查看、编辑、管理权限。
输入:在可视化建模新建任务时,支持选择 数据集 连接的形式。
输出:支持将数据输出到数据集,支持输出到hive/clickhouse。
在 数据融合-元数据管理-新建数据源 页面,新增数据源时,支持选择数据集连接源。若该数据集有baseid,则直接使用该表;若无,需系统自动创建对应的idmapping映射可视化建模任务。
*仅项目/系统管理员有权限拉取系统内所有抽取到Hive的数据集。
在 数据融合-ID图谱构建 页面,引入该ID类型的全量ID时,以及选择任意两个ID类型(非基准ID)建立连接时,在注册类型关系页面,均需选择存储为Hive的数据集。