数据集是由一张或多张表组成的数据模型,是创建标签、分群、洞察的基础,在应用数据前,需要将数据连接对接的源数据信息,通过可视化建模功能输出为数据集。
操作步骤
第一步:创建数据集
数据集来源有如下3种:
- 通过企业知识引擎数据接入功能接入的数据集,具体操作请参见输出到数据集。
- 客户数据平台:即CDP系统数据集,系统通过可视化建模任务或系统接口输出的数据集,如标签数据集,系统数据集不支持人为删除及二次编辑。
- 智能数据洞察:如增购智能数据洞察且同CDP混合部署,两个平台相同项目下可共享数据集的使用(不包含智能数据洞察中直连数据集)。
说明
智能数据洞察来源的数据集只允许使用不允许编辑删除。
第二步:筛选数据集
在数据接入 > 数据集模块,可以查看项目内所有数据集的信息,并根据不同指标进行筛选,指标包括数据集来源、类型、存储总量、生命周期、更新时间等。

第三步:管理数据集
- 点击 查看血缘信息 ,即可展示血缘视图,帮助用户直观追踪数据的来源和流向,增强数据管理的透明度和追溯能力。
- 点击 编辑 ,即可修改当前数据集的名称、描述、生命周期天数。
说明
数据集的TTL(Time to Live)为数据集的生命周期,即数据集的数据保存时间,详细说明见3.4 标签系统表TTL长度。如每天保存全部数据,建议保留7天以内数据以降低存储压力;如每天保存新增的数据或非分区表,建议根据常用数据范围自定义生命周期。

- 点击 注册数据档案,将跳转到新建数据档案页面,将数据注册为对应类型的数据档案,详细数据操作参见4.2 新建数据档案。

- 点击 删除 ,支持删除当前数据源。注意:删除操作有可能影响上下游使用,请谨慎操作。
第四步:数据集授权
在 项目中心-权限-按内容管理-资源 页面,支持对 数据集 进行授权。选择“数据集”类型的资源。

支持单个/批量授权,支持授予查看、编辑、管理权限。

第五步:可视化知识处理
- 输入:在可视化建知识处理新建任务时,支持选择 数据集 连接的形式。

- 输出:支持将数据输出到数据集,支持输出到hive/clickhouse。
