You need to enable JavaScript to run this app.
导航

数据档案管理

最近更新时间2024.03.28 11:23:41

首次发布时间2022.11.24 17:38:00

1. 功能概述

在数据档案管理功能模块,支持将 底层数据 按照不同业务类型和格式注册管理成 业务可读可理解的业务数据内容,下游应用可以根据约定的格式高效调用数据,业务可以根据重定义的命名和解释快速理解数据,实现数据的快速识别应用。

注意

只有在数据档案管理中完成登记的数据,才可以被用来进行后续的标签创建、群体圈选等。

2. 使用前提
  • 管理员 及具备 项目中心-模块-数据档案管理-查看或增删改数据档案 权限的人,才可以使用该模块。

  • 建数据档案前需在可视化建模中完成数据集的清洗与关联One ID的配置,只有包含One ID及分区字段的数据集才可以在该模块进行注册。

3. 数据档案格式要求

3.1 主体属性

概述

围绕主体的属性特征,每个主体 ID(OneID)绝对只有一行数据

数据样例

* OneID 字段* 分区日期属性字段 1属性字段 2属性字段 3属性字段 4...
100012022-01-01macshanghai运动...
100022022-01-01mobilebeijing美术...
100032022-01-01macbeijing音乐...

数据结构及字段要求

字段字段类型说明

* OneID 字段

数值型(int/long/bigint)

  • 必填字段

  • OneID 字段是全平台可识别的主体主键,比如是通过 IDM 转换获得的 OneID,又称基准 BaseID

  • OneID 字段必须是数值型类型,且存储为数据集时必须是分片键(存储设置),用于快速查询

  • OneID 字段必须是表的唯一键(存储设置),如存在重复数据,可前置做数据去重或设置唯一键的排序字段设定去重逻辑

* 分区日期

日期型

  • 必填字段

  • 系统自动生成或指定分区字段,无需手工配置

属性字段

数值型/文本/时间/数组多值,不支持 map 类型

  • 选填字段

  • 属性字段是围绕 OneID 的属性特征,如年龄/性别,用于直接生成用户的画像

  • 属性字段支持数值/文本/时间/数组多值等,文本类型支持设置枚举字段,如城市编码配置城市名称

  • 属性字段不支持 map 等特殊字段

圈选组件使用逻辑

alt

说明

  1. OneID 一定是通过 IDMapping 转换算子生成

  2. OneID 一定进行了数据去重或设置存储的唯一键,可采用去重算子处理

  3. 必须是分区表,且最新分区存储全量数据,全量数据即每天将全部用户 OneID 同步到最新分区内

3.2 业务明细

概述

围绕主体的业务事实数据,每个 ID 可能有多行数据,往往记录业务事实记录或统计数据,如消费金额汇总数据

数据样例

* OneID 字段

* 统计日期

默认采用分区日期

明细字段 1

累计消费金额

明细字段 2

消费城市

明细字段 3

消费类型

明细字段 4

100012022-01-01100 元shanghai运动...
100012022-01-02200 元hangzhou音乐...
100022022-01-02300 元beijing美术...
100032022-01-03100 元beijing音乐...

数据结构及字段要求

字段字段类型说明

* OneID 字段

数值型(int/bigint/long)

  • 必填字段

  • OneID 允许存在重复数据

  • OneID 字段必须是数值型类型,且存储为数据集时必须是分片键(存储设置),用于快速查询

* 统计日期

日期类型(date/datetime)

  • 必填字段

  • 默认采用分区日期,且默认表为增量表,即每天(每个新分区)都是新增的数据;如业务数据是全量表,可通过可视化建模将全量表转化为增量表

  • 日期必须具有增量业务含义,如创建时间/更新时间

明细字段

数值型/文本/时间/数组多值,不支持 map 类型

  • 选填字段

  • 明细字段是围绕 OneID 的明细业务事实数据,往往是统计类数据

圈选组件使用逻辑

alt

说明

  1. OneID 一定是通过 IDMapping 算子转换生成

  2. OneID 可以重复,即相同的 OneID 可以有多行数据

  3. 必须是分区表,分区日期必须具有某种增量业务含义,每个最新分区为新增的业务事实数据,默认为增量表

3.3 行为事件

概述

围绕主体的行为日志,即谁(OneID)在什么时间(行为时间)做了什么事(行为事件)产生什么事件结果(属性),主体 ID 及行为事件及行为时间共同组成唯一键。

数据样例

* OneID 字段

* 统计日期

默认采用分区日期

* 行为时间

* 行为事件

* 属性(数值类型-整数)

* 属性(数值类型-小数)

* 属性(文本类型)

10001

2023-9-7

1694075399

clickbutton

{"cost":200 ,
"click_cnt": 100}

{"balance": 100.11,
"mileage": 100.11}

{"buttonname": "测试",
"city": "上海"}

10001

2023-9-7

1694075392

pageview

{"cost":200 ,
"click_cnt": 100}

{"balance": 100.11,
"mileage": 100.11}

{"buttonname": "测试",
"city": "上海"}

10002

2023-9-7

1694075395

pageview

{"cost":200 ,
"click_cnt": 100}

{"balance": 100.11,
"mileage": 100.11}

{"buttonname": "测试",
"city": "上海"}

10003

2023-9-7

1694075397

pageview

{"cost":200 ,
"click_cnt": 100}

{"balance": 100.11,
"mileage": 100.11}

{"buttonname": "测试",
"city": "上海"}

数据结构及字段要求

字段字段类型说明

* OneID 字段

数值型(int/bigint/long)

  • 必填字段

  • OneID 允许存在重复数据

  • OneID 字段必须是数值型类型,且存储为数据集时必须是分片键(存储设置),用于快速查询

* 统计日期

日期类型(date)

  • 必填字段

  • 采用日期分区作为统计日期,其基本同行为时间保持一致,即按照数据产生时间增量存储

* 行为时间

数值类型(int/bigint/long)

  • 必填字段

  • 数值类型时间戳,以 11 位或 13 位时间戳

* 行为事件文本类型(string)- 必填字段

* 属性(数值类型-整数)

Map 整数类型 Map(string,bigint)

  • 必填字段

  • map 内的 key 是属性名称

  • map 内的 value 是属性值

如:{"cost":200 ,

"click_cnt": 100}

cost消耗金额 是属性名称,200 是属性值

* 属性(数值类型-小数)

Map 整数类型 Map(string,float)

  • 必填字段

  • map 内的 key 是属性名称

  • map 内的 value 是属性值

* 属性(数值类型-文本)

Map 整数类型 Map(string,string)

  • 必填字段

  • map 内的 key 是属性名称

  • map 内的 value 是属性值

圈选组件使用逻辑

alt

说明

  1. OneID 一定是通过 IDMapping 算子转换生成

  2. 属性必须是Map结构,可通过可视化建模进行格式转换

  3. 可以是分区表,但是必须是增量分区逻辑,即每天都是最新的行为事件

4. 操作说明

4.1 查看数据档案列表

展示已创建的数据档案的信息,包括数据档案名称、类型、创建人、数据生产任务、数据更新频率、数据最新更新时间;用户通过左上角可以搜索数据档案名称/创建人,快速找到对应数据档案。

用户若想编辑或删除该数据档案,点击 操作 位置即可。

  • 档案类型:包含主体属性、行为事件、业务明细、业务维度,且支持快捷筛选;

  • 更新频率:包含实时、离线两种更新频率,且支持快捷筛选;

  • 最新更新时间:记录该数据源最新的更新时间,且支持按照升序/降序排列;

4.2 新建数据档案

第一步:配置基础信息

1.点击 新建数据档案;

2.选择 数据档案 类型,包括主体属性、行为事件、业务明细、业务维度四种类型。

  • 注意:
    • 主体属性:主体属性每天获取数据集最新分区的数据,需要保证最新【数据集分区】包含全部主体的属性特征;

    • 业务明细:用户使用业务明细时,首先会选择最近N天的数据,此时最近N天是通过【数据集分区】=最近N天进行过滤,因此需要保证数据集分区按照某种业务日期进行定义,如订单创建时间;

    • 业务维度:业务维度每天获取数据集最新分区的数据,需要保证最新【数据集分区】包含全部业务维度的属性特征。

4.2.1 新建主体属性数据档案

1.选择 数据集 ,可选择的数据集存在以下要求:

  • 默认支持ClickHouse/ByteHouse存储的数据集

  • 允许例行定时更新/实时更新的数据集

  • 支持与Hive数据集绑定,后续可在创建导入标签时使用(注意:此功能默认关闭,如需启用,请在部署时告知并开启对应功能开关)

系统将根据所选数据集,自动关联生命周期、更新频率及OneId主键字段,不支持手动更改。

2.定义 数据档案,填写基础信息 。

  • 数据档案名称:允许中英文、数字、下划线;

  • 数据档案描述:支持填写对该数据档案的补充描述,方便业务理解;

  • 关联主体:选择需要关联的主体即可。

在注册档案信息位置,勾选需要注册的数据集字段(默认会勾选OneID字段及分区字段),支持修改字段展示名,及增加档案字段描述。

4.2.2 新建业务明细数据档案

1.选择 数据集 ,可选择的数据集存在以下要求:

  • 只允许ClickHouse/ByteHouse存储的数据集

  • 只允许例行定时更新/实时更新的数据集

系统将根据所选数据集,自动关联生命周期、更新频率及OneId主键字段,不支持手动更改。
2.定义 数据档案,填写基础信息 。

  • 数据档案名称:允许中英文、数字、下划线;

  • 数据档案描述:支持填写对该数据档案的补充描述,方便业务理解;

  • 关联主体:选择需要关联的主体即可。

在注册档案信息位置,勾选需要注册的数据集字段(默认会勾选OneID字段及分区字段),支持修改字段展示名,及增加档案字段描述。

4.2.3 新建行为事件数据档案

1.选择 数据集 ,可选择的数据集存在以下要求:

  • 只允许ClickHouse/ByteHouse存储的数据集

  • 只允许例行定时更新/实时更新的数据集

系统将根据所选数据集,自动关联生命周期、更新频率及OneId主键字段,不支持手动更改。
2.定义 数据档案,填写基础信息 。

  • 数据档案名称:允许中英文、数字、下划线;

  • 数据档案描述:支持填写对该数据档案的补充描述,方便业务理解;

  • 关联主体:选择需要关联的主体即可。

  • 行为事件配置:依次配置行为时间、行为事件、行为属性字段

    • 行为时间字段:Event_time,通常用13位时间戳,限制字段类型为int/long等数值类型;

    • 行为事件字段:Event_type,存储事件名称的字段,如「page_view」「Clickbutton」,限制字段类型为string字符串类型;

    • 行为属性字段:Event_params,通常以json的方式存储点击事件的内容,如「Clickbutton」涉及的页面信息/按钮/设备等,限制字段类型为Map类型,可包含Map{String,String}Map{String,Float}/Map{String,Int32}类型。

4.2.4 新建业务维度数据档案

1.选择 数据集 ,可选择的数据集存在以下要求:

  • 只允许ClickHouse/ByteHouse存储的数据集

  • 只允许例行定时更新/实时更新的数据集

系统将根据所选数据集,自动关联生命周期、更新频率及OneId主键字段,不支持手动更改。
2.定义 数据档案,填写基础信息 。

  • 数据档案名称:允许中英文、数字、下划线;

  • 数据档案描述:支持填写对该数据档案的补充描述,方便业务理解;

在注册档案信息位置,勾选需要注册的数据集字段(默认会勾选维度主键及分区字段),支持修改字段展示名,及增加档案字段描述。

注意: 仅业务明细&行为事件支持实时数据集,主体属性不支持实时数据集。

4.3 查看数据档案详情页

点击数据档案名称,将跳转至数据档案详情页,支持修改数据档案名称及描述,修改档案字段展示名及描述。

4.4 删除数据档案

支持删除数据档案时。删除时,系统会显示下游依赖的标签等信息,请谨慎删除。

5. 常见问题

Q:用户将DataFinder的实时数据导入VeCDP,并自动创建为数据档案,目前有哪些不支持的实时场景?

当前DataFinder中的某些特殊事件或属性在实时场景中可能无法得到支持,主要包括:

  • 任意事件、任意主动事件、虚拟事件(标识为$_vp)、虚拟属性:目前暂不支持;

  • 维度表和字典:无论是DataFinder还是其他普通数据源,目前均不支持;

  • 实时信号: 实时信号不支持自定义多属性运算。

建议在使用上述功能时,仔细阅读系统提示,以确保数据的正确性和系统的稳定性。