最近更新时间:2024.03.28 11:23:41
首次发布时间:2022.11.24 17:38:00
在数据档案管理功能模块,支持将 底层数据 按照不同业务类型和格式注册管理成 业务可读可理解的业务数据内容,下游应用可以根据约定的格式高效调用数据,业务可以根据重定义的命名和解释快速理解数据,实现数据的快速识别应用。
注意
只有在数据档案管理中完成登记的数据,才可以被用来进行后续的标签创建、群体圈选等。
管理员 及具备 项目中心-模块-数据档案管理-查看或增删改数据档案 权限的人,才可以使用该模块。
建数据档案前需在可视化建模中完成数据集的清洗与关联One ID的配置,只有包含One ID及分区字段的数据集才可以在该模块进行注册。
围绕主体的属性特征,每个主体 ID(OneID)绝对只有一行数据
* OneID 字段 | * 分区日期 | 属性字段 1 | 属性字段 2 | 属性字段 3 | 属性字段 4 | ... |
---|---|---|---|---|---|---|
10001 | 2022-01-01 | 男 | mac | shanghai | 运动 | ... |
10002 | 2022-01-01 | 男 | mobile | beijing | 美术 | ... |
10003 | 2022-01-01 | 女 | mac | beijing | 音乐 | ... |
字段 | 字段类型 | 说明 |
---|---|---|
* OneID 字段 | 数值型(int/long/bigint) |
|
* 分区日期 | 日期型 |
|
属性字段 | 数值型/文本/时间/数组多值,不支持 map 类型 |
|
说明
OneID 一定是通过 IDMapping 转换算子生成
OneID 一定进行了数据去重或设置存储的唯一键,可采用去重算子处理
必须是分区表,且最新分区存储全量数据,全量数据即每天将全部用户 OneID 同步到最新分区内
围绕主体的业务事实数据,每个 ID 可能有多行数据,往往记录业务事实记录或统计数据,如消费金额汇总数据
* OneID 字段 | * 统计日期
| 明细字段 1
| 明细字段 2
| 明细字段 3
| 明细字段 4 |
---|---|---|---|---|---|
10001 | 2022-01-01 | 100 元 | shanghai | 运动 | ... |
10001 | 2022-01-02 | 200 元 | hangzhou | 音乐 | ... |
10002 | 2022-01-02 | 300 元 | beijing | 美术 | ... |
10003 | 2022-01-03 | 100 元 | beijing | 音乐 | ... |
字段 | 字段类型 | 说明 |
---|---|---|
* OneID 字段 | 数值型(int/bigint/long) |
|
* 统计日期 | 日期类型(date/datetime) |
|
明细字段 | 数值型/文本/时间/数组多值,不支持 map 类型 |
|
说明
OneID 一定是通过 IDMapping 算子转换生成
OneID 可以重复,即相同的 OneID 可以有多行数据
必须是分区表,分区日期必须具有某种增量业务含义,每个最新分区为新增的业务事实数据,默认为增量表
围绕主体的行为日志,即谁(OneID)在什么时间(行为时间)做了什么事(行为事件)产生什么事件结果(属性),主体 ID 及行为事件及行为时间共同组成唯一键。
* OneID 字段 | * 统计日期
| * 行为时间 | * 行为事件 | * 属性(数值类型-整数) | * 属性(数值类型-小数) | * 属性(文本类型) |
---|---|---|---|---|---|---|
10001 | 2023-9-7 | 1694075399 | clickbutton | {"cost":200 , | {"balance": 100.11, | {"buttonname": "测试", |
10001 | 2023-9-7 | 1694075392 | pageview | {"cost":200 , | {"balance": 100.11, | {"buttonname": "测试", |
10002 | 2023-9-7 | 1694075395 | pageview | {"cost":200 , | {"balance": 100.11, | {"buttonname": "测试", |
10003 | 2023-9-7 | 1694075397 | pageview | {"cost":200 , | {"balance": 100.11, | {"buttonname": "测试", |
字段 | 字段类型 | 说明 |
---|---|---|
* OneID 字段 | 数值型(int/bigint/long) |
|
* 统计日期 | 日期类型(date) |
|
* 行为时间 | 数值类型(int/bigint/long) |
|
* 行为事件 | 文本类型(string) | - 必填字段 |
* 属性(数值类型-整数) | Map 整数类型 Map(string,bigint) |
|
* 属性(数值类型-小数) | Map 整数类型 Map(string,float) |
|
* 属性(数值类型-文本) | Map 整数类型 Map(string,string) |
|
说明
OneID 一定是通过 IDMapping 算子转换生成
属性必须是Map结构,可通过可视化建模进行格式转换
可以是分区表,但是必须是增量分区逻辑,即每天都是最新的行为事件
展示已创建的数据档案的信息,包括数据档案名称、类型、创建人、数据生产任务、数据更新频率、数据最新更新时间;用户通过左上角可以搜索数据档案名称/创建人,快速找到对应数据档案。
用户若想编辑或删除该数据档案,点击 操作 位置即可。
档案类型:包含主体属性、行为事件、业务明细、业务维度,且支持快捷筛选;
更新频率:包含实时、离线两种更新频率,且支持快捷筛选;
最新更新时间:记录该数据源最新的更新时间,且支持按照升序/降序排列;
第一步:配置基础信息
1.点击 新建数据档案;
2.选择 数据档案 类型,包括主体属性、行为事件、业务明细、业务维度四种类型。
主体属性:主体属性每天获取数据集最新分区的数据,需要保证最新【数据集分区】包含全部主体的属性特征;
业务明细:用户使用业务明细时,首先会选择最近N天的数据,此时最近N天是通过【数据集分区】=最近N天进行过滤,因此需要保证数据集分区按照某种业务日期进行定义,如订单创建时间;
业务维度:业务维度每天获取数据集最新分区的数据,需要保证最新【数据集分区】包含全部业务维度的属性特征。
1.选择 数据集 ,可选择的数据集存在以下要求:
默认支持ClickHouse/ByteHouse存储的数据集
允许例行定时更新/实时更新的数据集
支持与Hive数据集绑定,后续可在创建导入标签时使用(注意:此功能默认关闭,如需启用,请在部署时告知并开启对应功能开关)
系统将根据所选数据集,自动关联生命周期、更新频率及OneId主键字段,不支持手动更改。
2.定义 数据档案,填写基础信息 。
数据档案名称:允许中英文、数字、下划线;
数据档案描述:支持填写对该数据档案的补充描述,方便业务理解;
关联主体:选择需要关联的主体即可。
在注册档案信息位置,勾选需要注册的数据集字段(默认会勾选OneID字段及分区字段),支持修改字段展示名,及增加档案字段描述。
1.选择 数据集 ,可选择的数据集存在以下要求:
只允许ClickHouse/ByteHouse存储的数据集
只允许例行定时更新/实时更新的数据集
系统将根据所选数据集,自动关联生命周期、更新频率及OneId主键字段,不支持手动更改。
2.定义 数据档案,填写基础信息 。
数据档案名称:允许中英文、数字、下划线;
数据档案描述:支持填写对该数据档案的补充描述,方便业务理解;
关联主体:选择需要关联的主体即可。
在注册档案信息位置,勾选需要注册的数据集字段(默认会勾选OneID字段及分区字段),支持修改字段展示名,及增加档案字段描述。
1.选择 数据集 ,可选择的数据集存在以下要求:
只允许ClickHouse/ByteHouse存储的数据集
只允许例行定时更新/实时更新的数据集
系统将根据所选数据集,自动关联生命周期、更新频率及OneId主键字段,不支持手动更改。
2.定义 数据档案,填写基础信息 。
数据档案名称:允许中英文、数字、下划线;
数据档案描述:支持填写对该数据档案的补充描述,方便业务理解;
关联主体:选择需要关联的主体即可。
行为事件配置:依次配置行为时间、行为事件、行为属性字段
行为时间字段:Event_time,通常用13位时间戳,限制字段类型为int/long等数值类型;
行为事件字段:Event_type,存储事件名称的字段,如「page_view」「Clickbutton」,限制字段类型为string字符串类型;
行为属性字段:Event_params,通常以json的方式存储点击事件的内容,如「Clickbutton」涉及的页面信息/按钮/设备等,限制字段类型为Map类型,可包含Map{String,String}Map{String,Float}/Map{String,Int32}类型。
1.选择 数据集 ,可选择的数据集存在以下要求:
只允许ClickHouse/ByteHouse存储的数据集
只允许例行定时更新/实时更新的数据集
系统将根据所选数据集,自动关联生命周期、更新频率及OneId主键字段,不支持手动更改。
2.定义 数据档案,填写基础信息 。
数据档案名称:允许中英文、数字、下划线;
数据档案描述:支持填写对该数据档案的补充描述,方便业务理解;
在注册档案信息位置,勾选需要注册的数据集字段(默认会勾选维度主键及分区字段),支持修改字段展示名,及增加档案字段描述。
注意: 仅业务明细&行为事件支持实时数据集,主体属性不支持实时数据集。
点击数据档案名称,将跳转至数据档案详情页,支持修改数据档案名称及描述,修改档案字段展示名及描述。
支持删除数据档案时。删除时,系统会显示下游依赖的标签等信息,请谨慎删除。
当前DataFinder中的某些特殊事件或属性在实时场景中可能无法得到支持,主要包括:
任意事件、任意主动事件、虚拟事件(标识为$_vp)、虚拟属性:目前暂不支持;
维度表和字典:无论是DataFinder还是其他普通数据源,目前均不支持;
实时信号: 实时信号不支持自定义多属性运算。
建议在使用上述功能时,仔细阅读系统提示,以确保数据的正确性和系统的稳定性。