You need to enable JavaScript to run this app.
导航

数据清洗

最近更新时间2023.12.12 16:49:21

首次发布时间2022.10.17 16:50:52

在完成数据输入之后,即可对输入数据进行进一步加工处理操作,该章节介绍数据清洗算子的功能。

alt

1. 字段设置

支持选择保留字段、设置字段类型、设置字段名称、设置字段排序。
image.png

2. 连接

支持创建多表间的连接关系。

  • 选择连接方式
  • 设置连接字段
  • 选择保留字段

image.png

3. 合并行

用于合并多表数据
操作面板
点击配置多表字段的匹配关系,注意仅相同格式的字段支持匹配,如字段格式不相同,请添加字段设置或计算列等算子处理字段格式后进行合并
处理示例
将不同表拖入画布,并点击其中一个需要合并的表,添加合并行节点;
image.png
点击其他需要合并的表右侧+按钮,拖拽至合并行算子左侧;
image.png
在页面下方配置匹配关系,并点击执行保存配置。
image.png

4. 聚合

通过分组实现明细数据的聚合计算。

  • 选择分组,拖拽字段到“分组”
  • 选择聚合字段及方式: 拖拽字段到“聚合”,可更改聚合方式、设置聚合后的字段名称

image.png

5. 计算列

支持自定义表达式,使用Spark函数处理上游字段并添加新字段。
image.png

6. 筛选行

选择字段,确认筛选条件,支持两层且/或逻辑关系。
image.png

7. 列转行

将表头多列的指标转化到一列中展示,宽表变为高表。
实现效果
如学生的学科成绩表,语文、英语、数学三门学科分数各为一个字段

学生姓名学号性别语文数学英语
张三2014010201888888
李四2014010202877699
王五2014010203797578
小贾20140102046060
小一2014010205909796
小冰20140102068010095
小丁2014010207909998
小小2014010208789885

通过列转行,可以将三门课成绩合并为一个“成绩”字段,并添加“学科”字段区分各门科的成绩

学生姓名学号性别学科成绩
张三2014010201语文88
李四2014010202语文87
王五2014010203语文79
小贾2014010204语文60
小一2014010205语文90
小冰2014010206语文80
小丁2014010207语文90
小小2014010208语文78
张三2014010201数学88
李四2014010202数学76
王五2014010203数学75
小贾2014010204数学
小一2014010205数学97
小冰2014010206数学100
小丁2014010207数学99
小小2014010208数学98
张三2014010201英语88
李四2014010202英语99
王五2014010203英语78
小贾2014010204英语60
小一2014010205英语96
小冰2014010206英语95
小丁2014010207英语98
小小2014010208英语85

处理示例
在模型后添加列转行节点
image.png
勾选需要转化的字段,本案例中选择“语文”、“数学”、“英语”
image.png
分别为原来的字段名和字段数值设置转化后的列名,本案例中分别为“学科”和“成绩”
image.png
执行节点,即可预览数据。
image.png

8. 行转列

将一列的字段值转化为表头列,高表变为宽表
实现效果
如学生的学科成绩表,有学科和成绩字段,记录了各门课的成绩

学生姓名学号性别学科成绩
张三2014010201语文88
李四2014010202语文87
王五2014010203语文79
小贾2014010204语文60
小一2014010205语文90
小冰2014010206语文80
小丁2014010207语文90
小小2014010208语文78
张三2014010201数学88
李四2014010202数学76
王五2014010203数学75
小贾2014010204数学
小一2014010205数学97
小冰2014010206数学100
小丁2014010207数学99
小小2014010208数学98
张三2014010201英语88
李四2014010202英语99
王五2014010203英语78
小贾2014010204英语60
小一2014010205英语96
小冰2014010206英语95
小丁2014010207英语98
小小2014010208英语85

通过行转列,可以将学科成绩拆分成“语文成绩”、“数学成绩”、“英语成绩”三个字段,成为学生粒度的宽表

学生姓名学号性别语文数学英语
张三2014010201888888
李四2014010202877699
王五2014010203797578
小贾20140102046060
小一2014010205909796
小冰20140102068010095
小丁2014010207909998
小小2014010208789885

处理示例
在模型后添加行转列节点
image.png
选择需要行转列的字段和对应的值字段,将其他需保留字段放入保留字段一栏。然后,点击配置新增列,也就是需要将“学科”拆分成哪几个字段,并填入对应的“学科”中的值。
该步骤还支持对值字段同时作聚合。
image.png
image.png
上图中红框内容即为执行行转列后的表结构。执行节点,即可预览数据。
image.png
image.png

9. 数据拆分

拆分算子会将算子按照这个比例拆分成两份数据,这个值代表第一份数据占输入数据的比例。之后按照比例拆分的两份数据即可进行下一步操作。

alt

10. 字符串索引

一种类型转换算子,它将指定的属性的值映射成数值型索引,使得只能对数值型数据做处理的算子 也可以对属性进行处理。该算子一般用于数据预处理,另外,不适合对于包含连续型数据的列执行该算 子,如ID列。

alt

配置释义

将指定的属性的值映射成数值型索引,使得只能对数值型数据做处理的算子 也可以对属性进行处理。
参数设置

选择所有字符串类型属性 建立索引:

点选此参数后,不需要手动设置需要索引的列,系统会自动选择所有字符串类型的属性值建立索引; 若不点选此参数,需要设置inputColumns(输入列 )参数,点击选择属性,将需要索引的属性名称添加到已选属性后,点击应 用,就选择了一个属性子集。

alt
无效数据处理方式

可以选择忽略无效数据(skip),或者报错(error),也可以不做处理(keep)

alt

索引顺序

索引顺序表示字符串索引依照的规则,分为freque ncyDesc、frequencyAsc 、alphabetDesc和alphabetAsc四种。

  • frequencyDesc和frequencyAsc表示在某个字符串类型列中,以某个字符串出现频率进行排序,分别为降序和升序 。
  • alphabetDesc和alphab etAsc表示在某个字符串 类型列中,以编码顺序进行排序,分别为降序和升序。
11. 替换缺失值

数据模型中,可能存在一些字段存在空值。替换缺失值算子支持将缺失的数据替换为该列的最大/最小/平均值、最高频值或自定义值。

alt

配置释义

将缺失的数据替换为该列的最大/最小/平均值、最高频值或自定义值

字段设置

  • 待填充字段:缺少值填充会对选择的字段进行缺失值填充
  • 参数设置--填充规则:

    对选择的列执行相应的执行规则,数字列支持:0、最小值、最大值、中位数、平均值、众数、自定义值。字符类型支持最小值、最大值、自定义值

处理示例
如图所示,模型中存在科目成绩为空的数据
image.png
添加替换缺失值节点,在下方节点设置中选择需要填充缺失值的字段和填充规则
image.png
如果选择字段类型为数值,则填充规则可选0、最小值、最大值、中位数、平均值、众数、自定义值。字符类型支持最小值、最大值、自定义值;其他类型支持自定义值填充,如“其他”。
点击执行,可预览处理后数据。

12. 自由排序

算子释义

选择某个排序字段,对全部数据或某种组合维度下进行排序,并可以选择根据排序截取前K值的数据,K即为截取的排序序号,如按照分数取前100名,100即为K值。 分组排序功能等同于采用窗口函数设置分区并排序的过程。

场景释义

存在包含 商场、销售人员、销售日期、销售额的数据,先通过销售额进行整体排序,查看Top100的销售记录,则选中销售额作为排序字段,倒序取前100值;如果再对每个商场的每个销售人员的销售额进行排序,分别取出Top100的销售记录,则增加选中商场、销售人员作为分组字段

配置项说明如下:

  • 排序方式: 支持全局排序和分组排序两种方式。全局排序是根据排序字段对全部数据进行排序,分组排序则是根据分组字段设置不同组合方式,对每种组合方式内的数据进行排序。

  • 分组字段: 设置排序的类型,即分别对每个分类下内容进行排序,如选择多个字段,则是根据多个字段的组合结果定义不同的类进行排序。

  • 排序字段: 排序的判断条件,如按照分数排序,则分数为排序字段,支持降序/升序两种排序方式:

    • 降序,即根据排序字段的结果倒序排列

    • 升序,即根据排序字段的结果顺序排序

  • 若开启【仅排序】按钮,则只需要根据排序方式和排序字段对数据进行排序标记,标记出具体的序号值。

  • 序号字段名称: 根据排序方式,将具体的序号存储下来,可定义该序号的具体函数,如分数排名字段。

注意

  1. K值数量:默认1000,仅支持整数,最低不能小于1;

  2. 分组字段和排序字段不可重复;

  3. 分组字段以及排序字段都是仅支持数值型(整数、浮点数等)、字符串型、日期型、时间型、时间戳型,数组及map等特殊类型不支持。

13. 去重

用于删除数据集中的重复行
字段设置
待去重字段:根据选择的字段去重,如果被选择的字段行数有重复,随机保留一行
如果复选多个字段,则需多个字段均相同才会删除该条数据。
处理示例
以下图为例,上游数据包含6条数据,其中有三条数据的姓名为‘张三’,有两条数据用户的姓名和电话完全相同;
image.png
当我们添加去重算子,并添加待去重字段为姓名与电话并执行当前节点;
image.png
我们可以发现去重后的数据共包含5条,其中序号为2的数据因为与1的姓名和电话均相同被删除。具体如下:
image.png
当我们添加去重算子,并添加待去重字段为姓名与电话并执行当前节点;
image.png
我们可以发现去重后的数据共包含3条,其中序号为2,3的数据因为与1的姓名均相同被删除。具体如下:
image.png

14. 离线ID Mapping

根据ID-Mapping生成逻辑生成OneID字段,ID-Mapping生成逻辑配置在CDP【数据融合-ID图谱构建】内完成。

参数设置说明如下:

  • 主体:CDP中画像主体,即ID-Mapping OneID的目标对象

  • 输入:选择输入ID类型及其输入字段

  • 输出:选择输出ID类型并定义字段名,支持选择除BaseID(OneID)之外的其他ID

15. 实时ID-Mapping

支持进行实时ID转换,包含ID到BaseID、ID到ID的转换,支持实时ID生成。

  • 实时转换: 根据输入的ID类型,实时查询该ID对应的OneID,如果ID中包含纯新ID可能会被过滤,此时可选择【实时生成】,也可以通过输入的ID类型转换成另外一个ID,此时可能因为数据映射关系导致数据量增加,请根据需要选用,如通过手机号查询到设备号,手机号:设备号 为1:N,此时原来1行数据可能变成多行数据。

  • 实时生成: 根据输入的ID类型,实时查询该ID对应的OneID,如查询不到会基于实时IDM图谱配置生成新的OneID,实时IDM图谱配置可参考 VeCDP【数据融合-ID图谱构建-实时OneID生成策略】.

注意

*实时生成ID-Mapping产生的OneID可被VeCDP任何模块查询使用,仅支持集团管理员可以使用。


各配置项说明如下:

  • 输入ID类型及其输入字段: 选择输入ID类型及其输入字段,是ID间转换的数据输入条件

  • 输出ID类型及其输出字段:选择输出ID类型并定义字段名,用于保存交换获得的OneID或其他ID数据

举例:如手机号转换OneID,此时手机号为输入,OneID为输出。

16. 实时多主体转换关系算子

支持实时多主体转换关系算子,可以将实时的关系数据存储保存下来并构建完整的实时转换链路,即实时将主体1转换为主体2,如人访问门店的行为记录构建访问关系,可以基于人的手机号ID与门店ID构建【到访】关系,在人和门店两个主体相互转换时可以基于【到访】关系进行营销活动,如对N个门店的到访用户发短信进行召回。

配置说明如下:

  • 主体转换关系名称:填写描述,是帮助下游在使用主体转换时可理解的业务定义,如【到访】/【购买】关系等。

  • 主体转换主体及ID:选择构建转换关系的两个主体及主体下游联系的ID,如【到访】关系里面的人-手机号和门店-门店ID。

注意

  1. 实时主体转换不会参与实时生成OneID,即参与转换的ID里面如存在纯新的ID(ID全量表里不包含),建议在当前节点前增加【实时IDMapping】算子进行生成OneID

  2. 该算子配置在保存后且启动任务后生效,相关配置信息在IDM图谱配置内也可以看到,同样当前算子删除也等同于该关系删除,保存后生效。

  3. 实时产生的关系会存储在系统关系表内,会保留所有关系数据,请根据需要配置转换逻辑。