You need to enable JavaScript to run this app.
导航
数据清洗
最近更新时间:2025.09.04 18:57:46首次发布时间:2025.06.09 18:25:53
复制全文
我的收藏
有用
有用
无用
无用

数据清洗是数据预处理的核心环节,旨在解决数据输入后的质量问题,通过一系列标准化操作修正数据错误、优化数据结构,而数据清洗算子则是实现这一过程的工具集合,可满足从基础数据修正到复杂结构转换的多样化需求。本文将为您介绍数据清洗算子的具体功能。

功能概述

数据清洗,通常是指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。用户在完成数据输入之后,即可对输入数据进行进一步的数据清洗操作。
Image

功能介绍

字段设置

字段设置功能支持修改目标字段的字段名、字段类型等内容,如不另作修改,则默认与上游字段名称和类型一致。
Image
并且提供了高级配置功能,支持一键进行目标字段名格式修改,如一键转大写、一键转小写、一键修复非法字符、一键修正不规范数据,支持字段快捷排序,提高数据处理效率。
Image

连接

支持创建两表间的连接关系,用户需按照选择连接方式、设置连接字段、选择保留字段的顺序完成连接。
Image

多表连接

支持创建多表间的连接关系,和「连接」算子功能类似。
Image

合并行

用于合并多表数据。点击配置多表字段的匹配关系,注意仅相同格式的字段支持匹配,如字段格式不相同,请添加字段设置或计算列等算子处理字段格式后进行合并。

  1. 将不同表拖入画布,并点击其中一个需要合并的表,添加合并行节点;
    Image
  2. 点击其他需要合并的表右侧+按钮,拖拽至合并行算子左侧;
    Image
  3. 在页面下方配置匹配关系,并点击执行保存配置。
    Image

聚合

通过分组实现明细数据的聚合计算。

  1. 选择分组,拖拽字段到“分组”。
    Image
  2. 选择聚合字段及方式。拖拽字段到“聚合”,可更改聚合方式、设置聚合后的字段名称。
    Image

计算列

计算列算子,支持自定义表达式,使用 Spark 函数处理上游字段并添加新字段。计算列的配置流程可以表格形式清晰展示新增的字段。
Image

筛选行

选择字段,确认筛选条件,支持两层且/或逻辑关系。
Image

数据拆分类

数据拆分类算子,包含:数据拆分、拆分字段算子等,可以实现一份数据按照一定条件进行拆分,得到多份数据的效果。算子具体介绍请查看数据拆分类算子

自由排序

算子释义

选择某个排序字段,对全部数据或某种组合维度下进行排序,并可以选择根据排序截取前 K 值的数据,K 即为截取的排序序号,如按照分数取前 100 名,100 即为K值。
分组排序功能等同于采用窗口函数设置分区并排序的过程。

场景释义

存在包含商场、销售人员、销售日期、销售额的数据,先通过销售额进行整体排序,查看 Top100 的销售记录,则选中销售额作为排序字段,倒序取前 100 值;如果再对每个商场的每个销售人员的销售额进行排序,分别取出 Top100 的销售记录,则增加选中商场、销售人员作为分组字段。
Image

配置项说明

  • 排序方式: 支持全局排序和分组排序两种方式。全局排序是根据排序字段对全部数据进行排序,分组排序则是根据分组字段设置不同组合方式,对每种组合方式内的数据进行排序。
  • 分组字段: 设置排序的类型,即分别对每个分类下内容进行排序,如选择多个字段,则是根据多个字段的组合结果定义不同的类进行排序。
  • 排序字段: 排序的判断条件,如按照分数排序,则分数为排序字段,支持降序/升序两种排序方式:
    • 降序,即根据排序字段的结果倒序排列
    • 升序,即根据排序字段的结果顺序排序
  • 若开启【仅排序】按钮,则只需要根据排序方式和排序字段对数据进行排序标记,标记出具体的序号值。
  • 序号字段名称: 根据排序方式,将具体的序号存储下来,可定义该序号的具体函数,如分数排名字段。

注意

(1)K 值数量:默认 1000,仅支持整数,最低不能小于 1;
(2)分组字段和排序字段不可重复;
(3)分组字段以及排序字段都是仅支持数值型(整数、浮点数等)、字符串型、日期型、时间型、时间戳型,数组及 map 等特殊类型不支持。

去重

用于删除数据集中的重复行。
字段设置
待去重字段:根据选择的字段去重,如果被选择的字段行数有重复,随机保留一行。
如果复选多个字段,则需多个字段均相同才会删除该条数据。
处理示例
以下图为例,上游数据包含6条数据,其中有三条数据的姓名为“张三”,有两条数据用户的姓名和电话完全相同;
Image
当我们添加去重算子,并添加待去重字段为姓名与电话并执行当前节点;
Image
我们可以发现去重后的数据共包含5条,其中序号为 2 的数据因为与1的姓名和电话均相同被删除。具体如下:
Image
当我们添加去重算子,并添加待去重字段为姓名并执行当前节点;
Image
我们可以发现去重后的数据共包含 3 条,其中序号为 2,3 的数据因为与 1 的姓名均相同被删除。具体如下:
Image

采样

从全部数据中选择部分数据进行分析,以发掘适用于更大数据集的有用信息。
常见的采样分三种:随机采样,分层采样,下采样。
使用示例
客户调研时获取了海量的行为数据,但是在实际分析时并不需要那么多数据,因此希望对数据进行抽样分析,未保证抽样结果的均匀性,希望根据不同年龄分别抽取一定比例的数据。可通过该算子进行分类抽样,如基于样例数据根据「年龄」设置不同年龄提取50%的数据进行采样分析,输出结果将只剩余50%的数据并应用于后续的算子中。
Image

列转行

将表头多列的指标转化到一列中展示,宽表变为高表。
实现效果
如学生的学科成绩表,语文、英语、数学三门学科分数各为一个字段

学生姓名

学号

性别

语文

数学

英语

张三

2014010201

88

88

88

李四

2014010202

87

76

99

王五

2014010203

79

75

78

小贾

2014010204

60

60

小一

2014010205

90

97

96

小冰

2014010206

80

100

95

小丁

2014010207

90

99

98

小小

2014010208

78

98

85

通过列转行,可以将三门课成绩合并为一个“成绩”字段,并添加“学科”字段区分各门科的成绩

学生姓名

学号

性别

学科

成绩

张三

2014010201

语文

88

李四

2014010202

语文

87

王五

2014010203

语文

79

小贾

2014010204

语文

60

小一

2014010205

语文

90

小冰

2014010206

语文

80

小丁

2014010207

语文

90

小小

2014010208

语文

78

张三

2014010201

数学

88

李四

2014010202

数学

76

王五

2014010203

数学

75

小贾

2014010204

数学

小一

2014010205

数学

97

小冰

2014010206

数学

100

小丁

2014010207

数学

99

小小

2014010208

数学

98

张三

2014010201

英语

88

李四

2014010202

英语

99

王五

2014010203

英语

78

小贾

2014010204

英语

60

小一

2014010205

英语

96

小冰

2014010206

英语

95

小丁

2014010207

英语

98

小小

2014010208

英语

85

处理示例
在模型后添加列转行节点。
Image
勾选需要转化的字段,本案例中选择“语文”、“数学”、“英语”。
Image
分别为原来的字段名和字段数值设置转化后的列名,本案例中分别为“学科”和“成绩”。
Image
执行节点,即可预览数据。
Image

行转列

将一列的字段值转化为表头列,高表变为宽表。
实现效果
如学生的学科成绩表,有学科和成绩字段,记录了各门课的成绩。

学生姓名

学号

性别

学科

成绩

张三

2014010201

语文

88

李四

2014010202

语文

87

王五

2014010203

语文

79

小贾

2014010204

语文

60

小一

2014010205

语文

90

小冰

2014010206

语文

80

小丁

2014010207

语文

90

小小

2014010208

语文

78

张三

2014010201

数学

88

李四

2014010202

数学

76

王五

2014010203

数学

75

小贾

2014010204

数学

小一

2014010205

数学

97

小冰

2014010206

数学

100

小丁

2014010207

数学

99

小小

2014010208

数学

98

张三

2014010201

英语

88

李四

2014010202

英语

99

王五

2014010203

英语

78

小贾

2014010204

英语

60

小一

2014010205

英语

96

小冰

2014010206

英语

95

小丁

2014010207

英语

98

小小

2014010208

英语

85

通过行转列,可以将学科成绩拆分成“语文成绩”、“数学成绩”、“英语成绩”三个字段,成为学生粒度的宽表。

学生姓名

学号

性别

语文

数学

英语

张三

2014010201

88

88

88

李四

2014010202

87

76

99

王五

2014010203

79

75

78

小贾

2014010204

60

60

小一

2014010205

90

97

96

小冰

2014010206

80

100

95

小丁

2014010207

90

99

98

小小

2014010208

78

98

85

处理示例
在模型后添加行转列节点。
Image
选择需要行转列的字段和对应的值字段,将其他需保留字段放入保留字段一栏。然后,点击配置新增列,也就是需要将“学科”拆分成哪几个字段,并填入对应的“学科”中的值。
该步骤还支持对值字段同时作聚合:
Image
Image
上图中红框内容即为执行行转列后的表结构。执行节点,即可预览数据。
Image
Image

加解密

指根据特定的加密或解密算法,将数据源中的指定字段数据进行加密或解密的数据安全管理功能。

注意

系统层面不管理密钥,如自动生成、手工输入秘钥请自行妥善管理。

使用示例
获取一份用户核心的信用分评级数据,包含用户的「年龄」/「性别」/「工资收入」/「婚姻状态」等敏感信息,但是在具体使用的时候还必须接入到平台中,至于数据的明文和密文对于具体统计使用时无影响,因此为了保证数据安全,希望接入至平台后对敏感字段进行加密,并且加密的秘钥只有自己知道,此时可以采用该算子进行数据加密,如对「工资收入」字段进行加密,秘钥采用平台秘钥生成器生成并管理。
反之,数仓内存储了加密后的结果数据,此时需要根据明文进行用户画像绘制,在数仓层面全部解密显然不现实,此时可以采用该算子进行解密,密文可通过系统内置或手工输入的方式进行填写解密。
Image

替换缺失值

数据模型中,可能存在一些字段存在空值。替换缺失值算子支持将缺失的数据替换为该列的最大/最小/平均值、最高频值或自定义值。
Image
配置释义
将缺失的数据替换为该列的最大/最小/平均值、最高频值或自定义值
字段设置

  • 待填充字段:缺少值填充会对选择的字段进行缺失值填充
  • 参数设置--填充规则:
    对选择的列执行相应的执行规则,数字列支持:0、最小值、最大值、中位数、平均值、众数、自定义值。字符类型支持最小值、最大值、自定义值

处理示例
如图所示,模型中存在科目成绩为空的数据。
Image
添加替换缺失值节点,在下方节点设置中选择需要填充缺失值的字段和填充规则。
Image
如果选择字段类型为数值,则填充规则可选0、最小值、最大值、中位数、平均值、众数、自定义值。字符类型支持最小值、最大值、自定义值;其他类型支持自定义值填充,如“其他”。
点击执行,可预览处理后数据。

字符串索引

一种类型转换算子,它将指定的属性的值映射成数值型索引,使得只能对数值型数据做处理的算子也可以对属性进行处理。该算子一般用于数据预处理,另外,不适合对于包含连续型数据的列执行该算子,如ID列。
Image
配置释义
将指定的属性的值映射成数值型索引,使得只能对数值型数据做处理的算子 也可以对属性进行处理。
参数设置
选择所有字符串类型属性建立索引:
点选此参数后,不需要手动设置需要索引的列,系统会自动选择所有字符串类型的属性值建立索引; 若不点选此参数,需要设置inputColumns(输入列 )参数,点击选择属性,将需要索引的属性名称添加到已选属性后,点击应用,就选择了一个属性子集。
Image
无效数据处理方式
可以选择忽略无效数据(skip),或者报错(error),也可以不做处理(keep)
Image
索引顺序
索引顺序表示字符串索引依照的规则,分为freque ncyDesc、frequencyAsc 、alphabetDesc和alphabetAsc四种。

  • frequencyDesc和frequencyAsc表示在某个字符串类型列中,以某个字符串出现频率进行排序,分别为降序和升序 。
  • alphabetDesc和alphab etAsc表示在某个字符串类型列中,以编码顺序进行排序,分别为降序和升序。