You need to enable JavaScript to run this app.
导航

特征工程

最近更新时间2023.08.22 19:53:01

首次发布时间2022.10.17 16:50:52

在完成数据输入之后,即可对输入数据进行进一步加工处理操作,该章节介绍特征工程算子的功能。

alt

1. 二值化

将数值特征转换为二值特征0或1,在数据挖掘领域,二值化的目的是为了对定量的特征进行“是与否”的划分,以剔除冗余信息

2. 列归一化

对一个表的某一列或多列进行归一化处理,将原始数据缩放到需要的范围。原始数据经过数据归一化处 理后,各指标处于同一数量级,适合进行综合对比评价。暂时不支持inplace修改,生成的结果是一列数 组,若想拆分成单独的列,需要在该算子后增加一个向量分解器算子。现在支持的数据缩放方式为标准 化(standard),最小最大化(min-max)和最大绝对值化(max-abs)

3. 主成分分析法

主成分分析(PCA)是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是 全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。只能对数据型并 且角色为regular的属性做运算,输出通常为中间结果,需要作为其他算子的输入

字段设置

特征列:特征列,用来训练的特征

参数设置

降维方式:

此参数有三个选择,选择 不同表示的降维程度不同 。选择 none 表示不移除任何主成分, 即若是输入的数据含有n 个属性,那么输出的主成 分向量为n维;选择keepV ariance,需要设置子参 数percent;选择fixedNu mber,需要设置子参数 k。

4. 笛卡尔乘积

笛卡尔乘积是指两个集合X和Y的笛卡尓积(Cartesian product),又称直积,表示为X × Y,第一个对 象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。

字段设置

左右操作数所选列

5. 离散余弦变换

离散余弦变换(DCT)将一个长度为N的时间域实值序列转换为一个长度为N的频率域实值序列。

字段设置

特征列:特征列,用来训练的特征

参数设置

反向:当这个参数为true的时候 ,进行反向余弦变换,否 则是正向余弦变换

6. 行归一化

数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数 量级,适合进行综合对比评价。

字段设置

特征列:特征列,用来训练的特征

参数设置

p:p为大于0的实数,表示规 范值。归一化后每行各属 性p次方之和等于1(单位 化)。

7. 奇异值分解

数据降维的一种方式,它可以对数值型数据进行简化处理,通过选取较高的奇异值将数据投影到低维空 间。它只能对角色为regular的属性操作,并且输出通常为中间结果,需要作为其他算子的输入。

字段设置

特征列:特征列,用来训练的特征

参数设置

降维方式:此参数有三个选择,选择 不同表示的降维程度不同 。选择 none 表示不移除任何主成分, 即若是输入的数据含有n 个属性,那么输出的主成 分向量为n维;选择keepV ariance,需要设置子参 数percent;选择fixedNu mber,需要设置子参数 k。

8. 特征哈希

是一种简单的降维方法,目标是把原始的高维特征向量压缩成较低维特征向量,且尽量不损失原始特征 的表达能力。

参数设置

筛选类型:选择筛选覆盖的列范围, 有4种不同的方式,all表 示全部替换,regular_ex pression表示正则表达式 符合时替换

反向选择:若选中,则未被选中的列 被保留

特征数量:特征数量

9. one-hot编码

类型转换算子,将一列映射为一个0/1向量,这个向量最多只有一个1值。详见下图

参数设置

筛选类型:选择筛选覆盖的列范围, 有4种不同的方式,all表 示全部替换,regular_ex pression表示正则表达式 符合时替换

反向选择:若选中,则未被选中的列被保留;选择所有字符串类型属性建立索引:点选此参数后,不需要手动设置需要索引的列,系 统会自动选择所有字符串 类型的属性值建立索引; 若不点选此参数,需要设置inputColumns(输入列 )参数,点击选择属性, 将需要索引的属性名称添 加到已选属性后,点击应用,就选择了一个属性子 集。

dropLast:在编码vector中抛弃最后一个类型

handle invalid:选择keep或error

替换原始列:是否用新生成的列替换原 始列

输出列后缀:为区别于输入列,给输入 列加上后缀作为所对应输 出列的列名

索引顺序:索引顺序表示字符串索引 依照的规则,分为freque ncyDesc、frequencyAsc 、alphabetDesc和alphab etAsc四种。frequencyDe sc和frequencyAsc表示在 某个字符串类型列中,以 某个字符串出现频率进行 排序,分别为降序和升序 。alphabetDesc和alphab etAsc表示在某个字符串 类型列中,以编码顺序进 行排序,分别为降序和升 序。

10. Array处理、Map处理

数据中存在array或map字段时,可通过Array处理、Map处理算子进行数据拆分输出。

11. 特征重要性

计算属性的权重,权重计算输出列名说明:对于数据类型为vector的列,产生的权重计算名字 为VectorColName__index,VectorColName是原向量列名,index是元素在向量中的位置,从零开始。计算权重算子支持5种权重计算方式1.chi-square, 2.correlation 3.Gini 4.information gain 5.Information Gain Ratio 6.PCA.

特征列:  用来训练的特征

标签列:  分类训练的依据

特征重要性计算方法:  目前支持chi-square, correlation, Gini, information gain, Information Gain Ratio, PCA.

12. 特征筛选

计算属性的权重的筛选,权重计算输出列名说明:对于数据类型为vector的列,产生的权重计算名字 为VectorColName__index,VectorColName是原向量列名,index是元素在向量中的位置,从零开始。计算权重算子支持5种权重计算方式1.chi-square, 2.correlation 3.Gini 4.information gain 5.Information Gain Ratio 6.PCA.

特征列:  用来训练的特征

标签列:  分类训练的依据

特征重要性计算方法:  目前支持chi-square, correlation, Gini, information gain, Information Gain Ratio, PCA.

权重关系选择:  以哪种权重方式筛选,提 供threshold、top K, top p%三种筛选方式

阈值:  特征筛选的阈值设置,这里设置是<1的值,根据特征重要性的计算方法算出的结果筛选大于阈值的列