数据拆分类算子,包含:数据拆分、拆分字段算子等,可以实现一份数据按照一定条件进行拆分,得到多份数据的效果。
数据拆分 算子会将算子按照这个比例拆分成两份数据。
首先,在配置界面,用户可以进行参数设置,填写拆分比例和最大限制。填写框中的这个值代表第一份数据占输入数据的比例,之后按照比例拆分的两份数据即可进行下一步操作。
其次,右侧的预览区,点击“数据1”和“数据2”即可进行数据预览。预览数据是基于原始数据的抽样结果计算生成,如存在多张表关联查询,抽样后再关联计算的结果可能同实际存在偏差(仅影响预览展示,不影响最终计算,可设置较大的预览数量)!如A表和B表分别存储语文和数学的成绩,现需要将两张表合并,但预览时A表抽样到小张的语文成绩,B表抽样到小李的数学成绩,两表合并后的预览数据会存在小张数学成绩展示为空,小李的语文成绩展示为空。
拆分字段 算子,根据字段格式或内容进行拆分成多个字段(列),支持根据分隔符拆分、Map JSON嵌套字段解析拆分、数组JSON嵌套字段解析拆分,同时也支持将纯数组字段中的内容解析铺开成多行,注意数组JSON嵌套字段解析之后会根据数组内容平铺成多行,可能会造成数据量变大,请提前确认数据内容。
场景释义 :
a.分隔符拆分:存在城市字段存储内容为「城市-Code」,需要根据分隔符'-'拆分成城市名+城市Code两个字段,此时可以选择分隔符的拆分方式拆分生成两个字段
b.按JSON格式拆分:存在城市字段存储结构为JSON结构,如城市{"城市名": "Shanghai","城市code": "123"},需要单独抽取其中的城市名,此时可以选择按JSON格式的拆分方式提取嵌套的字段
操作步骤 :
1.新建「拆分字段」算子并选中进行编辑。
2.选择需要拆分的字段类型。
3.支持 按分隔符 及 按JSON格式 两种方式进行拆分。
4.当选中 按分隔符 时:
5.当选中 按JSON格式 时,Json格式包含以下三种:
注意
数组类型字段拆分会根据内容平铺成多行,数据量可能会增加
定义拆分后生成列的名称:
可以根据嵌套的内容定义嵌套中需要解析提取的字段