You need to enable JavaScript to run this app.
导航

数据拆分类算子

最近更新时间2023.09.14 20:02:12

首次发布时间2023.09.14 20:02:12

1.数据拆分概述

数据拆分类算子,包含:数据拆分、拆分字段算子等,可以实现一份数据按照一定条件进行拆分,得到多份数据的效果。

2.算子介绍

2.1 数据拆分

数据拆分 算子会将算子按照这个比例拆分成两份数据。
alt
首先,在配置界面,用户可以进行参数设置,填写拆分比例和最大限制。填写框中的这个值代表第一份数据占输入数据的比例,之后按照比例拆分的两份数据即可进行下一步操作。

alt

其次,右侧的预览区,点击“数据1”和“数据2”即可进行数据预览。预览数据是基于原始数据的抽样结果计算生成,如存在多张表关联查询,抽样后再关联计算的结果可能同实际存在偏差(仅影响预览展示,不影响最终计算,可设置较大的预览数量)!如A表和B表分别存储语文和数学的成绩,现需要将两张表合并,但预览时A表抽样到小张的语文成绩,B表抽样到小李的数学成绩,两表合并后的预览数据会存在小张数学成绩展示为空,小李的语文成绩展示为空。

2.2 拆分字段

拆分字段 算子,根据字段格式或内容进行拆分成多个字段(列),支持根据分隔符拆分、Map JSON嵌套字段解析拆分、数组JSON嵌套字段解析拆分,同时也支持将纯数组字段中的内容解析铺开成多行,注意数组JSON嵌套字段解析之后会根据数组内容平铺成多行,可能会造成数据量变大,请提前确认数据内容。

场景释义

a.分隔符拆分:存在城市字段存储内容为「城市-Code」,需要根据分隔符'-'拆分成城市名+城市Code两个字段,此时可以选择分隔符的拆分方式拆分生成两个字段

b.按JSON格式拆分:存在城市字段存储结构为JSON结构,如城市{"城市名": "Shanghai","城市code": "123"},需要单独抽取其中的城市名,此时可以选择按JSON格式的拆分方式提取嵌套的字段
alt

操作步骤
1.新建「拆分字段」算子并选中进行编辑。

2.选择需要拆分的字段类型。

3.支持 按分隔符 及 按JSON格式 两种方式进行拆分。

4.当选中 按分隔符 时:

  • 分隔符支持多选:多选后根据匹配的先后顺序依次切分成多个字段。
  • 最多拆分为10列。
  • 根据分隔符出现的位置依次定义的新增列,需要重新定义列的字段名称。

5.当选中 按JSON格式 时,Json格式包含以下三种:

  • Map({key:value}):如城市{"城市名": "Shanghai","城市code": "123"}
  • 数组[{key:value}]:如城市[{"城市名": "Shanghai"},{"城市名": "Beijing"}]
  • 数组[value]:如城市["上海",“北京”] *

注意

数组类型字段拆分会根据内容平铺成多行,数据量可能会增加

alt
定义拆分后生成列的名称:

可以根据嵌套的内容定义嵌套中需要解析提取的字段

  • Map({key:value})/ 数组[{key:value}] 拆分方法遵循Json_path的语法函数:原始字段名.嵌套字段名,其中点号代表嵌套的层级,如存在多层则可以继续追加,如 城市{"城市名1": {"城市名2": "Shanghai","城市code": "123"},"城市code": "123"}获得 城市名2的内容,则为 城市.城市名1.城市名2
  • 数组[value]:数组拆分只涉及内容平铺多行,此时自动归到一个新的字段中,只需定义字段名