You need to enable JavaScript to run this app.
导航

自然语言处理

最近更新时间2023.08.22 19:53:01

首次发布时间2022.10.17 16:50:52

在完成数据输入之后,即可对输入数据进行进一步加工处理操作,该章节介绍自然语言处理算子的功能。
alt

1. 生成句向量

根据词向量生成文本的句向量,可选择预训练好的词向量,也可以根据自己训练词向量生成句向量

字段设置

输入列:输入列(输入为string类 型的array数组,例如分 词算子后的结果作为输入 ,右侧端口为可选项,输 入为用户自己训练的词向量)

参数设置

输出列:输出列

2. 分词

此算子将对对中文文档进行分词。与英文不同,中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词。例如:我是一个学生,分词的结果是: 我、是、一个、学生。(输入为string类型的文本)

字段设置

输入列:输入列

参数设置

输出列名:输出列的名字

3. 移除停用词

从一段文本中移除指定停用词。为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前 或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。(需要的输入为string类型 的array数组,通常接在分词算子后)

字段设置

输入词列:输入词列

参数设置

默认停用词表语言:默认停用词表语言,系统 提供三种语言的停用词表 :中文、英语和法语。