You need to enable JavaScript to run this app.
导航

自然语言处理

最近更新时间2023.05.19 17:24:06

首次发布时间2022.07.25 20:45:42

1. 概述

自然语言处理,是指可视化建模支持以多种自然语言处理方式,对数据进行加工处理,以便更直观、便捷地进行后续的可视化查询与分析展现。本文将为您介绍自然语言处理算子的功能。
alt

2. 功能介绍

2.1 生成句向量

根据词向量生成文本的句向量,可选择预训练好的词向量,也可以根据自己训练词向量生成句向量。
字段设置
输入列:输入列(输入为 string 类型的 array 数组,例如分词算子后的结果作为输入,右侧端口为可选项,输入为用户自己训练的词向量)。
参数设置
输出列:输出列

2.2 分词

分词算子,支持对中文文档进行分词。与英文不同,中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词。例如:我是一个学生,分词的结果是:我、是、一个、学生。(输入为 string 类型的文本)
字段设置
输入列:输入列
参数设置
输出列名:输出列的名字

2.3 移除停用词

从一段文本中移除指定停用词。为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为 Stop Words(停用词)。(需要输入为 string 类型的 array 数组,通常接在分词算子后)
字段设置
输入词列:输入词列
参数设置
默认停用词表语言:默认停用词表语言,系统提供三种语言的停用词表:中文、英语和法语。