自然语言处理--智能数据洞察（私有化）-火山引擎

文档中心

智能数据洞察（私有化）

请输入

数据处理

自然语言处理

1. 概述

自然语言处理，是指可视化建模支持以多种自然语言处理方式，对数据进行加工处理，以便更直观、便捷地进行后续的可视化查询与分析展现。本文将为您介绍自然语言处理算子的功能。
alt

2. 功能介绍

2.1 生成句向量

根据词向量生成文本的句向量，可选择预训练好的词向量，也可以根据自己训练词向量生成句向量。
字段设置
输入列：输入列(输入为 string 类型的 array 数组，例如分词算子后的结果作为输入，右侧端口为可选项，输入为用户自己训练的词向量)。
参数设置
输出列：输出列

2.2 分词

分词算子，支持对中文文档进行分词。与英文不同，中文是以字为单位，句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词，就是中文分词。例如：我是一个学生，分词的结果是：我、是、一个、学生。(输入为 string 类型的文本)
字段设置
输入列：输入列
参数设置
输出列名：输出列的名字

2.3 移除停用词

从一段文本中移除指定停用词。为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为 Stop Words(停用词)。(需要输入为 string 类型的 array 数组，通常接在分词算子后)
字段设置
输入词列：输入词列
参数设置
默认停用词表语言：默认停用词表语言，系统提供三种语言的停用词表：中文、英语和法语。

最近更新时间：2023.05.19 17:24:06

这个页面对您有帮助吗？

有用

无用

智能数据洞察（私有化）

2.1 生成句向量 #

2.2 分词 #

2.3 移除停用词 #

2.1 生成句向量

2.2 分词

2.3 移除停用词