文本处理是指利用自动化程序对文本数据进行一系列分析、清洗、转换和格式化的操作过程。主要目标是将原始的、非结构化的或半结构化的文本数据,转化为干净、规整、可供下游模型训练或数据分析任务直接使用的结构化数据。本文将为你介绍如何使用文本处理算子。
针对特殊字符可以通过精确匹配或正则匹配的方式进行字符替换,替换为新字符。
应用场景
当从网页、爬虫、用户输入等渠道获取文本数据时,数据往往是 “脏数据”,必须清洗后才能使用,例如:
操作说明
点击加号+,在可视化知识处理中增加文本处理>特殊字符替换算子。
参数 | 说明 |
|---|---|
操作字段 | 选择上游输出字段,一个字段不能重复选择。 |
原始字符 | 支持输入多个普通字符,多个字符之间使用回车键分割。同时可切换到正则表达式。 |
替换字符 | 用户自定义 |
说明
规则的数量不超过10个。
移除 <div>、<p>、<span>、<a> 等用于网页渲染的HTML标签,这些标签属于 “无意义噪声,可能导致分析/训练结果失真,保证文本数据的 “纯净性”,让模型只聚焦于文字本身的语义。
应用场景
爬取网页内容时,文本会夹杂 <p>、<div>、<br>、<a> 等 HTML 标签,这些标签对文本内容本身无意义,比如爬取新闻正文时,需要只保留纯文字内容。
操作说明
点击加号+,在可视化知识处理中增加文本处理>HTML标签移除算子。
div、p、span、table、td、th、h1、h2、h4、form、button、img、input等。计算文本的唯一标识,针对每条文本生成对应的md5哈希值。
应用场景
应用于检测重复文本,数据去重,减少重复数据的计算。
操作说明
点击加号+,在可视化知识处理中增加文本处理>哈希计算算子。
移除文本中的标点符号、重复标点符号、emoji表情等
操作说明
点击加号+,在可视化知识处理中增加文本处理>字符移除算子。