You need to enable JavaScript to run this app.
数据智能体 DataAgent(私有化)

数据智能体 DataAgent(私有化)

复制全文
数据处理
文本处理
复制全文
文本处理

功能概述

文本处理是指利用自动化程序对文本数据进行一系列分析、清洗、转换和格式化的操作过程。主要目标是将原始的、非结构化的或半结构化的文本数据,转化为干净、规整、可供下游模型训练或数据分析任务直接使用的结构化数据。本文将为你介绍如何使用文本处理算子。

算子介绍

特定字符替换

针对特殊字符可以通过精确匹配或正则匹配的方式进行字符替换,替换为新字符。
应用场景
当从网页、爬虫、用户输入等渠道获取文本数据时,数据往往是 “脏数据”,必须清洗后才能使用,例如:

  • 替换 URL、邮箱、手机号等无关字符为统一标识(如 [URL]),避免干扰语义分析。
  • 替换特殊控制字符(如 \n、\t、\r、空格)为统一格式(比如单个空格)。
  • 替换重复字符(如 “啊啊啊”→“啊”)、乱码字符(如 “�”),保证文本可读性。

操作说明
点击加号+,在可视化知识处理中增加文本处理>特殊字符替换算子。
Image

参数

说明

操作字段

选择上游输出字段,一个字段不能重复选择。

原始字符

支持输入多个普通字符,多个字符之间使用回车键分割。同时可切换到正则表达式。

替换字符

用户自定义

说明

规则的数量不超过10个。

HTML 标签移除

移除 <div><p><span><a> 等用于网页渲染的HTML标签,这些标签属于 “无意义噪声,可能导致分析/训练结果失真,保证文本数据的 “纯净性”,让模型只聚焦于文字本身的语义。
应用场景
爬取网页内容时,文本会夹杂 <p><div><br><a> 等 HTML 标签,这些标签对文本内容本身无意义,比如爬取新闻正文时,需要只保留纯文字内容。
操作说明
点击加号+,在可视化知识处理中增加文本处理>HTML标签移除算子。
Image

  • 操作字段:选择移除HTML标签的字段。
  • 移除标签类型:选择在处理过程中需要移除的HTML标签类型,可选的标签类型包括:divpspantabletdthh1h2h4formbuttonimginput等。

哈希计算

计算文本的唯一标识,针对每条文本生成对应的md5哈希值。
应用场景
应用于检测重复文本,数据去重,减少重复数据的计算。
操作说明
点击加号+,在可视化知识处理中增加文本处理>哈希计算算子。
Image

  • 操作字段:选择要检测的字段。
  • 哈希计算方式:单选,默认选择MD5,可选择sha256。

Image

特殊字符移除

移除文本中的标点符号、重复标点符号、emoji表情等
Image

操作说明
点击加号+,在可视化知识处理中增加文本处理>字符移除算子。
Image

  • 操作字段:选择要检测的字段。
  • 移除字符:选择表情符号、标点符号、重复标点符号等,重复标点符号就是例如把“!!!”变成“!”。
最近更新时间:2026.03.25 17:01:56
这个页面对您有帮助吗?
有用
有用
无用
无用