文本处理--数据智能体 DataAgent（私有化）-火山引擎

文档中心

数据智能体 DataAgent（私有化）

数据处理

文本处理

功能概述

文本处理是指利用自动化程序对文本数据进行一系列分析、清洗、转换和格式化的操作过程。主要目标是将原始的、非结构化的或半结构化的文本数据，转化为干净、规整、可供下游模型训练或数据分析任务直接使用的结构化数据。本文将为你介绍如何使用文本处理算子。

算子介绍

特定字符替换

针对特殊字符可以通过精确匹配或正则匹配的方式进行字符替换，替换为新字符。
应用场景
当从网页、爬虫、用户输入等渠道获取文本数据时，数据往往是 “脏数据”，必须清洗后才能使用，例如：

替换 URL、邮箱、手机号等无关字符为统一标识（如 [URL]），避免干扰语义分析。
替换特殊控制字符（如 \n、\t、\r、空格）为统一格式（比如单个空格）。
替换重复字符（如 “啊啊啊”→“啊”）、乱码字符（如 “�”），保证文本可读性。

操作说明
点击加号+，在可视化知识处理中增加文本处理>特殊字符替换算子。

参数	说明
操作字段	选择上游输出字段，一个字段不能重复选择。
原始字符	支持输入多个普通字符，多个字符之间使用回车键分割。同时可切换到正则表达式。
替换字符	用户自定义

说明

规则的数量不超过10个。

HTML 标签移除

移除 <div>、<p>、<span>、<a> 等用于网页渲染的HTML标签，这些标签属于 “无意义噪声，可能导致分析/训练结果失真，保证文本数据的 “纯净性”，让模型只聚焦于文字本身的语义。
应用场景
爬取网页内容时，文本会夹杂 <p>、<div>、<br>、<a> 等 HTML 标签，这些标签对文本内容本身无意义，比如爬取新闻正文时，需要只保留纯文字内容。
操作说明
点击加号+，在可视化知识处理中增加文本处理>HTML标签移除算子。