文档处理--数据智能体 DataAgent（私有化）-火山引擎

文档中心

数据智能体 DataAgent（私有化）

数据处理

文档处理

功能概述

文档处理利用自动化技术，对多种格式的文档文件（如 PDF、Word、PPT、HTML 等）进行解析，并从中提取、组织和结构化其内容的过程。其核心目标是将蕴含在各类文档中的非结构化或半结构化信息（包括文本、表格、图片、元数据等），转换为可供下游系统（如知识库、检索引擎、大语言模型应用）直接使用的标准化、结构化数据。本文将为您介绍文档处理算子。

算子介绍

知识分段

可将非结构化的数据分段，将文本分段，支持文本分段的相关配置，可以与导入知识引擎一起使用，将知识分段切片后导入对应知识库。

操作说明

点击加号+，在可视化知识处理中选择文档处理>知识分段算子，对数据进行分段。

具体参数配置说明如下:

参数	说明
文件地址	从上游指定字段取值，内容一般为TOS文件的地址，支持以下类型的文件解析：pdf、docx、doc、txt、markdown、html、pptx、image、xlsx、email等
切片元素	图片：勾选图片后，知识回答的内容会包括图片；如不勾选图片，回答的内容不会包括图片信息。表格：勾选表格后，对表格进行切片，按照切片召回；不勾选表格，表格作为一个整体召回。
切片策略	自动切片：采用通用切片策略，由模型按照文档结构自动识别文档进行切片。自定义切片：支持自定义长度、规则，按照更贴近业务自定义规则的场景切片。需要设置单切片长度和切片规则。
单切片长度	切片分段大小，支持通过下拉框选择切片大小为1000字符、2000字符、3000字符、4000字符。
切片规则	选择切片的标志，例如换行、2个换行、中文句号、中文叹号、英文句号、英文叹号。
输出字段	分段后的新列名，默认值为 chunk_result，一般不需要更改

PDF文档智能解析

支持PDF进行深度解析和结构化处理，通过版面分析、文字识别，按照阅读顺序提取PDF、图片中的文本、表格、图片等关键信息，最终组织成半结构化的带有语义信息和逻辑结构的文档，并以Markdown格式返回。

操作说明

点击加号+，在可视化知识处理中选择文档处理>PDF文档智能解析算子。
输入配置：
- 输入类型：可选择文件url地址或文件base64位编码。
- PDF字段：选择要使用的PDF字段。
解析配置：
- 起始页码：注释、默认值如图所示。（根据技术选型决定）
- 解析页数：注释、默认值如图所示。（根据技术选型决定）

高级配置：

具体参数说明如下：

配置项	说明
并发数	设置节点处理任务的并发数量。该项为必填项。默认值：5
轮询间隔	设置每次轮询任务的时间间隔。单位为毫秒。默认值：3000
最大等待时间	设置获取数据时的最大等待时间，若超过该时间，任务将中断。单位为毫秒。默认值：300000
异常处理	选择当任务执行发生异常时的处理方式。该项为必填项。可选值：忽略：忽略异常，继续执行后续任务。抛出：抛出异常，中断任务执行。

输出配置：

输出字段：自定义输出字段，默认pdf_content。不支持首位空格，其余均支持，不超过64个字符。

最近更新时间：2026.03.25 18:57:08

这个页面对您有帮助吗？

有用

无用

数据智能体 DataAgent（私有化）

知识分段 #

操作说明 #

PDF文档智能解析 #

操作说明 #

知识分段

操作说明

PDF文档智能解析

操作说明