文档处理利用自动化技术,对多种格式的文档文件(如 PDF、Word、PPT、HTML 等)进行解析,并从中提取、组织和结构化其内容的过程。其核心目标是将蕴含在各类文档中的非结构化或半结构化信息(包括文本、表格、图片、元数据等),转换为可供下游系统(如知识库、检索引擎、大语言模型应用)直接使用的标准化、结构化数据。本文将为您介绍文档处理算子。
可将非结构化的数据分段,将文本分段,支持文本分段的相关配置,可以与导入知识引擎一起使用,将知识分段切片后导入对应知识库。
点击加号+,在可视化知识处理中选择文档处理>知识分段算子,对数据进行分段。
具体参数配置说明如下:
参数 | 说明 |
|---|---|
文件地址 | 从上游指定字段取值,内容一般为TOS文件的地址,支持以下类型的文件解析:pdf、docx、doc、txt、markdown、html、pptx、image、xlsx、email等 |
切片元素 |
|
切片策略 |
|
单切片长度 | 切片分段大小,支持通过下拉框选择切片大小为1000字符、2000字符、3000字符、4000字符。 |
切片规则 | 选择切片的标志,例如换行、2个换行、中文句号、中文叹号、英文句号、英文叹号。 |
输出字段 | 分段后的新列名,默认值为 chunk_result,一般不需要更改 |
支持PDF进行深度解析和结构化处理,通过版面分析、文字识别,按照阅读顺序提取PDF、图片中的文本、表格、图片等关键信息,最终组织成半结构化的带有语义信息和逻辑结构的文档,并以Markdown格式返回。
点击加号+,在可视化知识处理中选择文档处理>PDF文档智能解析算子。
输入配置:
解析配置:
高级配置:
具体参数说明如下:
配置项 | 说明 |
|---|---|
并发数 | 设置节点处理任务的并发数量。该项为必填项。 |
轮询间隔 | 设置每次轮询任务的时间间隔。单位为毫秒。 |
最大等待时间 | 设置获取数据时的最大等待时间,若超过该时间,任务将中断。单位为毫秒。 |
异常处理 | 选择当任务执行发生异常时的处理方式。该项为必填项。
|
输出配置:
输出字段:自定义输出字段,默认pdf_content。不支持首位空格,其余均支持,不超过64个字符。