You need to enable JavaScript to run this app.
数据智能体 DataAgent(私有化)

数据智能体 DataAgent(私有化)

复制全文
数据处理
文档处理
复制全文
文档处理

功能概述

文档处理利用自动化技术,对多种格式的文档文件(如 PDF、Word、PPT、HTML 等)进行解析,并从中提取、组织和结构化其内容的过程。其核心目标是将蕴含在各类文档中的非结构化或半结构化信息(包括文本、表格、图片、元数据等),转换为可供下游系统(如知识库、检索引擎、大语言模型应用)直接使用的标准化、结构化数据。本文将为您介绍文档处理算子。

算子介绍

知识分段

可将非结构化的数据分段,将文本分段,支持文本分段的相关配置,可以与导入知识引擎一起使用,将知识分段切片后导入对应知识库。

操作说明

点击加号+,在可视化知识处理中选择文档处理>知识分段算子,对数据进行分段。
Image
具体参数配置说明如下:

参数

说明

文件地址

从上游指定字段取值,内容一般为TOS文件的地址,支持以下类型的文件解析:pdf、docx、doc、txt、markdown、html、pptx、image、xlsx、email等

切片元素

  • 图片:勾选图片后,知识回答的内容会包括图片;如不勾选图片,回答的内容不会包括图片信息。
  • 表格:勾选表格后,对表格进行切片,按照切片召回;不勾选表格,表格作为一个整体召回。

切片策略

  • 自动切片:采用通用切片策略,由模型按照文档结构自动识别文档进行切片。
  • 自定义切片:支持自定义长度、规则,按照更贴近业务自定义规则的场景切片。需要设置单切片长度和切片规则。

单切片长度

切片分段大小,支持通过下拉框选择切片大小为1000字符、2000字符、3000字符、4000字符。

切片规则

选择切片的标志,例如换行、2个换行、中文句号、中文叹号、英文句号、英文叹号。

输出字段

分段后的新列名,默认值为 chunk_result,一般不需要更改

PDF文档智能解析

支持PDF进行深度解析和结构化处理,通过版面分析、文字识别,按照阅读顺序提取PDF、图片中的文本、表格、图片等关键信息,最终组织成半结构化的带有语义信息和逻辑结构的文档,并以Markdown格式返回。

操作说明

  1. 点击加号+,在可视化知识处理中选择文档处理>PDF文档智能解析算子。

  2. 输入配置:
    Image

    • 输入类型:可选择文件url地址或文件base64位编码。
    • PDF字段:选择要使用的PDF字段。
  3. 解析配置:
    Image

    • 起始页码:注释、默认值如图所示。(根据技术选型决定)
    • 解析页数:注释、默认值如图所示。(根据技术选型决定)
  4. 高级配置:
    Image
    具体参数说明如下:

    配置项

    说明

    并发数

    设置节点处理任务的并发数量。该项为必填项。
    默认值:5

    轮询间隔

    设置每次轮询任务的时间间隔。单位为毫秒。
    默认值:3000

    最大等待时间

    设置获取数据时的最大等待时间,若超过该时间,任务将中断。单位为毫秒。
    默认值:300000

    异常处理

    选择当任务执行发生异常时的处理方式。该项为必填项。
    可选值:

    • 忽略:忽略异常,继续执行后续任务。
    • 抛出:抛出异常,中断任务执行。
  5. 输出配置:
    Image
    输出字段:自定义输出字段,默认pdf_content。不支持首位空格,其余均支持,不超过64个字符。

最近更新时间:2026.03.25 18:57:08
这个页面对您有帮助吗?
有用
有用
无用
无用