You need to enable JavaScript to run this app.
导航

导入文档

最近更新时间2024.04.16 13:11:58

首次发布时间2024.03.01 17:27:41

本节将说明如何向已创建的知识库中导入文档。

说明

  • 单个知识库的文档数不可超过10K个。
  • 单个文档的生成的chunk数限制为10K个。

操作步骤
  1. 进入向量数据库产品,在左侧导航栏中点击「知识库」,进入知识库产品。
  2. 在知识库列表,点击知识库卡片中的「导入文档」,或进入知识库详情页面后点击。
    图片
  3. 在「导入文档」页面中填写相关参数,具体参数如下。

图片

  • 导入方式:支持从TOS中导入、公开下载链接。目前支持的格式包括txt, doc, docx, pdf(支持扫描件), faq.xlsx, markdown/md, pptx。
    • 从TOS中导入:
      • 需要先进行跨服务授权, 否则无法获取到当前账号下TOS中的文档信息。
      • 填写TOS路径,如下图,登陆到对象存储中,找到对应的存储桶,复制路径即可(注:当前仅支持华北区域);将导入该目录下所有文件,不包含子目录文件。
        图片
      • 注意:
        • 该目录下的文件均需要在TOS上完成doc_id的定义,没有doc_id的文档将会由系统自动生成doc_id。注意doc_id只能使用英文字母、数字、下划线_,并以英文字母开头,长度要求:[1, 128]。在TOS上有两种定义doc_id的方式:1)通过文档的「修改元数据信息操作」,添加字段选择x-tos-meta,配置doc_id的值。2)使用接口批量定义,见SetObjectMeta
          图片
        • 导入目录下的文档是一次性的,后续目录下的文档变更不会被自动同步到知识库。
        • 目录下文档的doc_id不能重复,如果有重复,最终只会保留其中的一个文档;如果目录中有知识库中已有的文档(doc_id相同),会使用tos中的文档替换已有的文档。
        • 如果目录下文件内容的变更需求,有以下两种方式:1)通过url方式导入,并指定要替换文档的doc_id(相对比较快);2)通过tos方式导入,这种方式会对目录下所有的文档做变更检查,并将新文档替换旧文档。由于需要做文件校验,这种方式耗时较长。
        • 当前tos目录的导入文件数量限制为10K个,超过的将不会被导入。
        • 不符合格式要求的文档将会被忽略不会被导入知识库。
        • 导入目录时只会扫描目录下的文件,而不会递归查看子目录。
    • 公开下载链接,需要填写的参数如下:
      • 链接:本次导入文档的链接地址
      • 文档名称:以格式结尾,如“文档名称.pdf”
      • 元信息:定义本次导入文档的元信息字段及字段值。
        图片

【对于faq格式的说明】

  1. 上传文档时,需要通过特殊的后缀.faq进行标识,格式为:文档名.faq.xlsx;文档固定格式为一列问题、一列答案,示例:Q&A问答对示例
  2. 解析限制说明:支持解析多个sheet,不超过50个;多个sheet总行数上限为1w,超过文档处理失败;对于问题或答案为空的行会跳过不做处理。

支持文档格式说明
  • 支持的文档格式:txt, doc, docx, pdf(支持扫描件), faq.xlsx, markdown/md, pptx
    • 对于doc,docx,pdf,pptx类型的文档,大小限制为20M;对于txt类型的文档,大小限制为5M;对于faq.xlsx文件,最多支持1w行。
    • 其中,对于包含图片或表格的文档,只会解析出其中的文本,图片和表格会被忽略。
    • 解析会默认去掉文档中的水印。
  • 不支持的文档格式:非faq标准格式的表格、csv、html等
    • 不支持的文档格式,从TOS中导入时会直接被略过

格式

功能点

是否支持

PDF(含扫描件)

单栏文本

多栏文本

跨页文本

公式

图片

表格

PPT

文本

多栏文本

多栏图片

多栏表格

公式