You need to enable JavaScript to run this app.
向量数据库VikingDB

向量数据库VikingDB

复制全文
文档管理
导入文档
复制全文
导入文档

本节将说明如何向已创建的知识库中导入文档。

操作步骤
  1. 在知识库列表,点击知识库卡片中的【导入文档】,或进入知识库详情页面后点击【导入文档】

Image

Image

  1. 在【导入文档】页面中填写相关参数,具体参数如下。

Image

导入方式

导入方式

说明

本地上传

直接上传本地文件到知识库,系统会默认生成 doc_id,因此分多次导入重名文档时都会保留,如需更新文档,请删除该旧文档后重新导入,或参照下文通过 url 方式导入,指定要更新文档的 doc_id,新文档会覆盖旧文档

从 TOS 中导入

  • 需要先进行跨服务授权, 否则无法获取到当前账号下 TOS 中的文档信息
  • 直接选择 TOS 路径(注:当前仅支持华北区域)。

注意

  1. 该目录下的文件可以在 TOS 上完成 doc_id 的定义,没有 doc_id 的文档将会由系统自动生成 doc_id。注意 doc_id 只能使用英文字母、数字、下划线_,并以英文字母开头,长度要求:[1, 128]。在 TOS 上有两种定义doc_id 的方式:1)通过文档的【修改元数据信息操作】,添加字段选择 x-tos-meta,配置 doc_id 的值,如下图。2)使用接口批量定义,见SetObjectMeta
  2. 导入 TOS 目录下的文档是一次性的,后续目录下的文档变更不会被自动同步到知识库
  3. 目录下文档的 doc_id 不能重复,如果有重复,仅会覆盖并保留最后上传的文档
  4. 如果想对目录下文件内容进行变更,有以下两种方式:
    1. 通过 url 方式导入,并指定为要替换文档的 doc_id(相对比较快)
    2. 通过 TOS 方式导入,这种方式会对目录下所有的文档做变更检查,并将新文档替换旧文档。由于需要做文件校验,这种方式耗时较长
  5. 不符合格式要求的文档将会被忽略不会被导入知识库
  6. 导入目录时只会扫描目录下的文件,而不会递归查看子目录

Image
Image

公开下载链接

  • 下载链接:本次导入文档的链接地址
  • 文档 ID:即 文档的 doc_id
  • 文档名称:以格式结尾,如“文档名称.pdf”

Image

从飞书文档导入

  • 通过飞书文档导入
    • 第一次使用需要按照引导先安装【火山方舟知识库】应用,否则无法获取飞书下的文档信息,安装应用有两种方式,
      • 一种是飞书企业管理员进行授权安装,搜索【火山方舟知识库】应用然后授权安装

Image

  • 另一种是普通飞书用户安装,搜索【火山方舟知识库】应用申请安装,有飞书企业管理员进行审批

Image

  • 应用安装完成后,在知识库绑定飞书账号开始上传文档

Image

  • 支持选择飞书文档/文件夹/知识库,或者通过URL添加

Image

注意

飞书企业管理员在飞书管理后台工作台的应用管理模块下选择【火山方舟知识库】可配置应用的可用范围及禁止哪些成员使用等。

Image

  • 若要解除绑定知识库,点击按钮,退出账号即可

Image

  • 导入飞书文档可支持开启自动更新,保留目录结构,文档去重等配置。飞书文档自动更新需满足以下条件:1. 飞书租户需安装最新版本的应用;2. 飞书租户需是所上传文档的所有者或管理员

Image

  • 注意:
    • 第一次使用需在飞书应用授权管理开通火山方舟知识库授权
    • 用户有阅读权限的文档才能支持导入;用户为文档所有者或管理员的文档才能支持飞书文档自动更新
    • 相关新功能上线后需要用户手动进入【火山方舟知识库】应用后台,点击更新。(如下图)

Image

支持文档格式说明

知识库支持结构化和非结构化两大类文档,不同类型文档支持规格请参考:支持的文档类型及规格

说明

对于 faq 特殊格式的说明:​上传文档时,需要通过特殊的后缀 .faq 进行标识,格式为:文档名.faq.xlsx;文档固定格式为一列问题、一列答案,示例:

Q&A问答对示例.faq.xlsx
未知大小

解析限制说明:对于问题或答案为空的行会跳过不做处理。
结构化文档限制:每个可解析的切片(即原文档中单行或单列)字符长度最多为 65535。

文档同步说明

文档内容更新如何同步到知识库

目前知识库文档的更新需要用户再次上传目标文档,利用相同的 doc_id 实现对原文档的覆盖更新。
对于更新的文档同步到知识库的具体操作,可参考以下说明:

  • 通过界面上传

利用公开下载链接,指定新文档的文件 ID 为需要替换掉的原文档 ID,即可实现文件覆盖更新。
Image

  • 通过 API 或 SDK 上传

使用 /api/knowledge/doc/add 接口上传文档时,指定 doc_id 为需要替换的文档 ID,即可实现文档和切片内容的覆盖。
需要注意的是,"add_type" == "tos" 时,该字段无效,需参考 TOS 上完成 doc_id 的定义 。

文件夹下增量文档更新如何同步到知识库

目前知识库仅支持【从 TOS 中导入】实现增量文档更新。
当已导入的 TOS 目录下有新文件存在,再次导入该目录,知识库会自动根据是否已有同名文档进行判断,并将未导入的文档上传到知识库中。同名的重复文档则会自动跳过,不会再次上传知识库。
对于增量文档更新的具体操作,可参考以下说明:
【方式一】通过界面操作
在导入文档页面选择从 TOS 中导入,再次导入同一个目录。
【方式二】通过 API 操作
通过文档上传接口,add_type 选择 tos ,tos_path 填写同一个目录路径。

最近更新时间:2026.01.04 19:57:45
这个页面对您有帮助吗?
有用
有用
无用
无用