本节将说明如何创建一个新的知识库。创建成功后,可以导入文档。
操作步骤
- 单击知识库列表页右上角的【创建知识库】,进入知识库创建页面

- 在创建知识库页面填写相关参数,具体参数如下。


配置类别 | 参数名称 | 是否必填 | 参数说明 |
|---|
基础信息 | 名称 | 必填 | 指定创建的知识库名称。 - 只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空
- 长度要求:[1, 64]
- 知识库名称不能重复
|
描述 | 必填 | 自定义知识库的描述。 - 长度要求:[0, 500]
- eg:创建了一个法律行业的知识库,描述为“法律文书知识,包括《中华人民共和国刑法修正案(十二)》、《中华人民共和国民法典》等法条,近年裁判文书等。”
|
数据类型 | 必选 | 知识库的数据类型。 - 全模态数据:适用于文件结构不同的数据,如文章、报告、书籍等,通常为文档内容丰富、版面复杂,需要平台解析分段。支持的文档格式:mp4,pdf, ppt,txt,markdown,doc,xlsx,csv,jsonl,faq
- 结构化数据:适用于文件结构完全相同的数据,如问答、用户数据、商品数据等,通常文档结构相对清晰规范,无需平台分段。支持的文档格式: csv,xlsx,jsonl,faq.xlsx
|
配置知识库 | 向量化模型 | 必选 | 根据所选数据模态平台提供不同的默认推荐模型 |
向量维度 | 必选 | 用于控制将原始文本、图片等映射到高维空间中时,所生成向量的维数。取值越高,检索准确性越高。若数据量极大且性能要求极高时,可考虑降维以提升检索效率。 |
切片方式 | 必选 | 仅在数据类型为“全模态数据”支持配置。 文本/富文本:支持默认切片规则和自定义切片规则 - 默认切片规则:平台默认的切片规则,根据语义自动化均衡切片
- 自定义切片规则:支持自定义文本分隔符切片
视频:支持默认切片规则 - 默认切片规则:平台默认的切片规则,根据 asr 语义自动切片
|
默认切片规则/切片最大长度 | 必填 | 仅在数据类型为“全模态数据”,切片方式为”默认切片规则“时支持配置。
经过解析、切片处理后单个文本片/视频片的最大长度。请确保切片最大长度略小于向量化模型的最大输入长度,否则超长的部分会被模型丢弃。 |
默认切片规则 / 合并短文本片&合并短视频片段 | 非必填 | 仅在数据类型为“全模态数据”,切片方式为“默认切片规则”支持配置。
配置是否对短切片进行合并,且合并后的切片会限制不超过切片最大长度 |
默认切片规则 / 图片 OCR | 非必填 | 仅在数据类型为“全模态数据”/“文本&富文本”,切片方式为“默认切片规则”支持配置。
配置是否开启图片 OCR 能力,开启后可支持对 pdf、docx 文档中的图片进行文字识别,辅助检索召回 |
自定义切片规则 / 分隔符号 | 必填 | 仅在数据类型为“全模态数据”/“文本&富文本”,切片方式为“自定义切片规则”支持配置。 注意 若设置了分隔符号,切片最大长度限制和合并短文本片策略将不会生效,且无法解析图片,表格将作为普通文本段落处理 |
CPU 配额 | 必填 | 索引检索消耗的 CPU 配额,1 CPU 核 约为 100 QPS;如果检索消耗的 CPU 超过配额,该索引会被限流,格式为正整数 |
字段配置 | 上传文档 | 非必填 | 仅在数据类型为“结构化数据”支持配置。
可以上传示例文档,用于确定表结构。后续知识库的文档须符合该结构规范,支持 csv、xlsx、jsonl 格式 |
表结构 | 必填 | 仅在数据类型为“结构化数据”支持配置
用于后续导入文档时的字段校验 |
高级配置 | 索引算法 | 必选 | 索引算法,默认 HNSW-Hybrid,枚举值:HNSW-Hybrid、HNSW、FLAT。 - HNSW:全称是 Hierarchical Navigable Small World,一种用于在高维空间中采用 ANN 搜索的数据结构和算法,是基于图的索引。HNSW通过构建多层网络减少搜索过程中需要访问的节点数量,实现快速高效地搜索最近邻,适用于大规模数据集,对检索性能要求高的场景
- HNSW-Hybrid:支持混合索引的 HNSW 算法。混合索引算法可以同时对数据集中的稠密向量和稀疏向量进行索引,并在检索时返回兼顾两种类型相似性的结果。适用于对搜索效率要求较高,且需要同时检索稀疏和稠密向量的场景。
- FLAT:暴力索引,搜索时遍历整个向量数据库的所有向量与目标向量进行距离计算和比较,查询速度较慢,但是 FLAT 能提供100%的检索召回率,适用于小规模数据集,对检索精度要求高的场景。
当选择多语言模型 及 混合向量化模型时,可选择 HNSW-Hybrid 模式 注意 多语言模型会同时产出稠密向量和稀疏向量,分别适用于语义检索和关键词检索。默认的 HNSW-Hybrid 算法可以兼顾稠密向量和稀疏向量,在关注语义相似性的同时兼顾字面上的匹配,带来更优的检索效果。
您也可以使用 HNSW 或 FLAT 算法搭配多模语言模模型,此时索引只会索引模型产出的稠密向量,即只支持语义检索能力。 |
量化方式 | 必选 | 量化方式。量化方式是索引中对向量的压缩方式,可以降低向量间相似性计算的复杂度。基于向量的高维度和大规模特点,采用向量量化可以有效减少向量的存储和计算成本。默认 Int8,枚举值:Int8、Float、Fix16。 - Int8:将 4 字节的 float 压缩为单个字节,以获取内存和计算延迟的收益,会造成微小的损失精度,比如 cosine 距离会出现大于1的分值。通过损失一定的检索精度,提升检索性能,节约资源成本。
- Float:全精度,未做压缩量化。
- Fix16:将 4 字节的 float 压缩为两个字节,以获取内存和计算延迟的收益,会造成微小的损失精度。通过损失一定的检索精度,提升检索性能,节约资源成本。
|
标签 / 添加字段 | 非必填 | 单击字段列表下【添加标签】按钮,添加自定义标签,此处的标签可用于在线检索时对文档进行过滤 |
标签 / 标签名 | 必填 | 填写字段名称,不能为空,且名称不能重复,长度要求为 [1, 128] |
标签 / 标签类型 | 必填 | 在下拉列表选择字段类型,可选值:bool、list<string>、list<int64>、int64、float32 |
标签 / 标签选项 | 非必填 | 当所选类型为 list<string> 或 list<int64> 时,可以指定选项值,后续文档打标签可直接选择 |
标签 / 删除 | 可选 | 单击可以删除当前标签 |
- 填写完成后单击右侧「创建知识库」,界面显示“知识库创建成功”。若需要立即导入文档可在弹窗中点击「立即导入」,若稍后再导入可选择「暂不导入」。

- 导入文档支持本地上传、TOS 导入、导入飞书文档和公开下载链接四种方式,可以参考知识库文档格式说明 及前端示例文件准备导入文档。