本文介绍如何创建一个新的知识库。创建成功后，可以导入文档。 --- # 准备工作 * 您已注册火山引擎账号。操作方法参见[账号注册流程](https://www.volcengine.com/docs/6261/64925)。 * 您的火山引擎账号已完成实名认证。操作方法参见[基本介绍](https://www.volcengine.com/docs/6261/64935)。 * （推荐）为确保您的云资源使用安全，应避免直接使用火山引擎账号（即主账号）访问火山方舟。建议以访问控制 IAM（Identity and Access Management）身份使用火山方舟。操作方法参见[使用 IAM 管理权限](https://www.volcengine.com/docs/82379/1263493)。 --- # 创建标准版知识库 1. 登录[方舟管理控制台](https://console.volcengine.com/ark/region:ark+cn-beijing)。 2. 在左侧导航栏中选择**数据管理** ＞ **知识库**。 3. 在**知识库**页面上执行以下操作之一： * 若尚未创建任何知识库，请点击**立即创建**。 * 若已经创建其他知识库，请点击**创建知识库**。 4. 在弹窗中选择**标准版**，并点击**创建「标准版」知识库**。 5. 在弹窗中输入知识库的**名称**和**描述**，选择知识内容的类型，并再次点击**创建知识库**。 --- # 创建旗舰版知识库 1. 登录[方舟管理控制台](https://console.volcengine.com/ark/region:ark+cn-beijing)。 2. 在左侧导航栏中选择**数据管理** ＞ **知识库**。 3. 在**知识库**页面上执行以下操作之一： * 若尚未创建任何知识库，请点击**立即创建**。 * 若已经创建其他知识库，请点击**创建知识库**。 4. 在弹窗中选择**旗舰版**，并点击**创建「旗舰版」知识库**。

说明

仅旗舰版支持上传结构化文件。

![图片](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/444d5d1793694611930c8c6bc577b6f3~tplv-goo7wpa0wc-image.image) 5. 在**创建旗舰版知识库**页面上填写相关参数，具体参数如下。 ![图片](https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/20b5ffd868ab4c36924a870fe7098b10~tplv-goo7wpa0wc-image.image) 1. 填写基础信息。 |**参数名称** |**是否必填** |**参数说明** | |---|---|---| |名称 |**必填** |指定创建的知识库名称。

* 只能使用英文字母、数字、下划线_，并以英文字母开头，不能为空

* 长度要求：[1, 64]

* 知识库名称不能重复 | |描述 |**必填** |自定义知识库的描述。

* 长度要求：[0, 500]

* 示例：创建了一个法律行业的知识库，描述为“法律文书知识，包括《中华人民共和国刑法修正案（十二）》、《中华人民共和国民法典》等法条，近年裁判文书等。” | |数据类型 |**必选** |知识库的数据类型。

* 全模态知识库：支持全模态数据混合上传，如音视频、图片、文档等，通常为文档内容丰富、版面复杂，需要平台解析分段。支持丰富的文件格式。

* 结构化知识库：主要包含成组的数据，如问答、用户数据等，通常为结构相对清晰和规范化的文档，无需平台分段。仅结构化数据，例如 .xlsx、.csv、.jsonl 等。 | 2. 根据所选的知识库数据类型，完成知识库配置。 * 全模态知识库 |**参数名称** |**是否必填** |**参数说明** | |---|---|---| |向量化模型 |**必选** |* 知识内容

* 图像/富文本：在有图片文件或文档内包含图表、架构图等复杂场景下表现更优。

* 音视频：适用于含音视频文件，视频如培训视频、广告营销、比赛直播等，音频如会议录音、播客等。

* 向量模型

* 对于图像/富文本，支持以下向量模型：

* Doubao\-embedding\-vision\-251215+关键词模型（默认）

* Doubao\-embedding\-vision\-251215

* Doubao\-embedding\-vision\-250328+关键词模型

* Doubao\-embedding\-vision\-250328

* 对于音视频，支持以下向量模型：

* Doubao\-embedding\-vision\-250615+关键词模型（默认）

* Doubao\-embedding\-vision\-250615

* 向量维度

用于控制将原始文本、图片等映射到高维空间中时，所生成向量的维数。取值越高，检索准确性越高。若数据量极大且性能要求极高时，可考虑降维以提升检索效率。

* 对于图像/富文本，仅支持 2048。

* 对于音视频，支持 2048 和 1024。 | |CPU 配额 |**必填** |索引检索消耗的 CPU 配额，1 CPU 核约为 100 QPS；如果检索消耗的 CPU 超过配额，该索引会被限流，格式为正整数。 | * 结构化知识库 |**参数名称** |**是否必填** |**参数说明** | |---|---|---| |向量化模型 |**必选** |* 知识内容

仅支持纯文本。

* 向量模型

支持以下向量模型：

* Doubao\-embedding\-vision\-251215+关键词模型（默认）

* Doubao\-embedding\-vision\-251215

* 向量维度

用于控制将原始文本、图片等映射到高维空间中时，所生成向量的维数。取值越高，检索准确性越高。若数据量极大且性能要求极高时，可考虑降维以提升检索效率。仅支持 2048。 | |CPU 配额 |**必填** |索引检索消耗的 CPU 配额，1 CPU 核约为 100 QPS；如果检索消耗的 CPU 超过配额，该索引会被限流，格式为正整数。 | 3. [条件步骤] 如果选择的是结构化知识库，则还需要完成字段配置。 |**参数名称** |**是否必填** |**参数说明** | |---|---|---| |上传文档 |非必填 |可以上传示例文档，用于确定表结构。后续知识库的文档须符合该结构规范，支持 .csv、.xlsx、.jsonl、.faq 格式。 | |表结构 |**必填** |用于后续导入文档时的字段校验。 | 4. [可选步骤] 完成高级配置，设置文档标签。文档标签可用于对知识库中的文档进行分类和检索，方便后续管理和查找特定类型的文档。点击**添加标签**即可添加。 |**参数名称** |**是否必填** |**参数说明** | |---|---|---| |标签名 |**必填** |填写标签名称，不能为空，且名称不能重复，长度要求为 [1, 128]。 | |字段类型 |**必填** |在下拉列表选择字段类型，可选值：bool、list、int64、float32 等。 | |标签选项 |非必填 |当所选类型为 list 时，可以指定选项值，后续文档打标签可直接选择。 | 6. 填写完成后，点击右侧的**创建知识库**。界面显示知识库创建成功的消息。 7. 若需要立即导入文档，可在弹窗中点击**立即导入**，若稍后再导入可选择**暂不导入**。支持多种文档导入方式，包括本地上传、从 TOS 中导入、公开下载链接三种方式。支持导入的文档格式参见[支持文档格式说明](https://www.volcengine.com/docs/82379/1261890#be53bf7d)。 --- # 后续步骤上传文档后，每个知识库会自动关联系统内置的默认解析策略，该策略名为`${collection_name}_initial_version-auto`，其默认配置为：通用解析、开启 PPT 整页解析、最大切片长度 2000 字符、开启图片 OCR、关闭文档摘要。解析策略是一种公共资源，您可以将一个策略与多个知识库关联，也可以随时更换知识库关联的策略。关于解析策略的详细信息，请参见[2、导入文档](https://www.volcengine.com/docs/82379/1261883#ad052db5)。