/api/knowledge/collection/create 接口用于创建一个新的知识库。创建成功后,可以导入数据。
完成“签名鉴权方式“页面的注册账号、实名认证、AK/SK 密钥获取和签名获取后,可调用 API 接口实现知识库的创建功能。
URI | /api/knowledge/collection/create | 统一资源标识符 |
|---|---|---|
请求方法 | POST | 客户端对向量数据库服务器请求的操作类型 |
请求头 | Content-Type: application/json | 请求消息类型 |
Authorization: HMAC-SHA256 *** | 鉴权 |
参数 | 子参数 | 类型 | 是否必选 | 默认值 | 参数说明 |
|---|---|---|---|---|---|
name | -- | string | 是 | -- | 知识库名称
|
project | -- | string | 否 | default | 知识库所属项目,获取方式参见文档API 接入与技术支持 注意 若不指定该字段,则在default项目下创建。 |
description | -- | string | 否 | "" | 知识库描述信息
|
version | -- | int | 否 | 4 | 2: 标准版 |
data_type | string | 否 | unstructured_data | 知识库内的数据类型
| |
preprocessing | object | 否 | 非结构化文档处理策略 | ||
chunking_strategy | string | 否 | -- | 文档切片策略,枚举值:["custom_balance", "custom"]
| |
chunking_identifier | list | 否 | -- | 自定义分隔符号 | |
chunk_length | int | 否 | 500 | 文档类型切片最大长度 | |
merge_small_chunks | bool | 否 | true | 是否合并短切片(文档、视频通用) | |
multi_modal | -- | 否 | -- | 图片理解策略
传参示例:
使用旧参数命名“multi_mode"创建的库仍保留原命名,但新创建知识库不推荐继续使用。 | |
video_chunking_strategy | string | 是 | smart_slice | 视频切片策略
| |
enable_smart_summary | bool | 否 | true | 视频是否开启大纲智能总结 | |
video_max_length | int | 否 | 30 | 视频最大切片长度 | |
table_config | -- | object | 否 | -- | 结构化知识库表字段配置
|
index | object | 否 | -- | 索引配置 | |
index_config | object | 否 | -- | 知识库索引配置
注:
| |
index_type | string | 否 | hnsw_hybrid | 指定索引算法,支持 hnsw_hybrid、hnsw 和 flat |
参数 | 子参数 | 类型 | 是否必选 | 默认值 | 参数说明 |
|---|---|---|---|---|---|
name | -- | string | 是 | -- | 知识库名称
|
project | -- | string | 否 | default | 知识库所属项目,获取方式参见文档API 接入与技术支持 注意 若不指定该字段,则在default项目下创建。 |
description | -- | string | 否 | "" | 知识库描述信息
|
version | -- | int | 否 | 4 | 2: 标准版 |
preprocessing | object | 否 | 非结构化文档处理策略 | ||
chunking_strategy | string | 否 | -- | 文档切片策略,枚举值:["custom_balance", "custom"]
| |
chunking_identifier | list | 否 | -- | 自定义分隔符号 | |
chunk_length | int | 否 | 500 | 文档类型切片最大长度 | |
merge_small_chunks | bool | 否 | true | 是否合并短文本片 | |
multi_modal | -- | 否 | -- | 图片理解策略
传参示例:
使用旧参数命名“multi_mode"创建的库仍保留原命名,但新创建知识库不推荐继续使用。 |
创建知识库类型 | 向量化模型 | 模型版本 | 产出类型 | 索引类型 | 向量维度 | 量化方式 | chunk_length 取值 | 检索类型 |
|---|---|---|---|---|---|---|---|---|
视频知识库、 | doubao-embedding-vision | 250615(创建视频知识库必填)、250328(默认) | 稠密向量 | hnsw、flat | 1024、2048 默认2048 | int8、float、fix16 | [100, 4000] | 语义检索(字节自研模型) |
doubao-embedding-vision-and-m3 | 250615(创建视频知识库必填)、250328(默认) | 稠密向量和稀疏向量 | hnsw_hybrid | 1024、2048 | int8、float、fix16 | [100, 4000] | 混合检索(兼顾语义检索和关键词匹配) | |
结构化知识库、 | doubao-embedding-and-m3 | 240715(默认) | 稠密向量和稀疏向量 | hnsw_hybrid | 1024、2048 | int8、float、fix16 | [100, 4000] | 混合检索(兼顾语义检索和关键词匹配) |
doubao-embedding | 240715(默认) | 稠密向量 | hnsw、flat | 1024、2048 | int8、float、fix16 | [100, 4000] | 语义检索(字节自研模型) | |
doubao-embedding-large-and-m3 | 240915(默认) | 稠密向量和稀疏向量 | hnsw_hybrid | 1024、2048 | int8、float、fix16 | [100, 4000] | 混合检索(兼顾语义检索和关键词匹配) | |
doubao-embedding-large | 240915(默认) | 稠密向量 | hnsw、flat | 1024、2048 | int8、float、fix16 | [100, 4000] | 语义检索(字节自研模型) | |
bge-large-zh | -- | 稠密向量 | hnsw、flat | 1024 | int8、float、fix16 | [100, 500] | 语义检索 | |
bge-m3 | -- | 稠密向量和稀疏向量 | hnsw_hybrid | 1024 | int8、float、fix16 | [100, 8000] | 混合检索(兼顾语义检索和关键词匹配) | |
-- | hnsw、flat | 1024 | int8、float、fix16 | [100, 8000] | 语义检索(此时稀疏向量被忽略,适用于只需要长文本窗口、多语言检索的纯语义检索场景) | |||
bge-large-zh-and-m3 | -- | 稠密向量和稀疏向量 | hnsw_hybrid | 1024 | int8、float、fix16 | [100, 500] | 混合检索(兼顾语义检索和关键词匹配) |
参数 | 参数说明 |
|---|---|
code | 状态码 |
message | 返回信息 |
data | 返回的详细信息 |
request_id | 标识每个请求的唯一标识符 |
状态码 | http状态码 | 返回信息 | 状态码说明 |
|---|---|---|---|
0 | 200 | success | 成功 |
1000001 | 403 | unauthorized | 鉴权失败 |
1000002 | 403 | no permission | 权限不足 |
1000003 | 400 | invalid request:%s | 非法参数
|
1000004 | 400 | collection exist | collection 已存在 |
创建结构化知识库
curl -i -X POST \ -H 'Content-Type: application/json' \ -H 'Authorization: HMAC-SHA256 ***' \ https://api-knowledgebase.mlp.cn-beijing.volces.com/api/knowledge/collection/create \ -d '{ "name": "apiexample", "description": "test", "index": { "index_type": "hnsw_hybrid", "index_config": { "fields": [], "quant": "int8", "cpu_quota": 1, "embedding_model": "doubao-embedding-and-m3", "embedding_dimension": 2048 } }, "table_config": { "table_type": "row", "table_pos": 1, "start_pos": 2, "table_fields": [ { "field_type": "string", "field_name": "讲解模块", "if_embedding": True, "if_filter": False }, { "field_type": "string", "field_name": "子模块", "if_embedding": True, "if_filter": False }, { "field_type": "string", "field_name": "问题示例", "if_embedding": True, "if_filter": False }, { "field_type": "string", "field_name": "记忆化 ————讲解要点", "if_embedding": True, "if_filter": False } ] }, "data_type": "structured_data", "project": "default" } }'
创建视频知识库
curl -i -X POST \ -H 'Content-Type: application/json' \ -H 'Authorization: HMAC-SHA256 ***' \ https://api-knowledgebase.mlp.cn-beijing.volces.com/api/knowledge/collection/create \ -d '{ "data_type": "unstructured_data", "description": "Video_XXX", "index": { "index_config": { "chunk_title_entity_extraction": false, "cpu_quota": 1, "embedding_dimension": 2048, "embedding_model": "doubao-embedding-vision-and-m3", "embedding_model_version": "250615", "field_enumerated_list": "{}", "fields": [ { "field_name": "doc_id", "field_type": "string" } ], "quant": "int8" }, "index_type": "hnsw_hybrid" }, "name": "Video_XXX", "preprocessing": { "chunk_length": 2000, "chunking_strategy": "custom_balance", "enable_slice_analysis": true, "enable_smart_summary": true, "merge_small_chunks": true, "video_chunking_strategy": "smart_slice", "video_max_length": 180 } } }'
执行成功返回:
HTTP/1.1 200 OK Content-Length: 43 Content-Type: application/json { "code":0, "message":"success", "data": { "resource_id": "kb-8349ef57441ab57" }, "request_id":"021695029537650fd001de666660000000000000000000230da93" }
执行失败返回:
HTTP/1.1 400 OK Content-Length: 43 Content-Type: application/json {"code":1000003, "message":"invalid request:%s", "request_id": "021695029757920fd001de6666600000000000000000002569b8f"}