文档中心

CreateCollection

最近更新时间：2024.04.16 13:11:55

首次发布时间：2023.12.21 19:03:19

概述

CreateCollection 用于创建一个新的数据集 Collection。创建成功后，可以写入数据。

说明

每一个 Collection 必须指定主键字段。
当定义字段 fields 添加了一个向量类型 vector 的字段后，再添加新的字段时，字段类型不可选择 vector 类型。因为目前只支持单向量，不可添加多个向量字段。
当定义字段 fields 添加了带 PipelineName 的 text 字段，则不允许添加 vector 字段，且只能有一个带 PipelineName 的 text 字段；当定义字段 fields 添加了不带 PipelineName 的 text 字段，则允许添加 vector 字段，且允许添加多个不带 PipelineName 的 text 字段，text 字段最多200个。

请求参数

参数	子参数	类型	是否必选	默认值	参数说明
collectionName		string	是		指定创建的 Collection 名称。只能使用英文字母、数字、下划线_，并以英文字母开头，不能为空。长度要求：[1, 128]。 Collection 名称不能重复。
description		string	否	""	自定义 Collection 的描述。长度要求：[0, 65535]。
fields 说明 Field 实例的列表，一个 Collection 里的 Field 实例数量上限是 200。	FieldName	string	是		指定自定义字段的名称。只能使用英文字母、数字、下划线_，并以英文字母开头，不能为空。长度要求：[1, 128]。字段名称不能重复。
	FieldType	string	是		指定自定义字段类型，如 vikingDB.String，可选值详见 fieldType 可选值说明。
	DefaultVal	和 FieldType 一致	否		指定自定义字段默认值，默认值详见 FieldType 可选值说明。当 FieldName 作为主键时，DefaultVal 不生效，同时也不会被校验。
	Dim	int	FieldType 为vector 时必选		指定自定义字段向量维度。取值范围：[4, 2048]，且必须是 4 的倍数。向量维度是指向量中包含的元素的数量。
	IsPrimaryKey	bool	是	False	指定该字段是否为主键，用户可以从 fields 定义的字段列表中选出某一个 int64 类型 / string 类型的字段作为主键字段。每个 Collection 有且仅有一个主键，其它字段 IsPrimaryKey 默认为 False。枚举值：True/False。
	PipelineName	string	FieldType 为 text 时可选		文本。纯文本预处理能力 pipeline 是指向量数据库将文本切片、文本向量化、入库、存储自动化的预处理流程。支持以string形式写入原始数据。 pipeline_name 枚举值如下： text_split_bge_large_zh：向量数据库使用切分器将长文本切分成短文本，调用 embedding 模型将短文本向量化。 text_bge_large_zh：向量数据库不切分文本，直接调用 embedding 模型将文本向量化。 text_split_bge_m3：向量数据库使用切分器将长文本切分成短文本，调用 bge m3 模型抽取短文本的稀疏特征和稠密特征，存入系统预设的稠密向量字段和稀疏向量字段。 text_bge_m3：向量数据库不切分文本，直接调用 bge m3 抽取短文本的稀疏特征和稠密特征，存入系统预设的稠密向量字段和稀疏向量字段。 text_split_bge_large_and_m3：向量数据库使用切分器将长文本切分成短文本，调用 bge v1.5 模型抽取短文本的稠密特征，存入系统预设的稠密向量字段；调用 bge m3 模型抽取短文本的稀疏特征，存入系统预设的稀疏向量字段。 text_bge_m3：向量数据库不切分文本，调用 bge v1.5 模型抽取短文本的稠密特征，存入系统预设的稠密向量字段；调用 bge m3 模型抽取短文本的稀疏特征，存入系统预设的稀疏向量字段。

fieldType 可选值

字段类型	可用索引类型	defaultVal默认值	数据写入时取值范围	defaultVal 取值范围	可为主键	说明
int64	枚举	0	int64 范围	int64 范围	是	整数
float32	范围	0.0	float32 范围	float32 范围	否	浮点数
string	枚举	"default"		长度<=128	是	字符串
bool	枚举	false	true/false	true/false	否	布尔类型
list<string>	枚举	["default"]	List 长度<=32	List 长度<=32	否	字符串数组
list<int64>	枚举	[0]	List 长度<=32	List 长度<=32	否	整数数组
vector	向量		维度 4-2048		否	稠密向量。 fieldType 设置为 vector 时必选参数 dim。
sparse_vector	稀疏向量		非零元下标无限制非零元值为 float32 范围		否	稀疏向量。 sparse_vector不能单独设置，必须与 vector 字段组合设置。接收形为<index,value>的json字典列表，来表示稀疏稀疏向量的关键词及其对应的权重值。示例： sparse_vector={"什么": 0.34, "是": 0.03, "B": 0.11, "M":0.32, "25": 0.03}
text					否	文本，注意事项： fieldType 设置为 text 时可选参数 PipelineName。当定义字段 fields 添加了带 PipelineName 的 text 字段，则不允许添加 vector 字段，且只能有一个带 PipelineName 的 text 字段；当定义字段 fields 添加了不带 PipelineName 的 text 字段，则允许添加 vector 字段，且允许添加多个不带 PipelineName 的 text 字段，text 字段最多200个。

示例

请求参数

fields := []vikingdb.Field{
    {
       FieldName:    "doc_id",
       FieldType:    vikingdb.String,
       IsPrimaryKey: true,
    },
    {
       FieldName: "text_vector",
       FieldType: vikingdb.Vector,
       Dim:       12,
    },
    {
       FieldName: "text_sparse_vector",
       FieldType: vikingdb.Sparse_Vector,
    },
    {
       FieldName:  "like",
       FieldType:  vikingdb.Int64,
       DefaultVal: 0,
    },
    {
       FieldName: "price",
       FieldType: vikingdb.Float32,
       Dim:       12,
    },
    {
       FieldName:  "author",
       FieldType:  vikingdb.ListString,
       DefaultVal: []string{},
    },
    {
       FieldName:  "aim",
       FieldType:  vikingdb.Bool,
       DefaultVal: true,
    },
}
collection, err := service.CreateCollection("go", fields, "this is a go example")
if err != nil {
    print(err.Error())
}

返回值

Go 调用执行上面的任务，返回 Collection 结构体地址 (*Collection)。Collection 结构体包含的属性如下表所示。

属性	类型	说明
CollectionName	string	显示创建的 Collection 名称。
Description	string	显示创建的 Collection 的描述。
Fields	[]Field	显示创建的字段列表。
Indexes	[]interface{}	显示创建的索引列表。
Stat	map	统计/状态信息。 data_number：数据量条数。 data_storage：数据占用的存储大小，单位是字节。
CreateTime	string	数据集创建时间。
UpdateTime	string	数据集更新时间。
UpdatePerson	string	数据集更新人。

概述

请求参数

fieldType 可选值

示例

请求参数

返回值

机器学习平台

CreateCollection

fieldType 可选值

请求参数

返回值