火山引擎向量数据库高级工程师 VikingDB 简介 ![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/8830cd001d2c4694b5e623cc645246af~tplv-tld... 数据量又没那么大的场景。第四张图:SEF、M 是 HNSW 索引的两个参数,SEF 是搜索时 entry points 的长度,M 是索引图中每个点的邻居节点个数。这两个参数值越大搜索精度越高,但延迟也会越大。从这几个图也能看出...
以及它们的相同点和不同点。🍬🍬🍬让我们一起加油,走进NLP的世界叭。🚖🚖🚖## 词向量我们知道,NLP任务中我们处理的对象是一个个的词,但是计算机根本不认识我们的词啊,需要将其转换为适合计算机处理的数据类... 上文介绍输入门时谈到了创建一个新的候选细胞状态,创建好好,我们就可以更新细胞状态了,如下图所示:![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/76345055f8f64a19a5ceac2e...
传统数据库方式无法进行处理。目前,通用的技术是把非结构化数据通过一系列 Embedding 模型将它变成向量化表示,然后将它们存储到数据库或者特定格式里。在搜索过程中,通过相同的一个模型把查询项转化成对应的向量,并... 把向量先进行聚类处理,检索时首先计算出最近的 k 个聚类中心,再在这些聚类中心中计算出最近的 k 个向量。这种索引的优点是构建速度快,因为构建时只需要多一个 training 的过程。相比于其他常用索引(主要是 Graph-b...
传统数据库方式无法进行处理。目前,通用的技术是把非结构化数据通过一系列 Embedding 模型将它变成向量化表示,然后将它们存储到数据库或者特定格式里。在搜索过程中,通过相同的一个模型把查询项转化成对应的向量,并... 把向量先进行聚类处理,检索时首先计算出最近的 k 个聚类中心,再在这些聚类中心中计算出最近的 k 个向量。这种索引的优点是构建速度快,因为构建时只需要多一个 training 的过程。相比于其他常用索引(主要是 Graph-b...
本页面用于为指定的数据集创建索引,创建索引可以加速向量的相似度搜索,它根据指定的索引算法和数据结构将向量库中的原始数据进行分组排序,提高相似度搜索的效率和准确性,是驱动向量数据库在短时间内筛选出候选的核... 长度要求:[1, 128]。 索引名称不能重复。 描述 填写对索引的描述,长度要求为 [0, 500]。选填。 索引配置 数据集 如果采用方式一从索引进入,支持从数据集名称下拉列表选择具体数据集。必填。 如果采用方式二从...
概述 createCollection 用于创建一个新的数据集 Collection。创建成功后,可以写入数据。 说明 每一个 Collection 必须指定主键字段。 当定义字段 fields 添加了一个向量类型 vector 的字段后,再添加新的字段时,字段... 长度要求:[1, 128]。 字段名称不能重复。 fieldType string 是 指定自定义字段类型,如 FieldType.String,可选值详见 fieldType 可选值说明。 defaultVal 和 fieldType 一致 否 指定自定义字段默认值,...
火山引擎向量数据库高级工程师 VikingDB 简介 ![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/8830cd001d2c4694b5e623cc645246af~tplv-tld... 数据量又没那么大的场景。第四张图:SEF、M 是 HNSW 索引的两个参数,SEF 是搜索时 entry points 的长度,M 是索引图中每个点的邻居节点个数。这两个参数值越大搜索精度越高,但延迟也会越大。从这几个图也能看出...
创建一个新的数据集 Collection。创建成功后,可以写入数据。异步调用使用async_create_collection接口,参数不变。 说明 每一个 Collection 必须指定主键字段。 当定义字段 fields 添加了一个向量类型 vector 的字段... 长度要求:[1, 128]。 Collection 名称不能重复。 description string 否 "" 自定义 Collection 的描述。 长度要求:[0, 65535]。 fields 说明 Field 实例的列表,一个 Collection 里的 Field 实例数量上限是...
本节将说明如何创建一个新的知识库。创建成功后,可以导入文档。 操作步骤 进入向量数据库产品,在左侧导航栏中点击「知识库」,进入知识库页面。 单击知识库列表页面左上角的「新建知识库」,进入创建知识库页面。 在... 配置类别 参数名称 参数说明 基础信息 名称 指定创建的知识库名称。必填。 只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空。 长度要求:[1, 64]。 知识库名称不能重复。 描述 自定义知识库的...
概述 create_index 用于为指定的数据集 Collection 创建索引 Index。异步调用使用async_create_index接口,参数不变。 请求参数 参数 子参数 类型 是否必选 默认值 参数说明 collection_name string 是 ... 长度要求:[1, 128]。 索引名称不能重复。 vector_index 说明 VectorIndexParams实例。 index_type string 是 IndexType.HNSW 向量索引类型。取值如下: IndexType.HNSW:全称是 Hierarchical Navigable Smal...
以及它们的相同点和不同点。🍬🍬🍬让我们一起加油,走进NLP的世界叭。🚖🚖🚖## 词向量我们知道,NLP任务中我们处理的对象是一个个的词,但是计算机根本不认识我们的词啊,需要将其转换为适合计算机处理的数据类... 上文介绍输入门时谈到了创建一个新的候选细胞状态,创建好好,我们就可以更新细胞状态了,如下图所示:![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/76345055f8f64a19a5ceac2e...
传统数据库方式无法进行处理。目前,通用的技术是把非结构化数据通过一系列 Embedding 模型将它变成向量化表示,然后将它们存储到数据库或者特定格式里。在搜索过程中,通过相同的一个模型把查询项转化成对应的向量,并... 把向量先进行聚类处理,检索时首先计算出最近的 k 个聚类中心,再在这些聚类中心中计算出最近的 k 个向量。这种索引的优点是构建速度快,因为构建时只需要多一个 training 的过程。相比于其他常用索引(主要是 Graph-b...
传统数据库方式无法进行处理。目前,通用的技术是把非结构化数据通过一系列 Embedding 模型将它变成向量化表示,然后将它们存储到数据库或者特定格式里。在搜索过程中,通过相同的一个模型把查询项转化成对应的向量,并... 把向量先进行聚类处理,检索时首先计算出最近的 k 个聚类中心,再在这些聚类中心中计算出最近的 k 个向量。这种索引的优点是构建速度快,因为构建时只需要多一个 training 的过程。相比于其他常用索引(主要是 Graph-b...