You need to enable JavaScript to run this app.
导航

向量检索

最近更新时间2024.04.16 13:11:52

首次发布时间2023.11.20 18:43:45

本页面用于介绍如何进行向量检索测试,可配置查询向量限制(Top-K)子索引后查看向量检索结果。
向量检索是一种基于向量空间模型的检索方法,通过计算向量之间的相似度进行检索。在一个给定向量数据集中,向量检索按照某种度量方式(比如内积、欧式距离),对向量构建的一种时间和空间上比较高效的数据结构,能够高效地检索出与目标向量相似的 K 个向量。

注意

  • 当索引的执行状态为已就绪时,才支持操作检索测试;当索引的执行状态为初始化中失败时,不支持操作检索测试。
  • 标量过滤参数配置时,表示混合检索;该参数未配置时,表示向量检索,本页面该参数无需配置。
  • 查询向量配置时,表示按照输入的查询向量检索出相似的 K 个向量;当查询向量未配置时,表示默认按照向量 [0,0,0,0......] 检索出相似的 K 个向量。对于混合索引,不配置查询向量表示稠密向量为全 0,稀疏向量为全0。

操作步骤
  1. 检索测试页面有两种进入方式:
    1. 方式一:在左侧导航栏单击索引,进入索引页面。单击索引列表指定索引操作列的检索测试,进入检索测试页面。
    2. 方式二:在左侧导航栏单击索引,进入索引页面。单击索引列表指定索引的名称,进入索引详情页面,单击检索测试页签。
  2. 检索测试页面,输入查询向量限制(Top-K)子索引。对于包含了稠密向量和稀疏向量的混合索引,检索测试还将会有dense_weight参数,用于控制混合检索中稠密向量的权重,并且您需要同时输入稠密向量和稀疏向量进行检索。如果这个索引绑定了 pipeline,您可以在输入框中输入文本来进行端到端的文本检索。

绑定了 pipeline 的情况:
图片
混合索引检索测试的情况:
图片
纯稠密向量检索测试的情况:

图片

检索条件

参数说明

查询向量(对于没有绑定 pipeline 的索引)

输入 JSON 数组字符串,向量维度为创建数据集时定义向量字段的维度。选填

  • 查询向量配置时,表示按照输入的查询向量检索出相似的 K 个向量。
  • 查询向量未配置时,表示默认按照向量 [0,0,0,0......] 检索出相似的 K 个向量。
  • 对于混合索引,需要同时输入稠密向量和稀疏向量,且两种向量的数量一致。下标相同的稠密向量和稀疏向量表示同一对象。

查询文本(对于绑定了 pipeline 的索引)

输入纯文本进行检索。

限制(Top-K)

输入 Top-K 值,默认100,表示检索返回多少个结果。必填

Dense_weight

仅混合索引会出现。用于调整混合索引中稠密向量的比重,范围为[0.2, 1], 越偏向 1 表示越注重语义检索,越偏向 0 表示越偏向于关键词检索。

子索引

在下拉列表中选择子索引,即《新建索引》页面中子索引划分字段选择的字段名称所对应的字段值。必填

  • 子索引划分字段未设置时,则子索引下拉框默认为 default。
  • 适用场景:适用于将数据集划分为多个子数据集,在某个子数据集/子索引内部检索等检索模式固定的场景。比如,根据国家 ID 将数据集拆分,针对某个国家 ID 的子索引检索场景,无需对国家 ID 进行过滤,提升检索性能。

标量过滤

指定标量过滤条件,本页面该参数无需配置。

  • 该参数未配置时,表示向量检索。
  • 该参数配置时,表示标量过滤检索。
  1. 单击左下角查询后可查看向量结果。
    • 查询向量配置时,表示按照输入的查询向量检索出相似的 K 个向量,查询结果默认按照 score 从高到低排序。

      图片

    • 查询向量未配置时,表示默认按照向量 [0,0,0,0......] 检索出相似的 K 个向量。
      图片

    • 对于绑定了 pipeline 的文本,会根据使用的 pipeline 检索出相似的 K 条文本

图片