You need to enable JavaScript to run this app.
向量数据库VikingDB

向量数据库VikingDB

复制全文
最佳实践
【向量库】表征方式配置参考
复制全文
【向量库】表征方式配置参考

本文介绍表征方式,如何根据自己的数据和检索需求,选择合适的表征方式。

表征方式是什么?

表征方式的含义
在向量库中,“表征方式”指的是:系统选择用指定的数据结构来描述一条内容(文本、图片或多模态片段),并据此决定检索时采用特定的匹配逻辑与索引组织形式。
目前向量库支持以下表征方式:

表征方式

介绍

优势

使用场景

稠密向量
Dense vector

稠密向量是一个来自 embedding 模型(文本/图片/多模态),固定长度的浮点数组,比如 2048 维:[0.13, -0.07, ..., 0.02]
它的核心特性是:

  • 维度固定(如 768/1024/2048)
  • 大部分维度有值
  • 语义相似的样本在向量空间里更近
  • 语义召回强:能搜到“意思相近但字不一样”的内容
  • 多模态天然适配:图片、音频、文本都能统一到同一空间
  • 易于做统一的 TopK 检索

核心适配场景:需要强语义关联跨模态统一检索的业务,是所有语义检索的基础且必备选型。例如:

  1. 知识库 / 问答系统的语义召回:​适用于 “问法不同但核心语义一致” 的检索需求
  2. 多模态相似性检索
    • 以图搜图:上传一张图片,检索图库中视觉语义相似的图片。
    • 图文互搜:输入文本 “红色花瓣的玫瑰花”,检索对应的图片;或上传一张手机照片,检索描述该手机参数的文本。
    • 视频检索:输入一段文本或一张图片,检索与图文内容语义相似的视频。

稀疏向量 Sparse vector

稀疏向量是只有少数维非零的表示,比如:
{ token_id_3: 1.7, token_id_912: 0.4, token_id_10433: 2.1 }
稀疏向量更接近“关键词—权重”的结构:绝大多数维度为零,只有少数与内容相关的词项被激活并携带权重。

  • 精确命中强:实体、专有名词、代码、数字、药品等,效果稳定

核心适配场景:需要精准关键词约束,或要求实体 / 专有名词无歧义匹配的业务,需要与稠密向量搭配混合使用。例如:

  1. 强关键词依赖的专业领域检索:​如医疗行业、法律 / 政务领域、代码 / 技术文档或产品 / 物料型号等,需要对特定专有名词进行匹配
  2. 混合检索的权重调节:​通过调整两种向量的权重,平衡 “语义相关性” 和 “关键词精准度”。

张量 Tensor

张量是N 维数值数组,是向量的高维扩展形式,能够承载比单位向量更加丰富的维度信息。用于表示复杂结构(如时间序列、图像通道、视频帧序列等)。比如:一个文档是一组向量组成的张量

  • 丰富语义:在检索中可描述更丰富的语义或多模态特征。
  • 定位细节:对长文、细节问答、精确定位更友好(需要同时满足多个细节条件的 query)

核心适配场景:需要细粒度精准匹配低时延重排,或高并发下控制 token 成本的业务,是提升检索效果的进阶选型。例如:

  1. 文本细粒度精准检索:长文档 QA、法规 / 医疗指南的细节证据匹配,支持多条件约束查询,减少语义相似的误召回。
  2. 多模态局部特征对齐:图像区域与文本短语精准匹配,如定位图片特定位置的物体。
  3. 低时延图 / 视频搜索重排:适配低延时响应的图搜、视频检索场景,兼顾效果与性能,覆盖传统重排无法触达的性能敏感客户。
  4. 高并发文本检索降本:知识库、记忆库等高并发场景,替代需持续付费的实时重排,通过一次性离线处理降低长期使用成本。

表征方式的最佳实践

基于上述表征方式的说明,我们总结了以下针对表征方式的最佳实践供参考:

1 稀疏稠密向量混合检索

1.1 稠密稀疏混合检索的适用场景

稀疏稠密向量混合检索的核心适用场景,是需要同时兼顾 “语义相关性” 和 “关键词精准性”,单一向量检索无法满足需求的业务场景。例如:

  • 专业领域精准检索:如医疗、法律、代码等专业领域,这类场景既需要理解用户查询的语义,又必须精准命中专业术语、法条编号、函数名等刚性关键词。
  • 电商商品垂搜:如电商垂搜场景,用户搜索可能是语义化描述,也可能是精准型号 / 参数。​混合检索既能匹配用户的语义需求,又能锁定商品型号、SKU 等关键信息,提升商品召回的准确率。
  • 新闻内容检索:用户搜索可能是事件的语义化描述,也可能是事件中的核心实体。​混合检索可同时匹配语义相关的新闻,以及包含精准实体关键词的内容,提升检索结果的全面性。

1.2 稠密稀疏混合检索的原理

Image
稠密稀疏混合近邻检索是结合稠密向量和稀疏向量的检索方法,可以同时利用稠密向量的语义匹配能力和稀疏向量的关键词匹配能力。稠密向量适用于捕获语义理解的隐含关系,但缺乏查找特定关键词或短语的能力;而稀疏向量则具备较强可解释性,能够捕获关键词的明确存在和缺失,但难以捕捉语义信息。
因此采用稠密稀疏向量混合检索以提高搜索结果的准确性和覆盖面。

1.3 如何进行稠密稀疏向量混合检索

  1. 前置条件:在创建数据集时,需配置稀疏向量表征,​对需要进行关键词或短语约束的字段配置。
  2. 检索测试:在结果配置环节调整 Dense Weight 值来指定检索时dense和sparse的权重。取值越大越侧重于稠密向量检索。详细操作参考:向量库V2快速入门

Image

  1. API参考:向量检索-SearchByVector

2 张量重排

2.1 张量重排的适用场景

张量重排适用于需要兼顾细粒度精准匹配、低时延响应和高并发成本控制的检索场景,例如:

  • 低时延的图/视频搜索(响应要求低于 300ms):在此类场景中,推荐使用张量重排。与模型重排相比,张量重排可以避免超过 200ms 的额外延迟,同时预期能将召回率提升 5 个百分点。
  • 高并发的文本搜索(关注 token 成本):在高并发场景下,使用模型重排会因 token 消耗而产生高昂费用。此时,改用张量重排是更经济的选择。尽管会增加少量计算资源开销,但它能显著提升检索效果。因此建议在知识库、记忆库等应用中默认开启张量重排。

2.2 张量重排的原理与优势

Image
张量重排是在向量初步召回后针对召回结果进行的二次排序,是一种兼顾效果与效率的检索增强手段:其核心是将全交互中“查询与文本逐token交互”的环节前置,通过调整为分别编码为token级的多向量,仅在检索时计算查询与文本之间的 maxsim ,以达到介于全交互和无交互之间的效果与延迟的效果和效率的平衡。
使用张量需要预先投入计算和存储资源,以换取检索时更低的开销。仅需一次向量化和交互计算。通过结合量化聚类、调节召回量等优化手段,其效果能够超越 rerank 模型,且耗时更低。

Image

.3 如何进行张量重排

  1. 前置条件:在创建数据集时,需配置张量(Tensor)表征,张量表征的字段需与稠密向量表征的字段一致
  2. 检索测试:前端开启重排功能后,选择张量重排并配置进入重排的数据数量。​详细操作参考:向量库V2快速入门

Image

最近更新时间:2025.12.25 18:11:32
这个页面对您有帮助吗?
有用
有用
无用
无用