E-MapReduce
对于多模数据的场景中,尤其是同时包含文本及图像、视频的场景,在业务场景中会需要对数据进行多个维度的检索:
这三类检索模型,有些场景是相互独立,即只使用其中一种检索模型,而有些场景中,会同时对这3路进行搜索得到最近相似的结果。这就要求我们的数据方案,能够满足以下要求:
当前方案中,一般图像数据单独存储在对象存储,标签和文本数据存储在数据库中。
全文索引的数据一般会存储在ES中,向量数据一般会存储在专门的向量数据库中。
ES中可以完成标签检索和全文检索,向量数据库完成向量检索和标签检索。
如果需要三路检索,则需要同时查询ES和向量数据库。
多模数据和标签一起存储在Lance数据集之中。直接在Lance的文本类型之上构建全文索引。向量字段也能够直接存储在Lance之上,而且有多种向量索引算法,能够快速的完成向量搜索。
维度 | 当前方案 | Lance方案 |
|---|---|---|
数据成本 |
|
|
数据处理 |
|
|
扩展性 |
|
|
易用性 |
|
|