You need to enable JavaScript to run this app.
导航
减少延迟
最近更新时间:2025.09.30 16:06:36首次发布时间:2025.09.30 16:06:36
复制全文
我的收藏
有用
有用
无用
无用

背景介绍

什么是延迟?

延迟(Latency)指的是请求从发送到接收响应所需的时间。在向量数据库中,降低延迟意味着更快地完成查询、写入或 Embedding 计算。

哪些场景需要优化延迟?

  • 实时检索:需要快速响应的搜索、推荐等场景。
  • 高并发检索:减少检索队列等待时间,提高用户体验。
  • 嵌入式 AI 应用:在对话、搜索、推理等任务中,低延迟能提升交互流畅度。

基础检查

在优化延迟之前,建议先检查监控告警中的时延监控,确定具体的瓶颈点。
Image

优化方案

网络优化

火山用户建议使用私网链接,避免公网传输带来的额外延迟。

数据分区优化

若数据有明确的分区需求,建议使用 partition by 进行合理分区,以减少查询范围,从而降低查询延迟。

检索优化

  • 标量过滤优化:对于包含过滤条件的检索,可增加标量过滤条件,减少不必要的计算,提高查询速度。
  • 优化过滤条件:合理设置过滤字段,提高索引匹配效率,从而减少延迟。

SDK 使用优化

  • 在使用 SDK 时,设置collectionindex 初始化为全局变量,避免重复初始化带来的性能开销。
  • 仅初始化一次,即可在后续调用中重复使用,提高检索效率。
# 获取指定索引,程序初始化时调用即可,无需重复调用
index = vikingdb_service.get_index("example", "example_index")

复杂场景优化

若以上优化策略仍未达到预期效果,可联系我们,针对具体业务场景提供定制化优化方案。