背景介绍
什么是延迟?
延迟(Latency)指的是请求从发送到接收响应所需的时间。在向量数据库中,降低延迟意味着更快地完成查询、写入或 Embedding 计算。
哪些场景需要优化延迟?
- 实时检索:需要快速响应的搜索、推荐等场景。
- 高并发检索:减少检索队列等待时间,提高用户体验。
- 嵌入式 AI 应用:在对话、搜索、推理等任务中,低延迟能提升交互流畅度。
基础检查
在优化延迟之前,建议先检查监控告警中的时延监控,确定具体的瓶颈点。

优化方案
网络优化
火山用户建议使用私网链接,避免公网传输带来的额外延迟。
检索优化
- 标量过滤优化:对于包含过滤条件的检索,可增加标量过滤条件,减少不必要的计算,提高查询速度。
- 优化过滤条件:合理设置过滤字段,提高索引匹配效率,从而减少延迟。
复杂场景优化
若以上优化策略仍未达到预期效果,可联系我们,针对具体业务场景提供定制化优化方案。