You need to enable JavaScript to run this app.
导航
控制台界面调优
最近更新时间:2024.08.30 15:04:54首次发布时间:2024.08.29 14:12:59

您在实际测试、生产的过程中,可能会遇到一些查询不符合预期的情况,针对这些难以调整搜索效果的场景,云搜索服务提供了多种调优策略。本文介绍控制台界面支持的调优方案。

背景信息

对于 NLP 或大模型未学习到的词汇,且无需进行模型训练,直接将对应的词汇加入到云搜索服务就可以提高调优效率。您可以在云搜索服务控制台界面进行调优,包括同义词权重干预分词

同义词和纠错词

用户检索的关键词使用了一些别称,或者键入的时候输入了错别字,这样就无法准确匹配到云搜索服务实例中对应的文档信息,您可以通过配置同义词或纠错词进行调优。
举例说明

  • 部分场景可以通过语义检索来解决。比如搜索 “液体” 关键字,是可以搜出 “Liquid” 相关的文档,或者搜索 “迷人幻想”,也可以搜索到 “迷人幻象” 相关的文档,这是因为虽然检索词和文档内容无法在分词上进行匹配,但是语义是接近的,因此可以通过语义检索到文档。
  • 对于一些语义无法理解的场景,就需要使用同义词配置。例如搜索“咖喱”关键字,无法检索到“加利尔”相关的文档,“咖喱”和“加利尔”不仅在分词上无法匹配,在语义上也是毫无关系(对于通用大模型而言),因此需要做同义词相关的配置。配置 “咖喱”和“加利尔”是同义词后,在检索“咖喱”时,就也会把“加利尔”也包含在检索条件内,这样就实现了调优。
  • 语义检索的同义词增强还有一个特点,比如云搜索服务中没有“加利尔”相关的文档,只有“Galil”,这时配置同义词“咖喱,加利尔”,通过同义词增强的语义检索,也可以将“Galil”检索到。

配置同义词
同义词支持手动导入和文件导入,配置规则如下:

  • 一行表示具备关联性的词条,一组可以设置多个同义词,用英文逗号(,)分隔;
  • 单行输入字数不超过 127 个。不同词条需要换行输入;
  • AA,BB 表示 AA 和 BB 是同义词,对 AA 和 BB 都会进行索引;
  • AA,BB=>CC 表示 AA 与 BB 都映射到 CC,且只对 CC 进行索引;

配置完成后点击一键生效即可,生效时间在秒级别,生效完成后可以白屏化测试同义词效果。
图片
相关文档

权重干预

权重干预可以通过调优结果得分,使得最终返回的结果列表符合预期。
权重干预逻辑如下:

  1. 设置匹配关键词;
  2. 设置相关的干预项:
    • 字段相关:表示某个字段条件的干预;
    • 关联词相关:表示相关关键词的干预;
  3. 相关度:干预权重,1.0 表示对结果无影响,大于 1 表示对结果得分有正影响,小于 1 表示对结果得分有负影响;

举例说明

  • 设置匹配关键词:M911;
  • 设置字段相关:type=手枪*1.2。表示当查询词命中 M911 时,会将 type 为“手枪”的文档结果得分提升(权重*1.2);
  • 设置关联词相关:勃朗宁*0.9。表示当查询词命中 M911 时,会将“勃朗宁”相关的文档结果得分降低(权重*0.9);

图片
参考文档添加类目预测词条

自定义分词

如果云搜索实例中明明有包含某关键词的文档,全文检索却无法通过该关键词匹配到,这很可能是因为关键词在写入时未被分词。
您可以通过云搜索服务的分词管理功能,自定义添加分词,支持手动导入和文件导入的方式添加分词。分词添加完成后,单击一键生效,即可在页面上进行分词测试验证。
图片
分词更新完成后,需要对存量数据进行刷新,重新进行分词。
刷新数据使用update_by_query进行刷新,对于 1000W 条文档以内的索引,都可以快速刷新完成。如果超过该量级,请联系云搜索服务技术支持。
图片
相关文档