FuzzyWuzzy不同匹配方法对相同文本返回结果不一致的技术咨询

阿华AIGC实验室

2026-4-29

为什么FuzzyWuzzy的token_sort_ratio和partial_token_sort_ratio返回不同结果？

这是个很常见的疑问，核心原因是这两个方法的匹配逻辑完全不同，咱们结合你的例子一步步拆解：

1. `fuzz.token_sort_ratio`的工作逻辑

这个方法的步骤是：

放到你的例子里：

"Kimberly Beukema" 拆分后是 ["Kimberly", "Beukema"]，排序后拼接为 "Beukema Kimberly"
"Ms. Kimberly Beukema" 拆分后是 ["Ms.", "Kimberly", "Beukema"]，排序后拼接为 "Beukema Kimberly Ms."

现在它要对比的是这两个完整字符串的相似度——第二个字符串比第一个多了"Ms. "这部分内容，所以完整匹配度会被拉低，最终返回91。

这个方法在token_sort_ratio的基础上，做了一个关键调整：只做部分匹配，步骤是：

还是你的例子：

因为较短集合里的所有token都能在较长集合中找到，覆盖比例是100%，所以返回100。

如果你的场景是匹配姓名（经常会有Ms./Mr.这类前缀差异），partial_token_sort_ratio或者fuzz.token_set_ratio（基于token集合的交集匹配）会比token_sort_ratio更合适，它们能更好地忽略这类无关的前缀/后缀差异。

内容的提问来源于stack exchange，提问作者Cristina

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠