MySQL全文搜索中部分Unicode字符被忽略的问题排查

阿华AIGC实验室

2026-5-9

为什么查询₩₱这类货币符号无法返回结果？

这问题其实戳中了MySQL全文索引的一个核心特性——它对非字母数字字符的处理逻辑。咱们来掰扯清楚：

1. 货币符号为什么没被索引？

MySQL的全文索引（不管是InnoDB还是MyISAM）默认的分词规则是：只把字母、数字当作可索引的“词”，其他字符（比如₩、₱、标点、空格）全部分成分隔符，直接忽略。

当你把₩₱₩₱₩₱ 中国人存入表时，全文索引只会处理“中国人”相关的内容，那些货币符号相当于只是用来分隔内容的“空白”，根本不会被加入到索引库中。所以当你用AGAINST('₩₱₩₱₩₱')查询时，MySQL解析完这个查询词，发现没有能匹配的索引项，自然返回0条结果。

至于“中国人”能正常匹配，无非两种情况：

如果你用的是支持中文分词的MySQL配置（比如装了ngram插件），它会把连续的汉字拆成短词组（默认是2个字符，比如“中国”“国人”），查询“中国人”时就能匹配到对应的分词；
就算没装分词插件，在BOOLEAN模式下，MySQL会把没有空格分隔的中文当成一个完整的长字符串，而这个字符串的长度（3个字符）刚好满足InnoDB全文索引默认的最小词长限制（3），所以能被索引到，自然能匹配上。

如果确实需要匹配这类非字母数字的特殊字符，给你几个可行的方向：

临时方案：改用LIKE查询，比如SELECT * FROM test_table WHERE content LIKE '%₩₱₩₱₩₱%'，但大数据量下性能会很差；
进阶方案：修改MySQL的全文索引配置，比如调整ft_min_word_len（最小词长）、自定义停用词文件，甚至修改分词规则，但这种操作比较复杂，还可能影响其他查询的效率；
终极方案：换用专门的搜索引擎（比如Elasticsearch），它对特殊字符的处理灵活得多，适合这类复杂的文本匹配需求。

内容的提问来源于stack exchange，提问作者Sampath Liyanage