相同字符串字节码不同致a==b返回false的原因及解决方法

阿华AIGC实验室

2026-5-15

问题原因与解决方法

为什么`a == b`返回false？

这是典型的Unicode等价字符编码差异问题——两个字符串视觉上完全相同，但底层的Unicode编码表示不一样，核心是**预合成字符（Precomposed Characters）和组合字符序列（Combining Character Sequences）**的区别：

字符串a里的特殊字符是用「基础字母 + 组合标记」的方式拼接而成的：
- "à" = 基础字母a（U+0061） + 组合重音符̀（U+0300）
- "ộ" = 基础字母o（U+006F） + 组合 circumflex（U+0302） + 组合下点̣（U+0323）
字符串b里的特殊字符则是预合成的单个Unicode字符：
- "à" = 单个预合成字符à（U+00E0）
- "ộ" = 单个预合成字符ộ（U+1ED9）

当你用==比较字符串时，大多数编程语言（比如你用到的Python）会直接对比字符串的原始字节序列，这两种编码方式对应的UTF-8字节自然完全不同，所以返回false。

如何让`a == b`返回true？

解决方法是对两个字符串进行Unicode归一化，把它们转换为统一的编码范式。Unicode定义了4种归一化形式，最常用的是两种：

NFC：优先使用预合成字符（自动把组合序列合并成单个字符）
NFD：优先使用分解形式（自动把预合成字符拆成基础字符+组合标记）

只要把两个字符串都归一化到同一种范式，再做比较就会返回true。以Python为例：

import unicodedata

a = 'hà nội'
b = 'hà nội'

# 归一化到NFC形式（推荐，字节长度更短）
a_norm = unicodedata.normalize('NFC', a)
b_norm = unicodedata.normalize('NFC', b)
print(a_norm == b_norm)  # 输出 True

# 用NFD形式也能实现相等判断
a_norm_nfd = unicodedata.normalize('NFD', a)
b_norm_nfd = unicodedata.normalize('NFD', b)
print(a_norm_nfd == b_norm_nfd)  # 同样输出 True