字节顺序标记（BOM）：UTF编码相关技术问询

阿华AIGC实验室

2026-5-22

关于UTF编码BOM标识的补充解答

这个问题问得很好！首先要明确的是，你列出的这些BOM字节组合都是Unicode标准中定义的官方、广泛认可的UTF编码标识，覆盖了日常最常用的UTF-8、UTF-16（大小端）、UTF-32（大小端）格式。不过确实存在一些未被上述规则涵盖的字节组合，用于标识特定的UTF编码变体，下面给你详细说明：

标准UTF编码BOM对应表

字节序列	编码格式
`00 00 FE FF`	UTF-32, 大端序（big-endian）
`FF FE 00 00`	UTF-32, 小端序（little-endian）
`FE FF`	UTF-16, 大端序（big-endian）
`FF FE`	UTF-16, 小端序（little-endian）
`EF BB BF`	UTF-8

未被覆盖的小众/非标准UTF标识序列

UTF-7的约定标识：UTF-7在Unicode标准中并没有定义官方BOM，但部分老旧系统曾使用字节序列0x2B 0x2F 0x76（对应字符+/v）作为事实标准的标识来识别UTF-7文件。不过这种方式是非标准的，而且UTF-7现在已经因为安全和兼容性问题被广泛弃用，很少再见到。
UTF-EBCDIC的BOM：这是一种专门为EBCDIC环境设计的小众UTF变体，它的BOM序列是0xDD 0x73 0x66 0x73。这种编码仅在传统大型机环境中可能出现，在现代通用计算场景中几乎碰不到。
已淘汰的非标准变体：有些早期不兼容的系统曾使用类似0xFE FF 0x00 0x00的无效序列试图标记UTF-16，但这类序列并不被Unicode标准认可，现在已经完全被淘汰。