如何通过UTF-16LE字节序列计算对应码点的UTF-8字节长度？

阿华AIGC实验室

2026-6-13

如何通过UTF-16LE字节直接计算对应UTF-8的字节长度

可以直接通过分析UTF-16LE的字节值范围来计算对应的UTF-8字节数，完全不需要先转换成UTF-8再统计长度，下面是具体的判断逻辑：

核心逻辑依据

因为你的输入是有效的UTF-16LE数组，所以可以直接基于UTF-16的编码规则，先识别每个Unicode码点的类型，再对应到UTF-8的字节数：

UTF-16LE里单码元占2字节（低字节在前，高字节在后），通过高字节和低字节的范围就能判断对应的UTF-8长度：

UTF-8占1字节：高字节为0x00，且低字节在0x00-0x7F（对应Unicode码点U+0000-U+007F）
UTF-8占2字节：满足以下任一条件：
- 高字节是0x00，且低字节在0x80-0xFF（对应U+0080-U+00FF）
- 高字节在0x01-0x07，低字节任意（对应U+0100-U+07FF）
UTF-8占3字节：满足以下任一条件：
- 高字节在0x08-0xD7或0xE0-0xFF，低字节任意（对应U+0800-U+D7FF、U+E000-U+FFFF）
- 高字节是0x07，且低字节在0x80-0xFF（对应U+0780-U+07FF）