电子护照解码代码中长度值移位与覆盖逻辑的技术疑问

电子护照解码代码中长度值移位与覆盖逻辑的技术疑问

阿华AIGC实验室

2026-5-14

解析ICAO电子护照TLV长度字段的代码逻辑

嗨，刚接触ICAO电子护照字节解码就碰到这个困惑太正常了——这段代码其实是在处理TLV结构里的变长长度编码，完全是照着ICAO Doc 9303的规范来的，我给你一步步拆明白：

先搞懂长度字段的编码规则

ICAO电子护照的标签数据用的是TLV（Tag-Length-Value）结构，其中Length字段的编码分两种情况：

如果长度≤127（也就是0x7F），直接用1个字节存这个长度值，最高位是0；
如果长度>127，第一个字节的最高位会设为1（也就是值>0x80），剩下的7位表示「用来存实际长度的字节数」。比如第一个字节是0x82，就说明后面有2个字节是实际的长度值。

逐行拆解你疑惑的代码

先把核心逻辑摆出来：

int len = s.read(); // s is an InputStream
readPos++;
if ((len > 0x80)) {
    int lenlen = len - 0x80;
    len = 0;
    for (int i = 0; (i < lenlen); i++) {
        if ((readPos == length)) {
            throw new ParseException();
        }
        // 重点看这里
        len = (len << 8) | ((byte) (s.read()));
        readPos++;
    }
}
size = readPos + len;

1. 初始读取的`len`是什么？

第一个len = s.read()读的是长度字段的第一个字节：

如果这个值≤0x80，那它直接就是后续Value字段的长度，不用走循环；
如果>0x80，说明这只是个「长度指示器」，实际长度存在后面的lenlen = len - 0x80个字节里。

2. 移位+按位或的作用：拼接多字节长度

当进入循环时，len被重置为0，接下来的操作是把后续的多个字节按大端序（高位在前）拼接成一个完整的整数：

len << 8：把当前已拼接的结果左移8位，相当于给新字节腾出低8位的位置（比如之前是0x12，左移后变成0x1200）；
| ((byte)s.read())：把新读取的字节拼到低8位的位置（比如新读的是0x34，按位或后就变成0x1234，也就是实际长度4660）。

举个具体例子：
假设第一个长度字节是0x82（即130），lenlen就是2，接下来读两个字节0x01和0x05：

第一次循环：len = 0 <<8 | 0x01 → 结果是0x01；
第二次循环：len = 0x01 <<8 | 0x05 → 结果是0x0105（也就是261），这就是后续Value字段的实际长度。

3. 为什么循环后`len`是有效的？

这里不是「反复覆盖」，而是逐步拼接：每次循环都是把之前的结果左移，再把新字节补到低位，最终把多个字节的长度值合并成一个完整的整数，完全符合TLV多字节长度的编码规则。

最后总结

这段代码的核心就是实现ICAO Doc 9303规定的TLV长度字段解码，移位操作是为了正确拼接多字节的长度值，循环结束后len就是后续需要读取的Value字段的准确长度，最后size = readPos + len就是计算当前标签结束的位置，方便后续处理其他标签。

内容的提问来源于stack exchange，提问作者Bruno

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠