Decoder-only Transformer模型中第二层之后的KV缓存如何为第二个生成token实现复用？

阿华AIGC实验室

2026-4-13

这个问题的核心是你混淆了Transformer层中不同阶段的张量——咱们先把Decoder-only模型里KV缓存的实际工作逻辑拆解开，一步一步说清楚：

首先敲黑板纠正你最关键的误解：KV缓存存的不是经过FFN或者后续层处理后的x向量，而是每一层自注意力机制里直接计算出来的K（键）和V（值）张量——这是打通整个逻辑的突破口。

咱们拿具体的生成流程举例，比如从初始序列[SOS, A, B]生成第一个新tokenC，再生成第二个新tokenD的过程：

1. 第一次生成（从`[SOS,A,B]`到`C`）

每一层Transformer的标准处理流程是：
输入x → 自注意力层 → 残差+层归一化 → FFN（前馈神经网络） → 残差+层归一化 → 输出到下一层

对于第j层来说，当处理[SOS,A,B]时，自注意力层会基于该层的输入x_in（第一层的话就是token嵌入，后面的层是上一层的输出），为每个token计算对应的K_j和V_j。这些K_j和V_j就是我们要缓存的核心内容——注意，它们是自注意力层的中间产物，和后续的FFN操作完全无关，计算完就固定了。

当我们通过最后一层的logits生成出C后，会把每一层对应的K_j([SOS,A,B])和V_j([SOS,A,B])都缓存下来，这是后续复用的基础。

2. 第二次生成（从`[SOS,A,B,C]`到`D`）

这一步是你困惑的核心，咱们逐层拆解：

第一层（j=1）：
我们的输入是拼接了C的新序列嵌入。首先，只需要单独计算C对应的K1_new和V1_new（基于C的嵌入），然后把缓存的K1扩展为[旧K1, K1_new]，V1扩展为[旧V1, V1_new]。
因为Decoder-only的mask机制，C只能关注前面的SOS,A,B，所以注意力计算时，C的Q1会和缓存的旧K1计算注意力分数，加权旧V1得到注意力输出，再走FFN得到C的第一层输出。而SOS,A,B的第一层输出我们根本不需要重新计算——因为后续层的注意力缓存已经有它们对应的K/V了。
第二层及以后（j≥2）：
这里的输入是第一层处理后的输出（包括C的第一层输出）。但重点来了：第二层的自注意力层计算K2和V2时，是基于第二层的输入x_in（也就是第一层的输出）。而在第一次生成C的时候，我们其实已经处理过SOS,A,B到第二层的注意力层，得到了这三个token的K2和V2并缓存了。
现在处理C的第二层输入（也就是第一层输出的C向量）时，只需要单独计算C对应的K2_new和V2_new，然后把缓存的K2扩展为[旧K2, K2_new]，V2扩展为[旧V2, V2_new]即可。

你之前的误区在于：以为x^2[i,j]（第二层的输出）和x^1[i-1,j]完全不同，所以K/V不能复用——但实际上，我们缓存的是第二层注意力层的K/V，而不是第二层的输出。SOS,A,B的K2和V2在第一次生成时就已经确定了，不管FFN怎么混合向量，这些K/V是固定的，根本不需要重新计算。

为什么FFN的存在不影响KV缓存的复用？

FFN是自注意力层之后的模块，它的作用是对注意力输出做进一步的非线性变换，输出作为下一层的输入。但FFN的操作不会改变已经计算好的、当前层注意力层的K/V张量——因为K/V是在FFN之前就已经计算并缓存了的。每一层的K/V只和该层的输入（上一层的输出）有关，而前面的token的上一层输出在第一次生成时就已经处理过，对应的K/V也已经缓存，所以生成新token时，只需要计算新token在每一层的K/V，然后复用旧的K/V即可。