TensorFlow中能否获取经过部分训练的中间步骤梯度？

阿华AIGC实验室

2026-4-29

获取TensorFlow模型中间步骤的梯度

首先得澄清一个小误解：你贴的代码里，tape.gradient(loss, model.trainable_variables)返回的是模型可训练参数（权重、偏置等）的梯度，不是输入图像的梯度。如果确实得到了输入的梯度，大概率是代码里把model.trainable_variables换成了输入x。不过没关系，咱们重点说怎么获取中间步骤的梯度——不管是中间层参数的梯度，还是中间层激活的梯度，都有办法实现。

场景1：获取中间层参数的梯度

如果你想获取模型某几个中间层的参数（比如卷积层、全连接层的权重）的梯度，只需要把model.trainable_variables替换成你目标层的参数集合就行。

举个例子，假设你的模型是这样定义的：

model = tf.keras.Sequential([
    tf.keras.layers.Conv2D(32, (3,3), activation='relu', name='conv1'),
    tf.keras.layers.Conv2D(64, (3,3), activation='relu', name='conv2'),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(10, activation='softmax', name='dense1')
])

如果你想单独获取conv1和conv2层参数的梯度，可以这样做：

with tf.GradientTape() as tape:
    out = model(x, training=True)
    out = tf.reshape(out, (num_img, 1, 10))
    loss = tf.keras.losses.categorical_crossentropy(y, out)

# 获取指定层的参数
target_layers = [model.get_layer('conv1').trainable_variables, 
                 model.get_layer('conv2').trainable_variables]
# 把列表扁平化
target_vars = [var for sublist in target_layers for var in sublist]

# 计算梯度
gradients = tape.gradient(loss, target_vars)

这样得到的gradients就是conv1和conv2层所有可训练参数的梯度，顺序和target_vars一一对应。

场景2：获取中间层激活值的梯度

如果你想获取loss相对于中间层激活值的梯度（也就是反向传播到中间层时的梯度信号），需要在GradientTape的上下文里显式记录中间层的输出，因为默认情况下tape只会追踪可训练变量，不会自动记录中间激活。

还是用上面的模型举例，我们可以先定义一个辅助流程直接在tape里获取中间层输出：

with tf.GradientTape() as tape:
    # 显式追踪中间层输出
    x1 = model.get_layer('conv1')(x)
    x2 = model.get_layer('conv2')(x1)
    flatten = model.get_layer('flatten')(x2)
    out = model.get_layer('dense1')(flatten)
    
    out = tf.reshape(out, (num_img, 1, 10))
    loss = tf.keras.losses.categorical_crossentropy(y, out)

# 计算loss相对于conv2层激活值的梯度
conv2_grad = tape.gradient(loss, x2)
# 计算loss相对于conv1层激活值的梯度
conv1_grad = tape.gradient(loss, x1)

或者更灵活一点，用model.get_layer的output属性，但需要确保模型已经被构建（也就是输入过一次数据）：

# 先构建模型
model(x)

with tf.GradientTape() as tape:
    out = model(x, training=True)
    out = tf.reshape(out, (num_img, 1, 10))
    loss = tf.keras.losses.categorical_crossentropy(y, out)

# 获取conv2层的输出张量
conv2_output = model.get_layer('conv2').output
# 计算梯度
conv2_grad = tape.gradient(loss, conv2_output)

注意：如果模型是动态构建的（比如子类化模型），直接用层的output可能需要在tape上下文里追踪，所以第一种显式计算中间层输出的方式更稳妥。

额外提示：保留梯度信息

默认情况下，GradientTape在计算完梯度后会释放资源。如果需要计算多个梯度（比如同时算参数梯度和中间激活梯度），可以在创建tape时设置persistent=True，用完后手动删除tape避免内存泄漏：

with tf.GradientTape(persistent=True) as tape:
    out = model(x, training=True)
    out = tf.reshape(out, (num_img, 1, 10))
    loss = tf.keras.losses.categorical_crossentropy(y, out)

# 计算参数梯度
param_grads = tape.gradient(loss, model.trainable_variables)
# 计算中间层激活梯度
conv2_grad = tape.gradient(loss, model.get_layer('conv2').output)

# 删除tape释放资源
del tape

这样就能同时获取多种梯度了。

内容的提问来源于stack exchange，提问作者user13906837