CNN权重更新时机及反向传播更新核参数的批量选择问询

阿华AIGC实验室

2026-5-19

关于CNN权重更新与反向传播时机的解答

嘿，这两个问题刚好戳中了CNN训练的核心细节，我来给你理清楚：

1. CNN中何时更新权重？

一句话说清：权重（包括卷积核、全连接层参数等所有可训练参数）的更新，永远是在反向传播计算出梯度之后。

具体流程是：先把数据输入CNN做前向传播，得到预测结果后计算损失（比如交叉熵、MSE）；接着通过反向传播，从损失出发，链式求导算出每个可训练参数的梯度；最后调用优化器（比如SGD、Adam），用这些梯度来更新权重。

而权重更新的频率，完全取决于你选择的梯度更新策略。

先看你的场景：训练数据共1000条，batch size设为50，那整个训练集会被分成1000/50=20个小批次。不同的梯度策略，反向传播和参数更新的时机完全不同：

单样本随机梯度下降（纯SGD）：这种模式下，每输入一个样本就走一遍“前向传播→算损失→反向传播→更新权重”的流程。对你的场景来说，一个epoch要做1000次反向传播和参数更新。但这种模式训练波动极大，现在很少直接用。
小批量梯度下降（Mini-batch SGD，当前行业默认）：这就是你设置batch size=50的典型场景——每输入一整批50个样本，先把这50个样本的损失做平均（或求和），再基于这个批次的总损失执行反向传播计算梯度，最后更新一次权重（包括卷积核参数）。对你的场景来说，一个epoch会做20次反向传播和参数更新。这种模式平衡了训练稳定性和计算效率，是现在CNN训练的首选。
全批量梯度下降（BGD）：这种模式要等1000个样本全部输入完，计算整个训练集的总损失后，才执行一次反向传播和权重更新。一个epoch只更新1次，但计算量巨大，只适合极小的数据集。

所以回到你的问题：如果是用常规的Mini-batch SGD（也就是你设定batch size=50的情况），那是每个批次输入完成后执行反向传播和核参数更新，而非每个样本输入后就执行。

补充个小细节：卷积核本质就是CNN的可训练权重的一部分，它的更新逻辑和全连接层权重完全一致，都是在对应批次的反向传播完成后，由优化器统一处理。