神经网络特征缩放时，为何需对数据进行中心化处理？

阿华AIGC实验室

2026-5-19

为什么特征缩放需要中心化，而不只是除以标准差？

这真是个很棒的问题——很多刚接触特征工程的同学都会疑惑，既然目标是把数据放到同一尺度，为啥非得多一步减去均值？我来拆解下中心化的核心作用，帮你搞清楚这背后的逻辑：

让梯度下降更稳定、均衡
假设你有两个特征：一个是用户年龄（范围20-80，均值50），另一个是用户每日浏览时长（范围0-2，均值1）。如果只除以标准差，年龄的数值还是远大于浏览时长，模型在更新权重的时候，梯度会被数值大的特征主导，导致权重更新偏向年龄，甚至出现震荡。中心化后，两个特征都围绕0分布（年龄变成-30到+30，浏览时长变成-1到+1），再除以标准差，就能让每个特征的尺度真正对齐，梯度更新会更均衡，不会被大数值特征带偏。
让统计量（标准差）更有意义
标准差衡量的是数据相对于均值的离散程度，如果不中心化，你除以标准差得到的是「(原始值-0)/标准差」，这其实没有反映数据的真实波动。中心化后，数值变成「(原始值-均值)/标准差」，也就是z-score，这个值能准确表示每个样本在特征中的相对位置——比如z-score=1代表比均值高一个标准差，这样模型能更好地理解特征的分布规律。而且像PCA这类依赖方差的算法，必须中心化才能找到真正的主成分，不然会被均值大的特征牵着走。
加速模型收敛
未中心化的特征会让损失函数的等高线变成「扁长的椭圆形」，梯度下降的时候，你需要走很多弯路才能逼近最小值；而中心化后，等高线会更接近圆形，梯度方向能更直接地指向最优解，收敛速度会快很多。这对神经网络、线性回归这类迭代优化的算法来说，提升特别明显。

那如果我只是单纯想缩放数值，只除以标准差行不行？其实在极少数场景下可以（比如某些只关注相对比例的算法），但绝大多数机器学习算法都依赖中心化后的特征——因为它们的数学假设（比如线性回归的误差项零均值）或者优化逻辑（梯度下降的稳定性）都需要特征围绕0分布，不然模型性能会打折扣，甚至出现训练不稳定的情况。

内容的提问来源于stack exchange，提问作者Jayesh Saita