岭回归与LASSO系数缩减特性问询：lambda取值相关问题

阿华AIGC实验室

2026-5-19

岭回归与LASSO系数缩减问题解答

问题1：岭回归是否永远不会在lambda趋于无穷大之前将系数缩减至零？

没错，绝大多数实际场景下，岭回归不会在λ取有限值时把任何系数严格缩减到零。这得从岭回归的系数计算公式说起：
$$\hat{\beta}_{\text{ridge}} = (X^TX + \lambda I)^{-1}XTy$$
只要λ是有限值，矩阵$X^TX + \lambda I$就一定是可逆的（因为λI是对角元全为正的矩阵，加上半正定的$X^{TX$后会变成正定矩阵）。所以每个系数$\hat{\beta}_j$都是$X}Ty$和可逆矩阵的乘积，不会出现严格为零的情况——只会随着λ增大逐渐趋近于零，直到λ趋向无穷大时，所有系数才会收敛到零。

问题2：是否存在罕见情况，岭回归在lambda极大但未达无穷大时将部分系数缩减至零？还是绝无可能？

确实存在这种罕见场景：当某个特征与响应变量完全正交（也就是该特征的列向量$x_j$和$y$的内积为0，即$x_j^Ty = 0$）时，不管λ取任何有限值，这个特征对应的岭回归系数都会严格为零。

举个简单例子：假设特征矩阵$X$有两列，第二列是$x_2 = [1, -1, 1, -1]^T$，响应变量$y = [1, 1, 1, 1]^{T$。计算$x_2}Ty = 1×1 + (-1)×1 + 1×1 + (-1)×1 = 0$。代入岭回归系数公式，$\hat{\beta}_2 = (x_2^Tx_2 + \lambda)^{-1}x_2Ty = 0$——不管λ是100、1000还是其他有限值，这个系数始终是0。

不过要注意，这种情况在真实数据里非常少见，毕竟几乎不会有特征和响应变量完全正交，但从理论上来说是成立的。

问题3：同理，LASSO是否仅在lambda为无穷大时才会将所有系数缩减至零？

当然不是，LASSO会在有限的λ值下就把所有系数缩减到零，这个临界值我们叫它$\lambda_{\text{max}}$（最大λ值）。

对于标准化后的特征（每列均值为0、方差为1），$\lambda_{\text{max}} = \frac{1}{n}\max_j |x_j^Ty|$（$n$是样本量）。只要λ超过$\lambda_{\text{max}}$，所有LASSO系数都会变成0，完全不需要λ趋向无穷大。

举个直观的单特征例子：假设我们有标准化特征$x = [1, -1, 0]^T$，响应变量$y = [2, -2, 1]^{T$。计算$x}Ty = 1×2 + (-1)×(-2) + 0×1 = 4$，样本量$n=3$，所以$\lambda_{\text{max}} = 4/3 ≈1.333$。当λ=2（大于$\lambda_{\text{max}}$）时，LASSO的最优解就是$\beta=0$——因为任何非零的β都会让目标函数$\frac{1}{6}|y -xβ|^2 +2|β|$的值比β=0时更大：β=0时目标值是$\frac{1}{6}(4+4+1)=1.5$；如果β=1，目标值是$\frac{1}{6}(1+9+1)+2≈3.83$，明显更大，所以最优解只能是β=0。

内容的提问来源于stack exchange，提问作者Narahari B M