岭回归与LASSO系数缩减特性问询:lambda取值相关问题
问题1:岭回归是否永远不会在lambda趋于无穷大之前将系数缩减至零?
没错,绝大多数实际场景下,岭回归不会在λ取有限值时把任何系数严格缩减到零。这得从岭回归的系数计算公式说起:
$$\hat{\beta}_{\text{ridge}} = (X^TX + \lambda I){-1}XTy$$
只要λ是有限值,矩阵$X^TX + \lambda I$就一定是可逆的(因为λI是对角元全为正的矩阵,加上半正定的$XTX$后会变成正定矩阵)。所以每个系数$\hat{\beta}_j$都是$XTy$和可逆矩阵的乘积,不会出现严格为零的情况——只会随着λ增大逐渐趋近于零,直到λ趋向无穷大时,所有系数才会收敛到零。
问题2:是否存在罕见情况,岭回归在lambda极大但未达无穷大时将部分系数缩减至零?还是绝无可能?
确实存在这种罕见场景:当某个特征与响应变量完全正交(也就是该特征的列向量$x_j$和$y$的内积为0,即$x_j^Ty = 0$)时,不管λ取任何有限值,这个特征对应的岭回归系数都会严格为零。
举个简单例子:假设特征矩阵$X$有两列,第二列是$x_2 = [1, -1, 1, -1]^T$,响应变量$y = [1, 1, 1, 1]T$。计算$x_2Ty = 1×1 + (-1)×1 + 1×1 + (-1)×1 = 0$。代入岭回归系数公式,$\hat{\beta}_2 = (x_2^Tx_2 + \lambda){-1}x_2Ty = 0$——不管λ是100、1000还是其他有限值,这个系数始终是0。
不过要注意,这种情况在真实数据里非常少见,毕竟几乎不会有特征和响应变量完全正交,但从理论上来说是成立的。
问题3:同理,LASSO是否仅在lambda为无穷大时才会将所有系数缩减至零?
当然不是,LASSO会在有限的λ值下就把所有系数缩减到零,这个临界值我们叫它$\lambda_{\text{max}}$(最大λ值)。
对于标准化后的特征(每列均值为0、方差为1),$\lambda_{\text{max}} = \frac{1}{n}\max_j |x_j^Ty|$($n$是样本量)。只要λ超过$\lambda_{\text{max}}$,所有LASSO系数都会变成0,完全不需要λ趋向无穷大。
举个直观的单特征例子:假设我们有标准化特征$x = [1, -1, 0]^T$,响应变量$y = [2, -2, 1]T$。计算$xTy = 1×2 + (-1)×(-2) + 0×1 = 4$,样本量$n=3$,所以$\lambda_{\text{max}} = 4/3 ≈1.333$。当λ=2(大于$\lambda_{\text{max}}$)时,LASSO的最优解就是$\beta=0$——因为任何非零的β都会让目标函数$\frac{1}{6}|y -xβ|^2 +2|β|$的值比β=0时更大:β=0时目标值是$\frac{1}{6}(4+4+1)=1.5$;如果β=1,目标值是$\frac{1}{6}(1+9+1)+2≈3.83$,明显更大,所以最优解只能是β=0。
内容的提问来源于stack exchange,提问作者Narahari B M




