5折交叉验证寻Lasso最优正则系数α时遇数据错误排查

阿华AIGC实验室

2026-5-8

解决LassoCV交叉验证中的ValueError问题

你遇到的这个问题主要是两个关键错误导致的，咱们一步步拆解解决：

1. 核心问题：用错了交叉验证折叠器

你用了StratifiedKFold来处理回归任务，但这个工具是专门为分类任务设计的——它会按照类别标签的分布来分层拆分数据，保证每个折叠的类别比例和整体一致。但回归任务的目标变量是连续值，StratifiedKFold会强行把连续的y值分成若干“伪类别”（比如按分位数划分），这种拆分逻辑会导致数据子集出现异常，进而在Lasso拟合时触发数值错误（即使你整体数据没有NaN/Inf，子集里可能出现特征方差为0、极端值等情况，引发拟合时的数值溢出）。

解决方法很简单：把StratifiedKFold换成回归任务专用的KFold（如果需要随机拆分记得加shuffle=True）。

2. 冗余操作：手动循环交叉验证 + LassoCV自带CV重复了

LassoCV本身已经内置了交叉验证逻辑来选择最优α，你不需要再手动外层套一层KFold循环，这会导致逻辑混乱，也容易引发不必要的数值问题。

修正后的两种方案

方案一：直接用LassoCV自带的交叉验证（推荐）

这种方式最简洁，让LassoCV自己处理5折交叉验证，自动选出最优α：

import numpy as np
from sklearn.linear_model import LassoCV
from sklearn.model_selection import KFold

alphas = np.logspace(-6, 2, 200)
# 回归任务用KFold，开启shuffle保证随机性
kf = KFold(n_splits=5, shuffle=True, random_state=17)
lasso_cv = LassoCV(alphas=alphas, cv=kf, random_state=17, max_iter=5000)
lasso_cv.fit(X_train_scaled, y_train)

print(f"最优正则化系数α: {lasso_cv.alpha_:.5f}")
print(f"5折交叉验证平均R²得分: {lasso_cv.score(X_train_scaled, y_train):.5f}")

方案二：手动循环查看每个折叠的结果（如果需要逐折分析）

如果你确实需要看每个折叠的α选择和得分，应该在每个折叠内用LassoCV，同时用普通KFold拆分数据：

import numpy as np
from sklearn.linear_model import LassoCV
from sklearn.model_selection import KFold
from sklearn.metrics import r2_score

alphas = np.logspace(-6, 2, 200)
kf = KFold(n_splits=5, shuffle=True, random_state=17)

for fold_idx, (train_idx, test_idx) in enumerate(kf.split(X_train_scaled, y_train)):
    # 拆分当前折叠的训练/测试集
    X_tr, X_te = X_train_scaled[train_idx], X_train_scaled[test_idx]
    y_tr, y_te = y_train[train_idx], y_train[test_idx]
    
    # 在当前训练子集上用LassoCV选最优α
    lasso_cv = LassoCV(alphas=alphas, random_state=17, max_iter=5000)
    lasso_cv.fit(X_tr, y_tr)
    
    # 计算当前折叠的测试得分
    fold_score = r2_score(y_te, lasso_cv.predict(X_te))
    print(f"[fold {fold_idx+1}] alpha: {lasso_cv.alpha_:.5f}, score: {fold_score:.5f}")