文本分类器K折交叉验证首折准确率偏低问题求助

阿华AIGC实验室

2026-5-19

分析K折交叉验证首折准确率低、其余折过拟合的问题

这种首折表现拉胯，后面几折直接飙到99%-100%的情况，大概率是数据处理流程出错或者交叉验证设置不合理导致的，咱们逐个排查：

1. 最可能的原因：特征处理时的「数据泄露」

这是文本分类交叉验证里最容易踩的坑！如果你是先在整个数据集上用CountVectorizer（或者类似的count类方法）把Features转成指示变量，再拆分K折做训练，那后面的折相当于提前“偷看”了全量数据的特征分布——模型能轻松记住全局的特征-标签对应关系，自然会直接过拟合。

正确的做法是：每一轮K折都只在当前训练集上拟合特征转换器，再用同一个转换器处理测试集，代码示例如下：

from sklearn.model_selection import StratifiedKFold
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression

# 用分层K折保证每折标签分布和整体一致
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

for fold, (train_idx, test_idx) in enumerate(skf.split(df["Features"], df["Labels"])):
    # 拆分当前折的训练/测试集
    X_train, X_test = df["Features"].iloc[train_idx], df["Features"].iloc[test_idx]
    y_train, y_test = df["Labels"].iloc[train_idx], df["Labels"].iloc[test_idx]
    
    # 仅在训练集上拟合特征转换器（按逗号分割子特征）
    vec = CountVectorizer(tokenizer=lambda x: x.split(","), lowercase=False)
    X_train_vec = vec.fit_transform(X_train)
    X_test_vec = vec.transform(X_test)  # 用训练集的规则处理测试集
    
    # 训练带正则化的模型（避免过拟合）
    model = LogisticRegression(C=0.1, max_iter=1000)
    model.fit(X_train_vec, y_train)
    
    acc = model.score(X_test_vec, y_test)
    print(f"Fold {fold+1} Test Accuracy: {acc:.2f}")

2. 交叉验证未做分层抽样

你的数据集标签分布如果不均匀（比如某类样本占比90%），普通K折可能会把大量易分类的样本集中到后面几折，首折刚好抽到难分类的小众样本，导致准确率暴跌。

解决办法就是用上面代码里的StratifiedKFold，它会保证每折的标签分布和整个数据集完全一致，避免这种极端情况。

3. 数据集本身的异常

检查首折的样本：是不是有大量标注错误、噪声样本？或者首折里的Features包含很多模型从未见过的子特征？可以打印首折的y_test.value_counts()和X_test的部分样本，看看有没有异常。
检查子特征的分布：如果某个子特征只和特定标签强绑定，且只出现在后面几折的训练集里，模型会直接记住这个特征，导致过拟合。