如何在交叉验证中正确使用过采样数据？SMOTE与不平衡数据集疑问

阿华AIGC实验室

2026-5-21

关于SMOTE与交叉验证的正确打开方式

你提到的这篇论文完全点出了不平衡数据建模里一个很容易踩的坑——提前对整个数据集做SMOTE再交叉验证，确实会导致严重的过拟合和乐观的性能评估。

为什么直接用SMOTE后的数据集做交叉验证不对？

核心问题在于数据泄露：当你先对全量数据集做SMOTE时，生成的合成样本是基于整个数据集的分布（包括后续会用作验证/测试的部分）。交叉验证的本质是模拟“训练时看不到验证数据”的真实场景，但提前采样后，验证集的分布已经被训练过程“见过”了，模型在验证集上的表现会远好于真实的泛化能力，相当于作弊。

正确的操作流程

正确的做法是把SMOTE的应用限制在交叉验证的每一轮训练子集里，验证子集始终保持原始的不平衡状态，具体步骤如下：

第一步：将原始的不平衡数据集划分为10折（注意：这里不要做任何采样操作）
第二步：循环处理每一折：
1. 把当前折作为验证集，完全保留原始的类别分布，不做任何采样
2. 把剩下的9折合并作为训练集，仅在这个训练集上应用SMOTE生成过采样后的训练数据
3. 用SMOTE处理后的训练数据训练你的二分类模型
4. 用原始的验证集评估模型的性能（比如准确率、召回率、F1、AUC等）
第三步：将10轮交叉验证得到的性能指标取平均值，作为模型最终的泛化能力评估结果