如何为训练集与测试集应用相同处理管道解决特征差异问题

阿华AIGC实验室

2026-5-8

解决训练集与测试集预处理不一致的问题

这个问题在构建回归模型时太常见了，核心矛盾就是所有预处理规则必须完全从训练集推导，再严格应用到测试集，同时还要避开数据泄露的坑。我来一步步给你拆解解决方案：

一、绝对不能合并数据集后再拆分！

先给你打个预防针：合并训练集和测试集一起做预处理是绝对禁止的——这会把测试集的分布信息（比如空值位置、分类类别）提前泄露给训练过程，导致模型在测试集上的表现看起来很好，但实际泛化能力极差，到真实场景中会彻底失效。这个红线一定要守住。

二、严格遵循「训练集定规则，测试集执行规则」的原则

1. 确定要删除的列

只看训练集的空值占比来决定删哪些列：你说训练集要删col3、col5、col7，那不管测试集里这些列有没有空值，测试集必须同步删除这三列。因为模型训练时根本没用到这些列，测试时也不能引入这些特征，否则会破坏模型的输入逻辑。

2. 处理缺失值（核心解决你的填充列不一致问题）

对于训练集中需要填充的列（col8、col9、col10）：用训练集的数据拟合填充器（比如SimpleImputer），然后用这个已经拟合好的填充器去转换测试集的这三列。绝对不能用测试集的数据重新拟合填充器。
针对测试集独有的col2空值问题：
- 因为训练集里col2没有空值，我们只能基于训练集的统计信息来处理：
  - 如果col2是数值列：用训练集col2的均值/中位数填充测试集的空值；
  - 如果col2是分类列：用训练集col2的众数填充测试集的空值。
- 要是测试集col2的空值极少，也可以考虑直接删除这些测试样本（前提是删除后样本量足够支撑预测）。

3. 独热编码的NaN问题

独热编码本身无法处理NaN，所以必须先完成所有缺失值的填充（按照上面的步骤）。另外还要注意：

用训练集的分类列去拟合OneHotEncoder，然后应用到测试集；
如果测试集出现训练集没有见过的分类类别，设置OneHotEncoder(handle_unknown='ignore')，这样未知类别对应的独热编码列会全部为0，不会报错。

三、用Pipeline实现标准化的预处理流程

推荐用scikit-learn的Pipeline和ColumnTransformer来把预处理和模型打包，这样能确保所有规则都从训练集拟合，自动应用到测试集，避免手动处理出错。给你一个示例代码：

import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression

# 假设train_df是带标签的训练集，test_df是测试集
# 第一步：删除训练集空值占比>50%的列
cols_to_drop = ['col3', 'col5', 'col7']
train_df = train_df.drop(cols_to_drop, axis=1)
test_df = test_df.drop(cols_to_drop, axis=1)

# 定义数值列和分类列（根据你的实际数据类型调整）
numeric_cols = ['col8', 'col9']  # 数值型填充列
categorical_cols = ['col2', 'col10']  # 分类型列（含测试集有缺失的col2）

# 数值列预处理管道：用训练集中位数填充
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median'))
])

# 分类列预处理管道：用训练集众数填充NaN，再独热编码（忽略未知类别）
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# 合并所有预处理步骤
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_cols),
        ('cat', categorical_transformer, categorical_cols)
    ],
    remainder='passthrough'  # 保留其他不需要预处理的列（如col1、col4等）
)

# 构建完整的模型管道
model_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression())
])

# 用训练集拟合整个管道（包括所有预处理规则）
model_pipeline.fit(train_df.drop('target', axis=1), train_df['target'])

# 直接用管道预测测试集（自动应用训练好的预处理规则）
predictions = model_pipeline.predict(test_df)