机器学习回归样本外测试集RMSE的Bootstrap置信区间计算问询

阿华AIGC实验室

2026-5-19

嘿，这个问题我之前帮不少人解答过，刚好可以给你梳理清楚怎么计算测试集RMSE的置信区间，还有你提到的重采样思路到底靠不靠谱～

计算样本外测试集RMSE的置信区间

先聊聊你提到的重采样思路

你说的“在训练集（前80%）内重采样，每次迭代用同一个测试集”，这个方法其实叫做重复训练-测试法（Repeated Train-Test Splitting），也算是蒙特卡洛交叉验证的一个变种（只不过固定了测试集）。这个思路完全可行，但有几个关键点要注意：

每次重采样时，建议用bootstrap有放回采样（和原训练集大小一致），或者无放回抽取和原训练集规模相近的子集，这样能更好模拟真实训练过程的变异性。
重复这个过程几百甚至上千次，你会得到一堆RMSE值，直接取这些值的分位数就能构建置信区间（比如取2.5%和97.5%分位数作为95%置信区间）。

这个方法的优势是能捕捉模型训练过程中的随机性（比如不同训练子集带来的模型波动），尤其适合不稳定的模型（比如决策树、随机森林这类对训练数据变化敏感的模型）。

另一种更高效的方法：基于预测误差的正态近似

如果你的测试集足够大，还可以直接利用测试集的预测误差来推导RMSE的置信区间，步骤如下：

先计算测试集上每个样本的预测误差 ( e_i = y_i - \hat{y}i )，再算出RMSE：( RMSE = \sqrt{\frac{1}{n{test}} \sum_{i=1}^{n_{test}} e_i^2} )
计算误差平方的样本均值 ( s^2 = \frac{1}{n_{test}} \sum_{i=1}^{n_{test}} e_i^2 )，以及误差平方的样本标准差 ( \sigma_{s^2} )
借助中心极限定理，假设误差平方近似服从正态分布，用t分布计算 ( s^2 ) 的置信区间，最后对区间上下限取平方根，就得到RMSE的置信区间。

这个方法计算更快，但依赖测试集足够大、误差平方分布近似正态的前提，适合线性回归这类稳定性较好的模型。

实操代码示例（Python）

方法1：重复训练-测试重采样

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 设定重复次数
n_repeats = 1000
rmse_results = []

for _ in range(n_repeats):
    # 对训练集做bootstrap有放回采样
    boot_indices = np.random.choice(len(X_train), size=len(X_train), replace=True)
    X_boot, y_boot = X_train.iloc[boot_indices], y_train.iloc[boot_indices]
    
    # 训练模型并在固定测试集上计算RMSE
    model = LinearRegression()
    model.fit(X_boot, y_boot)
    y_pred = model.predict(X_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    rmse_results.append(rmse)

# 计算95%置信区间
lower_ci = np.percentile(rmse_results, 2.5)
upper_ci = np.percentile(rmse_results, 97.5)

print(f"RMSE的95%置信区间: ({lower_ci:.4f}, {upper_ci:.4f})")

方法2：基于误差平方的正态近似

import numpy as np
from scipy import stats
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 训练模型并得到测试集预测结果
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
errors = y_test - y_pred
error_squares = errors ** 2

# 计算误差平方的统计量
n_test = len(error_squares)
mean_sq_error = np.mean(error_squares)
std_sq_error = np.std(error_squares, ddof=1)

# 计算误差平方均值的置信区间
t_critical = stats.t.ppf(0.975, df=n_test-1)
sq_error_lower = mean_sq_error - t_critical * std_sq_error / np.sqrt(n_test)
sq_error_upper = mean_sq_error + t_critical * std_sq_error / np.sqrt(n_test)

# 转换为RMSE的置信区间（防止下限为负）
rmse_lower = np.sqrt(max(sq_error_lower, 0))
rmse_upper = np.sqrt(sq_error_upper)

print(f"RMSE的95%置信区间: ({rmse_lower:.4f}, {rmse_upper:.4f})")