如何在XGBoost中求解分类树残差及构建残差驱动的集成模型？

阿华AIGC实验室

2026-5-19

XGBoost分类任务：残差计算、迭代树拟合与集成加权实操

嘿，我来帮你拆解这些XGBoost分类任务里的核心问题——毕竟Tianqi Chen他们的理论听起来清晰，但实操起来确实容易卡壳，尤其是分类和回归的残差逻辑不一样，咱们一步步来：

一、如何在XGBoost中找到分类树的残差？

首先得明确：XGBoost里分类任务的“残差”和回归任务不一样——回归是直接用真实值-预测值，但分类是基于损失函数的负梯度来定义的，这也是梯度提升树的核心逻辑。

举个鸢尾花3分类的具体例子，用多分类交叉熵（logloss）作为损失函数：

对于每个样本i，真实标签是独热编码的y_ik（如果样本i属于类别k，y_ik=1，否则0）
当前模型对样本i的类别k的预测概率是p_ik
那么该样本在类别k上的残差（也就是损失函数对p_ik的负梯度）就是：g_ik = y_ik - p_ik

简单说，残差反映了当前模型在每个类别上的“预测偏差”：如果样本属于类别k但预测概率低，残差就是正的大值；如果不属于但预测概率高，残差就是负的大值。XGBoost内部就是用这个负梯度作为下一轮树要拟合的“目标值”。

二、训练完第一棵树后，怎么基于残差拟合新树？

你提到训练第一棵树后有3个错误样本，但XGBoost不是只盯着错误样本，而是用所有样本的残差来训练下一棵回归树（划重点：分类任务的基学习器是回归树，因为拟合的是梯度/残差）。具体步骤结合鸢尾花数据集来看：

初始化模型：一开始没有任何树，所有样本的预测概率是数据集的先验概率——比如鸢尾花3类各50个样本，初始预测概率都是[1/3, 1/3, 1/3]。
计算第一轮残差：对每个样本，计算每个类别对应的残差g_ik = y_ik - p_ik。比如某个真实是类别0的样本，第一轮预测概率是[0.6, 0.3, 0.1]，那它的残差就是[0.4, -0.3, -0.1]。
训练第一轮的3棵回归树：针对每个类别，用该类别的所有样本残差作为目标，训练一棵回归树。这3棵树分别负责拟合类别0、1、2的残差。
更新模型预测：把每棵树的输出乘以一个小的learning_rate（比如0.1），加到原来的预测概率上：p_ik = p_ik + learning_rate * f_k(x_i)，其中f_k(x_i)是第k棵树对样本i的输出。
迭代重复：基于更新后的预测概率，重新计算所有样本的残差，再训练下一轮的3棵树，重复这个过程直到达到设定的迭代次数，或者损失不再下降。

哪怕只有3个错误样本，其他正确样本的残差也可能不为0（比如正确类别预测概率只有0.6，残差是0.4），这些样本同样会帮助模型修正预测偏差。

三、如何加权这些树形成集成模型？

XGBoost的集成加权逻辑很简洁，核心是两个点：

1. 学习率（步长）控制每棵树的贡献

每一棵新树的输出都会乘以一个小于1的learning_rate（比如0.05-0.1），然后累加到之前的模型预测中。这样做是为了避免单棵树对整体模型的影响过大，防止过拟合，同时让模型通过多次迭代逐步修正偏差。

2. 正则化项约束树的权重

XGBoost还通过正则化来调整树的权重：

gamma：控制树分裂的最小增益，只有当分裂带来的损失减少量大于gamma时才会分裂，避免生成过于复杂的树。
lambda：对叶子节点的权重做L2正则，防止叶子节点权重过大，进一步降低过拟合风险。

多分类的最终集成预测

对于鸢尾花这类多分类任务，最终的预测是把所有对应类别的树的输出求和，然后通过softmax函数转换成概率，取概率最大的类别作为最终预测结果。

实操示例（Python）

用鸢尾花数据集跑一个简单的XGBoost多分类任务，直观感受整个流程：

import xgboost as xgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集并拆分
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, test_size=0.2, random_state=42
)

# 转换为XGBoost专用的DMatrix格式
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

# 设置参数：多分类、3类别、logloss损失、学习率0.1
params = {
    'objective': 'multi:softprob',
    'num_class': 3,
    'learning_rate': 0.1,
    'max_depth': 3,
    'eval_metric': 'mlogloss'
}

# 训练10轮（生成10*3=30棵树）
model = xgb.train(params, dtrain, num_boost_round=10)

# 预测并评估
y_pred_proba = model.predict(dtest)
y_pred = y_pred_proba.argmax(axis=1)
print(f"测试集准确率: {accuracy_score(y_test, y_pred):.2f}")

内容的提问来源于stack exchange，提问作者stanley4430