含交互项的代价函数下，梯度下降法参数更新是否一致？

阿华AIGC实验室

2026-5-19

关于带交互项的线性模型梯度下降参数更新的问题

好问题！答案是完全可以——哪怕线性模型里加入了交互项，你依然能用和普通多元线性回归一模一样的梯度下降方式更新参数b（包括所有其他回归参数）。具体原因如下：

1. 带交互项的线性模型本质还是「参数线性模型」

普通多元线性回归的形式是：
Y = b₀ + b₁X₁ + b₂X₂ + ... + bₙXₙ
加入交互项后，模型会变成类似这样：
Y = b₀ + b₁X₁ + b₂X₂ + b₃X₁X₂ + ...
这里的X₁X₂只是一个合成特征而已，核心是所有参数b₀、b₁、b₂、b₃...依然是线性的——也就是说，整个模型对每一个参数都是一次项，没有参数的乘积、幂次这类非线性形式。这种情况下，模型的本质还是线性回归，只是特征空间被扩展了。

2. 平方误差代价函数的偏导数计算逻辑不变

你的代价函数还是C = |Y - Y(X)|²，不管对应的特征是原始特征还是交互项合成的特征，对任意参数b_k的偏导数计算逻辑完全一致：

对于平方误差，∂C/∂b_k = 2*(Y_pred - Y_true) * x_k
这里的x_k就是参数b_k对应的特征值——如果b_k是交互项X₁X₂的系数，那x_k就是样本中X₁和X₂的乘积值；如果是原始特征X₁的系数，那x_k就是X₁的取值。

3. 梯度下降的更新公式完全通用

梯度下降的更新规则b = b - η * ∂C/∂b里，只和三个因素有关：学习率η、当前参数b的取值、以及代价函数对该参数的偏导数。交互项的存在并没有改变这三个因素的计算逻辑，因为它只是特征的一种组合，并没有破坏模型对参数的线性性。

举个直观的例子：
假设模型是Y = b₀ + b₁X₁ + b₂X₂ + b₃X₁X₂，代价函数是C = (Y_pred - Y_true)²
对b₃求偏导得到：∂C/∂b₃ = 2*(Y_pred - Y_true)*X₁X₂
更新b₃的公式就是：b₃ = b₃ - η * 2*(Y_pred - Y_true)*X₁X₂
这和更新b₁时用b₁ = b₁ - η * 2*(Y_pred - Y_true)*X₁的逻辑完全一致，只是对应的特征从X₁换成了X₁X₂而已。