含协变量时，交互项回归与分模型系数差异的原因咨询

阿华AIGC实验室

2026-5-19

为什么带协变量的交互项系数和分组回归的系数差不一致？

这个问题其实挺常见的，核心原因在于全模型里的协变量系数被强制约束为两组共享，而分组回归里每组的协变量系数是独立估计的——这就是两者差异的根源！

先明确两种模型的核心区别

我们把两种回归的数学设定拆解清楚，你就能直观看到差异所在：

带交互项的全模型：
你的模型可以写成：
```
Y = β₀ + β₁*X + β₂*D + β₃*X*D + Σβₖ*Covariates + ε
```
这里D是二元变量（0/1），X是连续变量。这个模型有个关键假设：所有协变量对Y的影响，在D=0和D=1两组是完全相同的（即协变量的系数βₖ不随D变化）。此时交互项系数β₃（也就是你得到的-6.52）的含义是：在协变量取值完全相同的前提下，X对Y的影响在D=1组和D=0组的差值——这是一个“净交互效应”。
分组独立回归：
分开跑两个回归时，模型实际是：
- D=0组：Y = α₀ + α₁*X + Σαₖ*Covariates + ε
- D=1组：Y = γ₀ + γ₁*X + Σγₖ*Covariates + ε
  这里协变量的系数αₖ和γₖ是各自独立估计的，模型允许协变量对Y的影响在两组之间存在差异。此时γ₁ - α₁的差值，不仅包含X和D的交互效应，还可能混入了协变量组间差异带来的额外影响——比如某协变量在两组的均值不同，或者协变量对Y的影响在两组不一样，都会让这个差值和全模型的β₃偏离。

举个简单例子帮你理解

假设你有个协变量Z，D=0组的Z均值是10，D=1组的Z均值是20，且Z在全模型里的系数是β_z=2。分组回归时，D=1组的X系数γ₁会间接包含Z均值更高带来的效应，而全模型的交互项β₃已经剔除了这部分——因为它控制了Z的取值，且假设Z的效应在两组相同。这时候分组回归的γ₁ - α₁自然就不等于β₃了。