为何使用虚拟工具变量的2SLS等价于分组均值的GLS？

阿华AIGC实验室

2026-5-19

嘿，我来帮你拆解《基本无害的计量经济学》里这个绕人的点——当年我第一次读到这里也卡了好半天，咱们一步步捋清楚😉

虚拟工具变量的2SLS 与分组均值GLS：等价性的核心逻辑

先从你想到的第一阶段入手：当工具变量是二元/多分类虚拟变量（比如按组别划分的D_i，1属于处理组，0属于对照组）时，第一阶段回归的本质就是给内生变量做分组取均值：

第一阶段方程：X_i = α₀ + α₁D_i + e_i
这里的拟合值\hat{X}_i其实就是组内均值：处理组的\hat{X}_i = α₀ + α₁，对照组的\hat{X}_i = α₀——相当于把内生变量X按工具变量的分组完全“聚合”成了组均值。

再看2SLS的第二阶段：用\hat{X}_i对Y_i回归，即Y_i = β₀ + β₁\hat{X}_i + u_i。这时候你会发现，这个回归的结果和**把Y和X都按工具变量分组取均值，然后用组均值做GLS（如果组内同方差，GLS等价于OLS）**的结果完全一致。

为什么会等价？因为分组均值GLS的核心是用“组层面的均值”替代个体层面的观测值来估计参数；而虚拟IV的2SLS第一阶段已经帮你把个体层面的X转换成了对应组的均值拟合值，第二阶段用这个拟合值回归Y，本质上就是在用量化后的组均值来估计——这就是两者等价的核心。

顺便理清Wald估计量、2SLS与分组数据的区别

这三个概念经常混，咱们用一句话串起来：

Wald估计量：是最基础的IV估计，当只有1个内生变量+1个二元虚拟IV时，Wald估计就是(处理组Y均值 - 对照组Y均值) / (处理组X均值 - 对照组X均值)——它既是分组均值回归的斜率，也是此时2SLS的估计结果（单IV时2SLS=Wald）。
一般2SLS：当有多个工具变量（不管是不是虚拟的），第一阶段用所有IV对X回归得拟合值，第二阶段用拟合值回归Y；如果IV是多分类虚拟变量（比如按3组/4组划分），第一阶段的拟合值就是X在每个组内的均值，此时2SLS等价于对多组的(Y均值, X均值)做GLS（组内方差不同时，GLS会给每组加权，权重是组内观测数/组内方差）。
分组数据回归：如果直接对带组别标签的原始个体数据回归，那是混合回归；但如果是先取组均值再回归，这就是和虚拟IV 2SLS等价的情况——此时分组均值回归本质上就是用组别作为工具变量的IV估计。

举个接地气的例子：假设你研究“教育年限对收入的影响”，内生性问题是“能力不可观测”，你用“是否上公立高中”作为虚拟IV（公立/私立的划分是外生的）。第一阶段用公立/私立虚拟变量回归教育年限，得到的拟合值就是公立学生的平均教育年限、私立学生的平均教育年限；第二阶段用这个拟合值回归收入，结果就等于直接算“公立组平均收入-私立组平均收入”除以“公立组平均教育年限-私立组平均教育年限”（Wald估计），同时也等于把两组均值拿出来做GLS的结果。

这样是不是就把三者的关联和等价性都捋顺了？核心就是虚拟工具变量的本质是“外生分组”，第一阶段的拟合值就是组内均值，第二阶段用这个均值回归自然就等价于组均值的GLS。

内容的提问来源于stack exchange，提问作者leo