You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

为何使用虚拟工具变量的2SLS等价于分组均值的GLS?

嘿,我来帮你拆解《基本无害的计量经济学》里这个绕人的点——当年我第一次读到这里也卡了好半天,咱们一步步捋清楚😉

虚拟工具变量的2SLS 与 分组均值GLS:等价性的核心逻辑

先从你想到的第一阶段入手:当工具变量是二元/多分类虚拟变量(比如按组别划分的D_i,1属于处理组,0属于对照组)时,第一阶段回归的本质就是给内生变量做分组取均值:

  • 第一阶段方程:X_i = α₀ + α₁D_i + e_i
  • 这里的拟合值\hat{X}_i其实就是组内均值:处理组的\hat{X}_i = α₀ + α₁,对照组的\hat{X}_i = α₀——相当于把内生变量X按工具变量的分组完全“聚合”成了组均值。

再看2SLS的第二阶段:用\hat{X}_iY_i回归,即Y_i = β₀ + β₁\hat{X}_i + u_i。这时候你会发现,这个回归的结果和**把YX都按工具变量分组取均值,然后用组均值做GLS(如果组内同方差,GLS等价于OLS)**的结果完全一致。

为什么会等价?因为分组均值GLS的核心是用“组层面的均值”替代个体层面的观测值来估计参数;而虚拟IV的2SLS第一阶段已经帮你把个体层面的X转换成了对应组的均值拟合值,第二阶段用这个拟合值回归Y,本质上就是在用量化后的组均值来估计——这就是两者等价的核心。

顺便理清Wald估计量、2SLS与分组数据的区别

这三个概念经常混,咱们用一句话串起来:

  • Wald估计量:是最基础的IV估计,当只有1个内生变量+1个二元虚拟IV时,Wald估计就是(处理组Y均值 - 对照组Y均值) / (处理组X均值 - 对照组X均值)——它既是分组均值回归的斜率,也是此时2SLS的估计结果(单IV时2SLS=Wald)。
  • 一般2SLS:当有多个工具变量(不管是不是虚拟的),第一阶段用所有IV对X回归得拟合值,第二阶段用拟合值回归Y;如果IV是多分类虚拟变量(比如按3组/4组划分),第一阶段的拟合值就是X在每个组内的均值,此时2SLS等价于对多组的(Y均值, X均值)做GLS(组内方差不同时,GLS会给每组加权,权重是组内观测数/组内方差)。
  • 分组数据回归:如果直接对带组别标签的原始个体数据回归,那是混合回归;但如果是先取组均值再回归,这就是和虚拟IV 2SLS等价的情况——此时分组均值回归本质上就是用组别作为工具变量的IV估计。

举个接地气的例子:假设你研究“教育年限对收入的影响”,内生性问题是“能力不可观测”,你用“是否上公立高中”作为虚拟IV(公立/私立的划分是外生的)。第一阶段用公立/私立虚拟变量回归教育年限,得到的拟合值就是公立学生的平均教育年限、私立学生的平均教育年限;第二阶段用这个拟合值回归收入,结果就等于直接算“公立组平均收入-私立组平均收入”除以“公立组平均教育年限-私立组平均教育年限”(Wald估计),同时也等于把两组均值拿出来做GLS的结果。

这样是不是就把三者的关联和等价性都捋顺了?核心就是虚拟工具变量的本质是“外生分组”,第一阶段的拟合值就是组内均值,第二阶段用这个均值回归自然就等价于组均值的GLS

内容的提问来源于stack exchange,提问作者leo

火山引擎 最新活动