You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

三变量回归遗漏X₃时OLS估计量b₁的偏误公式推导请求

Got it,我来一步步推导这个场景下OLS估计量$b_1$的偏误,帮你明确当$X_3$和$X_2$相关但和$X_1$无关时的情况:

前提设定

首先明确两个核心模型和关键假设:

  • 真实数据生成过程(DGP)
    $$Y=\alpha +\beta_{1} X_{1}+\beta_{2} X_{2}+\beta_{3} X_{3}+u$$
    满足经典OLS严格外生性假设:$E[u|X_1,X_2,X_3]=0$,解释变量在重复抽样下固定(或非随机)。
  • 估计模型:因遗漏变量$X_3$,我们实际估计的模型为:
    $$Y=\alpha +\beta_{1} X_{1}+\beta_{2} X_{2}+v$$
    其中$v = \beta_3 X_3 + u$,即遗漏的$X_3$对$Y$的影响被纳入了扰动项$v$中。
  • 场景假设:$Cov(X_3,X_1)=0$($X_3$与$X_1$无关),但$Cov(X_3,X_2) \neq 0$($X_3$与$X_2$相关)。

OLS估计量$b_1$的表达式推导

对于二元回归($Y$对$X_1,X_2$回归),$X_1$的OLS估计量$b_1$有一个关键性质:它可以分解为真实系数$\beta_1$加上扰动项与$X_1$的协方差项,即:
$$b_1 = \beta_1 + \frac{\sum_{i=1}^n (X_{1i}-\bar{X}1)v_i}{\sum{i=1}^n (X_{1i}-\bar{X}_1)^2}$$
这个式子来自OLS的正交性条件:残差与解释变量正交,整理后即可得到。

将$v_i = \beta_3 X_{3i} + u_i$代入上式,展开后得到:
$$b_1 = \beta_1 + \beta_3 \cdot \frac{\sum_{i=1}^n (X_{1i}-\bar{X}1)X{3i}}{\sum_{i=1}^n (X_{1i}-\bar{X}1)^2} + \frac{\sum{i=1}^n (X_{1i}-\bar{X}1)u_i}{\sum{i=1}^n (X_{1i}-\bar{X}_1)^2}$$

计算偏误($E[b_1] - \beta_1$)

我们需要计算$b_1$的条件期望(以$X_1,X_2,X_3$为条件,对应重复抽样下的期望):

  1. 最后一项的期望为0:根据严格外生性假设$E[u|X_1,X_2,X_3]=0$,$\sum_{i=1}^n (X_{1i}-\bar{X}_1)u_i$的条件期望为0,因此这一项消失。
  2. 针对$\beta_3$的系数项:题目设定$X_3$与$X_1$无关,即$Cov(X_1,X_3)=0$。而$\sum_{i=1}^n (X_{1i}-\bar{X}1)X{3i}$等价于$(n-1)Cov(X_1,X_3)$(因为$\sum_{i=1}^n (X_{1i}-\bar{X}_1)\bar{X}_3=0$),所以这一项等于0。

因此,$b_1$的条件期望为:
$$E[b_1 | X_1,X_2,X_3] = \beta_1$$

最终结论

偏误$bias = E[b_1] - \beta_1 = 0$,因此:
$$b_1 = \beta_1 + 0$$

这意味着:即使遗漏了与$X_2$相关的变量$X_3$,只要$X_3$与$X_1$无关,$X_1$的OLS估计量$b_1$就不会有偏误,估计值的期望等于真实系数$\beta_1$。

内容的提问来源于stack exchange,提问作者firemind

火山引擎 最新活动