如何在Stata中将多年截面数据合并为非平衡面板数据

阿华AIGC实验室

2026-5-22

在Stata中合并截面数据构建非平衡面板数据

刚好处理过类似的需求，这在Stata里用merge命令就能轻松搞定——针对你这种每年新增/减少个体的场景，我们需要做全样本合并（outer join），保留所有出现过的ID，最终得到你想要的非平衡面板。下面结合你的示例数据一步步操作：

1. 准备工作

假设你已经把2005年和2006年的数据分别导入Stata，命名为data2005和data2006（如果还没导入，用use命令加载即可）。

2. 执行全合并命令

先打开其中一个数据集作为主数据（比如2005年的数据），然后执行以下命令：

use "data2005.dta", clear
merge 1:1 ID using "data2006.dta", keep(match master using)

命令解释：

1:1 ID：表示按照ID这个唯一标识符进行一对一合并（因为每个ID在单个年份的数据里只出现一次）
keep(match master using)：这个参数是核心——它会保留三类样本：
- match：在两个年份数据里都存在的ID（比如你的示例里的ID2、ID3）
- master：只在主数据（2005年）里存在的ID（比如ID1）
- using：只在using数据（2006年）里存在的ID（比如ID4）
执行后Stata会自动生成一个_merge变量，用来标记每个样本的来源，你可以用这个变量检查合并是否正确：
```
tab _merge
```

3. 整理结果

合并完成后，你可以删掉_merge变量（如果不需要的话）：

drop _merge

此时你的数据集就和期望的结果完全一致了：

ID X_2005 Y_2005 X_2006 Y_2006
1 700 850 . .
2 400 311 425 325
3 475 250 500 250
4 . . 465 200

4. 多年份数据的高效处理

如果你的数据不止两年，比如有2005-2020年的截面数据，手动一个个合并太麻烦，可以用循环命令批量处理：

// 先加载第一个年份的数据作为基础
use "data2005.dta", clear

// 循环合并后续年份的数据
forvalues year = 2006(1)2020 {
    merge 1:1 ID using "data`year'.dta", keep(match master using) nogen
}

这里的nogen参数会自动删掉每次合并生成的_merge变量，省得手动删除。

内容的提问来源于stack exchange，提问作者Andrew01