学习材料来源:《应用stata做统计分析》 劳伦斯·汉密尔顿
一、数据管理
感觉把原始数据处理成能够用来做回归的数据集是最难也最重要的一步了,之后只要按部就班回归就行。
(八)合并两个或多个stata文件
(1)append 附加
通过将另一个包含新观测案例(行)的文件添加到一个文件的底部,可以看作是数据集的加长。
(2)merge
通过将另一个文件添加到一个文件的右边从而增加新的变量(列),可以看作是数据集的加宽。
两个文件均根据索引变量(index variable)进行排序。比如以year作为索引变量
sort year
merge year using newf3 把newf3里的变量加到现在的数据集(master,主数据集)中
以下命令将允许主数据中出现的缺失值由调用数据(newf5.dta)中相应的非缺失值进行替换:
merge year using newf5, update
或者,用以下命令可使主数据中的任何取值如与调用数据存在不同时将由后者的非缺失值进行替换:
merge year using newf5, update replace
作为一种诊断辅助,merge会自动创建一个名为_merge的新变量。
在没有设定update的情况下,_merge的编码含义如下:
1.观测案例只来自于主数据
2.观测案例只来自于调用数据
3.观测案例同时来自于主数据和调用数据(如果出现不同,忽略调用数据值)
如果设定了update选项,编码含义如下:
1.观测案例只来自于主数据
2.观测案例只来自于调用数据
3.观测案例同时来自于主数据和调用数据,且主数据与调用数据一致
4.观测案例同时来自于主数据和调用数据,如果主数据为缺失值,则被更新
5.观测案例同时来自于主数据和调用数据,如果出现不同,主数据将被替换。
在执行另一merge操作之前,必须删除_merge或改变其名称。
drop _merge
或者
rename _merge _merge1
我们可以用merge命令来合并多个数据
merge year using newf5 newf6 newf7 newf8, update replace
其他选项查询 help merge









网友评论