毕业论文以及之后研究生都要用到stata,刻不容缓必须开始认真学习了。
学习材料来源:《应用stata做统计分析》 劳伦斯·汉密尔顿
一、数据管理
感觉把原始数据处理成能够用来做回归的数据集是最难也最重要的一步了,之后只要按部就班回归就行。
(一)重要命令示范
1、browse 浏览数据,可以与if语句连用
例:browse boats men if year >1980
2、compress
自动将所有变量转换为其最有效率的存储类型以节省内存和磁盘空间。随后键入命令 save filename,replace将这些改变永久化。
3、edit boats year men
打开数据编辑器时,只显示这三个变量且顺序也是这样。
4、encode stringvar, gen(numvar)
根据字符型(非数量型)变量stringvar,新建一个有标签的数量型变量,名为numvar
5、format rainfall %8.2f
为数量型变量 rainfall 建立一种固定化(f)的显示格式,即8列宽,小数点后显示两位数。
6、generate newvar = (x+y)/100
建立一个名为newvar的新变量,其值等于x+y再除以100
generate newvar = uniform()
建立一个名为newvar的新变量,其值从一个随机均匀分布的0到接近1的区间中取样,记为[0,1)
7、infile x y z using data.raw
读入一个名为data.raw的ASCII文件,其中包含3个变量x,y,z。这些变量值由一个或多个空格分隔开,或者是由制表符、回车符、换行符分隔,或者是由英文逗号分隔。如果是由空格做分隔符的,那么缺失值是由英文句点代表,而不是由空格代表。要是采用逗号分隔符,缺失值则由一个句点或两个连续的逗号代表。其他读取分隔符或固定列格式的原始数据从help infiling中获取信息。
8、list
按默认或“表格”格式列出数据。如果数据中有许多变量,表格格式很难审阅,那么list,display可输出更好的结果。参见help list
list x y z in 5/20 按照当前的数据顺序,列出第5至第20个观测案例的x,y,z三个变量值的清单。
9、merge id using olddata
读入以前所存的数据集olddata.dta。然后将olddata中的观测与内存中具有同样id值的观测加以匹配。在洗箱操作之前,olddata中的观测案例(称为“使用(using)”数据)和当前在内存中数据(称为“主(master)”数据)都必须已经按id值排好顺序了。
10、replace oldvar = 100 * oldvar
将变量oldvar的原值扩大100倍后再取代原值。
11、sample 10
将内存中所有观测案例只随机选取10%样本留下,其他观测案例全数删除。除了可以按某一百分比抽取样本外,我们还可以选择某一数量的案例。比如,sample 55 count就能删除其他观测案例,仅保留55个观测案例的随机样本。
12、sort x
将数据按x 值从最小到最大依次排序。那些x值缺失的观测案例将排在最后,因为stata将缺失值当作非常大来处理。键入help gsort进一步了解
13、tabulate x if y > 65
只对那些y值大于65的观测案例输出x的频数表。
明天学习一些重要命令的细节,如果与这里的命令有关,则会链接过来。










网友评论