下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式的数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择pastespecial3.*.xls/*.xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。逗号分隔的数据常为csv数据。(二)网页数据网页上的表格只要能选中的, 都能复制到excel中; 网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file和log文件打开stata后,第一步就要do-file,记录步骤和历史记录,方便
2、日后查看。Stata处理中保留的三种文件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。三、导入StataStata不识别带有中文的变量,如果导入的数据第一行有中文就没法导入。但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析的数据,黑色显示);第一行是英文变量名,选才?Treatfirstrowasvariablenames”在导入新数据的时候,需要清空原有数据,clear命令。导入空格分隔数据:复制Stata中选择edit按钮或输入相应命令右键选择pastespecial并选择,确定;导入Excel中数据,复制粘
3、贴即可;逗号分隔数据,选择pastespecial后点击comma然后确定。Stata数据格式为*.dta,导入后统一使用此格式。四、基本操作(几个命令)(一)useauto,clear。在清空原有数据的同时,导入新的auto数据。(二)browse。浏览数据。(三)describe和list。查看数据,describe和list使用list命令能使我们根据自己的需要选择数据(例如其与in/if语句的结合使用)。(四)Scatter。作图命令,scatter散点图(scatterpricempg)(五)Summarize描述统计,常写作sum/su,求变量的个数、平均值、标准差、最小值和最大值
4、。(六)generate。生成数据,简写为gen。(七)replace。 修改数据, 命令replace该命令不推荐使用, 一般不会改变原始数据的。剔除缺失值、异常值,或者批量修改数据均可以通过replace命令加上条件语句实现.(八)Tabstat。描述性统计,tabstat变量列表,statistics(统计量列表)(九)Rename。 对变量更名,rename旧变量名新变量名。 一次只能对一个变量名重命名。(十)Order。对变量排序,order变量列表,选项(H一)Sort/gsort。对观测值排序,sort变量列表;gsort+/-变量,注意,方括号可有可无。Sort是升序排序,当第
5、一个变量出现相同时,才会对第二个变量排序,否则是不会管后面的变量的排序的;gsort(generalsort)即可升也可降,视+和-而定。为了保证数据的原始性,为了最后恢复数据排序,一般在排序前,生成新的变量num最后对num#序就可以恢复。(十二)Keep/drop。保留/删除变量或数据,keep/drop变量列表;keep/drop条件。注意:请不要随意删除变量或数据,因为可以使用if条件句!(对行改变)每一次只能使用keep和drop中的一个命令。(十三)Counto按条件对观测值计数,count条件,方括号可有可无,直接输入条件。(十四)Recode。批量修改观测值,recode变量列
6、表(规则),括号必须有。规则如下:#=执比如3=1,值为3的全改为1;#/#=#,比如min/3000=0,3000以下全为0。如果加generate,则会生成新的变量。规则为:recode变量列表(规则)(规则),gen(新变量)。(十五)Encode/decode。字符串与数值转换,encode变量,generate(新变量)。将stata不能识别的红色字符串改为数值,而且必须生成新变量,即generate(新变量)不能省。Decode是将label的数值转换为字符串变量,也必须生成新变量,即generate(新变量)不能省。(十六)Display。显示字符串/变量值,display字符串
7、或变量或表达式。By/bysort分组地重复执行某一命令:by变量列表;bysort变量列表。By后面一般是一个类别的变量。一般在命令前加by变量列表:就可以,冒号后的命令碧血是完整的。此命令实际是先按变量列表分组,然后再执行后面的命令。Egen生成新变量:egen新变量=函数表达式。Generate新变量=sum(变量)是逐个加总,egen新变量=sum(变量)是求和。(十七)Forvalues/Forrach。循环命令,Forvalues有规律的循环,Forrach任意循环。(十八)Reshape面板数据的变换,reshapelong变量列表,i(样本变量名)j(时间变量名);reshap
8、ewide变量列表,i(样本变量名)j(时间变量名)(十九)merge横向拼接,merge拼接形式变量列表using被拼接数据集。merge命令是用于横向拼接,即为了增加变量。拼接形式有1:1、1:m、m:1和m:m四种。“1”方是需要复制多份,并与“m方拼接的;而“m方的记录数是不会增加的。变量列表是在拼接时,用于识别拼接记录的;一般是两数据集的共同变量.可以是一个,也可以是多个.比如要把学生的考试成绩(变量为姓名、考试科目、成绩)和学生学号(变量为姓名、学号),那么姓名就是这里用于识别的变量。被拼接数据集只支持*dta格式数据。若被拼接数据集的名称中包含空格,请将其置于英文状态下的引号内。
9、若被拼接数据集不在Stata当前路径下,请在数据集名称前加上路径,支持放在英文状态下的引号内。(二十)append。纵向拼接,appendusing一个或多个数据集。append命令是用于纵向拼接,即为了增加样本或观测值。此命令支持多个*dta文件拼接,多个数据集需用空格隔开。(二H一)Duplicates。删除重复数据,duplicatesreport变量列表,报告是否有重复。duplicateslist变量列表,列出重复的;duplicatestag变量列表,generate(新变量),报告重复的,并生成新变量;duplicatesdrop变量列表,删除重复的;duplicatesdrop
10、变量列表,force,强制删除重复的五、模型选择建模应首先考虑数据类型(截面数据、时间序列数据和面板数据以及各种数据类型的特点)。在Stata中,时间序列数据必须含有一个时间指标用于刻画有序的时期。用到的命令有:date日期转换函数,将日期字符串(红色)转换成数值(黑色)命令中的日期字符串和格式字符串默认是要放在英文状态下的引号中,但若日期字符串是一个变量,而且他本身就是字符串格式的变量,那么在写命令时直接用变量名替代日期字符串即可。反向提取:如要从数值型的日期中提取年、月、日,使用year(),month(),day()函数。format,数据显示格式命令1.若是时间数据(黑色的数值),则会
11、以时间格式(fmt)的具体形式来显示;若是数值数据,可以用%fmt来设置其显示格式;3.若是字符串数据,可以用%fmt来限定其长度。tsset:,通过指定时间指标在Stata中,必须先指定时间指标,才能进行接下来一系列的时间序列分析(面板数据也是同样道理),否则Stata会将其当做截面数据。在Stata中,用距离1960年1月1日有多少天(即一个整数)来表示日期,故其实是数值。(一)定义时间序列命令格式:gen新时间变量=date(日期字符串,格式字符串);format变量列表fmt;tsset时间指标。前两个命令是将字符串的时间格式改成Stata能识别的时间格式,第三个命令是去识别这个时间序
12、列。(二)定义面板数据命令格式:xtset个体指标时间指标。需要两个指标,需要注意顺序。如果被解释变量y取离散值,那么就不能使用普通的线性模型进行建模。根据模型的特性和缺陷,可以建立如下模型:1.稳健性回归模型:rreg2.工具变量模型:ivregress3.选择模型:logit/probit4.分位数回归模型:qreg5.时间序列模型:arch/arima/var6.面板数据模型:xtreg/xtivreg/xtlogit/xtprobit上述模型可以综合使用,比如面板-logit模型,面板-2SLS模型等。六、操作及导出输出结果(一)求变量间协方差/相关矩阵correlate变量列表,选项
13、。若要求协方差矩阵,则选项中需要加covariance选项。 协方差/相关矩阵是对称矩阵, 所以为了简化此命令生成的矩阵下三角部分。此命令计算的是Pearson相关系数/协方差矩阵。(二)求变量间的相关矩阵pwcorr变量列表,选项。与correlate命令类似,即求多个变量之间的相关矩阵,这里具体指的是成对相关系数(PairwiseCorrelation);与correlate不同的是,它能尽可能使用两两变量中所有没有缺失的数据。此命令计算的是Pearson相关系数矩阵。(三)绘制矩阵散点图graphmatrix变量列表(四)绘制直方图histogram变量,选项。直方图不连续,若想连续请参
14、看核密度图常用选项:bin(#),以组数#来绘制直方图;width(#),以组距#来绘制直方图;frequency,纵坐标显示频数(默认情况下显示频率)(五)绘制核密度图kdensity变量,选项(六)绘制散点图scatter两变量,twoway(scatter两变量)(lfit两变量)。scatter命令用于绘制两变量的散点图,用于观察变量间的相关关系;lfit命令可以大致绘制拟合散点的直线;通过scatter和lfit两个绘图命令,可在一幅图中实现这两个功能。只能绘制二维散点图,且只能知道两变量的大致相关关系(正/负相关),不能知道拟合直线的具体数值。七、回归及结果导出(一)命令汇总1 .
15、普通线性模型:regress2.稳健性回归:rreg3.工具变量模型:ivregress4.离散选择模型:logit/probit5.分位数回归模型:qreg6.时间序列模型:arch/arima/var7.面板数据模型:xtreg/xtivreg/xtlogit/xtprobit8.结果导出:esttab/outreg2(二)regress,回归分析regress被解释变量解释变量列表条件权重,选项。regress是最小线性二乘回归(OLS,OrdinaryLeastSquares)的命令,可简写为reg;regress命令后直接跟变量,其中解释变量若有多个则用空格分隔开;变量允许使用交叉项
16、,命令#表示将x1x2作为解释变量加入到模型中;条件是筛选用于回归的样本;权重这个选项是用于建立加权回归模型(WLS);选项是很强大的,如:1.vce(类别)在回归使用稳健的方差(常用于避免异方差的出现),如robust,cluster;level(#)用于指定置信度。如level(99);beta针对数据变化大,需要将变量先标准化后再回归;3.noconstant用于建立无常数项的回归方程;回归后得到的估计值/统计值被保留在e()内,供用户提取;若要计算模型拟合值和残差,运行regress命令后使用predict命令进行5.回归结果输出esttab回归名列表using文件名.扩展名,选项。回
17、归名列表指的是将多个回归结果一同导出(如果不指定,则默认将最近的一次回归结果导出),可以每做完一次回归将结果用下列命令保存下来。.eststore回归名,导出到Word文件中,扩展名rtf。常用选项:r2,ar2分别输出R2和R的值;用se表明括号中的值为标准误,否则会默认输出t检验值;replace覆盖同名文件;nogap忽略表格中的空行。outreg2命令的使用方法类似,在使用之前,需要从网上下载此命令,步骤如下:确保电脑已经联网;打开Stata,在命令窗口按照如下格式输入命令:sscinstall命令名(或者命令组)当输入完毕敲击回车后,一般等待半分钟即可下载并安装完毕。在Stata结果
18、显示窗口会显示installationcomplete.一般地,我们会用到estout,outreg2,logout这几个用于输出结果的扩展包estout是命令组的名称,而esttab只是这个命令组中用于输出结果的命令,即下载时应输入sscinstallestout八、常用概率分布函数命令格式及含义说明:normal(x):输入x值返回对应值的标准正态CDFfi;normalden(x):输入x值返回对应值的标准正态PDFfi;3.invnormal(p):已知概率p(即PDF曲线下面积),反推x值。对于CDF,若从+1向-1反向进行累计, 则称为tail,函数名为ttail/Ftail/ch
19、i2tail,对应的inv函数为invttail/invFtail/invchi2tail。(二)使用方法:1.和generate命令合用,生成服从这样分布的新变量(若在做MonteCarlo模拟时需要生成服从某一分布的随机数,请使用runiform()/rbeta(a,b)/rchi2(df)/rnormal()/rt(df)等命令,详细请helprandom_number_functions);和display命令合用,直接算出值,也叫做查表(统计表);3.和twowayfunction命令合用,画出函数图。(三)函数图(twowayfunction)1 .命令格式:twowayfunctiony=f(x)ifin,可选参数。2.含义说明:用于绘制函数图。y是一个标注符号,即绘制图线后用y这个记号来标注,如有多条直线可以标注成y1,y2,f(x)是这个命令的主体,可以是一般数学函数式,也可以是Stata内已有的函数1;可选参数中一般会用到range(#),即坐标横轴的取值范围,如range(-55)表示xC(-5,5);如果要绘制多个函数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 武汉月子中心租赁合同
- 停车场光伏发电系统施工协议
- 矿山安全防护设备租赁合同
- 铁路铺设泥付工施工承包合同
- 环保型厂区垃圾处理策略
- 教育咨询项目薪酬激励策略
- 智能建筑招投标法律制度概述
- 网络医疗服务平台网站管理办法
- 医院建设合同文件样本模板
- 2024年度代驾租赁合同模板(含安全行车记录仪)3篇
- 开题报告:职普融通与职业教育高质量发展:从国际经验到中国路径创新
- 九年级上册人教版数学期末综合知识模拟试卷(含答案)
- 商标出租合同范例
- 重大版小英小学六年级上期期末测试
- 会计助理个人年终工作总结
- 钢铁厂电工知识安全培训
- 2024年山东省菏泽市中考历史试卷
- 说明文方法和作用说明文语言准确性中国石拱桥公开课获奖课件省赛课一等奖课件
- 中南运控课设-四辊可逆冷轧机的卷取机直流调速系统设计
- 酒店建设投标书
- 《基于javaweb的网上书店系统设计与实现》
评论
0/150
提交评论