版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012 年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012 年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012 年中国各省的GDP小样本OLS (最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。拟合优度:衡量线性回归模型对样本数据的拟合程度(R2) ,越高说明模型拟合程度越好。单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F 检验:整个回归方程是否显著STATAt作简介:如果数据中
2、包含1949-10-01 或 1949/10/01 的时间变量,导入stata 后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD), 将其转换为整数 日期变量,其中 YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY 对于月度数据贝U gen newvar=monthly(varname,YM)。:删除和保留:变量之间相关系数产生:OLS回归noc 表示在进行回归时不要常数项.describe :数据的概貌.drop keep.su :统计特征PwcorrStar ( .05 ) : 5%显著性水平gen:g in
3、tc=log ( tc ) :取自然对数. reg.Vce :协方差矩阵reg。大样本OLS只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE或非线性最小二乘法(NLS)三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验)LM操作步骤如下:sysuse auto (调用数据集)Hist mpg , normal (画变量 mpg的直方图,并与正态密度比较)直方图显示,变量 mpg的分布于正态分布有一定差距。变量可以取对数解决非正态分布的问题。异方差与GLS (
4、广义最小二乘法)异方差的检验:看残差图、怀特检验( white test )、BP检验(Breusch and Pagan )异方差的处理:1、OLS+急健标准误(最好的)2 、广义最小二乘法(GLS)3 、加权最小二乘法(WLS)实例操作:1、 使用数据:use ,clear2、 reg intc inq inpl inpk inpf(进行回归)3、4、 画残差图:rvfplot上图可以发现当拟合值较小时,扰动项方差较大,继续考察残差与解释变量inq 的散点图: rvpplot inq ,结果与上图几乎一致,可能存在异方差,即扰动项的方差随着观测值而变。5、 完成回归后,进行怀特检验:est
5、at imtest , whiteP 值显著,认为存在异方差6、完成回归后,进行BP检验:estat hettest,iid estat hottest,rhs iid estathottest inq,iid三种形式的检验都强烈拒绝同方差的原假设,存在异方差(这里只放一个形式的检验结果)7、处理异方差:扰动项之间自相关自相关的例子:1、时间序列数据中通常具有某种连续性和持久性,如相邻两年的GDP曾长率;2、截面数据中相邻的观测单位之间可能存在溢出效应,如相邻地区的农业产量收到类似天气变化的影响;3、对数据的人为处理如数据中包含移动平均数等;4、如果模型设定中遗漏了某个自相关的解释变量并被纳入
6、到扰动项中,则会引起扰动项的自相关。自相关的检验:1、画图(不推荐) 2、BG检3e estat bgodfrey 3、BOX-Pierce Q 检验4、DW佥验estat dwatson.检验都要在OLS做完后才能做。自相关的处理:1、使用OLS矫方差自相关稳健的标准误;2、OLS喋类稳健的标准误;3、使用可行广义最小二乘法(FGLS) ; 4、修改模型设定自相关处理实例:1、使用数据icecream 然后进行回归BG 检验显著 拒绝了原假设无自相关,则认为存在自相关Q检验(略)、DW佥验如下DW= 距离 2 很远 可以认为存在自相关。由以上的检验可以看出扰动项之间存在自相关,因此OLS提供
7、的标准误是不准确的,应使用异方差自相关稳健标准误,由于样本为30个,n四分之一二,故取NEWey-West估计量的滞后值为P=3,结果如下:上图显示标准误与 OLS标准误无多大区别,因此将滞后阶数增加为6,从上图可以看到无论截断参数是3 还是 6,标准误都变化不大,比较稳健。此外,前面提到自相关存在可能是因为模型设定不正确,因此考虑在解释变量中加入temp的滞后值,然后再进行 OLS回归:然后使用BG检验是否存在自相关:结果显示无自相关,而后 DW直也改进为,因此修改模型后扰动项基本不再存在自相关。模型设定与数据问题遗漏变量:被解释变量可能被加入到扰动项中解决方式:加入尽可能多的控制变量;使用
8、代理变量;工具变量法;使用面板数据;随机试验或自然实验。其中代理变量应满足两个条件:多余性,仅通过影响遗漏变量而作用于被解释变量;剩余独立性,遗漏变量中不受代理变量影响的剩余部分与所有解释变量均不相关。多重共线性:某一解释变量可以由其他解释变量线性表出,即存在多重共线性。检测:先回归,然后estat vif VIF 低于 10 即不存在多重共线性。工具变量,2SLS与GMM工具变量的适用条件:OLS 成立的最重要条件是解释变量与扰动项不相关,如出现相关可以使用工具变量法来解决。其中在计量经济学中,将所有与扰动项相关的解释变量成为内生变量,一个有效的工具变量应满足一下两个条件:1、工具变量与内生
9、解释变量相关;2、工具变量与扰动项不相关。过程:传统的工具变量法一般通过二阶段最小二乘法(2SLS或TSL9来实现:1、用内生解释变量对工具变量进行回归,得到拟合值Pt( Pt 实际上是内生变量中的外生部分,而另一部分是与扰动项相关); 2、用被解释变量对第一阶段的拟合值Pt 进行回归。工具变量的检测:1、 不可识别检验;2、 弱工具变量检验;3、 过度识别检验( estat overid ) 。豪斯曼检验:原假设为所有解释变量均为外生变量,若拒绝假设的话应该使用工具变量法,若接受的话使用OLS。豪斯曼过程:reg X1 x2Estimates store ols( 存储 OLS的结果)Ivr
10、egress 2sls y x1(x2=z1 z2)( 假设怀疑X2 为内生变量)Estimates store iv( 存储 2SLS 结果 )Hausman iv ols,constant sigmamore(根据存储的结果进行豪斯曼检验)若存在异方差的问题,则可以使用杜宾- 吴 - 豪斯曼检验。它在异方差的情况下也适用。在球形扰动项的假定下,2SLS最有效,但如果扰动项存在异方差或自相关,则存在 GMM广义矩估计这一更有效的方法:首先使用2SLS得到残差,然后 GMM但是在实际操作中使用迭代法。GMM勺命令:ivregress gmm y x1(x2=z1 z2)两步最优GMMivreg
11、ress gmm y x1 (x2=z1 z2), igmm迭代 GMMestat overid过度识别检验工具变量法的STATA令和实例:Use ,clearSum然后考察智商和受教育年限的相关关系(本文研究的是工资与受教育年限的关系)具有较强的正相关关系。然后作为一个参照系,进行OLS回归并使用稳健标准误。教育投资率%, 显然过高,可能是遗漏了变量能力,使得能力对工资的贡献也被纳入教育的贡献。因此使用iq作为能力的代理变量,再进行OLS回归,可以发现加入iq作为能力的代理变量后,教育投资回报率降低了一些,但还是过高。(如下图)使用 iq 来度量能力存在测量误差,因此iq 为内生变量,考虑使
12、用med kww mrt age 作为iq的工具变量,进行 2SLS回归,并使用稳健标准误。受教育年限回报上升,而 iq 竟然是负相关,因此不可信,使用工具变量法需要验证其工具变量的有效性因此进行过度识别来检验所有工具变量是否外生。上图显示有些工具变量不合格,与扰动项相关。怀疑mrt 和 age 不满足外生性,因此仅适用med和kww作为iq的工具变量,再次进行 2SLS回归,同时显示第一阶段的回归结果。如上图,第一部分回归是使用内生解释变量对工具变量进行回归,第二部分用被解释变量对第一阶段回归的拟合值进行回归。上图中教育回报率较为合理,而且iq 系数也为整数,再次进行过度识别检验。结果没有拒
13、绝外生的原假设。接下来继续考察作为工具变量的第二个条件,即工具变量与内生变量的相关性,由第一 阶段的回归看出,med和kww对iq有较好的解释力,但为稳健起见,还是使用对弱工具变 量更不敏感的有限信息最大似然法(LIML)。以上结果与2SLS非常接近,侧面验证了不存在弱工具变量。还有,使用工具变量法的前提是存在内生解释变量,因此进行豪斯曼检验。结果显示拒绝了原假设,因此存在iq为内生变量,又因为传统的豪斯曼检验在异方差的情况下不成立,下面进行异方差稳健的DWH验:DWH勺P值小于,故可以认为iq为内生解释变量。另外如果存在异方差,则 GMM匕2SLS更有效,因此进行最优 GMM&计:上
14、图显示两步最优 GMMW 2SLS很接近,再进行过度识别检验结果接受原假设,说明所有工具变量外生。然后再做迭代GMM下图显示与两步 GMM(数估计值相差不大。如果希望将以上各估计值级标准误弄在同一张表中:qui reg lw s expr tenure rns smsa,r.est sto ols no iq.qui reg lw iq s expr tenure rns smsa,r.est sto ols with iq.qui ivregress 2sls lw s expr tenure rns smsa (iq=med kww),r.est sto tsls.qui ivregres
15、s liml lw s expr tenure rns smsa (iq=med kww),r.est sto liml.qui ivregress gmm lw s expr tenure tns smsa (iq=med kww).qui ivregress gmm lw s expr tenure rns smsa (iq=med kww).est sto gmm.qui ivregress gmm lw s expr tenure rns smsa (iq=med kww),igmm.est sto igmm.estimates table ols_no_iq ols_with_iq
16、tsls liml gmm igmm,b se区中,选项b表示显示回归系数,se表示显示标准误差如果希望用一颗星表示 10吸著性水平等等:如果想像论文一样显示,则如下表:se表示在括弧中显示标准误差,p表示显示P值,r2表示显示R的平方,mtitle 显示使用模型名字,二值选择模型离散选择模型、定性反应模型或被解释变量取非负整数时,都不适宜使用OLS回归。1 、 二值选择模型:只有两种选择,是否。Probit y x1 x2 x3,r (probit模型 )Logit y x1 x2 x3,or vce ( cluster clustvar )( logit 模型)其中, r 代表使用稳健标准
17、误,or 显示几率比而不是系数,vce 表示使用以clustvar为聚类变量的聚类稳健标准误。Stata 举例:美国妇女就业与否的二值选择模型。然后使用logit 进行估计:结果显示所有系数的联合显著性很高,继续使用稳健标准误进行logit 回归:对比以上两个表格显示标准误相差不大,因此不用担心模型设定问题。二值选择模型中的异方差问题:hetprob y x1 x2 x3,het(varlist) ,如果接受原假设则为同方差。此外,二值选择模型中一般都没有扰动项的存在。二 值 选 择 模 型 中 的 异 方 差 问 题 可 以 进 行 似 然 比 检 验 (LR) : hetprob y x1
18、 x2x3,het(varlist)( 这是在异方差情况下进行Probit 估计的 stata 命令, het( varlist )制定对扰动项方差有影响的所有变量,如 het (age married children ) ), LR检验原假设为同方差。多值选择模型个体面临的选择有时是多值的,因此可能需要使用到多项probit 或多项 logit ,或者在有某项条件时需要用到条件logit , 还有在不随方案而变的多项logit 模型和解释变量随方案而变的条件logit 模型混合的logit 模型。举例来说,问卷调查将受访者职业分为五类(OCC) ,解释变量为是否白人、受教育年限、工龄,解释
19、变量都依赖于个体而不依赖于方案,因此使用多项logit 或多项 probit 回归:进行多项logit 回归: 上述结果说明白人更不可能选择服务业或工匠;是否白人对选择蓝领或白领没显著影响。排序与计数模型1、泊松回归:被解释变量只能取非负整数,即 0,1,2.,这时常用泊松回归。Poisson y x1 x2 x3,r irrPoisson y x1 x2 x3,r exposure(x1)Poisson y x1 x2 x3,r offset(x1)其中, r 为稳健标准误,irr 为显示发生率比,exposure 表示把 inx1 作为解释变量并使其系数为1, offset 表示将 x1
20、作为解释变量并使其系数为1.2 负二项回归:泊松回归的局限是泊松分布的期望与方差一定相等,但如果被解释变量的 方差明显大于期望,即存在过度分散,这时候可以使用负二项回归。Nbreg y x1 x2 x3,r exposure(x1)Nbreg y x1 x2 x3,r dispersion(constant) offset(x1)其中 dispersion ( constant )表示使用NB1 模型。3 零膨胀泊松回归与负二项回归:如计数数据中包含大量0 值,则可以使用零膨胀泊松回归或零膨胀负二项回归。如果vuong 统计量很大为正数,则应该使用零膨胀泊松回归,如果统计量很小为负数,则使用零
21、膨胀负二项回归。Zip y x1 x2 x3,inflate(varlist) vuong(零膨胀泊松回归)Zinb y x1 x2 x3,inflate(varlist) vuong( 零膨胀负二项回归) , 其中 inflate(varlist)不可缺少列出所有变量。如果研究者只关注参数的估计值,则泊松回归。Stata 举例:被解释变量narr86 ( 1986年被逮捕的次数),被解释变量为计数数据,尽管如此,还是使用OLS回归进行观察:R的平方为,但大多数解释变量都显著,下面进行泊松回归,并使用稳健标准误:(nolog )表示不显示迭代记录。上俩图可以看出虽然OLS和泊松的系数相差很大,
22、但两者并不具有可比性,为方便比较,计算泊松回归的平均边际效应:可以看出,泊松模型的平均边际效应与OLS的回归系数很接近,为便于解释系数,下面计算发生率比:可以看出黑人被逮捕次数比白人多%。此外使用泊松回归的前提之一是被解释变量的期望与方差相等,因此考察被解释变量的统计特征:结果显示样本方差几乎是样本均值的两倍,为放松此假定进行负二项回归(NB2) :alpha 的置信区间为,因此可在5%的显著性水平下拒绝过度分散参数alpha=0的原假设,也因此应使用负二项回归。短面板面板数据指的是一段时间内跟踪同一组个体数据,它既有横截面的维度又有时间维度。其中,如果每个时期在样本中的个体完全一样,则称为平
23、衡面板数据,反之为非平衡面板数据。固定效应还是随机效应:当不存在异方差的时候,使用hausman检验,如果假设成立,则使用随机效应,如果拒绝假设,则使用固定效应。而当存在异方差时候,使用辅助回归然后聚类稳健标准误来检验,如果接受假设,则使用随机效应模型。短面板的stata 命令及实例:Xtset panelvar timevar ( xt 说明数据为面板数据,panelvar 取值必须为整数且不重复,相当于进行编号,timevar 为时间变量,假如panelvar 为字串符,如国家,则使用encode country , gen( cntry ) )Xtdes 显示面板的结构,是否为平衡面板X
24、tsum 显示组内,组间与整体的统计指标Xttab varname 显示组内,组间与整体的分布频率,tab 指的是 tabulate交通死亡率:首先设定state 与 year 为面板变量及时间变量。上图显示这是一个平衡的面板数据(每个时期在样本中的个体完全一样) ,然后显示数据集的结构 :n=48, T=7, n大而T小,说明这是一个短面板,然后作为参照系,首先进行混合回归:reg y x1 x2 x3, vce( cluster id )其中 id 用来确定每个个体的变量,vce( cluster state )表示使用以state 为聚类变量的聚类稳健标准误由于每个州的情况不一样,可能存
25、在不随时间变化的遗漏变量,故考虑使用固定效应:Xtreg y x1 x2 x3 , fe rLSD怯白S stata 命令为:reg y x1 x2 x3 , r其中 r 为使用聚类稳健标准误,vce ( cluster id )也能达到这种效果,id 表示用来确定个体的变量,表示根据变量id 而生成的虚拟变量。首先使用组内估计量:xtreg y x1 x2 x3 , fe (固定效应估计)(存贮), re (随机效应估计)(存储), constant sigmamore (豪斯曼检在选择随机还是固定时:使用 hausman检验:Estimates store feXtreg y x1 x2
26、x3 Estimates store re Hausman fe re 验)长面板与动态面板在长面板中,T可能会比较大,因此可能存在组间异方差,组内自相关或组间同期相关的问题,主要有两种处理方式:1、使用OLS即LSDV来估计系数,只对标准误差进行矫正 (即面板矫正误差); 3、 对异方差或自相关的具体形式进行假设,然后使用可行广义最小二乘法FGLS进行估计。1、 矫正标准误差即使扰动项存在组间异方差或组间同期相关等,LSDV&依然有效,此时,只要使用组间异方差、组间同期方差稳健的标准误差即可,即面板校正标准误差PCSE:Xtpvse y x1 x2 x3,hetonly ,其中 he
27、tonly 表示存在组间异方差,但不存在组间同期相关;举仞inc为被解释变量,由于 n=10, T=30,因此是一个长面板。为了考虑时间效应,生成时间趋势变量t,然后用LSDV法估计双向固定效应模型(作为对比先不考虑异方差等)下图可以看出有些州虚拟变量显著,即存在固定效应,而时间效应则不太显著,p值为 . 然后下表未考虑组间异方差等,因此使用面板校正标准误进行估计(下下图)命令 xtpcse 与命令 reg 的估计系数完全一样,只是标准误不同。2、 仅解决组内自相关的FGLS: xtpcse y x1 x2, corr( ar1 ) 。 无论是使用prais-winsten还是OLS方法都在组
28、间异方差与组间同期相关的情况下成立。继续使用以上数据,考虑组内自相关的情形,但要求各组的自回归系数相同3、 组间异方差的检验:如果拒绝假设,则存在组间异方差。Ssc install xttest3 (下载安装命令)Quietly xtreg lnc lnp t , r fexttest3Quietly xtgls lnc lnp tXttest34、 组内自相关检验:如果拒绝假设,则存在组内自相关Net install st0039Xtserial y x1 x2 x3,output5、 组间同期相关的检验:如果拒绝假设,即存在组间同期相关。Ssc install xtest2Quietly
29、xreg inc inp inpmin iny t,feXttest2非线性面板对于面板数据,如果被解释变量为虚拟变量、计数变量、受限变量等,则为非线性面板。1、 如果被解释变量为虚拟变量,则称为面板二值选择模型。一般采用混合、固定或随机效应模型。混合回归:如果不存在个体效应,则使用混合回归Probit y x1 x2 x3,vce(cluster id)混合 probit 回归Logit y x1 x2 x3,vce(cluster id)混合 logit 回归 其中 Id 为确定面板单位的变量随即效应模型:Xtprobit x1 x2 x3,Xtlogit y x1 x2 x3 ,再次输出
30、结果中,包含了对原假设的LR检验结果,如拒绝则使用随机,接受则使用混合固定效应模型:xtlogit y x1 x2 x3,feStata 实例: 被解释变量为是否起义uprising , 由于面板probit 无固定效应模型,因此使用面板logit 模型。首先进行固定效应面板logit 估计:如下图所示,第二行有一个朝代未发生企业,因此在估计固定效应时应被去掉。然后进行混合回归logit 模型,为保持与固定效应样本一样,在混合回归中也去掉了dyn=2 的朝代:为了在固定和混合进行选择,使用豪斯曼检验,但豪斯曼不允许在混合回归使用选择项vce ( cluester dyn ) ,因此重新进行混合回归:quietly logit uprising age pop temp sfamine sfamine1 sfamine2 sfamine3 reliefrelief1 relief2 re
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 微信ibeacon蓝牙摇一摇周边商场超市应用案例
- 《钢材知识专业培训》课件
- 张志敏英语课件Icanrunfa
- 福建省福州鼓楼区2025届高考仿真卷语文试题含解析
- 湖北省葛洲坝中学2025届高三第二次调研数学试卷含解析
- 上海市戏剧学院附中2025届高考冲刺模拟语文试题含解析
- 2025届浙江省“六市六校”联盟高三3月份模拟考试数学试题含解析
- 2025届黑龙江省佳木斯中学高三第六次模拟考试数学试卷含解析
- 2025届安徽省屯溪第一中学高三冲刺模拟英语试卷含解析
- 2025届广东省河源市连平县连平中学高考语文三模试卷含解析
- 2024年内蒙古包钢集团公司招聘笔试参考题库含答案解析
- 小学五年级科学上册全册教案(湘教版)
- 公司财务预算报告
- 《斯蒂芬·库里》课件
- 新视野大学英语(第四版)读写教程1(思政智慧版)课件 Unit 5 Friendship across border and gender
- 2023-2024学年天津市和平区名校数学七年级第一学期期末检测试题含解析
- 国家一等奖《纪念刘和珍君》教学设计
- 欧盟数据治理法案
- 墙面涂饰工程验收单
- 成人急性呼吸窘迫综合征患者清醒俯卧位护理专家共识
- 5G网络覆盖方案
评论
0/150
提交评论