![一讲线性回归扩展篇_第1页](http://file4.renrendoc.com/view10/M01/29/0A/wKhkGWWvr0uAZmFMAAH5H3Snvmc107.jpg)
![一讲线性回归扩展篇_第2页](http://file4.renrendoc.com/view10/M01/29/0A/wKhkGWWvr0uAZmFMAAH5H3Snvmc1072.jpg)
![一讲线性回归扩展篇_第3页](http://file4.renrendoc.com/view10/M01/29/0A/wKhkGWWvr0uAZmFMAAH5H3Snvmc1073.jpg)
![一讲线性回归扩展篇_第4页](http://file4.renrendoc.com/view10/M01/29/0A/wKhkGWWvr0uAZmFMAAH5H3Snvmc1074.jpg)
![一讲线性回归扩展篇_第5页](http://file4.renrendoc.com/view10/M01/29/0A/wKhkGWWvr0uAZmFMAAH5H3Snvmc1075.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一线性回归扩展第一节引进虚拟变量的一、什么是虚拟变第一线性回归扩展第一节引进虚拟变量的一、什么是虚拟变1-1话语种类WhetherspeakorLanguagespeakat 111000SpeakEnglishSpeakMandarin(国语Speaknoneofthe(k-1)个虚拟变量,(k-1)个虚拟变量二、为什么要在回归分析中引入虚14)4)于男性;或女性收入低于男性是因为她们更倾向集中于低回报的工作中segregation)2LoggedLogged三、案例分1:性别、教育与收入(Gender,Education,and数据\chip2005.dta",Stata操作\第一.tabsexof||+||+Total三、案例分1:性别、教育与收入(Gender,Education,and数据\chip2005.dta",Stata操作\第一.tabsexof||+||+Total.tabsex,sexof||+01+Total.recodesex(1=0(0=1"male"),gen(newsex)sexand(20421.tabRECODEofsex(sex||member)+01+3|.tabRECODEsex(sexof)|||||+||+|.regeducSource+NumberofobsF(2,Prob>FRootMSE======Model|.tabRECODEsex(sexof)|||||+||+|.regeducSource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totallogearn+t[95%educ|newsex_consloggedearn上的平均数的差。由于女性编码lninc=7.322+0.032educlninc=7.153+0.032educ故在同样的教育程度下,男性总是要比女性的收入(logged)0.1697.322-7.153)..predictyhat1ifpredictyhat2if.graphyhat1yhat2educ,c(ll)s(iO)4FittedFitted4四、交互作不含交互项的模型我们称作加叠模型(additivemodelsassuminggroupdifferenceinmeanofthedependentvariable(intercept))X2是虚拟变量。若以图形来看,则组与组的差距可以用两根平行线来表示(斜率一样,差FittedFitted4四、交互作不含交互项的模型我们称作加叠模型(additivemodelsassuminggroupdifferenceinmeanofthedependentvariable(intercept))X2是虚拟变量。若以图形来看,则组与组的差距可以用两根平行线来表示(斜率一样,差的影响上(equationsfordistinctgroupsdiffernotonlyinintercepts,butinslopesaswell)Y=α+β1X1+β2X2+5Fitted第二节、因变量与自变量间违背基本假第二节、因变量与自变量间违背基本假设条件一、违背线性假(一)变量转变量分布型态为斜分布(skewed),通过变量转换可使其趋于正态分年美国GSSS1-220-64岁成2003年收入2004年年龄之间的关系6(1)经济学家主张生产力随年龄增长到某一点到下降;社会学家有时也持类似的观点(1)经济学家主张生产力随年龄增长到某一点到下降;社会学家有时也持类似的观点,X→X’两种常见的变量转化方式对数转换:Y’=log(Y),因而线性回归方程变为^log(Y)=增加平方项:如人力资本模型。^XY=α+βX+1 2(1)我们要研究不同国家GDPpercapita(PcGDP95)InfantMortalityRate(IMR)的关系。.scatterIMRPcGDP95,XX2可能存在高bb变成X)X与X)2222②7.genindependentvariable.gen.scatterlIMRlPcGDP95,8.genindependentvariable.gen.scatterlIMRlPcGDP95,8123450 可见,尽管IMR与PcGDP95(a).regIMRSource+F(ProbofF======Model|Residual+1可见,尽管IMR与PcGDP95(a).regIMRSource+F(ProbofF======Model|Residual+1RootMSETotalIMR+Std.t[95%PcGDP95_cons回归系数告诉我们每一个单位人均GDP的增加,将会使婴儿死亡率下降2为0.265,是指人均GDP这个变量解释了婴儿死亡率总变异中的26.5%(b)912345 .reglIMRSource+NumberofobsF( Prob>FRootMSE======Model1Residual+TotallIMRStd..reglIMRSource+NumberofobsF( Prob>FRootMSE======Model1Residual+TotallIMRStd.t[95%+lPcGDP95_conslIMR'=7.089-loggedPcGDP的增加,loggedIMR0.498个单位(Hence,oneunitincreaseinlPcGDP95(loggedGDP)willbringadecreaseinlIMR(loggedIMR)by0.498.),R2=0.678,比原来大的多。.predict(optionxbassumed;fittedvalues)(19missingvaluesgenerated).graphfitIMRlIMRlPcGDP95,c(l) .genfit2IMR=exp(fitIMR)(*convertthe(19missing.sortfit2IMRf.genfit2IMR=exp(fitIMR)(*convertthe(19missing.sortfit2IMRf4UnitedNationspercapita(2)增加平方^Y=α+β1X1+X2----xx----xxmayberelocatedtopositionwithlessresponsibility,thusearnless)在经济学的人力资本模型中,通常会加入一个平方项来描述这种关系^log(INCOME)=α+β1EXP+β2EXP2+ββ1>0,β2<0(seetherightplot案例:工作经验和收入、工资的关系(中国城*建立一个新的变量:工作经验(年数),可用年龄减去18岁(假设18岁开始工作).genexp=age-*建立一个工作经验的平方项,试图想观察与收入之间的曲线关yz..gengraphearn,0yearly*此时,我们开..gengraphearn,0yearly*此时,我们开始对其进log变换(logtransformation).gen*再来观察log转换过的变量分布.graphlnearn,bin(50)0现在我们对工作经验的平方项进行回首先假设在logearn与工作经验之间存在线性关系.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== 0现在我们对工作经验的平方项进行回首先假设在logearn与工作经验之间存在线性关系.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== Model|Residual+1Totallnearn+t[95%exp_cons*工作效应变量是显著的。现在我们加入其平方项进行回.reglnearnSource+F(Probof======Model|Residual+2RootMSETotallnearn+Std.t[95%Conf._cons 我们也可以考察工作经验及其平方项的联合效应effect)有无显著统计学意义.(lnearn+Std.t[95%Conf._cons 我们也可以考察工作经验及其平方项的联合效应effect)有无显著统计学意义.((expexp2,accumexp=0exp2=F(2,20418)=Prob>F*因P005,两者的联合效应存在显著统计学差异。我们可以得出结论,工作经验与收入(od)之间存在曲线关系(rlirreaiosp):刚开始,效应伴随工作经验的增长而递增,在到达22年左右后开始下50。*在回归后,我们可以用图形来观察这种曲线关系*y...predictexp,c(s)exp,c(s)s(.)xlabel4,8,10,22,26,42, 048Fittedexp2|- exp (二)非线性关系的解决方XYg(Y)=f(β,X,(二)非线性关系的解决方XYg(Y)=f(β,X,:XY的关系就被称为―可转化的线性关系(transformablylina),性(intrinsicallylinear)‖或―实质的线性(essentiallyg(Y)=α+f(β,X,transformablylinar,―intrinsclynonlinear‖或―lynon-(1)1:Y可以写XX平方的函数(多项式函数x例2:近似指数函数Y=e(α+βX)➔log(Y)=Y取对数化为线性x例2:近似指数函数Y=e(α+βX)➔log(Y)=Y取对数化为线性方程-x例3:乘数关系(MultiplicativeRelationship)(人口流动的重力模型PPijDlog(Yij)=log(α)+βlog(Pi)+γlog(Pj)-Yij*=α*βPi*+γPj*-例4:罗吉斯蒂回归(LogisticXe(XiP(Yi1|X)1e(Xi-x例5:多因多果模型(MultipleIndicatorMultipleCauseModel,MIMICp则这一模型可以写成如下的―因子模型Model)‖的模式ζFYX的情况。那么上述Y1i=λ1γ1X1i+λ1γ2X2i+λ1δiY3i=λ3γ1X1i+λ3γ2X2i+λ3δi们只做X对于Y的回归分析,则其结果中的参数估计要受到非线性约束的影响。对于非线性模型,通常使用最大似然估计法(MLE)而非最小二乘法进行参数分析软件。目前,SPSS、STATA、SAS、(2)分析软件。目前,SPSS、STATA、SAS、(2)可用F检验来判断相对于模型(1)来说,模型(2)的拟合能力是否有显著的增强;也非线性的全局检验(Globald1….案例:使用F检验判断模型拟合能力的提升是否显著。.setmemCurrentmemory①memoryusage(1M=setmaxvarsetmemorymax.variablesallowedmax.dataspacemax.RHSvarsin..lnwage=ln(income)*dependentmissingvalues.keepif*restrictanalysis(3386observations*Regular.regmemoryusage(1M=setmaxvarsetmemorymax.variablesallowedmax.dataspacemax.RHSvarsin..lnwage=ln(income)*dependentmissingvalues.keepif*restrictanalysis(3386observations*Regular.reglnwageSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallnwage+t[95%educ_hiy_cons*Nowwewanttestwhetherthelinearspecificationis*.copythegen*.recodethenewvariableinto4recodeeduc0/6=17/9=210/12=3(educ:3079changes*convertthe4-categoryvariableinto4dummyvariables(inregression,we*3.of...*tocheckifanything.tab1ed1-ed1+01+Totaled2+01+Totaled3+01+Total|+01||+*tocheckifanything.tab1ed1-ed1+01+Totaled2+01+Totaled3+01+Total|+01||+|.tab|+1234||||+|looks*Dummyvariable(Model.xi:reglnwagecoded;_Ieduc_1Source+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totallnwaget[95%+_Ieduc_2_Ieduc_3_Ieduc_4_cons***Nowweliketotheeffectsforcoded;_Ieduc_1Source+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totallnwaget[95%+_Ieduc_2_Ieduc_3_Ieduc_4_cons***Nowweliketotheeffectsforeacheducationalonwagelinear.Theeasiestwaytojusttreatacontinuousvariablevaluesrangingfrom14.xi:regSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallnwage+t[95%educ_cons*TheaboveistotheequationofModel**WecanconductanFtesttoseeincrementtoR2F2,2012=.genx=[(0.0695-0.064)/2]/[(1-.x.*Sincefprob(2,2014,isfarlessthan.05,werejectthenullhypothesisandacceptalternative:addinglinearconstraintsignificantlydecreasesthemodel’sgoodness-fit.Wecanalsorecodeeducintoacontinuousassignmentassignedtoeachcategory..genvariablewith.xi:regNumberofobsF(1,Prob>FRootMSE======Source+Model|Residual+1Totallnwage+t[95%educ2_cons*Again,fit.Wecanalsorecodeeducintoacontinuousassignmentassignedtoeachcategory..genvariablewith.xi:regNumberofobsF(1,Prob>FRootMSE======Source+Model|Residual+1Totallnwage+t[95%educ2_cons*Again,thisalsobedonein“recode”.gen.recodeeduc_hiy31=32=73=114=15(educ_hiy3:3083changesmade).xi:regSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallnwage+t[95%educ_hiy3_consNote,nothehowyouthevariable,theR2,residualsumsquare(namely,althoughwillupwiththesameFvaluewiththesamedegreecoefficientswillbeAnextremeversiondummiesforeachatestfornon-linearitymightbeanapproachtoofeducation(15categoriesthus14dummiesareAsimplerwayistocategorizeeducationintoseverallevels-theconventionalprimaryschoolorless;juniorhighschool;seniorhighschool;andcollegeorWhentherelationshipbetweenadependentandacontinuousindependentvariablenon-linearinsuchafashionthattransformationcannotlinearizeit,thenitmaybeappropriatetocategorizetheindependentvariable.InanissueofWhentherelationshipbetweenadependentandacontinuousindependentvariablenon-linearinsuchafashionthattransformationcannotlinearizeit,thenitmaybeappropriatetocategorizetheindependentvariable.InanissueofdummycaseitisturnedForexample,wecanusethegeneratecommandtocreateeducationallevel.Thecutoffpointsdependonhowquicklydummyvariablesthinkthevariableischangingasafunctionoftheindependentvariable.Ifyouthink,educationcouldhaveamuchgreaterimpactonoccupationalstatus,thencodecollegelevelseparately..gen.recodeeduc0/6=17/10=211/12=3(educ:6080changesmade)13/18=4.xi:regcoded;_Ieduc_1Source+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totalrisei_c+t[95%_Ieduc_2_Ieduc_3_Ieduc_4_consThereferencecategoryprimaryschooleducationbelow.Inmodel,wethatpeoplewithjuniorhighschooleducationenjoy10.5pointshigherinoccupationalstatusthandopeoplewithprimaryschooleducation;Peoplewithseniorhighschooleducationenjoy19.9pointshigherinoccupationalstatusthandopeoplewithschooleducation.Fororaboveeducation,theadvantageisevenmoreComparedwiththeadditionvariablemethodforaquadraticterm,therearetwoadvantagestothenon-linearityinaregressiona)Themethoddoesnotindependentanyparticularpatternontherelationshipb)ThenumericalcanbesomewhatsimplertoThedisadvantage:thedivisionofThedisadvantage:thedivisionofintervalissomewhatarbitrary;theprecisionestimateis二、其它经常遇(一)异方差性/方差不齐1、什么是异方差性的方差在x的不同取值时会有所不同,则被称为存在―异方差性(heteroskedasticity)‖2、为什么要关心异方差性问xix若一估计量ˆ 2xx 22Var(ˆ)ii,1SSTxSSTx2、为什么要关心异方差性问xix若一估计量ˆ 2xx 22Var(ˆ)ii,1SSTxSSTxxix22x2 ,iii1xuˆiOLSBLUEij2ˆ,jji 是以X为因变量对所有其它自变量做回归时得到的第i个残差,而SSE则是jj案例.reglnearnSource+Numberofobs= F(1,20419)=Prob>F==Model|1Residual +RootMSE==Total11863.859320420lnearn+Std.t[95%educ_cons ..predictmu,*generateerror.egen*createaconstantmean+RootMSE==Total11863.859320420lnearn+Std.t[95%educ_cons ..predictmu,*generateerror.egen*createaconstantmeanofeduc_hiy,call.gen*renameeduc_hiyas...genb=(x-xbar)^2egen*sumuptogetthe.*..gendisplay.reglnearnLinearF(ProbofobsF=====Rootlnearn+Std.t[95%educ _cons.rreglnearnRobustNumberofF(1,===FProblnearn+Std.t[95%educ _cons.rreglnearnRobustNumberofF(1,===FProblnearn+Std.t[95%educ _consregression)是统计学稳健估计中的一种方法。其主要思3、如何识别异方差 2)H:Var(u|x,x,...,x)或H: E 2220 0 若假定u2xju2x...xvH:0 1k k这样,我们就可以利用s.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== Model|Residual+1Totallnearn+s.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== Model|Residual+1Totallnearn+t[95%exp_cons./Cook-WeisbergforHo:ConstantVariables:fittedvaluesof=Prob>chi2此处,P>0.05,意味着我们没有能拒H0,因此认为该残差不存在异方差也可对各自变量进行异方差性检验,命令如.estathettestp值小于0.05,则说明异方差性存4、解决异方差性常用方(1)AVar(bk (S1SS1SE* nn.regyx1x2…..,.rregyx1(2)加权最小二乘法(WeightedLeast以运用加权最小二乘法(WLS),以得到比普通OLS假设异方差的形式可以写为Var(.regyx1x2…..,.rregyx1(2)加权最小二乘法(WeightedLeast以运用加权最小二乘法(WLS),以得到比普通OLS假设异方差的形式可以写为Var(u|x)2h(x,那么需要知道的是如何建构h(x)hi实上,若对整个等式两侧同时除以hiSTATAWLS.reglogearnSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallogearn+t[95%educ_cons.vwlslogearnNumberofobsModel ==Prob>chi2 ==>logearn+Std.zNumberofobsModel ==Prob>chi2 ==>logearn+Std.z[95%educ_cons 若我们事先知道Var(uj|xj)的形式,WLS是一个不错的方法。但更一般的情况是,我们并不能事先知道异方差性的形式。这时,我们就需要去经验地估计h(xi)或采用Huber-内相关(intra-classcorrelation)、因变量的相关性问题等。它原采用Akaike’sinformationcriterion(AIC)的模型选择准则,目前采用准似然独立准则(quasi-likelihoodundertheindependencemodelcriterionQIC)选择GEE分析中的最佳结构和最佳模型。该模型理解略难,故讲解时只略提及并录其面板数据中的Stata命令如下:.xtgeedepvarvarlist,family(family)link(link)corr(corr)i(idvar)t(timevar)**Family:binomial,gaussian,gamma,igaussian,nbinomial,**Link:identity,cloglog,log,logit,nbinomial,opwer,power,probit,**Correlation:independent,exchangeable,ar#,stationary#,nonstationary#,unstructured,fixed**Alsooptionstochangethescaleparameter,useweightedequations,.webuseunion,.idFita.unionagegradenot_smsasouth,family(binomial)FitaprobitmodelwithAR(1).xtgeeunionagegradenot_smsasouth,family(binomial).xtsetpanelvariable:id.setmatsizeCurrentmemorymemoryusage(1M=setmaxvarsetmemorymax.variables.xtgeeunionagegradenot_smsasouth,family(binomial).xtsetpanelvariable:id.setmatsizeCurrentmemorymemoryusage(1M=setmaxvarsetmemorymax.variablesallowedmax.dataspacemax.RHSvarsinedu,family(gaussian).xtgeeIteration1:tolerance=Iteration2:tolerance=.00002507Iteration3:tolerance=2.251e-Groupvariable:NumberofobsNumberofgroups=======ObsperWaldScaleProblogearnStd.z+edu|- _cons Generalizedestimatingequations:anannotatedbibliography(Ziegler,KastnerandBlettner,BiometricalJournal,1998).ReviewofsoftwaretofitGeneralizedEstimatingEquationregressionmodels(HortonLipsitz,TheAmericanStatistician,1999,articleonlineat(二)模型的不当设定:忽略变量偏倚(OmittedVariable(1)(2)(二)模型的不当设定:忽略变量偏倚(OmittedVariable(1)(2)先选择易于解释的模型。例如,x对y的百分比变化的效应是不是比对yxx2xx 1可以用F-test等统计检验联合排他约束(jointexclusionrestrictions)的方法来判断高阶加入不相关自变量。在多元回归方程中加入了不相关自变量会有什么影响?换句话②违背奥卡姆剃刀定律(Ockham’srazor),即简约原则(LawofParsimony)F忽略了关键的自变量。假设真F忽略了关键的自变量。假设真实的回归模型为yi01xi12xi23xi3重要的影响因素。这种因缺失重要变量所引起的偏倚,称为忽略变量偏倚(omittedbias)。政府的统计数据就象比基尼,暴露出的那部分固然重要,但没暴露出的那部ybias)。政府的统计数据就象比基尼,暴露出的那部分固然重要,但没暴露出的那部y0yˆˆˆxˆ 1 2ˆˆ。 0(x部分的效果),xx22 请大家思考:若我们把本不该属于这个模型中的变量纳入进来会怎么样回答:最小二乘估计通常有偏,即出现忽略变量偏倚(omittedvariablesbias)忽略变量偏倚的模型验证y01x1̃ ̅ ∑yi01xi12xi2(xx)(xxu)x)(xx)x(xx(xx)(xxu)x)(xx)x(xx2 1 2i 1(xi1x1)xi2(xi1x1((xx)2 ((xx)2 (xi1x1)xiE()2((xx)2 1x20(xi1x1((xx)21 所以E(111)2=0x22)x2和x1如何检查忽略变量的存在前处理协变量(pre-treatmentcovariate如何检查忽略变量的存在前处理协变量(pre-treatmentcovariate)和后处理协变量(post-treatmentcovariate)。协变量的自变量。例如在研究X对Y的影响时,自变量M对Y也存在影响,则称自变量M为协变量。此时要注意辨别在社会现象产生的实际过程中协变量M是为前处理协变量还是后处理协变量,即M是在自变量X(treatment)之前出现还是在X之后出现。如果协变量M是前处理变量,则它可以作为X和Y的一个共同解释原因或一个调节变量(moderator如性别、收入水平等。如果是后处理变量,则M就可以作为介入变量(interveningxip2)xip1)01xi1…(p2)xi(p2)(p1)xi(p1)假如在我们的研究中,我们的关注的是k(k(1,...p2)),Xk自变量对因变量Y01xi1…(p2)xi(p2)此时,我们可以通过k和k是否相等来看忽略的变量是否产生偏差。如果k和k不相等则产生忽略变量偏差;如果k和k相等则不产生忽略变量偏差,此时模型中加入变量xp1对回归系数k此时,我们可以通过k和k是否相等来看忽略的变量是否产生偏差。如果k和k不相等则产生忽略变量偏差;如果k和k相等则不产生忽略变量偏差,此时模型中加入变量xp1对回归系数kxip1)xi(p2)01xi1(p2)xi(xi(01xi1…(p2)xi(p2)(p1)(01xi1…(p2)xi(p2)i)0(p1)0(1(p1)1)xi1…((p2)(p1)(p2))xi(p2)(p1)kkp其中p1件(如图1)①有关条件(RelevanceCondition):忽略变量影响因变量,即0②相关条件(CorrelationCondition):忽略变量与关键自变量相关,即0p1)、k中只要有一个为零则不当条件①或②有一个不成立时,忽略变量X2不会影响自变量X1对因变量Y的效应,即不1来判断忽略变量偏差的方向。如果忽略变量对因变量Y的效应(1来判断忽略变量偏差的方向。如果忽略变量对因变量Y的效应(p1)Xk对忽略自变量的效应(k)作用方向相同,即p1、k同时为正或同时为负,那么实际得到的方程的系数(k)将被高估,即k大于真实值k;如果作用方向相反,则k检查忽略变量方法之二:Link检验或Ramsey判别忽略变量是否存在,其一是Link检验,二是Ramsey检验。Ramsey检验的基本思想:若模型设定无误,则拟合值与自变量的高阶项都不应再有解(1)Link.usec:\data\wage1.dta,.regyx1x2x3use"D:\教学篇\中财教学\人大备课\课件\练习数据\chip1988.dta.regeduexpSource+NumberofobsF(4,===||+4Prob>|Root=|+t[95%|||||use"D:\教学篇\中财教学\人大备课\课件\练习数据\chip1988.dta.regeduexpSource+NumberofobsF(4,===||+4Prob>|Root=|+t[95%|||||.|+NumberofobsF(2,Prob>FRootMSE======Model|Residual2+Totallogearn+t[95%_hat_hatsq|- _cons|- 22.96%,不算高,可能是因为忽略了某些重要的自变量所导.gen =AdjR-squared=.gen.regyx1x2x3x4x12若回归结果中,拟合优度有了显著提高,且Linktesthatsqp值大于0.05,则说明无(2)使用Ramsey.gen.regyx1x2x3x4x12若回归结果中,拟合优度有了显著提高,且Linktesthatsqp值大于0.05,则说明无(2)使用Ramsey.estatovtest[,.usec:\data\wage1.dta,.regyx1x2x3.estatRamsey检验的原假设是模型不存在忽略变量,但检验的p值若小于0.05,则为拒绝RamseyLinkyx1x2x3x4x12.estat.regeduexpSource+NumberofobsF(4,Prob>FRootMSE======Model|Residual+4Totallogearn+t[95%eduexp cpc sex|-_cons exp cpc sex|-_cons .estatRamseyRESETtestusingpowersoffittedvaluesHo:modelhasnoomittedF(3,15854)Prob>F(1)工具变量(IV)或代理xxv,(其中标*的变量是我们没有测量到的变量,称之为潜变量)* 3 3y0301x12x233x3u3v3ux1,x2x*v3x1,x2ux1,x2x*v3x1,x2和x3x1和x23xxxxv* 1 2 y030131x1232x233x3u3v3,(2)用这个方法(比如说y是股票的价格或是一个城市中犯罪率等等)。(3)实验法利用实验设计让条件②中k0(4应用举Xie&Hannum(1996)在―中国改革时期收入不平等的地区差异‖(CHIP数据)2030岁之间的年轻人的教的工作经历的算法推算出年龄变量①应用举Xie&Hannum(1996)在―中国改革时期收入不平等的地区差异‖(CHIP数据)2030岁之间的年轻人的教的工作经历的算法推算出年龄变量①。因为我们只研究20-30y=收入x1=教育程度x3=年龄辅助回归和一步回归的四个模型,模型一是用收入对教育程度、党员身份回归的模型(第二步),模型三是用模型一的残差对模型二的残差回归的模型(三步计算法的第三步模型四是收入对于教育程度、党员身份和年龄回归的模型(一步计算法)yi01xi12xi2xi301xi12xi2①②yx**③i yi01xi12xi23xi3从STATA的分析结果(模型二和模型三)④①当教育程度为小学及以下时,age=exp+14;当初中时,age=exp+16;当高中时,age=exp+19;中专从0可以看出,年龄对收入有影响,即年龄较大的人收入较高从0可以看出,年龄对收入有影响,即年龄较大的人收入较高,满足―有关条件‖10,20的人更可能受过更多的教育,党员年龄很可能比非党员年龄要大,满足相关条件F(SSE1SSE3)/(df1df3)(827.413756.150)/12yx31x1x2①1x1x2回归,取得②3③④y*x*3DF3=DF4=4061,而不是STATA分析结果中显示的MSE3=SSE3/DF3,不是STATA分析结果中显示的0.1861根据式(6)和10,20,30(4),我们可以得出p1k0(k1,2)式kkkkp024.26361,10.0819097,206.926389,10.0183922,205.897779,10.0149198,20.0974903,31310.01491980.04239310.08190970.01839221,即kk3k(k0,1,图 年龄对收入、教育程度和党员身份模型的影型中加入年龄变量将进一步减少离差平方和SSE。这与前面的结论一致,即不能忽略年5中通过原点的回归直线的斜率是b3(3的估计值),即年龄的偏回归系数,0.0423931(模型三)5年龄的偏回归附录(例题中使用的命令和分析结果.use"E:\chip1988.dta",.gen.replaceif.replaceif.replaceif.replaceif.replaceif.replaceif5年龄的偏回归附录(例题中使用的命令和分析结果.use"E:\chip1988.dta",.gen.replaceif.replaceif.replaceif.replaceif.replaceif.replaceif.dropif.reglogearncpc(模型一SourceNumberofobsF(2,Prob>FAdjR-Root======+Model|Residual2+TotallogearnStd.t[95%Conf.--024- - +edu|cpc_cons.predict.regageedu(模型二|+||+|======NumberofobsF(2,Prob>FRootMSE2|+|||Std.t[95%.predictx3resid,.regx3resid(模型三|+||+|======+edu|cpc_cons.predict.regageedu(模型二|+||+|======NumberofobsF(2,Prob>FRootMSE2|+|||Std.t[95%.predictx3resid,.regx3resid(模型三|+||+|======NumberofobsF(1,Prob>FRootMSE1|+||Std.t[95%-2.99e---.reglogearncpc(模型四|+||+|NumberofobsF(3,Prob>FRootMSE======3|t[95%+edu|cpc|age_cons+edu|cpc|age_cons.yresidx3resid)(三 内生性问题与工具变量1、内生变(三 内生性问题与工具变量1、内生变量与对联立方程组模型(SimultaneousModel)而言,如凯恩斯模型(KeynesianctYtiYtctYtt的收入t为随机误差,其均值为0与况。在这里,我们的目标是估计与,并对这些参数进行统计分析。该模型包括两个变量,即ct与Yt。它们相互依赖:消费影响收入,同时收入影响消费内生变量(endogenousvariables)和外生变量(exogenousvariables)因素影响的变量被称为内生变量,即ct与Yt被称为内生变所谓内生变量是具有某种概率分布的随机变量,它的参数是联立方程系统估计的元素(()性问题(endogeneity)OLS例:P=a+bQ,表示价格与数量的关系。在此式中,a、b是总体参数,可算作外生变量;除此之外,譬如相关商品的价格、人们的收入等其他于模型有关的变量,也算作外生变量。而P、Q是模型要决定的变量,所以称为内生变量。先利用Hausman检验(HausmanSpecificationtest)寻求工具变量(InstrumentalVariables)或倾向值分析(PropensityScoreAnalysis等方法来2、内生性问题的检判断方法二:Hausman直接比较普通最小二乘估计和两步最小二乘估计(2SLS,ivreg),即使用STATA提供若位于方程式右边的变量是外生的,则通过比较,两种估计方法(OLS回归与两步最小二乘估计2SLS)所得的估计应该都是一致的。即原假设为:2SLS回归所提供的估计值与OLS提供的估计值是相同的。若位于方程右边的变量是内生的,则两种估计方法中只有以证明内生性是个严重问题(canaskthedifferencebetweenthetwoestimatorsislargeenoughtosuggestthatendogeneityisasevereproblem)。 2SLS(或称为加入辅助变量的回归方法)的估计值相同。若被怀疑的方程式右边①SeetoHausman,J.A.(1978).Specificationtestsineconometrics,Econometrics,46(6):1251-位于方程式右边的变量是估计内外假设,即为了运用Hausman检验,我们可以对一个多元回归模型进行回归:该模型的自变量是内.ivregrisei_csex(educ_hiy=meduc_y)(outputomitted).hausman,***hausmanisaspecificationtest(storing假设,即为了运用Hausman检验,我们可以对一个多元回归模型进行回归:该模型的自变量是内.ivregrisei_csex(educ_hiy=meduc_y)(outputomitted).hausman,***hausmanisaspecificationtest(storingestimationresultsas_HAUSMAN).regressrisei_ceduc_hiysex(outputomitted).hausman,constant----Coefficients---||+|||b=underandHa;fromB=inconsistentunderHa,efficientunderHo;fromTest:Ho:differenceincoefficientsnot=Prob>chi2 .hausmanname-consistent[name-efficient]hausman语句表示豪斯曼检验,其中语句中name-consistent是指一致估计量变量名计量的估计在下面中会详细介绍。options内容如下表所示:.regyx1.estimatesstore.ivregress.regyx1.estimatesstore.ivregress2slsyx1(x2=z1 .estimatesstore此命令存储2SLS.hausmaniv.regrisei_ceduc_hiy.estimatesstore.ivregressrisei_csex.estimatesstore.hausmanivols,constantp=0educ3、工具变量Variables)是不一致的。为了改进估计量特性,因而采用工具变量Zt。Xt高度相关又与ut不相关,才可用Zt在估计模型参数时,称Z是不一致的。为了改进估计量特性,因而采用工具变量Zt。Xt高度相关又与ut不相关,才可用Zt在估计模型参数时,称Zt为工具变量,称此种估计方法为工具变量法(IV法)忽略变量引起的偏倚问题,此外,IV还可以用来估计联立方程模型(simultaneousequationmodels)。若想用变量z作为自变量xIV,z需要同时满足如下要求:我们需要根据常识或是理论来判断假定Cov(z,u)=0xπ0+π1zv中的原假设H0π10归方程称为第一步回归(first-stageregression)对于一个简单的例子:yβ0β1xuzIVCov(z,y)=β1Cov(zx)Cov(z,zizyiyzzxx1iiE(μ2|z)=ζ2=Var(μ)Varn12xx,1E(μ2|z)=ζ2=Var(μ)Varn12xx,1xx,OLS的结果IV估计与普通最小二乘估计的区别仅仅在于上式中包含有拿x对z做回归时计算出的 由于R2<1,IV估计中的标准误总是要比普通最小二乘估计中的标准误要大。x和z之间的相关越强,IV估计的标准误就越小。然而,在Cov(x,u)≠0成立的前提下,IV估计是一Corrzu)/Corr(z,x)<Corr(x,u,我们仍然希望使IVCorr(z,u)IV:plimöCorr(z, xOLS:plim~Corr(x,u) 同时,IV方法与思想也可以推广到多元回归及将来要学x,如果―对未来的期望‖(ambition)以及其工具变量都不存在,则ambition和教育程度(educ)是相关的,β1IQ和母亲的教育水平,有着相关关系。然后进行如下的两步最小IQ和母亲的教育水平,有着相关关系。然后进行如下的两步最小二乘(2StageSquare,2SLS)回归1步x对z^x01z^y01xu现以―中国城市生命史调查,1996(UrbanChina’sLifeHistorySurvey1996)‖数据能与对未来的期望相关,不过,我们对于对未来的期望.use.keepif(3386observations.recoderisei_c-4/0=.(risei_c:959changesmade).recodeeduc_hiy-4/-1=.(educ_hiy:4changesmade).recodesex1=12=0(sex:1552changes.recodemeduc_y-4/-(meduc_y:19changes.keepifrisei_c!=.&educ_hiy~=.&(967observationsdeleted).sumrisei_ceduc_hiymeduc_yVariable+Std.risei_c①educ_hiy|meduc_ysex 0001 risei_c=β0+β1educ_hiy+β2male+.regrisei_ceduc_hiySource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+educ_hiy|meduc_ysex 0001 risei_c=β0+β1educ_hiy+β2male+.regrisei_ceduc_hiySource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+t[95%educ_hiysex_cons差项无关的工具变量。那么,母亲的教育水平能否成为较好的IV呢?直观上说,我们需要对个人的教育程度这一变量进行纯化.ivregrisei_csexInstrumentalvariables(2SLS)Source+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+t[95%educ_hiysex_consInstrumented:educ_hiy .regsexSource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totaleduc_hiyt[95%+sex|meduc_y_cons.predict(optionxbassumed;.regrisei_cp1Source+NumberofobsF(2,Prob>FSource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totaleduc_hiyt[95%+sex|meduc_y_cons.predict(optionxbassumed;.regrisei_cp1Source+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+t[95%p1sex_cons^y01根据我们的模型设定,正确的误差应当是u,但二步回归法的误差项却多了1v^u^1n1nu(y2^w(y2u当然,上值手工计算可得,但STATA中的ivreg.regrisei_ceduc_hiySource+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totalrisei_c当然,上值手工计算可得,但STATA中的ivreg.regrisei_ceduc_hiySource+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totalrisei_c+t[95%educ_hiysexmeduc_y_cons另一工具变量法案例:数据为“grilic.dta”(见课程操作数据.use"D:\教学篇\中财教学\人大备课\回归分析在社会科学中的应用\课件\第一讲endogenousproblem\grilic.dta",clear教育年限),kww(在“knowledgeoftheworldofwork”测试中的成绩),.reglw80Source+Numberofobs=F( 754)Prob>=Model3Residual+RootMSE===Totallw80+t[95%s80||_cons.estimatesstore.ivregress2slstenure80iq=medkwwmrt***此处,三个工具变量(medkwwInstrumentalvariables(2SLS)age)对两个变量(s80iq)NumberofobsWaldchi2(4)Prob>chi2RootMSEResidual+RootMSE===Totallw80+t[95%s80||_cons.estimatesstore.ivregress2slstenure80iq=medkwwmrt***此处,三个工具变量(medkwwInstrumentalvariables(2SLS)age)对两个变量(s80iq)NumberofobsWaldchi2(4)Prob>chi2RootMSE=====lw80+Std. [95%| iqexpr80|tenure80|s80expr80tenure80medmrtstore.hausmanivols,constantNote:therankofthedifferencedvariancematrixdoesnotthecoefficientsbeingtested(4);besurethisiswhatexpect,ortheremaybeproblemscomputingthetest.Examinetheoutputyourestimatorsforanythingandconsiderscalingyourthatthecoefficientsareona----Coefficients---||+|||_consB=consistentHoandHa;obtainedfromunderHa,efficientunderHo;obtainedfromTest:Ho:incoefficientsnot=(V_b-V_Bnotpositive***解决内生性问题lw801s802expr803tenure80=(V_b-V_Bnotpositive***解决内生性问题lw801s802expr803tenure80.use"D:\教学篇\中财教学\人大备课\回归分析在社会科学中的应用\课件\第一讲endogenous线性回归扩展篇.reglw80s80Source+NumberofobsF( Prob>FRootMSE======Model3Residual+Totallw80+Std.t[95%s80|expr80|tenure80_cons内生性处理方法中2SLS,GMM和迭代GMM方法,在Stata.ivregressestimatory[varlist1](varlist2=varlist_iv)[if][in][weight][,ivregress表示对模型进行内生性处理语句,其中estimator代指2sls或者gmm两种方法,varlist1表示模型不存在内生性的解释变量,varlist2=varlist_iv表示模型中存在内生性的变量和解释其的工具变量,if表示回归的条件,in表示回归的范围,weight表示回归中入放入权重,options的内容如下表所示(1)2SLS.ivregress2slsy[varlist1](varlist2=instlist)[if][in][weight][,2sls2sls方法,(1)2SLS.ivregress2slsy[varlist1](varlist2=instlist)[if][in][weight][,2sls2sls方法,varlist1仍然表示不存在内生性的回归的条件,in表示回归的范围,weight表示回归中加入放入权重,options内容与前表中的选项是一致的(除了GMM项)。具体来说最常用的两个2SLS.ivregress2slsyx1(x2=z1.ivregress2slsyx1(x2=z1z2),r对模型进行估计时在Stata命令窗口中输入如下命令可以得到估计结果:.ivregress2slslw80expr80tenure80(iqs80=medkwwmrtrFirst-stageNumberofobs 751)Prob>FAdjR-squaredRootMSE====|iqt[95%+expr80|tenure80medkwwmrtage_consof 751)Prob>F== =|s80+t[95%|||||||kwwmrtage_consof 751)Prob>F== =|s80+t[95%|||||||variables(2SLS)NumberofobsWaldchi2(4)Prob>chi2RootMSE=====||+z[95%iqs80|expr80|tenure80_consiqexpr80tenure80medmrt.ivregress2slslw80expr80tenure80(iqs80=此命令表示使用2SLS法对模型进行估计,使用kwwmrtiqs80的工具变量Instrumentalvariables(2SLS)NumberofobsWaldchi2(4)Prob>chi2RootMSE====lw80+Std.z[95%iq|s80expr80|tenure80_consInstrumented:iq expr80tenure80medmrtexpr80|tenure80_consInstrumented:iq expr80tenure80medmrt在第二节段的结果中列示了instrumented(被使用工具变量解释的原解释变量)和tenure10%的置信度下未(2)GMM.ivregressgmmy[varlist1](varlist2=instlist)[if][in][weight][,gmmgmm方法,varlist1仍然表示不存在内生表示回归的条件,in表示回归的范围,weight表示回归中加入的权重,options内容与前mrt.ivregressgmmlw80expr80tenure80(iqs80=medFirst-stageNumberofobs 751)Prob>F== Root=|iqt[95%+|||||||of 751)Prob>F== =||++|||||||of 751)Prob>F== =||+t[95%|||||||variables(2SLS)NumberofobsWaldchi2(4)Prob>chi2RootMSE=====||+z[95%|||||iqexpr80tenure80medmrt.endofdo-do"C:\Users\卧薪尝胆.ivregressgmmlw80expr80tenure80(iqs80=medkwwmrt此命令表示使用GMM法对模型进行估计,使用med,kww,mrt,ageiqs80的工具变量Instrumentalvariables(GMM)NumberofobsWaldchi2(4)=Prob> =RootMSE=.GMMweight=lw80+z[95%iqRootMSE=.GMMweight=lw80+z[95%iq|expr80|tenure80|iqexpr80tenure80medmrtt检验,lw80=3.998+0.0186iq+0.0411s80+0.0269expr80+0.0045tenure80(3)GMMGMMStata.ivregressgmmy[varlist1](varlist2=instlist)[if][in]GMMoptionsigmm具体化出来,所以此命令的解释仍然是:varlist1仍然表示不存在内生性的解释变量,varlist2varlist_iv表示模型中存在内生性的变量和解释其的工具变量,if表示回归的条件,in表示模型回归的范围,weight表示回归中加入的权重,igmm表示迭代gmm估计法.ivregressgmmlw80expr80tenure80(iqs80=medkwwmrt***此命令表示使用迭GMM法对模型进行估计,使用med,kww,mrt,age作为iq和s80的工具变Iteration1:Iteration2:Iteration3:Iteration4:Iteration5:inbeta=5.821e-04inbeta=2.003e-05inbeta=7.138e-07inbeta=2.567e-08inbeta=9.315e-changeinWchangeinWchangeinWchangeinWchangein=3.471e-=1.282e-=4.592e-=1.655e-=5.973e-Instrumentalvariables(GMM)Numberofobs=Waldchi2(4).Prob>chi2RootMSE===GMMweightmatrix:|lw80+Std. [95%iqs80|expr80|tenure80_conslw80+Std. [95%iqs80|expr80|tenure80_cons iqexpr80tenure80medmrt估计结果图显示迭代GMM2SLSlw80=3.995+0.0186iq+0.041s80+0.0269expr80+0.00446tenure80(s80与tenure80(4)倾向值分析法(PropensityScore(2011).PropensityScoreAnalysis:StatisticalMethodsandApplications.Sage第三奇异值或重要影响第三奇异值或重要影响1GDP散点从散点图上来看,右上方的阿富汗(Afghanistan)、伊拉克(Iraq)、加蓬(Gabon)利比里亚(ibeia)和波斯尼亚(osnia)是很明显的奇异值;而左下方的苏丹(Sudn)和圣多美(SoTome可能是重要影响点。X值的条件下,y取值中与众不同的特殊观察值。或者说,是一个残差非常大的观察值(xX值的条件下,y取值中与众不同的特殊观察值。或者说,是一个残差非常大的观察值(xy图2均值附近的奇异值对回归线的虽然这一点的残差或差异很大,但它的杠杆作用(leverageeffect)x分布的中间,斜率只受到很小的影响。因此,尽管这是一个奇异值,但影响很小,可以a)看残差。通常情况下是可以的,但有时会造成误导,因为部分观察值会将回b)看标准化残差。标准化残差是以原来的残差除以标准差所得,用a)看残差。通常情况下是可以的,但有时会造成误导,因为部分观察值会将回b)看标准化残差。标准化残差是以原来的残差除以标准差所得,用以表明有多残差的变化可以归于通常的抽样变异性(ordinarysamplingvariability)3在前面的GDP.reglIMR|+||+|Numberof======F(>1AdjR-squaredRootMSE|+|Std.t[95%----①小贴士:威廉•戈塞(WilliamSealyGosset,1876.6.13-1937.10.16),小样本理论“StudentTK.皮尔逊生物统计学验室从事研致该统计被称为“学生的T检验”。1907-1937年间,戈塞发表了22篇统计学论文,这些论文于1942年以《“学生”论文集》为书名重新发行。_cons .predictyresid,(22missingvalues.predictyrstud,(22missingvalues.||||
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度新能源汽车充电设施合同作废声明范本全文预览
- 2025年度企业内部控制与合规咨询合同
- 2025年度跨境电商融资合同履约保证金规定
- 2025年度股权质押合同风险评估与咨询合同
- 2025年度个人租房合同终止通知证明
- 环境教育与老年人生活质量提升的路径
- 2025年度进出口纺织品质量检测与认证服务合同范本
- 2025年度智能仓储管理系统租赁合同
- 2025年度客栈餐饮服务合作协议书范本
- 2025年度可再生能源利用合同能源管理项目节能改造合同
- 英语主语从句省公开课一等奖全国示范课微课金奖课件
- 上海天文馆分析
- 中医睡眠养生中心方案
- 生活中的逻辑学
- 大学生返家乡社会实践报告
- 初中生物中考真题(合集)含答案
- 《医学免疫学实验》课件
- C139客户开发管理模型
- GB/T 5019.5-2023以云母为基的绝缘材料第5部分:电热设备用硬质云母板
- 《工伤保险专题》课件
- 2024年农发集团招聘笔试参考题库含答案解析
评论
0/150
提交评论