Saa与模型的设定_第1页
Saa与模型的设定_第2页
Saa与模型的设定_第3页
Saa与模型的设定_第4页
Saa与模型的设定_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章Stata与模型的设定主要内容:1、遗漏变量的检验2、解释变量个数的选择3、多重共线性与逐步回归法4、极端数据的诊断与处理5、虚拟变量的处理6、经济结构变动的Chow检验实验7-1遗漏变量的检验一、实验基本原理二、实验数据和实验内容根据统计资料得到了美国工资的横截面数据,变量主要包括:wage=工资,educ=受教育年限,exper=工作经验年限,tenure=任职年限,lwage=工资的对数值。完整的数据在本书附带光盘的data文件夹的“wage1.dta”工作文件中。利用wage1的数据,分别利用Link方法和Ramsey方法检验模型是否遗漏了重要的解释变量。三、实验操作指导1.使用Link方法检验遗漏变量Link方法进行检验的基本命令语句为:linktest[if][in][,cmd_options]在这个命令语句中,linktest是进行Link检验的基本命令,if是表示条件的命令语句,in是范围语句,cmd_options表示Link检验的选项应该与所使用的估计方法的选项一致,例如检验之前使用的回归regress命令,则此处的选项应与regress的选项一致。例如,利用wage1的数据,检验模型是否遗漏了重要的解释变量,应该输入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenurelinktest第一个命令表示打开数据文件wage1,第二个命令语句是对模型进行回归估计,第三个命令就是进行遗漏变量的Link检验,检验结果如图7.1所示。从第二个表格中,可以看到hatsq项的p值为0.018,拒绝了hatsq系数为零的假设,即说明被解释变量lwage的拟合值的平方项具有解释能力,所以可以得出结论原模型可能遗漏了重要的解释变量。为了进一步验证添加重要变量是否会改变Link检验的结果,我们生成受教育年限educ和工作经验年限exper的平方项,重新进行回归并进行检验,这时输入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2linktest第一个命令语句的作用是生成变量educ2,使其值为变量educ的平方;第二个命令语句的作用是生成变量exper2,使其值为变量exper的平方;第三个命令语句的作用是对进行回归估计;第四个命令就是进行遗漏变量的Link检验,检验结果如图7.2所示。2.使用Ramsey方法检验遗漏变量Ramsey方法进行检验的基本命令语句为:estatovtest[,rhs]在这个命令语句中,estatovtest是进行Ramsey检验的命令语句,如果设定rhs,则在检验过程中使用解释变量,如果不设定rhs,则在检验中使用被解释变量的拟合值。例如,利用wage1的数据,使用Ramsey方法检验模型是否遗漏了重要的解释变量,应该输入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatovtest在这组命令语句中,第一个命令的功能是打开数据文件,第二个命令是对模型进行回归估计,第三个命令就是进行遗漏变量的Ramsey检验,检验结果如图7.3所示。在图7.3中,第一个图表仍然是回归结果,第二部分则是Ramsey检验的结果,不难发现Ramsey检验的原假设是模型不存在遗漏变量,检验的p值为0.0048,拒绝原假设,即认为原模型存在遗漏变量。为了进一步验证添加重要变量是否会改变Ramsey检验的结果,我们采取Link检验中的方法,生成受教育年限educ和工作经验年限exper的平方项,重新进行回归并进行检验,这时输入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatovtest这里不再赘述这些命令语句的含义,调整之后的检验结果如图7.4所示,可以发现此时检验的p值为0.5404,无法拒绝原假设,即认为模型不再存在遗漏变量。实验7-2解释变量量个数的的选择一、实验验基本原原理好的经济济理论的的标准通通常是希希望通过过更为简简洁的模模型来更更加精确确地描述述复杂的的经济现现象,但但是这两两个目标标通常是是矛盾的的,因为为通过增增加解释释变量的的个数可可以提高高模型的的精确程程度,但但是同时时也牺牲牲了模型型的简洁洁性。因因此,在在现实的的经济研研究过程程中,通通常使用用信息准准则来确确定解释释变量的的个数,,较为常常用的信信息准则则有两个个:(1)赤池信信息准则则,又称称为AIC准则,其其基本思思想是通通过选择择解释变变量的个个数,使使得如下下目标函函数最小小。在这个公公式中,,e代表残差差序列,,n代表样本本数量,,K代表解释释变量的的个数。。通过这这个目标标函数可可以看出出,第一一项是对对拟合优优度的奖奖励,即即尽可能能地使残残差平方方和变小小,第二二项是对对解释变变量个数数增多的的惩罚,,因为目目标函数数是解释释变量个个数的增增函数。。(2)贝叶斯斯信息准准则,又又称为BIC准则,其其基本思思想是通通过选择择解释变变量的个个数,使使得如下下目标函函数最小小。在这个公公式中,,e代表残差差序列,,n代表样本本数量,,K代表解释释变量的的个数。。通过这这个目标标函数可可以看出出,BIC准则与AIC准则的唯唯一区别别就是K的权重不不同,一一般来说说ln(n)>2,所以BIC更加注重重模型的的简洁性性。二、实验验数据和和实验内内容:根据统计计资料得得到了美美国工资资的横截截面数据据,变量量主要包包括:wage=工资,educ=受教育年年限,exper=工作经验验年限,,tenure=任职年限限,lwage=工资的对对数值。。完整的的数据在在本书附附带光盘盘的data文件夹的的“wage1.dta”工作文件件中。利用wage1的数据,,来确定定以下两个个模型::模型和模型哪个更为为合理((其中educ2和exper2分别为educ和exper的平方项项)。三、实验验操作指指导使用信息息准则,,对模型型进行检检验的命命令如下下:estatic[,n(#)]在这个命命令语句句中,estatic是进行检检验的命命令语句句,选项项n(#)的功能是是指定BIC准则中的的n值,一般般使用默默认值。。例如,利利用wage1的数据,,获得模模型的AIC和BIC值,应该该输入以以下命令令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatic第一个命命令表示示打开数数据文件件wage1,第二个个命令语语句是对对模型进进行回归归估计,,第三个个命令就就是进行行信息准准则值的的计算,,计算结结果如图图7.5所示,AIC值为635.10,BIC值为652.16。为了对比比分析,,我们仍仍然采取取Link检验中的的方法,,生成受受教育年年限educ和工作经经验年限限exper的平方项项,建立立新的模模型重新对其其进行回回归并计计算,这这时输入入的命令令如下::geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatic这里不再赘述述这些命令语语句的含义,,调整之后的的计算结果如如图7.6所示,可以发发现此时计算算的AIC值为583.66,BIC值为609.25。通过这两个模模型信息准则则值的对比分分析,可以得得出结论,第第二个模型的的信息准则值值更小,所以以此模型优于于第一个模型型。实验7-3多重共线性与与逐步回归法法一、实验基本本原理多重共线性问问题在多元线线性回归分析析中是很常见见的,其导致致的直接后果果是方程回归归系数估计的的标准误差变变大,系数估估计值的精度度降低等。多多重共线性的的问题对于Stata软件来说并不不显著,因为为Stata会自动剔除完完全的多重共共线性,但是是出于知识的的完整性,这这里还是介绍绍一下Stata对于多重共线线性的识别和和处理方法。。多重共线性的的诊断方法主主要有:(1)直观上说::当模型的拟拟合优度非常常高且通过F检验,但多数数解释变量都都不显著,甚甚至解释变量量系数符号相相反时,可能能存在多重共共线性。(2)对由解释变变量所组成的的序列组进行行相关分析时时,如果有些些变量之间的的相关系数很很高,则也反反映出可能存存在多重共线线性。(3)使用命令estatvif,对膨胀因子子进行计算,,经验上当VIF的均值>=2且VIF的最大值接近近或者超过10时,通常认为为有较为严重重的多重共线线性。当确认模型存存在多重共线线性时,通常常有两种解决决方法消除其其影响:一种种是收集更多多的数据,增增大样本容量量;另一种是是通过逐步回回归,改进模模型的形式。。在现实研究究过程中,增增大样本容量量的操作不易易执行,所以以逐步回归法法应用更为广广泛。逐步回归法的的基本原理是是:先分别拟拟合被解释变变量对于每一一个解释变量量的一元回归归,并将各回回归方程的拟拟合优度按照照大小顺序排排列,然后将将拟合优度最最大的解释变变量作为基础础变量,然后后逐渐将其他他解释变量加加入模型中并并同时观测t检验值的变化化,如果t检验显著则保保留该变量,,否则去除,,不断重复此此过程直到加加入所有显著著的解释变量量。二、实验数据据和实验内容容根据统计资料料得到了某市市旅游业的相相关数据,变变量主要包括括:Y=旅游收入(单单位:万元)),X1=某市旅游人数数(单位:人人),X2=城镇居民人均均旅游支出((单位:元)),X3=农村居民人均均旅游支出((单位:元)),X4=公路里程(单单位:公里)),X5=铁路里程(单单位:公里))。完整的数数据在本书附附带光盘的data文件夹的“lvyou.dta””工作文件中。利用lvyou数据估计方程程,判断是否否存在多重共共线性,若存存在,采用逐逐步回归法消消除多重共线线性。三、实验操作作指导1.估计方程若要进行多重重共线性的检检验与修正,,首先要建立立基本的回归归模型。按照照第六章所讲讲述内容,建建立回归模型型的命令如下::usec:\data\lvyou.dta,clearregressYX1X2X3X4X5执行建建立回回归的的命令令,可可以得得到如如图7.7所示的的回归归结果果,通通过判判断发发现::整个个模型型的拟拟合优优度较较高,,但是是变量量X1和X5未通过过t检验,,且X5的系数数为负负,与与常理理违背背,因因为在在通常常情况况下,,随着着铁路路里程程的增增加,,交通通更加加方便便,所所以旅旅游收收入应应该增增加。。综上上所述述,可可以初初步认认为该该模型型存在在多重重共线线性。。2.多重共共线性性检验验多重共共线性性的检检验通通常采采取两两种方方法,,一种种是计计算膨膨胀因因子,,一种种是计计算变变量之之间的的相关关系数数,下下面将将会详详细介介绍。。(1)计算算膨胀胀因子子的命命令为为:estatvif[,uncentered]在这个个命令令语句句中,,estatvif是计算算膨胀胀因子子的命命令语语句,,uncentered选项通通常使使用在在没有有常数数项的的模型型中。。在本实实验中中,在在回归归之后后输入入此命命令,,就可可得到到如图图7.8所示的的膨胀胀因子子数值值。结结果显显示该该模型型的膨膨胀因因子的的平均均值为为14.50,远远远大于于经验验值2,膨胀胀因子子最大大值为为20.06,远远远大于于经验验值10,所以以可以以认为为该模模型存存在严严重的的多重重共线线性。。(2)计算算相关关系数数的命命令语语句为为:pwcorr[varlist][if][in][weight][,pwcorr_options]在这个个命令令语句句中,,pwcorr是计算算相关关系数数的命命令,,varlist为将要要计算算相关关系数数的变变量,,if为条件件语句句,in为范围围语句句,weight为权重重语句句,options选项如如表7.1所示。。在本实实验中中,可可以通通过计计算变变量X1、X2、X3、X4和X5之间的的相关关系数数来判判断模模型是是否存存在多多重共共线性性,所所使用的命命令为为:pwcorrX1X2X3X4X5这个命命令语语句显显示的的相关关系数数矩阵阵如图图7.9所示,,通过过观察察可以以得到到解释释变量量X1与X2、X4、X5之间,,X2与X3、X4、X5之间,,以及及X4与X5之间的的相关关系数数非常常高,,因此此可以以认为为解释释变量量之间间存在在较为为严重重的多多重共共线性性。3.逐步回回归法法(1)手动动逐步步回归归法逐步回回顾法法的第第一步步是要要分别别拟合合Y对每一一个变变量的的回归归方程程,从从中选选出拟拟合优优度最最高的的方程程作为为基础础方程程。这这个操操作所所使用用到的的命令令为::regressYX1regressYX2regressYX3regressYX4regressYX5经过这这步操操作,,可以以得到到如表表7.2所示的的回归归结果果,为为了便便于观观察,,表7.2是根据据Stata输出结结果整整理而而成的的。表表7.2内容显显示,,拟合合优度度的大大小排排列顺顺序为为X2>X5>X1>X4>X3,所以以这时时应将将X2作为基基础解解释变变量,,然后后将X5、X1、X4、X3分别加加入回回归方方程,,进行行逐步步回归归。首先先,,将将X5加入入方方程程进进行行回回归归,,这这时时输输入入的的命命令令为为::regressYX2X5结果果如如图图7.10所示示,,通通过过观观察察发发现现,,X5的系系数数的的p值为为0.658,没没有有通通过过检检验验,,所所以以删删除除解解释释变变量量X5。接下下来来,,将将X1加入入基基本本方方程程进进行行回回归归,,得得到到如如图图7.11所示示的的回回归归结结果果,,结结果果显显示示X1系数数的的p值为为0.068,没没有有通通过过检检验验,,所所以以删删除除。。下面面,,将将X4加入入基基本本方方程程进进行行回回归归,,图图7.12显示示所所有有系系数数都都通通过过了了检检验验,,所所以以基基本本方方程程得得以以扩扩展展为为X2和X4两个个解解释释变变量量。。最后后,,将将解解释释变变量量X3加入入,,以以X2、X4、X3作为为解解释释变变量量进进行行回回归归,,这这时时得得到到最最终终结结果果如如图图7.13所示示,,所所有有变变量量都都通通过过了了检检验验。。(2)自自动动逐逐步步回回归归法法上述述方方法法对对于于解解释释变变量量较较多多的的计计量量模模型型并并不不适适用用,,所所以以Stata提供供了了直直接接进进行行分分步步回回归归的的命命令令,,命命令令格格式式为为::stepwise[,options]:command在这这个个命命令令语语句句中中,,stepwise是进进行行逐逐步步回回归归的的命命令令,,command为进进行行回回归归分分析析或或建建立立其其他他模模型型的的命命令令,,options选项项显显示示在在表表7.3中。。在运运用用stepwise命令令时时,,需需要要特特别别注注意意的的是是搜搜寻寻的的方方法法和和顺顺序序,,具具体体内内容容如如表表7.4所示示。。表表7.4较为为详详细细地地叙叙述述了了每每种种方方法法的的内内在在含含义义和和实实际际操操作作方方法法,,所所以以用用户户使使用用该该命命令令时时应应根根据据研研究究需需要要进进行行选选择择,,或或者者通通过过几几种种方方法法结结果果的的对对比比确确定定最最终终的的模模型型。。例如如,,利利用用这这种种逐逐步步回回归归的的方方法法重重复复旅旅游游业业分分析析的的建建模模过过程程中中,,如如果果采采用用前前向向搜搜寻寻法法,,需需要要输输入入如如下下命命令令::stepwise,pe(0.05):regressYX1X2X3X4X5在这个命命令语句句中,stepwise是进行逐逐步回归归的命令令语句,,pe(0.05)是运用显显著性水水平为5%的前向搜搜寻法,,regressYX1X2X3X4X5则是指明明要建立立回归模模型。由由于前向向搜寻法法和手动动逐步回回归的计计算方法法一致,,所以得得到如图图7.14所示的结结果与图图7.13所示的结结果基本本一致。。但是如如果使用用其他方方法则会会得出不不同的结结果,所所以用户户应当根根据自身身研究的的需要进进行慎重重的选择择。实验7-4极端数据据的诊断断与处理理一、实验验基本原原理二、实验验数据和和实验内内容根据统计计资料得得到了美美国汽车车产业的的横截面面数据(1978年),变量主主要包括括:price=汽车的价价格,mpg=每加仑油油所行驶驶的英里里数,weight=汽车的重重量,foreign表示是否否是进口口车,如如果foreign=0代表是国国产车,,如果foreign=1代表是进进口车。。完整的的数据在在本书附附带光盘盘的data文件夹的的“usaauto.dta””工作文件件中。利用usaauto数据,以以price为因变量量,mpg、weight和foreign为自变量量建立回回归模型型,找出出样本数数据中存存在的极极端数据据。三、实验验操作指指导进行极端端数据的的检验通通常用到到的是一一组命令令,这组组命令显显示如下下:regressyx1x2……predictlev,leveragegsort––levsumlevlistin1/i在这组命命令语句句中,第第一个命命令语句句的作用用是以y为因变量量,x1、x2……为自自变量建建立回归归分析;;第二个个命令语语句的作作用是计计算出所所有观测测数据的的lev值;第三三个命令令语句的的作用是是将lev值降序排排列;第第四个命命令语句句的作用用是计算算出lev值的极值值与平均均值,从从而便于于比较;;第五个个命令语语句的作作用是从从大到小小列出lev值第1到第i个观测值值,以便便处理。。例如,在在美国汽汽车数据据分析中中,建立立如下回回归模型型之后,,分析一下下是否存存在极端端值所使使用到的的命令为为:regresspricempgweightforeignpredictlev,leveragegsort––levsumlevlistin1/3这组命令令的详细细含义已已做介绍绍,这里里不再赘赘述,其其功能简简言之就就是建立立回归模模型之后后,计算算lev值,并将将由大到到小前3位的数据据显示出出来,执执行结果果如图7.15所示。在在结果中中可以看看到lev值的均值值为0.0541,而最大大的lev值为0.3001,所以该该观测值值有可能能为极端端数据,,可以采采取进一一步方法法进行处处理,从从而保证证模型的的精确性性。处理理的方法法一般有有两种,,一种方方法为直直接去掉掉极端值值,另一一种方法法为选择择其他更更为适合合恰当的的模型进进行回归归分析。。实验7-5虚拟变量量的处理理一、实验验基本原原理对于定性性数据或或分类数数据而言言,通常常并不能能将其直直接纳入入模型中中进行回回归分析析,因为为这样的的分析并并不符合合经济学学理论,,所以这这时需要要引入虚虚拟变量量进行处处理。一一般情况况下,如如果分类类变量总总共有M类,为了了避免多多重共线线性的出出现,通通常只引引入M-1个虚拟变变量。下下面将会会通过一一个简单单的例子子,来介介绍一下下引入虚虚拟变量量后,模模型的实实际变化化。二、实验验数据和和实验内内容根据统计计资料得得到了中中国1978—2006年的消费费数据,,变量主主要包括括:year=年份,c=人均消费费(单位位:元)),y=人均国民民收入((单位::元),,c_ratio=消费收入入比。完完整的数数据在本本书附带带光盘的的data文件夹的的“consumption_china.dta”工作文件件中。利用此数数据,估估计中国国的消费费函数,,并引入入虚拟变变量,使使得在1992年前后的的模型截截距和斜斜率都不不相同。。三、实验验操作指指导为了便于于比较,,首先生生成整个个时期中中不含虚虚拟变量量的消费费函数方方程,所所使用到到的命令令为:regresscy得到如图图7.16所示的回回归结果果,这个个回归所所形成的的模型为为c=188.588+0.3977y如果认为为在1992年,南巡巡讲话导导致了经经济结构构的变动动,这时时需要引引入虚拟拟变量将将模型分分成两段段进行回回归,步步骤如下下:第一步,,生成虚虚拟变量量,所使使用的命命令为::generatedummy=0replacedummy=1ifyear>=1992在这组命命令中,,第一个个命令的的作用是是生成虚虚拟变量量dummy,使其值值全部为为0;第二个个的命令令的作用用就是将将1992年以后的的dummy值替换为为1,这时就就完成了了虚拟变变量的设设置。第二步,,生成虚虚拟变量量dummy和解释变变量y的互动项项,所使使用的命命令为::generatedummy_y=dummy*y这个命令令的作用用就是生生成互动动项dummy_y,使其值值为变量量dummy和变量y的乘积。。第三步,,将虚拟拟变量纳纳入回归归方程进进行估计计,所使使用的命命令为::regresscydummydummy_y执行结果果如图7.17所示,这这时得到到的模型型为:这个模型型是为了了讲解虚虚拟变量量的实际际使用方方法,暂暂不考虑虑某些系系数不能能通过检检验的情情况。通通过引入入虚拟变变量发现现,模型型的截距距和斜率率都发生生了变化化。在用用户实际际研究过过程中,,可以根根据需要要引入虚虚拟变量量,进行行变斜率率、变截截距以及及二者相相结合的的模型变变化。实验7-6经济结构变动动的Chow检验一、实验基本本原理在时间序列模模型之中,需需要十分注重重模型系数的的稳定性,如如果没有考虑虑到结构变动动,将会造成成较为严重的的模型设定误误差。Chow检验提供了一一个较为严谨谨的检验经济济结构变动的的方法。例如,在时期期t1和t2中,认为存在在t3时刻为一个经经济结构变动动点,这时可可以通过三个个回归来确定定该点是否是是结构变动点点。二、实验数据据和实验内容容根据统计资料料得到了中国国1978—2006年的消费数据据,变量主要要包括:year=年份,c=人均消费(单单位:元),,y=人均国民收入入(单位:元元),c_ratio=消费收入比。。完整的数据据在本书附带带光盘的data文件夹的“consumption_china.dta”工作文件中。利用此数据,,估计中国的的消费函数,,并检验中国国的消费函数数是否在1992年邓小平“南南巡”以后((含1992年)发生了结结构变化。三、实验操作作指导1.手动法进行Chow检验了解了Chow检验的基本原原理之后,就就可以进行检检验了,检验验的方法就是是分别进行三三次回归,下下面将会以中中国消费函数数为例详细介介绍整个操作作过程,检验验中国的消费费函数是否在在1992年以后发生了了结构变化::(1)首先生成整整个时期的回回归方程,然然后计算出这这时的残差平平方和,这时时需要输入的的命令为:regresscypredicte,residualgena=e^2egenb=sum(a)第一个命令的的作用是生成成消费函数第二个命令的的作用是生成成残差序列;;第三个命令令的作用是生生成序列a,使其值为残残差平方;第第四个命令的的作用是生成成变量b,使其值为序序列a的和,即残差差平方和,也就是实验原原理中所指的的(2)其次生成1992年以前序列的的回归方程,,然后计算出出这前半段时时期的残差平平方和,这时时需要输入的的命令为:regresscyifyear<1992predicte1ifyear<1992,residualgena1=e1^2egenb1=sum(a1)第一个命令的的作用是生成成1992年之前的消费费函数第二个命令的的作用是生成成残差序列e1;第三个命令令的作用是生生成序列a1,使其值为残残差平方;第第四个命令的的作用是生成成变量b1,使其值为序序列a1的和,即残差差平方和,也也就是实验原原理中所指的的(3)生成1992年以后序列的的回归方程,,然后计算出出这后半段时时期的残差平平方和,这时时需要输入的的命令为:regresscyifyear>=1992predicte2ifyear>=1992,residualgena2=e2^2egenb2=sum(a2)第一个命令令的作用是是生成1992年之后的消消费函数第二个命令令的作用是是生成残差差序列e2;第三个命命令的作用用是生成序序列a2,使其值为为残差平方方;第四个个命

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论