版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章Stata与模型的设定第七章Stata与模型的设定1主要内容:1、遗漏变量的检验2、解释变量个数的选择3、多重共线性与逐步回归法4、极端数据的诊断与处理5、虚拟变量的处理6、经济结构变动的Chow检验主要内容:1、遗漏变量的检验2实验7-1遗漏变量的检验一、实验基本原理实验7-1遗漏变量的检验一、实验基本原理3二、实验数据和实验内容根据统计资料得到了美国工资的横截面数据,变量主要包括:wage=工资,educ=受教育年限,exper=工作经验年限,tenure=任职年限,lwage=工资的对数值。完整的数据在本书附带光盘的data文件夹的“wage1.dta”工作文件中。利用wage1的数据,分别利用Link方法和Ramsey方法检验模型是否遗漏了重要的解释变量。二、实验数据和实验内容4三、实验操作指导1.使用Link方法检验遗漏变量Link方法进行检验的基本命令语句为:linktest[if][in][,cmd_options]在这个命令语句中,linktest是进行Link检验的基本命令,if是表示条件的命令语句,in是范围语句,cmd_options表示Link检验的选项应该与所使用的估计方法的选项一致,例如检验之前使用的回归regress命令,则此处的选项应与regress的选项一致。三、实验操作指导5例如,利用wage1的数据,检验模型是否遗漏了重要的解释变量,应该输入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenurelinktest第一个命令表示打开数据文件wage1,第二个命令语句是对模型进行回归估计,第三个命令就是进行遗漏变量的Link检验,检验结果如图7.1所示。从第二个表格中,可以看到hatsq项的p值为0.018,拒绝了hatsq系数为零的假设,即说明被解释变量lwage的拟合值的平方项具有解释能力,所以可以得出结论原模型可能遗漏了重要的解释变量。例如,利用wage1的数据,检验模型6为了进一步验证添加重要变量是否会改变Link检验的结果,我们生成受教育年限educ和工作经验年限exper的平方项,重新进行回归并进行检验,这时输入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2linktest第一个命令语句的作用是生成变量educ2,使其值为变量educ的平方;第二个命令语句的作用是生成变量exper2,使其值为变量exper的平方;第三个命令语句的作用是对进行回归估计;第四个命令就是进行遗漏变量的Link检验,检验结果如图7.2所示。为了进一步验证添加重要变量是否会改变Link检验的结果,我们72.使用Ramsey方法检验遗漏变量Ramsey方法进行检验的基本命令语句为:estatovtest[,rhs]在这个命令语句中,estatovtest是进行Ramsey检验的命令语句,如果设定rhs,则在检验过程中使用解释变量,如果不设定rhs,则在检验中使用被解释变量的拟合值。例如,利用wage1的数据,使用Ramsey方法检验模型是否遗漏了重要的解释变量,应该输入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatovtest2.使用Ramsey方法检验遗漏变量8在这组命令语句中,第一个命令的功能是打开数据文件,第二个命令是对模型进行回归估计,第三个命令就是进行遗漏变量的Ramsey检验,检验结果如图7.3所示。在图7.3中,第一个图表仍然是回归结果,第二部分则是Ramsey检验的结果,不难发现Ramsey检验的原假设是模型不存在遗漏变量,检验的p值为0.0048,拒绝原假设,即认为原模型存在遗漏变量。在这组命令语句中,第一个命令的功能是打开数据文件,第二个命令9为了进一步验证添加重要变量是否会改变Ramsey检验的结果,我们采取Link检验中的方法,生成受教育年限educ和工作经验年限exper的平方项,重新进行回归并进行检验,这时输入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatovtest这里不再赘述这些命令语句的含义,调整之后的检验结果如图7.4所示,可以发现此时检验的p值为0.5404,无法拒绝原假设,即认为模型不再存在遗漏变量。为了进一步验证添加重要变量是否会改变Ramsey检验的结果,10实验7-2解释变量个数的选择一、实验基本原理好的经济理论的标准通常是希望通过更为简洁的模型来更加精确地描述复杂的经济现象,但是这两个目标通常是矛盾的,因为通过增加解释变量的个数可以提高模型的精确程度,但是同时也牺牲了模型的简洁性。因此,在现实的经济研究过程中,通常使用信息准则来确定解释变量的个数,较为常用的信息准则有两个:(1)赤池信息准则,又称为AIC准则,其基本思想是通过选择解释变量的个数,使得如下目标函数最小。实验7-2解释变量个数的选择一、实验基本原理11
在这个公式中,e代表残差序列,n代表样本数量,K代表解释变量的个数。通过这个目标函数可以看出,第一项是对拟合优度的奖励,即尽可能地使残差平方和变小,第二项是对解释变量个数增多的惩罚,因为目标函数是解释变量个数的增函数。(2)贝叶斯信息准则,又称为BIC准则,其基本思想是通过选择解释变量的个数,使得如下目标函数最小。在这个公式中,e代表残差序列,n代表样本数量,K代表解释变量的个数。通过这个目标函数可以看出,BIC准则与AIC准则的唯一区别就是K的权重不同,一般来说ln(n)>2,所以BIC更加注重模型的简洁性。在这个公式中,e代表残差序列,n代表样本数量12二、实验数据和实验内容:根据统计资料得到了美国工资的横截面数据,变量主要包括:wage=工资,educ=受教育年限,exper=工作经验年限,tenure=任职年限,lwage=工资的对数值。完整的数据在本书附带光盘的data文件夹的“wage1.dta”工作文件中。利用wage1的数据,来确定以下两个模型:模型和模型哪个更为合理(其中educ2和exper2分别为educ和exper的平方项)。二、实验数据和实验内容:13三、实验操作指导使用信息准则,对模型进行检验的命令如下:estatic[,n(#)]在这个命令语句中,estatic是进行检验的命令语句,选项n(#)的功能是指定BIC准则中的n值,一般使用默认值。例如,利用wage1的数据,获得模型的AIC和BIC值,应该输入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatic第一个命令表示打开数据文件wage1,第二个命令语句是对模型进行回归估计,第三个命令就是进行信息准则值的计算,计算结果如图7.5所示,AIC值为635.10,BIC值为652.16。三、实验操作指导14为了对比分析,我们仍然采取Link检验中的方法,生成受教育年限educ和工作经验年限exper的平方项,建立新的模型重新对其进行回归并计算,这时输入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatic这里不再赘述这些命令语句的含义,调整之后的计算结果如图7.6所示,可以发现此时计算的AIC值为583.66,BIC值为609.25。通过这两个模型信息准则值的对比分析,可以得出结论,第二个模型的信息准则值更小,所以此模型优于第一个模型。为了对比分析,我们仍然采取Link检验中的方法,生成受教育年15实验7-3多重共线性与逐步回归法一、实验基本原理多重共线性问题在多元线性回归分析中是很常见的,其导致的直接后果是方程回归系数估计的标准误差变大,系数估计值的精度降低等。多重共线性的问题对于Stata软件来说并不显著,因为Stata会自动剔除完全的多重共线性,但是出于知识的完整性,这里还是介绍一下Stata对于多重共线性的识别和处理方法。多重共线性的诊断方法主要有:(1)直观上说:当模型的拟合优度非常高且通过F检验,但多数解释变量都不显著,甚至解释变量系数符号相反时,可能存在多重共线性。(2)对由解释变量所组成的序列组进行相关分析时,如果有些变量之间的相关系数很高,则也反映出可能存在多重共线性。(3)使用命令estatvif,对膨胀因子进行计算,经验上当VIF的均值>=2且VIF的最大值接近或者超过10时,通常认为有较为严重的多重共线性。实验7-3多重共线性与逐步回归法一、实验基本原理16当确认模型存在多重共线性时,通常有两种解决方法消除其影响:一种是收集更多的数据,增大样本容量;另一种是通过逐步回归,改进模型的形式。在现实研究过程中,增大样本容量的操作不易执行,所以逐步回归法应用更为广泛。逐步回归法的基本原理是:先分别拟合被解释变量对于每一个解释变量的一元回归,并将各回归方程的拟合优度按照大小顺序排列,然后将拟合优度最大的解释变量作为基础变量,然后逐渐将其他解释变量加入模型中并同时观测t检验值的变化,如果t检验显著则保留该变量,否则去除,不断重复此过程直到加入所有显著的解释变量。当确认模型存在多重共线性时,通常有两种解决方法消除其影响:一17二、实验数据和实验内容根据统计资料得到了某市旅游业的相关数据,变量主要包括:Y=旅游收入(单位:万元),X1=某市旅游人数(单位:人),X2=城镇居民人均旅游支出(单位:元),X3=农村居民人均旅游支出(单位:元),X4=公路里程(单位:公里),X5=铁路里程(单位:公里)。完整的数据在本书附带光盘的data文件夹的“lvyou.dta”工作文件中。利用lvyou数据估计方程,判断是否存在多重共线性,若存在,采用逐步回归法消除多重共线性。二、实验数据和实验内容18三、实验操作指导1.估计方程若要进行多重共线性的检验与修正,首先要建立基本的回归模型。按照第六章所讲述内容,建立回归模型的命令如下:usec:\data\lvyou.dta,clearregressYX1X2X3X4X5执行建立回归的命令,可以得到如图7.7所示的回归结果,通过判断发现:整个模型的拟合优度较高,但是变量X1和X5未通过t检验,且X5的系数为负,与常理违背,因为在通常情况下,随着铁路里程的增加,交通更加方便,所以旅游收入应该增加。综上所述,可以初步认为该模型存在多重共线性。三、实验操作指导192.多重共线性检验多重共线性的检验通常采取两种方法,一种是计算膨胀因子,一种是计算变量之间的相关系数,下面将会详细介绍。(1)计算膨胀因子的命令为:estatvif[,uncentered]在这个命令语句中,estatvif是计算膨胀因子的命令语句,uncentered选项通常使用在没有常数项的模型中。在本实验中,在回归之后输入此命令,就可得到如图7.8所示的膨胀因子数值。结果显示该模型的膨胀因子的平均值为14.50,远远大于经验值2,膨胀因子最大值为20.06,远远大于经验值10,所以可以认为该模型存在严重的多重共线性。2.多重共线性检验20(2)计算相关系数的命令语句为:pwcorr[varlist][if][in][weight][,pwcorr_options]在这个命令语句中,pwcorr是计算相关系数的命令,varlist为将要计算相关系数的变量,if为条件语句,in为范围语句,weight为权重语句,options选项如表7.1所示。(2)计算相关系数的命令语句为:21在本实验中,可以通过计算变量X1、X2、X3、X4和X5之间的相关系数来判断模型是否存在多重共线性,所使用的命令为:pwcorrX1X2X3X4X5这个命令语句显示的相关系数矩阵如图7.9所示,通过观察可以得到解释变量X1与X2、X4、X5之间,X2与X3、X4、X5之间,以及X4与X5之间的相关系数非常高,因此可以认为解释变量之间存在较为严重的多重共线性。在本实验中,可以通过计算变量X1、X2、X3、X4和X5之间223.逐步回归法(1)手动逐步回归法逐步回顾法的第一步是要分别拟合Y对每一个变量的回归方程,从中选出拟合优度最高的方程作为基础方程。这个操作所使用到的命令为:regressYX1regressYX2regressYX3regressYX4regressYX5经过这步操作,可以得到如表7.2所示的回归结果,为了便于观察,表7.2是根据Stata输出结果整理而成的。表7.2内容显示,拟合优度的大小排列顺序为X2>X5>X1>X4>X3,所以这时应将X2作为基础解释变量,然后将X5、X1、X4、X3分别加入回归方程,进行逐步回归。3.逐步回归法23首先,将X5加入方程进行回归,这时输入的命令为:regressYX2X5结果如图7.10所示,通过观察发现,X5的系数的p值为0.658,没有通过检验,所以删除解释变量X5。接下来,将X1加入基本方程进行回归,得到如图7.11所示的回归结果,结果显示X1系数的p值为0.068,没有通过检验,所以删除。下面,将X4加入基本方程进行回归,图7.12显示所有系数都通过了检验,所以基本方程得以扩展为X2和X4两个解释变量。最后,将解释变量X3加入,以X2、X4、X3作为解释变量进行回归,这时得到最终结果如图7.13所示,所有变量都通过了检验。首先,将X5加入方程进行回归,这时输入的命令为:24(2)自动逐步回归法上述方法对于解释变量较多的计量模型并不适用,所以Stata提供了直接进行分步回归的命令,命令格式为:stepwise[,options]:command在这个命令语句中,stepwise是进行逐步回归的命令,command为进行回归分析或建立其他模型的命令,options选项显示在表7.3中。(2)自动逐步回归法25在运用stepwise命令时,需要特别注意的是搜寻的方法和顺序,具体内容如表7.4所示。表7.4较为详细地叙述了每种方法的内在含义和实际操作方法,所以用户使用该命令时应根据研究需要进行选择,或者通过几种方法结果的对比确定最终的模型。在运用stepwise命令时,需要特别注意的是搜寻的方法和顺26Stata与模型的设定课件27例如,利用这种逐步回归的方法重复旅游业分析的建模过程中,如果采用前向搜寻法,需要输入如下命令:stepwise,pe(0.05):regressYX1X2X3X4X5在这个命令语句中,stepwise是进行逐步回归的命令语句,pe(0.05)是运用显著性水平为5%的前向搜寻法,regressYX1X2X3X4X5则是指明要建立回归模型。由于前向搜寻法和手动逐步回归的计算方法一致,所以得到如图7.14所示的结果与图7.13所示的结果基本一致。但是如果使用其他方法则会得出不同的结果,所以用户应当根据自身研究的需要进行慎重的选择。例如,利用这种逐步回归的方法重复旅游业分析的建模过程中,如果28实验7-4极端数据的诊断与处理一、实验基本原理实验7-4极端数据的诊断与处理一、实验基本原理29二、实验数据和实验内容根据统计资料得到了美国汽车产业的横截面数据(1978年),变量主要包括:price=汽车的价格,mpg=每加仑油所行驶的英里数,weight=汽车的重量,foreign表示是否是进口车,如果foreign=0代表是国产车,如果foreign=1代表是进口车。完整的数据在本书附带光盘的data文件夹的“usaauto.dta”工作文件中。利用usaauto数据,以price为因变量,mpg、weight和foreign为自变量建立回归模型,找出样本数据中存在的极端数据。二、实验数据和实验内容30三、实验操作指导进行极端数据的检验通常用到的是一组命令,这组命令显示如下:regressyx1x2
……predictlev,leveragegsort–levsumlevlistin1/i在这组命令语句中,第一个命令语句的作用是以y为因变量,x1、x2
……为自变量建立回归分析;第二个命令语句的作用是计算出所有观测数据的lev值;第三个命令语句的作用是将lev值降序排列;第四个命令语句的作用是计算出lev值的极值与平均值,从而便于比较;第五个命令语句的作用是从大到小列出lev值第1到第i个观测值,以便处理。三、实验操作指导31例如,在美国汽车数据分析中,建立如下回归模型之后,分析一下是否存在极端值所使用到的命令为:regresspricempgweightforeignpredictlev,leveragegsort–levsumlevlistin1/3这组命令的详细含义已做介绍,这里不再赘述,其功能简言之就是建立回归模型之后,计算lev值,并将由大到小前3位的数据显示出来,执行结果如图7.15所示。在结果中可以看到lev值的均值为0.0541,而最大的lev值为0.3001,所以该观测值有可能为极端数据,可以采取进一步方法进行处理,从而保证模型的精确性。处理的方法一般有两种,一种方法为直接去掉极端值,另一种方法为选择其他更为适合恰当的模型进行回归分析。例如,在美国汽车数据分析中,建立如下回归模型之后,32实验7-5虚拟变量的处理一、实验基本原理对于定性数据或分类数据而言,通常并不能将其直接纳入模型中进行回归分析,因为这样的分析并不符合经济学理论,所以这时需要引入虚拟变量进行处理。一般情况下,如果分类变量总共有M类,为了避免多重共线性的出现,通常只引入M-1个虚拟变量。下面将会通过一个简单的例子,来介绍一下引入虚拟变量后,模型的实际变化。实验7-5虚拟变量的处理一、实验基本原理33Stata与模型的设定课件34二、实验数据和实验内容根据统计资料得到了中国1978—2006年的消费数据,变量主要包括:year=年份,c=人均消费(单位:元),y=人均国民收入(单位:元),c_ratio=消费收入比。完整的数据在本书附带光盘的data文件夹的“consumption_china.dta”工作文件中。利用此数据,估计中国的消费函数,并引入虚拟变量,使得在1992年前后的模型截距和斜率都不相同。二、实验数据和实验内容35三、实验操作指导为了便于比较,首先生成整个时期中不含虚拟变量的消费函数方程,所使用到的命令为:regresscy得到如图7.16所示的回归结果,这个回归所形成的模型为c=188.588+0.3977y如果认为在1992年,南巡讲话导致了经济结构的变动,这时需要引入虚拟变量将模型分成两段进行回归,步骤如下:第一步,生成虚拟变量,所使用的命令为:generatedummy=0replacedummy=1ifyear>=1992在这组命令中,第一个命令的作用是生成虚拟变量dummy,使其值全部为0;第二个的命令的作用就是将1992年以后的dummy值替换为1,这时就完成了虚拟变量的设置。三、实验操作指导36第二步,生成虚拟变量dummy和解释变量y的互动项,所使用的命令为:generatedummy_y=dummy*y这个命令的作用就是生成互动项dummy_y,使其值为变量dummy和变量y的乘积。第三步,将虚拟变量纳入回归方程进行估计,所使用的命令为:regresscydummydummy_y执行结果如图7.17所示,这时得到的模型为:这个模型是为了讲解虚拟变量的实际使用方法,暂不考虑某些系数不能通过检验的情况。通过引入虚拟变量发现,模型的截距和斜率都发生了变化。在用户实际研究过程中,可以根据需要引入虚拟变量,进行变斜率、变截距以及二者相结合的模型变化。第二步,生成虚拟变量dummy和解释变量y的互动项,所使用的37实验7-6经济结构变动的Chow检验一、实验基本原理在时间序列模型之中,需要十分注重模型系数的稳定性,如果没有考虑到结构变动,将会造成较为严重的模型设定误差。Chow检验提供了一个较为严谨的检验经济结构变动的方法。例如,在时期t1和t2中,认为存在t3时刻为一个经济结构变动点,这时可以通过三个回归来确定该点是否是结构变动点。实验7-6经济结构变动的Chow检验一、实验基本原理38Stata与模型的设定课件39二、实验数据和实验内容根据统计资料得到了中国1978—2006年的消费数据,变量主要包括:year=年份,c=人均消费(单位:元),y=人均国民收入(单位:元),c_ratio=消费收入比。完整的数据在本书附带光盘的data文件夹的“consumption_china.dta”工作文件中。利用此数据,估计中国的消费函数,并检验中国的消费函数是否在1992年邓小平“南巡”以后(含1992年)发生了结构变化。二、实验数据和实验内容40三、实验操作指导1.手动法进行Chow检验了解了Chow检验的基本原理之后,就可以进行检验了,检验的方法就是分别进行三次回归,下面将会以中国消费函数为例详细介绍整个操作过程,检验中国的消费函数是否在1992年以后发生了结构变化:(1)首先生成整个时期的回归方程,然后计算出这时的残差平方和,这时需要输入的命令为:regresscypredicte,residualgena=e^2egenb=sum(a)第一个命令的作用是生成消费函数第二个命令的作用是生成残差序列;第三个命令的作用是生成序列a,使其值为残差平方;第四个命令的作用是生成变量b,使其值为序列a的和,即残差平方和,也就是实验原理中所指的三、实验操作指导41(2)其次生成1992年以前序列的回归方程,然后计算出这前半段时期的残差平方和,这时需要输入的命令为:regresscyifyear<1992predicte1ifyear<1992,residualgena1=e1^2egenb1=sum(a1)第一个命令的作用是生成1992年之前的消费函数第二个命令的作用是生成残差序列e1;第三个命令的作用是生成序列a1,使其值为残差平方;第四个命令的作用是生成变量b1,使其值为序列a1的和,即残差平方和,也就是实验原理中所指的(2)其次生成1992年以前序列的回归方程,然后计算出这前半42(3)生成1992年以后序列的回归方程,然后计算出这后半段时期的残差平方和,这时需要输入的命令为:regresscyifyear>=1992predicte2ifyear>=1992,residualgena2=e2^2egenb2=sum(a2)第一个命令的作用是生成1992年之后的消费函数第二个命令的作用是生成残差序列e2;第三个命令的作用是生成序列a2,使其值为残差平方;第四个命令的作用是生成变量b2,使其值为序列a2的和,即残差平方和,也就是实验原理中所指的(3)生成1992年以后序列的回归方程,然后计算出这后半段时43(4)最后计算F统计量的值,并与临界值作比较,这时需要输入的命令为:genf=((b-b1-b2)/(2))/((b1+b2)/(29-2*2))sumf第一个命令的作用就是将所有计算的数值带入公式计算出F统计量的值,第二个命令的作用就是列出F的值,命令执行的结果如图7.18所示。我们知道在95%的置信水平下,自由度为2和25的F值为3.39,所以检验值大于临界值,拒绝原假设,应当认为存在结构变化。(4)最后计算F统计量的值,并与临界值作比较,这时需要输入的44(2)自动进行Chow检验在一般的Stata默认安装程序中并不存在Chow检验的命令程序,但是有些用户编制了Chow检验的程序,需要用户自行下载安装,这时需要在命令窗口中输入如下命令:finditchow这时,将会显示许多下载该命令的地址,一般点击第一个就可以安装完成了。Chow检验的命令语句为:chowvarlist[weight][ifexp][inrange][,chow(sample-list)]在这个命令语句中,chow是进行检验的命令,varlist是指将要进行Chow检验的变量名称,weight是权重语句,ifexp是条件语句,inrange是范围语句,chow(sample-list)需要指明检验的区间,也就是结构变动点所在的位置。例如,利用consumption_china数据,检验1992年是否为结构变化点的命令为:chowcy,chow(year>1991)在这个命令语句中,chowcy说明要对变量c和y进行检验,chow(year>1991)说明结构变动可能出现在1992年,命令执行的结果同手动法一致。(2)自动进行Chow检验45习题1.利用wage2.dta的数据,分别运用Link方法和Ramsey方法,检验回归模型是否遗漏了重要的解释变量。2.利用wage2.dta的数据,运用信息准则的方法判断模型和模型哪一个更为合适,数据同第1题。3.利用usaauto.dta的数据,判断回归模型是否具有多重共线性,如果存在,请运用逐步回归法进行修正。习题1.利用wage2.dta的数据,分别运用Link方法和464.利用wage2.dta的数据,建立回归模型并检验是否存在极端数据,数据同第1题。5.利用wage2.dta的数据,以模型为基础,按照性别建立虚拟变量,并将该变量及其与其他变量的交互项加入回归模型中重新进行估计,数据同第1题。6.利用water.dta的数据,建立模型并利用Chow检验验证在2000年自来水市场化改革后,自来水产业结构是否发生了变化,4.利用wage2.dta的数据,建立回归模型47演讲完毕,谢谢观看!演讲完毕,谢谢观看!48第七章Stata与模型的设定第七章Stata与模型的设定49主要内容:1、遗漏变量的检验2、解释变量个数的选择3、多重共线性与逐步回归法4、极端数据的诊断与处理5、虚拟变量的处理6、经济结构变动的Chow检验主要内容:1、遗漏变量的检验50实验7-1遗漏变量的检验一、实验基本原理实验7-1遗漏变量的检验一、实验基本原理51二、实验数据和实验内容根据统计资料得到了美国工资的横截面数据,变量主要包括:wage=工资,educ=受教育年限,exper=工作经验年限,tenure=任职年限,lwage=工资的对数值。完整的数据在本书附带光盘的data文件夹的“wage1.dta”工作文件中。利用wage1的数据,分别利用Link方法和Ramsey方法检验模型是否遗漏了重要的解释变量。二、实验数据和实验内容52三、实验操作指导1.使用Link方法检验遗漏变量Link方法进行检验的基本命令语句为:linktest[if][in][,cmd_options]在这个命令语句中,linktest是进行Link检验的基本命令,if是表示条件的命令语句,in是范围语句,cmd_options表示Link检验的选项应该与所使用的估计方法的选项一致,例如检验之前使用的回归regress命令,则此处的选项应与regress的选项一致。三、实验操作指导53例如,利用wage1的数据,检验模型是否遗漏了重要的解释变量,应该输入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenurelinktest第一个命令表示打开数据文件wage1,第二个命令语句是对模型进行回归估计,第三个命令就是进行遗漏变量的Link检验,检验结果如图7.1所示。从第二个表格中,可以看到hatsq项的p值为0.018,拒绝了hatsq系数为零的假设,即说明被解释变量lwage的拟合值的平方项具有解释能力,所以可以得出结论原模型可能遗漏了重要的解释变量。例如,利用wage1的数据,检验模型54为了进一步验证添加重要变量是否会改变Link检验的结果,我们生成受教育年限educ和工作经验年限exper的平方项,重新进行回归并进行检验,这时输入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2linktest第一个命令语句的作用是生成变量educ2,使其值为变量educ的平方;第二个命令语句的作用是生成变量exper2,使其值为变量exper的平方;第三个命令语句的作用是对进行回归估计;第四个命令就是进行遗漏变量的Link检验,检验结果如图7.2所示。为了进一步验证添加重要变量是否会改变Link检验的结果,我们552.使用Ramsey方法检验遗漏变量Ramsey方法进行检验的基本命令语句为:estatovtest[,rhs]在这个命令语句中,estatovtest是进行Ramsey检验的命令语句,如果设定rhs,则在检验过程中使用解释变量,如果不设定rhs,则在检验中使用被解释变量的拟合值。例如,利用wage1的数据,使用Ramsey方法检验模型是否遗漏了重要的解释变量,应该输入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatovtest2.使用Ramsey方法检验遗漏变量56在这组命令语句中,第一个命令的功能是打开数据文件,第二个命令是对模型进行回归估计,第三个命令就是进行遗漏变量的Ramsey检验,检验结果如图7.3所示。在图7.3中,第一个图表仍然是回归结果,第二部分则是Ramsey检验的结果,不难发现Ramsey检验的原假设是模型不存在遗漏变量,检验的p值为0.0048,拒绝原假设,即认为原模型存在遗漏变量。在这组命令语句中,第一个命令的功能是打开数据文件,第二个命令57为了进一步验证添加重要变量是否会改变Ramsey检验的结果,我们采取Link检验中的方法,生成受教育年限educ和工作经验年限exper的平方项,重新进行回归并进行检验,这时输入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatovtest这里不再赘述这些命令语句的含义,调整之后的检验结果如图7.4所示,可以发现此时检验的p值为0.5404,无法拒绝原假设,即认为模型不再存在遗漏变量。为了进一步验证添加重要变量是否会改变Ramsey检验的结果,58实验7-2解释变量个数的选择一、实验基本原理好的经济理论的标准通常是希望通过更为简洁的模型来更加精确地描述复杂的经济现象,但是这两个目标通常是矛盾的,因为通过增加解释变量的个数可以提高模型的精确程度,但是同时也牺牲了模型的简洁性。因此,在现实的经济研究过程中,通常使用信息准则来确定解释变量的个数,较为常用的信息准则有两个:(1)赤池信息准则,又称为AIC准则,其基本思想是通过选择解释变量的个数,使得如下目标函数最小。实验7-2解释变量个数的选择一、实验基本原理59
在这个公式中,e代表残差序列,n代表样本数量,K代表解释变量的个数。通过这个目标函数可以看出,第一项是对拟合优度的奖励,即尽可能地使残差平方和变小,第二项是对解释变量个数增多的惩罚,因为目标函数是解释变量个数的增函数。(2)贝叶斯信息准则,又称为BIC准则,其基本思想是通过选择解释变量的个数,使得如下目标函数最小。在这个公式中,e代表残差序列,n代表样本数量,K代表解释变量的个数。通过这个目标函数可以看出,BIC准则与AIC准则的唯一区别就是K的权重不同,一般来说ln(n)>2,所以BIC更加注重模型的简洁性。在这个公式中,e代表残差序列,n代表样本数量60二、实验数据和实验内容:根据统计资料得到了美国工资的横截面数据,变量主要包括:wage=工资,educ=受教育年限,exper=工作经验年限,tenure=任职年限,lwage=工资的对数值。完整的数据在本书附带光盘的data文件夹的“wage1.dta”工作文件中。利用wage1的数据,来确定以下两个模型:模型和模型哪个更为合理(其中educ2和exper2分别为educ和exper的平方项)。二、实验数据和实验内容:61三、实验操作指导使用信息准则,对模型进行检验的命令如下:estatic[,n(#)]在这个命令语句中,estatic是进行检验的命令语句,选项n(#)的功能是指定BIC准则中的n值,一般使用默认值。例如,利用wage1的数据,获得模型的AIC和BIC值,应该输入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatic第一个命令表示打开数据文件wage1,第二个命令语句是对模型进行回归估计,第三个命令就是进行信息准则值的计算,计算结果如图7.5所示,AIC值为635.10,BIC值为652.16。三、实验操作指导62为了对比分析,我们仍然采取Link检验中的方法,生成受教育年限educ和工作经验年限exper的平方项,建立新的模型重新对其进行回归并计算,这时输入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatic这里不再赘述这些命令语句的含义,调整之后的计算结果如图7.6所示,可以发现此时计算的AIC值为583.66,BIC值为609.25。通过这两个模型信息准则值的对比分析,可以得出结论,第二个模型的信息准则值更小,所以此模型优于第一个模型。为了对比分析,我们仍然采取Link检验中的方法,生成受教育年63实验7-3多重共线性与逐步回归法一、实验基本原理多重共线性问题在多元线性回归分析中是很常见的,其导致的直接后果是方程回归系数估计的标准误差变大,系数估计值的精度降低等。多重共线性的问题对于Stata软件来说并不显著,因为Stata会自动剔除完全的多重共线性,但是出于知识的完整性,这里还是介绍一下Stata对于多重共线性的识别和处理方法。多重共线性的诊断方法主要有:(1)直观上说:当模型的拟合优度非常高且通过F检验,但多数解释变量都不显著,甚至解释变量系数符号相反时,可能存在多重共线性。(2)对由解释变量所组成的序列组进行相关分析时,如果有些变量之间的相关系数很高,则也反映出可能存在多重共线性。(3)使用命令estatvif,对膨胀因子进行计算,经验上当VIF的均值>=2且VIF的最大值接近或者超过10时,通常认为有较为严重的多重共线性。实验7-3多重共线性与逐步回归法一、实验基本原理64当确认模型存在多重共线性时,通常有两种解决方法消除其影响:一种是收集更多的数据,增大样本容量;另一种是通过逐步回归,改进模型的形式。在现实研究过程中,增大样本容量的操作不易执行,所以逐步回归法应用更为广泛。逐步回归法的基本原理是:先分别拟合被解释变量对于每一个解释变量的一元回归,并将各回归方程的拟合优度按照大小顺序排列,然后将拟合优度最大的解释变量作为基础变量,然后逐渐将其他解释变量加入模型中并同时观测t检验值的变化,如果t检验显著则保留该变量,否则去除,不断重复此过程直到加入所有显著的解释变量。当确认模型存在多重共线性时,通常有两种解决方法消除其影响:一65二、实验数据和实验内容根据统计资料得到了某市旅游业的相关数据,变量主要包括:Y=旅游收入(单位:万元),X1=某市旅游人数(单位:人),X2=城镇居民人均旅游支出(单位:元),X3=农村居民人均旅游支出(单位:元),X4=公路里程(单位:公里),X5=铁路里程(单位:公里)。完整的数据在本书附带光盘的data文件夹的“lvyou.dta”工作文件中。利用lvyou数据估计方程,判断是否存在多重共线性,若存在,采用逐步回归法消除多重共线性。二、实验数据和实验内容66三、实验操作指导1.估计方程若要进行多重共线性的检验与修正,首先要建立基本的回归模型。按照第六章所讲述内容,建立回归模型的命令如下:usec:\data\lvyou.dta,clearregressYX1X2X3X4X5执行建立回归的命令,可以得到如图7.7所示的回归结果,通过判断发现:整个模型的拟合优度较高,但是变量X1和X5未通过t检验,且X5的系数为负,与常理违背,因为在通常情况下,随着铁路里程的增加,交通更加方便,所以旅游收入应该增加。综上所述,可以初步认为该模型存在多重共线性。三、实验操作指导672.多重共线性检验多重共线性的检验通常采取两种方法,一种是计算膨胀因子,一种是计算变量之间的相关系数,下面将会详细介绍。(1)计算膨胀因子的命令为:estatvif[,uncentered]在这个命令语句中,estatvif是计算膨胀因子的命令语句,uncentered选项通常使用在没有常数项的模型中。在本实验中,在回归之后输入此命令,就可得到如图7.8所示的膨胀因子数值。结果显示该模型的膨胀因子的平均值为14.50,远远大于经验值2,膨胀因子最大值为20.06,远远大于经验值10,所以可以认为该模型存在严重的多重共线性。2.多重共线性检验68(2)计算相关系数的命令语句为:pwcorr[varlist][if][in][weight][,pwcorr_options]在这个命令语句中,pwcorr是计算相关系数的命令,varlist为将要计算相关系数的变量,if为条件语句,in为范围语句,weight为权重语句,options选项如表7.1所示。(2)计算相关系数的命令语句为:69在本实验中,可以通过计算变量X1、X2、X3、X4和X5之间的相关系数来判断模型是否存在多重共线性,所使用的命令为:pwcorrX1X2X3X4X5这个命令语句显示的相关系数矩阵如图7.9所示,通过观察可以得到解释变量X1与X2、X4、X5之间,X2与X3、X4、X5之间,以及X4与X5之间的相关系数非常高,因此可以认为解释变量之间存在较为严重的多重共线性。在本实验中,可以通过计算变量X1、X2、X3、X4和X5之间703.逐步回归法(1)手动逐步回归法逐步回顾法的第一步是要分别拟合Y对每一个变量的回归方程,从中选出拟合优度最高的方程作为基础方程。这个操作所使用到的命令为:regressYX1regressYX2regressYX3regressYX4regressYX5经过这步操作,可以得到如表7.2所示的回归结果,为了便于观察,表7.2是根据Stata输出结果整理而成的。表7.2内容显示,拟合优度的大小排列顺序为X2>X5>X1>X4>X3,所以这时应将X2作为基础解释变量,然后将X5、X1、X4、X3分别加入回归方程,进行逐步回归。3.逐步回归法71首先,将X5加入方程进行回归,这时输入的命令为:regressYX2X5结果如图7.10所示,通过观察发现,X5的系数的p值为0.658,没有通过检验,所以删除解释变量X5。接下来,将X1加入基本方程进行回归,得到如图7.11所示的回归结果,结果显示X1系数的p值为0.068,没有通过检验,所以删除。下面,将X4加入基本方程进行回归,图7.12显示所有系数都通过了检验,所以基本方程得以扩展为X2和X4两个解释变量。最后,将解释变量X3加入,以X2、X4、X3作为解释变量进行回归,这时得到最终结果如图7.13所示,所有变量都通过了检验。首先,将X5加入方程进行回归,这时输入的命令为:72(2)自动逐步回归法上述方法对于解释变量较多的计量模型并不适用,所以Stata提供了直接进行分步回归的命令,命令格式为:stepwise[,options]:command在这个命令语句中,stepwise是进行逐步回归的命令,command为进行回归分析或建立其他模型的命令,options选项显示在表7.3中。(2)自动逐步回归法73在运用stepwise命令时,需要特别注意的是搜寻的方法和顺序,具体内容如表7.4所示。表7.4较为详细地叙述了每种方法的内在含义和实际操作方法,所以用户使用该命令时应根据研究需要进行选择,或者通过几种方法结果的对比确定最终的模型。在运用stepwise命令时,需要特别注意的是搜寻的方法和顺74Stata与模型的设定课件75例如,利用这种逐步回归的方法重复旅游业分析的建模过程中,如果采用前向搜寻法,需要输入如下命令:stepwise,pe(0.05):regressYX1X2X3X4X5在这个命令语句中,stepwise是进行逐步回归的命令语句,pe(0.05)是运用显著性水平为5%的前向搜寻法,regressYX1X2X3X4X5则是指明要建立回归模型。由于前向搜寻法和手动逐步回归的计算方法一致,所以得到如图7.14所示的结果与图7.13所示的结果基本一致。但是如果使用其他方法则会得出不同的结果,所以用户应当根据自身研究的需要进行慎重的选择。例如,利用这种逐步回归的方法重复旅游业分析的建模过程中,如果76实验7-4极端数据的诊断与处理一、实验基本原理实验7-4极端数据的诊断与处理一、实验基本原理77二、实验数据和实验内容根据统计资料得到了美国汽车产业的横截面数据(1978年),变量主要包括:price=汽车的价格,mpg=每加仑油所行驶的英里数,weight=汽车的重量,foreign表示是否是进口车,如果foreign=0代表是国产车,如果foreign=1代表是进口车。完整的数据在本书附带光盘的data文件夹的“usaauto.dta”工作文件中。利用usaauto数据,以price为因变量,mpg、weight和foreign为自变量建立回归模型,找出样本数据中存在的极端数据。二、实验数据和实验内容78三、实验操作指导进行极端数据的检验通常用到的是一组命令,这组命令显示如下:regressyx1x2
……predictlev,leveragegsort–levsumlevlistin1/i在这组命令语句中,第一个命令语句的作用是以y为因变量,x1、x2
……为自变量建立回归分析;第二个命令语句的作用是计算出所有观测数据的lev值;第三个命令语句的作用是将lev值降序排列;第四个命令语句的作用是计算出lev值的极值与平均值,从而便于比较;第五个命令语句的作用是从大到小列出lev值第1到第i个观测值,以便处理。三、实验操作指导79例如,在美国汽车数据分析中,建立如下回归模型之后,分析一下是否存在极端值所使用到的命令为:regresspricempgweightforeignpredictlev,leveragegsort–levsumlevlistin1/3这组命令的详细含义已做介绍,这里不再赘述,其功能简言之就是建立回归模型之后,计算lev值,并将由大到小前3位的数据显示出来,执行结果如图7.15所示。在结果中可以看到lev值的均值为0.0541,而最大的lev值为0.3001,所以该观测值有可能为极端数据,可以采取进一步方法进行处理,从而保证模型的精确性。处理的方法一般有两种,一种方法为直接去掉极端值,另一种方法为选择其他更为适合恰当的模型进行回归分析。例如,在美国汽车数据分析中,建立如下回归模型之后,80实验7-5虚拟变量的处理一、实验基本原理对于定性数据或分类数据而言,通常并不能将其直接纳入模型中进行回归分析,因为这样的分析并不符合经济学理论,所以这时需要引入虚拟变量进行处理。一般情况下,如果分类变量总共有M类,为了避免多重共线性的出现,通常只引入M-1个虚拟变量。下面将会通过一个简单的例子,来介绍一下引入虚拟变量后,模型的实际变化。实验7-5虚拟变量的处理一、实验基本原理81Stata与模型的设定课件82二、实验数据和实验内容根据统计资料得到了中国1978—2006年的消费数据,变量主要包括:year=年份,c=人均消费(单位:元),y=人均国民收入(单位:元),c_ratio=消费收入比。完整的数据在本书附带光盘的data文件夹的“consumption_china.dta”工作文件中。利用此数据,估计中国的消费函数,并引入虚拟变量,使得在1992年前后的模型截距和斜率都不相同。二、实验数据和实验内容83三、实验操作指导为了便于比较,首先生成整个时期中不含虚拟变量的消费函数方程,所使用到的命令为:regresscy得到如图7.16所示的回归结果,这个回归所形成的模型为c=188.588+0.3977y如果认为在1992年,南巡讲话导致了经济结构的变动,这时需要引入虚拟变量将模型分成两段进行回归,步骤如下:第一步,生成虚拟变量,所使用的命令为:generatedummy=0replacedummy=1ifyear>=1992在这组命令中,第一个命令的作用是生成虚拟变量dummy,使其值全部为0;第二个的命令的作用就是将1992年以后的dummy值替换为1,这时就完成了虚拟变量的设置。三、实验操作指导84第二步,生成虚拟变量dummy和解释变量y的互动项,所使用的命令为:generatedummy_y=dummy*y这个命令的作用就是生成互动项dummy_y,使其值为变量dummy和变量y的乘积。第三步,将虚拟变量纳入回归方程进行估计,所使用的命令为:regresscydummydummy_y执行结果如图7.17所示,这时得到的模型为:这个模型是为了讲解虚拟变量的实际使用方法,暂不考虑某些系数不能通过检验的情况。通过引入虚拟变量发现,模型的截距和斜率都发生了变化。在用户实际研究过程中,可以根据需要引入虚拟变量,进行变斜率、变截距以及二者相结合的模型变化。第二步,生成虚拟变量dummy和解释变量y的互动项,所使用的85实验7-6经济结构变动的Chow检验一、实验基本原理在时间序列模型之中,需要十分注重模型系数的稳定性,如果没有考虑到结构变动,将会造成较为严重的模型设定误差。Chow检验提供了一个较为严谨的检验经济结构变动的方法。例如,在时期t1和t2中,认为存在t3时刻为一个经济结构变动点,这时可以通过三个回归来确定该点是否是结构变动点。实验7-6经济结构变动的Chow检验一、实验基本原理86Stata与模型的设定课件87二、实验数据和实验内容根据统计资料得到了中国1978—2006年的消费数据,变量主要包括:year=年份,c=人均消费(单位:元),y=人均国民收入(单位:元
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国社区养老服务行业开拓第二增长曲线战略制定与实施研究报告
- 2025-2030年中国美甲行业并购重组扩张战略制定与实施研究报告
- 脂肪酶活检测原理及方法
- 服装品牌意向调查问卷
- 建设廉洁政治读书心得体会-总结报告模板
- 2024年游记作文300字
- 商品知识培训课件下载
- 打造高绩效团队培训课件2
- 年产7000吨铜、铝电磁线项目可行性研究报告模板-立项拿地
- 二零二五年度安全生产标准化体系完善与维护服务合同3篇
- 青岛版数学五年级下册第二单元《分数的意义和性质》教学评一致性的单元整体备课
- 清朝的八旗制度及其影响
- 拇外翻护理查房课件
- 2023年采购电子主管年度总结及下一年展望
- 高考语用必考点-理解词语的含义+课件
- 混凝土采购组织供应、运输、售后服务方案
- PDCA在静脉留置针规范管理中的应用
- (完整)中国象棋教案
- 热工自动化系统检修运行维护规程
- 颅内压增高病人的护理
- 装配式混凝土建筑构件识图-叠合板识读(装配式混凝土建筑)
评论
0/150
提交评论