Stata实验指导、统计分析与应用chap07

上传人：儿*** IP属地：广东上传时间：2023-01-13 格式：PPT 页数：47 大小：610.50KB 积分：20 举报 版权申诉

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第七章Stata与模型的设定1整理课件主要内容：1、遗漏变量的检验2、解释变量个数的选择3、多重共线性与逐步回归法4、极端数据的诊断与处理5、虚拟变量的处理6、经济结构变动的Chow检验2整理课件实验7-1遗漏变量的检验一、实验基本原理3整理课件二、实验数据和实验内容根据统计资料得到了美国工资的横截面数据，变量主要包括：wage=工资，educ=受教育年限，exper=工作经验年限，tenure=任职年限，lwage=工资的对数值。完整的数据在本书附带光盘的data文件夹的“wage1.dta”工作文件中。利用wage1的数据，分别利用Link方法和Ramsey方法检验模型是否遗漏了重要的解释变量。4整理课件三、实验操作指导1.使用Link方法检验遗漏变量Link方法进行检验的基本命令语句为：linktest[if][in][,cmd_options]在这个命令语句中，linktest是进行Link检验的基本命令，if是表示条件的命令语句，in是范围语句，cmd_options表示Link检验的选项应该与所使用的估计方法的选项一致，例如检验之前使用的回归regress命令，则此处的选项应与regress的选项一致。5整理课件例如，利用wage1的数据，检验模型是否遗漏了重要的解释变量，应该输入以下命令：usec:\data\wage1.dta,clearreglwageeducexpertenurelinktest第一个命令表示打开数据文件wage1，第二个命令语句是对模型进行回归估计，第三个命令就是进行遗漏变量的Link检验，检验结果如图7.1所示。从第二个表格中，可以看到hatsq项的p值为0.018，拒绝了hatsq系数为零的假设，即说明被解释变量lwage的拟合值的平方项具有解释能力，所以可以得出结论原模型可能遗漏了重要的解释变量。6整理课件为了进一步验证添加重要变量是否会改变Link检验的结果，我们生成受教育年限educ和工作经验年限exper的平方项，重新进行回归并进行检验，这时输入的命令如下：geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2linktest第一个命令语句的作用是生成变量educ2，使其值为变量educ的平方；第二个命令语句的作用是生成变量exper2，使其值为变量exper的平方；第三个命令语句的作用是对进行回归估计;第四个命令就是进行遗漏变量的Link检验，检验结果如图7.2所示。7整理课件2.使用Ramsey方法检验遗漏变量Ramsey方法进行检验的基本命令语句为：estatovtest[,rhs]在这个命令语句中，estatovtest是进行Ramsey检验的命令语句，如果设定rhs，则在检验过程中使用解释变量，如果不设定rhs，则在检验中使用被解释变量的拟合值。例如，利用wage1的数据，使用Ramsey方法检验模型是否遗漏了重要的解释变量，应该输入以下命令：usec:\data\wage1.dta,clearreglwageeducexpertenureestatovtest8整理课件在这组命令语句中，第一个命令的功能是打开数据文件，第二个命令是对模型进行回归估计，第三个命令就是进行遗漏变量的Ramsey检验，检验结果如图7.3所示。在图7.3中，第一个图表仍然是回归结果，第二部分则是Ramsey检验的结果，不难发现Ramsey检验的原假设是模型不存在遗漏变量，检验的p值为0.0048，拒绝原假设，即认为原模型存在遗漏变量。9整理课件为了进一步验证添加重要变量是否会改变Ramsey检验的结果，我们采取Link检验中的方法，生成受教育年限educ和工作经验年限exper的平方项，重新进行回归并进行检验，这时输入的命令如下：geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatovtest这里不再赘述这些命令语句的含义，调整之后的检验结果如图7.4所示，可以发现此时检验的p值为0.5404，无法拒绝原假设，即认为模型不再存在遗漏变量。10整理课件实验7-2解释变量个数的选择一、实验基本原理好的经济理论的标准通常是希望通过更为简洁的模型来更加精确地描述复杂的经济现象，但是这两个目标通常是矛盾的，因为通过增加解释变量的个数可以提高模型的精确程度，但是同时也牺牲了模型的简洁性。因此，在现实的经济研究过程中，通常使用信息准则来确定解释变量的个数，较为常用的信息准则有两个：（1）赤池信息准则，又称为AIC准则，其基本思想是通过选择解释变量的个数，使得如下目标函数最小。11整理课件

在这个公式中，e代表残差序列，n代表样本数量，K代表解释变量的个数。通过这个目标函数可以看出，第一项是对拟合优度的奖励，即尽可能地使残差平方和变小，第二项是对解释变量个数增多的惩罚，因为目标函数是解释变量个数的增函数。（2）贝叶斯信息准则，又称为BIC准则，其基本思想是通过选择解释变量的个数，使得如下目标函数最小。在这个公式中，e代表残差序列，n代表样本数量，K代表解释变量的个数。通过这个目标函数可以看出，BIC准则与AIC准则的唯一区别就是K的权重不同，一般来说ln(n)>2，所以BIC更加注重模型的简洁性。12整理课件二、实验数据和实验内容：根据统计资料得到了美国工资的横截面数据，变量主要包括：wage=工资，educ=受教育年限，exper=工作经验年限，tenure=任职年限，lwage=工资的对数值。完整的数据在本书附带光盘的data文件夹的“wage1.dta”工作文件中。利用wage1的数据，来确定以下两个模型：模型和模型哪个更为合理（其中educ2和exper2分别为educ和exper的平方项）。13整理课件三、实验操作指导使用信息准则，对模型进行检验的命令如下：estatic[,n(#)]在这个命令语句中，estatic是进行检验的命令语句，选项n(#)的功能是指定BIC准则中的n值，一般使用默认值。例如，利用wage1的数据，获得模型的AIC和BIC值，应该输入以下命令：usec:\data\wage1.dta,clearreglwageeducexpertenureestatic第一个命令表示打开数据文件wage1，第二个命令语句是对模型进行回归估计，第三个命令就是进行信息准则值的计算，计算结果如图7.5所示，AIC值为635.10，BIC值为652.16。14整理课件为了对比分析，我们仍然采取Link检验中的方法，生成受教育年限educ和工作经验年限exper的平方项，建立新的模型重新对其进行回归并计算，这时输入的命令如下：geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatic这里不再赘述这些命令语句的含义，调整之后的计算结果如图7.6所示，可以发现此时计算的AIC值为583.66，BIC值为609.25。通过这两个模型信息准则值的对比分析，可以得出结论，第二个模型的信息准则值更小，所以此模型优于第一个模型。15整理课件实验7-3多重共线性与逐步回归法一、实验基本原理多重共线性问题在多元线性回归分析中是很常见的，其导致的直接后果是方程回归系数估计的标准误差变大，系数估计值的精度降低等。多重共线性的问题对于Stata软件来说并不显著，因为Stata会自动剔除完全的多重共线性，但是出于知识的完整性，这里还是介绍一下Stata对于多重共线性的识别和处理方法。多重共线性的诊断方法主要有：（1）直观上说：当模型的拟合优度非常高且通过F检验，但多数解释变量都不显著，甚至解释变量系数符号相反时，可能存在多重共线性。（2）对由解释变量所组成的序列组进行相关分析时，如果有些变量之间的相关系数很高，则也反映出可能存在多重共线性。（3）使用命令estatvif，对膨胀因子进行计算，经验上当VIF的均值>=2且VIF的最大值接近或者超过10时，通常认为有较为严重的多重共线性。16整理课件当确认模型存在多重共线性时，通常有两种解决方法消除其影响：一种是收集更多的数据，增大样本容量；另一种是通过逐步回归，改进模型的形式。在现实研究过程中，增大样本容量的操作不易执行，所以逐步回归法应用更为广泛。逐步回归法的基本原理是：先分别拟合被解释变量对于每一个解释变量的一元回归，并将各回归方程的拟合优度按照大小顺序排列，然后将拟合优度最大的解释变量作为基础变量，然后逐渐将其他解释变量加入模型中并同时观测t检验值的变化，如果t检验显著则保留该变量，否则去除，不断重复此过程直到加入所有显著的解释变量。17整理课件二、实验数据和实验内容根据统计资料得到了某市旅游业的相关数据，变量主要包括：Y=旅游收入（单位：万元），X1=某市旅游人数（单位：人），X2=城镇居民人均旅游支出（单位：元），X3=农村居民人均旅游支出（单位：元），X4=公路里程（单位：公里），X5=铁路里程（单位：公里）。完整的数据在本书附带光盘的data文件夹的“lvyou.dta”工作文件中。利用lvyou数据估计方程，判断是否存在多重共线性，若存在，采用逐步回归法消除多重共线性。18整理课件三、实验操作指导1.估计方程若要进行多重共线性的检验与修正，首先要建立基本的回归模型。按照第六章所讲述内容，建立回归模型的命令如下：usec:\data\lvyou.dta,clearregressYX1X2X3X4X5执行建立回归的命令，可以得到如图7.7所示的回归结果，通过判断发现：整个模型的拟合优度较高，但是变量X1和X5未通过t检验，且X5的系数为负，与常理违背，因为在通常情况下，随着铁路里程的增加，交通更加方便，所以旅游收入应该增加。综上所述，可以初步认为该模型存在多重共线性。19整理课件2.多重共线性检验多重共线性的检验通常采取两种方法，一种是计算膨胀因子，一种是计算变量之间的相关系数，下面将会详细介绍。（1）计算膨胀因子的命令为：estatvif[,uncentered]在这个命令语句中，estatvif是计算膨胀因子的命令语句，uncentered选项通常使用在没有常数项的模型中。在本实验中，在回归之后输入此命令，就可得到如图7.8所示的膨胀因子数值。结果显示该模型的膨胀因子的平均值为14.50，远远大于经验值2，膨胀因子最大值为20.06，远远大于经验值10，所以可以认为该模型存在严重的多重共线性。20整理课件（2）计算相关系数的命令语句为：pwcorr[varlist][if][in][weight][,pwcorr_options]在这个命令语句中，pwcorr是计算相关系数的命令，varlist为将要计算相关系数的变量，if为条件语句，in为范围语句，weight为权重语句，options选项如表7.1所示。21整理课件在本实验中，可以通过计算变量X1、X2、X3、X4和X5之间的相关系数来判断模型是否存在多重共线性，所使用的命令为：pwcorrX1X2X3X4X5这个命令语句显示的相关系数矩阵如图7.9所示，通过观察可以得到解释变量X1与X2、X4、X5之间，X2与X3、X4、X5之间，以及X4与X5之间的相关系数非常高，因此可以认为解释变量之间存在较为严重的多重共线性。22整理课件3.逐步回归法（1）手动逐步回归法逐步回顾法的第一步是要分别拟合Y对每一个变量的回归方程，从中选出拟合优度最高的方程作为基础方程。这个操作所使用到的命令为：regressYX1regressYX2regressYX3regressYX4regressYX5经过这步操作，可以得到如表7.2所示的回归结果，为了便于观察，表7.2是根据Stata输出结果整理而成的。表7.2内容显示，拟合优度的大小排列顺序为X2>X5>X1>X4>X3，所以这时应将X2作为基础解释变量，然后将X5、X1、X4、X3分别加入回归方程，进行逐步回归。23整理课件首先，将X5加入方程进行回归，这时输入的命令为：regressYX2X5结果如图7.10所示，通过观察发现，X5的系数的p值为0.658，没有通过检验，所以删除解释变量X5。接下来，将X1加入基本方程进行回归，得到如图7.11所示的回归结果，结果显示X1系数的p值为0.068，没有通过检验，所以删除。下面，将X4加入基本方程进行回归，图7.12显示所有系数都通过了检验，所以基本方程得以扩展为X2和X4两个解释变量。最后，将解释变量X3加入，以X2、X4、X3作为解释变量进行回归，这时得到最终结果如图7.13所示，所有变量都通过了检验。24整理课件（2）自动逐步回归法上述方法对于解释变量较多的计量模型并不适用，所以Stata提供了直接进行分步回归的命令，命令格式为：stepwise[,options]:command在这个命令语句中，stepwise是进行逐步回归的命令，command为进行回归分析或建立其他模型的命令，options选项显示在表7.3中。25整理课件在运用stepwise命令时，需要特别注意的是搜寻的方法和顺序，具体内容如表7.4所示。表7.4较为详细地叙述了每种方法的内在含义和实际操作方法，所以用户使用该命令时应根据研究需要进行选择，或者通过几种方法结果的对比确定最终的模型。26整理课件27整理课件例如，利用这种逐步回归的方法重复旅游业分析的建模过程中，如果采用前向搜寻法，需要输入如下命令：stepwise,pe(0.05):regressYX1X2X3X4X5在这个命令语句中，stepwise是进行逐步回归的命令语句，pe(0.05)是运用显著性水平为5%的前向搜寻法，regressYX1X2X3X4X5则是指明要建立回归模型。由于前向搜寻法和手动逐步回归的计算方法一致，所以得到如图7.14所示的结果与图7.13所示的结果基本一致。但是如果使用其他方法则会得出不同的结果，所以用户应当根据自身研究的需要进行慎重的选择。28整理课件实验7-4极端数据的诊断与处理一、实验基本原理29整理课件二、实验数据和实验内容根据统计资料得到了美国汽车产业的横截面数据(1978年)，变量主要包括：price=汽车的价格，mpg=每加仑油所行驶的英里数，weight=汽车的重量，foreign表示是否是进口车，如果foreign=0代表是国产车，如果foreign=1代表是进口车。完整的数据在本书附带光盘的data文件夹的“usaauto.dta”工作文件中。利用usaauto数据，以price为因变量，mpg、weight和foreign为自变量建立回归模型，找出样本数据中存在的极端数据。30整理课件三、实验操作指导进行极端数据的检验通常用到的是一组命令，这组命令显示如下：regressyx1x2

……predictlev,leveragegsort–levsumlevlistin1/i在这组命令语句中，第一个命令语句的作用是以y为因变量，x1、x2

……为自变量建立回归分析；第二个命令语句的作用是计算出所有观测数据的lev值；第三个命令语句的作用是将lev值降序排列；第四个命令语句的作用是计算出lev值的极值与平均值，从而便于比较；第五个命令语句的作用是从大到小列出lev值第1到第i个观测值，以便处理。31整理课件例如，在美国汽车数据分析中，建立如下回归模型之后，分析一下是否存在极端值所使用到的命令为：regresspricempgweightforeignpredictlev,leveragegsort–levsumlevlistin1/3这组命令的详细含义已做介绍，这里不再赘述，其功能简言之就是建立回归模型之后，计算lev值，并将由大到小前3位的数据显示出来，执行结果如图7.15所示。在结果中可以看到lev值的均值为0.0541，而最大的lev值为0.3001，所以该观测值有可能为极端数据，可以采取进一步方法进行处理，从而保证模型的精确性。处理的方法一般有两种，一种方法为直接去掉极端值，另一种方法为选择其他更为适合恰当的模型进行回归分析。32整理课件实验7-5虚拟变量的处理一、实验基本原理对于定性数据或分类数据而言，通常并不能将其直接纳入模型中进行回归分析，因为这样的分析并不符合经济学理论，所以这时需要引入虚拟变量进行处理。一般情况下，如果分类变量总共有M类，为了避免多重共线性的出现，通常只引入M-1个虚拟变量。下面将会通过一个简单的例子，来介绍一下引入虚拟变量后，模型的实际变化。33整理课件34整理课件二、实验数据和实验内容根据统计资料得到了中国1978—2006年的消费数据，变量主要包括：year=年份，c=人均消费（单位：元），y=人均国民收入（单位：元），c_ratio=消费收入比。完整的数据在本书附带光盘的data文件夹的“consumption_china.dta”工作文件中。利用此数据，估计中国的消费函数，并引入虚拟变量，使得在1992年前后的模型截距和斜率都不相同。35整理课件三、实验操作指导为了便于比较，首先生成整个时期中不含虚拟变量的消费函数方程，所使用到的命令为：regresscy得到如图7.16所示的回归结果，这个回归所形成的模型为c=188.588+0.3977y如果认为在1992年，南巡讲话导致了经济结构的变动，这时需要引入虚拟变量将模型分成两段进行回归，步骤如下：第一步，生成虚拟变量，所使用的命令为：generatedummy=0replacedummy=1ifyear>=1992在这组命令中，第一个命令的作用是生成虚拟变量dummy，使其值全部为0；第二个的命令的作用就是将1992年以后的dummy值替换为1，这时就完成了虚拟变量的设置。36整理课件第二步，生成虚拟变量dummy和解释变量y的互动项，所使用的命令为：generatedummy_y=dummy*y这个命令的作用就是生成互动项dummy_y，使其值为变量dummy和变量y的乘积。第三步，将虚拟变量纳入回归方程进行估计，所使用的命令为：regresscydummydummy_y执行结果如图7.17所示，这时得到的模型为：这个模型是为了讲解虚拟变量的实际使用方法，暂不考虑某些系数不能通过检验的情况。通过引入虚拟变量发现，模型的截距和斜率都发生了变化。在用户实际研究过程中，可以根据需要引入虚拟变量，进行变斜率、变截距以及二者相结合的模型变化。37整理课件实验7-6经济结构变动的Chow检验一、实验基本原理在时间序列模型之中，需要十分注重模型系数的稳定性，如果没有考虑到结构变动，将会造成较为严重的模型设定误差。Chow检验提供了一个较为严谨的检验经济结构变动的方法。例如，在时期t1和t2中，认为存在t3时刻为一个经济结构变动点，这时可以通过三个回归来确定该点是否是结构变动点。38整理课件39整理课件二、实验数据和实验内容根据统计资料得到了中国1978—2006年的消费数据，变量主要包括：year=年份，c=人均消费（单位：元），y=人均国民收入（单位：元），c_ratio=消费收入比。完整的数据在本书附带光盘的data文件夹的“consumption_china.dta”工作文件中。利用此数据，估计中国的消费函数，并检验中国的消费函数是否在1992年邓小平“南巡”以后（含1992年）发生了结构变化。40整理课件三、实验操作指导1.手动法进行Chow检验了解了Chow检验的基本原理之后，就可以进行检验了，检验的方法就是分别进行三次回归，下面将会以中国消费函数为例详细介绍整个操作过程，检验中国的消费函数是否在1992年以后发生了结构变化：（1）首先生成整个时期的回归方程，然后计算出这时的残差平方和，这时需要输入的命令为：regresscypredicte,residualgena=e^2egenb=sum(a)第一个命令的作用是生成消费函数第二个命令的作用是生成残差序列；第三个命令的作用是生成序列a，使其值为残差平方；第四个命令的作用是生成变量b，使其值为序列a的和，即残差平方和，也就是实验原理中所指的41整理课件（2）其次生成1992年以前序列的回归方程，然后计算出这前半段时期的残差平方和，这时需要输入的命令为：regresscyifyear<1992predicte1ifyear<1992,residualgena1=e1^2egenb1=sum(a1)第一个命令的作用是生成1992年之前的消费函数第二个命令的作用是生成残差序列e1；第三个命令的作用是生成序列a1，使其值为残差平方；第四个命令的作用是生成变量b1，使其值为序列a1的和，即残差平方和，也就是实验原理中所指的42整理课件（3）生成1992年以后序列的回归方程，然后计算出这后半段时期的残差平方和，这时需要输入的命令为：regresscyifyear>=1992predicte2ifyear>=1992,residualgena2=e2^2egenb2=sum(a2)第一个命令的作用是生成1992年之后的消费函数第二个命令的作用是生成残差序列e2；第三个命令的作用是生成序列a2，使其值为残差平方；第四个命令的作用是生成变量b2，使其值为序列a2的和，即残差平方和，也就是实验原理中所指的43整理课件（4）最后计算F统计量的值，并与临界值作比较，这时需要输入的命令为：genf=((b-b1-b2)/(2))/((b1

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Stata实验指导、统计分析与应用chap07

文档简介

温馨提示

最新文档

评论

Stata实验指导、统计分析与应用chap07

文档简介

温馨提示

最新文档

评论

相关文档