第五章 误设定_第1页
第五章 误设定_第2页
第五章 误设定_第3页
第五章 误设定_第4页
第五章 误设定_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章第五章 设定检验与模型选择设定检验与模型选择本章内容本章内容第一节第一节 模型误设定:类型及后果模型误设定:类型及后果第二节第二节 误设定的检验误设定的检验第三节第三节 模型选择模型选择 前面有关章节介绍了经典线性模型的建立、前面有关章节介绍了经典线性模型的建立、参数估计方法、假设检验以及对于违背经典假参数估计方法、假设检验以及对于违背经典假设情况的技术处理方法等内容,在实际建模的设情况的技术处理方法等内容,在实际建模的过程中,我们还将遇到解释变量筛选与模型选过程中,我们还将遇到解释变量筛选与模型选择等方面问题,本章将具体介绍模型误设定检择等方面问题,本章将具体介绍模型误设定检验方法、解

2、释变量的筛选原则以及备选模型间验方法、解释变量的筛选原则以及备选模型间的选择标准。的选择标准。 第一节第一节 模型误设定:类型及后果模型误设定:类型及后果 采用采用OLS法估计模型时,实际上有一个隐含法估计模型时,实际上有一个隐含的假设,即模型是正确设定的。这包括两方面的的假设,即模型是正确设定的。这包括两方面的含义:函数形式正确和解释变量选择正确。含义:函数形式正确和解释变量选择正确。在实在实践中,这样一个假设或许从来也不现实。践中,这样一个假设或许从来也不现实。我们可我们可能犯下列三个方面的错误:能犯下列三个方面的错误: 选择错误的函数形式选择错误的函数形式遗漏有关的解释变量遗漏有关的解释

3、变量包括无关的解释变量包括无关的解释变量从而造成所谓的从而造成所谓的“误设定误设定”问题,误设定问题,误设定(misspecification)亦称设定误差()亦称设定误差(specification error)。)。 这类错误中比较常见的是将非线性关系作为线这类错误中比较常见的是将非线性关系作为线性关系处理。函数形式选择错误,所建立的模型当性关系处理。函数形式选择错误,所建立的模型当然无法反映所研究现象的实际情况,后果是显而易然无法反映所研究现象的实际情况,后果是显而易见的。因此,我们应当根据实际问题,选择正确的见的。因此,我们应当根据实际问题,选择正确的函数形式。函数形式。 一、选择错误

4、的函数形式一、选择错误的函数形式 选择正确的函数形式是计量经济学家的任务,选择正确的函数形式是计量经济学家的任务,这是因为,经济理论通常不会告诉我们因变量和解这是因为,经济理论通常不会告诉我们因变量和解释变量之间的具体函数形式是什么。解决这个问题,释变量之间的具体函数形式是什么。解决这个问题,很大程度上要靠计量经济工作者在实践中不断摸索。很大程度上要靠计量经济工作者在实践中不断摸索。下面介绍几种比较常见的函数形式的模型:下面介绍几种比较常见的函数形式的模型: 半对数模型半对数模型 双曲函数模型双曲函数模型 多项式回归模型多项式回归模型1. 半对数模型半对数模型 半对数模型指的是因变量和解释变量

5、中一个为半对数模型指的是因变量和解释变量中一个为对数形式而另一个为线性的模型。因变量为对数形对数形式而另一个为线性的模型。因变量为对数形式的称为式的称为对数对数-线性模型线性模型(log-lin model)。解释变量。解释变量为对数形式的称为为对数形式的称为线性线性-对数模型对数模型(lin-log model)。 我们先介绍前者,其形式如下:我们先介绍前者,其形式如下: 对数对数-线性模型中,斜率的含义是线性模型中,斜率的含义是Y的百的百分比变动,即解释变量分比变动,即解释变量X变动一个单位引起变动一个单位引起的因变量的因变量Y的百分比变动。这是因为,利用的百分比变动。这是因为,利用微分可

6、以得出:微分可以得出:tttuXY10ln) 1(1ln1dXYdYdXdYYdXYd 这表明,斜率度量的是这表明,斜率度量的是解释变量解释变量X的单位变动的单位变动所引起的因变量所引起的因变量Y的相对变动的相对变动。将此相对变动乘以。将此相对变动乘以100,就得到,就得到Y的百分比变动,或者说得到的百分比变动,或者说得到Y的增长的增长率。由于对数率。由于对数-线性模型中斜率系数的这一含义,线性模型中斜率系数的这一含义,因而也叫增长模型因而也叫增长模型 (growth model)。增长模型通常。增长模型通常用于测度所关心的经济变量(如用于测度所关心的经济变量(如GDP)的增长率。)的增长率。

7、例如,我们可以通过估计下面的半对数模型例如,我们可以通过估计下面的半对数模型 得到一国得到一国GDP的年增长率的估计值,这里的年增长率的估计值,这里t为时间为时间趋势变量。趋势变量。ttutGDP10)ln(案例案例5.1 测算测算1978-2010中国国内生产总值的增长率中国国内生产总值的增长率名义值名义值不变价不变价t t名义值名义值不变价不变价t t197819783645.2173645.2173645.2173645.2171 11994199448197.8648197.8616480.3316480.331717197919794062.5794062.5793921.26439

8、21.2642 21995199560793.7360793.7318280.818280.81818198019804545.6244545.6244228.7484228.7483 31996199671176.5971176.5920110.4420110.441919198119814891.5614891.5614472.2764472.2764 41997199778973.0378973.0321980.1121980.112020198219825323.3515323.3514877.3244877.3245 51998199884402.2884402.2823701.89

9、23701.892121198319835962.6525962.6525406.6595406.6596 61999199989677.0589677.0525507.9425507.942222198419847208.0527208.0526227.1756227.1757 72000200099214.5599214.5527658.5827658.582323198519859016.0379016.0377065.7387065.7388 820012001109655.2109655.229954.3329954.3324241986198610275.1810275.18769

10、0.87690.89 920022002120332.7120332.732674.8132674.8125251987198712058.6212058.628581.6458581.645101020032003135822.8135822.835950.5835950.5826261988198815042.8215042.829549.7059549.705111120042004159878.3159878.339576.2139576.2127271989198916992.3216992.329937.7299937.729121220052005184937.4184937.4

11、44052.2944052.2928281990199018667.8218667.8210319.2410319.24131320062006216314.4216314.449636.649636.629291991199121781.521781.511194.0611194.06141420072007265810.3265810.356666.3356666.3330301992199226923.4826923.4812788.1812788.18151520082008314045.4314045.462125.9462125.9431311993199335333.923533

12、3.9214573.9614573.96161620092009340902.8340902.867530.967530.932322010201040326040326074013.8774013.8733330100,000200,000300,000400,000500,0001980198519901995200020052010GDP名义值名义值)66.61()32.164(:99. 0153. 094. 7lg2tRtpd010,00020,00030,00040,00050,00060,00070,00080,0001980198519901995200020052010GDPR

13、不变值不变值)11.144()82.629(:998. 0095. 0068. 8lg2tRtpd案例案例5.2 19492003年的中国人口增长率年的中国人口增长率)15.56)(29.1131(:983. 0t2R0.01685t 10.924 POLP 斜率斜率0.01685表示,平均而言,中国人口的年增长率为表示,平均而言,中国人口的年增长率为0.01685,即人口以每年,即人口以每年1.685的速度增长。的速度增长。 截距项截距项10.924可解释为:可解释为: 10.924log(Y0),即),即Y0 55475.68,可解释为可解释为1948年的人口数。年的人口数。线性线性-对数

14、模型的形式如下:对数模型的形式如下:tttuXYln10XdXdY11XdXdYdXdYX1XXYXY的相对变动的绝对变动1XXY1与前面类似,我们可用微分得到与前面类似,我们可用微分得到 上式可改写为上式可改写为这表明这表明 上式表明,上式表明,Y的绝对变动量等于的绝对变动量等于 乘以乘以X的相的相对变动量。对变动量。若将后者乘以若将后者乘以100,则上式给出了,则上式给出了X每每变动一个百分点所引起的变动一个百分点所引起的Y的变动量。的变动量。 因此因此, 线性线性-对数模型通常用于研究解释变量每对数模型通常用于研究解释变量每变动变动1%引起的因变量的绝对变动量是多少这类问引起的因变量的绝

15、对变动量是多少这类问题。题。12.双曲函数模型双曲函数模型 双曲函数模型的形式为双曲函数模型的形式为:tttuXY110 不难看出,这是一个仅存在变量非线性的模型,不难看出,这是一个仅存在变量非线性的模型,很容易用重新定义的方法将其线性化。很容易用重新定义的方法将其线性化。 双曲函数模型的特点是,当双曲函数模型的特点是,当X趋向无穷时,趋向无穷时,Y趋趋向向 ,反映到图上,就是当,反映到图上,就是当X趋向无穷时,趋向无穷时,Y将无将无限靠近其渐近线(限靠近其渐近线(Y= )。)。 双曲函数模型通常用于描述著名的双曲函数模型通常用于描述著名的恩格尔曲线和恩格尔曲线和菲利普斯曲线菲利普斯曲线。00

16、 多项式回归模型通常用于描述多项式回归模型通常用于描述生产成本函数生产成本函数,其,其一般形式为:一般形式为: 其中其中Y表示总成本,表示总成本,X表示产出,表示产出,p为多项式的阶为多项式的阶数,一般不超过四阶。数,一般不超过四阶。 多项式回归模型中,解释变量多项式回归模型中,解释变量X以以不同幂次不同幂次出现出现在方程的右端。这类模型也仅存在变量非线性,因在方程的右端。这类模型也仅存在变量非线性,因而很容易线性化,可用而很容易线性化,可用OLS法估计模型。法估计模型。3. 多项式回归模型多项式回归模型2012.piiiPiiYXXXu 例例5.1 总成本函数 假设存在如下假想数据来描述某种

17、成本-产出关系,见表5-1。用这些数据,我们来说明多项式模型。表表5-1 成本成本-产出数据产出数据产出产出x12345678910总成本总成本Y($) 193193193193193193193193193193 从下面的散点图可以看出二者是非线性关系,因从下面的散点图可以看出二者是非线性关系,因此试用多项式模型进行线性回归。此试用多项式模型进行线性回归。图图 5-1 成本成本-产出数据散点图产出数据散点图 回归结果如下(括号中数字为回归结果如下(括号中数字为t值):值):从估计结果可以看出,模型的决定系数为从估计结果可以看出,模型的决定系数为0.998,拟合很好,所有参,拟合很好,所有参数

18、都显著。可见,采用三次多项式模型比较理想,拟合效果见下图:数都显著。可见,采用三次多项式模型比较理想,拟合效果见下图:图图 5-2 三次多项式模型拟合效果三次多项式模型拟合效果 232141.7763.4812.960.940.99822.2413.2813.1515.90iiiiYXXXR() ()() ()二、二、 模型中遗漏有关的解释变量模型中遗漏有关的解释变量 模型中遗漏了对因变量有显著影响的解释变量模型中遗漏了对因变量有显著影响的解释变量的后果是:将使模型参数估计量不再是无偏估计量的后果是:将使模型参数估计量不再是无偏估计量。下面用一个简单例子说明。下面用一个简单例子说明。设正确模型

19、为:设正确模型为: (5-9)而实际估计的模型是:而实际估计的模型是: (5-10)也就是说,我们忽略了也就是说,我们忽略了X2 ,而,而X2是一个对是一个对Y有影响的重要有影响的重要变量。变量。 估计(估计(5-10)式,可得:)式,可得: (5-11)而由(而由(5-9)有:)有: (5-12)uXXY22110011YXv211111)()(XXYYXX)()()(222111uuXXXXYY (5-12)代入()代入(5-11),得:),得:21111211221121211222111111)()()()( )()()()()()(XXuuXXXXXXXXXXuuXXXXXX取期望值

20、,得:取期望值,得: 211112112211211)()()()()( )()(XXuuEXXXXXXXXEE 上式中右边第三项等于上式中右边第三项等于0,而第二项方括号中内,而第二项方括号中内容可以看作是回归方程中斜率系数容可以看作是回归方程中斜率系数 的估计量,可的估计量,可以预期,以预期,X1和和X2之间存在一定程度的相关,从而之间存在一定程度的相关,从而第二项不等于第二项不等于0,故:,故: 事实上,可以证明:事实上,可以证明: (5-13) 11)(E112()=+E 同样道理,可以证明同样道理,可以证明 ,因此,因此,如果遗漏变量与模型中的变量相关,则如果遗漏变量与模型中的变量相

21、关,则 和和 都都是真实参数的有偏估计量,还可以进一步证明是真实参数的有偏估计量,还可以进一步证明 和和 都是不一致的,即无论样本容量有多大,偏差都不都是不一致的,即无论样本容量有多大,偏差都不会消失。同时,根据式会消失。同时,根据式5-10得到的误差方差是真实得到的误差方差是真实误差方差的有偏估计量,从而,的方差也是真实估误差方差的有偏估计量,从而,的方差也是真实估计量的方差的有偏估计量。因此,参数估计的置信计量的方差的有偏估计量。因此,参数估计的置信区间和假设检验过程都不再可靠。区间和假设检验过程都不再可靠。 结论:遗漏有关解释变量将使参数估计量有偏,可结论:遗漏有关解释变量将使参数估计量

22、有偏,可能产生非常严重的后果,因此,模型设定时必须格能产生非常严重的后果,因此,模型设定时必须格外谨慎。外谨慎。01321()EXX01例例5.2 进口支出函数进口支出函数 我们通过一个实例对上面讨论的模型中遗漏有关解释变量问我们通过一个实例对上面讨论的模型中遗漏有关解释变量问题做一说明。表题做一说明。表5-2给出了给出了19681987年间美国的进口支出年间美国的进口支出及个人可支配收入(及个人可支配收入(PDI)(税后收入)的数据。以)(税后收入)的数据。以1982年年的美元价为基准度量单位,以消除通货膨胀的影响。的美元价为基准度量单位,以消除通货膨胀的影响。表表5-2 U.S进口商品支出

23、(进口商品支出(Y)与个人可支配收入()与个人可支配收入(X),),19681987年份YX年份YX1968196919701971197219731974197519761977135.7144.6150.9166.2190.7218.2211.8187.9229.9259.41551.31599.81668.11728.41797.41916.31896.91931.72001.02066.61978197919801981198219831984198519861987274.1277.9253.6258.7249.5282.2351.1367.9412.3439.02167.42212

24、.62214.32248.62261.52331.92469.82542.82640.92686.3资料来源:经济计量学精要,达莫达尔 N. 古亚拉提著。单位为亿美元(1982年价) 凯恩斯消费函数理论表明:个人的消费支出与个人可支配凯恩斯消费函数理论表明:个人的消费支出与个人可支配收入正相关。由于对外国物品的消费是总消费支出的一部收入正相关。由于对外国物品的消费是总消费支出的一部分,因此,可以认为进口支出与个人可支配收入正相关。分,因此,可以认为进口支出与个人可支配收入正相关。模型的形式为:模型的形式为: 其中,其中,Y表示进口的消费支出,表示进口的消费支出,X表示个人可支配收入,表示个人可

25、支配收入,拟合表拟合表5-2给出的数据,得到如下回归结果(括号中数字给出的数据,得到如下回归结果(括号中数字为为t值):值): 现在,假定现在,假定“真实真实”的进口支出函数如下:的进口支出函数如下: 其中,其中,Y表示进口支出,表示进口支出, 为个人可支配收入(为个人可支配收入(PDI),是是时间或趋势变量,它代表人口、偏好和技术变动等其它影时间或趋势变量,它代表人口、偏好和技术变动等其它影响进口的因素,取值为响进口的因素,取值为1, 2, 20。12tttYXu2t2261.090.250.939( 8.33(16.57)tYXR )12233ttttYXXu2X 仍用表仍用表5-2的数据

26、,对加了时间趋势变量的式进行的数据,对加了时间趋势变量的式进行回归,结果如下:回归,结果如下: 注意两个回归结果的几个特点:注意两个回归结果的几个特点: (1)错误设定式表明:)错误设定式表明:PDI每增加一美元,平均每增加一美元,平均而言,用于进口商品上的支出将会增加而言,用于进口商品上的支出将会增加25美分;美分;也就是说,进口支出的边际倾向为也就是说,进口支出的边际倾向为25美分。而真美分。而真实模型表明:由于考虑到趋势变量的影响,因而,实模型表明:由于考虑到趋势变量的影响,因而,PDI每增加一美元,平均而言,用于进口商品的每增加一美元,平均而言,用于进口商品的支出将会增加大约支出将会增

27、加大约65美分。在这个例子中,错误美分。在这个例子中,错误设定方程低估了真实的边际进口支出倾向,也就设定方程低估了真实的边际进口支出倾向,也就是说,它有一个向下的偏差。是说,它有一个向下的偏差。 2t23859.920.6523.200.978( 7.68)(8.68)( 5.43)ttYXXR (2)截距也是有偏的,在这里它高估了真实的)截距也是有偏的,在这里它高估了真实的截距值(注意截距值(注意-261是大于是大于-859的)。的)。 (3)从两个模型中所估计的扰动项方差也明显)从两个模型中所估计的扰动项方差也明显不同,分别是不同,分别是184和和475。 (4)截距和斜率()截距和斜率(

28、 )的标准差也明显不同。)的标准差也明显不同。 所有的这些结果都与前面的讨论一致。如果根据所有的这些结果都与前面的讨论一致。如果根据错误设定的方程来进行假设检验的话,则得出的错误设定的方程来进行假设检验的话,则得出的结论是令人怀疑的。毫无疑问,从模型中略去相结论是令人怀疑的。毫无疑问,从模型中略去相关变量可能产生非常严重的后果。因此,在建立关变量可能产生非常严重的后果。因此,在建立模型时,必须小心谨慎。需要对研究现象中所蕴模型时,必须小心谨慎。需要对研究现象中所蕴含的经济理论作深入的了解,从而把相关的变量含的经济理论作深入的了解,从而把相关的变量都包括进模型中。都包括进模型中。2X三、三、 模

29、型中包括无关的解释变量模型中包括无关的解释变量模型中包括无关的解释变量,参数估计量仍无偏,但会增大模型中包括无关的解释变量,参数估计量仍无偏,但会增大估计量的方差,即增大误差。估计量的方差,即增大误差。我们同样用一个简单例子说明之。我们同样用一个简单例子说明之。 设正确模型为:设正确模型为: (5-19)而实际估计的模型是:而实际估计的模型是: (5-20) 也就是说,也就是说,X2 与与Y无关,因而应有无关,因而应有 。可以证明可以证明 ,即,即 是真实参数是真实参数 的无偏估计量。的无偏估计量。但是但是uXY11001122YXXv0211)(E1121121221)()1 ()(XXrV

30、ar21121)()(XXVar)1 ()()(21211rVarVar)()(11VarVar由于由于r12一般不等于一般不等于0,因此我们有:,因此我们有: 结论:模型中包括无关的解释变量,参数估计量结论:模型中包括无关的解释变量,参数估计量仍无偏,但会增大估计量的方差,即增大误差。估仍无偏,但会增大估计量的方差,即增大误差。估计参数的置信区间进而变宽,从而使得我们无法认计参数的置信区间进而变宽,从而使得我们无法认识到被解释变量与解释变量之间的显著关系。识到被解释变量与解释变量之间的显著关系。而:而:第二节第二节 误设定的检验误设定的检验 针对第一节介绍的各种误设定类型,本节给针对第一节介

31、绍的各种误设定类型,本节给出几种常用的检验方法。出几种常用的检验方法。 一、包含无关变量检验一、包含无关变量检验 二、遗漏重要变量检验二、遗漏重要变量检验 三、检验误设定的三、检验误设定的RESET方法方法 四、拉格朗日乘数(四、拉格朗日乘数(LM)检验)检验一、包含无关变量检验一、包含无关变量检验 对于模型中是否包含无关变量的情况,最直接的一对于模型中是否包含无关变量的情况,最直接的一个检验方法就是个检验方法就是t检验,即检验单个变量前系数估计检验,即检验单个变量前系数估计值的显著性。针对不能确定几个变量是否真的属于值的显著性。针对不能确定几个变量是否真的属于模型的情况,也可以使用第二章介绍

32、的若干个系数模型的情况,也可以使用第二章介绍的若干个系数联合显著性的联合显著性的F检验。检验。 需要特别注意的是,在许多个自变量中查找是否存需要特别注意的是,在许多个自变量中查找是否存在无关变量时,一定不能脱离模型的理论基础,不在无关变量时,一定不能脱离模型的理论基础,不要轻易将理论上很重要但未通过显著性检验的变量要轻易将理论上很重要但未通过显著性检验的变量删除。实际建模中经常会使用逐步回归的方法,即删除。实际建模中经常会使用逐步回归的方法,即从一个较小模型开始,逐步筛选可以进入模型的变从一个较小模型开始,逐步筛选可以进入模型的变量。量。 实践中我们可以使用逐步回归的思想以避免实践中我们可以使

33、用逐步回归的思想以避免无关变量进入模型,同时要结合所研究问题的重无关变量进入模型,同时要结合所研究问题的重点,最终目标是得到有理论支持的好模型:其所点,最终目标是得到有理论支持的好模型:其所有估计系数都具有有估计系数都具有“正确的正确的”符号、基于符号、基于t和和F检检验都是统计显著的、值足够高、验都是统计显著的、值足够高、DW统计量的值统计量的值可以接受等等。可以接受等等。二、遗漏重要变量检验二、遗漏重要变量检验考虑一个双变量线性回归模型考虑一个双变量线性回归模型假设要检验模型是否遗漏了一个解释变量,则要做的是估计下面的模型假设要检验模型是否遗漏了一个解释变量,则要做的是估计下面的模型并检验

34、并检验 是否为零。是否为零。另外一种做法是先估计原模型,得到残差另外一种做法是先估计原模型,得到残差et,然后将其对,然后将其对 和和 进进行回归,检验变量行回归,检验变量 前的系数是否为零。请注意是将残差对所有解释前的系数是否为零。请注意是将残差对所有解释变量进行回归估计,而并非仅仅针对疑似遗漏的变量。因为仅对疑似遗漏变量进行回归估计,而并非仅仅针对疑似遗漏的变量。因为仅对疑似遗漏变量估计得到的变量估计得到的 的系数估计量是非一致估计量(除非系数真实值为的系数估计量是非一致估计量(除非系数真实值为零),且其分布较复杂,使用最小二乘估计得到的标准误差不正确。零),且其分布较复杂,使用最小二乘估

35、计得到的标准误差不正确。uXY11001122YXX21X2X2X2X 此外,可以通过残差图的变化进行判定,如果模型遗漏了一此外,可以通过残差图的变化进行判定,如果模型遗漏了一个重要变量,残差图将会显示出较明显的变动趋势或不同的个重要变量,残差图将会显示出较明显的变动趋势或不同的形状。我们以第一节中提到的生产成本函数为例,假定真实形状。我们以第一节中提到的生产成本函数为例,假定真实的总成本函数可表示为的总成本函数可表示为 但研究者拟合为二次函数:但研究者拟合为二次函数: 而另一研究者则拟合为线性函数:而另一研究者则拟合为线性函数: 230123iiiiiYXXXu20122iiiiYXXu01

36、3iiiYXu例例5.3 不同多项式模型拟合效果的比较不同多项式模型拟合效果的比较 我们仍以例我们仍以例5.1的数据为例,考虑短期内某商品产出与其总的数据为例,考虑短期内某商品产出与其总生产成本的关系,对以上三个模型进行估计,得到回归结果生产成本的关系,对以上三个模型进行估计,得到回归结果如下(括号中数字为如下(括号中数字为t值):值):2166.47+19.930.8418.756.50 iiYXR()()22222.388.032.540.928(9.47) (0.82) (2.92) iiiYXXR回顾例回顾例5.1中对三次多项式模型的回归结果,如下:中对三次多项式模型的回归结果,如下:

37、232141.7763.4812.960.940.99822.2413.2813.1515.90iiiiYXXXR() ()() () 以上三个回归模型,决定系数依次提高,即表明模型越来越以上三个回归模型,决定系数依次提高,即表明模型越来越接近真实。下面从残差变动角度来看,三组残差图如下:接近真实。下面从残差变动角度来看,三组残差图如下: 从上图看出,在逐渐接近真实模型的过程中,随着残差绝对值的变小,从上图看出,在逐渐接近真实模型的过程中,随着残差绝对值的变小,残差变动呈现的周期趋势也逐渐消失。由此可见,利用对残差图的定性分残差变动呈现的周期趋势也逐渐消失。由此可见,利用对残差图的定性分析也可

38、对模型是否遗漏重要变量作出判断。析也可对模型是否遗漏重要变量作出判断。三、三、 检验误设定的检验误设定的RESET方法方法 RESET检验法的思路是在要检验的回归方程中加检验法的思路是在要检验的回归方程中加进进 等项作为解释变量,然后看结果是否有等项作为解释变量,然后看结果是否有显著改善。如有,则可判断原方程存在遗漏有关变显著改善。如有,则可判断原方程存在遗漏有关变量的问题或其它的误设定问题。量的问题或其它的误设定问题。 直观地看,这些添加的项是任何可能的遗漏变量直观地看,这些添加的项是任何可能的遗漏变量或错误的函数形式的替身,如果这些替身能够通过或错误的函数形式的替身,如果这些替身能够通过F

39、检验检验, 表明它们改善了原方程的拟合状况,则我们表明它们改善了原方程的拟合状况,则我们有理由说原方程存在误设定问题。有理由说原方程存在误设定问题。 等项形成多项式函数形式,多项式是一等项形成多项式函数形式,多项式是一种强有力的曲线拟合装置,因而如果存在误设定,种强有力的曲线拟合装置,因而如果存在误设定,则用这样一个装置可以很好地代表它们则用这样一个装置可以很好地代表它们。432,YYY和432,YYY和RESET检验法的步骤检验法的步骤 拉姆齐拉姆齐RESET检验的具体步骤是:检验的具体步骤是:(1) 用用OLS法估计要要检验的方程,得到法估计要要检验的方程,得到 (2) 由上一步得到的值由

40、上一步得到的值 (i=1,2,n),计算),计算 ,然后用然后用OLS法估计:法估计: (3) 用用F检验比较两个方程的拟合情况(类似于上一章中检验比较两个方程的拟合情况(类似于上一章中联合假设检验采用的方法),如果两方程总体拟合情况联合假设检验采用的方法),如果两方程总体拟合情况显著不同,则我们得出原方程可能存在误设定的结论。显著不同,则我们得出原方程可能存在误设定的结论。使用的检验统计量为:使用的检验统计量为: iiiXXY22110432,YYY和iYiiiiiiiuYYYXXY45342322110) 1/(/ )(knRSSMRSSRSSFM其中:其中:RSSM为第一步中回归(有约束

41、回归)的残差为第一步中回归(有约束回归)的残差平方和,平方和,RSS为第二步中回归(无约束回归)的残差为第二步中回归(无约束回归)的残差平方和,平方和,M为约束条件的个数,这里是为约束条件的个数,这里是M=3。 应该指出的是,应该指出的是,拉姆齐拉姆齐RESET检验仅能检验误设检验仅能检验误设定的存在,而不能告诉我们到底是哪一类的误设定定的存在,而不能告诉我们到底是哪一类的误设定,或者说,不能告诉我们正确的模型是什么。但该方法或者说,不能告诉我们正确的模型是什么。但该方法毕竟能给出模型误设定的信号,以便我们去进一步查毕竟能给出模型误设定的信号,以便我们去进一步查找问题。另一方面,如果模型设定正

42、确,找问题。另一方面,如果模型设定正确,RESET检验检验使我们能够排除误设定的存在,转而去查找其它方面使我们能够排除误设定的存在,转而去查找其它方面的问题。的问题。在在Eview中,回归出方程中,中,回归出方程中,reset检验的命令如下:检验的命令如下: ViewStability TestsRamsey RESET Test 例例5.4 误设定检验误设定检验在本例中,我们使用中国在本例中,我们使用中国19922009年城镇居民人年城镇居民人均食品消费和人均可支配收入的实际数据来估计凯恩均食品消费和人均可支配收入的实际数据来估计凯恩斯消费函数。斯消费函数。方程形式:方程形式: 其中:其中:

43、C代表食品消费,代表食品消费,Y代表收入。原始数据如下代表收入。原始数据如下表所示。表所示。tttCYu表表5-3 我国我国1992-2009年城镇居民人均食品消费和人均可支配收入年城镇居民人均食品消费和人均可支配收入 年份实际人均食品消费(元)实际人均可支配收入(元)1992883.652026.601993908.332219.961994926.422408.751995944.382526.331996942.542623.401997961.292713.471998987.912869.9819991037.283137.4920001081.163338.9720011111.1

44、23622.0520021250.984108.3820031287.114478.2120041322.624821.1520051379.815285.0820061437.395835.9920071500.256546.7020081538.437096.4420091601.407793.80资料来源:根据资料来源:根据中国统计年鉴中国统计年鉴2010数据计算得到。数据计算得到。2622.790.1350.975(26.16) (25.08)0.41ttCYRDW 从回归结果来看,方程的拟合优度很高,斜率系数显著,从回归结果来看,方程的拟合优度很高,斜率系数显著,但但DW值低。值低。

45、 为了检验模型设定是否正确,采用为了检验模型设定是否正确,采用RESET方法。方法。由于由于P=0.00005.991所以拒绝原假设,表明式(所以拒绝原假设,表明式(5-23)存在误设定。)存在误设定。 23224.7043.5412.960.94=0.9896-3.879.11-13.1515.90iiiieXXXR ()()()()210 0.98969.896n R22第三节第三节 模型选择模型选择 现实中,模型拟合的过程其实主要就是变现实中,模型拟合的过程其实主要就是变量筛选的过程,在相关理论的基础上,同时考虑量筛选的过程,在相关理论的基础上,同时考虑变量的数据可得性以及替代变量适用性

46、等问题,变量的数据可得性以及替代变量适用性等问题,哪些变量应引入模型,哪些变量应剔除,应结合哪些变量应引入模型,哪些变量应剔除,应结合研究问题的重点综合考虑。同样的问题,十个计研究问题的重点综合考虑。同样的问题,十个计量经济学家有可能最终给出十个不同的模型结果。量经济学家有可能最终给出十个不同的模型结果。“经验经验”和和“艺术艺术”在建模中非常重要,实际操在建模中非常重要,实际操作中的一些技术因素也有一定规律可循,接下来作中的一些技术因素也有一定规律可循,接下来将介绍一些模型选择中的技术方法。将介绍一些模型选择中的技术方法。 一、一、 变量选择的一般原则变量选择的一般原则 根据第一节中对各类误

47、设定后果的分析,我们根据第一节中对各类误设定后果的分析,我们知道在模型设定中的一般原则是尽量不遗漏有关的知道在模型设定中的一般原则是尽量不遗漏有关的解释变量。因为估计量有偏比增大误差更严重。但解释变量。因为估计量有偏比增大误差更严重。但如果方差很大,得到的无偏估计量也就没有多大意如果方差很大,得到的无偏估计量也就没有多大意义了,因此也不宜随意乱增加解释变量。在回归实义了,因此也不宜随意乱增加解释变量。在回归实践中,有时要对某个变量是否应该作为解释变量包践中,有时要对某个变量是否应该作为解释变量包括在方程中做出准确的判断确实不是一件容易的事,括在方程中做出准确的判断确实不是一件容易的事,因为目前

48、还没有行之有效的方法可供使用。因为目前还没有行之有效的方法可供使用。 选择解释变量的四条准则选择解释变量的四条准则2R2R1.理论:理论: 从理论上看,该变量是否应该作为解释变从理论上看,该变量是否应该作为解释变量包括在方程中?量包括在方程中?2. t检验:该变量的系数估计值是否显著检验:该变量的系数估计值是否显著?3. :该变量加进方程中后,:该变量加进方程中后, 是否增大?是否增大?4. 偏倚:偏倚: 该变量加进方程中后,其它变量的系数估该变量加进方程中后,其它变量的系数估计值是计值是否显著变化?否显著变化?如果对四个问题的回答都是肯定的,则该变量应该包如果对四个问题的回答都是肯定的,则该

49、变量应该包括在方程中;如果对四个问题的回答都是括在方程中;如果对四个问题的回答都是“否否”, 则该变则该变量是无关变量,可以安全地从方程中删掉它。量是无关变量,可以安全地从方程中删掉它。 但根据以上准则判断并不总是这么简单。在很多情况下,但根据以上准则判断并不总是这么简单。在很多情况下,这四项准则的判断结果会出现不一致。例如,有可能某个变这四项准则的判断结果会出现不一致。例如,有可能某个变量加进方程后,量加进方程后, 增大,但该变量不显著。增大,但该变量不显著。 因此,当这四项用于判断一个变量是否应加进回归方程的因此,当这四项用于判断一个变量是否应加进回归方程的准则出现不一致的情况时,应当特别

50、小心。在这种情况下,准则出现不一致的情况时,应当特别小心。在这种情况下,作出正确判断不是一件容易的事,但可以让事情变得容易一作出正确判断不是一件容易的事,但可以让事情变得容易一些,办法是将理论准则放在第一位,再多的统计证据也不能些,办法是将理论准则放在第一位,再多的统计证据也不能将一个理论上很重要的变量变成将一个理论上很重要的变量变成“无关无关”变量。变量。 在选择变量的问题上,应当坚定不移地在选择变量的问题上,应当坚定不移地根据理论而不是满根据理论而不是满意的拟合结果来作决定意的拟合结果来作决定,对于是否将一个变量包括在回归方,对于是否将一个变量包括在回归方程中的问题,理论是最重要的判断准则

51、。如果不这样做,产程中的问题,理论是最重要的判断准则。如果不这样做,产生不正确结果的风险很大。生不正确结果的风险很大。2R 实践中,要解决的一个问题是如何从大量的潜在实践中,要解决的一个问题是如何从大量的潜在解释变量的集合中选择一个最合适的子集,以得到一解释变量的集合中选择一个最合适的子集,以得到一个正确设定的模型。个正确设定的模型。 上个世纪六十年代后相当一段时间,人们使用逐上个世纪六十年代后相当一段时间,人们使用逐步回归法来解决解释变量的选择问题。这种由计算机步回归法来解决解释变量的选择问题。这种由计算机机械挑选变量的做法如今已不流行了。目前比较通行机械挑选变量的做法如今已不流行了。目前比

52、较通行的做法是从少量精心设定的备选模型中选择一个。的做法是从少量精心设定的备选模型中选择一个。 计量经济学家就此提出了很多基于统计学的选择计量经济学家就此提出了很多基于统计学的选择标准,我们这里讨论其中几种,如表标准,我们这里讨论其中几种,如表54所示所示。二、二、 有关模型选择的几个判断准则有关模型选择的几个判断准则 令RSSj表示第j个模型(有kj个解释变量)的残差平方和,并定义 为第j个模型的的 估计值。我们 用表示包含全部k个解释变量的模型的 估计值。2jjjRSSnk2m2222/()/()(1)2()/()exp2(1)/ jjjjjjjmjjjjjppRRSSnkSRSSnknk

53、CRSSkPCRSSnknkAICRSSkn表54 选择回归模型的准则准则 计算公式 1. 准则准则 希尔(希尔(Theil)的)的 准则基于如下假设:所考虑的准则基于如下假设:所考虑的模型中有一个是正确模型。对于正确模型,模型中有一个是正确模型。对于正确模型, ,对于不正确模型,对于不正确模型, 。因此。因此,选择选择 最小的模型最小的模型一般就能选出正确模型。由于一般就能选出正确模型。由于 最小化与最小化与 最大化是最大化是一回事,我们习惯上称该准则为一回事,我们习惯上称该准则为 最大准则。最大准则。 这个准则的主要问题是,一个包括正确模型的所有这个准则的主要问题是,一个包括正确模型的所有

54、解释变量但同时也包括一些无关变量的模型也会给出解释变量但同时也包括一些无关变量的模型也会给出 ,在这种情况下,我们所选择的其实并非,在这种情况下,我们所选择的其实并非正确模型。当备选模型包含大量无关变量时,选出正正确模型。当备选模型包含大量无关变量时,选出正确模型的概率较低。确模型的概率较低。2R2R222R2R22()jE22()jE22()jE 在一个实际问题的回归建模中,在一个实际问题的回归建模中, 越大,所对越大,所对应的回归方程越好。如果我们仅从拟合的角度追求应的回归方程越好。如果我们仅从拟合的角度追求“最优最优”,则所有回归子集中,则所有回归子集中 最大者对应的回最大者对应的回归模

55、型就是归模型就是“最优最优”模型。模型。2R2R 2. 基于预测的均方误差最小的三个准则基于预测的均方误差最小的三个准则 希尔的准则是基于回归的标准误差最小,下列三个准则则是基于预测的均方误差(MSE)最小。这三个准则是: 马娄斯(Mallows)的 准则 霍金(Hocking)的 准则 阿美米亚(Amemiya)的PC准则 假设正确的方程有k个解释变量,我们考虑的方程有 个解释变量,问题是如何选择k1以及具体的k1个解释变量的集合。在上述三个预测准则中,这是通过使的均方误差 达到最小实现的,其中 是Y的未来值,而 是预测值。 1()kkfYfY2()ffE YYpCpS 另一件要注意之事是,

56、另一件要注意之事是, 最大准则与预测准则最大准则与预测准则 、 或或PC回答的是两个回答的是两个不同不同的问题。的问题。 在在 最大准则的情况下,假定备选模型中有一个最大准则的情况下,假定备选模型中有一个是是正确正确的,我们要做的是挑出的,我们要做的是挑出“正确正确”模型。模型。 而在三个预测准则的情况下,我们感兴趣的是改而在三个预测准则的情况下,我们感兴趣的是改善预测的善预测的MSE,只要能改善,可以去掉某些变量,即只要能改善,可以去掉某些变量,即便是正确模型中包括它们也在所不惜。便是正确模型中包括它们也在所不惜。 pCpS2R2R 3. 赤池信息准则(赤池信息准则(AIC) 赤池信息准则(

57、赤池信息准则(Akaikes Information Criterion,AIC)是一个更一般的准则,它可以应用)是一个更一般的准则,它可以应用于任何一个可用极大似然法估计的模型。对于我们于任何一个可用极大似然法估计的模型。对于我们这里的应用,这里的应用,AIC的计算公式为的计算公式为 与赤池信息准则类似的还有施瓦茨信息准则(与赤池信息准则类似的还有施瓦茨信息准则(Schwarz information criterion,SIC):): 上述两个准则与前述准则上述两个准则与前述准则 一样,可用于模型选择一样,可用于模型选择,其值也是越小越好。,其值也是越小越好。2(1)/knRSSAICen

58、(1)/knRSSSICnn 在回归分析的建模过程中,对每一个回归子集在回归分析的建模过程中,对每一个回归子集计算计算AIC,其中,其中AIC最小者所对应的模型是最小者所对应的模型是“最优最优”回归模型。回归模型。 AIC准则只能用于比较准则只能用于比较同一种方法同一种方法拟合得到的拟合得到的回归模型。回归模型。71 下面用一个实际经济例子,对所有回归子集计算下面用一个实际经济例子,对所有回归子集计算上述四个统计量,综合比较一下上述四个统计量,综合比较一下“最优最优”回归子集回归子集的选择。的选择。【例例5.5】用用y表示某种消费品的销售额,表示某种消费品的销售额,x1表示居表示居民可支配收入,民可支配收入,x2表示该类消费品的价格指数,表示该类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论