第四章多重共线性.doc_第1页
第四章多重共线性.doc_第2页
第四章多重共线性.doc_第3页
第四章多重共线性.doc_第4页
第四章多重共线性.doc_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 多重共线性引子: 古典假定总是能够满足吗? 对古典假定的再讨论在第二、三章,已经讨论了在古典假定完全满足的条件下线性回归模型的估计、检验及预测问题。然而,在现实的经济问题中古典假定的条件真的总是能够满足吗?回顾对模型中随机扰动项和解释变量作的古典假定:(1)零均值假定:假定随机扰动项的期望或均值为零,即; (2)同方差假定:对于给定的每一个,随机扰动项的条件方差都等于某一个常数,即; (3)无自相关假定:即随机扰动项的逐次值互不相关,或者说对于所有的i和j(),和的协方差为零,即 (4)解释变量非随机或随机扰动项与解释变量不相关假定:即;(5)无多重共线性假定:假定各解释变量之间不存在线性关系;(6)正态性假定:假定随机扰动项服从正态分布,即。 正是有了这些古典假定,回归系数的OLS估计量才是最佳线性无偏估计量。然而实际的经济活动异常复杂,不一定总是能满足这些假定,从而可能给计量经济分析带来一系列的麻烦和问题。假定(1)零均值假定的违反主要会对截距项的估计产生影响,并不影响更受关注的斜率系数的估计;违反假定(4)解释变量非随机或随机扰动项与解释变量不相关的影响,将在有关的章节中再讨论;假定(6)正态性假定的违反并不影响OLS估计是最佳线性无偏估计,加之在大样本情况下会渐近服从正态分布,可以不再讨论。除此之外需要首先作深入讨论的,是假定(5)无多重共线性、假定(2)同方差性、假定(3)无自相关。这正是第四、五、六章将讨论的主题。 农业和建筑业的发展会减少财政收入吗?国家财政收入主要来自各项税收收入,经济增长是其重要的影响因素。为了分析各主要因素对国家财政收入的影响,建立财政收入(亿元) (CS)为被解释变量,农业增加值(亿元)(NZ)、工业增加值(亿元)(GZ)、建筑业增加值(亿元)(JZZ)、总人口(万人)(TPOP)、最终消费(亿元)(CUM)、受灾面积(万公顷)(SZM)等为解释变量的计量模型。数据样本时期为1978年-2003年共26个年份的统计数据(资料来源:中国统计年鉴2004,中国统计出版社2004年版)设定的理论模型为: 采用普通最小二乘法得到以下估计结果 关于财政收入的多元回归结果VariableCoefficientStd. Errort-StatisticProb. 农业增加值-1.5350900.129778-11.828610.0000工业增加值0.8987880.2454663.6615580.0017建筑业增加值-1.5270891.206242-1.2659890.2208总人口0.1511600.0337594.4776460.0003最终消费0.1015140.1053290.9637830.3473受灾面积-0.0368360.018460-1.9953820.0605截距项-11793.343191.096-3.6957040.0015R-squared0.995015 Mean dependent var5897.824Adjusted R-squared0.993441 S.D. dependent var5945.854S.E. of regression481.5380 Akaike info criterion15.41665Sum squared resid4405699. Schwarz criterion15.75537Log likelihood-193.4165 F-statistic632.0999Durbin-Watson stat1.873809 Prob(F-statistic)0.000000从主要指标分析可见,可决系数为0.995,校正的可决系数为0.993,模型拟合很好。F统计量为632.10,说明在0.05水平下回归方程整体上是显著的,模型对财政收入的解释程度高达99.5%。但是t检验结果表明,除了工业增加值和总人口以外,其他因素对财政收入的影响均不显著。更难理解的是农业增加值和建筑业增加值的回归系数竟然是负数,这就是说农业和建筑业的发展反而会使财政收入减少,这显然与理论分析和实践经验不相符。为什么会出现这样的异常结果?如果设定的模型和数据的真实性没有问题,问题可能会出在哪里呢? 第四章专门讨论古典假定中无多重共线性假定被违反的情况,主要内容包括多重共线性的实质和产生的原因、多重共线性产生的后果、多重共线性的检测方法及无多重共线性假定违反后的处置方法。第一节 什么是多重共线性一、多重共线性的含义第三章讨论多元线性回归模型的估计时,强调了假定无多重共线性,即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性无关。在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括解释变量之间精确的线性关系,还包括解释变量之间近似的线性关系。从数学意义上去说明多重共线性,就是对于解释变量,如果存在不全为0的数,能使得 ( 4.1 )则称解释变量之间存在着完全的多重共线性。用矩阵表示,解释变量的数据矩阵为X= (4.2)当Rank(X)0,I为单位矩阵),即,使得的可能性比的可能性更小,那么接近奇异的程度就会比小得多。这样可以得到的岭回归估计为: (4.28)称为的岭回归估计量,为岭回归参数。当解释变量之间存在多重共线性时,以作为的估计应比普通最小二乘估计稳定。当较小时,回归系数很不稳定,而当逐渐增大时,回归系数可能呈现稳定状态。因此要选择合适的值时,岭回归参数才会优于普通最小二乘估计参数。当=0时,岭回归估计,实际就是普通最小二乘估计。 (二)岭回归估计的性质性质1:岭回归的参数估计是回归参数的有偏估计 (4.29)显然,只有当=0时,才有,当0时,是的有偏估计。有偏性是岭回归估计的一个重要性质。性质2:从(4.28)式容易看出,在岭回归参数与无关的情形下,是最小二乘估计的一个线性变换,也是理论值的线性函数。性质3:可以证明岭估计量方差比普通最小二乘估计的方差要小。岭回归估计的方差和偏倚与岭回归参数有关,岭回归参数的值越大,的偏倚越大,其方差就越小。要得到方差较小的估计结果,又不得不牺牲无偏性。为此可以用兼顾方差和偏倚的最小均方误差MSE原则具体见第九章(9.16)式,去分析岭回归的效果。 (三)岭回归参数k的选择原则上是要选择使均方误差达到最小的,而最优值依赖于未知参数和,因而在实际应用中必须通过样本来确定。目前还没有形成公认的选择岭回归参数的最优方法,常用的方法主要有岭迹法、方差扩大因子法、残差平方和方法。在实际应用中,可考虑使用逐步搜索的方法,即开始给定较小的值,然后逐渐增加的取值进行试验,直至岭估计量的值趋于稳定为止。显然,用逐步搜索的方法确定的值,仍缺乏令人信服的理论依据,具有一定主观性,是一种将定性分析与定量分析相结合的方法。第五节 案例分析一、研究的目的要求近年来,中国旅游业一直保持高速发展,旅游业作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长22.6%,与此同时国内旅游也迅速增长。改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP 9.76%的增长率。为了规划中国未来旅游产业的发展,需要定量地分析影响中国旅游市场发展的主要因素。二、模型设定及其估计经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数,城镇居民人均旅游支出,农村居民人均旅游支出,并以公路里程和铁路里程作为相关基础设施的代表。为此设定了如下对数形式的计量经济模型:其中 :第t年全国旅游收入国内旅游人数 (万人)城镇居民人均旅游支出 (元)农村居民人均旅游支出 (元)公路里程(万公里)铁路里程(万公里) 为估计模型参数,收集旅游事业发展最快的19942003年的统计数据,如表4.2所示:表4.2 1994年2003年中国旅游收入及相关数据年份国内旅游收入Y(亿元)国内旅游人数X2(万人次)城镇居民人均旅游支出X3(元)农村居民人均旅游支出X4 (元)公路里程 X5(万公里)铁路里程X6(万公里)19941023.552400414.754.9111.785.9019951375.762900464.061.5115.705.9719961638.463900534.170.5118.586.4919972112.764400599.8145.7122.646.6019982391.269450607.0197.0127.856.6419992831.971900614.8249.5135.176.7420003175.574400678.6226.6140.276.8720013522.478400708.3212.7169.807.0120023878.487800739.7209.1176.527.1920033442.387000684.9200.0180.987.30数据来源:中国统计年鉴2004利用Eviews软件,输入Y、X2、X3、X4、X5、X6等数据,采用这些数据对模型进行OLS回归,结果如表4.3: 表4.3由此可见,该模型,可决系数很高,F检验值173.3525,明显显著。但是当时,不仅、系数的t检验不显著,而且系数的符号与预期的相反,这表明很可能存在严重的多重共线性。计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据,点”view/correlations”得相关系数矩阵(如表4.4):表4.4由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。三、消除多重共线性采用逐步回归的办法,去检验和解决多重共线性问题。分别作Y对X2、X3、X4、X5、X6的一元回归,结果如表4.5所示:表4.5变量X2X3X4X5X6参数估计值0.08429.052311.667334.33242014.146t 统计量8.665913.15985.19676.46758.74870.90370.95580.77150.83940.9054按的大小排序为:X3、X6、X2、X5、X4。以X3为基础,顺次加入其他变量逐步回归。首先加入X6回归结果为: t=(2.9086) (0.46214) 当取时,X6参数的t检验不显著,予以剔除,加入X2回归得 t=(4.2839) (2.1512) X2参数的t检验不显著,予以剔除,加入X5回归得t=(6.6446) (2.6584) X3、X5参数的t检验显著,保留X5,再加入X4回归得t=(3.944983) (4.692961) (3.06767) F=231.7935 DW=1.952587当取时,,X3、X4、X5系数的t检验都显著,这是最后消除多重共线性的结果。这说明,在其他因素不变的情况下,当城镇居民人均旅游支出和农村居民人均旅游支出分别增长1元时,国内旅游收入将分别增长4.21亿元和3.22亿元。在其他因素不变的情况下,作为旅游设施的代表,公路里程每增加1万公里时, 国内旅游收入将增长13.63亿元。 第四章小节1、经典线性回归模型的假定之一是各个解释变量X之间不存在多重共线性。一般说来,多重共线性是指各个解释变量X之间有准确或近似准确的线性关系。2、多重共线性的后果是:如果各个解释变量X之间有完全的共线性,则它们的回归系数是不确定的,并且它们的方差会无穷大。如果共线性是高度的但不完全的,则回归系数的估计是可能的,但有较大的标准误差的趋势。结果回归系数不能准确地加以估计。不过,如果目的是估计这些系数的线性组合用于预测,多重共线性不是严重问题。3、诊断共线性的经验方法主要有:(1)多重共线性的明显表现是可决系数R2异常高而回归系数在通常的t检验中在统计上不显著。(2)在仅有两个解释变量的模型中,检查两个变量之间的零阶或简单相关系数,一般说来高的相关系数通常可认为有多重共线性。(3)当模型中涉及多于两个解释变量的情形时,较低的零阶相关也可能出现多重共线性,这时需要检查偏相关系数。(4)如果R2高而偏相关系数低,则多重共线性是可能的,这时会存在一个或多个解释变量是多余的。如果R2高而偏相关系数也高,则多重共线性难以识别。(5)在建模时,首先可以将每一个解释变量对其余所有解释变量进行辅助回归,并计算出相应的可决系数。较高的可能表明和其余的解释变量高度相关,在不会引起严重的设定偏误的前提下,可考虑把从模型中剔除。4、降低多重共线性的经验方法有:(1)利用外部或先验信息;(2)横截面与时间序列数据并用;(3)剔除高度共线性的变量;(4)数据转换;(5)获取补充数据或新数据;(6)选择有偏估计量(如岭回归)。经验方法的效果取决于数据的性质和共线性的严重程度。第四章主要公式表方差膨胀因子(简称VIF)多重共线性下参数估计式的方差特征根的病态指数的岭回归估计思考题与练习题思考题4.1 多重共线性的实质是什么?为什么会出现多重共线性?4.2 多重共线性对回归参数的估计有何影响?4.3 多重共线性的典型表现是什么?判断是否存在多重共线性的方法有哪些?4.4 针对出现多重共线性的不同情形,能采取的补救措施有哪些?4.5 在涉及相关的宏观经济总量指标如GDP、货币供应量、物价总水平、国民总收入、就业人数等时间序列的数据中一般都会怀疑有多重共线性,为什么?4.6 多重共线性的产生与样本容量的个数n、解释变量的个数k有无关系?4.7 具有严重多重共线性的回归方程能否用来进行预测?4.8 岭回归法的基本思想是什么,它对降低共线性有何作用?4.9 以下陈述是否正确?请判断并说明理由(1)在高度多重共线性的情形中,要评价一个或多个偏回归系数的单个显著性是不可能的。(2)尽管有完全的多重共线性,OLS估计量仍然是BLUE。(3)如果有某一辅助回归显示出高的值,则高度共线性的存在是肯定无疑的。(4)变量的两两高度相关并不表示高度多重共线性。(5)如果其他条件不变,VIF越高,OLS估计量的方差越大。 (6)如果在多元回归中,根据通常的t检验,全部偏回归系数分别都是统计上不显著的,你就不会得到一个高的值。(7)在Y对和的回归中,假如的值很少变化,这就会使增大,在极端的情形下,如果全部值都相同,将是无穷大。(8)如果分析的目的仅仅是预测,则多重共线性是无害的。练习题4.1 假设在模型中,之间的相关系数为零,于是有人建议你进行如下回归:(1)是否存在?为什么?(2)(3)是否有?4.2在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。不我待在逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归),也可以先把所有可能的解释变量都放在一个多元回归中,然后逐一地将它们剔除(逐步向后回归)。加进或剔除一个变量,通常是根据F检验看其对ESS的贡献而作出决定的。根据你现在对多重共线性的认识,你赞成任何一种逐步回归的程序吗?为什么?4.3 下表给出了中国商品进口额Y、国内生产总值GDP、消费者价格指数CPI。年份商品进口额(亿元)国内生产总值(亿元)居民消费价格指数(1985=100)19851257.88964.410019861498.310202.2106.519871614.211962.5114.319882055.114928.3135.819892199.916909.2160.219902574.318547.9165.219913398.721617.8170.819924443.326638.1181.719935986.234634.4208.419949960.146759.4258.6199511048.158478.1302.8199611557.467884.6327.9199711806.574462.6337.1199811626.178345.2334.4199913736.482067.5329.7200018638.889468.1331.0200120159.297314.8333.3200224430.3105172.3330.6200334195.6117251.9334.6资料来源:中国统计年鉴,中国统计出版社2000年、2004年。请考虑下列模型:(1)利用表中数据估计此模型的参数。(2)你认为数据中有多重共线性吗? (3)进行以下回归:根据这些回归你能对数据中多重共线性的性质说些什么?(4)假设数据有多重共线性,但在5%水平上个别地显著,并且总的F检验也是显著的。对这样的情形,我们是否应考虑共线性的问题?4.4 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造解释变量数据矩阵X才可能避免多重共线性的出现?4.5 克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y和工资收入X1、非工资非农业收入X2、农业收入X3的时间序列资料,利用OLSE估计得出了下列回归方程:(括号中的数据为相应参数估计量的标准误)。试对上述模型进行评析,指出其中存在的问题。4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论