第8章 多重共线性:解释变量相关会有什么后果_第1页
第8章 多重共线性:解释变量相关会有什么后果_第2页
第8章 多重共线性:解释变量相关会有什么后果_第3页
第8章 多重共线性:解释变量相关会有什么后果_第4页
第8章 多重共线性:解释变量相关会有什么后果_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多重共线性:解释变量多重共线性:解释变量相关会有什么后果?相关会有什么后果?第第8章章8.1 多重共线性的性质:完全多重共线性的情形多重共线性的性质:完全多重共线性的情形12233(8 1)iiiiYAA XA Xu Y饰品需求,X2价格,X3消费者收入,X4工资。考察如下的需求函数模型:12234(82)iiiiYBB XB Xu用表8-1中的数据拟合模型,计算机拒绝估计回归。做价格(X2)对收入(X3)的回归,得如下关系图。这说明收入与价格完全线性相关,即完全共线性。所有这说明收入与价格完全线性相关,即完全共线性。所有不能对方程(不能对方程(8-1)进行回归。)进行回归。将收入与价格之间的

2、关系带入(将收入与价格之间的关系带入(8-1)得)得12233(8 1)iiiiYAA XA Xu 3230002iiXX 1223213232(3002)3002iiiiiiYAA XAXuAAAAXu 1132233002CAACAA 令令 122(84)iiiYCC Xu 对(对(8-4)进行回归得:)进行回归得:2249.6672.1576X(0.746)(0.1203)t(66.538)(-17.935) 9.6417 r0.9757iiYse ()结论:解释变量之间存在完全相关或者完全多重结论:解释变量之间存在完全相关或者完全多重共线性时,不可能获得所有参数的唯一估计值。共线性时,

3、不可能获得所有参数的唯一估计值。(87) 进行经济数据的分析时,变量间常常表现出不完全进行经济数据的分析时,变量间常常表现出不完全线性相关,但共线性程度很高的情形,这就是近似、线性相关,但共线性程度很高的情形,这就是近似、不完全或者高度多重共线性的情形。不完全或者高度多重共线性的情形。8.2 近似或者不完全多重共线性的情形近似或者不完全多重共线性的情形用表用表8-1中的数据估计(中的数据估计(8-2)得到如下结果:)得到如下结果:242145.372.797X0.3191X(120.06)(0.8122)(0.4003)t(1.2107)(-3.4444)0.7971 r0.9778iiiYs

4、e ()(88) 回归结果显示: (1)模型(8-2)是可估计的。 (2)两次估计的价格系数都是负的,并且差别不大,这和预期的价格系数方向一样。相对而言,(8-7)中价格的t统计量和标准误都略高于(8-8)。 (3)R2略有增加,0.0021。 (4)工资的系数是统计不显著的,符号也有错误。 (5)尽管收入变量不显著,但若假设B2=B3=0,但是根据(4-49)的F检验很容易拒绝原假设。图图8-2 工资工资 和价格和价格 关系关系2X4X4X如何解释这些结果,做价格X2对工资X4的关系图,如下422299.922.0055X(0.6748)(0.1088)t(444.44)(-18.44) 9

5、.6417 r0.977iiiXese () 回归结果为回归结果显示,价格与工资高度相关,相关系数为-0.9984,即存在近似完全线性关系。顺便指出:在只有两个解释变量的情况下,相关系数用于共线性程度的度量,多于两个不可以。(一)数据采集方法问题(二)模型或从中取样的总体受到约束(三)模型设定问题(四)一个过度决定的模型 多重共线性的来源多重共线性的来源8.3 多重共线性的理论后果多重共线性的理论后果为什么讨论多重共线性?为什么讨论多重共线性? l1.在近似共线性的情形下,OLS估计量仍然是无偏的。 l2.近似共线性并未破坏OLS估计量的最小方差性。l3.即使在总体回归方程中变量 之间不是线性

6、相关的,但在某个样本中, 变量之间可能线性相关。【 多重共线性问题是一个样本问题多重共线性问题是一个样本问题 】XX8.4 多重共线性的实际后果多重共线性的实际后果 (1)OLS估计量的方差和标准误较大。 (2)置信区间变宽。 (3)t值不显著 。 (4)R2 值较高,但t值并不都是统计显著的。 (5)OLS估计量及其标准误对数据的微小变化非常敏感,即它们很不稳定。 (6)回归系数符号有误。 (7)难以评估各个解释变量对回归平方和(ESS)或者R2的贡献。 8.5 多重共线性的诊断多重共线性的诊断一、多重共线性是一个样本特性,是一个样本现象。一、多重共线性是一个样本特性,是一个样本现象。 多重

7、共线性是一个程度问题而不是存在与否问题。多重共线性是一个程度问题而不是存在与否问题。多重共线性针对的是解释变量,因此是样本特征,不是多重共线性针对的是解释变量,因此是样本特征,不是总体特征。总体特征。二、侦察多重共线性的规则二、侦察多重共线性的规则【线索线索】(一)R2值高而显著的t比率少 (二)解释变量之间有高度的两两相关 可以计算两两变量之间的相关系数,如果有些相关系数很高(超过0.8) ,则可能存在较为严重的共线性。但是这一标准并不十分可靠。(三)检查偏相关系数 假设3个解释变量X2,X3,X4,X2与X3的相关系数为r23,X2与X4的相关系数为r24,X3与X3的相关系数为r34。假

8、如r23=0.9,说明X2与X3之间高度相关,但是若考察偏相关系数r23,4,即变量X4保持不变的条件下X2与X3之间的相关系数却仅为0.43。那么根据偏相关系数不能说明X2与X3之间的共线性程度很高。但是偏相关系数不能保证对多重共线性提供一个准确的指南。(四)辅助回归 做每个解释变量对其他剩余变量的回归并计算相应的R2值。其中的每一个回归都被称为是从属或者辅助回归。例子(五)方差膨胀因子 jjjjjxRxVIF1var22222ikikiiiuXXXY3322121VIF(1)jjRVIF被称为方差膨胀因子。随着R2的增大, 也增大,或者说膨胀了。varj注意:诊断多重共线性的方法很多,但是

9、没有哪一种能够彻底诊断多重共线性问题。多重共线性是一个程度问题,是一种样本现象。 已知,样本相关系数样本相关系数的定义还可以从另一个角度给出。在进行相关分析时,对于所涉及的两个变量和是同等看待的。若设 则样本单相关系数也可定义为两个样本回归系数的乘积的开方,即: 22)()()(YYXXYYXXtttt ttXY21ttYX21 22 补充:偏回归系数补充:偏回归系数 设有个变量X1、X2和X3。个变量各自以另两个变量为自变量拟合的样本回归方程如下: 利用以上偏回归系数,个变量之间的偏相关系数可定义如下: tttXXX32 .1323 .1223. 11 tttXXX31 .2313 .211

10、3. 22 tttXXX21 .3212 .3112. 33 3 .213 .123 .12r 2 .312 .132 .13r 1 .321 .231 .23r 偏回归系数表示:当其他自变量保持不变时,某一自变量变化一个单位而使因变量平均变化的数值。例如,表示X3保持不变时,X2变化一单位而引起的X1平均变化的数值;表示X1保持不变时,X2变化一单位而引起的X3平均变化的数值。 8.6 多重共线性必定不好吗?多重共线性必定不好吗?取决于研究的目的。 如果是为了利用模型预测应变量的未来均值,则多重共线性未必是一件坏事。 如果研究的目的不仅仅是预测,而且还要可靠地估计出模型的参数,则严重的共线性

11、就是一件“坏事”,因为它导致了估计量的标准误增大。 8.7 1960-1982年期间美国的鸡肉需求年期间美国的鸡肉需求1960-1982年美国的人均鸡肉需求量年美国的人均鸡肉需求量Y,人均,人均实际可支配收入实际可支配收入X2,鸡肉的实际零,鸡肉的实际零价格价格X3,猪猪肉的实际零售价格肉的实际零售价格X4,牛肉的实际零售价格,牛肉的实际零售价格X5。估计的需求函数为:估计的需求函数为:8.7鸡肉需求函数鸡肉需求函数方程(方程(8.15)的共线性诊断的共线性诊断1.相关矩阵相关矩阵 鸡肉需求函数鸡肉需求函数方程(方程(8.15)的共线性诊断的共线性诊断2.辅助回归辅助回归 8.8 如何解决多重

12、共线性:补救措施如何解决多重共线性:补救措施 从模型中删掉一个变量从模型中删掉一个变量 获取额外的数据或新的样本获取额外的数据或新的样本 重新考虑模型重新考虑模型 参数的先验信息参数的先验信息 变量变换变量变换 其他补救措施其他补救措施(1)从模型中删掉一个变量)从模型中删掉一个变量 但是这一补救措施比多重共线性本身还糟糕。因为在构建经济模型时,是以一定的经济理论为基础的,因此删除这些变量又会导致模型设定错误。 如果仅仅为了消除多重共线性而从模型中删除一个变量,可能得到参数的有偏估计。(2)获取额外的数据或新的样本)获取额外的数据或新的样本 多重共线性是一个样本特征,因此如果同样一组变量换一组

13、样本可能多重共线性就不那么高(当然也可能更高)。 但是收集数据的成本或许很高。 增加样本容量也可以消减多重共线性。但是和换一组样本一样,收集数据的成本或许很高。(3)重新考虑模型)重新考虑模型 在LIV(变量线性)模型中,共线性可能不像双对数模型那样高。 以表7-8中的数据来拟合LIV模型,得如下结果:234522Y37.232-0.00501X -0.6122X +0.1984X +0.0695Xt(10.015)(1.0241) -3.753r0.9426r =0.9298 ()(3.11373.1137)(1.36311.3631)n 在LIV(变量线性)模型中,收入系数是统计不显著的,

14、但猪肉价格系数却是显著的。n 产生这一变化的原因是收入与价格之间存在高度共线性。(4)参数的先验信息)参数的先验信息 根据先验研究了解有关参数的某些信息,而这些信息适用于当前样本。 例如饰品需求函数中,收入系数为0.9,并且统计显著。 如果认为收入系数(0.9)0.87164没有变化,则可以重新估计方程。 需求量=B1+B2价格+B3工资+u =B1+B2价格+0.9工资+u 需求量- 0.9工资= B1+B2价格+u 这样自变量只有一个,不存在多重共线性问题。 这一方法的缺陷在于先验信息并不总是可获得的。更致命的是,即使能够获得这一信息,但是假设先验信息在当前样本仍是有效的,这样的要求显得“

15、很高”。 当然如果各个样本间的收入效应预期变化不大,并且得知有关收入系数的先验信息,那么这一补救措施则是行之有效的。(5)变量变换)变量变换 通过对模型中的变量进行变换也能够降低共线性程度。t23223Y-108.20+0.0045X +0.931XtN.A. (1.232)1.844r0.9894YXX () 进进口口,国国民民生生产产总总值值,消消费费者者价价格格指指数数t233223YX-1.39+0.202XXtN.A. (12.22)r0.9894YXX 进进口口,国国民民生生产产总总值值,消消费费者者价价格格指指数数(6)其他补救措施)其他补救措施 因子分析、岭回归、主成分分析等方

16、法因子分析、岭回归、主成分分析等方法补充:补充:逐步回归法逐步回归法(1)用被解释变量对每一个所考虑的解释变量做简)用被解释变量对每一个所考虑的解释变量做简单回归。单回归。(2)以对被解释变量贡献最大的解释变量所对应的)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。序逐个引入其余的解释变量。若新变量的引入改进了若新变量的引入改进了 和和 检验,且回归参检验,且回归参数的数的t t 检验在统计上也是显著的,则在模型中保检验在统计上也是显著的,则在模型中保留该变量。留该变量。F2R若新变量的引入

17、未能改进若新变量的引入未能改进 和和 检验,且对其他回检验,且对其他回归参数估计值的归参数估计值的t t 检验也未带来什么影响,则认为该检验也未带来什么影响,则认为该变量是多余变量。变量是多余变量。若新变量的引入未能改进若新变量的引入未能改进 和和 检验,且显著地影检验,且显著地影响了其他回归参数估计值的数值或符号,同时本身的响了其他回归参数估计值的数值或符号,同时本身的回归参数也通不过回归参数也通不过t t 检验,说明出现了严重的多重共检验,说明出现了严重的多重共线性。线性。2RFF2R案例分析案例分析一、研究的目的要求一、研究的目的要求提出研究的问题提出研究的问题为了规划中国未来国内旅游产

18、业为了规划中国未来国内旅游产业的发展,需要定量地分析影响中国国内旅游市场发展的发展,需要定量地分析影响中国国内旅游市场发展的主要因素。的主要因素。二、模型设定及其估计二、模型设定及其估计影响因素分析与确定影响因素分析与确定影响因素主要有国内旅游影响因素主要有国内旅游人数人数 ,城镇居民人均旅游支出,城镇居民人均旅游支出 ,农村居民人,农村居民人均均旅游支出旅游支出 ,并以公路里程次,并以公路里程次 和铁路里程和铁路里程 作为相关基础设施的代表作为相关基础设施的代表 理论模型的设定理论模型的设定其中其中 : 第第 t 年全国国内旅游收入年全国国内旅游收入23456123456tttttttYXX

19、XXXu2X3XtY4X5X6X数据的收集与处理年年份份国内旅游国内旅游收入收入Y Y(亿元)(亿元)国内旅国内旅游人数游人数X2X2(万人次)(万人次)城镇居民人城镇居民人均旅游支出均旅游支出X3X3(元)(元)农村居民人农村居民人均旅游支出均旅游支出X4 X4 (元)(元)公路里公路里程程 X5X5(万公里)万公里)铁路里铁路里程程X6X6(万公里)万公里)199419941023.51023.55240052400414.7414.754.954.9111.78111.785.905.90199519951375.71375.76290062900464.0464.061.561.511

20、5.70115.705.975.97199619961638.41638.46390063900534.1534.170.570.5118.58118.586.496.49199719972112.72112.76440064400599.8599.8145.7145.7122.64122.646.606.60199819982391.22391.26945069450607.0607.0197.0197.0127.85127.856.646.64199919992831.92831.97190071900614.8614.8249.5249.5135.17135.176.746.742000

21、20003175.53175.57440074400678.6678.6226.6226.6140.27140.276.876.87200120013522.43522.47840078400708.3708.3212.7212.7169.80169.807.017.01200220023878.43878.48780087800739.7739.7209.1209.1176.52176.527.197.19200320033442.33442.38700087000684.9684.9200.0200.0180.98180.987.307.30数据来源:中国统计年鉴2004该模型,可决系数很高,F检验值173.3525,明显显著。但是当时、不仅 、 系数的t检验不显著,而且 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 6X20.9954R 20.025()(106)2.776tnkt6X2X20.9897R 0.05OLS OLS 法估计的结果法估计的结果计算各解释变量的相关系数计算各解释变量的相关系数 表明各解释变量间确实存在严重的多重共线性表明各解释变量间确实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论