第三章多重共线性_第1页
第三章多重共线性_第2页
第三章多重共线性_第3页
第三章多重共线性_第4页
第三章多重共线性_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 现实的经济活动是十分复杂的,古典假定经常会不成立,我们经常不得不放宽古典假定条件,需要讨论违反假定以后的一些专门的计量方法。12 基本假定的回顾与分析基本假定的回顾与分析iYiu2,()kE Y XX为了分析各主要因素对国家财政收入的影响,建立财政收入模型:其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZZ建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 数据:样本时期1978年-2003年(资料来源:中国统计年鉴2004,中国统计出版社2004年版) 采用普通最小二乘法得到以下估计结果301234

2、56iiiiiiiiNZGZJZZTPOPCUMS MuSZC4 VariableCoefficientStd. Errort-StatisticProb. 农业增加值农业增加值NZ-1.5350900.129778-11.828610.0000工业增加值工业增加值GZ0.8987880.2454663.6615580.0017建筑业增加值建筑业增加值JZZ-1.5270891.206242-1.2659890.2208总人口总人口TPOP0.1511600.0337594.4776460.0003最终消费最终消费CUM0.1015140.1053290.9637830.3473受灾面积受灾面

3、积SZM-0.0368360.018460-1.9953820.0605截距项截距项-11793.343191.096-3.6957040.0015 R-squared 0.995015 Mean dependent var5897.824 Adjusted R-squared0.993441 S.D. dependent var5945.854 S.E. of regression481.5380 Akaike info criterion15.41665 Sum squared resid4405699. Schwarz criterion15.75537 Log likelihood-1

4、93.4165 F-statistic632.0999 Durbin-Watson stat1.873809 Prob(F-statistic)0.000000模型的模型的EViewsEViews估计结果估计结果农业和建筑业的发展农业和建筑业的发展反而会使反而会使财政收入减少吗?财政收入减少吗?! !这样的结果显然与理论分析和实践经验不相符。为什么会出现这样的异常结果?问题出在哪里呢?5模型估计检验结果分析:模型估计检验结果分析:6经济分析:天津市粮食销售体制改革中粮食销量逐年增长,分析粮食销量的变化及原因。影响粮食销量的主要因素可能是人口数量、居民收入,以及与粮食相关的肉、蛋、鱼虾销售量等。

5、变量选择:被解释变量 Y 粮食年销售量(万吨) 解释变量:常住人口X2(万人)、人均收入X3(元)、 肉销售量X4(万吨)、蛋销售量X5(万吨)、 鱼虾销售量X6(万吨)模型设定:样本选择:选天津市粮食销售体制改革前1974年1987年的有关数据为样本。数据收集:来源于天津统计年鉴(1988) (数据见下页) 12233445566ttYXXXXXu案例案例2 2:天津市粮食销售量及影响因素分析:天津市粮食销售量及影响因素分析ttuXXXXXY6655443322178估计参数:用估计参数:用OLSOLS估计估计9估计结果:取取 ,查临界值表得,查临界值表得 为什么也出现这种结果?为什么也出现

6、这种结果?306. 2)614(025. 0t69. 3)614, 16(05. 0F234563.4965630.1253300.0736672.6775893.4534484.491117ttttttYXXXXX (1.409082)( 2.027719)(2.129846)(1.944897)(2.119245)t 20.970442R 20.951968R 52.53085F 0.052R10 第三章第三章 多重共线性多重共线性本章讨论四个问题:本章讨论四个问题:1、多重共线性的概念。:11能找到不全为0的数 ,使得(正交变量)k32,03322KkXXX03322iKkvXXX完全的

7、线性关系完全的线性关系不完全的线性关系不完全的线性关系完全无线性关系完全无线性关系 12如: 13ttttuXXY1321(1)完全无多重共线性时)完全无多重共线性时各解释变量都分别独立地影响因变量,多元回归是否必要?以两个解释变量模型为例:当完全无多重共线性时 则有这时这正是分别以 和 为解释变量的一元回归的参数估计式23123ttttYXXu1422332222322222332()()()()()()iiiiiiiiiiiiiiy xxy xxxyxxxx xx230iix x 23223222322323332()()()()()()iiiiiiiiiiiiiiy xxy xxxyxx

8、xx xx2X3X2322322230iiiix xrxx(2)解释变量完全线性相关时)解释变量完全线性相关时 OLS 估计式不确定估计式不确定 从偏回归系数意义看:在 和 完全共线性时, 将肯定随 而变化,将无法保持 不变,去单独考虑 对Y的影响( 和 的作用事实上不可区分) 从OLS估计式看:可以证明此时 (3)解释变量不完全线性相关,但存在高度多重共线性时)解释变量不完全线性相关,但存在高度多重共线性时 此时回归系数可以估计,但方差会变得很大,OLS估计式会不精确152X3X3X2X2002X3X3X2X300当 和 完全线性相关时OLS估计式的方差 成为无穷大 当 和 不完全线性相关时

9、 OLS估计式的方差 会增大 当 增大时,方差扩大因子VIF2 增大, 也会增大 ,思考思考: 当 时 (与一元回归比较) 当 时162X2X3X3X2()Var 023r2222()iVarx2222222222223223211()(1)(1)iiiVarVIFxrxrx231r 17例如例如当当 时,引入任意不为时,引入任意不为0的数的数模型变换模型变换估计结果估计结果当当 时,所估计的时,所估计的 的参数与真实的参数与真实 的符号可能相反的符号可能相反tttttuXXXY4433221ttkXX240*tttttttuXXXXXY2*2*4433221tttttttukXXXXXY4*

10、2*4433221tttttuXkXXY4*4332*21)1()(*12233441()()ttttYXXXk22X*2(3)当多重共线性严重时,甚至可能使估计的回)当多重共线性严重时,甚至可能使估计的回归系数归系数 符号相反符号相反,得出完全错误的结论,得出完全错误的结论(4)区间估计时,对总体参数的区间估计时,对总体参数的置信区间会趋于增大置信区间会趋于增大 (共线性越严重,(共线性越严重, 和和 越大,置信区间也增大)越大,置信区间也增大) 多重共线性程度增加对 的95%置信区间的影响18 的的95%置信区间置信区间 0.00 0.50 0.99 0.999 23r222221.96i

11、x22221.961.33ix22221.96100ix22221.96500ix219因为因为 ,当因多重共线性使方差变大时会使,当因多重共线性使方差变大时会使 t 值减小,值减小,导致在无多重共线性时本应否定的导致在无多重共线性时本应否定的“参数为参数为”的原假设而的原假设而被接受。被接受。 (6)可能造成参数的联合显著性很高(通过)可能造成参数的联合显著性很高(通过F检验),但各个检验),但各个 参数单独的参数单独的 t 检验却不显著检验却不显著(例如引子中的案例例如引子中的案例2)22()tVar20:理解: 无偏性是重复抽样的特性; BLUE中的“最小方差性”是相对于其他估计方法而言

12、: (相对于其他方法方差最小,并不是说相对于估计量的值就很小);多重共线性导致“方差变大”,是相 对于无多重共线性而言。 (2)多重共线性的影响程度与解释变量在方程中的相对 “地位”有关 21 (3)如果研究目的仅在于预测Y,而解释变量X之间的多重共线性关系的性质在未来将继续保持(前提条件),这时多重共线性可能并不是严重问题,而应着重于可决系数高和F检验显著。(怎样理解?出现高度共线性时,虽然无法精确估计个别回归系数,但可精确估计这些系数的某些线性组合。如果系数这样的线性组合在预测期继续保持,就可以用于预测)22 (三)多重共线性的检验(三)多重共线性的检验 1、利用解释变量之间的相关系数去判

13、断、利用解释变量之间的相关系数去判断 (1)只有两个解释变量时:用二者相关系数 判断 (2)两个以上解释变量时:可用两两变量的相关系数 判断(K个变量可用相关系数矩阵)例如 注意注意:在有多个解释变量时,较低的相关系数也可能存在较严重多重共线性23rijr多元线性回归模型 中,可分别以每个解释变量为被解释变量,作与其他解释变量的回归,这称为辅助回归。以 为被解释变量作对其他解释变量的辅助线性回归为 辅助回归的可决系数用 表示。 原回归方程中解释变量 的参数估计值 的方差可表示为(证明从略)其中的 VIFj 是变量 所对应参数估计量的方差扩大因子,也称容许度。 1221111jiijjijjik

14、kiiXXXXXv23jXj222221()1jjjjjVarVIFxRxjX2jR211jjRVIFjX122iikkiiYXXu在只有两个解释变量时(见前面的讨论)当有多个解释变量时,作 对其他解释变量的辅助回归,并计算可决系数 ,注意注意: 是多个解释变量辅助回归的多重可决系数, 而相关系数 只是说明两个变量的线性关系 。242222222222223223211()(1)(1)iiiVarVIFxrxrxjX2jR222221()(1)jjjjjVarVIFxRx223r2jR由 越大 多重共线性越严重 VIFj越大。 252jR方差扩大因子的作用方差扩大因子的作用以下情况的出现提示很

15、可能存在多重共线性: (1)当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化 (2)从定性分析认为一些是重要的解释变量,但其回归系数的标准误差较大,在回归方程中没有通过显著性检验 (3)有些解释变量的回归系数所带正负号与定性分析结果违背 (4)可决系数较高,F检验显著,但偏回归系数的 t 检验不显著2627274、利用解释变量之间的辅助回归及检验判断、利用解释变量之间的辅助回归及检验判断jX1221111jiijjijjikkiiXXXXXv逐步回归:逐步回归:基本思想是将变量逐个的引入模型,每引入一个解释变量后,都要进行检验,并对已经选入的解释变量逐个进行t检验,

16、当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则提示很可能引起了多重共线性。当出现多个解释变量之间高度相关的时候,逐步回归方法是一种检测多重共线性的方法。28多重共线性的后果主要是参数估计量方差变大,例如一元回归中 因为式中 为常数, 确定后,当样本容量越大时, 越大,可使 减小,从而减轻多重共线性的影响 注意:注意: 增大样本容量有时十分困难,受到数据来源的限制29302、利用先验信息先验信息先验信息在此之前的研究所提供的信息1tttQAL K u1tttQAL Ku()ttttQLAuKK1lnlnlnlnttttQLAuKKlnlnlnlnlntttQALKu31 有时在时

17、间序列数据中多重共线性严重的变量,在截面数据中不一定有严重的共线性 假定前提:假定前提:截面数据估计出的参数与时间序列中估计的参数差异不大方法:方法:先用截面数据估计出一个变量的参数,再代入原模型中用时间序列估计另一个变量的参数 例如 其中:Y家庭轿车销售量;P平均价格;I消费者收入 先用截面数据估计收入弹性 (同一时期各截面的价格可视为相同) 再用时序数据估计123lnlnlnttttYPIu*13lnlniiiYIv*3212*332lnlnllnntttttYYIPu32对存在多重共线性的变量,进行对数变换、一阶差分变换等,有时可消除或减轻多重共线性的影响 注意:一阶差分可能带来新的问题

18、: 虽然 和 都是序列无关的,但差分形成的随机项 常常是序列相关的,可能会违反无自相关假定. 一阶差分中减少了一个自由度 一阶差分不适于截面数据,因截面数据没有先后顺序)(1tttuuvtu1tu33 5 5、逐步回归法、逐步回归法 基本思想基本思想: 设法删除引起多重共线性但又不那么重要的变量。 用逐步回归方法发现产生共线性的解释变量,并将其剔除,从而减少多重共线性影响 方法方法:,基本思路的框图为:(见下页) 存在的问题:存在的问题: 有可能删除重要变量,而引起设定误差! 使用逐步回归剔除变量时要格外小心!34将Y对各个 分别回归kX计算各2kR 以 最大的作逐步回归的基础2kR逐个将其他

19、 加入模型回归kX用F检验检验新加入 的显著性kXF检验改善不显著F检验改善显著多余变量对先引入的变量的显著性无影响使先引入的变量参数发生明显变化或使 t 检验不显著剔除剔除保留此变量保留此变量出现多重共线性出现多重共线性剔除此变量剔除此变量研究目的研究目的:中国国内旅游市场发展迅速,需要定量地研究影响中国国内旅游市场发展的主要原因。经分析,以旅游收入表示旅游市场发展,除了国内旅游人数和旅游支出外,还可能与旅游基础设施有关。模型设定:模型设定:其中:3523456123456tttttttYXXXXXu第 t年全国旅游收入 国内旅游人数(万人) 城镇居民人均旅游支出 (元) 农村居民人均旅游支

20、出 (元) 公路里程(万公里) 铁路里程(万公里) tY2tX3tX4tX5tX6tX3619942003年的统计数据年的统计数据 年年份份国内旅游收入Y(亿元)国内旅游人数X2(万人次)城镇居民人均旅游支出X3(元)农村居民人均旅游支出X4(元)公路里程 X5(万公里)铁路里程X6(万公里)19941023.552400414.754.9111.785.9019951375.762900464.061.5115.705.9719961638.463900534.170.5118.586.4919972112.764400599.8145.7122.646.6019982391.2694506

21、07.0197.0127.856.6419992831.971900614.8249.5135.176.7420003175.574400678.6226.6140.276.8720013522.478400708.3212.7169.807.0120023878.487800739.7209.1176.527.1920033442.387000684.9200.0180.987.3037该模型 , 可决系数很高,F检验值173.3525,明显显著。但是当 时, 不仅 、 系数的t检验不显著,而且 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 389954. 02R9897. 0

22、2R05. 0776. 2)610()(025. 02tknt2X6X6X例如作X3对X2、X4、X5、X6的辅助回归得方差扩大因子为:由于 ,根据经验,说明X3与其他解释变量间有严重多重共线性。其他变量间的多重共线性可用类似方式检验。39230.948332XR3231119.3543(1)(1 0.948332)XXVIFR319.354310XVIF采用逐步回归的办法,去检验和解决多重共线性问题。分别作Y对X2、X3、X4、X5、X6的一元回归。一元回归结果:402R2R变量X2X3X4X5X6参数估计值0.08429.052311.667334.33242014.146t 统计量8.6

23、65913.15985.19676.46758.74870.90370.95580.77150.83940.90540.89170.95040.74270.81950.8936加入X3的方程2R最大,以X3为基础,顺次加入其他变量逐步回归 412RX2X3X4X5X6X3、X20.0298(2.1530)6.1940(4.2872)0.9659X3、X48.0206(5.7513)1.7106(0.8550)0.9486 X3、X56.7356(6.6523)10.9117 (2.6628)0.9718 X3、X67.8512(2.9101)285.012(0.4621)0.9450 新加入新

24、加入X5X5的方程的方程9718. 02R,改进最大改进最大, 且且 t 检验显著检验显著保留保留X5X5,再加入其他新变量逐步回归,再加入其他新变量逐步回归 0.025()2.365tnk422RX2X3X4X5X6X3、X5、X20.0091(0.4229)6.3553(4.5277)8.5739(1.2176)0.9681X3、X5、X44.2196(3.9502)3.2160(3.0633)13.6279(4.6945)0.9872X3、X5、X68.0988(4.0852)12.9241(2.6445)-424.9056(-0.8073)0.9703 2R2R2R在X3、X5基础上加入X4后的方程 明显增大,而且各个参数t检验都显著。加入X2后不仅 下降,而且X5参数的t检验变得不显著;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论