多重共线性(计量经济学武汉大学刘伟)_第1页
多重共线性(计量经济学武汉大学刘伟)_第2页
多重共线性(计量经济学武汉大学刘伟)_第3页
多重共线性(计量经济学武汉大学刘伟)_第4页
多重共线性(计量经济学武汉大学刘伟)_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2.8 2.8 多重共线性多重共线性Multi-CollinearityMulti-Collinearity一、多重共线性的概念一、多重共线性的概念二、多重共线性的后果二、多重共线性的后果三、多重共线性的检验三、多重共线性的检验四、克服多重共线性的方法四、克服多重共线性的方法五、案例五、案例一、多重共线性的概念一、多重共线性的概念1、多重共线性、多重共线性 对于模型对于模型 ikikiiiXXXY22110(i=1,2,n) 如果某两个或多个解释变量之间出现了相关性,如果某两个或多个解释变量之间出现了相关性,则称为则称为多重共线性多重共线性。其基本假设之一是解释变量其基本假设之一是解释变量kX

2、XX,21互相独立互相独立。 如果存在如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中其中: ci不全为不全为0,即某一个解释变量可以用其它解释,即某一个解释变量可以用其它解释变量的线性组合表示,则称为解释变量间存在变量的线性组合表示,则称为解释变量间存在完全完全共线性共线性。 如果存在如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中其中ci不全为不全为0,vi为随机误差项,则称为为随机误差项,则称为一般共线性一般共线性(近似共线性近似共线性)或或交互相关交互相关(intercorrelated)。 在矩阵表示的线性回归模型在矩阵表示的线性回归

3、模型 Y=XB+N中,完全共线性意味着:秩中,完全共线性意味着:秩(X)k+1。换言之,矩阵换言之,矩阵中,至少有一列向量可由其他列向量中,至少有一列向量可由其他列向量(不包(不包括第一列)线性表出。括第一列)线性表出。knnnkkXXXXXXXXXX212221212111111n(k+1) 注意:注意: 完全共线性的情况并不多见,一般出现的是在一完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性定程度上的共线性,即近似共线性。例例如如,如果如果X2=aX1,则则X1与与 X2的相关系数的相关系数为为a,解解释变释变量量X2对因变量的作用完全可对因变量的作用完全可以以由

4、由X1代替代替。 2、实际经济问题中的多重共线性现象、实际经济问题中的多重共线性现象 经济变量的共同变化趋势经济变量的共同变化趋势 时间序列样本:时间序列样本:经济经济繁荣时期繁荣时期,各基本经济,各基本经济变量(收入、消费、投资、价格)都趋于增长;变量(收入、消费、投资、价格)都趋于增长;经济经济衰退时期衰退时期,各基本经济变量又同时趋于下降。,各基本经济变量又同时趋于下降。 横截面数据:横截面数据:如如生产函数生产函数中,资本投入与劳中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都动力投入往往出现高度相关情况,大企业二者都大,而小企业二者都小。大,而小企业二者都小。 滞后变量的引

5、入滞后变量的引入 在计量经济模型中,往往需要引入滞后经济变在计量经济模型中,往往需要引入滞后经济变量来反映真实的经济关系。量来反映真实的经济关系。 例如:例如:消费消费=f(当期收入当期收入It, 前期消费前期消费Ct-1) Ct=0+1It+2Ct-1+t (t=1,2,n) 显然,当期收入与前期消费间有较强的线性相显然,当期收入与前期消费间有较强的线性相关性关性。 一般经验一般经验 对于采用对于采用时间序列数据时间序列数据作样本、以作样本、以简单线性形式简单线性形式建立的计量经济学模型,往往存在多重共线性;建立的计量经济学模型,往往存在多重共线性; 以以截面数据截面数据作样本时,问题不那么

6、严重,但多重作样本时,问题不那么严重,但多重共线性仍然是存在的。共线性仍然是存在的。二、多重共线性的后果二、多重共线性的后果 1 1、完全共线性下参数估计量不存在、完全共线性下参数估计量不存在如果解释变量之间存在完全共线性,则如果解释变量之间存在完全共线性,则(XX) -1不存不存在,无法得到参数的估计量。在,无法得到参数的估计量。多元线性回归模型多元线性回归模型 XY的普通最小二乘参数估计量为:的普通最小二乘参数估计量为: YXXX1)(因为因为如果如果解释变量解释变量kXXX,21完全完全共共线性线性,那么那么通过通过适当的线性变换,可以将适当的线性变换,可以将X 中某一列的全部元素变为中

7、某一列的全部元素变为0,从而行列式,从而行列式0 XX。 2 2、近似共线性下、近似共线性下OLSOLS法参数估计量非有效法参数估计量非有效 在一般共线性(或称近似共线性)下,在一般共线性(或称近似共线性)下,虽然可虽然可以得到以得到OLS法参数估计量,但是由参数估计量方差法参数估计量,但是由参数估计量方差的表达式的表达式12)()(XXCov可以看出,可以看出,由于此时由于此时|XX| 0,引起,引起(XX) -1主对角主对角线元素较大,从而使得参数估计量的方差也较大,线元素较大,从而使得参数估计量的方差也较大,OLS参数估计量非有效。参数估计量非有效。2221221)(iiiixxxx恰

8、为1x与2x的 线 性 相 关 系 数 的 平方2r, 由 于2r1, 故1112 r。以二元回归模型中的参数估计量1为例,1的方差为 221222122212221)()()()()(iiiiixxxxxXXVar)()(12221221212iiiiixxxxx所以,多重共线性使参数估计量的方差增大。多重共线性使参数估计量的方差增大。当完完全全不不共共线线时,2r=0,2121/)var(ix当不不完完全全共共线线 (近似共线)时,102 r, 2122212111)var(iixrx相关系数平方00.50.80.90.950.960.970.980.990.999方差扩大因子125102

9、02533501001000当完全共线时,2r=1,)var(1 方差扩大因子方差扩大因子(Variance Inflation Factor)为为1/(1-r2),其增大趋势见下表:其增大趋势见下表:3 3、参数估计量的经济含义不合理、参数估计量的经济含义不合理 如果模型如果模型(2.8.1)中两个解释变量具有线性相关性,中两个解释变量具有线性相关性,例如例如X1和和X2,那么它们中的一个变量可以由另一个变,那么它们中的一个变量可以由另一个变量表征。量表征。 这时,这时,X1和和X2前的参数并不反映各自与被解释变量前的参数并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同

10、之间的结构关系,而是反映它们对被解释变量的共同影响。影响。 所以,各自的参数已经失去了应有的经济含义,于所以,各自的参数已经失去了应有的经济含义,于是经常表现出似乎反常的现象,例如本来应该是正的,是经常表现出似乎反常的现象,例如本来应该是正的,结果恰是负的。结果恰是负的。4 4、变量的显著性检验失去意义、变量的显著性检验失去意义存在多重共线性时存在多重共线性时参数估计值的方差与标准差变大参数估计值的方差与标准差变大容易使通过样本计算的容易使通过样本计算的t值小于临界值,值小于临界值, 误导作出参数为误导作出参数为0的推断的推断可能将重要的解释变量排除在模型之外可能将重要的解释变量排除在模型之外

11、5 5、模型的预测功能失效、模型的预测功能失效 参数估计量的方差较大,会使参数估计量的方差较大,会使预测值的置信区间预测值的置信区间较大,预测精确度较差,从而使预测失去意义。较大,预测精确度较差,从而使预测失去意义。三、多重共线性的检验三、多重共线性的检验 由于多重共线性表现为解释变量之间具有相关关由于多重共线性表现为解释变量之间具有相关关系,所以系,所以用于多重共线性的检验方法主要是统计方用于多重共线性的检验方法主要是统计方法,如法,如判定系数检验法判定系数检验法、逐步回归检验法逐步回归检验法等等。 多重共线性检验的任务多重共线性检验的任务是:是: (1)检验多重共线性是否存在;)检验多重共

12、线性是否存在; (2)估计多重共线性的范围,即判断哪些变量之)估计多重共线性的范围,即判断哪些变量之间存在共线性。间存在共线性。1 1、检验多重共线性是否存在、检验多重共线性是否存在 (1)(1)对两个解释变量的模型,采用对两个解释变量的模型,采用简单相关系数法简单相关系数法 求出求出X1与与X2的简单相关系数的简单相关系数r,若,若|r|接近接近1,则说明,则说明两变量存在较强的多重共线性。两变量存在较强的多重共线性。 (2)(2)对多个解释变量的模型,采用对多个解释变量的模型,采用综合统计检验法综合统计检验法 若若 在在OLS法下法下,模型的模型的R2与与F值较大,但各参数估值较大,但各参

13、数估计量的计量的t检验值较小,则说明检验值较小,则说明各解释变量对各解释变量对Y的联合线的联合线性作用显著,但性作用显著,但各解释变量之间存在共线性各解释变量之间存在共线性而使得它而使得它们各自对们各自对Y的独立作用不能分辨,故的独立作用不能分辨,故t检验不显著。检验不显著。2 2、判明存在多重共线性的范围、判明存在多重共线性的范围 将模型中每一个解释变量分别以其余解释变量将模型中每一个解释变量分别以其余解释变量为解释变量进行回归计算,并计算相应的拟合优为解释变量进行回归计算,并计算相应的拟合优度,也称为判定系数。度,也称为判定系数。 如果在某一种形式如果在某一种形式 Xji=a a1X1i+

14、a a2X2i+a aLXLi中判定系数较大,则说明在该形式中作为被解释中判定系数较大,则说明在该形式中作为被解释变量的变量的Xj可以用其他可以用其他X的线性组合代替,即的线性组合代替,即Xj与与其他其他X之间存在共线性。之间存在共线性。(1) 判定系数检验法判定系数检验法 一种一种等价的检验等价的检验: 在模型中排除某一个解释变量在模型中排除某一个解释变量Xj,估计模型,估计模型,如果拟合优度与包含如果拟合优度与包含Xj时十分接近,则说明时十分接近,则说明Xj与与其它解释变量之间存在共线性。其它解释变量之间存在共线性。(2) 逐步回归法逐步回归法 以以Y为被解释变量,逐个引入解释变量,构成回

15、为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。归模型,进行模型估计。 根据拟合优度的变化决定新引入的变量是否可以根据拟合优度的变化决定新引入的变量是否可以用其它变量的线性组合代替,而不作为独立的解释用其它变量的线性组合代替,而不作为独立的解释变量。变量。 如果拟合优度变化显著,如果拟合优度变化显著,则说明新引入的变量是一个则说明新引入的变量是一个独立解释变量;独立解释变量; 如果拟合优度变化很不显著如果拟合优度变化很不显著,则说明新引入的变量不,则说明新引入的变量不是一个独立解释变量,它可以用其它变量的线性组合是一个独立解释变量,它可以用其它变量的线性组合代替,也就是说它与其它变

16、量之间存在共线性关系。代替,也就是说它与其它变量之间存在共线性关系。四、克服多重共线性的方法四、克服多重共线性的方法克服多重共线性的方法克服多重共线性的方法:第一类方法:排除引起共线性的变量第一类方法:排除引起共线性的变量第二类方法:差分法第二类方法:差分法第三类方法:减少参数估计量的方差第三类方法:减少参数估计量的方差 1 1、第一类方法:排除引起共线性的变量、第一类方法:排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出去,是最为找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。有效的克服多重共线性问题的方法。 上述用于检验多重共线性的方法,同时

17、就是克服多重共线性问题上述用于检验多重共线性的方法,同时就是克服多重共线性问题的方法,其中又以逐步回归法得到最广泛的应用。的方法,其中又以逐步回归法得到最广泛的应用。 但应注意的是:排除了引起共线性的变量后,剩余解释变但应注意的是:排除了引起共线性的变量后,剩余解释变量参数的经济含义和数值都发生了变化。它们不再仅仅反映量参数的经济含义和数值都发生了变化。它们不再仅仅反映自身与被解释变量的关系,也包含了与它们成线性关系的、自身与被解释变量的关系,也包含了与它们成线性关系的、被排除的变量对被解释变量的影响。被排除的变量对被解释变量的影响。2 2、第二类方法:差分法、第二类方法:差分法 对于以时间序

18、列数据为样本、以直接线性关系对于以时间序列数据为样本、以直接线性关系为模型关系形式的计量经济学模型,将原模型变为模型关系形式的计量经济学模型,将原模型变换为差分模型换为差分模型 Yi= 1 X1i+ 2 X2i+ k Xki+ i可以有效地消除存在于原模型中的多重共线性。可以有效地消除存在于原模型中的多重共线性。 原因在于原因在于:一般来讲,增量之间的线性关系远一般来讲,增量之间的线性关系远比总量之间的线性关系弱得多。比总量之间的线性关系弱得多。例如:例如:在中国在中国消费模型中的消费模型中的2个变量个变量: 收入(Y:GDP)与消费 C 的总量与增量数据YC(-1)C(-1)/YYC(-1)

19、C(-1)/Y1981490129760.60721982548933090.60285883330.56631983607636380.59965873290.56051984716440210.561310883830.35201985879246940.533916286730.413419861013357730.5697144110790.748819871178465420.555216517690.465819881470474510.506729209090.311319891646693600.5684176219091.083199018320105560.57621854

20、11960.6451199121280113620.533929608060.2723199225864131460.5083458417840.3892199334501159520.4624863728060.3249199447111201820.42841261042300.3354199559405272160.45811229470340.5721199668498345290.5041909373130.8042 由表中的比值可以直观地看到,由表中的比值可以直观地看到,两变量增量的两变量增量的线性关系弱于总量之间的线性关系。线性关系弱于总量之间的线性关系。 进一步分析:进一步分析

21、: Y与与C(-1)之间的判定系数为之间的判定系数为0.9845, Y与与C(-1)之间的判定系数为之间的判定系数为0.7456。 一般认为:一般认为:两个变量之间的判定系数大于两个变量之间的判定系数大于0.8时,二者之间存在线性关系。时,二者之间存在线性关系。 所以,原模型经检验被认为具有多重共线性,所以,原模型经检验被认为具有多重共线性,而差分模型则可以认为不具有多重共线性。而差分模型则可以认为不具有多重共线性。五、案例一:服装市场需求函数五、案例一:服装市场需求函数1 1、建立模型、建立模型 根据理论和经验分析,影响居民服装类支出根据理论和经验分析,影响居民服装类支出Y的主要因素有:可支

22、配收入的主要因素有:可支配收入X、居民流动资产拥、居民流动资产拥有量有量K、服装价格指数、服装价格指数P1、物价总指数、物价总指数P0。 已知某地区的有关资料,根据散点图判断,建已知某地区的有关资料,根据散点图判断,建立线性服装消费支出模型:立线性服装消费支出模型: Y= 0+ 1X+ 2K+ 3P1+ 4P0+ 2 2、样本数据、样本数据 由于由于R2较大且接近于较大且接近于1,而且,而且 F=638.4,大于临,大于临界值:界值:F 0.05(4,5)=15.19,故认为服装支出与上述解,故认为服装支出与上述解释变量间总体线性关系显著。释变量间总体线性关系显著。 但由于变量但由于变量K的参

23、数估计值的的参数估计值的t检验值较小(未检验值较小(未能通过检验),故能通过检验),故解释变量间存在多重共线性解释变量间存在多重共线性。3 3、估计模型、估计模型(1)用)用OLS法估计上述模型:法估计上述模型: 4 .6389965. 09980. 0)24. 2()20. 2()30. 0()71. 3()76. 1(334. 0197. 0001. 010. 020.132201FRRPPKXY(2)检验简单相关系数)检验简单相关系数 不难看出,各解释变量间存在高度相关性,其不难看出,各解释变量间存在高度相关性,其中尤其以中尤其以P1和和P0间的相关系数为最高。间的相关系数为最高。列出

24、X,K,P1,P0 的相关系数矩阵:XKP1P0X10.9883 0.9804 0.9878K0.988310.9700 0.9695P10.9804 0.970010.9918P00.9878 0.9695 0.99181(3)找出最简单的回归形式)找出最简单的回归形式 可见,应选可见,应选为为初始的回归模型初始的回归模型。分别作 Y 与 X,K,P1,P0 间的回归: XY118. 024. 1 KY327. 0118. 2 (-3.36) (42.48) (2.58) (15.31)2R=0.9950 F=1805.1 2R=0.9629 F=234.4 1516. 05 .38PY 0

25、663. 07 .53PY (-9.16) (12.53) (-14.77) (18.66)2R=0.9455 F=157.1 2R=0.9747 F=348.1(4 4)逐步回归)逐步回归 将其他解释变量分别导入上述初始回归模型,寻将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。找最佳回归方程。YCXKP1P02RF=f(X)-1.250.120.99501805.1t 值-3.3642.49=f(X,P1)1.530.13-0.040.9958826.9t0.318.57-0.57=f(X,P1,K)1.060.14-0.04-0.040.9941509.0t0.215.70-0

26、.68-0.53=f(X,P1,P0)-12.450.10-0.190.310.99701003.6t-1.927.55-2.472.59=f(X,P1,P0,K)-13.200.100.01-0.200.330.9965638.4-1.793.710.30-2.202.244 4、讨论:、讨论: 在初始模型中引入在初始模型中引入P1,模型拟合优度提高,且,模型拟合优度提高,且参数符号合理,但参数符号合理,但P1的的t检验未通过;检验未通过; 再引入再引入K,拟合优度虽有提高,但,拟合优度虽有提高,但K与与P1的的t检检验未能通过,且验未能通过,且X与与P1的的t检验值及检验值及F检验值有所下

27、降,检验值有所下降,表明引入表明引入K并未对回归模型带来明显的并未对回归模型带来明显的“好处好处”,K可能是多余的;可能是多余的; 去掉去掉K K,加入,加入P P0 0,拟合优度有所提高,且各解释,拟合优度有所提高,且各解释变量的变量的t t检验全部通过,检验全部通过,F F值也增大了。值也增大了。 将将4 4个解释变量全部包括进模型,拟合优度未有个解释变量全部包括进模型,拟合优度未有明显改观,明显改观,K K的的t t检验未能通过,检验未能通过,K K显然是多余的。显然是多余的。 5 5、结论、结论回归方程以回归方程以Y=f(X, Y=f(X, P1, , P0) )为最优:为最优: Y=

28、-12.45+0.10X-0.19Y=-12.45+0.10X-0.19P1 +0.31 +0.31P0五、案例二:中国消费函数模型五、案例二:中国消费函数模型1 1、OLSOLS法估计结果法估计结果Dependent Variable: CONS Method: Least Squares Date: 03/01/03 Time: 00:46 Sample: 1981 1996 Included observations: 16 Variable Coefficient Std. Error t-Statistic Prob. C 540.5286 84.30153 6.411848 0.0

29、000 GDP 0.480948 0.021861 22.00035 0.0000 CONS1 0.198545 0.047409 4.187969 0.0011 R-squared 0.999773 Mean dependent var 13618.94 Adjusted R-squared 0.999739 S.D. dependent var 11360.47 S.E. of regression 183.6831 Akaike info criterion 13.43166 Sum squared resid 438613.2 Schwarz criterion 13.57652 Log likelihood -104.4533

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论