版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 一、多重共线性的概念一、多重共线性的概念 对于模型:对于模型: Y Yi i= = 0 0+ + 1 1X X1i1i+ + 2 2X X2i2i+ + + k kX Xkiki+ + i i i=1,2,ni=1,2,n 其基本假设之一是解释变量之间是互不相关的。其基本假设之一是解释变量之间是互不相关的。如果存在不全为如果存在不全为0 0的数的数c c1 1、c c2 2、c ck k,使,使 c c1 1X X1i1i+ +c c2 2X X2i2i+c ck kX Xkiki=0=0 i i=1,2,=1,2,n n 即:某个解释变量完全可以由其它解释变量的线性组合来表示即:某个解释变
2、量完全可以由其它解释变量的线性组合来表示 则称为解释变量间存在则称为解释变量间存在完全共线性完全共线性(perfect multicollinearityperfect multicollinearity)。)。 完全共线性与近似共线性完全共线性与近似共线性如果存在不全为如果存在不全为0 0的数的数c c1 1、c c2 2、c ck k,使,使 c c1 1X X1i1i+ +c c2 2X X2i2i+c ck kX Xkiki+ +v vi i=0=0 i i=1,2,=1,2,n n 即:某个解释变量近似地可以由其它解释变量的线性组合来表示即:某个解释变量近似地可以由其它解释变量的线性
3、组合来表示 则称为解释变量间存在则称为解释变量间存在近似共线性近似共线性(approximate multicollinearityapproximate multicollinearity) 。 共线性示例共线性示例X1X2X31050521575751890972412012930150152 X2=5X1 X2=5X1 完全共线性完全共线性 X3=5X1+V X3=5X1+V 近似共线性近似共线性knnnkkXXXXXXXXXX212221212111111 完全共线性下,完全共线性下,X X中至少有一列向量可由其他列向量(不包括第一列)中至少有一列向量可由其他列向量(不包括第一列)线性
4、表出,线性表出,这意味着:这意味着:秩秩(X)(X) X X非列满秩非列满秩 (XX)(XX)不满秩不满秩 (XX)(XX)-1-1 不存在不存在 无法得到参数的估计量。无法得到参数的估计量。XY的OLS估计量为:YXXX1)(例:例:对对离差形式离差形式的二元回归模型的二元回归模型如果两个解释变量完全相关,如如果两个解释变量完全相关,如x x2 2= = x x1 1,则,则这时,只能确定综合参数这时,只能确定综合参数 1 1+ +2 2的估计值:的估计值:这一后果的实际意义是:这一后果的实际意义是:无法得到回归系数的唯一解无法得到回归系数的唯一解,但可以得到这些,但可以得到这些系数的线性组
5、合的唯一解系数的线性组合的唯一解Y= 0+ 1X1+ 2X2+ Y= 0+( 1+ 2) X1+ 2 2、近似共线性下解释变量的单独作用无法区分、近似共线性下解释变量的单独作用无法区分实际问题中的直接表现是:模型的回归系数经常表现出实际问题中的直接表现是:模型的回归系数经常表现出反常的现象!反常的现象! 例如例如 1 1本来应该是正的,结果却是负的。本来应该是正的,结果却是负的。 经验表明,经验表明,如果存在这种反常情形,应该首先怀疑多重共线性。如果存在这种反常情形,应该首先怀疑多重共线性。 经典假设下,回归系数经典假设下,回归系数jj表达了在其它解释变量不变的情形下,表达了在其它解释变量不变
6、的情形下,XjXj对对Y Y的的单独作用(净影响)单独作用(净影响) 如果模型中两个解释变量具有线性相关性,例如如果模型中两个解释变量具有线性相关性,例如X X2 2= = X X1 1 ,这时,这时,X X1 1和和X X2 2前的参数前的参数 1 1、 2 2并不反映各自与被解释变量之间的结构关系,而是并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的反映它们对被解释变量的共同影响共同影响 从而解释变量的单独作用无法无区分,从而解释变量的单独作用无法无区分, 1 1、 2 2失去了应有的经济含义失去了应有的经济含义3 3、近似共线性下、近似共线性下OLSOLS估计量的方差变
7、大估计量的方差变大近似共线性下,可以得到近似共线性下,可以得到OLSOLS参数估计量,并且可以证明,此时参数参数估计量,并且可以证明,此时参数估计量依然满足线性、无偏和有效性,即估计量依然满足线性、无偏和有效性,即OLSOLS依然是依然是BLUEBLUE但是,此时但是,此时参数估计量的方差会增大参数估计量的方差会增大。参数估计量。参数估计量方差方差的表达式为的表达式为由于由于|XX|XX| 0 0,引起,引起(XX) (XX) -1-1主对角线元素较大,使参数估计值的方主对角线元素较大,使参数估计值的方差增大差增大12)()(XXCov这意味着:这意味着: (1 1)无法精确的估计参数(以较高
8、的精度估计参数)无法精确的估计参数(以较高的精度估计参数) (2 2)基于参数估计量的标准差的变量显著性检验失效)基于参数估计量的标准差的变量显著性检验失效以二元线性模型以二元线性模型 Y=Y= 0 0+ + 1 1X X1 1+ + 2 2X X2 2+ + 为例为例: : 2221221212221222122211121)(1/)()()var(iiiiiiiiiixxxxxxxxxxXX2221221)(iiiixxxx恰为恰为X X1 1与与X X2 2的线性相关系数的平方的线性相关系数的平方r r2 2由于由于 0 0 r r2 2 1 1,故,故 1/(1- r1/(1- r2
9、2 ) ) 1 1212211var()1ixr 方差膨胀因子方差膨胀因子 (Variance Inflation Factor, (Variance Inflation Factor, VIFVIF) )显然:多重共线性的存在使得参数估计值的方差增大,其增加的倍数可以显然:多重共线性的存在使得参数估计值的方差增大,其增加的倍数可以采用采用1/(1-r1/(1-r2 2) )衡量衡量当当完全不共线完全不共线时时, , r r2 2 =0=0 2121/)var(ix当当近似共线近似共线时时, , 00 r r2 2 10.80.8,比较严重,比较严重 0.90.9,非常严重,非常严重 若在若在
10、OLSOLS法下法下,出现以下现象,则可能意味着共线性的存,出现以下现象,则可能意味着共线性的存在:在: a a、系数估计值的符号不合常理;系数估计值的符号不合常理; b b、R R2 2与与F F值较大,方程具有显著性,但各参数估计值的值较大,方程具有显著性,但各参数估计值的t t检检验值均较小,多个解释变量并不显著验值均较小,多个解释变量并不显著 说明各解释变量对说明各解释变量对Y Y的联合线性作用显著,但各解释变的联合线性作用显著,但各解释变量间存在共线性而使得它们对量间存在共线性而使得它们对Y Y的独立作用不能分辨,故的独立作用不能分辨,故t t检检验不显著。验不显著。 2 2、经验判
11、断法、经验判断法 将每个解释变量将每个解释变量X Xi i对其它解释变量对其它解释变量X Xj j进行回归,进行回归, 观察其拟合优度观察其拟合优度R R2 2和和F F检验值,如果某个检验值,如果某个R Ri i2 2接近接近1 1,F Fi i显著超出临界值,则表明该显著超出临界值,则表明该X Xi i与其它解释变量存在与其它解释变量存在多重共线性。多重共线性。 3 3、辅助回归检验法、辅助回归检验法 计算每个回归系数的计算每个回归系数的VIFVIF或或TOLTOL 方差膨胀因子越大(或容忍度越小),表明模型的多重方差膨胀因子越大(或容忍度越小),表明模型的多重共线性越强。共线性越强。 当
12、当VIF5VIF5或或VIF10VIF10时,认为存在较严重的多重共线性。时,认为存在较严重的多重共线性。 4 4、方差膨胀因子和容忍度(、方差膨胀因子和容忍度(VIF&TOLVIF&TOL)211jjVIFR 21jjTOLR模型存在较严重的多重共线性时,模型存在较严重的多重共线性时, |XX| 0|XX| 0,由线性代数,若,由线性代数,若 1 1,k k1 1为矩阵为矩阵XXXX的特征值,则:的特征值,则:|XX|= |XX|= 1 1 k k1 1 00表明,特征值中至少有一个接近于表明,特征值中至少有一个接近于0 0。因此可利用矩阵。因此可利用矩阵XXXX的特征值检的
13、特征值检验多重共线性。验多重共线性。 条件指数(病态数)条件指数(病态数)CN(ConditionalCN(Conditional Number) Number) CN= CN=最大特征值最大特征值/ /最小特征值最小特征值 maxmax/ / minmin 病态指数病态指数CICI(Conditional IndexConditional Index):):CI=SQRT(CN)CI=SQRT(CN) CN CN和和CICI均反映了特征值的离散程度,数值越大表明多重共线性越严重均反映了特征值的离散程度,数值越大表明多重共线性越严重 5 5、特征值检验法、特征值检验法 在模型中排除某一个解释变
14、量在模型中排除某一个解释变量X Xj j,估计模型,估计模型; 如果拟合优度与包含如果拟合优度与包含X Xj j时十分接近,则说明时十分接近,则说明X Xj j与其它解释与其它解释变量之间存在共线性。变量之间存在共线性。 6 6、剔除检验法、剔除检验法 以以Y Y为被解释变量,逐个引入解释变量,构成回归模型,为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计,根据拟合优度的变化决定新引入的变量是否进行模型估计,根据拟合优度的变化决定新引入的变量是否独立。独立。 如果拟合优度变化显著如果拟合优度变化显著,则说明新引入的变量是一个独立,则说明新引入的变量是一个独立解释变量;解释变量; 如果
15、拟合优度变化很不显著如果拟合优度变化很不显著,则说明新引入的变量与其它,则说明新引入的变量与其它变量之间存在共线性关系。变量之间存在共线性关系。 7 7、引入检验法、引入检验法找出引起多重共线性的解释变量,将它排除出去。找出引起多重共线性的解释变量,将它排除出去。以以逐步回归法逐步回归法得到最广泛的应用。得到最广泛的应用。注意:注意:这时,剩余解释变量参数的经济含义和数值都发生了变化这时,剩余解释变量参数的经济含义和数值都发生了变化如果模型被检验证明存在多重共线性,则需要发展新的如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。方法估计模型,最常用的方法有三类。
16、 四、克服多重共线性的方法四、克服多重共线性的方法 1 1、第一类方法:排除引起共线性的变量、第一类方法:排除引起共线性的变量 2 2、第二类方法:差分法、第二类方法:差分法时间序列数据、线性模型:将原模型变换为差分模型时间序列数据、线性模型:将原模型变换为差分模型: : Y Yi i= = 1 1 X X1i1i+ + 2 2 X X2i2i+ + + k k X Xkiki+ + i i可以有效地消除原模型中的多重共线性。可以有效地消除原模型中的多重共线性。 一般讲,增量之间的线性关系远比总量之间的线性关系弱一般讲,增量之间的线性关系远比总量之间的线性关系弱得多得多。表表 4.3 .2 中
17、中 国国 G D P 与与 居居 民民 消消 费费 C 的的 总总 量量 与与 增增 量量 数数 据据 ( 亿亿 元元 )年 份CYC / Y C Y C / Y1 9 7 81 7 5 9 . 13 6 0 5 . 60 . 4 8 81 9 7 92 0 0 5 . 44 0 7 4 . 00 . 4 9 22 4 6 . 34 6 8 . 40 . 5 2 61 9 8 02 3 1 7 . 14 5 5 1 . 30 . 5 0 93 1 1 . 74 7 7 . 30 . 6 5 31 9 8 12 6 0 4 . 14 9 0 1 . 40 . 5 3 12 8 7 . 03 5
18、0 . 10 . 8 2 01 9 8 22 8 6 7 . 95 4 8 9 . 20 . 5 2 22 6 3 . 85 8 7 . 80 . 4 4 91 9 8 33 1 8 2 . 56 0 7 6 . 30 . 5 2 43 1 4 . 65 8 7 . 10 . 5 3 61 9 8 43 6 7 4 . 57 1 6 4 . 40 . 5 1 34 9 2 . 01 0 8 8 . 10 . 4 5 21 9 8 54 5 8 9 . 08 7 9 2 . 10 . 5 2 29 1 4 . 51 6 2 7 . 70 . 5 6 21 9 8 65 1 7 5 . 01 0
19、1 3 2 .80 . 5 1 15 8 6 . 01 3 4 0 . 70 . 4 3 71 9 8 75 9 6 1 . 21 1 7 8 4 .70 . 5 0 67 8 6 . 21 6 5 1 . 90 . 4 7 61 9 8 87 6 3 3 . 11 4 7 0 4 .00 . 5 1 91 6 7 1 . 92 9 1 9 . 30 . 5 7 31 9 8 98 5 2 3 . 51 6 4 6 6 .00 . 5 1 88 9 0 . 41 7 6 2 . 00 . 5 0 51 9 9 09 1 1 3 . 21 8 3 1 9 .50 . 4 9 75 8 9 . 7
20、1 8 5 3 . 50 . 3 1 81 9 9 11 0 3 1 5 .92 1 2 8 0 .40 . 4 8 51 2 0 2 . 72 9 6 0 . 90 . 4 0 61 9 9 21 2 4 5 9 .82 5 8 6 3 .70 . 4 8 22 1 4 3 . 94 5 8 3 . 30 . 4 6 81 9 9 31 5 6 8 2 .43 4 5 0 0 .70 . 4 5 53 2 2 2 . 68 6 3 7 . 00 . 3 7 31 9 9 42 0 8 0 9 .84 6 6 9 0 .70 . 4 4 65 1 2 7 . 41 2 1 9 0 .00 .
21、4 2 11 9 9 52 6 9 4 4 .55 8 5 1 0 .50 . 4 6 16 1 3 4 . 71 1 8 1 9 .80 . 5 1 91 9 9 63 2 1 5 2 .36 8 3 3 0 .40 . 4 7 15 2 0 7 . 89 8 1 9 . 90 . 5 3 01 9 9 73 4 8 5 4 .67 4 8 9 4 .20 . 4 6 52 7 0 2 . 36 5 6 3 . 80 . 4 1 21 9 9 83 6 9 2 1 .17 9 0 0 3 .30 . 4 6 72 0 6 6 . 54 1 0 9 . 10 . 5 0 31 9 9 93 9
22、 3 3 4 .48 2 6 7 3 .10 . 4 7 62 4 1 3 . 33 6 6 9 . 80 . 6 5 82 0 0 04 2 9 1 1 .98 9 1 1 2 .50 . 4 8 23 5 7 7 . 56 4 3 9 . 40 . 5 5 6由表中的比值可以直观地看到:由表中的比值可以直观地看到:增量的线性关系弱于总量之间的线性关系增量的线性关系弱于总量之间的线性关系。进一步分析:进一步分析: Y Y与与C(-1)C(-1)之间的判定系数为之间的判定系数为0.99880.9988, Y Y与与C(-1)C(-1)之间的判定系数为之间的判定系数为0.9567 0.9567
23、3 3、第三类方法:减小参数估计量的方差、第三类方法:减小参数估计量的方差 多重共线性的主要后果是参数估计量具有较大的方差多重共线性的主要后果是参数估计量具有较大的方差 所以采取适当方法减小参数估计量的方差,虽然没有消除所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。模型中的多重共线性,但确能消除多重共线性造成的后果。 岭回归法岭回归法是其中的代表是其中的代表 # # 岭回归法(岭回归法(Ridge RegressionRidge Regression) 70 70年代发展的岭回归法,年代发展的岭回归法,以引入偏误为代价减小参数估计量的方差
24、以引入偏误为代价减小参数估计量的方差,受到人们的重视。受到人们的重视。 具体方法是:引入矩阵具体方法是:引入矩阵DD,使参数估计量为,使参数估计量为 其中矩阵其中矩阵DD一般选择为主对角阵,即一般选择为主对角阵,即 D=aID=aI (a0a0)YXDXX1)((*) 显然,与未含显然,与未含DD的参数的参数B B的估计量相比,的估计量相比,( (* *) )式的估计量有较小的方差。式的估计量有较小的方差。 # # 对多重共线性处理的说明对多重共线性处理的说明 多重共线性在本质上是一种样本现象,因此增大样本容量可以视为多重共线性在本质上是一种样本现象,因此增大样本容量可以视为一个根本性的解决方
25、法一个根本性的解决方法 多重共线性的主要后果是增大估计量的方差,从而导致无法精确的多重共线性的主要后果是增大估计量的方差,从而导致无法精确的估计参数,而参数估计量的性质并未因此改变估计参数,而参数估计量的性质并未因此改变 因此,只要是参数估计量的方差较小,因此,只要是参数估计量的方差较小,t t统计量较大,就没有必要过统计量较大,就没有必要过度关注多重共线性的问题度关注多重共线性的问题 特别地,如果模型的主要目的在于预测,那么即便存在严重的多重特别地,如果模型的主要目的在于预测,那么即便存在严重的多重共线性,也并不会过度妨碍模型的预测性共线性,也并不会过度妨碍模型的预测性 六、案例六、案例(中
26、国粮食生产函数)(中国粮食生产函数) 根据理论和经验分析,影响粮食生产(根据理论和经验分析,影响粮食生产(Y Y)的主要因素有:)的主要因素有: 农业化肥施用量(农业化肥施用量(X X1 1);); 粮食播种面积粮食播种面积( (X X2 2) ) 成灾面积成灾面积( (X X3 3); ); 农业机械总动力农业机械总动力( (X X4 4); ); 农业劳动力农业劳动力( (X X5 5) ) 已知中国粮食生产的相关数据,建立中国粮食生产函数:已知中国粮食生产的相关数据,建立中国粮食生产函数: Y=Y= 0 0+ + 1 1 X X1 1 + + 2 2 X X2 2 + + 3 3 X X
27、3 3 + + 4 4 X X4 4 + + 4 4 X X5 5 + + 表表 4.3.3 中中国国粮粮食食生生产产与与相相关关投投入入资资料料年份粮食产量Y(万吨)农业化肥施用量1X(万公斤)粮食播种面积2X(千公顷)受灾面积3X(公顷)农业机械总动力4X(万千瓦)农业劳动力5X(万人)1983387281659.811404716209.31802231645.11984407311739.811288415264.01949731685.01985379111775.810884522705.32091330351.51986391511930.611093323656.0229503
28、0467.01987402081999.311126820392.72483630870.01988394082141.511012323944.72657531455.71989407552357.111220524448.72806732440.51990446242590.311346617819.32870833330.41991435292806.111231427814.02938934186.31992442642930.211056025894.73030834037.01993456493151.911050923133.03181733258.21994445103317.
29、910954431383.03380232690.31995466623593.711006022267.03611832334.51996504543827.911254821233.03854732260.41997494173980.711291230309.04201632434.91998512304083.711378725181.04520832626.41999508394124.311316126731.04899632911.82000462184146.410846334374.05257432797.5 1 1、用、用OLSOLS法估计上述模型:法估计上述模型: R R
30、2 2接近于接近于1 1; 给定给定 =5%=5%,得,得F F临界值临界值 F F0.050.05(5,12)=3.11(5,12)=3.11 F=638.4 15.19 F=638.4 15.19, 故认上述粮食生产的总体线性关系显著成立。故认上述粮食生产的总体线性关系显著成立。 但但X X4 4 、X X5 5 的参数未通过的参数未通过t t检验,且符号不正确,故检验,且符号不正确,故解释变量间可解释变量间可能存在多重共线性能存在多重共线性。54321028. 0098. 0166. 0421. 0213. 644.12816XXXXXY (-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14)2 2、检验简单相关系数、检验简单相关系数发现:发现: X X1 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《奶制品培训资料》课件
- 《小王子英文》课件
- 《企业管理概论》课件
- 2024年雷电颂教案
- 尖子生家长会发言稿
- 单位管理制度汇编大合集【人员管理篇】十篇
- 单位管理制度合并汇编职工管理
- 单位管理制度分享大全【职员管理篇】
- 单位管理制度范文大合集人力资源管理十篇
- 单位管理制度范例合集【职工管理】十篇
- 基础课部本科教学工作合格评估自评工作汇报-PPT2015-10-9-2
- 保育员(高级)考试题库附答案(600题)
- 中国铝业股份有限公司河南分公司巩义市山川铝土矿矿山地质环境保护与土地复垦方案
- 工商企业管理毕业论文范文六篇
- 二十五项反措检查表优质资料
- 保密办主任工作总结保密办主任工作总结八篇
- 新生儿沐浴及抚触护理
- 机械原理课程设计-压床机构的设计
- 教学案例 英语教学案例 市赛一等奖
- 四川省2023职教高考英语试题
- JJG 913-2015浮标式氧气吸入器
评论
0/150
提交评论