第四章-多重共线性_第1页
第四章-多重共线性_第2页
第四章-多重共线性_第3页
第四章-多重共线性_第4页
第四章-多重共线性_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章多重共线性1

本章讨论四个问题:

●什么是多重共线性●多重共线性产生的后果●多重共线性的检验●多重共线性的补救措施2所谓多重共线性(Multi-Collinearity),包括完全的多重共线性和不完全的多重共线性。对于解释变量X2、X3、…、Xk

,如果存在不全为0的数l1、l2、…、lk

,使得

l1+l2X2i

+l2X3i

+…+lk

Xki=0,i=1,2,…,n则称解释变量X2、X3、…、Xk之间存在着完全的多重共线性。一、多重共线性的含义第一节什么是多重共线性3

Rank(X)<k

时,表明在数据矩阵X中,至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。在现实的经济问题中,完全的多重共线性并不多见,常见的情形是解释变量之间存在不完全的多重共线性。

4

对于解释变量X2、X3、…、Xk

,如果存在不全为0的数l1、l2、…、lk

,使得

l1+l2X2i

+l2X3i

+…+lk

Xki+vi=0,i=1,2,…,n其中vi为随机变量,则称解释变量X2、X3、…、Xk之间存在着不完全的多重共线性。注意:解释变量之间不存在线性关系,并非不存在非线性关系,当解释变量之间存在非线性关系时,并不违反古典假定。5

二、产生多重共线性的背景

多重共线性产生的经济背景主要有几种情形:

1.经济变量之间具有相同的变化趋势。

2.模型中包含滞后变量。

3.利用截面数据建立模型也可能出现多重共线性。

4.样本数据的原因。

61.参数的估计值不确定2.参数估计值的方差无限大一、完全多重共线性产生的后果第二节多重共线性的后果7以两个解释变量的回归模型为例假设则同理这说明完全多重共线性时,参数无法确定。8再考虑参数估计值的方差同理这说明完全多重共线性时,参数估计量的方差将变成无穷大。9关于方差的推导10而的第二行第二列元素为11于是的第二行第二列元素为注意到所以同理12

如果模型中存在不完全的多重共线性,虽可以得到参数的估计值,但是对计量经济分析可能会产生一系列的影响。

二、不完全多重共线性产生的后果13仍以两个解释变量的回归模型为例假设不全为0,不妨设于是令因此不妨假定注意14将所以依赖于vi的数值,当X1,X3共线性程度越高,vi会越小,使得其数值很不稳定。代入由于是可以估计的,但其数值是同样对由类似结果。15再考虑参数估计值的方差这里r23是X2,X3的相关系数。同样可得16随着共线性增加,r23趋于1,方差将增大。同样协方差的绝对值也增大,它们增大的速度决定于方差扩大(膨胀)因子(varianceinflationfactor,VIF)这时171.参数估计值无法确定或很不稳定;2.参数估计值的方差增大,置信区间趋于变大;3.由于方差增大,在对各个参数进行显著性t检验时,增大了接受原假设的可能性,从而导致错误地舍去有显著性影响的变量;综合来看,多重共线性的后果如下:4.多重共线性严重时,甚至可能使估计的回归系数符号相反,得出完全错误的结论。(如引例)18

本节基本内容:

简单相关系数检验法方差扩大因子法直观判断法病态指数检验法

逐步回归法第三节多重共线性的检验19简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。适用于只有两个变量的情形。判断规则:一般而言,如果每两个解释变量的简单相关系数(零阶相关系数)比较高,例如大于0.8,则可认为存在着较严重的多重共线性。一、简单相关系数检验法20

注意:

较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。21用表示以Xj为被解释变量对其他解释变量的辅助回归的可决系数,则二、方差扩大因子法如果分别以每个解释变量为被解释变量,做对其他解释变量的回归,称为辅助回归。其中是变量Xj的方差扩大因子。22经验规则●方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近于1,多重共线性越弱。●经验表明,方差膨胀因子≥10时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。23

1.当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化,回归方程可能存在严重的多重共线性。

2.定性分析认为,一些变量是重要的解释变量,但在回归方程中没有通过显著性检验时,可初步判断可能存在严重的多重共线性。

3.有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存在多重共线性。三、直观判断法24

特征根分析

四、特征值与病态指数设l是矩阵近似为零的特征根,c是对应的单位特征向量,则于是即表明解释变量之间存在多重共线性。那么l小到多少才认为它近似为零呢?25特征根近似为零的标准可用病态指数(conditionIndex)确定

病态指数其中lm是的最大特征根。一般认为,当0<CI<10时,没有多重共线性;当10≤CI<100时,有较强的多重共线性;当100≤CI时,有严重的多重共线性。26

逐步回归的基本思想将变量逐个的引入模型,每引入一个解释变量后,都要进行F检验,并对已经选入的解释变量逐个进行t

检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。在逐步回归中,高度相关的解释变量,在引入时会被剔除。因而也是一种检测多重共线性的有效方法。五、逐步回归检验法27一、修正多重共线性的经验方法

1.剔除变量法把方差扩大因子最大者所对应的自变量首先剔除再重新建立回归方程,直至回归方程中不再存在严重的多重共线性。注意:

若剔除了重要变量,可能引起模型的设定误差。第四节多重共线性的补救措施28

2.增大样本容量如果样本容量增加,会减小回归参数的方差,标准误差也同样会减小。因此尽可能地收集足够多的样本数据可以改进模型参数的估计。问题:增加样本数据在实际计量分析中常面临许多困难。29

3.变换模型形式一般而言,差分后变量之间的相关性要比差分前弱得多,所以差分后的模型可能降低出现共线性的可能性,此时可直接估计差分方程。问题:差分会丢失一些信息,差分模型的误差项可能存在序列相关,可能会违背经典线性回归模型的相关假设,在具体运用时要慎重。30

4.利用非样本先验信息通过经济理论分析能够得到某些参数之间的关系,可以将这种关系作为约束条件,将此约束条件和样本信息结合起来进行约束最小二乘估计。31

5.横截面数据与时序数据并用首先利用横截面数据估计出部分参数,再利用时序数据估计出另外的部分参数,最后得到整个方程参数的估计。注意:这里包含着假设,即参数的横截面估计和从纯粹时间序列分析中得到的估计是一样的。

32

6.数据变换数据变换的主要方法:(1)计算相对指标(2)将名义数据转换为实际数据(3)将小类指标合并成大类指标变量数据的变换有时可得到较好的结果,但无法保证一定可以得到很好的结果。33

二、逐步回归法(Frisch综合分析法)第一步用被解释变量对每一个所考虑的解释变量做简单回归。然后,根据统计检验的结果,选出最优简单回归方程,称为基本回归方程。第二步将其余的解释变量逐步加入到基本回归方程

中,建立一系列回归方程,然后按下列标准来判断加入的变量。步骤如下:34(1)若新加入的变量提高了可决系数,且回归参数在经济理论上和统计检验上也合理,便认为此变量是有利变量,予以接纳。(2)若新加入的变量不能提高可决系数或提高很少,且对其他系数没有影响,便认为此变量是多余变量,不予以接纳。(3)若新加入的变量严重影响其他变量的系数或符号,便认为此变量是不利变量,它的出现是多重共线性的重要信号,但它不是多余的,它可能对被解释变量是不可缺少的,这时应研究改善模型的办法。35第五节案例分析36例设某地区10年中有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的统计如表所示,试建立正确的需求函数模型。年份服装开支C(百万元)可支配收入Y(百万元)流动资产L(百万元)服装类物价指数PC(92年=100)总物价指数PO(92年100)19888.482.917.1929419899.688.021.39396199010.499.925.19697199111.4105.329.09497199212.2117.734.0100100199314.2131.040.0101101199415.8148.244.0105104199517.9161.849.0112109199619.3174.251.0112111199720.8184.753.0112111服装消费及相关变量统计数据37解:(1)设服装的需求函数为用OLS法估计得(7.513)(2.026)(0.049)(0.090)(0.150)ESS=166.168RSS=0.332D—W=3.383由F=626.4634﹥F0.05(4,5)=5.19,故拒绝原假设,认为服装支出与解释变量之间存在显著关系。t=(-1.8013)(3.6603)(0.3053)(-2.2087)(2.2714)38(2)求出各解释变量的简单相关系数表明解释变量之间均高度相关,也就是多重共线性严重。(3)为检验多重共线性的影响,作如下简单回归:②①③④(0.3763)(0.0028)D—W=2.4013(4.2014)(0.0412)D—W=2.6271(0.8192)(0.0214)D—W=0.4684(3.6332)(0.0355)D—W=2.172039以上四个方程,根据经济理论和统计检验,收入Y是最重要的解释变量(可决系数最大,t值=3.6603也最大),选出方程①作为基本回归方程。(4)将其余解释变量逐个引入基本回归方程中,得到:C=f(Y)C=f(Y,Pc,Po)-1.24550.11780.9955C=f(Y,Pc)1.40470.1257-0.0361C=f(Y,Pc,L)0.94000.1387-0.0345-0.0379-12.75930.1036-0.18820.3186C=f(Y,Pc,Po,L)-13.53350.0970-0.19910.01510.34010.99570.99590.99800.998040分析(1)加入Pc变量,R2由0.9955提高到0.9957,进行t检验不显著,但为正,为负是合理的。从经济意义分析,Pc应该是主要变量,虽然Pc与Y高度相关,但并不影响的显著性,因此,可能是“有利变量”,暂时给予保留。

(2)加入变量L,R2由0.9957提高到0.9959,虽然Y与L、Pc与L均高度相关,但L的引入对、的影响不大,且的符号不合理,因此,可能是“多余变量”,暂时删除。

(3)舍去变量L,加入变量Po

,R2由0.9957提高到0.9980,改进较大,、、均显著,从经济意义看也是合理,因此,可以确认Pc、Po都是“有利变量”,应给予保留。

(4)最后加入变量L,R2等于0.9980,没有增加,对、、均没有多大影响,可以确定L是“多余变量”,应从模型中删除。因此得出结论:C=f(Y,Pc,Po)为最佳模型。41第四章小结1.多重共线性是指各个解释变量之间有确定或近似的线性关系。2.多重共线性的后果:如果解释变量之间有完全的共线性,则它们的回归系数是不确定的,并且它们的方差会无穷大。如果共线性是高度的但不完全的,回归系数可估计,但有较大的标准误差。42

3.诊断共线性的经验方法:(1)简单相关系数检验法(2)方差扩大因子法(3)直观判断法(4)病态指数检验法(5)逐步回归法43

4.降低多重共线性的经验方法:

(1)利用外部或先验信息

(2)横截面与时间序列数据并用

(3)剔除高度共线性的变量(如逐步回归)(4)数据转换

(5)获取补充数据或新数据44例1考虑以下模型由于X2和X3是X的函数,所以它们之间存在多重共线性,你同意这种说法吗?为什么?答:不同意,它们之间只是存在非线性相关关系,并不存在多重共线性。45例2

某地区供水部门利用最近15年的用水年度数据得出如下估计模型:式中W—用水总量(百万立方米),H—住户总数(千户),PO—总人口(千人),Y—人均收入(元),P—价格(元/100立方米),R—降雨量(毫米)。

(1)根据经济理论和直觉,回归系数的符号是什么,为什么?观察符号与你的直觉相符吗?(2)在10%的显著性水平下,进行t检验与方程的F

检验。t检验与F检验结果有相矛盾的现象吗?(3)你认为估计值是(a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论