多重共线性的情形及其处理_第1页
多重共线性的情形及其处理_第2页
多重共线性的情形及其处理_第3页
多重共线性的情形及其处理_第4页
多重共线性的情形及其处理_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多重共线性的情形及其处理一、多重共线性对回归模型的影响设回归模型〉=B+pX+PX+…PX+£存在完全的多重共线性,即对设01122pp计矩阵X的列向量存在不全为零的一组数c,c,c,…,c,使得:012pc+cx+cX+…+cX=0(i=1,2,...,n),此时设计矩阵X的秩Rank(X)<p+1,01i12i2pip此时|xx|=0,正规万程组x邱二xy的解不唯一,(XX)-1不存在,回归参数的一■人.八、最小二乘估计表达式p=(xX)-1xy不成立。在实际问题研究当中,c+cX+cX+—+cX=0,虽然Rank(X)=p+1

01i12i2pip成立,但是IxX|』,(xX)-1的对角线兀素很大,p的万差阵d(P)=q2(xX)-1的对角线元素很大,而D(P)的对角线元素即为var(p),var(p),…,var(p),01p因而P0,P1?—,Pp的估计精度很低,这样,虽然OLSE能得到p的无偏估计,但估人...一...一.计量P的万差很大,不能正确判断解释变量对被解释变量的影响程度。例如在二元回归中,假定y与气,X2都已经中心化,此时回归常数项为零,回归方程为y=Px11zvC2var(p回归方程为y=Px11zvC2var(p)=——2(1—r2)L1222221(1—r2)LTOC\o"1-5"\h\z1211X2则X,X之P和P的方差12其中L=乙2,L=^XX,L=£11i112i1i2X2则X,X之P和P的方差12间的相关系数,12,'12。随着自变量X与间的相关系数,12乂11L2212将逐渐增大。当气与X2完全相关时,r=1,方差将变为无穷大。当给定不同的如值时,从下表可以看出方差增大的速度。表6.1r120.00.20.500.700.800.900.950.991.00var(p1)1.01.041.331.962.785.2610.2650.258为了方便,假设M=1,相关系数从0.5变为0.9时,回归系数的方差增加了L11295%,相关系数从0.5变为0.95时,回归系数的方差增加了670%、当回归自变量气与七相关程度越高,多重共线性越严重,那么回归系数的估计值方差就越大,回归系数的置信区间就变得很宽,估计的精确性就大幅度降低,使估计值稳定性变得很差,进一步致使在回归方程整体高度显著时,一些回归系数则通不过显著性检验,回归系数的正负号也可能出现倒置,使得无法对回归方程得到合理的经济解释,直接影响到最小二乘法的应用效果,降低回归方程的价值。如果利用模型去作经济结构分析,要尽可能避免多重共线性;如果是利用模型去作经济预测,只要保证自变量的相关类型在未来时期中保持不变,即未来时期自变量间仍具有当初建模时数据的联系特征,即使回归模型中包含有严重多重共线性的变量也可以得到较好的预测结果;如果不能保证自变量的相关类型在未来时期中保持继续不变,那么多重共线性就会对回归预测产生严重的影响。二、多重共线性的诊断1、方差扩大因子法'对自变量作中心标准化,则X*X*=(r)为自变量的相关阵,记'-.、一C=(匕)=(X*X*)-1称其王对角线兀素VIF=c为自变量X的方差扩大因子。var(P)=Cb"L(j=1,2,,p),其中L为x的离差平方和。记R2为自变jjj■jjjjjJ1量七对其余P-1个自变量的复决定系数,则有七=^R-,该式子同样也可以j作为方差扩大因子VIF的定义。j由于RJ度量了自变量七与其余P-1个自变量的线性相关程度,这种相关程度越强,说明自变量之间的多重共线性越严重,RJ也就越接近于1,VIFj.也就越大。由此可见VI。•的大小反映了自变量之间是否存在多重共线性,因此可以由它来度量多重共线性的严重程度。经验表明,当VIF,>10时,就说明自变量七与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。也可以用P个自变量所对应的方差扩大因子的平均数来度量多重共线性,当1TVIF=-YVIF远远大于1时就表小存在严重的多重共线性问题。j=1对于只含两个解释变量气和X2的回归方程,判断它们是否存在多重共线性,实际上就是计算X和X的样本决定系数R2,如果R2很大,则认为X和X可能2121212存在严重的多重共线性。为什么说可能存在多重共线性?因为R2和样本容量n有关,当样本容量较小时,R2容易接近与1,就像当n=2时,两点总能连成一条直线,R2=1。所以我们认为当样本容量还不算小,而R2接近于1时,可以肯定存在多重共线性。当某自变量Xj对其余p-1个自变量的复决定系数R2超过一定界限时,SPSS软件将拒绝这个自变量X进入回归模型。称Tol=1-R2为自变量x的容忍度。jjjj下面看一个民航客运实例分析的结果:UnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF(Constant)450.909178.0782.5320.030x10.3540.0852.4474.1520.0020.0011963.000x2-0.5610.125-2.485-4.4780.0010.0011741.000x3-0.0070.002-0.083-3.5100.0060.3153.171x421.5784.030.5315.3540.0000.01855.488x50.4350.0520.5648.4400.0000.04025.193a.DependentVariable:y从上面共线性诊断的分析结果可以看到气,X2的方差扩大因子很大,分别为VIF^=1963,VIF=1741,远远超过10,说明民航客运量回归方程也存在这严重的多重共线性。气和X2的简单相关系数为0.9989,高度相关。一般情况下,当一个回归方程存在严重的多重共线性时,有若干个自变量所对应的方差扩大因子大于10,这个回归方程多重共线性的存在就是方差扩大因子超过10的这几个变量引起的,说明这几个自变量间有一定的多重共线性关系存在。2、特征根判定法当矩阵XX有一个特征根近似为零时,设计矩阵X的列向量间必存在多重共线性,并且XX有多少个特征根接近于零,X就有多少个多重共线性关系。记XX的最大特征根为人m,称k=j丁,(i=0,1,2,,p)为特征根七的条件数。在i的最大特征根为人m,称k=j条件数度量了矩阵XX的特征根散步程度,可以用它来判断多重共线性是否存在以及多重共线性的严重程度。通常认为0<k<10时,设计矩阵X没有多重共线性;10<k<100时,认为X存在较强的多重共线性;当k>100时,则认为存在严重的多重共线性。在看上面的例子,用SPSS软件计算出特征根与条件数结果如下所示。DimensionEigenvalueConditionIndexVarianceProportions(Constant)x1x2x3x4x515.578100000020.3783.84200000030.03712.2050.010000.030.1940.00436.4310.1700.010.090.50.0450.00253.6430.7200.010.660.150.7160.0000808262.7620.10.990.990.250.310.06a.DependentVariable:y从条件数看到,最大的条件数k6=262.762,这与方差扩大因子法结果是一致。输入结果中特征根是按照从大到小的顺序排列的,不是按自变量的顺序排列的,这与方差扩大因子法不同。如何判定究竟是哪几个自变量间存在共线性呢?可以由条件数表中右边的方差比例粗略判断。如果有某几个自变量的方差比例值在某一行同时较大(接近1),则这几个自变量间就存在多重共线性。表中第行x代口x的系数都为0.99,说明x和x之间存在强的多重共线性;表中第5行x(常数120项),x,x的系数分别为0.72,0.66,0.71说明x(常数项),x,x之间存在5035多重共线性。由于设计矩阵X的第一列有一列1,代表常数项,X共有p+1列,XX是p+1阶方阵。当一个自变量的取值范围很小,接近常数时,这个自变量就与常数项存在多重共线性。如在多重共线性的定义式中,如果乌二匕二二匕二0,而C0牛0,七牛0,这时自变量气就与常数项存在多重共线性。3、直观判定法(1)当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。(2)从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。(3)有些自变量的回归系数所带正负号与定性分析结果违背。(4)自变量的相关矩阵中,自变量间的相关系数较大。(5)一些重要的自变量的回归系数的标准误差较大。

三、消除共线性的方法1、删除一些不重要的解释变量在选择回归模型时,可以将回归系数的显著性检验、方差扩大因子VIF的多重共线性检验与自变量的经济含义结合起来考虑,以引进或剔除变量。2、增大样本容量var(p)var(p)1L12_22_,var(B)=——。其中L=8x2,(1-匕)L112(1-M)L2211.],1L=8x2则x,x之间的相关系数,=史』,可以看到,在rL1222..21212LL12当样本容量n增大时,L11和L22都会增大,两个方差均可减小,从而减弱了多重共线性对回归方程的影响。因此,增大样本容量也是消除多重共线性的一个途径。在实践中,当所选的变量个数接近样本容量n时,自变量间就容易产生共线性。所以在运用回归分析研究经济问题时,要尽可能使样本容量n远大于自变量个数P。但是,增加了样本数据,可能新的数据距离原来样本数据的平均值较大,会产生一些新的问题,使模型拟合变差,没有收到增加样本数据期望的效果。四、回归系数的有偏估计为了消除多重共线性对回归模型的影响,还可以采取有偏估计为代价来提高估计量稳定性的方法,如岭回归,主成份回归法,偏最小二乘法等。五、主成份回归主成分分析是多元统计分析的一个基本方法,是对数据做一个正交旋转变换,就是对原有变量做一些线性变换,变换后的变量都是正交的。为了避免变量的量纲不同所产生的影响,要先把数据做中心标准化,中心标准化后的自变量样本观测数据矩阵X*就是n行p列的矩阵,r=(X*)'X•就是相关阵。六、一些问题在建立经济问题的回归模型时,当发现解释变量之间的简单相关系数很大时,可以断定自变量间存在着严重的多重共线性,但是,一个回归方程存在严重的多元共线性时,并不能完全肯定解释变量之间的简单相关系数就一定很大。例如对含有三个自变量的回归模型:〉=0+8x+px+px+£,假定三个变TOC\o"1-5"\h\z0112233量之间有完全确定的关系:x=x+x,因为x可以由x和x线性表示,所以123123变量x与x和x的复决定系数R2=1,回归方程存在完全的多重共线性。再假定1231,23x与x的简单相关系数r=-0.5,x与x的离差平方和L=L=1,此时2323232233L=rLL=-0.5,L=8(x一x)2=8(x+x一(x+x))2=8(x一x)2232322331111232322+8(x一x)2+8(x一x)(x一x)=1+1+2(-0.5)=1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论