




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多重共线性的情形及其处理一、多重共线性对回归模型的影响设回归模型y=飞「必“「:2X2…「pxp•;存在完全的多重共线性,即对设计矩阵X的列向量存在不全为零的一组数Co,Ci,C2,…,Cp,使得:Co•CiXil•C2&川…川-CpXip=0(i=1,2,,n),此时设计矩阵X的秩Rank(X)vp+1,此时|XX|=0,正规方程组XX?=Xy的解不唯一,(XX)」不存在,回归参数的最小二乘估计表达式?=(XX)JXy不成立。在实际问题研究当中, c0-C1x1-C2xi^'-Cpxip:、0,虽然Rank(X)=p+1成立,但是IXX|0,(XX)」的对角线元素很大,?的方差阵D(?)「「2(XX),的对角线元素很大,而D(色的对角线元素即为var(^0),var(0?),…,var(f?p),因而or…「p的估计精度很低,这样,虽然OLSE能得到]的无偏估计,但估计量?的方差很大,不能正确判断解释变量对被解释变量的影响程度。例如在二元回归中,假定y与&,X2都已经中心化,此时回归常数项为零,2TOC\o"1-5"\h\z回归方程为?=(?为+码乂2,由此可以得到 var(f?)= -~2 ,(1-r12)Ln◎2 n n nvar("2) 2,其中 L〔1 二、、召,L12 二' x^Xj? , L22 = Xi2 贝U, X2之(1—「12)L22 7 i# 7间的相关系数「12=/S。随着自变量X1与X2的相关性增强,网和场的方差•-L11L22将逐渐增大。当X1与X2完全相关时,r=1,方差将变为无穷大。当给定不同的「12值时,从下表可以看出方差增大的速度。表6.1「120.00.20.500.700.800.900.950.991.00var(?1)1.01.041.331.962.785.2610.2650.25_2_2为了方便,假设1,相关系数从0.5变为0.9时,回归系数的方差增加了Ln295%相关系数从0.5变为0.95时,回归系数的方差增加了670%当回归自变量為与X2相关程度越高,多重共线性越严重,那么回归系数的估计值方差就越大,回归系数的置信区间就变得很宽,估计的精确性就大幅度降低,使估计值稳定性变得很差,进一步致使在回归方程整体高度显著时,一些回归系数则通不过显著性检验,回归系数的正负号也可能出现倒置,使得无法对回归方程得到合理的经济解释,直接影响到最小二乘法的应用效果,降低回归方程的价值。如果利用模型去作经济结构分析,要尽可能避免多重共线性;如果是利用模
型去作经济预测,只要保证自变量的相关类型在未来时期中保持不变, 即未来时期自变量间仍具有当初建模时数据的联系特征,即使回归模型中包含有严重多重共线性的变量也可以得到较好的预测结果; 如果不能保证自变量的相关类型在未来时期中保持继续不变,那么多重共线性就会对回归预测产生严重的影响。二、多重共线性的诊断1、方差扩大因子法对自变量作中心标准化,则X"X"二(rj)为自变量的相关阵,记C=(Cj)=(X"X“)二称其主对角线元素VIFj二c为自变量X的方差扩大因子。var£)=5严2/Lj(j=1,2,…,p),其中L”为Xj的离差平方和。记R:为自变1量Xj对其余p-1个自变量的复决定系数,则有Cjj -2,该式子同样也可以1-Rj作为方差扩大因子VIFj的定义。由于r2度量了自变量Xj与其余p-1个自变量的线性相关程度,这种相关程度越强,说明自变量之间的多重共线性越严重, R:也就越接近于1,VIFj也就越大。由此可见VIFj的大小反映了自变量之间是否存在多重共线性, 因此可以由它来度量多重共线性的严重程度。经验表明,当VIFj-10时,就说明自变量Xj与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。也可以用p个自变量所对应的方差扩大因子的平均数来度量多重共线性, 当——1pVIF VIFj远远大于1时就表示存在严重的多重共线性问题。pj—对于只含两个解释变量洛和X2的回归方程,判断它们是否存在多重共线性,实际上就是计算Xi和X2的样本决定系数,如果很大,则认为Xi和X2可能存在严重的多重共线性。为什么说可能存在多重共线性?因为R2和样本容量n有关,当样本容量较小时,R2容易接近与1,就像当n=2时,两点总能连成一条直线,r2=i。所以我们认为当样本容量还不算小,而R2接近于1时,可以肯定存在多重共线性。当某自变量Xj对其余p-1个自变量的复决定系数R2超过一定界限时,SPSS软件将拒绝这个自变量X进入回归模型。称Tolj=1-Rj2为自变量Xj的容忍度。F面看一个民航客运实例分析的结果:UnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF(Constant)450.909178.0782.5320.030x10.3540.0852.4474.1520.0020.0011963.000x2-0.5610.125-2.485-4.4780.0010.0011741.000x3-0.0070.002-0.083-3.5100.0060.3153.171x421.5784.030.5315.3540.0000.01855.488x50.4350.0520.5648.4400.0000.04025.193a.DependentVariable:y从上面共线性诊断的分析结果可以看到X1,X2的方差扩大因子很大,分别为VIR=1963,VIF“=1741,远远超过10,说明民航客运量回归方程也存在这严重的多重共线性。X1和X2的简单相关系数为0.9989,高度相关。一般情况下,当一个回归方程存在严重的多重共线性时,有若干个自变量所对应的方差扩大因子大于10,这个回归方程多重共线性的存在就是方差扩大因子超过10的这几个变量引起的,说明这几个自变量间有一定的多重共线性关系存在。2、特征根判定法当矩阵XX有一个特征根近似为零时,设计矩阵X的列向量间必存在多重共线性,并且XX有多少个特征根接近于零,X就有多少个多重共线性关系。记XXr- 的最大特征根为总,称ki=,(i=0,1,2,…,p)为特征根丸i的条件数。在V人一些书籍中,条件数定位为k^-m'i,没有开平方根,SPS软件是采用开平方根的,使用软件时要注意这一点。条件数度量了矩阵XX的特征根散步程度,可以用它来判断多重共线性是否存在以及多重共线性的严重程度。通常认为OvkvIO时,设计矩阵X没有多重共线性;10乞k<100时,认为X存在较强的多重共线性;当k_100时,则认为存在严重的多重共线性。在看上面的例子,用SPS软件计算出特征根与条件数结果如下所示。DimensionEigenvalu Conditioe nIndexVarianeeProportions(Constant)x1x2x3x4x51234565.5780.3780.0370.0040.0020.000080813.84212.20536.43153.643262.762000.010.170.720.1000000.990000.010.010.990000.090.660.25000.030.50.150.31000.190.040.710.06a.DependentVariable:y从条件数看到,最大的条件数k6=262.762,这与方差扩大因子法结果是一致。输入结果中特征根是按照从大到小的顺序排列的,不是按自变量的顺序排列的,这与方差扩大因子法不同。如何判定究竟是哪几个自变量间存在共线性呢?可以由条件数表中右边的方差比例粗略判断。如果有某几个自变量的方差比例值在某一行同时较大(接近1),则这几个自变量间就存在多重共线性。表中第6行乂!和X2的系数都为0.99,说明禺和X2之间存在强的多重共线性;表中第5行X0(常数项),X3,X5的系数分别为0.72,0.66,0.71说明X。(常数项),X3,X5之间存在多重共线性。由于设计矩阵X的第一列有一列1,代表常数项,X共有P+1列,XX是P+1阶方阵。当一个自变量的取值范围很小,接近常数时,这个自变量就与常数项存在多重共线性。如在多重共线性的定义式中,如果 c2=c3二…二cp=0,而c=0,®=0,这时自变量X1就与常数项存在多重共线性。3、直观判定法(1) 当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生(2) 从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。(3(4) 自变量的相关矩阵中,自变量间的相关系数较大。(5) —些重要的自变量的回归系数的标准误差较大。
三、消除共线性的方法1、 删除一些不重要的解释变量在选择回归模型时,可以将回归系数的显著性检验、方差扩大因子 VIF的多重共线性检验与自变量的经济含义结合起来考虑,以引进或剔除变量。2、 增大样本容量建立一个实际经济问题的回归模型,如果所手机的样本数据太少,也容易产生多重共线性。例如,在建立二元回归模型时,假设数据都已经中心化,有var(?)=2(J(1-ri2)L11,Var(var(?)=2(J(1-ri2)L11,Var(?2)〒-ri2)L22n其中Ln»x2i,i=!L12二、Xi1Xi2nL22=7Xi;则X1,X2之间的相关系数i4o,可以看到,在「12固定不变时,当样本容量n增大时,Ln和L22都会增大,两个方差均可减小,从而减弱了多重共线性对回归方程的影响。因此,增大样本容量也是消除多重共线性的一个途径。在实践中,当所选的变量个数接近样本容量n时,自变量间就容易产生共线性。所以在运用回归分析研究经济问题时,要尽可能使样本容量 n远大于自变量个数p。但是,增加了样本数据,可能新的数据距离原来样本数据的平均值较大,会产生一些新的问题,使模型拟合变差,没有收到增加样本数据期望的效果。四、 回归系数的有偏估计为了消除多重共线性对回归模型的影响,还可以采取有偏估计为代价来提高估计量稳定性的方法,如岭回归,主成份回归法,偏最小二乘法等。五、 主成份回归主成分分析是多元统计分析的一个基本方法,是对数据做一个正交旋转变换,就是对原有变量做一些线性变换,变换后的变量都是正交的。为了避免变量的量纲不同所产生的影响,要先把数据做中心标准化,中心标准化后的自变量样本观测数据矩阵X”就是n行p列的矩阵,r=(X)X”就是相关阵。六、一些问题在建立经济问题的回归模型时,当发现解释变量之间的简单相关系数很大时,可以断定自变量间存在着严重的多重共线性,但是,一个回归方程存在严重的多元共线性时,并不能完全肯定解释变量之间的简单相关系数就一定很大。例如对含有三个自变量的回归模型:y=2。「X「2x2「3x3•;,假定三个变量之间有完全确定的关系:X^X2X3,因为X1可以由X2和X3线性表示,所以变量X1与X2和X3的复决定系数R:23=1,回归方程存在完全的多重共线性。再假定X2与X3的简单相关系数「23=0.5,X2与X3的离差平方和L22=L33=1,此时L23=%.L22L33 =-0.5, L11 = (X1 -XJ2二》(X2 X3 -区 X3))2='化- X?)'+'(X3临)2+、(X2-X2)(X3讥)=1+1+2(-0.5)=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025学校教职工合同范本
- 2024年节能型泵及环保用泵项目资金申请报告代可行性研究报告
- 2025公寓租赁合同
- 2025土地使用权出让合同土地征收补偿协议
- 2024年电子涂料项目资金申请报告代可行性研究报告
- 2024年表面处理机械项目投资申请报告代可行性研究报告
- 2025短期用工合同范本 管理资料
- 2025企业间借款合同法律关系
- 2025煤炭采购合同范本
- 2025成都房屋租赁合同范本AA
- DB34∕T 3221-2018 火灾高危单位消防安全评估规程
- 地震监测设备维护保养手册
- 上海市市辖区(2024年-2025年小学四年级语文)统编版期中考试((上下)学期)试卷及答案
- 【部编版道德与法治六年级下册】全册测试卷(含答案)
- 专业劳务派遣服务行业发展方向及匹配能力建设研究报告
- 2024北京西城区初三一模语文试卷和答案
- GB/T 44252.1-2024物联网运动健康监测设备第1部分:数据分类和描述
- ISO∕IEC 23894-2023 信息技术 -人工智能 - 风险管理指南(雷泽佳译-2024)
- DL∕T 5370-2017 水电水利工程施工通 用安全技术规程
- 唱歌《乘着歌声的翅膀》教案-贵州省施秉县第三中学人教版九年级音乐下册
- 幼儿园童话故事《海的女儿》课件
评论
0/150
提交评论