版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五章 多重共线性的情形及其处理5 .1 多重共线性产生的背景和原因及其 影响5 .2 多重共线性的诊断5 .3 主成分回归5 .4 岭回归第五章 多重共线性的情形及其处理 如果存在不全为0的p+1个数c0,c1,c2,cp ,使得c0+c1xi1+c2xi2+cpxip=0 , i=1,2,n (6.1) 则称自变量x1,x2,xp之间存在着完全多重共线性。 在实际经济问题中完全的多重共线性并不多见,常见的是(6.1)式近似成立的情况,即存在不全为0的p+1个数c0,c1,c2,cp ,使得c0+c1xi1+c2xi2+cpxip0 , i=1,2,n(6.2) 称自变量x1,x2,xp之间
2、存在着多重共线性(Multi-collinearity),也称为复共线性。5.1多重共线性产生的经济背景和原因及其影响 在研究社会、经济问题时,因为问题本身的复杂性,设计的因素很多。在建立回归模型时,往往由于研究者认识水平的局限性,很难在众多因素中找到一组互不相关又对因变量y有显著影响的变量,不可避免地出现所选按自变量相关的情形。 设回归模型y=0+1x1+2x2+pxp+存在完全的多重共线性,即对设计矩阵X的列向量存在不全为零的一组数c0,c1,c2,cp ,使得c0+c1xi1+c2xi2+cpxip=0 , i=1,2,n 设计矩阵X的秩rank(X) p+1,此时|xx|=0,正规方程
3、组的解不唯一,(xx)-1不存在,回归参数的最小二乘估计表达式 不成立。对非完全共线性, 存在不全为零的一组数c0,c1,c2,cp ,使得c0+c1xi1+c2xi2+cpxip0 , i=1,2,n例:做y对两个自变量x1,x2的线性回归,假定y与x1,x2都已经中心化,此时回归常数项为零,回归方程为5.2 多重共线性的诊断 一、方差扩大因子法 对自变量做中心标准化,则X*X*=(rij)为自变量的相关阵。记C=(cij)=(X*X*)-1称其主对角线元素VIFj=cjj为自变量xj的方差扩大因子(Variance Inflation Factor,简记为VIF)。根据OLS性质3可知,其
4、中Ljj是xj的离差平方和,由(6.6)式可知用cjj做为衡量自变量xj的方差扩大程度的因子是恰如其分的。5.2 多重共线性的诊断 5.2 多重共线性的诊断 经验表明,当VIFj10时,就说明自变量xj与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。 还可用p个自变量所对应的方差扩大因子的平均数来度量多重共线性。当远远大于1时就表示存在严重的多重共线性问题。 5.2 多重共线性的诊断5.2 多重共线性的诊断以下用SPSS软件诊断例3.2中国民航客运量一例中的多重共线性问题。 5.2 多重共线性的诊断二、特征根判定法(一)特征根分析 根据矩阵行列式的性质,矩阵
5、的行列式等于其特征根的连乘积。因而,当行列式|XX|0时, 矩阵XX至少有一个特征根近似为零。反之可以证明,当矩阵XX至少有一个特征根近似为零时,X 的列向量间必存在复共线性,证明如下: 记X =(X0 ,X1,Xp),其中 Xi为X 的列向量, X0 =(1,1,1)是元素全为1的n维列向量。是矩阵XX的一个近似为零的特征根,0c=(c0,c1, ,cp)是对应于特征根的单位特征向量,则XX c=c0 上式两边左乘c,得 cXX c0从而有 X c0即 c0X0 +c1X1+cp Xp0写成分量形式即为 c0+c1xi1+c2xi2+cpxip0 , i=1,2,n这正是定义的多重共线性关系
6、。(二)条件数 特征根分析表明,当矩阵XX有一个特征根近似为零时,设计矩阵X 的列向量间必存在复共线性。那么特征根近似为零的标准如何确定哪?这可以用下面介绍的条件数确定。记XX的最大特征根为m,称为特征根i的条件数(Condition Index)。 0k10时,设计矩阵X没有多重共线性;10k100时,认为X存在较强的多重共线性;当k100时,则认为存在严重的多重共线性。 用条件数判断多重共线性的准则 对例3.2中国民航客运量的例子,用SPSS软件计算出特征根与条件数如下: 方差比例是用于判断哪几个自变量之间存在共线性的。实际上共线性关系可以直接从特征向量看出来,只是SPSS软件在线性回归模
7、块中没有输出特征向量阵。 把特征向量按照特征值由大到小排成行向量,每个数值平方后再除以特征值,然后再把每列数据除以列数据之和,使得每列数据之和为1,这样就得到了输出结果6.2的方差比。 再次强调的是线性回归分析共线性诊断中设计阵X包含代表常数项的一列1,而因子分析模块中给出的特征向量是对标准化的设计阵给出的,两者之间有一些差异。 三、 等级相关系数法 (Spearman Rank Correlation ) 四、 Bartlett球度检验(Bartlett test of sphericity ) Bartlett球度检验以原有变量的相关系数矩阵为出发点,其原假设是:相关系数矩阵式单位阵,即相
8、关系数矩阵为对角阵(对角元素不为0,非对角元素均为0)且对角元素均为1.Bartlett球度检验的检验统计量根据相关系数矩阵的行列式计算得到,且近似服从卡方分布。如果该统计量的观测值比较大,且对应的概率P值小于给定的显著性水平,则应拒绝原假设,认为相关系数矩阵不太可能是单位阵;反之,如果检验统计量的观测值比较小且对应的概率P值大于给定的显著性水平,则不能拒绝原假设,可以认为相关系数矩阵与单位阵无显著差异。5.2 多重共线性的诊断 五、直观判定法 1.当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。 2.从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。
9、 3.有些自变量的回归系数所带正负号与定性分析结果违背。 4.自变量的相关矩阵中,自变量间的相关系数较大。 5.一些重要的自变量的回归系数的标准误差较大。 5.3 消除多重共线性的方法 一、剔除一些不重要的解释变量 在剔除自变量时,可以将回归系数的显著性检验、方差扩大因子VIF以及自变量的经济含义结合起来考虑,以引进或剔除变量。 5.3 消除多重共线性的方法二、增大样本容量例如 可以看到,在r12固定不变时,当样本容量n增大时,L11和L22都会增大,两个方差均可减小,从而减弱了多重共线性对回归方程的影响。5.3 消除多重共线性的方法 三、回归系数的有偏估计 消除多重共线性对回归模型的影响是近
10、30年来统计学家们关注的热点课题之一,除以上方法被人们应用外,统计学家还致力于改进古典的最小二乘法,提出以采用有偏估计为代价来提高估计量稳定性的方法,如: 主成分回归法 岭回归法 偏最小二乘法等。5.4 主成分回归 主成分分析(Principal Components Analysis,简记为PCA)是多元统计分析的一个基本方法,是对数据做一个正交旋转变换,也就是对原有变量做一些线性变换,变换后的变量是正交的。为了避免变量的量纲不同所产生的影响,要求先把数据做中心标准化,中心标准化后的自变量样本观测数据矩阵(即设计阵)就是n行p列的矩阵, 就是相关阵。 一、定义 任何一组p各变量均可变换为一组
11、p个正交的变量,新的正交的变量称为主成分,记为 每一个线性回归方程都可用一组正交的预测变量来重新表述,这些新变量是以原始预测变量的线性组合形式获得的,称为自变量集的主成分。 二、步骤 用主成分分析方法选择kp个独立的主成分,可以解释设计矩阵的大多数或所有变化。将因变量对k个主成分回归,得到最小二乘估计。(1)对p个自变量计算主成分(2)选择k个含有原始变量大部分信息的主成分(3)用y对k个主成分F1,F2,Fk做普通最小二乘回归(4)转换回到用原始自变量表示的回归方程 转换方法: 载荷矩阵;主成分对自变量做线性回归 三、注意事项 舍弃任何主成分时都应慎重; 结果可能会过度收到异常点和强影响点的
12、影响5.5 岭回归一、岭回归的定义 岭回归(Ridge Regression,简记为RR)提出的想法是很自然的。 当自变量间存在复共线性时,XX0,我们设想给XX加上一个正常数矩阵kI,(k0),那么XX+kI接近奇异的程度就会比XX接近奇异的程度小得多。 考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用X表示我们称 为的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以XX就是自变量样本相关阵,上式计算的实际是标准化岭回归估计。 式中因变量观测向量y可以经过标准化也可以未经标准化。 显然,岭回归做为的估计应比最小二乘估计稳定,当k=0时的岭回归估计就是
13、普通的最小二乘估计。二、岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定估计式中因变量观测向量y未经标准化。 岭回归的不足(1)碰运气;(2)k可变动,不唯一;(3)有偏。三、岭迹分析 三、岭迹分析 四、 岭参数k的选择 1、岭迹法 岭迹法选择k值的一般原则是: (1)各回归系数的岭估计基本稳定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。 2、方差扩大因子法 三、由残差平方和来确定k值 岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度
14、以内,可以给定一个大于1的c值,要求: SSE(k)cSSE 寻找使上式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用。五、 用岭回归选择变量岭回归选择变量的原则: (1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。 (2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。(3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。 例7.2 空气污染问题。Mcdonald和Schw
15、ing在参考文献18中曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。x1Average annual precipitation in inches 平均年降雨量x2Average January temperature in degrees F 1月份平均气温x3Same for July 7月份平均气温x4Percent of 1960 SMSA population aged 65 or older 年龄65岁以上的人口占总人口的百分比x5Average household size 每家人口数x6Median school yea
16、rs completed by those over 22 年龄在22岁以上的人受教育年限的中位数x7Percent of housing units which are sound & with all facilities 住房符合标准的家庭比例数x8Population per sq. mile in urbanized areas, 1960 每平方公里人口数x9Percent non-white population in urbanized areas, 1960 非白种人占总人口的比例x10Percent employed in white collar occupations
17、白领阶层人口比例x11Percent of families with income $3000 收入在3000美元以下的家庭比例x12Relative hydrocarbon pollution potential 碳氢化合物的相对污染势x13 Same for nitric oxides 氮氧化合物的相对污染势x14Same for sulphur dioxide 二氧化硫的相对污染势x15Annual average % relative humidity at 1pm 年平均相对湿度yTotal age-adjusted mortality rate per 100,000 每十万人中
18、的死亡人数计算XX的15个特征为:4.5272,2.7547,2.0545,1.3487,1.22270.9605,0.6124, 0.4729,0.3708,0.21630.1665,0.1275,0.1142,0.0460,0.0049条件数 注:以上特征根是按照原文献的计算方式,自变量观测阵未包含代表常数项的第一列1,与用SPSS计算结果有所不同进行岭迹分析 把15个回归系数的岭迹画到图7.4中,我们可看到,当k=0.20时岭迹大体上达到稳定。按照岭迹法,应取k=0.2。 若用方差扩大因子法,因k=0.18时,方差扩大因子接近于1,当k在0.020.08时,方差扩大因子小于10,故应建议在此范围选取k。 由此也看到不同的方法选取k值是不同的。 在用岭回归进行变量选择时,因为从岭迹看到自变量x4,x7,x10,x11和x15有较稳定且绝对值比较小的岭回归系数,根据变量选择的第一条原则,这些自变量可以去掉。 又因为自变量x12和x13的岭回归系数很不稳定,且随着k的增加很快趋于零,根据上面的第二条原则这些自变量也应该去掉。 再根据第三条原则去掉变量x3和x5。 这个问题最后剩的变量是x1,x2,x6,x8,x9,x14。 例7.3Gorman-T
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版借款合同双方约定
- 二零二五年度工业厂房安全租赁合同3篇
- Unit 1 Back to school Project 说课稿-2024-2025学年高一英语译林版(2020)必修第一册
- 宝石合成技术的现状与发展方向考核试卷
- 压力容器智能化设计与制造技术考核试卷
- 2006年江西省中考满分作文《月光下的风铃》
- 保险资管产品考核试卷
- 全国川教版信息技术八年级下册第12课《建立自己的网站》说课稿
- 城市地下空间开发策略考核试卷
- 2006年河北省中考满分作文《世纪财富》
- 常用静脉药物溶媒的选择
- 当代西方文学理论知到智慧树章节测试课后答案2024年秋武汉科技大学
- 2024年预制混凝土制品购销协议3篇
- 2024-2030年中国高端私人会所市场竞争格局及投资经营管理分析报告
- GA/T 1003-2024银行自助服务亭技术规范
- 《消防设备操作使用》培训
- 新交际英语(2024)一年级上册Unit 1~6全册教案
- 2024年度跨境电商平台运营与孵化合同
- 2024年电动汽车充电消费者研究报告-2024-11-新能源
- 湖北省黄冈高级中学2025届物理高一第一学期期末考试试题含解析
- 上海市徐汇中学2025届物理高一第一学期期末学业水平测试试题含解析
评论
0/150
提交评论