应用回归分析(R语言版)(第2版) 课件 第6章 多重共线性的情形及其处理_第1页
应用回归分析(R语言版)(第2版) 课件 第6章 多重共线性的情形及其处理_第2页
应用回归分析(R语言版)(第2版) 课件 第6章 多重共线性的情形及其处理_第3页
应用回归分析(R语言版)(第2版) 课件 第6章 多重共线性的情形及其处理_第4页
应用回归分析(R语言版)(第2版) 课件 第6章 多重共线性的情形及其处理_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章多重共线性的情形及其处理6.1多重共线性产生的背景和原因6.2多重共线性对回归建模的影响6.3多重共线性的诊断6.4消除多重共线性的方法6.5本章小结与评注2024/3/51中国人民大学六西格玛质量管理研究中心2024/3/52中国人民大学六西格玛质量管理研究中心

如果存在不全为0的p+1个数,使得则称自变量之间存在着完全多重共线性。在实际经济问题中完全的多重共线性并不多见,常见的是(6.1)式近似成立的情况,即存在不全为0的p+1个数,使得称自变量之间存在着多重共线性(Multi-collinearity),也称为复共线性。第6章多重共线性的情形及其处理6.1多重共线性产生的背景和原因

2024/3/53

当我们所研究的经济问题涉及到时间序列资料时,由于经济变量随时间往往存在共同的变化趋势,它们之间就容易出现共线性。例如,我们要研究我国居民消费状况,影响居民消费的因素很多,一般有职工平均工资、农民平均收入、银行利率、全国零售物价指数、国债利率、货币发行量、储蓄额、前期消费额等,这些因素显然既对居民消费产生重要影响,它们之间又有着很强的相关性。

中国人民大学六西格玛质量管理研究中心2024/3/54

许多利用截面数据建立回归方程的问题常常也存在自变量高度相关的情形。例如,我们以企业的截面数据为样本估计生产函数,由于投入要素资本K,劳动力投入L,科技投入S,能源供应E等都与企业的生产规模有关,所以它们之间存在较强的相关性。中国人民大学六西格玛质量管理研究中心6.1多重共线性产生的背景和原因

6.2多重共线性对回归建模的影响

2024/3/55

中国人民大学六西格玛质量管理研究中心

设回归模型存在完全的多重共线性,即对设计矩阵X的列向量存在不全为零的一组数,使得

设计矩阵X的秩此时,正规方程组的解不唯一,不存在,回归参数的最小二乘估计表达式不成立。2024/3/56中国人民大学六西格玛质量管理研究中心6.2多重共线性对回归建模的影响

对非完全共线性,存在不全为零的一组数,使得此时设计矩阵X的秩虽然成立,但是

的对角线元素很大,的方差阵

的对角线元素很大,而的对角线元素即

,因而

的估计精度很低。这样,虽然用普通最小二乘估计能得到的无偏估计,但估计量的方差很大,不能正确判断解释变量对被解释变量的影响程度,甚至导致估计量的经济意义无法解释。2024/3/57中国人民大学六西格玛质量管理研究中心6.2多重共线性对回归建模的影响

做y对两个自变量

的线性回归,假定y与都已经中心化,此时回归常数项为零,回归方程为记则之间的相关系数为2024/3/58中国人民大学六西格玛质量管理研究中心6.2多重共线性对回归建模的影响

的协方差阵为2024/3/59中国人民大学六西格玛质量管理研究中心6.2多重共线性对回归建模的影响

由此可得可知,随着自变量

的相关性增强,的方差将逐渐增大。当

完全相关时,r=1,方差将变为无穷大。2024/3/510

中国人民大学六西格玛质量管理研究中心6.2多重共线性对回归建模的影响

当给不同的r12值时,由表6-1可看出方差增大的速度。为了方便,我们假设,相关系数从0.5变为0.9时,回归系数的方差增加了295%,相关系数从0.5变为0.95时,回归系数的方差增加了671%。2024/3/511

在例3-3中,我们建立的中国民航客运量回归方程为:

=450.9+0.354x1-0.561x2-0.0073x3+21.578x4+0.435x5其中:y—民航客运量(万人),

x1—国民收入(亿元),x2—消费额(亿元),

x3—铁路客运量(万人),x4—民航航线里程(万公里),

x5—来华旅游入境人数(万人)。

5个自变量都通过了t检验,但是x2的回归系数是负值,x2是消费额,从经济学的定性分析看,消费额与民航客运量应该是正相关,负的回归系数无法解释。问题出在哪里?这正是自变量之间的复共线性造成的。中国人民大学六西格玛质量管理研究中心6.2多重共线性对回归建模的影响

6.3多重共线性的诊断

2024/3/5126.3.1方差扩大因子法

中国人民大学六西格玛质量管理研究中心

对自变量做中心标准化,则为自变量的相关阵。记 (6.5)称其主对角线元素为自变量的方差扩大因子(VarianceInflationFactor,简记为VIF)。由(3.31)式可知,其中是的离差平方和,由(6.6)式可知用作为衡量自变量的方差扩大程度的因子是恰如其分的。(6.6)2024/3/513中国人民大学六西格玛质量管理研究中心6.3多重共线性的诊断

记为以

作因变量对其余p-1个自变量进行回归得到的复决定系数,可以证明(6.7)式(6.7)也可以作为方差扩大因子

的定义,由此式可知。2024/3/514中国人民大学六西格玛质量管理研究中心6.3多重共线性的诊断

经验表明,当时,就说明自变量与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。还可用p个自变量所对应的方差扩大因子的平均数来度量多重共线性。当远远大于1时就表示存在严重的多重共线性问题。

2024/3/515

以下用R软件诊断例3-3中国民航客运量一例中的多重共线性问题。由于计算方差扩大因子VIF的函数vif()在car包中,而该包不是基本包,所以首先要安装并加载car包,以下是计算代码及其运行结果。中国人民大学六西格玛质量管理研究中心6.3多重共线性的诊断

2024/3/516中国人民大学六西格玛质量管理研究中心6.3多重共线性的诊断

6.3.2特征根判定法1、特征根分析

根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而,当行列式时,矩阵

至少有一个特征根近似为零。反之可以证明,当矩阵至少有一个特征根近似为零时,X的列向量间必存在复共线性,证明见158页。证明如下:记,其中为X

的列向量,

是元素全为1的n维列向量。是矩阵

的一个近似为零的特征根,是对应于特征根的单位特征向量,则上式两边左乘

,得。从而有,即。写成分量形式即为这正是(6.2)式定义的多重共线性关系。2024/3/517中国人民大学六西格玛质量管理研究中心6.3多重共线性的诊断

如果矩阵

有多个特征根近似为零,在上面的证明中,取每个特征根的特征向量为标准化正交向量,即可证明:有多少个特征根接近于零,设计矩阵X就有多少个多重共线性关系,并且这些多重共线性关系的系数向量就等于接近于零的那些特征根对应的特征向量。2024/3/518中国人民大学六西格玛质量管理研究中心6.3多重共线性的诊断

2024/3/519中国人民大学六西格玛质量管理研究中心6.3多重共线性的诊断

2、条件数

特征根分析表明,当矩阵

有一个特征根近似为零时,设计矩阵X的列向量间必存在复共线性。那么特征根近似为零的标准如何确定呢?可以用下面介绍的条件数确定。记的最大和最小特征根分别为,称为矩阵的条件数(ConditionIndex)。2024/3/520中国人民大学六西格玛质量管理研究中心6.3多重共线性的诊断

k<100时,设计矩阵X多重共线性程度较小;100≤k≤

1000时,认为X存在较强的多重共线性;当k>1000时,认为存在严重的多重共线性。

用条件数判断多重共线性的准则:在R软件中,通常用kappa()函数计算矩阵的条件数,其使用方法为:kappa(z,exact=FALSE,…),其中,z为矩阵,exact是逻辑变量,当exact=TRUE时,精确计算条件数,否则近似计算条件数。2024/3/521

对例3-3中国民航客运量的例子,用R软件计算矩阵的条件数,计算代码及结果如下:

中国人民大学六西格玛质量管理研究中心6.3多重共线性的诊断

2024/3/522中国人民大学六西格玛质量管理研究中心6.3多重共线性的诊断

根据条件数k=14694.56>1000,说明自变量之间存在严重的多重共线性。进一步,为找出哪些变量是多重共线的,需要计算矩阵的特征值和相应的特征向量,在R命令窗口输入代码eigen(XX),得到其最小的特征值和相应的特征向量为即由于的系数近似为0,故之间存在着多重共线性。2024/3/523

6.3.3直观判定法1.当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。2.从定性分析角度看来,一些重要的自变量在回归方程中没有通过显著性检验。3.有些自变量的回归系数所带正负号与定性分析结果违背。4.自变量的相关矩阵中,自变量间的相关系数较大。5.一些重要的自变量的回归系数的标准误差较大。中国人民大学六西格玛质量管理研究中心6.3多重共线性的诊断

6.4消除多重共线性的方法

2024/3/524

中国人民大学六西格玛质量管理研究中心6.4.1剔除不重要的解释变量

在剔除自变量时,可以将回归系数的显著性检验、方差扩大因子VIF以及自变量的经济含义结合起来考虑,以引进或剔除变量。民航客运量一例中,5个自变量都通过了回归系数的显著性检验,但仍存在着严重的多重共线性,的方差扩大因子为1963.337最大,因此剔除,建立y对其余四个自变量的回归方程,相关计算结果如下所示:2024/3/525

中国人民大学六西格玛质量管理研究中心6.4消除多重共线性的方法

2024/3/526

中国人民大学六西格玛质量管理研究中心6.4消除多重共线性的方法

从输出结果看到,的方差扩大因子为77.546最大,远大于10,且其回归系数仍为负值,因此剔除,建立y对其余三个自变量的回归方程,相关计算结果如下所示:2024/3/527

中国人民大学六西格玛质量管理研究中心6.4消除多重共线性的方法

2024/3/528中国人民大学六西格玛质量管理研究中心6.4消除多重共线性的方法

6.4.2增大样本容量例如,由(6.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论