多重共线性的诊断方法和解决方法综述,计量经济学论文_第1页
多重共线性的诊断方法和解决方法综述,计量经济学论文_第2页
多重共线性的诊断方法和解决方法综述,计量经济学论文_第3页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多重共线性的诊断方法和解决方法综述,计量经济学论文摘要:多元线性回归模型的经典假定之一是解释变量之间不存在线性关系。但在实际应用中,多元线性回归模型中的解释变量之间往往存在近似的线性关系,假如仍然用最小二乘法估计模型,会造成分析结果不准确甚至严重偏离变量间本来的依存关系。为此,首先总结了多重共线性的检验方式方法,然后讨论了多重共线性常用的修正方式方法,最后结合实例演绎了逐步回归法和主成分回归法的详细应用,为现实经济问题中多重共线性的检验与处理提供一定借鉴。本文关键词语:多重共线性;诊断;弥补措施;逐步回归法;主成分回归;Abstract:Therebeingnolinearrelationshipamonginterpretationvariablesisoneoftheclassicalassumptionsinmultiplelinearregressionmodel.However,inthepracticalapplication,thereisoftenanapproximatelinearrelation.Ifwestillusethemethodofordinaryleastsquarestoestimatethemodel,theresultmaybecomeincorrectandevenfarfromtheoriginalrelationshipamongthevariables.Therefore,thepaperfirstsummarizesthetestmethodsofMulticollinearity.Andthen,thepapersummarizesthecommomcorrectionmethodsofmulticollinearity.Finally,theapplicationofstepwiseregressionandprincipalcomponentregressionisdeducedbyusinganexample.Theresearchwillprovidesomereferenceforthetestandtreatmentofmulticollinearityinrealeconomicproblems.Keyword:multicollinearity;diagnosis;remedialmeasures;stepwiseregression;principalcomponentregression;多重共线性是指模型中解释变量间存在相关关系。假如解释变量之间存在完全线性相关关系,则称模型出现了完全多重共线性;假如解释变量之间近似线性相关,则称模型出现了不完全多重共线性。古典线性回归模型的假设之一是模型中不存在多重共线性。假如模型存在多重共线性,仍然采用普通最小二乘法估计模型参数,会产生下面后果:完全共线性下模型的普通最小二乘估计量不存在,无法得到参数的估计量;近似共线性下普通最小二乘估计量即便存在,但共线性使得参数估计量的方差增大,进而导致变量的显着性检验失去意义、模型的预测失效。在实际经济问题中,解释变量之间往往存在某种关联,多重共线性是多元回归模型中普遍存在的问题。那么,怎样诊断多重共线性及其影响程度以及如何处理模型中的多重共线性,显得尤为重要。关于多重共线性的诊断方式方法与解决方式方法,不少学者进行了研究。本文综述了多重共线性的诊断方式方法和解决方式方法。在实际应用中,对于多重共线性的检验有时并不需要复杂的检验方式方法,而经历体验方式方法简单易行,本文结合实例给出了诊断共线性的经历体验方式方法。本研究可为现实经济问题中多重共线性的检验与处理提供一定借鉴。1、多重共线性的诊断方式方法1.1、经历体验方式方法模型的可决系数R2值较高,但变量显着性检验〔t检验〕表示清楚变量不显着,或模型的经济意义不合理,这是多重共线性的典型特征。也就是讲假如R2较高,则模型显着性检验〔F检验〕通常会拒绝零假设,即方程整体显着,但t检验表示清楚,没有或很少有斜率系数是显着不为零的。1.2、简单相关系数检验法对模型中任意两个不同的解释变量求简单相关系数。假如相关系数的绝对值较大,则以为这两个变量相关性较高。但是,相关系数检验法只能检验两个解释变量的相关性,对于3个或更多个解释变量的相关性检验不适用。1.3、辅助回归模型检验[1]将模型中每一个解释变量对其余解释变量进行回归。假如某一种回归的拟合优度较大,讲明Xj与其他解释变量之间存在共线性。另一等价的检验是:在模型中排除某一解释变量Xj,重新估计模型,假如调整的可决系数〔珚R2〕与包含Xj时特别接近,则讲明Xj与其他解释变量之间存在线性关系。1.4、方差膨胀因子检验[2]在多元线性回归模型中,第i个解释变量的方差膨胀因子为:华而不实,Ri2是把第i个解释变量作为被解释变量,将其对其他k-1个解释变量作线性回归所得的可决系数。该方式方法其实和辅助回归模型检验一样,只不过利用可决系数构造了一个新的指标VIFi。方差膨胀因子越大,讲明Ri2越接近1,则第i个解释变量与其他解释变量之间共线程度越强。1.5、特征值、病态数与病态指数检验[2]对于由k个解释变量、n个样本观察值组成的样本数据矩阵:当模型存在完全共线性时,|XX|=0;当模型存在严重共线性时,|XX|0。设1,2,,k+1为矩阵XX的k+1个特征值,若则特征值1,2,,k+1中至少有一个近似等于0,表示清楚模型存在严重的共线性。病态数〔CN〕和病态指数〔CI〕是利用特征值构造的用于检验多重共线性的指标。其指标定义为这两个指标数值越大,讲明多重共线性越严重。一般经历体验是:CI大于10即可以为模型存在共线性,大于30即可以为模型存在严重的共线性。2、多重共线性的解决方式方法2.1、排除引起共线性的解释变量找出引起多重共线性的解释变量,然后把它从模型中剔除出去,这是解决多重共线性最有效的方式方法。在实际应用中,解决方式方法有逐步回归法、利用粗糙集理论的属性约简方式方法和GMDH算法[3,4],华而不实逐步回归法应用最广泛。逐步回归法是在模型中逐个引入解释变量,根据模型经济意义的检验、统计意义的检验以及珚R2的变化来判定新引入的变量能否引起了共线性。假如新引入的变量使得模型经济意义检验和统计意义检验都能通过,且又能提高模型的珚R2,则应引入;假如珚R2无显着变化,或者模型的经济意义检验通不过,或者变量的显着性检验没有通过,则无需引入[5]。利用逐步回归法能够剔除掉引起共线性的变量,但是,当排除了引起共线性的变量后,保存在模型中的变量的系数的估计值将会发生改变,其经济意义也将发生变化。2.2、改变参数的约束形式根据经济理论或其他信息,找出参数间的某种关系进行受约束回归。受约束回归模型减少了解释变量的个数,消除或削弱了多重共线性。这种方式方法的缺点在于外生的或先验的信息并不总是可获得的,即便能获得这一信息,但要假设外生的或先验的信息在当下样本中仍然有效并不总是能够实现。所以应用这种方式方法的关键在于获得这一信息,并检验约束条件在当下样本中的真伪。假如约束条件为真,则能够应用该方式方法。2.3、变换模型的形式对原设定的模型形式进行适当的变换,能够消除或削弱模型中解释变量之间的线性关系。详细有3种变换方式:一是变换模型中变量的形式;二是变换模型的函数形式,如将线性模型转换成非线性模型;三是改变变量的统计指标[6]。2.4、减少参数估计量的方差减少参数估计量的方差,能够使变量显着性检验的t值增大,使本来不显着的解释变量变得显着。在实际应用中,有增大样本容量和岭回归两种方式方法。2.4.1、增大样本容量在建立的计量经济学模型中,假如变量的样本数据太少,很容易产生多重共线性。对于多元线性回归模型,参数估计值^bi的方差为:式中:2为随机误差项的方差;Xi为第i个解释变量的观察值;珡Xi为i个解释变量的均值;,Ri2表示第i个解释变量对模型中其他解释变量回归时的可决系数。从式〔7〕能够看出,当样本容量增大时,将会增大,进而使var(^bi〕变小,这对提高^bi的估计精度有益。2.4.2、岭回归法岭回归法是以引入偏误为代价来减少参数估计量方差的方式方法。岭回归法的参数估计量为矩阵D一般选择为主对角矩阵。即式中:l为大于0的常数;I为单位矩阵。关于l的取值,一般采用何瑞尔和肯纳德于1975年提出的方式方法。与最小二乘估计量相比,式〔9〕的估计量方差较小。岭回归分析方式方法固然能够减少参数估计量的方差,使回归结果更符合实际,但假如原模型的经济意义不合理,即便使用岭回归法也不一定使修正后的模型能通过经济意义的检验。因而在实际应用中并不是所有的共线性都能够用岭回归法来解决[7]。2.5、主成份回归主成分回归是运用降维的思想,在尽量减少信息损失的情况下,将多个指标通过正交旋转转化为几个综合指标的分析方式方法。其基本原理是:利用主成分分析将解释变量转换成若干个主成分,这些主成分从不同侧面反映了解释变量的综合影响[8,9]。因而,能够将解释变量对这些主成分进行回归,再根据主成分与解释变量之间的关系,求得原回归模型的估计方程。3、实践应用根据上述多重共线性的诊断方式方法及解决方式方法,本文将结合实际例子对多重共线性进行检验与修正,进而给出多重共线性检验与修正的详细操作方式方法,为相关研究与应用提供一定的借鉴。取中国民航客运量作为被解释变量〔Y,万人〕。选取的解释变量为居民消费支出〔X1,亿元〕、消费支出〔X2,亿元〕、来华旅游入境人数〔X3,万人〕、民航航线里程〔X4,万公里〕。收集整理的样本数据〔表1〕来源于1996-2022年的(中国统计年鉴〕[10]。将居民消费支出和消费支出换算为以1995年为基期的不变价,建立中国民航客运量预测模型。表11995-2021年中国民航客运量及其影响因素数据表11995-2021年中国民航客运量及其影响因素数据运用Eviews软件对中国民航客运量的多元线性回归模型进行最小二乘估计,结果如下:式〔10〕中括号内的数字是各变量显着性检验对应的P值,下同。从模型的最小二乘估计结果能够看出,模型的整体拟合优度非常高,但除X4之外,其余解释变量的显着性检验都没有通过,并且变量X3经济意义检验没有通过,讲明模型出现了严重的多重共线性。为了消除或削弱多重共线性的影响,本文选择两种修正方式方法:第一种方式方法是逐步回归法,即排除引起共线性的变量的方式方法;第二种方式方法是主成分分析方式方法,该方式方法没有去掉任何变量便能够削弱共线性的影响,使模型经济意义合理。3.1、逐步回归法3.1.1、一元回归模型根据相关系数和理论分析可知,中国民航客运量与民航航线里程关联程度最大,因而,设建立一元回归方程为:3.1.2、最优回归模型的选择通过逐步引入其他变量,确定最适宜的多元回归方程。回归结果见表2。表2中国民航客运量预测模型逐步回归结果由表2可知,模型Y=f(X1,X4〕中调整的断定系数较一元模型Y=f(X4〕的高,模型经济意义合理,变量都通过了显着性检验,因而最终的预测模型为:比照模型〔10〕和模型〔12〕可知,利用逐步回归法可有效解决多重共线性问题,但要剔除引起共线性的变量X2和X3。3.2、主成分回归利用Eviews软件对标准化的解释变量X1、X2、X3、X4进行主成分分析。分析结果见表3和表4。表3特征值、累计奉献率等表4特征向量由表3能够看出,特征值最大为3.6214、最小为0.006。第1主成分的奉献率为90.53%,讲明第一个主成分包含了原始数据90%以上的信息。由表4可知主成分为:将标准化的Y〔记为Yz〕关于Z1进行回归,估计模型后发现模型存在一阶序列相关,用广义差分法重新估计模型,得到下面估计结果:R2=0.9962,DW=1.81模型〔14〕拟合优度高,且不存在序列相关性。将式〔13〕代入式〔14〕,得:模型〔15〕中各变量均为标准化变量。将各变量复原,最终得到复原后的预测模型为:模型〔16〕拟合优度高,模型的经济意义合理。从模型〔16〕中能够得到每个解释变量对民航客运量的影响。尽管多重共线性的检验方式方法很多,但在实际应用中,经历体验方式方法是最常使用的方式方法。当模型总体拟合优度高,但多个变量的显着性检验不能通过甚至模型的经济意义不合理时,基本能够断定模型出现了多重共线性。至于修正方式方法,假如决策者不介意剔除引起共线性的变量,则逐步回归法是简单易行的,而且会彻底解决多重共线性带来的问题,但它无法得到剔除掉的影响因素对被解释变量的影响。主成分回归会削弱解释变量之间的共线程度,能求得各个影响因素对被解释变量的单独影响,但有时会碰到修正过的模型经济意义不合理的情况,这时决策者能够考虑其他修正方式方法,比方岭回归法,详细哪一种方式方法更优,则需详细试算并比拟才可得知。4、结束语本文对已有的多重共线性的诊断及处理方式方法进行了总结,并结合实际例子给出了多重共线性的检验与修正经过。需要指出的是,模型存在多重共线性并不意味着

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论