版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、补充内容:多重共线性“多重共线性”一词由R.Frisch1934年提出,它原指模型的解释变量间存在线性关系。非多重共线性假定rk(XX)=rk(X)=k.解释变量不是完全线性相关的或接近完全线性相关的。|rxixj装1,|rxix|不近似等于1。就模型中解释变量的关系而言,有三种可能。(1) rxixj=0,解释变量间毫无线性关系,变量间相互正交。这时已不需要多重回归,每个参数月都可以通过y对为的一元回归来估计。(2) |rxi为|=1,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。(3) 0rxixjR2
2、,贝Uxi,为间的多重共线性是有害的。(3) 此外还有其他一些检验方法,如主成分分析法等,很复杂。4. 多重共线性的克服方法,逐步回归法(1)用被解释变量对每一个所考虑的解释变量做简单回归。(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,以对被解释变量贡献大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。若新变量的引入改进了R2,且回归参数的t检验在统计上也是显著的,则该变量在模型中予以保留。若新变量的引入未能改进R2,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。若新变量的引入未能改进R2,且显著地影响了其他回归参数估计值的符号与数值,
3、同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性。舍弃该变量。(2)利用先验信息,合并高度相关的解释变量,从而减少解释变量个数,达到消除多重共线性的目的。案例:中国电信业务总量的计量模型(文件:coline2)经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量(x)、中国人口数(X2)、市镇人口占总人口的比重(X3)、人均GDP(X)、全国居民人均消费水平(X5)。所得数据见附表。40LOG(Y)3020100.5.54LOG(Y)40302010011.411.611.812.012.212.412.6X21.411.611.812.012.212.4124030
4、2010400.270.280.290.300.310.2630201001234567LOG(Y)X30.260.270.280.290.300.3LOG(Y)X440LOG(Y)302010X50.5.0.52.02.53.03.5用1991-1999年数据建立中国电信业务总量计量经济模型如下,Lny=24.94+2.16X1-3.03X2+33.7X3+1.29X4-2.03X5(0.6)(1.6)(-0.8)(1.0)(1.5)(-1.2)R2=0.99,F=106.3,DW=3.4,T=9,(1991-1999),t0.05=3.18,DependentVariable:LOG(Y)
5、Method:LeastSquaresDate:03/12TOTime:14:17Sample:19911999Includedobservations:9VariableCoefficientSlid.Errort-StalisticProbX1X2X3X4X5249366038.452070.6485110.56292.1636311.3523221.5999380.20793.0345513.986712-0.7B116605019337133332.939431.0234950.39141,2888600.8340691.5452670.2200-20271911.664341-1.2
6、18014.3103R-squred0.994355Meandependentvar2013502AdjusledR-squared0985027S.D.dependentvar1.018022S.Eofregression0.124570Akaikeinfocriterion-3.931056Sumsqumdresid0046553Schwarzcriterion-3799573Loglikelihood10.91930Fstatistic106.2583Durbin-Watsonstat3.408677Prob(F-statistic)0001421R2=0.99,但每个回归参数的t检验在
7、统计上都不显著(估计量的方差变大所致),这说明模型中存在严重的多重共线性。下面用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有一个简单相关系数大于R2=0.9944,所以根据Klein判别法,模型中存在严重的多重共线性。Ln(y)X1X2X3X4X5Ln(y)1.0000x10.98331.0000x20.99380.98951.0000x30.98750.97000.98821.0000x40.98200.96280.98720.96781.0000x50.98150.97030.98880.96540.99861.0000Lny=-0.34+206X1R20.9
8、668,F=204,T=9(-2.1)(14.3)Lny=-33.26-291X2(-22.2)(23.6)R20.9875,F=555,T=9Lny=-18.46+7075X3(-14.9)(16.6)R20.9752,F=275.5,T=9Lny=-0.49+0.56X4(-2.5)(13.8)R20.9644,F=189.7,T=9Lny=-0.42+1.16X5(-2.1)(14.3)2R0.9633,F=183.5,T=9解释变量的重要程度依次为X2,X3,X1,X4,X5。(2)以Lny=-33.26-291x2为基础,依次用逐步回归法筛选解释变量。(1)用每个解释变量分别对被解释
9、变量做简单回归,决系数为标准确定解释变量的重要程度,为解释变量排序。引入X3,Xi,X4,X5。首先把X3引入模型,以可Lny=-29.9-2024X2+16.76X3(-6.9)(2.7)(0.8)R2=0.988,F=265.5,T=9因为X3的引入使各回归系数的t值下降,同时X3的系数也未通过t检验,所以应剔除X3。接着把Xi引入模型,Lny=-33.37(-3.2)-2.92X2(3.2)-0.007X1(-0.01)R2=0.9875,F=237.9,T:=9同理剔除X1引入X4Lny=-31.94(-3.4)-2.79X2(3.3)+0.022X4(0.14)R2=:0.9876,
10、F=:238.7,T=9同理剔除X4引入X5Lny=-31.94(-3.4)-2.79X2(3.3)+0.022X5(0.14)R2=:0.9876,F=:238.7,T=9同理剔除X5,最后确定的模型是Lny=-33.26-291X2(-22.2)(23.6)R2=0.9875,F=555,T=9或者用解释变量之间相关系数值最小的Xi和X4同做解释变量与Lny回归,得Lny=-0.48-1.08Xi+0.28X4(-3.4)(2.7)(2.5)R2=0.98,F=184,T=9(2)已知10年间平均X5=0.4676X4,X3=0.2893X2,可以考虑将X5、X合并,x?、X3合并。得新变
11、量,Z1=X5+X4=0.4676X4+X4=1.4676X4,Z2=X2+X3=X2+0.2893X2=1.2893X2。用Lny对Z1,Z2回归,Lny=-31.9444+2.1697Z1+0.0157Z2R2=0.9876,F=184,T=9(-3.4)(3.3)(0.1)Z2的系数没有显著性。实际上Zi,Z2仍然高度相关,R(zi,Z2)=0.9871。近似等于可决系数。剔除Z2,再次回归,得Lny=-31.2573+2.2604Zi(-22.2)(23.6)R2=0.9876,F=184,T=9这时回归系数呈高度显著性,可决系数也没有出现明显降低。DependentVariable:
12、LOG(Y)Method:LeastSquaresDate:11JO7A12Time:09:13Sample:19911999Includedobservations:9VariableCoefficientStd.Errort-StatisticProb.C-33.257321.497494-22.208650.000012893-X22.2604250.095936235618400000R-squared0.987548Meandependentvar2.013502AdjustedR-squared0.985769S.D,dependentvar1.018022SE.ofregress
13、ion0.121443Akaiikeinfocriterion-1185615Sumsquaredresid0103239Schwar;criterion-1.1J17S7Loglikelihood7.335268F-statistic5551601Durbin-Watsonstat1.690478Prob(F-statistic)0.000000表11991-1999年中国电信业务总量数据1y(百亿元)1X1(百亿元)1X2(亿人)X3GDPX4(千元)X5(千元)19911.51630.527511.58230.26371.8790.89619922.26570.636711.71710.
14、27632.2871.07019933.82450.802611.85170.28142.9391.33119945.92300.958911.98500.28623.9231.74619958.75511.133412.11210.29044.8542.236199612.08751.332912.23890.29375.5762.641199712.68951.443412.36260.29926.0532.834199822.64941.662812.48100.30406.3072.972199931.32381.984412.59090.30896.5343.143资料来源:中国统计
15、年鉴2000用EViews求相关系数矩阵有两种方式可以求相关系数矩阵。点击Quick键并依次选择GroupStatistics,Correlations,QuickOfibonsWindowHelpSample.GenerateshowGraphs,.ErriptyGroup(EditSeries)SeriesStatisticsGrouaStatistics!DescriptiveStatisticsCovariancesEstimateEquation.Estimate明RCotrelationsCrossCorrelogramCointegratonTestGrangerCausalit
16、yTest将出现一个要求填写序列名的对话框(SeriesList),填好序列名后按OK。可得。(2)在Workfile窗口中用鼠标选中序列名,点击Show键,OK键,从而打开数据组(Group)窗口。在数据组窗口点击View键选择Correlations。)Group:UNTITLEDWorkfile:C0LINE2aroupMembers|Nsrne1FreezeEdi|InwDel|TramSpreadsheetX1X2X3BatedDataTable0.52750011.582300.263700Graph0,63670011.717100,276300MultipleGraphs0.8
17、0260011.851700.2S1400DescriptiveStatsTestsofQuality.N-WayTabulation.0.95890011.995000.286200113340012.112100.2904001,33290012.238900.293700144340012.362600.299200Correlations1,66280012,481000.304000Covariances198440012.590903039001.5.1丢失重要解释变量可见当模型中丢失重要解释变量后,回归系数的估计量是有偏的。实际中应该对所研究的问题有深入全面的了解,建立模型时应避免丢失重要解释变量。注意,当X与Z相互正交,即XZ=0时,若丢失变量Z,任仍具有无偏性。1.5.2误差项u的期望不等于零线性回归模型的假定条件是E(u)=0。对这一假定的违反不会造成严重后果。因为当u的期望非零时,只要在模型中加入一个常数项,问题就可迎刃而解。1.5.3平稳的随机解释变量假定条件规定解释变量是非随机的且与随机误差项相互独立,即E(Xu)=0.这个假定条件保证了OLS估计量的无偏性。然而经济时间序列变量有时很难满足这个条件。比如在建立模型过程中如果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论