计量经济学-多重共线性_第1页
计量经济学-多重共线性_第2页
计量经济学-多重共线性_第3页
计量经济学-多重共线性_第4页
计量经济学-多重共线性_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第四章第四章 多重共线性多重共线性计量经济学计量经济学2三、多元线性回归中的基本假定 假定假定1 1:零均值假定零均值假定 或或 假定假定2 2和假定和假定3 3:同方差和无自相关假定:同方差和无自相关假定 假定假定4 4:随机扰动项与解释变量不相关:随机扰动项与解释变量不相关 E( ) 0 ( 1,2, , ) iuin Cov(, ) 0 2,3, jiiX ujkCov( , ) E( -E )( -E ) E()ijiijjiju uuu uuuu20 () iji=j(E u)= 03假定假定5:5:无多重共线性假定无多重共线性假定 ( (多元中多元中) ) 假定各解释变量之间不存

2、在线性关系,或各个假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观解释变量观测值之间线性无关。或解释变量观测值矩阵测值矩阵 列满秩列满秩( ( 列列) )。 即即 可逆可逆假定假定6 6:正态性假定正态性假定X2(0,)iuNk()RankkX()RankKX XX X4引子:引子:发展农业和建筑业会减少财政收入吗?发展农业和建筑业会减少财政收入吗? 为了分析各主要因素对财政收入的影响,建立财政收为了分析各主要因素对财政收入的影响,建立财政收入模型入模型:其中其中: CS财政收入财政收入(亿元亿元) ; NZ农业增加值农业增加值(亿元亿元); GZ工业增加值工业

3、增加值(亿元亿元); JZZ建筑业增加值建筑业增加值(亿元亿元); TPOP总人口总人口(万人万人); CUM最终消费最终消费(亿元亿元); SZM受灾面积受灾面积(万公顷万公顷) 数据样本时期数据样本时期1978年年-2003年(资料来源:年(资料来源:中国统计年鉴中国统计年鉴2004,中国统计出版社,中国统计出版社2004年版)年版) 采用普通最小二乘法得到以下估计结果采用普通最小二乘法得到以下估计结果iiiiiiiiuSZMCUMTPOPJZZGZNZCS65432105 VariableCoefficientStd. Errort-StatisticProb. 农业增加值农业增加值NZ

4、-1.5350900.129778-11.828610.0000工业增加值工业增加值GZ0.8987880.2454663.6615580.0017建筑业增加值建筑业增加值JZZ-1.5270891.206242-1.2659890.2208总人口总人口TPOP0.1511600.0337594.4776460.0003最终消费最终消费CUM0.1015140.1053290.9637830.3473受灾面积受灾面积SZM-0.0368360.018460-1.9953820.0605截距项截距项-11793.343191.096-3.6957040.0015R-squared0.995015

5、 Mean dependent var5897.824Adjusted R-squared0.993441 S.D. dependent var5945.854S.E. of regression481.5380 Akaike info criterion15.41665Sum squared resid4405699. Schwarz criterion15.75537Log likelihood-193.4165 F-statistic632.0999Durbin-Watson stat1.873809 Prob(F-statistic)0.000000财政收入模型的财政收入模型的EVie

6、wsEViews估计结果估计结果6 可决系数为可决系数为0.9950.995,校正的可决系数为,校正的可决系数为0.9930.993,模型,模型拟合很好。模型对财政收入的解释程度高达拟合很好。模型对财政收入的解释程度高达99.5%99.5%。 F F统计量为统计量为632.10632.10,说明,说明0.050.05水平下回归方程整体水平下回归方程整体上显著。上显著。 t t 检验结果表明,除了工农业增加值和总人口以检验结果表明,除了工农业增加值和总人口以外,其他因素对财政收入的影响均不显著。外,其他因素对财政收入的影响均不显著。 农业增加值和建筑业增加值的回归系数是负数。农业增加值和建筑业增

7、加值的回归系数是负数。 农业和建筑业的发展反而会使财政收入减少吗?农业和建筑业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢?若模型设定和数据真实性没问题,问题出在哪里呢?模型估计与检验结果分析模型估计与检验结果分析7第四章第四章 多重共线性多重共线性 本章讨论四个问题:本章讨论四个问题: 什么是多重共线性、背景什么是多重共线性、背景 多重共线性产生的后果多重共线性产生的后果 多重共线性的检验多重共线性的检验 多重共线性的补救措施多重共线性的补救措施8第一节第一节 什么

8、是多重共线性什么是多重共线性 本节基本内容本节基本内容: : 多重共线性的含义多重共线性的含义 产生多重共线性的背景产生多重共线性的背景 9一、多重共线性的含义一、多重共线性的含义对于模型 i=1,2,n其基本假设之一是解释变量是互相独立的。 如果某两个或多个解释变量之间出现了相关性,如果某两个或多个解释变量之间出现了相关性,则称为则称为多重共线性多重共线性12233.iiikk iiYXXXu10不完全的多重共线性不完全的多重共线性: 在计量经济学中所谓的多重共线性在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括完全的多重共线性,还包,不仅包括完全的多重共线性

9、,还包括不完全的多重共线性。括不完全的多重共线性。 对于解释变量对于解释变量 ,如果存在不全为,如果存在不全为0的的 数数 ,使得,使得 则称解释变量则称解释变量 之间存在着完全的多重之间存在着完全的多重 共线性。共线性。23,kX XX12k, ,.12233.01,2,., iikkiXXXin 23,kXXX11当当 时,表明在数据矩阵时,表明在数据矩阵 中,中,至少有一个列向量可以用其余的列向量线性至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。表示,则说明存在完全的多重共线性。矩阵表示为矩阵表示为不存在即10XXXX()RankkX12不完全的多重共线性不完全

10、的多重共线性 实际中,常见的情形是解释变量之间存在不完实际中,常见的情形是解释变量之间存在不完全的多重共线性。全的多重共线性。 对于解释变量对于解释变量,存在不全为存在不全为0的数的数,使得使得 为随机变量。这表明解释变量为随机变量。这表明解释变量只是一种近似的线性关系只是一种近似的线性关系。其中其中,23,kXXX12,k12233.01, 2,.,iikkiiXXXvin 23,kXXXiv13无多重共线性无多重共线性 如果解释变量之间不存在上述关系,则称解释变量之间无多重共线性此时: 注意:个解释变量不存在多重共线性(线性相关)并不能说明它们之间无关,不存在非线性关系()RankkX()

11、RankKX X存在即10XXXX14 ,解释变量间毫无线性关系,变量间相互正交。这时已不需要作多元回归,每个参数j都可以通过Y 对 Xj 的一元回归来估计。回归模型中解释变量的关系回归模型中解释变量的关系 可能表现为三种情形:可能表现为三种情形:(1) ,解释变量间完全共线性。此时模型参数将无法确定。 ,解释变量间存在一定程度的线性关系。实际中常遇到的情形。(2)(3) 0ijx xr1ijx xr01ijx xr15 二、产生多重共线性的原因二、产生多重共线性的原因 多重共线性产生的经济背景主要有几种情形:1.经济变量之间往往存在同方向的变化趋势。当他们被引入同一个模型成为解释变量时,会出

12、现多重共线性2.模型中包含滞后变量,变量各期值之间有可能高度相关。 3.利用截面数据建立模型也可能出现多重共线性。164.经济变量之间往往存在着密切的内在关联度,要素之间互相制约,互相依存。5.样本数据自身的原因,数据收集的范围过窄,造成某些解释变量之间似乎有相同或相反变化趋势的假象。.在建模过程中由于解释变量选择不当,引起变量之间的多重共线性注:解释变量之间的多重共线性不可避免,只可能使多重共线性的程度尽可能地减弱17第二节第二节 多重共线性产生的后果多重共线性产生的后果 本节基本内容本节基本内容: : 完全多重共线性产生的后果完全多重共线性产生的后果 不完全多重共线性产生的后果不完全多重共

13、线性产生的后果18一、完全多重共线性产生的后果一、完全多重共线性产生的后果无法估计导致)(而不存在即011YXXXXXXX19以两个解释变量的模型为例 假定 代入上式iiXX322021 1. 参数的估计值不确定参数的估计值不确定当解释变量当解释变量完全线性相关完全线性相关时时 OLS 估计式不确定估计式不确定 从偏回归系数意义看:在从偏回归系数意义看:在 和和 完全共线性时,无法保完全共线性时,无法保持持 不变,去单独考虑不变,去单独考虑 对对 的影响(的影响( 和和 的影响的影响不可区分)不可区分) 从从OLS估计式看:可以证明此时估计式看:可以证明此时2. 参数估计值的方差无限大参数估计

14、值的方差无限大OLS估计式的方差成为无穷大:估计式的方差成为无穷大: 2X3X3X200 =2X2X3X2Var() Y22以两个解释变量的模型为例 假定 代入上式iiXX322324二、不完全多重共线性产生的后果二、不完全多重共线性产生的后果估计值方差将很大。共线变量的参数,。中对角线元素值将很大)()(,而最小方差性。仍满足线性,无偏性和)(则OLSXXCovVarXXYXXXXX1210025以两个解释变量的模型为例 如果模型中存在不完全的多重共线性,可以得到参数如果模型中存在不完全的多重共线性,可以得到参数的估计值,但是对计量经济分析可能会产生一系列的影的估计值,但是对计量经济分析可能

15、会产生一系列的影响。响。1.参数估计值的方差增大参数估计值的方差增大将此式带入(将此式带入(4.6)得)得0, 0,332iiiiivxvxx2627X2与X3的相关系数的平方 将其带入(4.9)(4.10)得)()(2322232223xxxxr28 (4.14)292322323()(1)iVarxr223232222323(,)(1)iirCovrxx30方差扩大因子(VIF)22311rVIFi312.对参数区间估计时,对参数区间估计时,置信区间趋于变大区间估计失去可靠性;预测区间变大,降低预测精置信区间趋于变大区间估计失去可靠性;预测区间变大,降低预测精度度21()()VarCovX

16、 X对角线元素变大。323.假设检验容易作出错误的判断,检验的可靠性降低,可假设检验容易作出错误的判断,检验的可靠性降低,可能导致在假设检验中舍去重要的解释变量能导致在假设检验中舍去重要的解释变量因为:回归参数显著性检因为:回归参数显著性检发生弃真错误。而变小增大,增大,2/)()()()(tttESVarkntEStiiii334.可能造成可决系数较高,可能造成可决系数较高,F检验的参数联合显著性也很高,检验的参数联合显著性也很高,但对各个参数单独的但对各个参数单独的 t 检验却可能不显著,甚至可能使检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。估计的回归系数符号相

17、反,得出完全错误的结论。无法无法正确反映每个解释变量对被解释变量的单独影响。正确反映每个解释变量对被解释变量的单独影响。回归模型缺乏稳定性回归模型缺乏稳定性当样本观测数据发生微小变化时,模型参数的估计值会有很当样本观测数据发生微小变化时,模型参数的估计值会有很大的变化(邹氏检验)大的变化(邹氏检验) 34 第三节第三节 多重共线性的检验多重共线性的检验 本节基本内容:本节基本内容: 简单相关系数检验法简单相关系数检验法 方差扩大(膨胀)因子法方差扩大(膨胀)因子法 直观判断法直观判断法 逐步回归法逐步回归法35一、简单相关系数检验法一、简单相关系数检验法 含义:含义:简单相关系数检验法是利用解

18、释变量之间简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的线性相关程度去判断是否存在严重多重共线性的一种简便方法。的一种简便方法。 判断规则:判断规则:一般而言,如果每两个解释变量的简一般而言,如果每两个解释变量的简单相关系数单相关系数(零阶相关系数零阶相关系数)比较高,例如大于比较高,例如大于0.8,则可认为存在着较严重的多重共线性。则可认为存在着较严重的多重共线性。3622)()()(jjiijjiiijjiXXXXXXXXrXX之间的相关系数与37 注意:注意: 1.较高的简单相关系数只是多重共线性存在较高的简单相关系数只是多重共线性存在的充分条件,而不是

19、必要条件。的充分条件,而不是必要条件。 2.只适用于两个解释变量之间存在线性相关只适用于两个解释变量之间存在线性相关检验检验,对于三个或更多的解释变量之间存在对于三个或更多的解释变量之间存在的线性相关关系不适用的线性相关关系不适用 383.相关系数很大则必存在多重共线性相关系数很大则必存在多重共线性,而相关而相关系数很小却未必没有多重共线性系数很小却未必没有多重共线性.特别是在特别是在多于两个解释变量的回归模型中,有时较多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重因此并不能简单地依据相关系数

20、进行多重共线性的准确判断。共线性的准确判断。39农业和建筑业与财政收入的关系农业和建筑业与财政收入的关系为了分析各主要因素对财政收入的影响,建立财政收为了分析各主要因素对财政收入的影响,建立财政收入模型入模型:其中其中: CS财政收入财政收入(亿元亿元) ; NZ农业增加值农业增加值(亿元亿元); GZ工业增加值工业增加值(亿元亿元); JZZ建筑业增加值建筑业增加值(亿元亿元); TPOP总人口总人口(万人万人); CUM最终消费最终消费(亿元亿元); SZM受灾面积受灾面积(万公顷万公顷) 数据样本时期数据样本时期1978年年-2003年(资料来源:年(资料来源:中国统计年鉴中国统计年鉴2

21、004,中国统计出版社,中国统计出版社2004年版)年版) iiiiiiiiuSZMCUMTPOPJZZGZNZCS654321040Eviews操作%将数据输入Eviewsdata y x1 x2 x3 x4 x5 x6 %计算相关系数cor x1 x2 x3 x4 x5 x641 二二、方差扩大(膨胀)因子法、方差扩大(膨胀)因子法 统计上可以证明,解释变量统计上可以证明,解释变量的参数估计式的参数估计式的方差可表示为的方差可表示为 其中的其中的是变量是变量(Variance Inflation Factor),即,即的方差扩大因子的方差扩大因子其中其中 是多个解释变量辅助回归的可决系数是

22、多个解释变量辅助回归的可决系数 21VIF =1-jjR222221Var() =VIF1-jjjjjxRxVIFjjXjXj2jR42经验规则经验规则方差膨胀因子越大,表明解释变量之间的多重共方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近于性越严重。反过来,方差膨胀因子越接近于1,多重共线性越弱。多重共线性越弱。经验表明,方差膨胀因子经验表明,方差膨胀因子10时,说明解释变量时,说明解释变量与其余解释变量之间有严重的多重共线性,且这与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。种多重共线性可能会过度地影响最小二乘估计。43

23、Ls x1 c x2 x3 x4 x5 x6Eviews操作44%将方程命名为eqjzz%命令窗口输入 scalar vifjzz=1/(1-eqjzz.R2) 得到一个标量vifjzz=60.713145三、直观判断法三、直观判断法 根据回归结果判断也叫不显著系数检验法根据回归结果判断也叫不显著系数检验法1.定性分析认为,一些重要的解释变量的回归系数的定性分析认为,一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显著性检验标准误差较大,在回归方程中没有通过显著性检验时,可初步判断可能存在严重的多重共线性。时,可初步判断可能存在严重的多重共线性。F检验大于给定显著性水平下的临界

24、值检验大于给定显著性水平下的临界值.但模型中的全但模型中的全部或部分参数估计值却不显著部或部分参数估计值却不显著,或系数估计值的符号不或系数估计值的符号不对对,则模型自变量之间存在多重共线性则模型自变量之间存在多重共线性.8.0)(222RRR很大,一般或如果462. 当增加或剔除一个解释变量,或者改变一个观当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化,回归测值时,回归参数的估计值发生较大变化,回归方程可能存在严重的多重共线性。方程可能存在严重的多重共线性。3. 有些解释变量的回归系数所带正负号与定性分有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能

25、存在多重共线性。析结果违背时,很可能存在多重共线性。4. 解释变量的相关矩阵中,自变量之间的相关系解释变量的相关矩阵中,自变量之间的相关系数较大时,可能会存在多重共线性问题。数较大时,可能会存在多重共线性问题。47四、逐步回归检测法四、逐步回归检测法 也称也称Frisch综合分析法:综合分析法:其基本思想:其基本思想: 将变量逐个的引入模型,每引入一个解释变量后,都要进将变量逐个的引入模型,每引入一个解释变量后,都要进行检验,并对已经选入的解释变量逐个进行行检验,并对已经选入的解释变量逐个进行t 检验,当检验,当原来引入的解释变量由于后面解释变量的引入而变得不原来引入的解释变量由于后面解释变量

26、的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。回归方程中只包含显著的变量。 在逐步回归中,高度相关的解释变量,在引入时会被剔除。在逐步回归中,高度相关的解释变量,在引入时会被剔除。因而也是一种检测多重共线性的有效方法。因而也是一种检测多重共线性的有效方法。48注意: 多重共线性的主要问题是使参数估计量的方差变大,如果存在多重共线性,但是能得到较小的参数估计量的方差,即使有较严重的多重共线性,也不会带来不良后果,因此 只要回归分析中参数的标准差较小,t统计量值较大,就没有必要过分关心是否存在多重共线性49

27、五、特征值和病态指数(1)特征值分析 矩阵 有多少个特征根近似为零,设计矩阵就会有多少个多重共线性关系,而且这些多重共线性关系系数向量等于该接近于0的特征值对应的特征向量。 或者说当 至少存在一个特征根近似为零时,X列向量之间必存在多重共线性。 特征根近似为零的标准可以用病态指数来确定。X X X X 50(2)病态指数称 为特征根的病态指数。(0,10)无多重共线性(10,100)较强多重共线性(100,+inf)严重注意:无法判断是哪几个解释变量存在特征值和病态指数,1,2,.,mjjCIjk51Eviews操作1. 定义一个序列x0,这个序列的每个数值都是12. 将x0 x1 x2 x3

28、 x4 x5 x6 形成一个组,组名为x。 group x x0 x1 x2 x3 x4 x5 x63. 将组x转化为矩阵mx。matrix mx=convert(x)4. 求mx的转秩和mx的乘积 。定义为xx sym xx=transpose(mx)*mx5. 求xx的特征向量。vector a=eigenvalues(xx)6. 求病态指数。scalar ci=sqrt(max(a)/min(a)()MX MX52 特征向量: 0.0227709705871013 154364.370782894 10172448.6302438 26591168.753642 596832626.87

29、32180356 425025199652.92453第四节第四节 多重共线性的补救措多重共线性的补救措施施 本节基本内容本节基本内容: : 修正多重共线性的经验方法修正多重共线性的经验方法 逐步回归法逐步回归法54一、修正多重共线性的经验方法一、修正多重共线性的经验方法 1. 剔除变量法剔除变量法 是降低多重共线性最简便的方法是降低多重共线性最简便的方法.把方差扩大因子最大者所对应的自变量首先把方差扩大因子最大者所对应的自变量首先剔除再重新建立回归方程,直至回归方程中剔除再重新建立回归方程,直至回归方程中不再存在严重的多重共线性。不再存在严重的多重共线性。注意注意:

30、 若剔除了重要变量,可能引起模型的设若剔除了重要变量,可能引起模型的设定误差。定误差。55 2. 增大样本容量增大样本容量样本容量增加,会减小回归参数的方差,标准误差也同样会减样本容量增加,会减小回归参数的方差,标准误差也同样会减小。因此尽可能地收集足够多的样本数据可以改进模型参数的小。因此尽可能地收集足够多的样本数据可以改进模型参数的估计。估计。样本容量越小有近似多重共线性的可能性就越大样本容量越小有近似多重共线性的可能性就越大,反之反之,样本容样本容量越大量越大,多重共线性的可能性就越小多重共线性的可能性就越小 问题:问题:增加样本数据在实际计量分析中常面临许多困难增加样本数据在实际计量分

31、析中常面临许多困难,受制受制于实际情况。于实际情况。56增大样本容量并不必然降低近似的多重共增大样本容量并不必然降低近似的多重共线性线性,如增加的数据也有类似的共线性如增加的数据也有类似的共线性,就就不起作用不起作用如果变量总体中本来就有共线性问题如果变量总体中本来就有共线性问题,再增再增大样本容量也无济于事大样本容量也无济于事.57 3. 变换模型形式变换模型形式一般而言,差分后变量之间的相关性要比差分一般而言,差分后变量之间的相关性要比差分前弱得多,所以差分后的模型可能降低出现共前弱得多,所以差分后的模型可能降低出现共线性的可能性,此时可直接估计差分方程。线性的可能性,此时可直接估计差分方

32、程。问题:问题:差分会丢失一些信息,差分模型的误差差分会丢失一些信息,差分模型的误差项可能存在序列相关,可能会违背经典线性回项可能存在序列相关,可能会违背经典线性回归模型的相关假设,在具体运用时要慎重。归模型的相关假设,在具体运用时要慎重。58ls y-y(-1) c x1-x1(-1) x2-x2(-1) x3-x3(-1) x4-x4(-1) x5-x5(-1) x6-x6(-1) Eviews操作59%计算差分后序列相关系数cor x1-x1(-1) x2-x2(-1) x3-x3(-1) x4-x4(-1) x5-x5(-1) x6-x6(-1) 60 4. 利用非样本先验信息利用非样

33、本先验信息通过经济理论分析能够得到通过经济理论分析能够得到某些参数之间某些参数之间的关的关系,可以将这种关系作为约束条件,将此约束系,可以将这种关系作为约束条件,将此约束条件和样本信息结合起来进行约束最小二乘估条件和样本信息结合起来进行约束最小二乘估计。计。61 5. 横截面数据与时序数据并用横截面数据与时序数据并用首先利用横截面数据估计出部分参数,再利用时首先利用横截面数据估计出部分参数,再利用时序数据估计出另外的部分参数,最后得到整个序数据估计出另外的部分参数,最后得到整个方程参数的估计。方程参数的估计。例:例: (家用轿车销售数据)(家用轿车销售数据) (收入)(收入)注意:注意:这里包

34、含着假设,即参数的横截面估计和这里包含着假设,即参数的横截面估计和从纯粹时间序列分析中得到的估计是一样的。从纯粹时间序列分析中得到的估计是一样的。 ttttuIPYlnlnln32162 6. 变量变换变量变换变量变换的主要方法:变量变换的主要方法:(1)计算相对指标计算相对指标 (2)将名义数据转换为实际数据将名义数据转换为实际数据 (3)将小类指标合并成大类指标将小类指标合并成大类指标 变量数据的变换有时可得到较好的结果,但无变量数据的变换有时可得到较好的结果,但无法保证一定可以得到很好的结果。法保证一定可以得到很好的结果。63 二、逐步回归法二、逐步回归法(1)用被解释变量对每一个所考虑

35、的解释变量做简)用被解释变量对每一个所考虑的解释变量做简单回归。单回归。(2)以对被解释变量贡献最大的解释变量所对应的)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。序逐个引入其余的解释变量。若新变量的引入改进了若新变量的引入改进了 和和 检验,且回归参检验,且回归参数的数的t t 检验在统计上也是显著的,则在模型中保检验在统计上也是显著的,则在模型中保留该变量。留该变量。F2R64若新变量的引入未能改进若新变量的引入未能改进 和和 检验,且对其他回检验,且对其他回归参数估计值的归参数估计值

36、的t t 检验也未带来什么影响,则认为该检验也未带来什么影响,则认为该变量是多余变量。变量是多余变量。若新变量的引入未能改进若新变量的引入未能改进 和和 检验,且显著地影检验,且显著地影响了其他回归参数估计值的数值或符号,同时本身的响了其他回归参数估计值的数值或符号,同时本身的回归参数也通不过回归参数也通不过t t 检验,说明出现了严重的多重共检验,说明出现了严重的多重共线性。线性。2RFF2R65三、其他方法三、其他方法(了解).1.岭回归法2.主成分回归.YXkIXXk1)()(66 第五节第五节 案例分析案例分析一、研究的目的要求一、研究的目的要求提出研究的问题提出研究的问题为了规划中国

37、未来国内旅游产业为了规划中国未来国内旅游产业的发展,需要定量地分析影响中国国内旅游市场发展的发展,需要定量地分析影响中国国内旅游市场发展的主要因素。的主要因素。二、模型设定及其估计二、模型设定及其估计影响因素分析与确定影响因素分析与确定影响因素主要有国内旅游影响因素主要有国内旅游人数人数 ,城镇居民人均旅游支出,城镇居民人均旅游支出 ,农村居民人,农村居民人均均旅游支出旅游支出 ,并以公路里程次,并以公路里程次 和铁路里程和铁路里程 作为相关基础设施的代表作为相关基础设施的代表 理论模型的设定理论模型的设定其中其中 : 第第 t 年全国国内旅游收入年全国国内旅游收入23456123456ttt

38、ttttYXXXXXu2X3XtY4X5X6X67数据的收集与处理年年份份国内旅游国内旅游收入收入Y Y(亿元)(亿元)国内旅国内旅游人数游人数X2X2(万人次)(万人次)城镇居民人城镇居民人均旅游支出均旅游支出X3X3(元)(元)农村居民人农村居民人均旅游支出均旅游支出X4 X4 (元)(元)公路里公路里程程 X5X5(万公里)万公里)铁路里铁路里程程X6X6(万公里)万公里)199419941023.51023.55240052400414.7414.754.954.9111.78111.785.905.90199519951375.71375.76290062900464.0464.06

39、1.561.5115.70115.705.975.97199619961638.41638.46390063900534.1534.170.570.5118.58118.586.496.49199719972112.72112.76440064400599.8599.8145.7145.7122.64122.646.606.60199819982391.22391.26945069450607.0607.0197.0197.0127.85127.856.646.64199919992831.92831.97190071900614.8614.8249.5249.5135.17135.176.7

40、46.74200020003175.53175.57440074400678.6678.6226.6226.6140.27140.276.876.87200120013522.43522.47840078400708.3708.3212.7212.7169.80169.807.017.01200220023878.43878.48780087800739.7739.7209.1209.1176.52176.527.197.19200320033442.33442.38700087000684.9684.9200.0200.0180.98180.987.307.30数据来源:中国统计年鉴2004

41、68该模型,可决系数很高,F检验值173.3525,明显显著。但是当时、不仅 、 系数的t检验不显著,而且 系数的符号与预期的相反,根据直观判断法判定存在严重的多重共线性。 6X20.9954R 20.025()(106)2.776tnkt6X2X20.9897R 0.05OLS OLS 法估计的结果法估计的结果69计算各解释变量的相关系数计算各解释变量的相关系数 表明各解释变量间确实存在严重的多重共线性表明各解释变量间确实存在严重的多重共线性70方差膨胀因子法统计上可以证明,解释变量统计上可以证明,解释变量的参数估计式的参数估计式的方差可表示为的方差可表示为 其中的其中的是变量是变量(Var

42、iance Inflation Factor),即,即的方差扩大因子的方差扩大因子其中其中 是是多个解释变量辅助回归的可决系数多个解释变量辅助回归的可决系数 21VIF =1-jjR222221Var() =VIF1-jjjjjxRxVIFjjXjXj2jR71Ls x6 c x2 x3 x4 x5 Eviews操作72%将方程命名为eq06%命令窗口输入 scalar vif06=1/(1-eq06.R2) 得到一个标量vif06=20.059经验表明,方差膨胀因子经验表明,方差膨胀因子10时,说明解释变量与时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多其余解释变量之间有严重

43、的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。重共线性可能会过度地影响最小二乘估计。73特征值与病态指数 series x1=1 group gx x1 x2 x3 x4 x5 x6 matrix x=convert(gx) sym xx=transpose(x)*x vector v=eigenvalues(xx)0.005474124333474922.016779071821303710.01633122702687864.91238712212237729.6574930082351889640190.5823274三、消除多重共线性(逐步回归法)三、消除多重共线性(逐步

44、回归法)采用逐步回归法检验和解决多重共线性问题。采用逐步回归法检验和解决多重共线性问题。分别作分别作Y 对对X2、X3、X4、X5、X6的一元回归的一元回归 变量变量X2X3X4X5X6参数估计值参数估计值0.08429.052311.667334.33242014.146t 统计量统计量8.665913.15985.19676.46758.74870.90370.95580.77150.83940.9054的大小排序为:的大小排序为:X3、X6、X2、X5、X4。2R2R75变量变量X2X3X4X5X6X3,X20.0298(2.153)6.194(4.2872)0.9659X3,X48.0206(5.7513)1.7106(0.855)0.9486X3,X56.7356(6.6523)10.9117(2.6628)0.9718X3,X67.8512(2.9101)285.0119(0.4621)0.94502R76变量变量X2X3X4X5X6X3,X5,X20.0091(0.4229)6.3553(4.5277)8.5739(1.2176)0.9681X3,X5,X44.2196(3.9502)3.2160(3.0633)13.6279(4.6945)0.9872X3,X5,X68.0988(4.0852)12.9241(2.6445)-424.9056(-0.80

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论