![第4章线性回归经典假设的_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-1/12/21b88f2a-2139-4844-9972-a1b9d939d10c/21b88f2a-2139-4844-9972-a1b9d939d10c1.gif)
![第4章线性回归经典假设的_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-1/12/21b88f2a-2139-4844-9972-a1b9d939d10c/21b88f2a-2139-4844-9972-a1b9d939d10c2.gif)
![第4章线性回归经典假设的_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-1/12/21b88f2a-2139-4844-9972-a1b9d939d10c/21b88f2a-2139-4844-9972-a1b9d939d10c3.gif)
![第4章线性回归经典假设的_第4页](http://file3.renrendoc.com/fileroot_temp3/2022-1/12/21b88f2a-2139-4844-9972-a1b9d939d10c/21b88f2a-2139-4844-9972-a1b9d939d10c4.gif)
![第4章线性回归经典假设的_第5页](http://file3.renrendoc.com/fileroot_temp3/2022-1/12/21b88f2a-2139-4844-9972-a1b9d939d10c/21b88f2a-2139-4844-9972-a1b9d939d10c5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第第4章章 线性回归经典假设的分析多重共线性多重共线性 异方差性异方差性 序列相关性序列相关性 实证分析实证分析 第一节第一节 多重共线性多重共线性 多重共线性含义及引起的后果多重共线性含义及引起的后果 多重共线性的检验多重共线性的检验 多重共线性的克服及岭回归方法多重共线性的克服及岭回归方法 4.1.1 多重共线性含义及引起的后果多重共线性含义及引起的后果一、多重共线性的含义一、多重共线性的含义“多重共线性多重共线性”一词由一词由R. Frisch 1934年提出,年提出,它原指模型的解释变量间存在线性关系。针对它原指模型的解释变量间存在线性关系。针对总体回归模型(总体回归模型(2.2)式)
2、式 , 的经典假设条件,要求的经典假设条件,要求 (4.1) 即要求矩阵即要求矩阵X满秩。满秩。X满秩就能保证行列式满秩就能保证行列式 ,从而可以得到参数的估计值,从而可以得到参数的估计值 。如。如果这个假设条件不满足,即果这个假设条件不满足,即 ,就表,就表明某些解释变量之明某些解释变量之 间存在完全的线性相关关系,间存在完全的线性相关关系,在这种情形下,根本无法求出参数的估计值在这种情形下,根本无法求出参数的估计值 。 XYnkrankrank)()(XXX0XXkrank)(Xv然而,在实际问题中,某些解释变量之间不是完然而,在实际问题中,某些解释变量之间不是完全线性相关的或接近完全线性
3、相关的。全线性相关的或接近完全线性相关的。v就模型中解释变量的关系而言,有三种可能。就模型中解释变量的关系而言,有三种可能。 1、 ,解释变量间毫无线性关系,变量间相,解释变量间毫无线性关系,变量间相互正交。这时已不需要多重回归,每个参数互正交。这时已不需要多重回归,每个参数 j都都可以通过可以通过Y对对 的一元回归来估计。的一元回归来估计。 2、 ,解释变量间完全共线性。此时模型参,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变量按同一方式数将无法确定。直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影变化时,要区别每个解释变量对被解释变量的影响程度就非常
4、困难。响程度就非常困难。0jixxrjX1jixxr 3、 ,解释变量间存在一定程度的线,解释变量间存在一定程度的线性关系。实际中常遇到的是这种情形。随着共线性关系。实际中常遇到的是这种情形。随着共线性程度的加强,对参数估计值的准确性、稳定性性程度的加强,对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有无多重共线性,带来影响。因此我们关心的不是有无多重共线性,而是多重共线性的程度。而是多重共线性的程度。v这里需要说明的是,在解决实际问题的过程中,这里需要说明的是,在解决实际问题的过程中,经济变量在时间上有共同变化的趋势。如在经济经济变量在时间上有共同变化的趋势。如在经济上升时期,收入
5、、消费、就业率等都增长,当经上升时期,收入、消费、就业率等都增长,当经济处于收缩期,收入、消费、就业率等都下降或济处于收缩期,收入、消费、就业率等都下降或增长率下降。当这些变量同时做解释变量就会给增长率下降。当这些变量同时做解释变量就会给模型带来多重共线性问题。另外,解释变量与其模型带来多重共线性问题。另外,解释变量与其滞后变量同作解释变量时,也会引起多重共线性。滞后变量同作解释变量时,也会引起多重共线性。10jixxr二、多重共线性引起的后果二、多重共线性引起的后果v如果解释变量之间存在明显的相关关系,即存在如果解释变量之间存在明显的相关关系,即存在严重的多重共线性,将会影响模型的构建。严重
6、的多重共线性,将会影响模型的构建。 1、当、当 ,X为降秩矩阵,则为降秩矩阵,则 不不存在,存在, 不可计算。不可计算。 2、若、若 ,即使,即使 , 仍具有无仍具有无偏性,即偏性,即 1jixxr1)(XXYXXX1)(1jixxr1jixxrXXXXXXXYXXX)()()()()()(111EEEEv然而,当然而,当 时,时, 接近降秩矩阵,接近降秩矩阵, 即即 , 变得很大。变得很大。 所以所以 丧失有效性。丧失有效性。v以二元解释变量线性模型为例,当以二元解释变量线性模型为例,当 时,时, 为为 时时 方差的方差的2.78倍。当倍。当 时,时, 为为 时的时的10.26倍。倍。1ji
7、xxrXX0XX12)()(XXVar8 . 0jixxr)(Var)(Var0jixxr95. 0jixxr0jixxr4.1.2 多重共线性的检验多重共线性的检验v既然多重共线性会造成一些严重的后果,在建立既然多重共线性会造成一些严重的后果,在建立线性回归模型的过程中,有必要检验样本是否存线性回归模型的过程中,有必要检验样本是否存在多重共线性。在多重共线性。 v检验样本是否存在严重的多重共线性常用的方法检验样本是否存在严重的多重共线性常用的方法如下。如下。 一、可决系数的值较大而回归系数的一、可决系数的值较大而回归系数的t值较小。值较小。当模型的可决系数当模型的可决系数R2很高,总体显著性
8、检验的很高,总体显著性检验的F值很高,而每个回归参数估计值的方差值很高,而每个回归参数估计值的方差 又又非常大,即非常大,即t值很低时,说明解释变量之间存在多值很低时,说明解释变量之间存在多重共线性。重共线性。 二、二、 Klein判别法。计算多重可决系数判别法。计算多重可决系数R2及解释及解释变量之间的简单相关系数变量之间的简单相关系数 。若有某个。若有某个 R2,则,则Xi,Xj间的多重共线性是有害的。间的多重共线性是有害的。)var(jjixxrjixxr 三、特征值与病态指数。三、特征值与病态指数。v根据矩阵行列式的性质,矩阵的行列式等于其特根据矩阵行列式的性质,矩阵的行列式等于其特征
9、根的连乘积。因而当行列式征根的连乘积。因而当行列式 时,矩时,矩阵阵 XX 至少有一个特征根近似等于零。反之,可至少有一个特征根近似等于零。反之,可以证明,当矩阵以证明,当矩阵XX至少有一个特征根近似等于至少有一个特征根近似等于零时,零时,X的列向量之间必存在多重共线性。的列向量之间必存在多重共线性。0XXv 实际上,设实际上,设 是矩阵是矩阵XX的一个近似等于零特征根,的一个近似等于零特征根,c是是对应于该特征根的特征向量,则对应于该特征根的特征向量,则(4.2)v 对(对(4.2)式两边左乘)式两边左乘c,即有,即有 即即 从而从而 (4.3) v 这里(这里(4.3)式就反映出了前面所定
10、义的多重共线性。我)式就反映出了前面所定义的多重共线性。我们应该注意到,矩阵们应该注意到,矩阵XX有多少个特征根近似为零,设计有多少个特征根近似为零,设计矩阵就会有多少个类似(矩阵就会有多少个类似(4.3)式多重共线性关系,并且)式多重共线性关系,并且这些多重共线关系系数向量就等于接近于零的那些特征根这些多重共线关系系数向量就等于接近于零的那些特征根对应的特征向量。对应的特征向量。0cXcX0XcXc0Xc022110kikiiXcXcXccv 另外,特征根近似为零的标准可以用下面的病态指数另外,特征根近似为零的标准可以用下面的病态指数(condition index)来确定。记)来确定。记X
11、X的最大特征根为的最大特征根为 ,称称(4.4) 为特征根的病态指数。注意特征根的个数与病态指数都包为特征根的病态指数。注意特征根的个数与病态指数都包含了常数项在内。含了常数项在内。v 病态指数度量了矩阵病态指数度量了矩阵 的特征根散布程度,可以用来判的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。断多重共线性是否存在以及多重共线性的严重程度。v 一般认为,当一般认为,当0CI10时,设计矩阵时,设计矩阵X没有多重共线性;没有多重共线性;当当10CI100时,则认为存在严重的多重共线性。时,则认为存在严重的多重共线性。mjmjCIkj, 1 , 0XX4.1.3 多重
12、共线性的克服及岭回归方多重共线性的克服及岭回归方法法v如果多重共线性较为严重,我们该如何处理?一如果多重共线性较为严重,我们该如何处理?一般来说没有一个十分严格的克服多重共线性的方般来说没有一个十分严格的克服多重共线性的方法。但是,可以尽量的降低线性回归模型中存在法。但是,可以尽量的降低线性回归模型中存在的多重共线性。的多重共线性。v这里介绍一些经验规则和理论方法以便克服或降这里介绍一些经验规则和理论方法以便克服或降低多重共线性问题时参考。低多重共线性问题时参考。一、克服多重共线性的经验方法一、克服多重共线性的经验方法 1、剔除变量。、剔除变量。v面对严重的多重共线性,最简单的克服方法之一面对
13、严重的多重共线性,最简单的克服方法之一就是剔除一个共线性的变量。但是,如果从模型就是剔除一个共线性的变量。但是,如果从模型中剔除的是重要的解释变量,可能会引起模型的中剔除的是重要的解释变量,可能会引起模型的设定误差。所谓设定误差是指在回归分析中使用设定误差。所谓设定误差是指在回归分析中使用了不正确的模型。我们知道,在解释粮食产量的了不正确的模型。我们知道,在解释粮食产量的模型中,应该包括播种面积和施肥量,那么剔除模型中,应该包括播种面积和施肥量,那么剔除播种面积这个变量,就会构成设定误差。当模型播种面积这个变量,就会构成设定误差。当模型中出现设定误差时,线性模型的分析出现的问题中出现设定误差时
14、,线性模型的分析出现的问题会更为严重,其中问题之一是当出现设定误差时,会更为严重,其中问题之一是当出现设定误差时,回归系数的估计值是有偏的,这与多重共线性相回归系数的估计值是有偏的,这与多重共线性相比是一个更为严重的问题。比是一个更为严重的问题。v事实上,假设真实的模型为事实上,假设真实的模型为v如果我们错误的拟合了模型如果我们错误的拟合了模型 记记 ,iiiiXXY133221iiiXY22*2*1222XXxiiYYyiiv那么,那么, 这里,这里, 为回归模型为回归模型 中回归系数中回归系数的最小二乘估计量。的最小二乘估计量。 221232322212223232221232322221
15、221332212222222*2)(iiiiiiiiiiiiiiiiiiiiiiiiiiiixxbxxxXxxxXxXxxxXXxxYxxyx32biiiXbbX23213v所以,所以, (4.5)v当解释变量之间存在多重共线性时,当解释变量之间存在多重共线性时, 是不会为是不会为零的,从而由(零的,从而由(4.5)式知,)式知,v这说明如果因为有多重共线性而将一共线变量删这说明如果因为有多重共线性而将一共线变量删除会导致有偏估计,而有偏估计对参数的估计来除会导致有偏估计,而有偏估计对参数的估计来说,是一个更为严重的问题。在这里我们需要提说,是一个更为严重的问题。在这里我们需要提及的是,在不
16、完全共线的情形下,及的是,在不完全共线的情形下,OLS估计量仍估计量仍然是然是BLUE。3232*2)(bE32b2*2)(E 2、增加样本容量。、增加样本容量。v由于多重共线性是一个样本特征,所以有可能在由于多重共线性是一个样本特征,所以有可能在同样变量的另一样本中共线性问题并不严重。这同样变量的另一样本中共线性问题并不严重。这样只需要增大样本容量就能减轻共线性问题。看样只需要增大样本容量就能减轻共线性问题。看来增加样本容量可能是克服共线性的一个好方法,来增加样本容量可能是克服共线性的一个好方法,但在实际解决问题时,我们补充数据扩大样本容但在实际解决问题时,我们补充数据扩大样本容量并不是一件
17、容易的事情,特别是在建立计量经量并不是一件容易的事情,特别是在建立计量经济模型时所希望的解释变量的值就更困难。济模型时所希望的解释变量的值就更困难。 3、先验信息。、先验信息。v如果通过经济理论分析能够得到某些参数之间的如果通过经济理论分析能够得到某些参数之间的线性关系,可以将这种线性关系作为约束条件,线性关系,可以将这种线性关系作为约束条件,将此约束条件和样本信息结合起来进行最小二乘将此约束条件和样本信息结合起来进行最小二乘估计。估计。 v为了进一步说明问题,假设我们考虑模型为了进一步说明问题,假设我们考虑模型v如果依据长期的经验分析可以认为两个解释变量如果依据长期的经验分析可以认为两个解释
18、变量的系数相互关系为的系数相互关系为 ,运用这个先验信息,运用这个先验信息有有 其中,其中, 。这样可以估计出。这样可以估计出 ,然,然后可以得到后可以得到 。iiiiXXY33221233 . 0iiiiiiiiiXXXXXY2132221332213 . 0iiiXXX323 . 023v另外,我们应该注意到,横截面数据与时间序列另外,我们应该注意到,横截面数据与时间序列数据并用也是先验信息法的一种变形,这种方法数据并用也是先验信息法的一种变形,这种方法称为数据并用(称为数据并用(pooling the data)。其基本思想)。其基本思想是,首先利用横截面数据估计出部分参数,再利是,首先
19、利用横截面数据估计出部分参数,再利用时间序列数据估计另外的部分参数,最后得到用时间序列数据估计另外的部分参数,最后得到整个方程参数的估计。整个方程参数的估计。二、一阶差分方法二、一阶差分方法v一阶差分法就是将原模型变形为差分模型的形式,一阶差分法就是将原模型变形为差分模型的形式,进而降低多重共线性的一种方法。进而降低多重共线性的一种方法。v将原模型将原模型 经过一阶差分变换为经过一阶差分变换为 其中,其中, , , , , 。 ikikiiiXXXY33221ikikiiiXXXY33221iiiYYY1222iiiXXX1kikikiXXX1iiiv一般情况,差分变换后变量之间的相关性比变换
20、一般情况,差分变换后变量之间的相关性比变换前要弱的多,所以差分后的模型可以有效地降低前要弱的多,所以差分后的模型可以有效地降低出现共线性的现象。出现共线性的现象。v然而,差分变换常常会引起信息的丢失,使自由然而,差分变换常常会引起信息的丢失,使自由度减少了一个,也可能会使得模型的干扰项出现度减少了一个,也可能会使得模型的干扰项出现序列相关,即序列相关,即2212121212111)()()()(iiiiiiiiiiiiiiEEEEv这样就违背了经典线性回归模型的相关假设,因这样就违背了经典线性回归模型的相关假设,因此在具体应用时要慎重。关于序列相关的有关内此在具体应用时要慎重。关于序列相关的有
21、关内容将在后面详细介绍。容将在后面详细介绍。三、逐步回归法三、逐步回归法v 逐步回归法的基本思想是,首先用被解释变量对每一个逐步回归法的基本思想是,首先用被解释变量对每一个所考虑的解释变量做简单回归,然后以对被解释变量贡献所考虑的解释变量做简单回归,然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础,以对被解释变最大的解释变量所对应的回归方程为基础,以对被解释变量贡献大小为顺序逐个引入其余的解释变量。量贡献大小为顺序逐个引入其余的解释变量。v 这个过程会出现这个过程会出现3种情形。若新变量的引入改进了和检种情形。若新变量的引入改进了和检验,且回归参数的验,且回归参数的t检验在统计上也是
22、显著的,则该变量检验在统计上也是显著的,则该变量在模型中予以保留。若新变量的引入未能改进和检验,在模型中予以保留。若新变量的引入未能改进和检验,且对其他回归参数估计值的且对其他回归参数估计值的t检验也未带来什么影响,则检验也未带来什么影响,则认为该变量是多余的,应该舍弃。若新变量的引入未能认为该变量是多余的,应该舍弃。若新变量的引入未能改进和检验,且显著地影响了其他回归参数估计值的符号改进和检验,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过与数值,同时本身的回归参数也通不过t检验,这说明出检验,这说明出现了严重的多重共线性,舍弃该变量。现了严重的多重共线性,舍弃该变
23、量。四、岭回归法四、岭回归法v当在建立计量经济模型存在多重共线性时,最小当在建立计量经济模型存在多重共线性时,最小二乘估计的性质就不够理想,有时甚至遭到破坏。二乘估计的性质就不够理想,有时甚至遭到破坏。在这种情况下,要从本质上克服多重共线性,就在这种情况下,要从本质上克服多重共线性,就需要一些新的估计方法。近四十年来,人们提出需要一些新的估计方法。近四十年来,人们提出了许多新的估计方法,其在理论上最有影响并得了许多新的估计方法,其在理论上最有影响并得到广泛应用的就是岭估计(到广泛应用的就是岭估计(ridge regression)。)。v为了能够较为深入了解岭回归方法,并进一步说为了能够较为深
24、入了解岭回归方法,并进一步说明岭估计量的优良性,我们引进评价一个估计优明岭估计量的优良性,我们引进评价一个估计优劣的标准劣的标准均方误差(均方误差(mean squared errors)。)。v设设 为为 未知参数向量,未知参数向量, 为为 的一个估计量。的一个估计量。定义定义 的均方误差为的均方误差为 (4.6) 它量度了估计量它量度了估计量 跟未知参数向量跟未知参数向量 平均偏离平均偏离的大小。一个好的估计量应该有较小的均方误差。的大小。一个好的估计量应该有较小的均方误差。均方误差有一个重要的性质,即均方误差有一个重要的性质,即 (4.7)v事实上,事实上, (4.8)1p)()()(
25、EMSE)()()()(EEVartrMSE21)()()()()()( )()()()()(EEEEEEEEEEEMSEv根据矩阵迹的有关性质,(根据矩阵迹的有关性质,(4.8)式中的第一项)式中的第一项 为为 v如果记如果记 ,则,则 (4.9) (4.9)式是估计量的各分量方差之和。)式是估计量的各分量方差之和。 1)()()()()(1VartrEEEtrEEtrEEEtrE),(21ppiiVarVartr11)()(v而且而且 (4.10) (4.10)式是估计量的各分量的偏差)式是估计量的各分量的偏差 平方和。平方和。v这样一个估计的均方误差就是由各分量的方差和这样一个估计的均方
26、误差就是由各分量的方差和偏差所决定的。偏差所决定的。v一个好的估计量应该有较小的方差和偏差。一个好的估计量应该有较小的方差和偏差。piiEEE122)()()(iEv下面我们介绍岭回归的基本方法。下面我们介绍岭回归的基本方法。v当解释变量之间存在多重共线性时当解释变量之间存在多重共线性时 ,则,则 将会增大,原因是将会增大,原因是 接近奇异。接近奇异。如果将如果将 加上一个正常数对角阵加上一个正常数对角阵kI(k0,I为为单位矩阵),即单位矩阵),即 ,使得,使得 的可能的可能性比性比 的可能性更小,那么的可能性更小,那么 接近奇异接近奇异的程度就会比的程度就会比 小的多。小的多。 0XX12
27、)()(XXVarXXXXIXXk0IXXk0XXIXXkXXv这样就可以得到这样就可以得到 的岭回归估计为的岭回归估计为 (4.11) 其中其中 称为称为 的岭回归估计量,的岭回归估计量,k称为岭参数或称为岭参数或偏参数。偏参数。v当当k取不同的值时,我们得到不同的估计,因此取不同的值时,我们得到不同的估计,因此岭估计岭估计 是一个估计类,当是一个估计类,当k=0时,时, 就是普通最小二乘估计量。就是普通最小二乘估计量。v于是严格的讲,最小二乘估计量就是岭估计类中于是严格的讲,最小二乘估计量就是岭估计类中一个估计量。一个估计量。YXIXX1)()(kk)(k)(kYXXX1)()(kv但是在
28、一般情况下,当我们提及岭估计时,一般但是在一般情况下,当我们提及岭估计时,一般不包括最小二乘估计。特别是在解释变量之间存不包括最小二乘估计。特别是在解释变量之间存在多重共线性时,以在多重共线性时,以 作为作为 的估计应比最小的估计应比最小二乘估计稳定,随着二乘估计稳定,随着k的逐渐增大,回归系数可的逐渐增大,回归系数可能呈现出稳定的状态。能呈现出稳定的状态。v因此,要选择适当的因此,要选择适当的k值,岭回归参数才会优于值,岭回归参数才会优于最小二乘估计参数。最小二乘估计参数。 )(kv为了进一步说明岭回归估计的优良性,有必要介为了进一步说明岭回归估计的优良性,有必要介绍岭回归估计量的有关性质。
29、绍岭回归估计量的有关性质。 性质性质1 岭回归的参数估计是回归参数的有偏估计。岭回归的参数估计是回归参数的有偏估计。v实际上,有实际上,有 (4.12)v因此岭估计量是有偏估计,这是岭估计与最小二因此岭估计量是有偏估计,这是岭估计与最小二乘估计的一个重要不同之处。乘估计的一个重要不同之处。XXIXXYXIXXYXIXX111)()()()()(kEkkEkE 性质性质2 在岭参数在岭参数k与与Y无关的情况下,无关的情况下, 是最是最小二乘估计的一个线性变换,也是理论值小二乘估计的一个线性变换,也是理论值Y的线的线性函数。性函数。v实际上,根据(实际上,根据(4.11)式很容易看出这个性质的)式
30、很容易看出这个性质的正确性。正确性。 性质性质3 存在存在k0,使得,使得 (4.13) 即存在即存在k0 ,使得在均方误差意义下,岭估计优,使得在均方误差意义下,岭估计优于最小二乘估计。于最小二乘估计。 )(k)()(MSEkMSEv这里需要说明的是关于这里需要说明的是关于k值的选择非常重要,在值的选择非常重要,在此我们主要介绍用岭迹法选择此我们主要介绍用岭迹法选择k值的基本思路。值的基本思路。v岭估计岭估计 是随着是随着k值的改变而变化。值的改变而变化。若记若记 为为 的第的第i个分量,它是个分量,它是k的一元函数。的一元函数。当当k在在 上变化时,上变化时, 的图形称为岭迹的图形称为岭迹
31、(ridge trace)。将)。将 的每个分量的每个分量 的岭的岭迹画在同一个图上,根据岭迹的变化趋势选择迹画在同一个图上,根据岭迹的变化趋势选择k值,使得各个回归系数的岭估计大体上稳定,并值,使得各个回归系数的岭估计大体上稳定,并且各个回归系数岭估计值的符号比较合理并符合且各个回归系数岭估计值的符号比较合理并符合实际。实际。 YXIXX1)()(kk)(ki)(k), 0)(k)(k)(kiv我们知道,最小二乘估计是使残差平方和达到最我们知道,最小二乘估计是使残差平方和达到最小的估计。小的估计。k愈大,岭估计跟最小二乘估计偏差愈大,岭估计跟最小二乘估计偏差愈大。因此,它对应的残差平方和也随
32、着愈大。因此,它对应的残差平方和也随着k的增的增加而增加。当我们用岭迹法选择加而增加。当我们用岭迹法选择k值时,还应该值时,还应该考虑使得残差平方和不要上升的太多。在解决实考虑使得残差平方和不要上升的太多。在解决实际问题时,上述几点原则有时可能会有些相互不际问题时,上述几点原则有时可能会有些相互不一致,顾此失彼的情况也经常出现,这就要根据一致,顾此失彼的情况也经常出现,这就要根据不同的情况灵活处理。不同的情况灵活处理。 v需要提及的是,目前还没有形成公认的选择岭参需要提及的是,目前还没有形成公认的选择岭参数的最优方法,除了岭迹法,我们还可以选用方数的最优方法,除了岭迹法,我们还可以选用方差扩大
33、因子法、残差平方和法等等。另外,在实差扩大因子法、残差平方和法等等。另外,在实际应用中,也可以考虑使用逐步搜索的方法,即际应用中,也可以考虑使用逐步搜索的方法,即开始给定小的开始给定小的k值,然后逐渐增加值,然后逐渐增加k的取值进行模的取值进行模拟,直到岭估计量拟,直到岭估计量 的值趋于稳定为止。显的值趋于稳定为止。显然,用逐步搜索的方法确定然,用逐步搜索的方法确定k,具有一定的主观,具有一定的主观性,但是具体的过程体现出了统计模拟的基本思性,但是具体的过程体现出了统计模拟的基本思想。想。)(k第二节第二节 异方差性异方差性 异方差性含义及引起的后果异方差性含义及引起的后果 异方差性的检验异方
34、差性的检验 广义最小二乘法及异方差性的克服广义最小二乘法及异方差性的克服 4.2.1 异方差性含义及引起的后果异方差性含义及引起的后果 一、异方差的含义及表现一、异方差的含义及表现 二、异方差引起的后果二、异方差引起的后果一、异方差的含义及表现一、异方差的含义及表现v针对总体回归模型(针对总体回归模型(2.2)式)式 , 的经典假设条件,要求给出的经典假设条件,要求给出 是一个对角矩阵,是一个对角矩阵,即即 = 2I= 2 (4.14)且且 的协差阵主对角线上的元素都是常数且相等,的协差阵主对角线上的元素都是常数且相等,即每一干扰项的方差都是有限的相同值(同方差即每一干扰项的方差都是有限的相同
35、值(同方差假定);且非主对角线上的元素为零(非自相关假定);且非主对角线上的元素为零(非自相关假定),当这个假定不成立时,假定),当这个假定不成立时, 不再是一个不再是一个纯量对角矩阵。纯量对角矩阵。XY)(Var)(Var10101)(Var = 2 = 2 2 I. 当干扰项向量当干扰项向量 的协差阵主对角线上的元素不相等时,称的协差阵主对角线上的元素不相等时,称该随机误差系列存在异方差,即干扰项向量该随机误差系列存在异方差,即干扰项向量 中的元素中的元素 取自不同的分布总体。取自不同的分布总体。 非主对角线上的元素表示干扰项之间的协方差值。比如非主对角线上的元素表示干扰项之间的协方差值。
36、比如 中的中的 ,(,(i j)表示与第)表示与第i组和第组和第j组观测值相对应的组观测值相对应的 与与 的协方差。若的协方差。若 非主对角线上的部分或全部元素都非主对角线上的部分或全部元素都不为零,干扰项就是序列相关的。本节讨论异方差,下一不为零,干扰项就是序列相关的。本节讨论异方差,下一节讨论序列相关问题。节讨论序列相关问题。)(Varnnnnnn.212222111211iijij(4.15)v首先明确同方差假定如图首先明确同方差假定如图4.1和和4.2所示。对于随着所示。对于随着解释变量的变化,相应解释变量的变化,相应 的分布方差都是相同的。的分布方差都是相同的。 图图4.1 同方差情
37、形同方差情形 图图4.2 同方差情形同方差情形i02460102030YXv这样我们就可以进一步明确,异方差通常的三种这样我们就可以进一步明确,异方差通常的三种表现形式,(表现形式,(1)递增型,()递增型,(2)递减型,()递减型,(3)条)条件自回归型。递增型异方差见图件自回归型。递增型异方差见图4.3和和4.4。图。图4.5为递减型异方差。图为递减型异方差。图4.6为条件自回归型异方差。为条件自回归型异方差。 图图4.3 递增型异方差情形递增型异方差情形0501001502002500102030YX图图4.4 递增型异方差递增型异方差 图图4.5 递减型异方差递减型异方差0501001
38、502002500102030YX-8-6-4-20246200400600800100012001400DJPY 图图4.6 复杂型异方差复杂型异方差v这里我们要说明的是:第一,时间序列数据和截这里我们要说明的是:第一,时间序列数据和截面数据中都有可能存在异方差;第二,经济时间面数据中都有可能存在异方差;第二,经济时间序列中的异方差常为递增型异方差。金融时间序序列中的异方差常为递增型异方差。金融时间序列中的异方差常表现为自回归条件异方差。列中的异方差常表现为自回归条件异方差。v无论是时间序列数据还是截面数据,递增型异方无论是时间序列数据还是截面数据,递增型异方差的来源主要是因为随着解释变量值
39、的增大,被差的来源主要是因为随着解释变量值的增大,被解释变量取值的差异性增大。解释变量取值的差异性增大。二、异方差引起的后果二、异方差引起的后果v我们从简单线性回归模型入手,讨论异方差对参我们从简单线性回归模型入手,讨论异方差对参数估计的影响,然后再针对一般回归线性模型进数估计的影响,然后再针对一般回归线性模型进行讨论。对模型行讨论。对模型 (4.16)v当当 ,为异方差时(,为异方差时( 是一个随时是一个随时间或序数变化的量),回归参数估计量仍具有无间或序数变化的量),回归参数估计量仍具有无偏性和一致性。针对偏性和一致性。针对 而言而言 iiiXY102)(iiVar2i11212121)(
40、)()()()()()()()(XXEXXXXXXXXEXXYYXXEEiiiiiiiiii(4.17)v但是回归参数估计量不再具有有效性,即但是回归参数估计量不再具有有效性,即 1112222222222222()()()()()()()() )()() )()iiiiiiiiiiVarEXXEXXXXEXXXXXXXX(4.18)v在在(4.17)和和(4.18)式的推导中利用了式的推导中利用了 的非序列相的非序列相关的假定。关的假定。(4.18)式不等号左侧项分子中的式不等号左侧项分子中的 不不是一个常量,不能从累加式中提出,所以不等号是一个常量,不能从累加式中提出,所以不等号左侧项不等
41、于不等号右侧项。而不等号右侧项是左侧项不等于不等号右侧项。而不等号右侧项是同方差条件下同方差条件下 1的最小二乘估计量的最小二乘估计量 的方差。的方差。因此异方差条件下的因此异方差条件下的 失去有效性。失去有效性。v另外回归参数估计量方差的估计是真实方差的有另外回归参数估计量方差的估计是真实方差的有偏估计量,即偏估计量,即 E( ( ) i2i11Var1)(1Varv针对一般线性回归模型(针对一般线性回归模型(2.2)式)式 ,v因为因为OLS估计量无偏性的证明只依赖于模型的一估计量无偏性的证明只依赖于模型的一阶矩,所以当阶矩,所以当 以(以(4.14)式所示时,)式所示时,OLS估估计量计
42、量 仍具有无偏性和一致性,即仍具有无偏性和一致性,即 (4.19) 但不具有有效性和渐近有效性。但不具有有效性和渐近有效性。 )(VarXXXXXXXYXXX)()()()()()(111EEEEXYv而且而且 的分布将受到影响,即的分布将受到影响,即 (4.20) 由(由(4.20)式知异方差条件下)式知异方差条件下 是非有效估计量。是非有效估计量。v异方差性的存在,会对线性回归模型正确的建立异方差性的存在,会对线性回归模型正确的建立和统计推断带来严重的后果,因此在计量经济分和统计推断带来严重的后果,因此在计量经济分析中,有必要检验模型是否存在异方差。析中,有必要检验模型是否存在异方差。11
43、1121121( )()() ()() ()() ()()()()VarEEE XXXX XXXXXXXXXXX X XXXX4.2.2 异方差性的检验异方差性的检验 一、定性分析异方差一、定性分析异方差 二、戈德菲尔德昆茨检验二、戈德菲尔德昆茨检验 三、格莱泽检验三、格莱泽检验 四、怀特检验四、怀特检验 五、自回归条件异方差检验五、自回归条件异方差检验一、定性分析异方差一、定性分析异方差v定性分析异方差的角度很多,我们可以根据实际定性分析异方差的角度很多,我们可以根据实际建立模型依据的经济理论和实际经济现象来分析建立模型依据的经济理论和实际经济现象来分析是否存在异方差性,一般情形经济变量规模
44、差别是否存在异方差性,一般情形经济变量规模差别很大时容易出现异方差,如个人收入与支出关系,很大时容易出现异方差,如个人收入与支出关系,投入与产出关系。投入与产出关系。v另外,我们也可以利用散点图(图另外,我们也可以利用散点图(图4.6)和)和 残差图残差图(图(图4.7),来初步判断异方差的存在性。),来初步判断异方差的存在性。010020030005000100001500020000XY图图4.6 散点图散点图二、戈德菲尔德昆茨检验二、戈德菲尔德昆茨检验v戈德菲尔德昆茨(戈德菲尔德昆茨(Goldfeld-Quandt)检验方法)检验方法是戈德菲尔德昆茨于是戈德菲尔德昆茨于1965年提出的,
45、所要检验年提出的,所要检验的问题为的问题为 H0: 具有同方差具有同方差 H1: 具有递增型异方差具有递增型异方差iiv其检验的基本思想是:其检验的基本思想是: 第一,把原样本分成两个子样本。具体方法是把第一,把原样本分成两个子样本。具体方法是把成对(组)的观测值按解释变量的大小顺序排列,成对(组)的观测值按解释变量的大小顺序排列,略去略去m个处于中心位置的观测值(通常个处于中心位置的观测值(通常n 30时,时,取取m n/4 ,余下的,余下的n- m个观测值自然分成容量相个观测值自然分成容量相等等(n- m) / 2的两个子样本)。的两个子样本)。 X1, X2, , Xi-1, Xi, X
46、i+1, , Xn-1, Xn n1 = (n-m) / 2 m = n / 4 n2 = (n-m) / 2 第二,用两个子样本分别估计回归直线,并计算第二,用两个子样本分别估计回归直线,并计算残差平方和。相对于残差平方和。相对于n2 和和n1 分别用分别用SSE2 和和SSE1表示。表示。 第三,构建第三,构建F统计量统计量 F = = , (k为模型中被估参数个数)为模型中被估参数个数)v在在H0成立条件下,成立条件下,F ),(12knknF)/()/(1122knSSEknSSE12SSESSE 第四,判别规则如下,第四,判别规则如下,v若若 F , 接受接受H0 (ut 具有同方差
47、)具有同方差)若若 F , 拒绝拒绝H0 (递增型异方差)(递增型异方差)v这里我们应该注意到,当摸型含有多个解释变量这里我们应该注意到,当摸型含有多个解释变量时,应以每一个解释变量为基准检验异方差。此时,应以每一个解释变量为基准检验异方差。此法的基本思路也适用于递减型异方差。另外,对法的基本思路也适用于递减型异方差。另外,对于截面样本,计算于截面样本,计算F统计量之前,必须先把数据统计量之前,必须先把数据按解释变量的值从小到大排序。按解释变量的值从小到大排序。),(12knknF),(12knknF三、格莱泽检验三、格莱泽检验v格莱泽(格莱泽(Glejser)检验的基本思想是,检验)检验的基
48、本思想是,检验 是否与解释变量是否与解释变量Xi存在函数关系。若存在函数关存在函数关系。若存在函数关系,则说明存在异方差;若无函数关系,则说明系,则说明存在异方差;若无函数关系,则说明不存在异方差。通常应检验的几种形式是不存在异方差。通常应检验的几种形式是 = a0 + a1 Xi = a0 + a1 /Xi = a0 + a1, .iiiiv格莱泽检验的特点是不仅能对异方差的存在进行格莱泽检验的特点是不仅能对异方差的存在进行判断,而且还能对异方差随某个解释变量变化的判断,而且还能对异方差随某个解释变量变化的函数形式进行诊断。该方法既可检验递增型异方函数形式进行诊断。该方法既可检验递增型异方差
49、,也可检验递减型异方差。应该注意,当原模差,也可检验递减型异方差。应该注意,当原模型含有多个解释变量值时,可以把型含有多个解释变量值时,可以把 拟合成多拟合成多变量回归形式。变量回归形式。i四、怀特检验四、怀特检验v怀特(怀特(White)检验由)检验由H. White 1980年提出。年提出。v戈德菲尔德昆茨检验必须先把数据按解释变量戈德菲尔德昆茨检验必须先把数据按解释变量的值从小到大排序。的值从小到大排序。v格莱泽检验通常要试拟合多个回归式。格莱泽检验通常要试拟合多个回归式。vWhite检验不需要对观测值排序,也不依赖于随检验不需要对观测值排序,也不依赖于随机误差项服从正态分布,它是通过一
50、个辅助回归机误差项服从正态分布,它是通过一个辅助回归式构造式构造 统计量进行异方差检验。统计量进行异方差检验。 2v怀特检验的具体步骤如下。怀特检验的具体步骤如下。v以二元回归模型为例,以二元回归模型为例, Yi = 0 + 1 X i1+ 2 Xi2 + (4.21) 第一,首先对上式进行第一,首先对上式进行OLS回归,求残差回归,求残差 。并做如下辅助回归式,并做如下辅助回归式, = 0+ 1Xi1+ 2Xi2+ 3Xi12+ 4Xi22+ 5Xi1Xi2 + vi (4.22)v即用即用 对原回归式中的各解释变量、解释变量的对原回归式中的各解释变量、解释变量的平方项、交叉积项进行平方项、
51、交叉积项进行OLS回归。注意,上式中回归。注意,上式中要保留常数项。求辅助回归要保留常数项。求辅助回归 (4.22)式的可决系数式的可决系数R2。ii2i2i 第二,怀特检验的零假设和备择假设是第二,怀特检验的零假设和备择假设是 H0: (4.21)式中的式中的 不存在异方差,不存在异方差, H1: (4.21)式中的式中的 存在异方差存在异方差 第三,在不存在异方差假设条件下统计量第三,在不存在异方差假设条件下统计量 nR 2 2(5) (4.23) 其中其中n表示样本容量,表示样本容量,R2是辅助回归是辅助回归 (4.22) 式的式的OLS估计式的可决系数。自由度估计式的可决系数。自由度5
52、表示辅助回归表示辅助回归(4.22) 式中解释变量项数。式中解释变量项数。ii 第四,判别规则是第四,判别规则是v若若 n R 2 2 (5), 接受接受H0 ( 具有同方差)具有同方差)若若 n R 2 2 (5), 拒绝拒绝H0 ( 具有异方差)具有异方差)v怀特检验的特点是,不仅能够检验异方差的存在,怀特检验的特点是,不仅能够检验异方差的存在,同时在多变量的情况下,还能够判断出是哪一个同时在多变量的情况下,还能够判断出是哪一个变量引起的异方差,通常适用于截面数据的情形。变量引起的异方差,通常适用于截面数据的情形。该方法不需要异方差的先验信息,但要求观测值该方法不需要异方差的先验信息,但要
53、求观测值为大样本。为大样本。ii五、自回归条件异方差检验五、自回归条件异方差检验v异方差的另一种检验方法称作自回归条件异方差异方差的另一种检验方法称作自回归条件异方差 (auto regressive conditional heteroscedasticity ) 检检验,简称为验,简称为ARCH检验。这种检验方法不是把原检验。这种检验方法不是把原回归模型的随机误差项回归模型的随机误差项 i 2 看作是看作是Xi 的函数,而的函数,而是把是把 i 2 看作误差滞后项看作误差滞后项 , , 的函的函 数。数。vARCH是误差项二阶矩的自回归过程。是误差项二阶矩的自回归过程。v恩格尔(恩格尔(E
54、ngle 1982)针对)针对ARCH过程提出过程提出LM检检验法。验法。 21i22iv辅助回归式定义为辅助回归式定义为 = 0 + 1 + + n , (4.24)vLM统计量定义为统计量定义为 ARCH = n R 2 2(m)其中其中R 2是辅助回归式(是辅助回归式(4.24)的可决系数。在)的可决系数。在H0: 1 = = m = 0 成立条件下,成立条件下,ARCH渐近服渐近服从从 2(m) 分布。分布。2i2tu21i2ni2mtuvARCH检验的最常用形式是一阶自回归模检验的最常用形式是一阶自回归模型(型(m = 1),), = 0 + 1 . 在这种情形下,在这种情形下,AR
55、CH渐近服从渐近服从 2(1) 分布。分布。 vARCH检验的特点是,要求变量的观测值检验的特点是,要求变量的观测值是大样本,并且是时间序列数据;它只能是大样本,并且是时间序列数据;它只能判断模型中是否存在异方差,而不能诊断判断模型中是否存在异方差,而不能诊断出是哪一个变量引起的异方差。出是哪一个变量引起的异方差。2tu21tu4.2.3 广义最小二乘法及异方差性的广义最小二乘法及异方差性的克服克服v为了进一步从理论上掌握克服异方差的方法,更为了进一步从理论上掌握克服异方差的方法,更好的开拓建立计量经济模型的思路,这里我们将好的开拓建立计量经济模型的思路,这里我们将详细的介绍广义最小二乘法的基
56、本理论和方法,详细的介绍广义最小二乘法的基本理论和方法,然后讨论异方差的克服。然后讨论异方差的克服。一、广义最小二乘法一、广义最小二乘法v设模型为设模型为 其中其中 E( )= 0, = E( ) = 2 已知。因为已知。因为 I,违反了线性回归模型的经典,违反了线性回归模型的经典假定条件,所以应该对模型进行适当修正。假定条件,所以应该对模型进行适当修正。v因为因为 是一个是一个n阶正定矩阵,根据线性代数的知阶正定矩阵,根据线性代数的知识,必存在一个非退化识,必存在一个非退化n n 阶矩阵阶矩阵M使下式成立。使下式成立。 = I n n v从(从(4.27)式得)式得 = -1 XY(4.25
57、)(4.26)(4.27)(Var MMMMv用用M左乘左乘(4.25)式回归模型两侧得式回归模型两侧得 (4.29) 令令 , , , 那么那么(4.29)式变换为式变换为 (4.30)v根据(根据(4.15)式,则)式,则 的协差阵为的协差阵为 = = = 2 = 2 I. 变换后模型的变换后模型的 是一个纯量对角矩阵。是一个纯量对角矩阵。v对变换后模型(对变换后模型(4.30)式进行)式进行OLS估计,得到的估计,得到的是是 的最佳线性无偏估计量。的最佳线性无偏估计量。v这种估计方法称作广义最小二乘法。这种估计方法称作广义最小二乘法。 MMXMYMYY *MXX *M *XY*)(*Va
58、r)(*E)(MMEMM(4.31)(*Varv 的广义最小二乘估计量(的广义最小二乘估计量(generalized least squares estimator)定义为)定义为 YXXXMYMXMXMXYXXX1111*1*)()()(4.32)v对线性回归模型(对线性回归模型(4.25)式,满足条件)式,满足条件(4.26)式时,式时,广义最小二乘估计量广义最小二乘估计量 为参数的最优线性无偏估为参数的最优线性无偏估计量,具体表现为:计量,具体表现为: 1、线性特性、线性特性v由(由(4.32)式知)式知 *XXXXXXXYXXX111111111*)()()()((4.33)v令令 ,
59、那么,(,那么,(4.33)式为)式为 从而,说明它不仅是从而,说明它不仅是Y的线性组合,也是的线性组合,也是 的线的线 性组合。性组合。 2、无偏性、无偏性v由(由(4.34)式知)式知AA)()()()(*EEEE(4.35) 111*)(XXXAAYA*(4.34)3、最小方差性、最小方差性v首先计算广义最小二乘估计量首先计算广义最小二乘估计量 的协方差矩阵为的协方差矩阵为 v假设假设 为为 的任何其他线性无偏估计量,的任何其他线性无偏估计量,不妨假设不妨假设 *112*2*)()()()(XXAAAAEEVarYCA)(*c(4.36)v由于由于 为为 的无偏估计量,即有的无偏估计量,
60、即有 v这样只有这样只有 或或 v那么有那么有 *c*()()() ( )cEEAC XACA XC XC X0XC*0CX*)()()()()()(*2*CACACACAEEVarccc(4.38)(4.39)v在(在(4.39)式中)式中 从而从而v根据矩阵代数的知识,任何矩阵与自身转置的乘根据矩阵代数的知识,任何矩阵与自身转置的乘积都是半正定矩阵,(积都是半正定矩阵,(4.40)式中的)式中的 为半正定矩阵,其对角线上的元素必然是非负的,为半正定矩阵,其对角线上的元素必然是非负的,因此得知,广义最小二乘估计量因此得知,广义最小二乘估计量 为参数为参数 的最的最优线性无偏估计量。优线性无偏
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度新能源储能项目落户保障合同
- 厨具设备购销合同(31篇)
- 教学工作总结英语2024(32篇)
- 2023-2024学年浙江省宁波市镇海中学高三下学期期中考试历史试卷
- 2025年业务提升合作谅解协议
- 2025年供应链管理公司合作项目协议书
- 2025年产品创新与生产协作协议
- 2025年农村医疗人员定向就业协议
- 2025年大数据项目规划申请报告模板
- 2025年远程医疗项目立项申请报告模板
- 吉利收购沃尔沃商务谈判案例分析
- JGJ/T235-2011建筑外墙防水工程技术规程
- 人教版PEP五年级英语下册单词表与单词字帖 手写体可打印
- 如果历史是一群喵
- 抖音房产直播敏感词汇表
- 2024届山东省青岛市市北区八年级物理第二学期期末质量检测试题含解析
- 广东省深圳市2023年中考英语试题(含答案与解析)
- 《看看我们的地球》
- 2022-2023年人教版九年级化学(上册)期末试题及答案(完整)
- 中华民族共同体概论课件专家版2第二讲 树立正确的中华民族历史观
- 蔚来用户运营分析报告-数字化
评论
0/150
提交评论