线性回归经典假设分析_第1页
线性回归经典假设分析_第2页
线性回归经典假设分析_第3页
线性回归经典假设分析_第4页
线性回归经典假设分析_第5页
已阅读5页,还剩183页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于线性回归经典假设的分析第一张,PPT共一百八十八页,创作于2022年6月第一节 多重共线性 多重共线性含义及引起的后果 多重共线性的检验 多重共线性的克服及岭回归方法 第二张,PPT共一百八十八页,创作于2022年6月4.1.1 多重共线性含义及引起的后果一、多重共线性的含义“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。针对总体回归模型(2.2)式 , 的经典假设条件,要求 (4.1) 即要求矩阵X满秩。X满秩就能保证行列式 ,从而可以得到参数的估计值 。如果这个假设条件不满足,即 ,就表明某些解释变量之 间存在完全的线性相关关系,在这种情形下

2、,根本无法求出参数的估计值 。 第三张,PPT共一百八十八页,创作于2022年6月然而,在实际问题中,某些解释变量之间不是完全线性相关的或接近完全线性相关的。就模型中解释变量的关系而言,有三种可能。 1、 ,解释变量间毫无线性关系,变量间相互正交。这时已不需要多重回归,每个参数j都可以通过Y对 的一元回归来估计。 2、 ,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。第四张,PPT共一百八十八页,创作于2022年6月 3、 ,解释变量间存在一定程度的线性关系。实际中常遇到的是这种情形。随着共线性程度的加强,

3、对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有无多重共线性,而是多重共线性的程度。这里需要说明的是,在解决实际问题的过程中,经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率等都增长,当经济处于收缩期,收入、消费、就业率等都下降或增长率下降。当这些变量同时做解释变量就会给模型带来多重共线性问题。另外,解释变量与其滞后变量同作解释变量时,也会引起多重共线性。第五张,PPT共一百八十八页,创作于2022年6月二、多重共线性引起的后果如果解释变量之间存在明显的相关关系,即存在严重的多重共线性,将会影响模型的构建。 1、当 ,X为降秩矩阵,则 不存在, 不可计算。 2、

4、若 ,即使 , 仍具有无偏性,即 第六张,PPT共一百八十八页,创作于2022年6月然而,当 时, 接近降秩矩阵, 即 , 变得很大。 所以 丧失有效性。以二元解释变量线性模型为例,当 时, 为 时 方差的2.78倍。当 时, 为 时的10.26倍。第七张,PPT共一百八十八页,创作于2022年6月4.1.2 多重共线性的检验既然多重共线性会造成一些严重的后果,在建立线性回归模型的过程中,有必要检验样本是否存在多重共线性。 第八张,PPT共一百八十八页,创作于2022年6月检验样本是否存在严重的多重共线性常用的方法如下。 一、可决系数的值较大而回归系数的t值较小。当模型的可决系数R2很高,总体

5、显著性检验的F值很高,而每个回归参数估计值的方差 又非常大,即t值很低时,说明解释变量之间存在多重共线性。 二、 Klein判别法。计算多重可决系数R2及解释变量之间的简单相关系数 。若有某个 R2,则Xi,Xj间的多重共线性是有害的。第九张,PPT共一百八十八页,创作于2022年6月 三、特征值与病态指数。根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而当行列式 时,矩阵 XX 至少有一个特征根近似等于零。反之,可以证明,当矩阵XX至少有一个特征根近似等于零时,X的列向量之间必存在多重共线性。第十张,PPT共一百八十八页,创作于2022年6月实际上,设 是矩阵XX的一个近似等于零

6、特征根,c是对应于该特征根的特征向量,则(4.2)对(4.2)式两边左乘c,即有 即 从而 (4.3) 这里(4.3)式就反映出了前面所定义的多重共线性。我们应该注意到,矩阵XX有多少个特征根近似为零,设计矩阵就会有多少个类似(4.3)式多重共线性关系,并且这些多重共线关系系数向量就等于接近于零的那些特征根对应的特征向量。第十一张,PPT共一百八十八页,创作于2022年6月另外,特征根近似为零的标准可以用下面的病态指数(condition index)来确定。记XX的最大特征根为 ,称(4.4) 为特征根的病态指数。注意特征根的个数与病态指数都包含了常数项在内。病态指数度量了矩阵 的特征根散布

7、程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。一般认为,当0CI10时,设计矩阵X没有多重共线性;当10CI100时,则认为存在严重的多重共线性。第十二张,PPT共一百八十八页,创作于2022年6月4.1.3 多重共线性的克服及岭回归方法如果多重共线性较为严重,我们该如何处理?一般来说没有一个十分严格的克服多重共线性的方法。但是,可以尽量的降低线性回归模型中存在的多重共线性。这里介绍一些经验规则和理论方法以便克服或降低多重共线性问题时参考。第十三张,PPT共一百八十八页,创作于2022年6月一、克服多重共线性的经验方法 1、剔除变量。面对严重的多重共线性,最简单的克服方法之一就

8、是剔除一个共线性的变量。但是,如果从模型中剔除的是重要的解释变量,可能会引起模型的设定误差。所谓设定误差是指在回归分析中使用了不正确的模型。我们知道,在解释粮食产量的模型中,应该包括播种面积和施肥量,那么剔除播种面积这个变量,就会构成设定误差。当模型中出现设定误差时,线性模型的分析出现的问题会更为严重,其中问题之一是当出现设定误差时,回归系数的估计值是有偏的,这与多重共线性相比是一个更为严重的问题。第十四张,PPT共一百八十八页,创作于2022年6月事实上,假设真实的模型为如果我们错误的拟合了模型 记 ,第十五张,PPT共一百八十八页,创作于2022年6月那么, 这里, 为回归模型 中回归系数

9、的最小二乘估计量。 第十六张,PPT共一百八十八页,创作于2022年6月所以, (4.5)当解释变量之间存在多重共线性时, 是不会为零的,从而由(4.5)式知,这说明如果因为有多重共线性而将一共线变量删除会导致有偏估计,而有偏估计对参数的估计来说,是一个更为严重的问题。在这里我们需要提及的是,在不完全共线的情形下,OLS估计量仍然是BLUE。第十七张,PPT共一百八十八页,创作于2022年6月 2、增加样本容量。由于多重共线性是一个样本特征,所以有可能在同样变量的另一样本中共线性问题并不严重。这样只需要增大样本容量就能减轻共线性问题。看来增加样本容量可能是克服共线性的一个好方法,但在实际解决问

10、题时,我们补充数据扩大样本容量并不是一件容易的事情,特别是在建立计量经济模型时所希望的解释变量的值就更困难。第十八张,PPT共一百八十八页,创作于2022年6月 3、先验信息。如果通过经济理论分析能够得到某些参数之间的线性关系,可以将这种线性关系作为约束条件,将此约束条件和样本信息结合起来进行最小二乘估计。 第十九张,PPT共一百八十八页,创作于2022年6月为了进一步说明问题,假设我们考虑模型如果依据长期的经验分析可以认为两个解释变量的系数相互关系为 ,运用这个先验信息有 其中, 。这样可以估计出 ,然后可以得到 。第二十张,PPT共一百八十八页,创作于2022年6月另外,我们应该注意到,横

11、截面数据与时间序列数据并用也是先验信息法的一种变形,这种方法称为数据并用(pooling the data)。其基本思想是,首先利用横截面数据估计出部分参数,再利用时间序列数据估计另外的部分参数,最后得到整个方程参数的估计。第二十一张,PPT共一百八十八页,创作于2022年6月二、一阶差分方法一阶差分法就是将原模型变形为差分模型的形式,进而降低多重共线性的一种方法。将原模型 经过一阶差分变换为 其中, , , , , 。 第二十二张,PPT共一百八十八页,创作于2022年6月一般情况,差分变换后变量之间的相关性比变换前要弱的多,所以差分后的模型可以有效地降低出现共线性的现象。然而,差分变换常常

12、会引起信息的丢失,使自由度减少了一个,也可能会使得模型的干扰项出现序列相关,即第二十三张,PPT共一百八十八页,创作于2022年6月这样就违背了经典线性回归模型的相关假设,因此在具体应用时要慎重。关于序列相关的有关内容将在后面详细介绍。第二十四张,PPT共一百八十八页,创作于2022年6月三、逐步回归法 逐步回归法的基本思想是,首先用被解释变量对每一个所考虑的解释变量做简单回归,然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础,以对被解释变量贡献大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。若新变量的引入改进了和检验,且回归参数的t检验在统计上也是显著的,则该变量在模型中

13、予以保留。若新变量的引入未能改进和检验,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。若新变量的引入未能改进和检验,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性,舍弃该变量。第二十五张,PPT共一百八十八页,创作于2022年6月四、岭回归法当在建立计量经济模型存在多重共线性时,最小二乘估计的性质就不够理想,有时甚至遭到破坏。在这种情况下,要从本质上克服多重共线性,就需要一些新的估计方法。近四十年来,人们提出了许多新的估计方法,其在理论上最有影响并得到广泛应用的就是岭估计(ridge regress

14、ion)。为了能够较为深入了解岭回归方法,并进一步说明岭估计量的优良性,我们引进评价一个估计优劣的标准均方误差(mean squared errors)。第二十六张,PPT共一百八十八页,创作于2022年6月设 为 未知参数向量, 为 的一个估计量。定义 的均方误差为 (4.6) 它量度了估计量 跟未知参数向量 平均偏离的大小。一个好的估计量应该有较小的均方误差。均方误差有一个重要的性质,即 (4.7)事实上, (4.8)第二十七张,PPT共一百八十八页,创作于2022年6月根据矩阵迹的有关性质,(4.8)式中的第一项 为 如果记 ,则 (4.9) (4.9)式是估计量的各分量方差之和。 第二

15、十八张,PPT共一百八十八页,创作于2022年6月而且 (4.10) (4.10)式是估计量的各分量的偏差 平方和。这样一个估计的均方误差就是由各分量的方差和偏差所决定的。一个好的估计量应该有较小的方差和偏差。第二十九张,PPT共一百八十八页,创作于2022年6月下面我们介绍岭回归的基本方法。当解释变量之间存在多重共线性时 ,则 将会增大,原因是 接近奇异。如果将 加上一个正常数对角阵kI(k0,I为单位矩阵),即 ,使得 的可能性比 的可能性更小,那么 接近奇异的程度就会比 小的多。 第三十张,PPT共一百八十八页,创作于2022年6月这样就可以得到 的岭回归估计为 (4.11) 其中 称为

16、 的岭回归估计量,k称为岭参数或偏参数。当k取不同的值时,我们得到不同的估计,因此岭估计 是一个估计类,当k=0时, 就是普通最小二乘估计量。于是严格的讲,最小二乘估计量就是岭估计类中一个估计量。第三十一张,PPT共一百八十八页,创作于2022年6月但是在一般情况下,当我们提及岭估计时,一般不包括最小二乘估计。特别是在解释变量之间存在多重共线性时,以 作为 的估计应比最小二乘估计稳定,随着k的逐渐增大,回归系数可能呈现出稳定的状态。因此,要选择适当的k值,岭回归参数才会优于最小二乘估计参数。 第三十二张,PPT共一百八十八页,创作于2022年6月为了进一步说明岭回归估计的优良性,有必要介绍岭回

17、归估计量的有关性质。 性质1 岭回归的参数估计是回归参数的有偏估计。实际上,有 (4.12)因此岭估计量是有偏估计,这是岭估计与最小二乘估计的一个重要不同之处。第三十三张,PPT共一百八十八页,创作于2022年6月 性质2 在岭参数k与Y无关的情况下, 是最小二乘估计的一个线性变换,也是理论值Y的线性函数。实际上,根据(4.11)式很容易看出这个性质的正确性。 性质3 存在k0,使得 (4.13) 即存在k0 ,使得在均方误差意义下,岭估计优于最小二乘估计。 第三十四张,PPT共一百八十八页,创作于2022年6月这里需要说明的是关于k值的选择非常重要,在此我们主要介绍用岭迹法选择k值的基本思路

18、。岭估计 是随着k值的改变而变化。若记 为 的第i个分量,它是k的一元函数。当k在 上变化时, 的图形称为岭迹(ridge trace)。将 的每个分量 的岭迹画在同一个图上,根据岭迹的变化趋势选择k值,使得各个回归系数的岭估计大体上稳定,并且各个回归系数岭估计值的符号比较合理并符合实际。 第三十五张,PPT共一百八十八页,创作于2022年6月我们知道,最小二乘估计是使残差平方和达到最小的估计。k愈大,岭估计跟最小二乘估计偏差愈大。因此,它对应的残差平方和也随着k的增加而增加。当我们用岭迹法选择k值时,还应该考虑使得残差平方和不要上升的太多。在解决实际问题时,上述几点原则有时可能会有些相互不一

19、致,顾此失彼的情况也经常出现,这就要根据不同的情况灵活处理。 第三十六张,PPT共一百八十八页,创作于2022年6月需要提及的是,目前还没有形成公认的选择岭参数的最优方法,除了岭迹法,我们还可以选用方差扩大因子法、残差平方和法等等。另外,在实际应用中,也可以考虑使用逐步搜索的方法,即开始给定小的k值,然后逐渐增加k的取值进行模拟,直到岭估计量 的值趋于稳定为止。显然,用逐步搜索的方法确定k,具有一定的主观性,但是具体的过程体现出了统计模拟的基本思想。第三十七张,PPT共一百八十八页,创作于2022年6月第二节 异方差性 异方差性含义及引起的后果 异方差性的检验 广义最小二乘法及异方差性的克服

20、第三十八张,PPT共一百八十八页,创作于2022年6月4.2.1 异方差性含义及引起的后果 一、异方差的含义及表现 二、异方差引起的后果第三十九张,PPT共一百八十八页,创作于2022年6月一、异方差的含义及表现针对总体回归模型(2.2)式 , 的经典假设条件,要求给出 是一个对角矩阵,即 = 2I= 2 (4.14)且 的协差阵主对角线上的元素都是常数且相等,即每一干扰项的方差都是有限的相同值(同方差假定);且非主对角线上的元素为零(非自相关假定),当这个假定不成立时, 不再是一个纯量对角矩阵。第四十张,PPT共一百八十八页,创作于2022年6月 = 2 = 2 2 I. 当干扰项向量 的协

21、差阵主对角线上的元素不相等时,称该随机误差系列存在异方差,即干扰项向量 中的元素 取自不同的分布总体。 非主对角线上的元素表示干扰项之间的协方差值。比如 中的 ,(i j)表示与第i组和第j组观测值相对应的 与 的协方差。若 非主对角线上的部分或全部元素都不为零,干扰项就是序列相关的。本节讨论异方差,下一节讨论序列相关问题。(4.15)第四十一张,PPT共一百八十八页,创作于2022年6月首先明确同方差假定如图4.1和4.2所示。对于随着解释变量的变化,相应 的分布方差都是相同的。 图4.1 同方差情形 图4.2 同方差情形第四十二张,PPT共一百八十八页,创作于2022年6月这样我们就可以进

22、一步明确,异方差通常的三种表现形式,(1)递增型,(2)递减型,(3)条件自回归型。递增型异方差见图4.3和4.4。图4.5为递减型异方差。图4.6为条件自回归型异方差。 第四十三张,PPT共一百八十八页,创作于2022年6月图4.3 递增型异方差情形第四十四张,PPT共一百八十八页,创作于2022年6月图4.4 递增型异方差第四十五张,PPT共一百八十八页,创作于2022年6月 图4.5 递减型异方差第四十六张,PPT共一百八十八页,创作于2022年6月 图4.6 复杂型异方差第四十七张,PPT共一百八十八页,创作于2022年6月这里我们要说明的是:第一,时间序列数据和截面数据中都有可能存在

23、异方差;第二,经济时间序列中的异方差常为递增型异方差。金融时间序列中的异方差常表现为自回归条件异方差。无论是时间序列数据还是截面数据,递增型异方差的来源主要是因为随着解释变量值的增大,被解释变量取值的差异性增大。第四十八张,PPT共一百八十八页,创作于2022年6月二、异方差引起的后果我们从简单线性回归模型入手,讨论异方差对参数估计的影响,然后再针对一般回归线性模型进行讨论。对模型 (4.16)当 ,为异方差时( 是一个随时间或序数变化的量),回归参数估计量仍具有无偏性和一致性。针对 而言 (4.17)第四十九张,PPT共一百八十八页,创作于2022年6月但是回归参数估计量不再具有有效性,即

24、(4.18)第五十张,PPT共一百八十八页,创作于2022年6月在(4.17)和(4.18)式的推导中利用了 的非序列相关的假定。(4.18)式不等号左侧项分子中的 不是一个常量,不能从累加式中提出,所以不等号左侧项不等于不等号右侧项。而不等号右侧项是同方差条件下1的最小二乘估计量 的方差。因此异方差条件下的 失去有效性。另外回归参数估计量方差的估计是真实方差的有偏估计量,即 E( ( ) 第五十一张,PPT共一百八十八页,创作于2022年6月针对一般线性回归模型(2.2)式 ,因为OLS估计量无偏性的证明只依赖于模型的一阶矩,所以当 以(4.14)式所示时,OLS估计量 仍具有无偏性和一致性

25、,即 (4.19) 但不具有有效性和渐近有效性。 第五十二张,PPT共一百八十八页,创作于2022年6月而且 的分布将受到影响,即 (4.20) 由(4.20)式知异方差条件下 是非有效估计量。异方差性的存在,会对线性回归模型正确的建立和统计推断带来严重的后果,因此在计量经济分析中,有必要检验模型是否存在异方差。第五十三张,PPT共一百八十八页,创作于2022年6月4.2.2 异方差性的检验 一、定性分析异方差 二、戈德菲尔德昆茨检验 三、格莱泽检验 四、怀特检验 五、自回归条件异方差检验第五十四张,PPT共一百八十八页,创作于2022年6月一、定性分析异方差定性分析异方差的角度很多,我们可以

26、根据实际建立模型依据的经济理论和实际经济现象来分析是否存在异方差性,一般情形经济变量规模差别很大时容易出现异方差,如个人收入与支出关系,投入与产出关系。另外,我们也可以利用散点图(图4.6)和 残差图(图4.7),来初步判断异方差的存在性。第五十五张,PPT共一百八十八页,创作于2022年6月图4.6 散点图第五十六张,PPT共一百八十八页,创作于2022年6月第五十七张,PPT共一百八十八页,创作于2022年6月二、戈德菲尔德昆茨检验戈德菲尔德昆茨(Goldfeld-Quandt)检验方法是戈德菲尔德昆茨于1965年提出的,所要检验的问题为 H0: 具有同方差 H1: 具有递增型异方差第五十

27、八张,PPT共一百八十八页,创作于2022年6月其检验的基本思想是: 第一,把原样本分成两个子样本。具体方法是把成对(组)的观测值按解释变量的大小顺序排列,略去m个处于中心位置的观测值(通常n 30时,取m n/4 ,余下的n- m个观测值自然分成容量相等(n- m) / 2的两个子样本)。 X1, X2, , Xi-1, Xi, Xi+1, , Xn-1, Xn n1 = (n-m) / 2 m = n / 4 n2 = (n-m) / 2第五十九张,PPT共一百八十八页,创作于2022年6月 第二,用两个子样本分别估计回归直线,并计算残差平方和。相对于n2 和n1 分别用SSE2 和SSE

28、1表示。 第三,构建F统计量 F = = , (k为模型中被估参数个数)在H0成立条件下,F 第六十张,PPT共一百八十八页,创作于2022年6月 第四,判别规则如下,若 F , 接受H0 (ut 具有同方差)若 F , 拒绝H0 (递增型异方差)这里我们应该注意到,当摸型含有多个解释变量时,应以每一个解释变量为基准检验异方差。此法的基本思路也适用于递减型异方差。另外,对于截面样本,计算F统计量之前,必须先把数据按解释变量的值从小到大排序。第六十一张,PPT共一百八十八页,创作于2022年6月三、格莱泽检验格莱泽(Glejser)检验的基本思想是,检验 是否与解释变量Xi存在函数关系。若存在函

29、数关系,则说明存在异方差;若无函数关系,则说明不存在异方差。通常应检验的几种形式是 = a0 + a1 Xi = a0 + a1 /Xi = a0 + a1, .第六十二张,PPT共一百八十八页,创作于2022年6月格莱泽检验的特点是不仅能对异方差的存在进行判断,而且还能对异方差随某个解释变量变化的函数形式进行诊断。该方法既可检验递增型异方差,也可检验递减型异方差。应该注意,当原模型含有多个解释变量值时,可以把 拟合成多变量回归形式。第六十三张,PPT共一百八十八页,创作于2022年6月四、怀特检验怀特(White)检验由H. White 1980年提出。戈德菲尔德昆茨检验必须先把数据按解释变

30、量的值从小到大排序。格莱泽检验通常要试拟合多个回归式。White检验不需要对观测值排序,也不依赖于随机误差项服从正态分布,它是通过一个辅助回归式构造 统计量进行异方差检验。 第六十四张,PPT共一百八十八页,创作于2022年6月怀特检验的具体步骤如下。以二元回归模型为例, Yi = 0 +1 X i1+2 Xi2 + (4.21) 第一,首先对上式进行OLS回归,求残差 。并做如下辅助回归式, = 0+1Xi1+2Xi2+3Xi12+4Xi22+5Xi1Xi2 + vi (4.22)即用 对原回归式中的各解释变量、解释变量的平方项、交叉积项进行OLS回归。注意,上式中要保留常数项。求辅助回归

31、(4.22)式的可决系数R2。第六十五张,PPT共一百八十八页,创作于2022年6月 第二,怀特检验的零假设和备择假设是 H0: (4.21)式中的 不存在异方差, H1: (4.21)式中的 存在异方差 第三,在不存在异方差假设条件下统计量 nR 2 2(5) (4.23) 其中n表示样本容量,R2是辅助回归 (4.22) 式的OLS估计式的可决系数。自由度5表示辅助回归(4.22) 式中解释变量项数。第六十六张,PPT共一百八十八页,创作于2022年6月 第四,判别规则是若 n R 2 2 (5), 接受H0 ( 具有同方差)若 n R 2 2 (5), 拒绝H0 ( 具有异方差)怀特检验

32、的特点是,不仅能够检验异方差的存在,同时在多变量的情况下,还能够判断出是哪一个变量引起的异方差,通常适用于截面数据的情形。该方法不需要异方差的先验信息,但要求观测值为大样本。第六十七张,PPT共一百八十八页,创作于2022年6月五、自回归条件异方差检验异方差的另一种检验方法称作自回归条件异方差 (auto regressive conditional heteroscedasticity ) 检验,简称为ARCH检验。这种检验方法不是把原回归模型的随机误差项i 2 看作是Xi 的函数,而是把i 2 看作误差滞后项 , , 的函 数。ARCH是误差项二阶矩的自回归过程。恩格尔(Engle 198

33、2)针对ARCH过程提出LM检验法。 第六十八张,PPT共一百八十八页,创作于2022年6月辅助回归式定义为 = 0 + 1 + + n , (4.24)LM统计量定义为 ARCH = n R 2 2(m)其中R 2是辅助回归式(4.24)的可决系数。在H0:1 = = m = 0 成立条件下,ARCH渐近服从 2(m) 分布。第六十九张,PPT共一百八十八页,创作于2022年6月ARCH检验的最常用形式是一阶自回归模型(m = 1), = 0 + 1 . 在这种情形下,ARCH渐近服从 2(1) 分布。 ARCH检验的特点是,要求变量的观测值是大样本,并且是时间序列数据;它只能判断模型中是否

34、存在异方差,而不能诊断出是哪一个变量引起的异方差。第七十张,PPT共一百八十八页,创作于2022年6月4.2.3 广义最小二乘法及异方差性的克服为了进一步从理论上掌握克服异方差的方法,更好的开拓建立计量经济模型的思路,这里我们将详细的介绍广义最小二乘法的基本理论和方法,然后讨论异方差的克服。第七十一张,PPT共一百八十八页,创作于2022年6月一、广义最小二乘法设模型为 其中 E( )= 0, = E( ) = 2 已知。因为 I,违反了线性回归模型的经典假定条件,所以应该对模型进行适当修正。因为 是一个n阶正定矩阵,根据线性代数的知识,必存在一个非退化nn 阶矩阵M使下式成立。 = I nn

35、 从(4.27)式得 = -1 (4.25)(4.26)(4.27)第七十二张,PPT共一百八十八页,创作于2022年6月用M左乘(4.25)式回归模型两侧得 (4.29) 令 , , , 那么(4.29)式变换为 (4.30)根据(4.15)式,则 的协差阵为 = = = 2 =2 I. 变换后模型的 是一个纯量对角矩阵。对变换后模型(4.30)式进行OLS估计,得到的是 的最佳线性无偏估计量。这种估计方法称作广义最小二乘法。 (4.31)第七十三张,PPT共一百八十八页,创作于2022年6月 的广义最小二乘估计量(generalized least squares estimator)定义

36、为 (4.32)第七十四张,PPT共一百八十八页,创作于2022年6月对线性回归模型(4.25)式,满足条件(4.26)式时,广义最小二乘估计量 为参数的最优线性无偏估计量,具体表现为: 1、线性特性由(4.32)式知 (4.33)第七十五张,PPT共一百八十八页,创作于2022年6月令 ,那么,(4.33)式为 从而,说明它不仅是Y的线性组合,也是 的线 性组合。 2、无偏性由(4.34)式知(4.35) (4.34)第七十六张,PPT共一百八十八页,创作于2022年6月3、最小方差性首先计算广义最小二乘估计量 的协方差矩阵为 假设 为 的任何其他线性无偏估计量,不妨假设 (4.36)第七十

37、七张,PPT共一百八十八页,创作于2022年6月由于 为 的无偏估计量,即有 这样只有 或 那么有 (4.38)(4.39)第七十八张,PPT共一百八十八页,创作于2022年6月在(4.39)式中 从而根据矩阵代数的知识,任何矩阵与自身转置的乘积都是半正定矩阵,(4.40)式中的 为半正定矩阵,其对角线上的元素必然是非负的,因此得知,广义最小二乘估计量 为参数 的最优线性无偏估计量。(4.40)第七十九张,PPT共一百八十八页,创作于2022年6月在实际应用中,我们需要对 进行估计, 的无偏估计量为 (4.41)第八十张,PPT共一百八十八页,创作于2022年6月这里我们需要强调的是,一般情况

38、下广义最小二乘估计量比普通最小二乘估计量更有效。事实上,当线性模型满足(4.26)式,如果继续对模型用普通最小二乘法得到的估计量 ,知 (4.42)第八十一张,PPT共一百八十八页,创作于2022年6月由(4.36)式知,只要证明 成立。(4.43)式中的不等号表示 为一个半正定矩阵。令 , , 由于 (4.44)(4.43)第八十二张,PPT共一百八十八页,创作于2022年6月那么,根据(4.27)式 根据矩阵代数的知识, (4.45)式中的 为半正定矩阵。从而,说明了 为一个半正定矩阵。(4.45)第八十三张,PPT共一百八十八页,创作于2022年6月二、异方差的克服设模型(4.25)式,

39、 满足E( )= 0, = E( ) = 2 ,一般的异方差情形是 = (4.46) 第八十四张,PPT共一百八十八页,创作于2022年6月对应用广义最小二乘法而言,很容易选取M为M=第八十五张,PPT共一百八十八页,创作于2022年6月我们需要提及的是,在经济意义成立的情形下, 对模型(2.1)式的变量进行对数变换,有 (4.47)对数变换后的模型通常可以降低异方差性的影响。这是因为经过对数变换后的线性模型,其残差 表示相对误差,而相对误差往往比绝对误差有较小的差异。 第八十六张,PPT共一百八十八页,创作于2022年6月事实上,针对样本回归模型 取对数后的样本回归模型为 (4.48) 其中

40、,残差 ,因此, (4.49)第八十七张,PPT共一百八十八页,创作于2022年6月对(4.49)式右端进行泰勒展开,即 (4.50)将(4.50)式中的X用 替换,则这说明模型(4.48)中的残差 表示相对误差。第八十八张,PPT共一百八十八页,创作于2022年6月 例4.1 对模型 假设格莱泽检验结果是 说明异方差形式是 。 第八十九张,PPT共一百八十八页,创作于2022年6月用 除原模型各项,有 则 说明消除了异方差。然后对变换后的模型做OLS估计。第九十张,PPT共一百八十八页,创作于2022年6月第三节 序列相关性 序列相关性含义及引起的后果 序列相关的检验 序列相关的克服 第九十

41、一张,PPT共一百八十八页,创作于2022年6月4.3.1 序列相关性含义及引起的后果 一、序列相关的含义及性质 1、序列相关的含义针对线性模型(2.1)式 当 ,(i, j n, i j), 即误差项 的取值在时间上是相互无关的。称误差项 非序列相关。如果 , (i j) (4.51) 则称误差项 存在序列相关。第九十二张,PPT共一百八十八页,创作于2022年6月序列相关又称自相关。原指一随机变量在时间上与其滞后项之间的相关。这里主要是指回归模型中随机误差项 与其滞后项的相关关系。序列相关也是相关关系的一种。第九十三张,PPT共一百八十八页,创作于2022年6月序列相关按形式可分为两类。

42、(1)一阶自回归形式当误差项 只与其滞后一期值有关时,即 = f ( ), 称 具有一阶自回归形式。第九十四张,PPT共一百八十八页,创作于2022年6月 (2) 高阶自回归形式当误差项 的本期值不仅与其前一期值有关,而且与其前若干期的值都有关系时,即 则称 具有高阶自回归式。第九十五张,PPT共一百八十八页,创作于2022年6月通常假定误差项的序列相关是线性的。因计量经济模型中序列相关的最常见形式是一阶自回归形式,所以下面重点讨论误差项的线性一阶自回归形式,即 (4.52) 其中 是序列相关回归系数, 是随机误差项。 满足通常假设 第九十六张,PPT共一百八十八页,创作于2022年6月针对(

43、4.52)式,利用OLS方法,得到 的估计公式为, = (4.53) 其中n是样本容量。若把 , 看作两个变量,则它们的相关系数是 = (4.54)第九十七张,PPT共一百八十八页,创作于2022年6月对于大样本而言,显然有 (4.55)把(4.55)式代入(4.54)式得 = (4.56)第九十八张,PPT共一百八十八页,创作于2022年6月因而对于总体参数而言,有 = ,即一阶自回归形式的序列相关回归系数等于该两个变量的相关系数。因此原回归模型中误差项 的一阶自回归形式(4.52)式可表示为 (4.57) 的取值范围是 -1,1。当 0 时,称 存在正序列相关;当 0时,称 存在负序列相关

44、。当 = 0时,称 不存在序列相关。第九十九张,PPT共一百八十八页,创作于2022年6月图4.8 a, c, e, 分别给出具有正序列相关,负序列相关和非序列相关的三个序列。为便于理解时间序列的正负序列相关特征,图4.8 b、d、f分别给出图4.8 a、c、e中变量对其一阶滞后变量的散点图。正负序列相关以及非序列相关性展现的更为明了。第一百张,PPT共一百八十八页,创作于2022年6月图4.8 时间序列及其自相关散点图a. 非序列相关的序列图第一百零一张,PPT共一百八十八页,创作于2022年6月 b. 非序列相关的散点图 第一百零二张,PPT共一百八十八页,创作于2022年6月c. 正序列

45、相关的序列图第一百零三张,PPT共一百八十八页,创作于2022年6月 d. 正序列相关的散点图 第一百零四张,PPT共一百八十八页,创作于2022年6月e. 负序列相关的序列图第一百零五张,PPT共一百八十八页,创作于2022年6月 f. 负序列相关的散点图 第一百零六张,PPT共一百八十八页,创作于2022年6月2、序列相关有关性质针对一阶自回归(4.57)式 ,讨论误差项 的期望、方差与协方差公式。由(4.57)式知 (4.58)因为对于平稳序列有 ,整理(4.58)式得 的期望为 (4.59)第一百零七张,PPT共一百八十八页,创作于2022年6月那么, 的方差为整理上式得 (4.60)

46、第一百零八张,PPT共一百八十八页,创作于2022年6月其协方差为 (4.61)同理 (s 0 ) (4.62)第一百零九张,PPT共一百八十八页,创作于2022年6月则由(4.60)式、(4.61)式和(4.62)式得 其中 。从而验证了当回归模型的误差项 存在一阶自回归形式时, 。同理也可证明当 存在高阶自回归形式时,仍有 。这里要说明的是,自相关多发生于时间序列数据中。若出现于截面数据中,称其为空间自相关。第一百一十张,PPT共一百八十八页,创作于2022年6月3、序列相关的来源与后果误差项存在序列相关,主要有如下几个原因。 (1) 模型的数学形式不妥。若所用的数学模型与变量间的真实关系

47、不一致,误差项常表现出自相关。比如平均成本与产量呈抛物线关系,当用线性回归模型拟合时,误差项必存在自相关。 (2) 经济变量的惯性。大多数经济时间序列都存在自相关。其本期值往往受滞后值影响。突出特征就是惯性与低灵敏度。如国民生产总值,固定资产投资,国民消费,物价指数等随时间缓慢地变化,从而建立模型时导致误差项自相关。第一百一十一张,PPT共一百八十八页,创作于2022年6月 (3) 回归模型中略去了带有自相关的重要解释变量。若丢掉了应该列入模型的带有自相关的重要解释变量,那么它的影响必然归并到误差项 中,从而使误差项呈现自相关。当然略去多个带有自相关的解释变量,也许因互相抵消并不使误差项呈现自

48、相关。第一百一十二张,PPT共一百八十八页,创作于2022年6月当误差项 存在序列相关时,模型参数的最小二乘估计量具有如下特性。 (1) 只要假定条件 成立,回归系数 仍具有无偏性。 (4.63)第一百一十三张,PPT共一百八十八页,创作于2022年6月 (2) 丧失有效性。如果回归模型中误差项 存在一阶自回归形式(4.57)式,根据(4.62)式的结果,知 (4.64) 与 不等。第一百一十四张,PPT共一百八十八页,创作于2022年6月 (3) 有可能低估误差项 的方差。低估回归参数估计量的方差,等于夸大了回归参数的抽样精度,过高的估计统计量t的值,从而把不重要的解释变量保留在模型里,使显

49、著性检验失去意义。 (4) 由于 存在自相关时, ( )和 都变大,都不具有最小方差性。所以用依据普通最小二乘法得到的回归方程去预测,预测是无效的。第一百一十五张,PPT共一百八十八页,创作于2022年6月4.3.2 序列相关的检验 1、定性分析法定性分析法就是依据残差ei 对时间i的序列图的性质作出判断。由于残差et是对误差项的估计,所以尽管误差项 观测不到,但可以通过ei的变化判断 是否存在序列相关。第一百一十六张,PPT共一百八十八页,创作于2022年6月定性分析法的具体步骤是, (1) 用给定的样本估计回归模型,计算残差ei , (i = 1, 2, n),绘制残差图; (2) 分析残

50、差图。若残差图与图4.8 a 类似,则说明 不存在自相关;若与图4.8 c类似,则说明 存在正自相关;若与图4.8 e 类似,则说明 存在负自相关。经济变量由于存在惯性,不可能表现出如图4.8 e那样的震荡式变化。其变化形式常与图4.8中c相类似,所以经济变量的变化常表现为正自相关。第一百一十七张,PPT共一百八十八页,创作于2022年6月2、DW(Durbin-Watson)检验法DW检验是J. Durbin, G. S. Watson于1950年发表的一篇论文Testing for Serial Correlation in Least Squares Regression中提出的。它是利

51、用残差ei 构成的统计量推断误差项 是否存在序列相关。 第一百一十八张,PPT共一百八十八页,创作于2022年6月使用DW检验,应首先满足如下三个条件。 (1)误差项 的自相关为一阶自回归形式。 (2)因变量的滞后值 不能在回归模型中作解释变量。 (3)样本容量应充分大(n 15)第一百一十九张,PPT共一百八十八页,创作于2022年6月DW检验的基本思想如下。给出假设 H0: ( 不存在序列相关) H1: ( 存在一阶序列相关)用残差值 ei计算统计量DW。 DW = (4.65) 其中分子是残差的一阶差分平方和,分母是残差平方和。 第一百二十张,PPT共一百八十八页,创作于2022年6月把

52、上式展开, DW = (4.66)因为有 (4.67) 代入(4.66)式,有 DW =2(1- )= 2(4.68)第一百二十一张,PPT共一百八十八页,创作于2022年6月因为的取值范围是 -1, 1,所以DW统计量的取值范围是 0, 4。 与DW值的对应关系见表4.1。0 1 表4.1 与DW值的对应关系及意义DW的表现 = 0DW = 2 非序列相关 = 1DW = 0 完全正序列相关 = 1DW = 4 完全负序列相关 0 10 DW 2 有某种程度的正序列相关 -1 02 DW 2 (5)。因此根据White检验,可以判定在5%的显著性水平下拒绝同方差的原假设,认为模型存在异方差。

53、由EVIEWS软件可直接得到White检验的结果,如表4.5所示:第一百六十张,PPT共一百八十八页,创作于2022年6月表4.5 White检验的结果White Heteroskedasticity Test:F-statistic10.76795Probability0.000086Obs*R-squared17.48050Probability0.003673Test Equation:Dependent Variable: RESID2Method: Least SquaresDate: 04/23/08 Time: 20:41Sample (adjusted): 1980 2002I

54、ncluded observations: 23 after adjustments第一百六十一张,PPT共一百八十八页,创作于2022年6月VariableCoefficientStd. Errort-StatisticProb.C3037.2655883.1330.5162670.6123X1-28.5906419.08983-1.4976900.1526X12-0.0395140.025333-1.5598090.1372X1*X20.2328370.1412741.6481250.1177X262.2826957.608821.0811310.2947X22-0.3315390.197

55、944-1.6749140.1122R-squared0.760022Mean dependent var3596.147Adjusted R-squared0.689440S.D. dependent var10276.80S.E. of regression5727.046Akaike info criterion20.36325Sum squared resid5.58E+08Schwarz criterion20.65946Log likelihood-228.1773F-statistic10.76795Durbin-Watson stat1.739537Prob(F-statist

56、ic)0.000086第一百六十二张,PPT共一百八十八页,创作于2022年6月由表4.5可看出,White统计量为17.48,在5%的显著性水平下大于2 (5),因此判定模型存在异方差。为了提高模型的有效性,我们需要将模型的异方差消除掉。通常处理的方法有加权最小二乘估计法或对直接对变量作变换等方法。在样本数据值比较大时,选择对数形式来估计模型常常可以克服异方差。因此我们以对数变换为例,将模型中的各变量分别取对数,然后再进行OLS估计,结果如下:第一百六十三张,PPT共一百八十八页,创作于2022年6月由上述结果可看出,变换后的模型t值和F值都有了明显提高,说明变量的解释力度较之前增强了。对数

57、线性模型中的系数,实质上度量的是被解释变量对解释变量的弹性。在此模型中,城镇居民人均可支配收入每提高一个百比点,可以引起全国居民消费水平增长0.666%;农村居民人均纯收入每提高一个百比点,全国居民消费水平增长0.37%。两者的弹性都大于0,说明随着收入的增加居民的消费水平也随之上升。但相比较而言,城镇居民的消费收入弹性要大于农村居民的消费收入弹性。这可能是因为城镇居民的消费习惯更加易变,随着收入地增加城镇居民会进行更多的消费。第一百六十四张,PPT共一百八十八页,创作于2022年6月检验变换后的模型是否仍存在异方差。对模型再次进行White检验时可发现White统计量大大减小,仅为1.91,

58、远远小于 2(5)11.07,此时可以判定在5%的显著性水平下接受同方差的原假设,说明通过对数变换已经克服了模型存在的异方差现象。第一百六十五张,PPT共一百八十八页,创作于2022年6月4.4.3 序列相关性分析粮食是关系到国计民生的战略物资,它对一个国家特别是大国具有十分重要的制约作用。我国是世界人口第一大国,来自人口的压力直接作用到粮食生产上。因此,对我国粮食生产的影响因素进行定量分析,研究粮食生产涨落和原因以及提供某些政策建议是十分必要的。第一百六十六张,PPT共一百八十八页,创作于2022年6月现有19782003年我国主要粮食生产数据(如下表),以粮食产量(万吨)作为被解释变量,以

59、主要投入要素作为解释变量。经过我们反复筛选,最终确定的解释变量为播种面积(千公顷)、成灾面积(千公顷)、化肥施用量(万吨)和农村劳动力(万人)。由初步的分析可知,粮食产量与成灾面积是负相关的,而与其它变量是正相关的。第一百六十七张,PPT共一百八十八页,创作于2022年6月表4.6 19782003年我国主要粮食生产数据年份粮食总产量Y播种面积X1成灾面积X2化肥施用量X3农村劳动力X4197830477120587244578842831819793321211926315120108628634198032056117234297771269291221981325021149581874

60、3133529777198235450113463159851513308591983387281140471620916603115119844073111288415607174030868198537911108845227051776311301986391511109332365619313125419874029811126820393200031663198839408110123239452142322491989407551122052244923573322519904462511346617819259038914第一百六十八张,PPT共一百八十八页,创作于2022年6月

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论