




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第10章 线性回归分析管理统计学谢湘生广东工业大学管理学院例 设一个质点作匀速直线运动,其位移可以表示为S=+t。但在实验中由于受到环境等干扰因素的作用,在每一个时刻,人们观察到的不是准确的位移,而是具有误差S +,记这一观测值为Y,则所有观察数据满足注意到各误差实际无法确切地知道,因此要确定质点的运动规律,需要使用回归分析的方法。更一般地,回归分析在经济管理中常被用来分析变量之间的非确切对应的关系。例 用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内(通常为一年)的营业额与经营面积的比值对单位面积营业额的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费
2、者对商场的环境、设施及商品的丰富程度的满意度评分这几个指标中车流量和人流量是通过同时对几个商业中心进行实地观测而得到的而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数据设各指标(变量)的变量名分别为:单位面积营业额:y,每小时机动车流量:x1,日人流量:x2,居民年消费额:x3,对商场环境的满意度:x4,对商场设施的满意度:x5,为商场商品丰富程度满意度:x6问题:对单位面积营业额的影响因素确实是如下6个吗?单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分。yx1x2x3x4x5x6y1x
3、10.3953951x20.7869030.73811x30.798802-0.138150.2744081x40.361470.719670.634186-0.112921x50.4372270.4154260.2602940.4231370.0560231x60.6918860.7599510.9827330.1434170.6922210.2214641不确定型的函数关系在社会经济和管理中,变量之间的关系更经常地表现为不确定的函数关系。如销售量与人口数量销售量与广告费用收入与受教育水平。它们之间存在着明显的相互关系(称为相关关系),但这种关系又不像数学里常用到的确切的函数关系。回归分析是
4、研究随机变量之间相关关系的一种统计方法,其用意是研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。例:宝丽来公司宝丽来公司是即时显影技术的开拓者,并保持着技术领先地位。自公司成立以来,就不断地在化学、光学和电子学方面进行试验和发展,以生产具有更高品质、更高可靠性和更为便利的摄影系统。在宝丽来的感光实验室中,科学家们把即时显像胶片置于一定的温度和湿度下,使之近似于消费者购买后的保存条件,然后再对其进行系统的抽样和分析。他们选择了专业彩色摄影胶卷,抽取了分别已保存113个月不等的胶卷以便研究它们保存时间和感光速率之间的联系。数据显示,感光速率随保存时间的延长而下降。它们之间
5、的变动关系可用一条直线或线性关系近似表示出来。y胶卷感光率的变动x胶卷保存时间(月)从这一方程可以看出,胶卷的感光速率平均每月下降7.6个单位。通过此分析得到的信息,有助于公司把消费者的购买和使用结合起来考虑,调整生产,提供顾客需要的胶卷。运用回归分析,宝丽来公司建立了一个方程式,它能反映胶卷保存时间对感光速率的影响。例:收入与食品消费人均收入X与人均食品消费支出Y之间的散点关系可以如下图表示出来根据散点图,我们有可能找到一条直线,从“平均”的角度来反映两个变量之间的关系。从经济意义上看,这里人均收入可以作为解释变量(解释人均食品支出的变化。这时,两个变量之间的不确定关系,可以用下式表示:其中
6、,人均食品消费支出Y是被解释变量,人均收入X是解释变量,1, 2是两个待估计的参数,分别表示截距和斜率(反映了关于X的边际效益)。u是随机干扰项,通常假设它与X无关,它反映了Y被X解释的不确定性。如果随机干扰项u的均值为0,那么上式两边在X的条件下求均值,就有反映了从“平均”角度看的确定的函数关系(解释关系)。 例 一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。 即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。 收集了这100户家庭收入与消费支出的数据后,发现可将该100户家庭组成的总体按可支配收入水平划分为10组,具体数据见下
7、表。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)如 E(Y | X=800)=605例 多孩率与人均收入不同地区的多孩率与人均国民收入之间的散点图为同样有可能找到一条曲线,从平均的角度来反映两个变量之间的关系。这里仍然将人均国民收入作为解释变量。这时两个变量之间的不确定关系可以大致用如下包含对数的函数关系表示:其中多孩率Y是被解释变量,人均国民收入X是解释变量, 1, 2是两个待估计的参数。但是2不再表示边际效益,而是表示当X增加百分之一时,Y的增加值。 u是随机干扰项,仍假设它
8、与X无关,从而与 ln X 无关。注意此时Y与X的关系并非线性关系,但经变换就转化为线性关系:10.1 一元线性回归10.1.1 问题的提出上面的这些例子中反映一个变量(被解释变量)的变动可以被另一变量(解释变量)来解释的变量之间的关系的表达式就是最普通的线性回归式。经济与管理中广泛利用线性回归式来研究变量之间的解释关系。线性回归的任务,就是用恰当的方法,估计出参数1, 2,并且使估计出来的参数具有良好的统计性质,由此可见,回归问题实际上是一种特殊的参数估计问题。变量X,Y之间成立的关系式对它们的每对对应的样本值都成立,因此对任一对样本值Xi,Yi,i=1,2,n, 有估计参数的目的就是求参数
9、的估计值 ,使得直线(称为线性回归方程)最好地拟合了这些样本数据点,并且参数估计值还具有较好的统计性质。10.1.2 高斯基本假设对于线性回归模型高斯基本假设为:(1)ui为随机变量;(2)E(ui) = 0, 即所有的随机扰动项的期望值为零;(3) , 即所有的随机扰动项的方差等于一个常数;(4) ;这等价于即所有不同的随机扰动项的协方差等于零,也就是不同的随机扰动项是不相关的。(5) 即随机扰动项都服从正态分布。(6)E ( Xi uj ) = 0 对所有的i和j都成立。关于解释变量Xi的这一性质可以分为两种情况:Xi是随机变量但它与uj无关,因此(6)成立。Xi是确定型变量,它自然与uj
10、无关,因此(6)成立。介绍了参数估计方法后,再具体说明这些假设的应用。10.1.3 普通最小二乘法(OLS: Ordinary Least Square)对线性回归模型回归分析的任务就是要求参数的估计值 , 使得到的回归方程最好地拟合了所有样本数据点。XiYi这意味着对所有的样本点(Xi, Yi)都应尽可能小。为了使得回归直线 最好地拟合所有样本数据,就应该使所有残差 绝对值都尽可能小。具体地做法是让残差的平方和达到最小,这就是所谓的最小二乘准则。最小二乘准则:最小二乘法就是根据最小二乘准则来确定 1, 2 的估计值 的方法。相应的估计量称为最小二乘估计量(OLS估计量)注意到因此为此,我们求
11、参数的估计值 使残差平方和达到最小。注意到上式可以看成 的二次函数,因此其最小值存在,取最小值的条件就是由此得到关于 的线性方程组,解之得其中xi,yi分别为Xi, Yi的中心化数据(也称离差)在高斯的基本假设下,按上式计算得到的参数估计值 是最优的线性无偏估计量(BLUE, Best Linear Unbiased Estimator)。即OLS估计量 是线性估计量并且是无偏的,在所有的无偏估计量中, 的方差是最小的。具体来说模型是线性的 是线性的假设(2)、(6) 是无偏的假设(3)、(4) 具有最小方差注:对于 是BLUE来说,(5)是不必要的。但是如果(5)成立,则还能保证 也服从正态
12、分布。10.2 多元线性回归在实际问题中,常常需要研究一个被解释变量,多个解释变量的线性回归模型例 (详见商务与经济统计)位于南加州的巴特勒运输公司的管理人员为制定最佳的工作计划,希望估计他们的司机每天行驶的时间。起初,公司管理人员认为,司机每天行驶的时间与每天运送货物行驶的里程密切相关,通过观察散点图,管理人员假设,能利用一元线性回归模型来描述行驶的小时数(Y)与行驶的英里数(X)之间的关系。对公司的实际数据,采用普通最小二乘法估计出回归方程为通过对方程的分析,公司的管理人员发现,虽然这一结果不错,但方程只能解释每天行驶时间的变异性的66.4%。因此希望增加第二个解释变量去解释剩下的变异性。
13、管理人员在研究其它影响行驶时间的因素时,觉得运送货物的次数也会影响行驶的时间。因此在增加了一个解释变量运送货物的次数,以及相应的数据后,再进行回归分析,得到的回归方程具有形式管理人员现在发现,这一方程能解释行驶时间变异性的90.4%。这已是相当好的结果了。10.2.1 多元线性回归模型的基本假设(高斯假设)多元线性回归模型的矩阵表示多元线性回归模型应该对所有的样本数据都成立,因此有这是n个表达式。回归分析的目的就是利用由样本数据产生的这n个表达式估计模型的参数,得到模型的参数估计值 使得回归方程最好地拟合了所有样本数据。为便于讨论,对多元线性回归模型,常使用矩阵形式其中高斯假设(1)u是随机向
14、量;(2)E ( u ) = 0 ;这里所以这一假设就是要求所有的随机扰动项的期望值为零。即(3) ;这里因此条件(3)意味着这等价于 并且也即所有扰动项方差相等,并且不存在序列相关。(4)注意这一条件是用矩阵形式给出的。这相当于(5)要求所有变量Xji是非随机的;或变量Xji虽然是随机的,但与ui不相关。用数学表达式的形式,后者就是(6)秩这里实际上是两个判断,一个是 而另一个则是k n。在(6)中的要求k n,实际上是要求样本数据的数量n大于解释变量的个数(或待估计的参数的个数)k。而注意到矩阵X为因此意味着矩阵X的行数大于列数。而要求意味着矩阵X是满列秩的,即其所有列向量线性无关。并且这
15、一条件蕴涵矩阵XTX正定(从而非奇异)。其他假设:(7)行列式|XTX|远离零。10.2.2 普通最小二乘估计式现在仍采用矩阵的记法,多元线性回归模型为若得到了参数的估计量 则相应的回归方程为于是残差向量为普通最小二乘法就是要确定参数的估计值 使残差平方和达到最小。由于残差的平方和可以表示为而要使残差的平方和最小就必须 ,即这就是所谓的正规方程组,其解就是要求的估计量。由条件(6)可知矩阵 可逆。因此正规方程组的解为这就是要求的普通最小二乘(OLS)估计量。10.2.3 普通最小二乘估计量的性质高斯马尔柯夫定理:若关于多元线性回归模型的高斯假设中除了(4)外,其他假设都满足,则普通最小二乘估计
16、量 是最优线性无偏估计量(BLUE)。若当 时, 收敛于非奇异矩阵,则普通最小二乘估计量 还是一致估计量。由上述定理可知,在高斯假设下,多元线性回归模型的普通最小二乘估计量具有非常好的统计性质。具体来说模型是线性的OLS估计量是线性的假设(2)、(5)OLS估计量是无偏的假设(3)OLS估计量具有最小方差假设(6)OLS估计量的存在性假设(4)OLS估计量服从正态分布10.2.4 普通最小二乘估计量的方差和分布为了计算 的方差,考虑 的方差-协方差矩阵而所以假设(5)假设(3)即从而有其中 是矩阵 对角线上的第j个元素,常常将它记为cjj。 于是有 或可以证明:(1) 服从正态分布(2) 服从
17、 分布10.2.5 随机扰动项方差的无偏估计在上面的讨论中可以看到我们要经常用到随机扰动项的方差 。然而随机扰动项的方差是观察不到的。不过可以证明是 的无偏估计量10.2.6 判定系数R2(Coefficient of Determination)设想有如下图所示的两个样本,要分别建立能拟合它们的线性回归方程。直观上容易看出,左边的图形显示的数据建立的回归方程对样本数据的拟合情况更好。这一观察表明:(1)使用不同的数据建立的线性回归方程对样本数据的拟合程度是有差别的。(2)线性回归方程对样本数据的拟合程度越好,样本数据所代表的解释变量与被解释变量之间的线性关系就越显著,从而越适合用线性回归方程
18、来描述解释变量与被解释变量的相关关系。可以看出离差(此处称为总变差) 可分解为其中残差解释变差并且可以证明即总变差的平方和=残差的平方和+解释变差的平方和明显地,线性回归方程对样本数据的拟合情况越好,残差平方和就越小,从而残差平方和在总变差平方和中占的比重就越小,于是解释变差平方和占的比重就越大。解释变差平方和占的比重我们就把解释变差平方和在总变差平方和中占的比重称为判定系数,记为R2,即或者使用矩阵与离差的记号R2越接近于1,线性回归方程对样本的拟合程度越好,也就是,整体回归效果越好。实际上R2越大,能用线性回归方程解释的被解释变量变异性的比例越大。此外称R为复相关系数(Multiple C
19、orrelation Coefficient).例1970-1982年美国“期望扩充”菲利普斯曲线考虑如下的模型其中Yt时期t的真实通货膨胀率(%)X2t时期t的失业率(%)X3t时期t的预期通货膨胀率(%)根据宏观经济理论,预期有 , 并且值应该接近1。现在采用美国商务部经济分析局及联邦储备银行的数据(1970-1982年)估计模型根据上表,可知回归的结果为可见这一回归结果还是比较好的,判定系数表明,两个解释变量合起来,可以解释真实通货膨胀率的变异的87.66%。此外直观地, 并不为1,但可利用后面将要介绍的系数的t检验,检验它是否显著异于1。10.2.7 回归效果的F检验尽管判定系数较好地
20、说明了回归效果,但它没有提供一个客观的标准来判断回归效果是否可以接受。这可以通过如下的F检验来判别。 原假设H0:若不拒绝H0,则表明回归模型表示的线性关系并不显著,否则回归模型所表示的线性关系是显著的,因此回归效果是可以接受的。检验统计量易知10.2.8 F与R2的关系这就是为什么我们说拒绝了H0,就表明总的回归效果较好的缘故。在F统计量的表达式中,分子与分母同时除以总变差平方和就可得10.2.9 校正的判定系数(Adjusted R2)前面定义的判定系数R2中不含自由度,因此在解释变量的个数k增加时,R2会变大,但它并不意味回归效果的改善。为了得到不依赖自由度变化的回归效果的检验,可以考虑
21、使用校正的判定系数,即考虑了自由度的判定系数:剔除了自由度影响,且也可以用来衡量回归效果10.2.10 回归系数的T检验对线性回归模型,除了需要考虑总的回归效果外,还需要考虑每个解释变量对被解释变量的影响是否显著。这可通过如下的方式进行检验。原假设 H0:j = 0;备择假设 H1: j 0检验统计量:其中记号 称为 的标准误差表示将 的标准差 中的 换成 的结果。t服从自由度为n k 的t分布。对给定的显著性水平,查t分布表可得临界值若 则拒绝H0,而不拒绝H1。这表明 显著异于零,因此解释变量Xj对被解释变量有显著影响。这一检验称为系数 的显著性检验。拒绝H0,称通过了显著性检验。 反之若
22、系数 没有通过显著性检验,则表明变量Xj对被解释变量的线性影响关系并不显著,因此可以考虑将它从回归模型中剔除出去。在前面的美国“期望扩充”的菲利普斯曲线中,变量X1,X2系数的t统计值分别为-4.5652,8.3626,可见它们对被解释变量的影响都是显著的。此外,t检验统计量也可用于的检验。仍以前面的美国“期望扩充”的菲利普斯曲线为例。我们已经提到对变量X3t时期t的预期通货膨胀率,我们预期其系数的值为1,但实际估计值为1.470032。现在来检验它是否显著异于1。这时而在显著性水平5%下,临界值为t=2.2281,可见X3的系数是显著异于1的。10.2.11回归系数的置信区间对于系数 ,利用
23、前面的T统计量,可以得到它在指定置信水平1-下的置信区间为:在多元线性回归统计性质研究中,人们最注重的是如下三个统计量:10.2.14 标准回归系数在回归方程中,自变量的单位(例如,元,百元,万元等)对回归系数的数量级有很大的影响,如果要简单比较自变量对因变量作用的大小,就应剔除自变量单位的影响。一种经典的处理方式是将所有变量标准化。所谓标准化就是对变量Y, X1, X2, , Xk进行如下处理:其中Sj, SY分别表示变量Xj, Y的样本数据的标准差。标准化以后的变量均值为0,而方差为1。经过标准化处理,原始方程:就化为了标准方程所谓标准回归系数,就是指这一方程的回归系数。通常的统计软件会自
24、动计算标准回归系数。在前面的美国“期望扩充”的菲利普斯曲线例子中,注意到我们使用EXCEL进行回归并没有给出标准回归系数的估计值,但如果使用SPSS进行回归,将自动计算并给出标准回归系数的估计值。10.3 逐步回归10.3.1回归系数的F检验为了检验回归方程某个系数是否显著异于零,可使用前面介绍的T检验,那里我们采用检验统计量来检验系数j是否显著地为零,以便考虑是否应剔除变量Xj。但是有可能存在这样的情况,尽管系数绝对值比较小,但在整个回归方程中,变量Xj在解释因变量的作用中占的比重却不小。因此在这种情况下,根据T检验的结果来剔除Xj就不是适当的。为此,考虑一种新的方法来检验j是否小到足以让我
25、们剔除Xj的地步。原假设 H0: j = 0备择假设 H0: j 0由于 服从分布 , (其中Q为残差平方和)服从分布 。因此检验统计量如果变量Xj的系数通过这一检验,则该变量可以作为自变量,否则可以考虑将其从自变量中剔除。10.3.2 偏解释变差(偏回归平方和)若在回归模型将自变量Xj从解释变量中剔除,我们实际上得到新的模型估计该模型得到一个新的回归方程分别用小写的x,y表示中心化的数据(即离差)则原来的回归方程和新回归方程可分别表示为和对于第i个数据, 恰好就是解释变差。因此和分别是新回归方程和原回归方程的解释变差平方和。解释变差反映了回归方程解释作用的大小,剔除掉的变量多少会有一点解释作
26、用因此一般有并且就度量了被删除的变量Xj对解释变差的贡献,并且称它为Xj的偏解释变差(偏回归平方和)。可以证明即Vj就是Xj的偏解释变差(偏回归平方和)。于是我们前面使用的F统计量是变量Xj的偏解释变差与残差平方和(未解释变差平方和)与相应的自由度的商之比。它反映了变量Xj的解释作用(对解释变差的贡献)的相对大小。10.3.3 逐步回归法逐步回归法的基本思路:在考虑被解释变量Y对一组解释变量的回归时,只将那些对解释变差贡献较大的变量作为解释变量,那些贡献小的则不能作为解释变量。具体做法逐步进入(Forward):先选择统计量Fj的值fj最大的变量Xj进入模型,然后在剩下的变量中再考虑这统计量有
27、最大值的变量,依次类推。需注意的是每次进入模型的变量的这一统计量都必须接受在一给定的显著性水平的显著性检验,只有通过检验的变量才进入。逐步移除(Backward):与前面相比现在反过来进行变量的挑选。先让所有变量进入模型,然后逐步将统计量Fj的值小的变量从模型中剔除,剩下那些该统计量能通过在某一给定显著性水平下的显著性检验的变量。边进边出(Stepwise):即“一边进”、“一边出”的方法。值得注意的是在SPSS中默认的“进入”变量的F统计量显著性的概率为0.05,而“出来”的显著性概率为0.10。SPSS默认的方法:Enter,即全部变量一次进入。此外SPSS还有一种回归的方式:Remove
28、,即在现有的回归的基础上剔除变量。10.4 用SPSS处理经典回归问题经典回归问题满足所有的高斯假设的单方程的线性回归模型的分析。10.4.1 自变量强行进入的回归例10.4.1 关于人均食品支出与人均收入关系的回归模型考虑如下形式的模型:数据文件“CH10回归人均食品支出”操作过程与结果说明(p277)见演示。例10.4.2多元线性回归模型本例讨论人均食品支出由两个解释变量:人均收入与粮食单价解释的回归模型方法:Enter10.4.2 逐步回归法例10.4.3 研究某市散户股民在“证券市场投资总额”是否可以用变量“证券市场外的收入”、“受教育程度”、“入市年份”和“股民年龄”来解释。被解释变
29、量: “证券市场投资总额”解释变量: “证券市场外的收入”、“受教育程度”、“入市年份”和“股民年龄”方法:逐步回归数据:“CH6CH9CH10证券投资额与依据” 操作及结果说明: (p282)见演示10.5 多元线性回归的三大基本问题10.5.1 多重共线性1 概念若多元线性回归模型的解释变量X2, X3, , Xk是线性相关的,则 ,从而逆矩阵 不存在。这种现象称为完全的多重共线性。若高斯假设 (6)“秩 ”满足,则各解释变量X2, X3, , Xk是线性无关的。因而一定不会出现完全多重共线性这种情况。所以完全多重共线性实际上就是指高斯假设(6)不满足的情况。完全多重共线性在实际问题中并不
30、多见,即便出现了完全多重共线性,也容易判别出来。实践中常见的多重共线性是指解释变量X2, X3, , Xk是近似线性相关的。这时虽然有 , 但却注意到实际问题中,解释变量X2, X3, , Xk近似线性相关,往往表现为几个解释变量之间存在着高度的相关性,其数据有共同变化的趋势。因此若存在多重共线性,矩阵 的各元素的绝对值将变得非常大。回顾OLS估计量的方差表达式。其中cjj就是矩阵 对角线上第j个元素。因此OLS估计量的方差将变得非常大,这意味着估计的误差非常大。所以多重共线性将给模型的建立带来严重的后果。2 多重共线性的后果(1)计算 时,将溢出(2) 的方差将变的很大(3)各变量系数的t统
31、计量的值普遍变小。实际上其中记号表示将 的标准差 中的 换成 的结果。由于t的表达式中分母变的很大,因此t的值会变的很小。(4)R2的值变得接近于1,给出虚假的回归结果好的结果。(5)各参数估计值仍然是无偏的。此外由于各解释变量之间存在相关性,解释变量系数的大小和符号可能变得不合理。不能单独考虑一个解释变量对因变量的影响。例如应用中国宏观经济运行的实际数据(1985-2019)建立的反映人均消费C与人均可支配收入Y、人均储蓄余额Z之间关系的线性回归方程为这是否意味着存钱越多,消费也越多?3 若干判别是否存在多重共线性的方法(1)容许度(Tolerance)方法将某个解释变量Xj对其他解释变量进
32、行回归,得到的回归方程的判定系数记为 。定义Xj的容许度为容许度越小,由Xj导致的共线性越强。(2)方差膨胀因子(VIF)VIF越大,由Xj导致的共线性越强。(3)根据回归分析的结果判别若回归方程的判定系数R2很大,但各系数的显著性检验的t统计值却小,则模型中可能出现了多重共线性。(4). 通过条件指数检验条件指数(condition index或条件数condition number)是矩阵 的最大特征值与最小特征值之比的平方根,易见条件指数越大, 越接近于零,因而存在越严重的多重共线性。但并没有一个绝对的标准来判断,当条件指数大到什么程度时,存在多重共线性。经验的法则:条件指数小于10,不
33、存在多重共线性;大于30,存在严重的多重共线性。一些常用统计软件都会提供计算此检验值的功能。4. 多重共线性的处理(1)逐步消除不重要的解释变量,可直接使用逐步回归法完成(但需考虑遗漏重要的解释变量导致的估计有偏问题)。(2)对模型施加适当的约束例如对生产函数 。若规模效益是不变的,则有 因此模型两端除以K后得然后两端取对数得新模型中不存在多重共线性。(3)改变模型的结构包括改变数学表达式的形式及选择不同形式的变量。例如表示某商品需求量及其影响因素的模型为其中 分别为需求量、收入、该商品的出厂价格和市场价格。在实际数据中,出厂价格和市场价格往往呈同方向变动,因此高度相关,模型存在多重共线性。如
34、果我们仅要求知道相对价格变动时需求量的变化规律,则可将需求函数变为就可解决多重共线性问题。(4)恰当处理滞后变量对包含滞后自变量的模型由于滞后变量的同趋势性,很容易出现多重共线性。解决问题的办法是,令 ,则 而在时刻 t 1,有于是将前式减后式的倍,得其中 ,这样就消除了多重共线性的问题。(5) 增加数据多重共线性实际上是数据问题。理论上高度相关的变量,其具体观察值之间未必高度相关。因此可以用增加观测值、利用不同的数据集或采用新的样本等方法,有可能消除或减缓多重共线性问题。对于多元线性回归模型,多重共线性总是存在的,只是影响的程度上有区别,如果模型仅用于进行预测,则只要模型拟合样本数据的情况较
35、好,可不处理多重共线性问题。10.5.2 异方差问题1. 异方差问题的提出由前面的讨论,高斯假设中的(3)这等价于 并且也即所有扰动项方差相等,并且不存在序列相关。若其中的所有扰动项的方差相等的假设不再成立,则称模型(或随机扰动项)出现了异方差性。这时高斯基本假设中的表达式只能写成如下形式。其中是一个对称正定矩阵,但不再是对角线上元素都相等的矩阵。使用截面数据建立的模型较易出现异方差性。例如研究一个行业的各企业的截面数据时,可能会发现,大企业的误差项比小企业的误差大;大企业的销售量会比小企业的销售量有更大幅度的变化。再如在考虑家庭的收入与消费的截面数据时,可能会发现,低收入家庭的支出比较稳定,
36、而高收入家庭的消费相对波动较大,因此利用这样的数据建立家庭的收入与消费的回归模型时,将导致异方差出现。.x1x2E(y|x) = b0 + b1xyf(y|x)Normaldistributions在前面的讨论中我们已经提到:高斯基本假设(3)保证了OLS估计量具有最小方差。因此若存在异方差性,则假设(3)不再成立,从而OLS估计量不再具有最小方差性。2. 异方差问题出现的后果这意味着,估计的误差可能十分大;此外构造系数的显著性检验的t统计量,我们需要用到同方差的假设,因此异方差存在时,显著性检验失去意义;进一步,利用模型预测可能失效。使用截面数据建立的模型较易出现异方差性。3. 异方差问题存
37、在的判断判断异方差存在的基本思路就是考察随机扰动项的方差是否与Yi有关,或是否与某个解释变量Xji有关。问题是随机扰动项的取值通常是观测不到的。因此在实际问题中通常将残差ei的平方作为随机扰动项方差的估计值。即通过观察ei与Yi或某个解释变量Xji是否相关来判断是否出现了异方差。具体方法有下面一些。(1)用散点图判断以残差与Yi的散点图为例,在同方差情况,散点图应该具有右边的形状。点应该分布在一水平的带形区域。YieiYiei若存在异方差,则可观察到ei的取值随Yi的取值的变化而变化的现象。如YieiYiei(2)通过ei与Xi的相关性来判别。值得注意的是ei与Xi的简单相关系数总是等于零的,
38、但这并不能排除所提及的相关性。为此计算的|ei|与Xi等级相关系数(Spearman)。如果计算得到的等级相关系数显著异于零,则表明ei与Xi相关,因此存在异方差。4.异方差的处理(1)试算异方差的形式| ei |对某个解释变量的各种形式进行回归,如或者| ei |对被解释变量的各种形式进行回归然后利用决定系数选择最佳的拟合形式。再对这种最佳的拟合形式进行系数的显著性检验。若通过检验,则表明存在相应的相关性。并由此可得到 与(2)用下面的广义最小二乘法,求原方程的系数得到 与 后,若仅存在异方差的影响,就可估计下面表达式中的矩阵为然后就可以利用广义最小二乘法得到多元线性回归模型的系数的估计值。
39、10.5.3 广义最小二乘法(GLS)(1)广义最小二乘法的估计式设多元线性回归模型为设高斯基本假设中的其他假设都满足,只有(3)现在为 ,其中是一个对称正定矩阵。则有如下的广义最小二乘估计式。(2)广义最小二乘估计量的性质对广义最小二乘估计量,高斯马尔柯夫定理的结论仍然成立。(3)WLS估计法特别地,当矩阵是对角矩阵,但其对角线上的元素不相等。这意味着仅存在异方差性的影响。此时按照前面的方法可以得到从而可以计算GLS估计量。但这等价于以下的方法:将原模型的第i个表达式的两端除以 ,得容易证明此时新的随机扰动项具有同方差性。于是可用OLS估计上面的模型。得到的参数估计量就是GLS估计量。这种方
40、法相当于以原模型残差绝对值的倒数为权,将所有的样本数据分别乘以相应的权值,然后用变换以后的数据来估计多元回归模型。所以这种方法称为加权最小二乘法(WLS)。例 住房支出本例中考虑由4组家庭住房支出和年收入的截面数据:利用该组数据建立住房支出模型采用OLS法进行估计得:由数据分析,以及由散点图可知存在异方差性。更进一步,X与残差绝对值的Spearman等级相关系数为0.560,在显著性水平5%下显著异于零。通过试算异方差的形式我们得到因此采用WLS估计模型。先变换模型为再用OLS法进行估计得到注意系数的变化不大,但t值明显增大,这表明当异方差存在时,标准误差被高估了。10.5.4 自相关(序列相
41、关)问题1. 序列相关问题前面提到的高斯基本假设(3)实际上等价于两个要求: 并且也即所有扰动项方差相等,并且不存在序列相关。前者不满足就产生异方差问题,而若后者不满足,即存在i, j, i j使得 ,则产生序列相关(自相关)的问题。序列相关常见于采用时间序列样本数据建立的模型,要求序列不相关等价于要求各期的数据不相关。实际问题常常无法满足如此要求。2. 实际问题中产生序列相关的主要原因经济因素是前后关联的随机冲击影响的滞后作用遗漏的变量3. 序列相关的后果若存在序列相关,则高斯假设(3)不满足,因而得到OLS估计量不具有最小方差。因此从应用的角度,存在序列相关像存在异方差一样,有如下不利的后
42、果:OLS估计量不再具有最小方差性,因而不是BLUE不再可以信赖显著性检验的结果预测可能失效4. 序列相关的检验(1)通过观察散点图判别由于随机扰动项本身观察不到,所以通过观察其估计量残差来观察是否出现序列相关。有两种作散点图的方式:a. 以残差为纵坐标,以其下标为横坐标作散点图。ieiiei无序列相关负自相关iei正自相关b. 以ei为纵坐标,ei-1为横坐标作散点图。ei-1ei正自相关ei-1ei负自相关(2)一阶自相关的DW检验法在实际问题中,最常见的序列相关是一阶自相关,即随机扰动项之间的相关关系可以表示为形式:下面只就这种形式的序列相关进行讨论注意:上面表达式中的t是一个随机扰动项满足:式中, 为自相关系数( ), 即扰动项只与前一期的值相关。根据 的不同,一阶自相关可分为下面三种情况思路:DW检验法要检验 = 0是否成立,若等式成立,则 ,所检验的模型不存在自相关;否则存在序列相关。使用的统计量为DW统计量,其计算公式为与前面的检验不同的是,这一统计量的真实分布无法确切地得到,只知道在两个已知分布之间下分布上分布ABCD对给定的显著性水平,可以通过DW的临界值表查到这两个已知分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西南财经大学《口腔正畸学》2023-2024学年第二学期期末试卷
- 中央美术学院《资源与环境(环境工程)领域工程伦理》2023-2024学年第二学期期末试卷
- 江西省宜春市上高县上2025届高三下学期期末模拟卷(一)物理试题含解析
- 湖南衡阳县2024-2025学年高三3月第一次模拟考试(英语试题理)试题含解析
- 小儿呼衰护理疾病查房
- 南红基础知识
- 廉政知识竞答
- 康复护理学给药
- 信息技术 第二册(五年制高职)课件 8.2.3.1 选择结构的语法
- 传统文化中秋课件
- 2025新疆机场(集团)有限责任公司阿克苏管理分公司第一季度招聘(75人)笔试参考题库附带答案详解
- 全国计算机等级考试《三级信息安全技术》专用教材【考纲分析+考点精讲+真题演练】
- DB13-T 5996-2024 公路基层病害聚合物注浆处治技术规程
- 生猪屠宰兽医卫生检验人员理论考试题库及答案
- 小学数学主题活动设计一年级《欢乐购物街》
- 信用社(银行)清产核资实施方案
- 邵阳智能水表项目资金申请报告_模板范本
- 幼儿园大班语言活动《熟能生巧》优质课公开课教案比赛讲课获奖教案
- 关于广州市市政管理局市园林局调整城市道路挖掘修复收费标准的批复
- 九族五服表(九族五服图)
- 供货项目实施方案
评论
0/150
提交评论