违背基本假设情况_第1页
违背基本假设情况_第2页
违背基本假设情况_第3页
违背基本假设情况_第4页
违背基本假设情况_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

违背基本假设的情况一、 异方差产生的原因在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同的方差。即:var(e.)。var(e.),当i。,时。利用平均数作为样本数据,也容易出现异方差性。因为正态分布的普遍性,许多经济变量之间的关系遵从正态分布。例如不同收入水平组的人数随收入增加呈正态分布。如果在以不同收入组的人平均数据作为样本时,由于每组中人数不同,观察误差也不同。一般来说,人数多的收入组的人均数据较人数少的收入组人均数据具有较高的准确性。这不同的观察误差也会引起异方差性,且var(ei)随收入的增加呈先降后升的趋势。样本数据为截面数据时容易出现异方差性。二、 异方差性带来的问题当存在异方差性时,最小二乘估计量不在具有最小方差的优良性,参数向量B的方差大于在同方差条件下的方差,如果用普通最小二乘法估计参数,将出现低估B的真实方差的情况。将导致回归系数的t检验值高估,可能造成本来不显著的某些回归系数变成显著。当存在异方差时,普通最小二乘法估计存在以下问题:1、 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。2、 参数的显著性检验失效。3、 回归方程的应用效果极不理想。三、 异方差性的检验1、残差图分析法残差图分析法是一种只管、方便的分析方法。它以残差匕为纵坐标,以其他适宜的变量为横坐标画散点图。常用的横坐标有三种选择:(1)以拟合值宁为横坐标;(2)以七(i=1,2,,p)为横坐标;(3)以观测时间或序号为横坐标。5.6儿种常格的钱分布不盘图(a)线性关系成立;(b)x加入二次方项;(c)存在异方差,需要改变x形式(d)残差与时间t有关。可能遗漏变量或者存在序列相关,需要引入变量。2、等级相关系数法等级相关系数又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既可用于大样本,也可以用于小样本。进行等级相关系数检验通常有三个步骤:第一步,做y关于x的普通最小二乘回归,求出e,的估计值,即匕的值第二步,取e的绝对值,即|e|,把x和|e|按递增或递减的次序排列后分成等i i ii级,按下式计算出等级相关系数:气=1—:_咒d;,其中,n为样本容量,i=1d为对应于x和|e|的等级的差数。i ii第三步,做等级相关系数的显著性检验。在n>8的情况下,用下式对样本等级相关系数^进行t检验,检验统计量为:t=也登,如果t<危-2)可以认为Y1-[2异方差性问题不存在,如果t>t(n-2),说明x与|e|之间存在系统关系,异a2 ii方差性问题存在。(在这个检验中,原假设为:不存在异方差性)3、实例1分析用普通最小二乘法建立储蓄与居民收入的回归方差,并画出残差散点图;诊断该问题是否存在异方差性。数据如下所示:储蓄y居民收入乂七等级残差ei|匕|残差|匕|等级did226487771169.0169.016-1522510592102-26.626.63-119099543-104.6104.67-416131105084-110.5110.58-416122109795-159.4159.415-10100107119126-253.4253.423-17289406127477-25.125.125255031349988.28.21749431142699-129.0129.09005881552210-78.078.046368981673011129.7129.710119501766312102.7102.766367791857513-145.5145.514-118191963514-195.3195.319-5251222211631578.478.451010017022288016413.0413.028-1214415782412717183.4183.418-1116542560418134.4134.41174914002650019-195.5195.520-1118292767020134.4134.412864

22002830021452.1452.129-86420172743022342.8342.827-52521052956023250.4250.4221116002815024-135.2135.2131112122503210025180.4180.41786424203250026316.5316.5251125703525027233.7233.72163617203350028-468.2468.230-2419003600029-499.8499.831-2421003620030-316.7316.72641623003820031-286.1286.124749用SPSS软件建立y对x的普通最小二乘回归,决定系数r2=0.192,回归标准差预=247.62,回归方程为y=-648.124+0.0847尤,相关输出表如下:ModelSummarybModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.955a.912.909247.623Predictors:(Constant),xDependentVariable:yANOVAbModelSumofSquaresdfMeanSquareFSig.1 Regression1.844E711.844E7300.732.000aResidual1778202.7352961317.336Total2.022E730Predictors:(Constant),xDependentVariable:yCoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1 (Constant)x-648.124.085118.163.005.955-5.48517.342.000.000a.DependentVariable:y

计算等级相关系数,根据所给的数据表,可以通过等级相关系数步骤判断误差项是否存在异方差。实际操作当中,可以用SPSS实现,输出结果如下所示:CorrelationsxabseSpearman'srhox CorrelationCoefficient1.000.685**Sig.(2-tailed)..000N3131abseCorrelationCoefficient.685**1.000Sig.(2-tailed).000.N3131**.Correlationissignificantatthe0.01level(2-tailed).可以看出等级相关系数r=0.685,p值=0.000,认为残差绝对值|e|与自变量x显s i i著相关,存在异方差。计算残差绝对值|e.|与自变量x的相关性时采用Spearman等级相关系数,而不采用Pearson简单相关系数,这是由于等级相关系数可以反映非线性相关的情况,而简单相关系数不能如实反映非线性相关的情况。等级相关系数可以如实反映单调递增或单调递减趋势的变量间的相关性,而简单相关系数值适宜衡量直线趋势变量间的向关系。四、一元加权最小二乘估计当研究的问题存在异方差性时,就不能用普通最小二乘法进行参数估计了。消除异方差性的方法通常有加权最小二乘法、Box-Cox变换法、方差稳定变换法。对于一元线性回归方程来说,普通最小二乘法的离差平方和为:Q(P,P)=工(y-E(y))2=X(y-P-Px)2,其中每个观测值的权数相同。0 1 i i i0 1ii=1 i=1在等方差的条件下,平方和的每一项的地位是相同的。然而,在异方差的条件下,平方和中的每一项的地位是不同的,误差项方差七2大的项,在平方和式子中的作用就偏大,因而普通最小二乘估计的回归线就被拉向方差大的项,而方差小的项的拟合程度就差。加权最小二乘估计的方法是在平方和中加入一个适当的权数.,以调整各项在平方和中的作用。一元线性回归的加权最小二乘的离差平方和为:Q(P,P)=^^w(y一E(y))2=Xw(y-P-Px)2,其中w为0 1 ii i ii0 1i ii=1 i=1给定的权数。使用加权最小二乘法时,为了消除异方差性的影响,为了使各项的地位相同,观测值的权数应该是观测值误差项方差的倒数,即w,=-1-。误差项i方差较大的观测值接受较小的权数,误差项方差较小的观测值接受较大的权数。在社会、经济研究中,经常会遇到这种特色的权数,即误差项方差与x的幕函数xm成比例,其中,m为待定的未知参数。此时权函数为:w=上。IXmi利用一元加权最小二乘估计对实例1进行改进,SPSS输出结果如下:ModelSummaryMultipleR.967RSquare.936AdjustedRSquare.934Std.ErroroftheEstimate.125Log-likelihoodFunctionValue-209.316ANOVASumofSquaresdfMeanSquareFSig.Regression6.65516.655423.741.000Residual.45529.016Total7.11030改进后的模型可决系数,F值都较之前的有所提高。加权最小二乘估计照顾小残差项是以牺牲大残差项为代价的,当回归模型存在异方差时,加权最小二乘估计只是对普通最小二乘法估计的改进,这种改进有可能是细微的,不能理解为加权最小二乘估计一定会得到与普通最小二乘估计截然不同的回归方程,或者一定有大幅度的改进。另外,加权最小二乘以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果,这也并不总是研究者所需要的。在社会经济现象中,通常变量取值大时方差也大,在以经济总量为研究目标时,更关心的是变量取值大的项,而普通最小二乘恰好能满足这个要求。所以在这样的一些特定场合下,即使数据存在异方差,也仍然可以选择使用普通最小二乘估计。五、 多元加权最小二乘估计多元线性回归有多个自变量,通常取权数w为某个自变量七(j=1,2,.../)的幕函数,即W=Xm,在X,X,…,X这?个自变量中,应该选取哪一个自变量,j 1 2P这只需计算每个自变量X与普通残差的等级相关系数,选取等级相关系数最大j的自变量构造权函数。六、 自相关性如果一个回归模型不满足cov(6[,七)丰0,则称为随机误差项之间存在自相关现象。这里的自相关现象不是指两个或者两个以上的变量之间的相关关系,而指的是一个变量前后期数值之间存在的相关关系。七、 自相关产生的背景和原因产生序列自相关的背景及原因通常有以下几个方面。1、 遗漏关键变量时会产生序列的自相关性。2、 经济变量的滞后性会给序列带来自相关性。3、 采用错误的回归函数形式也可能引起自相关性。例如,假定某实际问题的正确回归函数应由指数形式y=P0exp(P1x+8)来表示,但无用了线性回归模型y=P0+P1x+8,表示,这时,误差项"也会表现为自相关性。4、 蛛网现象可能带来序列的自相关性。(经济学中的蛛网模型)5、 因对数据加工整理而导致误差项之间产生自相关性。八、 自相关性带来的问题当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,仍直接用普通最小二乘法估计未知参数,序列相关性会带来下列问题:1、 参数估计值不再具有最小方差线性无偏性2、 均方误差MSE可能严重低估误差项的方差。3、 容易导致对t值评价过高,常用的F检验和t检验失效。4、 当存在序列相关性时,B仍然是p的无偏估计量,但在任一特定的样本中,B可能严重歪曲p的真实情况,即最小二乘估计量对抽样波动变得非常敏感。5、如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和进行结构分析将会带来较大的方差甚至错误的解释。九、自相关性的诊断1、图示法图示法是一种直观的诊断方法,它是把给定的回归模型直接用普通最小二乘法估计参数,求出残差项e,e作为随机项s的真实值的估计值,在描绘e的散点图,tt t t根据et的相关性来判断随机项七的序列相关性。(1)绘制e,,eti的散点图。图文3图a表明随机扰动项存在正的序列相关,图b表明随机扰动项存在负相关。(2)按照时间顺序绘制回归残差项et的图形,如果et随着t的变化逐次有规律地变化,呈现锯齿形或循环形状的变化,可断言et存在相关,表明s,存在着序列相关。如果e随着t的变化逐次变化并不断地改变符号,如下图d所示,那么随机扰t动项st存在负的序列相关,这种现象称为蛛网现象;如果et随着t的变化逐次变化并不频繁地改变符号,而是几个正的e后面跟着几个负的,则表明随着扰动项tst存在正的序列相关,如下图c所示。2、自相关函数法2、自相关函数法Eee自相关函数的估计值为d=tt—自相关函数的估计值为d=tt—1,。作为自相关系数p的估计值与样本量有关,需要做统计显著性检验才能确定自相关性的存在,通常采用DW检验代替对p的检验。3、DW检验DW检验是适用于小样本的一种检验方法,而且DW检验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。DW=2(1-p),计算出DW值后,根据样本容量n和解释变量的数目k(包括常数项)查DW分布表,得出临界值有和气。0<D.W<气,误差项£,£,•••点间存在正相关;1 2 n人<D.W<叮不能判定是否有自相关;d^<D.W<4-d疽误差项8,8,…,£间无自相关;1 2 n4-du<D.W<4-dL,不能判定是否有自相关;4-dL<D.W<4,误差项8,8,…,8间存在负相关。1 2 n需要注意的是,DW检验尽管有着广泛的应用,但也有明显的缺点和局限性:(1) DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断。这时只有增大样本容量或选取其他方法;(2) DW统计量的上、下界表要求n>15,这是因为样本如果再小,利用残差就很难对自相关的存在性做出比较正确的诊断;(3) DW检验不适应随机项具有高阶序列相关的检验(只能判断一阶)。

十、自相关问题的处理方法1、迭代法设一元线性回归模型的误差项存在一阶自相关TOC\o"1-5"\h\z\o"CurrentDocument"y=。+Px+8 (1)t0 1t t\o"CurrentDocument"8=p8+四 (2)E(四)=0,t=1,2,…,n< 'L2,t=s…cov(目,目)=( (t,s=1,2,…,n)ts[0,t丰st本假设。所以回归模型(1)有:y=Pt本假设。所以回归模型(1)有:y=P+Px+8 (3)t-1 0 1t-1 t-1将(3)式两端乘以p,在用(1)式减去乘以p的(3)式,则有(y-py)=(p-pp)+p(x-px)+(8-8) (4)t t-1 0 0 1t t-1 t t-1在(4)式中,令y'=y-py,x'=x-px,P'=P(1-p),P'=Pttt-1t tt-10 0 1 1于是(4)可以变为y'=P'+px+四 (5)t0 1tt模型(5)式有独立随机误差项,满足线性回归模型的基本假设,用普通最小二乘法估计的参数估计量具有通常的优良性。由于自相关系数p是未知的,需要对p作估计。p-1-1DW,计算出p的估计值后,带入计算变换因变量y'和变换2 t自变量x,,然后用(5)式做普通最小二乘回归。一阶自相关模型,通过上述变t换,已经消除自相关,迭代法到此结束。如果检验表明误差项日不存在自相关,t迭代法结束,如果检验表明误差项日存在自相关,那么对回归模型(5)式重复t用迭代法,这个过程可能要重复几次,直至最终消除误差项自相关。2、差分法差分法就是用增量数据代替原来的样本数据,将原来的回归模型变为差分形式的模型。一阶差分法通常适用于原模型存在较高程度的一阶自相关情况。(y—y)=(p-p)+p(x—x)+(8—8)用增量表示为:Ay=pAx+日tt-1 00 1tt-1 tt-1 t1tt以差分数据Ayt和Axt为样本的回归方程。差分之后的模型,通常不带有常数项,它是回归直线过原点的回归方程。一阶差分的应用条件是自相关系数P=1,在实际应用中,P接近1时,就可以采用差分法而不用迭代法。有两个原因:第一,迭代法需要用样本估计自相关系数P,对P的估计误差会影响迭代法的使用效率;第二,差分法比迭代法简单,在建立时序数据的回归方程时,更习惯于用差分法。3、 科克伦-澳特克(Cochrane-Orcutt)迭代法方法一中的迭代法近似取d-1--DW,可以使用其他迭代法给出P的更精确的2估计,最常用的是科克伦-澳特克迭代法。以一元线性回归为例,用方法一计算出的P和回归系数,由(1)式的回归方程重新计算残差,得到心得残差序列后就可以计算出新的DW值,新的P值和回归系数,如果新的P与前一次迭代的P相差很小,低于给定的界限,就停止迭代,否则继续下一步迭代。需要说明的是,迭代的起始步骤认为是从第0步开始的,就是用(1)式做普通最小二乘回归,想让于认为P=0。这样方法一中的迭代实际上包括第0步和第1步共两步迭代过程,也称为科克伦-澳特克两步法。4、 普莱斯-温斯登(Prais-Winsten)迭代法当样本量较小时每一个样本值都是宝贵的,为此可以使用普莱斯-温斯登变换,对t=1,令y'=<T-T?y,x'=.,.‘•'巨诲x,经过普莱斯-温斯登变换的迭代法就1 11、 1称为普莱斯-温斯登变换迭代法。十一、异常值与强影响点异常值分为两种情况,一种是关于因变量y异常,另一种是关于自变量x异常。1、关于因变量y的异常值在残差分析中,认为超过土3£的残差为异常值。标准化残差:ZRE==,1b学生化残差:SRE=日〒。标准化残差使残差具有可比性,|ZRE.|>3的相V ::II应观测值即判定为异常值,这简化了判断工作,但是没有解决方差不等的问题。学生化残差则进一步解决了方差不等的问题,比标准化残差又有所改进。但是当观测数据中存在关于y的异常观测值时,普通残差、标准化残差、学生化残差这三种残差都不再适用,这是由于异常值把回归线拉向自身,使异常值本身的残差减少,而其余观测值的残差增大,这时回归标准差预也会增大,因而用鳄准则不能正确分辨出异常值。解决这个问题的方法是改用删除误差。删除误差的构造思想是:在计算第i个观测值的残差时,用删除掉这个第i个观测值的其余n-1个观测值拟合回归方程,计算出第i个观测值的删除拟合值y(,),这个删除拟合值与第i个值无关,不受第i个值是否为异常值的影响,定义第i个观测值的删除残差为:e=y-y,删除残差e较普通残差更能如实反映第1(i) i(i) (i)个观测值的异常性。可以证明,%.)=匚、,进一步可以给出第i个观测值的删ii除学生化残差,记为SRE=SRE(―—)2,在实际应用当中,可以(I) (i)n—p—1一SRE2i直接使用软件计算出删除学生化残差SRE(,)的数值,|SRE(,)|>3的观测值即判定为异常值。2、关于自变量x的异常值有D(e,)=(1—七力2,其中杠杆值七表示自变量的第i次观测值与自变量平均值之间的远近。较大的杠杆值的残差偏小,这是因为大杠杆值的观测点远离样本中心,能够把回归方程拉向自身,因而把杠杆值大的样本点称为强影响点。强影响点并不一定是y值的异常值点,因而强影响点并不总会对回归方程造成不良影响。但是强影响点对回归效果通常有较强的影响,这是由于一下两个原因:第一,在实际问题中,因变量与自变量的线性关系只是在一定的范围内成立,强影响点原来样本中心,因变量与自变量之间可能已不再是线性函数关系,因而在选择回归函数的形式时,需侧重于强影响点;第二,即使线性回归形式成立,但是强影响点远离样本中心,能够把回归方程拉向自身,使回归方程产生偏移。由于强影响点并不总是y的异常值点,所以不能单纯根据杠杆值的大小判断强影响点是否异常,为此,引入库克距离,用来判断强影响点是否为y的异常值点。库克距离的计算公式为:D)=32•(1-£)2,库克距离反映了杠杆ii值h与残差e.大小的一个综合效应。杠杆值h的平均值为h=-乎h=P^1,ii I ii niin一个杠杆值大于2倍或者3倍的h就认为是大的。中心化的杠杆值叫=h"n,

因此有中心化杠杆值chii的平均值是Ch=上chn iii=1-p ,n对于库克聚类大小标准的初略判断是:D<0.5时,认为不是异常值点;i当Di>1时,认为是异常值点。十二、异常值实例分析序号x1x2yeiSREie(i)SRE(i)chHDi1253547.79553.96-832-2.340-1490-3.0380.3751.445220896.34208.55750.167840.1600.0430.00136750.323.1-34-0.075-38-0.0720.0540.000410012087.052815.41270.3762530.3630.4320.04755251639.311052.12-458-1.034-529-1.0370.0680.05568253357.734275021.3057681.3480.2800.3027120808.47442.821470.3261640.3130.0360.004828520.2770.12960.2181120.2090.0700.00397671.13122.241210.2711380.2610.0600.004105322863.321400-697-1.606-837-1.7350.1000.17211751160464950.2091040.2010.0210.0011240862.757.5-151-0.336-169-0.3230.0400.00513187672.99224.18-145-0.324-164-0.3120.0520.00514122901.76538.941950.4312160.4160.0290.00715743546.182442.799582.61316133.8100.3391.555x,y是原始数据,其他的列可以通过SPSS得到。从表中可以金0,绝对值最大的删除学生化残差为SRE〈I/.810,因而根据学生化残差诊断认为第15个数据为异常值。其中心化杠杆值叫〔=0.339位于第三大,库克距离D=1.555位于第一大。由于Ch=己=—=0.13333,第15个数据ch=0.339>2Ch,因而从杠杆值看第15个n15数据是自变量的异常值,同时库克距离大于1,这样第15个数据为异常值的原因是由自变量异常与因变量异常两个原因共同引起的。(删除学生化残差诊断了由于因变量异常引起的异常值,杠杆值和库克距离诊断了由于自变量异常引起的异常值)诊断出异常值后,进一步判断引起异常值的原因,通常由以下几种。异常值原因异常值消除方法1.数据登记误差,存在抄写或录入的错误重新核实数据2.数据测量误差重新测量数据3.数据随机误差删除或重新观测异常值数据4.缺少重要自变量增加必要的自变量5.缺少观测数据增加观测数据,适当扩大自变量取值范围6.存在异方差采用加权线性回归7.模型选用错误,线性模型不适用改用非线性回归模型对引起异常值的不同原因,需要采取不同的处理方法。对本例数据通过核实认为不存在登记误差和测量误差。删除第15组数据,用其余14组数据拟合回归方程,发现第6组数据的三处学生化残差增加为4.418,仍然存在异常值现象,因而认为异常值的原因不是由于数据的随机误差。本例数据存在的是异方差,应该采用加权最小二乘回归。用SPSS计算出加权最小二乘回归的有关变量值如下所示。序号X1X2yeiSREie(i)SRE(i)chiiDi1253547.79553.96-890-1.149-1165-1.16580.23410.1360220896.34208.55200.135230.12930.06040.000936750.323.1-93-0.795-110-0.78240.05010.0385410012087.052815.44031.1757161.19630.42940.358155251639.311052.12-343-1.135-429-1.14980.18640.108168253357.734277150.9378410.93200.14710.05157120808.47442.821260.9491390.94480.00930.0318828520.2770.12450.717740.70150.13390.111597671.13122.24620.617760.60080.04630.0287105322863.321400-582-0.926-677-0.91990.13660.046611751160464580.281650.27020.07480.00331240862.757.5-199-1.391-223-1.45440.03240.076413187672.99224.18-143-1.611-224-1.74240.22720.495114122901.76538.941751.1371891.15280.01120.036015743546.182442.799161.17311791.19390.22090.1317采用最小二乘回归后,删除学生化残差的绝对值最大者为1.7424,库克距离都小于0.5,说明数据没有异常值。说明用加权最小二乘法处理异方差性问题的有效性。十三、异方差问题检验异方差的方法尽管不同,但都有一个共同的思路。各种检验是设法检验七的方差与解释变量七的相关性,一般是通过七的估计量匕来实现这些检验。如果七.与某一七之间存在相关性,则模型存在异方差。需要注意的是,加权最小二乘估计并不能消除异方差,只是能够消除异方差的不良影响。当存在异方差时,普通最小二乘估计不再具有最小方差线性无偏估计等好的性质,而加权最小二乘估计则可以改进估计的性质。加权最小二乘估计对误差项方差小的项加一个大的权数,对误差项方差大的项加一个小的权数,因此加强了小方差项的地位,使离差平方和中各项的作用相同。如果把误差项加权,那么加权的误差项是等方差的。从残差图来看,普通最小二乘估计只II能照顾到残差大的项,而小残差项往往有整体的正偏或负偏。加权最小二乘估计的残差图,对大残差和小残差拟合得都好,大残差和小残差都没有整体的正偏或负偏。当模型存在异方差性时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论