应用回归分析知识点总结_第1页
应用回归分析知识点总结_第2页
应用回归分析知识点总结_第3页
应用回归分析知识点总结_第4页
应用回归分析知识点总结_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

U4违背基本假设的情况一、异方差产生的原因在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同的方差。即:var(s)主var(s),当i丰j时。样本数据为截面数据时容易出现异ij方差性。二、异方差性带来的问题1、参数估计值虽然是无偏的,但不是最小方差线性无偏估计。2、参数的显著性检验失效。3、回归方程的应用效果极不理想。三、异方差性的检验1、残差图分析法残差图分析法是一种只管、方便的分析方法。它以残差e为纵坐标,以其他i适宜的变量为横坐标画散点图。常用的横坐标有三种选择:(1)以拟合值y为横坐标;(2)以x(i=1,2,,p)为横坐标;(3)以观测时间或序号为横坐标。i医生厲朮种常见的峨螯廿布晁迄.国(a)线性关系成立;(b)x加入二次方项;(c)存在异方差,需要改变x形式(d)残差与时间t有关。可能遗漏变量或者存在序列相关,需要引入变量。2、等级相关系数法等级相关系数又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既可用于大样本,也可以用于小样本。进行等级相关系数检验通常有三个步骤:第一步,做y关于x的普通最小二乘回归,求出£的估计值,即e的值TOC\o"1-5"\h\zii第二步,取e的绝对值,即|e把x和|e|按递增或递减的次序排列后分成等iiii级,按下式计算出等级相关系数:r=1-6Ed2,其中,n为样本容量,sn(n2-1)ii=1d为对应于x和|e|的等级的差数。iii第三步,做等级相关系数的显著性检验。在n>8的情况下,用下式对样本等级相

关系数r进行t检验,检验统计量为:tnZ2r^,如果t<t(n-2)可以认为sJl-r2a2s异方差性问题不存在,如果t>t(n-2),说明x与|e|之间存在系统关系,异a2ii方差性问题存在。(在这个检验中,原假设为:不存在异方差性)等级相关系数可以如实反映单调递增或单调递减趋势的变量间的相关性,而简单相关系数值适宜衡量直线趋势变量间的向关系。四、一元加权最小二乘估计当研究的问题存在异方差性时,就不能用普通最小二乘法进行参数估计了。消除异方差性的方法通常有加权最小二乘法、Box-Cox变换法、方差稳定变换法。对于一元线性回归方程来说,普通最小二乘法的离差平方和为:Q(P,P)二区(y-E(y))2二区(y-B-Bx)2,其中每个观测值的权数相同。0liii0lii=1i=1在等方差的条件下,平方和的每一项的地位是相同的。然而,在异方差的条件下,平方和中的每一项的地位是不同的,误差项方差a2大的项,在平方和式子i中的作用就偏大,因而普通最小二乘估计的回归线就被拉向方差大的项,而方差小的项的拟合程度就差。加权最小二乘估计的方法是在平方和中加入一个适当的权数w,以调整各项在平方和中的作用。一元线性回归的加权最小二乘的i离差平方和为:Q(BB)=区W(y-E(y))2=Xw(y-B-Bx)2,其中w为01iiiii01iii=1i=1给定的权数。使用加权最小二乘法时,为了消除异方差性的影响,为了使各项的地位相同,观测值的权数应该是观测值误差项方差的倒数,即w=—。误差项ia2i方差较大的观测值接受较小的权数,误差项方差较小的观测值接受较大的权数。在社会、经济研究中,经常会遇到这种特色的权数,即误差项方差与X的幂函数xm成比例,其中,m成比例,其中,m为待定的未知参数。此时权函数为:1w=ixmi加权最小二乘估计照顾小残差项是以牺牲大残差项为代价的,当回归模型存在异方差时,加权最小二乘估计只是对普通最小二乘法估计的改进,这种改进有可能是细微的,不能理解为加权最小二乘估计一定会得到与普通最小二乘估计截然不同的回归方程,或者一定有大幅度的改进。另外,加权最小二乘以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果,这也并不总是研究者所需要的。在社会经济现象中,通常变量取值大时方差也大,在以经济总量为研究目标时,更关心的是变量取值大的项,而普通最小二乘恰好能满足这个要求。所以在这样的一些特定场合下,即使数据存在异方差,也仍然可以选择使用普通最小二乘估计。五、多元加权最小二乘估计多元线性回归有多个自变量,通常取权数W为某个自变量x(j二1,2,…,p)j的幂函数,即W=Xm,在x,X,…,X这P个自变量中,应该选取哪一个自变量,j12p这只需计算每个自变量X与普通残差的等级相关系数,选取等级相关系数最大j的自变量构造权函数。六、自相关性如果一个回归模型不满足cov(s8)HO,则称为随机误差项之间存在自相关ij现象。这里的自相关现象不是指两个或者两个以上的变量之间的相关关系,而指的是一个变量前后期数值之间存在的相关关系。七、自相关产生的背景和原因产生序列自相关的背景及原因通常有以下几个方面。1、遗漏关键变量时会产生序列的自相关性。2、经济变量的滞后性会给序列带来自相关性。3、采用错误的回归函数形式也可能引起自相关性。例如,假定某实际问题的正确回归函数应由指数形式y=pexp(PX+8)来表示,但无用了线性回归模型O1y=P+Px+8r表示,这时,误差项,也会表现为自相关性。O14、蛛网现象可能带来序列的自相关性。(经济学中的蛛网模型)5、因对数据加工整理而导致误差项之间产生自相关性。八、自相关性带来的问题当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,仍直接用普通最小二乘法估计未知参数,序列相关性会带来下列问题:1、参数估计值不再具有最小方差线性无偏性2、均方误差MSE可能严重低估误差项的方差。3、容易导致对t值评价过高,常用的F检验和t检验失效。4、当存在序列相关性时,P仍然是P的无偏估计量,但在任一特定的样本中,P可能严重歪曲0的真实情况,即最小二乘估计量对抽样波动变得非常敏感。5、如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和进行结构分析将会带来较大的方差甚至错误的解释。九、自相关性的诊断1、图示法图示法是一种直观的诊断方法,它是把给定的回归模型直接用普通最小二乘法估计参数,求出残差项e,e作为随机项s的真实值的估计值,在描绘e的散点图,tttt根据e的相关性来判断随机项s的序列相关性。tt绘制e,e的散点图。tt—1图a表明随机扰动项存在正的序列相关,图b表明随机扰动项存在负相关。按照时间顺序绘制回归残差项e的图形,如果e随着t的变化逐次有规律地tt变化,呈现锯齿形或循环形状的变化,可断言e存在相关,表明s存在着序列相tt关。如果e随着t的变化逐次变化并不断地改变符号,如下图d所示,那么随机扰t动项s存在负的序列相关,这种现象称为蛛网现象;如果e随着t的变化逐次变tt化并不频繁地改变符号,而是几个正的e后面跟着几个负的,则表明随着扰动项ts存在正的序列相关,如下图c所示。tHee自相关函数的估计值为6=tt—自相关函数的估计值为6=tt—10作为自相关系数P的估计值与样本量有关,需要做统计显著性检验才能确定自相关性的存在,通常采用DW检验代替对P的检验。3、DW检验DW检验是适用于小样本的一种检验方法,而且DW检验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。DW沁2(1-p),计算出DW值后,根据样本容量n和解释变量的数目k(包括常数项)查DW分布表,得出临界值d和d。LU0WD.W<d,L误差项8,8,…,8间存在正相关;12nd<D.W<d,LU不能判定是否有自相关;d<D.W<4-d,UU误差项8,8,…,8间无自相关;12n4-d<D.W<4-d,UL不能判定是否有自相关;4-d<D.W<4,L误差项8,8,…,8间存在负相关。12n需要注意的是,DW检验尽管有着广泛的应用,但也有明显的缺点和局限性:(1)DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断。这时只有增大样本容量或选取其他方法;(2)DW统计量的上、下界表要求n>15,这是因为样本如果再小,利用残差就很难对自相关的存在性做出比较正确的诊断;(3)DW检验不适应随机项具有高阶序列相关的检验(只能判断一阶)。

十、自相关问题的处理方法1、迭代法设一元线性回归模型的误差项存在一阶自相关TOC\o"1-5"\h\zy=B+Px+e(1)t01tte=pe+p(2)tt—1tE(p)=0,t=1,2,…,n

t2,t=Scov(p,p)=<(t,s=1,2,…,n)(2)式表明误差项存在一阶自相关,(1)式表明p满足关于随机扰动项的基(2)式表明误差项存在一阶自相关,(1)式表明p满足关于随机扰动项的基tTOC\o"1-5"\h\z本假设。所以回归模型(1)有:y=P+Px+e(3)t—101t—1t—1将(3)式两端乘以p,在用(1)式减去乘以p的(3)式,则有(y—py—)=(P—pP)+P(x—px—)+(e—e—)(4)tt—1001tt—1tt—1在(4)式中,令y'=y—py,x'=x—px,P'=P(1—p),P'=Pttt—1ttt—10011于是(4)可以变为y'=P'+P'x+p(5)t01tt模型(5)式有独立随机误差项,满足线性回归模型的基本假设,用普通最小二乘法估计的参数估计量具有通常的优良性。由于自相关系数p是未知的,需要对p作估计。p-1—2DW,计算出p的估计值后,带入计算变换因变量y'和变换自变量x',然后用(5)式做普通最小二乘回归。一阶自相关模型,通过上述变t换,已经消除自相关,迭代法到此结束。如果检验表明误差项p不存在自相关,t迭代法结束,如果检验表明误差项p存在自相关,那么对回归模型(5)式重复t用迭代法,这个过程可能要重复几次,直至最终消除误差项自相关。2、差分法差分法就是用增量数据代替原来的样本数据,将原来的回归模型变为差分形式的模型。一阶差分法通常适用于原模型存在较高程度的一阶自相关情况。(y—y)=(卩—卩)+卩(x—x)+(e—e)用增量表示为:Ay=卩Ax+ptt—1001tt—1tt—1t1tt以差分数据Ay和Ax为样本的回归方程。差分之后的模型,通常不带有常数项,tt它是回归直线过原点的回归方程。一阶差分的应用条件是自相关系数P=1,在实际应用中,P接近1时,就可以采用差分法而不用迭代法。有两个原因:第一,迭代法需要用样本估计自相关系数P,对P的估计误差会影响迭代法的使用效率;第二,差分法比迭代法简单,在建立时序数据的回归方程时,更习惯于用差分法。十一、异常值与强影响点异常值分为两种情况,一种是关于因变量y异常,另一种是关于自变量x异常。1、关于因变量y的异常值在残差分析中,认为超过土3^的残差为异常值。标准化残差:ZRE=二,ib学生化残差:SRE=;。标准化残差使残差具有可比性,|ZRE|>3的相ibjl—hiii应观测值即判定为异常值,这简化了判断工作,但是没有解决方差不等的问题。学生化残差则进一步解决了方差不等的问题,比标准化残差又有所改进。但是当观测数据中存在关于y的异常观测值时,普通残差、标准化残差、学生化残差这三种残差都不再适用,这是由于异常值把回归线拉向自身,使异常值本身的残差减少,而其余观测值的残差增大,这时回归标准差b也会增大,因而用3b准则不能正确分辨出异常值。解决这个问题的方法是改用删除误差。删除误差的构造思想是:在计算第i个观测值的残差时,用删除掉这个第i个观测值的其余n-1个观测值拟合回归方程,计算出第i个观测值的删除拟合值y,(i)这个删除拟合值与第i个值无关,不受第i个值是否为异常值的影响,定义第i个观测值的删除残差为:e二y—y,删除残差e较普通残差更能如实反映第i(i)i(i)(i)e个观测值的异常性。可以证明,e=ei,进一步可以给出第i个观测值的删(i)1—hii除学生化残差,记为SRE=SRE(一"—P—2)2,在实际应用当中,可以(i)(i)n—p—1—SRE2i直接使用软件计算出删除学生化残差SRE的数值,|SRE|>3的观测值即判定(i)(i)为异常值。2、关于自变量x的异常值有D(e)=(1-h)b2,其中杠杆值h表示自变量的第i次观测值与自变量平均iiiii值之间的远近。较大的杠杆值的残差偏小,这是因为大杠杆值的观测点远离样本中心,能够把回归方程拉向自身,因而把杠杆值大的样本点称为强影响点。强影响点并不一定是y值的异常值点,因而强影响点并不总会对回归方程造成不良影响。但是强影响点对回归效果通常有较强的影响,这是由于一下两个原因:第一,在实际问题中,因变量与自变量的线性关系只是在一定的范围内成立,强影响点原来样本中心,因变量与自变量之间可能已不再是线性函数关系,因而在选择回归函数的形式时,需侧重于强影响点;第二,即使线性回归形式成立,但是强影响点远离样本中心,能够把回归方程拉向自身,使回归方程产生偏移。由于强影响点并不总是y的异常值点,所以不能单纯根据杠杆值的大小判断强影响点是否异常,为此,引入库克距离,用来判断强影响点是否为y的异常值点。库克距离的计算公式为:D二笛•匕,库克距离反映了杠杆(i)(p+l)b2(1—h)2ii值h与残差e大小的一个综合效应。杠杆值h的平均值为h=-£h=业,iiiiiniini=1一个杠杆值大于2倍或者3倍的h就认为是大的。中心化的杠杆值ch=h—丄,iiiin因此有中心化杠杆值ch的平均值是Ch=1£ch=P,对于库克聚类大小标准iiniini=1的初略判断是:D<0.5时,认为不是异常值点;当D>1时,认为是异常值点。ii诊断出异常值后,进一步判断引起异常值的原因,通常由以下几种。异常值原因异常值消除方法1.数据登记误差,存在抄写或录入的错误重新核实数据2.数据测量误差重新测量数据3.数据随机误差删除或重新观测异常值数据4.缺少重要自变量增加必要的自变量5.缺少观测数据增加观测数据,适当扩大自变量取值范围6.存在异方差采用加权线性回归7•模型选用错误,线性模型不适用改用非线性回归模型U5自变量选择与逐步回归一、全模型和选模型设研究某一实际问题,涉及对因变量有影响的因素共有m个,由因变量y和m个自变量构成的回归模型y=B+Px+Px+—Px+8称为全模型。01122mm如果从可供选择的m个变量中选出p个,由选出的p个自变量组成的回归模型y=P+Px+Px+—Px+8称为选模型。0p1p12p2ppppp二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。1、全模型正确而误用选模型的情况,性质1,在x与x,…,x的相关系数不全为0时,选模型回归系数的最小二乘jp+1m估计是全模型相应参数的有偏估计,即E(P)=PP(j二1,2,…,p)jpjpj性质2,选模型的预测是有偏的。性质3,选模型的参数估计有较小的方差。性质4,选模型的预测残差有较小的方差。性质5,选模型的均方误差比全模型预测的方差更小。(用选模型去预测,可以提高预测的精度)三、所有子集回归1、关于自变量选择的几个准则准则一:自由度调整复决定系数达到最大。设R2=1-"_1(1-R2)为自由度调整后的复决定系数,其中,n为样本容an—p—1量,P为自变量的个数。所有回归子集中R2最大者对应的回归方程就是最优方程。a从另外一个角度考虑回归的拟合效果,回归误差项b2的无偏估计为:£2=一1SSE。用平均残差平方和&2和调整的复决定系数作为自变量选元n—p—1n—1准则实际上是等价的。因为有R2二1—£2。&2小说明模型好,而&2小R2就aSSTa会大也说明模型好。准则二:赤池信息量AIC达到最小。设模型的似然函数为L(9,x),9的维数为p,x为随即样本,则AIC定义为:AIC=-2InL(99,x)+2p,其中9为9的极大似然估计;p为未知参数的个数,选择LL使AIC达到最小的模型是最优模型。在回归分析的建模过程中,对每一个回归子集计算AIC,其中AIC最小者所对应的模型是最优回归模型。准则三:C统计量达到最小p即使全模型正确,仍有可能选模型有更小的预测误差,C正是根据这一原SSE1p理提出来的。C=(n-m-1)p-n+2p,其中cP2=SSE为全模型中pSSEn-m-1mc2的无偏估计。选择使C最小的自变量子集,这个自变量子集对应的回归方程p就是最优回归方程。四、前进法前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。在R中使用前进法做变量选择时,通常将初始模型设定为不包含任何变量,只含有常数项的回归模型,此时回归模型的AIC统计量的值,不妨为Co。然后,将全部m个自变量分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的AIC统计量的值,选其中最小值记为:Cjl。因此,变量xj将首先被引人回归模型,为了方便进一步地说明前进法,不妨将xj记作xl,此时回归方程对应的AIC值记为C1。接下来,因变量y分别对(x1,x2),(x1,x3)…(xl,xm)建立m-1个二元线性回归方程,对这m-1个回归方程分别计算其AIC统计量的值,选其中最小值记为Cj2则接着将变量xj引人回归模型,此时模型中包含的变量为X1和Xj•依上述方法接着做下去,直至再次引人新变量时,所建立的新回归方程的AIC值不会更小,此时得到的回归方程即为最终确定的方程。五、后退法后退法与前进法相反,通常先用全部m个变量建立一个回归方程,然后计算在剔除任意一个变量后回归方程所对应的AIC统计量的值,选出最小的AIC值所对应的需要剔除的变量,不妨记作X1;然后,建立剔除变量xl后因变量y对剩余m-I个变量的回归方程,计算在该回归方程中再任意剔除一个变量后所得回归方程的AIC值,选出最小的AIC值并确定应该剔除的变量;依此类推,直至回归方程中剩余的p个变量中再任意剔除一个AIC值都会增加,此时已经没有可以继续剔除的自变量,因此包含这p个变量的回归方程就是最终确定的方程。六、前进法和后退法的比较前进法的优点是能够将对因变量有影响的自变量按显著性一一选入,计算量小。前进法的缺点是不能反映引进新变量后的变化,而且选入的变量就算不显著也不能删除。后退法的优点是是能够将对因变量没有显著影响的自变量按不显著性一一剔除,保留的自变量都是显著的。后退法的缺点是开始计算量大,当减少一个自变量时,它再也没机会进入了。如果碰到自变量间有相关关系时,前进法和后退法所作的回归方程均会出现不同程度的问题。七、逐步回归法逐步回归的基本思想是有进有出。step()函数的具体做法是在给定了包含p个变量的初始模型后,计算初始模型的AIC值,并在此模型基础上分别剔除p个变量和添加剩余m-p个变量中的任一变量后的AIC值,然后选择最小的AIC值决定是否添加新变量或剔除已存在初始模型中的变量。如此反复进行,直至既不添加新变量也不剔除模型中已有的变量时所对应的AIC值最小,即可停止计算,并返回最终结果。八、选择回归子集选择哪一个回归子集,用哪一个衡量准则要根据研究问题的目的来决定,回归模型常用的三个方面是:结构分析,预测,控制。如果想通过回归模型去研究经济变量之间的相关联系,即做结构分析,则在选元时可以考虑适当放宽选元标准,给回归方程中保留较多的自变量,但这时需要注意回归系数的正负号,看它们是否符合经济意义。如果希望回归方程简单明了,易于理解,则应该采用较严的选元标准。比如在逐步回归选元中,给显著性水平赋一个较小的值,就可进使得回归方程中保留较少最重要最能说明问题的自变量。如果建立回归方程的目的是为了用于控制,那么就应采取能使回归参数的估计标准误差尽可能小的准则。如果建立回归方程的目的是用于预测,就应该考虑使得预测的均方误差尽量小的准则,如C准则。U6多重共线性的情形及其处理一、多重共线性对回归模型的影响设回归模型y=B+Px+Px+…Px+s存在完全的多重共线性,即对01122pp设计矩阵X的列向量存在不全为零的一组数c,c,c,…,c,使得:012pc+cx+cxHFcx=0(i=1,2,•…,n).01i12i2pip产生原因:采用时间序列数据样本;采用横截面数据影响:1、完全共线性下参数估计量不存在;2、近似共线性下OLS估计量非有效;3、参数估计量经济含义不合理;4、变量的显著性检验失去意义;5、模型的预测功能失效。二、多重共线性的诊断1、方差扩大因子法对自变量作中心标准化,则X:X*=(r)为自变量的相关阵,记ijC二(c)二(X:X*)-1称其主对角线元素VIF=c为自变量x的方差扩大因子。ijjjjjvar(p)二CG2/L(j二1,2,…,p),其中L为x的离差平方和。记R2为自变jjjjj力jJ1量x对其余p-1个自变量的复决定系数,则有c,该式子同样也可以jjj1—R2j作为方差扩大因子VIF的定义。j由于R2度量了自变量x与其余p-1个自变量的线性相关程度,这种相关程Jj度越强,说明自变量之间的多重共线性越严重,R2也就越接近于1,VIF也就Jj越大。由此可见VIF的大小反映了自变量之间是否存在多重共线性,因此可以由它来度量多重共线性的严重程度。经验表明,当VIF>10时,就说明自变量x与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。也可以用P个自变量所对应的方差扩大因子的平均数来度量多重共线性,当1„一VIF=—£VIF远远大于1时就表示存在严重的多重共线性问题。2、特征根判定法特征根分析:当矩阵XX有一个特征根近似为零时,设计矩阵X的列向量间必存在多重共线性,并且XX有多少个特征根接近于零,X就有多少个多重共线性关系。

条件数:(X'X)='^max,为矩阵XX的条件数。通常认为k<100时,设计矩min阵X没有多重共线性;100<k<1000时,认为X存在较强的多重共线性;当k>1000时,则认为存在严重的多重共线性。3、直观判定法(1)当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。(2)从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。(3)有些自变量的回归系数所带正负号与定性分析结果违背。(4)自变量的相关矩阵中,自变量间的相关系数较大。(5)—些重要的自变量的回归系数的标准误差较大。三、消除共线性的方法1、删除一些不重要的解释变量在选择回归模型时,可以将回归系数的显著性检验、方差扩大因子VIF的多重共线性检验与自变量的经济含义结合起来考虑,以引进或剔除变量。2、增大样本容量例如,在建立二元回归模型时,假设数据都已经中心化,有&G2&G2var(|5)=1(1—r2)L1211SG2,var(|5)=2(1—r2)L1222。其中L二工x2,L二工xx,11i112订i2i=1i=1L=2X2则x,x之间的相关系数r=5,可以看到,在r固定不变时,22i21212:LL12i=1*1122当样本容量n增大时,L和L都会增大,两个方差均可减小,从而减弱了多重1122共线性对回归方程的影响。但是,增加了样本数据,可能新的数据距离原来样本数据的平均值较大,会产生一些新的问题,使模型拟合变差,没有达到增加样本数据期望的效果。3、回归系数的有偏估计为了消除多重共线性对回归模型的影响,还可以采取有偏估计为代价来提高估计量稳定性的方法,如岭回归,主成份回归法,偏最小二乘法等。U7岭回归分析一、岭回归的定义岭回归法是以引入偏误为代价减小参数估计量的方差是一种回归方法。当自变量间存在多重共线性,|XX|沁0时,设想给XX加上一个正常数矩阵kI(k>0)那么XX+kI接近奇异的程度就会比XX接近奇异的程度小得多。考虑到变量的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用X表示,定义0(k)二(XX+kI)-1Xy称为P的岭回归估计,其中,k称为岭参数。由于假设X已经标准化,所以XX就是自变量样本相关阵。y可以标准化也可以未标准化,如果y也经过标准化,那么计算的实际是标准化岭回归估计。0(k)作为0的估计应比最小二乘估计0稳定,当k=0时的岭回归估计0(0)就是普通的最小二乘估计。因为岭参数k不是唯一确定的,所以得到的岭回归估计0(k)实际是回归参数0的一个估计族。二、岭回归估计的性质性质1,0(k)是回归参数0的有偏估计。证明:E[0(k)]二E((XX+kI)-1Xy)二(XX+kI)-1XE(y)二(XX+kI)-1XX0显然只有当k=0时,E[0(0)]=0;当艮工0时,0(k)是0的有偏估计。性质2,在认为岭参数k是与y无关的常数时,0(k)=(XX+kI)-1Xy是最小二乘估计0的一个线性变换。也是y的线性函数。证明:0(k)=(xX+kI)-1xy=(xX+kI)-1xx(xx)-ixy=(xx+kI)-1xx0性质3,对任意k>0,间丰0,总有110(k)|<101。这里制是向量的模,等于向量各分量的平方和的平方根。这个性质表明0(k)看看成由0进行某种向原点的压缩。从0(k)的表达式可以看到,当k»时,0(k)T0,即0(k)化为零向量。性质4,以MSE表示估计向量的均方误差,则存在k>0,使得MSE[0(k)]<MSE(0)。三、岭参数k的选择岭参数选择的目的是要选择使MSE(0(k))达到最小的k,最优k值依赖于1、岭迹法岭迹法的直观考虑是,如果最小二乘估计看来有不合理之外,如估计值以及正负号不符合经济意义,希望能通过采用适当的岭估计0(k)来加以一定程度的改善,岭参数k值的选择就是尤为重要。选择k值的一般原则是:各回归系数的岭估计基本稳定;用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理。回归系数没有不合乎经济意义的绝对值;残差平方和增大不太多。2、方差扩大因子法=c®v((X*X+*/r'AF>J(Xr,X+WrrlX>)=(Xeov(y,y)X(X'X+A/)-1X+kiy'X(XfXkiy^er^cik)应用方差扩大因子法选择k的经验做法是:选择k使所有方差扩大因子c<10,当c<10时,所对应的k值的岭估计0(k)就会相对稳定。jjjj3、由残差平方和来确定k值岭估计0(k)在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度以内,从而可以给定一个大于1的c值,要求SSE(k)<cSSE,寻找使该式成立的最大的k值。四、用岭回归选择变量岭回归选择变量的原则:1、在岭回归的计算中,假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。2、当k值较小时,标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零,像这样岭回归系数不稳定,震动趋于零的自变量可以予以剔除。3、去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。U9非线性回归一、可化为线性回归的曲线回归可线性化的曲线回归模型称为本质线性回归模型,不可线性化的曲线回归模型称为本质非线性回归模型。乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型认为y本身是异方差的,而lny是等方差的。加性误差项模型认为y是等ttt方差的。从统计性质看两者的差异,前者淡化了y值大的项(近期数据)的作用,t强化了y值小的项(早期数据)的作用,对早起数据拟合得效果较好,而后者则t对近期数据拟合得效果较好。影响模型拟合效果的统计性质主要是异方差、自相关和共线性这三个方面。异方差可以同构选择乘性误差项模型和加性误差项模型解决,必要时还可以使用加权最小二乘。二、多项式回归多项式回归模型是一种重要的曲线回归模型,这种模型通常容易转化为一般的多元线性回归来做处理。1、常见的多项式回归模型回归模型y二卩+卩x+卩x2+8称为一元二阶多项式模型。通常将回归模i01i2ii型中的系数表示成:y-P+Px+Px2+8,回归函数y=P+Px+Px2是一i01i11iii01i11i条抛物线方程,通常称为二项式回归函数。回归系数P为线性效应系数,P为111二次效应系数。当自变量的幂次超过3时,回归系数的解释变得困难起来,回归函数也变得很不稳定,对回归模型的应用会收到影响。因而,幂次超过3的多项式回归模型不常使用。在实际应用当中,常遇到含两个或两个以上自变量的情况,称回归模型:y-P+Px+Px2+Px+Px2+Pxx+8为二元二阶多项式回i01i111i12i222i212i1i2i归模型。它的回归系数中分别含有两个自变量的线性项系数P和P,二次项系12数P和P,并含有交叉乘积项系数P,交叉乘积项表示x与x的交互作用,11221212系数P通常称为交互影响系数。12三、非线性模型在非线性回归中,平方和分解式SST=SSR+SSE不在成立,类似于线性回归中的复决定系数,定义非线性回归的相关指数:R"2=1-SSE/SST用非线性最小二乘法求解非线性回归方程,非线性最小二乘是使残差平方和达到最小,这种平方损失函数的优点是数学性质好,在一定条件下具有统计学的一些优良性质,但其最大的缺点是缺乏稳健性。当数据存在异常值时,参数的估计效果变得很差。因而在一些场合,可以用一些更稳健的残差损失函数代替平方和损失函数,例如绝对值损失函数。绝对值残差损失函数为:Q(6)仝|y-f(x,6)|ii有时候用最小绝对值法的最大残差比普通最小二乘法的最大残差更大,这是否与最小绝对值法的稳健性相矛盾?其实这正说明了最小绝对值法的稳健性。这是因为最小绝对值法受异常值的影响程度小,回归线向异常值靠拢的程度也小,因而异常值的残差反而大。四、非线性回归的一些问题根据实际观测数据配以合适的曲线模型一般有两个重要的步骤。一是确定曲线类型。对一个自变量的情况,确定曲线类型一般是把样本观测值画成散点图,由散点图的形状来大体确定曲线类型。再就是根据专业知识来确定曲线类型,如商品的销售量与广告费之间的关系,一般用S形曲线来描述;在农业生产中,粮食的产量与种植密度之间的关系往往服从抛物线关系。对于由专业知识可以确定的曲线类型,就用相应的模型去试着拟合,如果拟合的效果可以,问题就解决了。二是参数估计问题。如果可将曲线模型转化为线性模型,就可用普通最小二乘法去估计未知参数,如果不能用某种变换把它转化成线性模型,则参数的估计就要用非线性最小二乘法进行。非线性最小二乘法比普通最小二乘法要复杂得多一般都是用迭代方法。由于任一连续函数都可用分段多项式来逼近,所以在实际问题中,不论变量y与其他变量的关系如何,在相当宽的范围内总可以用多项式来拟合。例如在一元回归关系中,如果变量y与x的关系可以假定为p次多项式,就可以转化为多元线性回归模型来处理。利用多项式回归模型可能会把已有的数据拟合得十分漂亮,但是,如果对较大的x作外推预测,这种多项式回归函数就可能会得到很差的结果,预测值可能会朝着意想不到的方向转折,可能会与实际情况严重不符。所有类型的多项式回归函数,尤其是高阶多项式回归都具有外推风险。特别的,对于一元回归,只要用一元n-1次多项式就可以把n对数据完全拟合,多项式曲线通过所有n-1个点,残差平方和为零,但是这种的回归拟合却没有任何实际意义。因此,必须谨慎地使用高阶多项式回归模型,因为得到的回归函数只是数据的良好拟合,而并不能如实地表明x与y之间回归关系的基本特征,并会导致不规则的外推。所以在应用多项式回归时,阶数一般不要超过三阶。一般地说,当非线性回归模型选择正确,回归拟合效果好时,相关指数R2能够如实反映回归拟合效果;而当回归拟合效果差时,相关指数R2则不能够如实反映回归拟合效果,甚至可能取为负值。U10含定性变量的回归模型一、自变量中含有定性变量的回归模型在回归分析中,对一些自变量是定性变量的情形先量化处理,引入只取0和1两个值的虚拟自变量。一个定性变量有k类可能的取值时,只需要引入k-1个0-1型自变量。需要指出的是,虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明观察单位的性质或属性。二、自变量中含有定性变量的回归模型的应用1、分段回归在实际问题中,会碰到某些变量在不同的影响因素范围内变化趋势截然不同对于这种问题,有时用多种曲线拟合效果仍不能令人满意。如果做残差分析,会发现残差不是随机的,而具有一定的系统性。2、回归系数相等的检验三、因变量是定性变量的回归模型1、定性因变量的回归方程的意义设y是只取0,1的定性变量,考虑简单线性回归模型y二B+Px+8,在这i01ii种y只取0,1的情况下,因变量均值e(y)=B+px有着特殊的意义。由于y是i01ii0-1型贝努力随机变量,则得如下概率分布p(y=1)=兀,根据离散型随机变量ii期望的定义,可得E(y)二兀二p+pX,所以,作为由回归函数给定的因变量ii01i均值E(Y)=B+pX是由自变量水平为x时Y的概率。对因变量均值的这种解i01iii释既适应于这里的简单线性回归函数,也适用于复杂的多元回归函数。当因变量是0,1时,因变量均值总是代表给定自变量时y=1的概率。2、定性因变量回归的特殊问题离散非正态误差项对一个取值为0和1的因变量,误差项8二y-B-Bx只能取两个值:当ii01iy=1时,8=1—p—px=1—兀当y—0时,8=—B—px=—兀显然,ii01iiii01ii误差项8是两点型离散分布,当然正态误差回归模型的假定就不适用了。i零均值异方差当因变量是定性变量时,误差项8仍然保持零均值,这时出现的另一个问题i是误差项8的方差不相等。0-1型随机变量8的方差为:D(8)—D(y)iiii-兀(1-兀)-(p+pX)(1-p—pX),可以看到8的方差依赖于X,是异方差,ii01i01iii不满足线性回归方程的基本假定,最小二乘估计的效果也就不会好。回归方程的限制当因变量为0,1虚拟变量时,回归方程代表概率分布,所以因变量均值受到如下限制:0<E(y)-兀<1,对一般的回归方程本身并不具有这种限制,线性ii回归方程y=0+0x将会超出这个限制范围。i01i四、logistic回归模型1、分组数据的logistic回归模型针对0-1型因变量产生的问题,应该对回归模型做两个方面的改进。第一,回归函数应该改用限制在[0,1]区间内的连续曲线,而不能再沿用直线回归方程。限制在[0,1]区间内的连续曲线有很多,例如所有连续型随机变量的分布函数都符合要求,常用的是Logistic函数与正态分布函数°Logistic函数的形式为:f(x)=上=—1+ex1+e-x第二,因变量y本身只取0,1两个离散值,不适于直接作为回归模型中的因i变量。由于回归函数E(y)=兀=0+0x表示在自变量为x的条件下y的平均ii01iii值,而y是0-1型随机变量,因而E(y)=兀就是在自变量为x的条件下y等于iiiii1的比例。这提示我们可以用y等于1的比例代替y本身作为因变量。ii分组数据的logistic回归只适用于大样本的分组数据,对小样本的未分组数据不适用。分组数据的logistic回归首先要对频率作logistic变换,变换公式为

p'=ln(]Pi),这个变换要求p[=2丰0或1,当存在m=0或m=n时,可

以用如下白的修正公式计算样本频率pi=,分组数据的logistic回归存in+1在异方差性,需要米取加权最小二乘估计。出来权函数w=np(1-p)之外,也iiii可以通过两阶段最小二乘法确定权函数。第一阶段是用普通最小二乘拟合回归模型。第二阶段是从第一阶段的结果估计出组比例p,用权数w=np(1-p)作iiiii加权最小二乘回归。2、未分组数据的logistic回归模型设y是0-1型变量,x1,x2,…,xp是与y相关的确定性变量,n组观测数据为(xil,xi2,…,xip;yi),i=1,2,…,n,yi与xi1,xi2,…,xip的关系为:E(yi)二ni二f(B0+B1xi1+B2xi2+・・・+Bpxip)其中函数f(x)是值域在[0,1]区间内的单调增函数。对于Logistic回归.于是yi是均值为ni二f(B0+B1xi1+&2xi2+・・・+Bpxip)的0-1型分布,概率函数为:P(yi=1)=niP(yi=0)=1-ni可以把yi的概率函数合写为:P(y)=兀(1-兀)r于是y1,y2,…,yn的似然函数为:L=HP(y)=冈兀yi(1—兀)1-yiiii五、多类别logistic回归=iProbit回归称为单位概率回归,与Logistic回归相似,也是拟合0-1型因变量回归的方法,其回归函数是①-1(兀•)=00+01二1+…+0pxp用样本比例代替概率,表示为样本回归模型①-i(p)=0+0x+…+0x+£i01i1pipi附课后习题解答(主要为简答题)第2章一元线性回归分析一元线性回归有哪些基本假定?1.因变量y与自变量x具有线性关系2•解释变量X是确定性变量,Y是随机变量;3•随机误差项8具有零均值、同方差和不序列相关性:E(£)=0i=1,2,...,nVar(e)=O2i=1,2,...,nCov(j引=0iHji,j=1,2,.,n随机误差项8与解释变量X之间不相关:Cov(X,8.)=0i=1,2,...,n5.8服从零均值、同方差、零协方差的正态分布e~N(0,6)i=1,2,...,n第3章多元线性回归3.2讨论样本容量n与自变量个数p的关系,它们对模型的参数估计有何影响?答:在多元线性回归模型中,样本容量n与自变量个数p的关系是:n>>p。如果n<=p对模型的参数估计会带来很严重的影响。因为:在多元线性回归模型中,有p+1个待估参数B,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。解释变量X是确定性变量,要求rank(X)=p+1<n,表明设计矩阵X中的自变量列之间不相关,即矩阵X是一个满秩矩阵。若rank(X)<p+1,则解释变量之间线性相关,(xX)-1是奇异阵,则卩的估计不稳定。3.3证明CT2=SSE(n-p-1)随机误差项e的方差b2的无偏估计。T62=SSE=(e'e)=工e2,i=1TOC\o"1-5"\h\zn-p-1n-p-1n-p-1:i=1E(为e2)=艺D(e)=艺62(1-h)=62艺(1-h)=62(n一工h)=62(n-p-1)iiiiiiiii=1i=1i=1i=1i=1...E(62)=—1—E(Xe2)=62n-p-1ii=13.4一个回归方程的复相关系数R=0・99,样本决定系数R2=0.9801,我们能判断这个回归方程就很理想吗?答:不能断定这个回归方程理想。因为:1.在样本容量较少,变量个数较大时,决定系数的值容易接近1,而此时可能F检验或者关于回归系数的t检验,所建立的回归方程都没能通过。样本决定系数和复相关系数接近于1只能说明Y与自变量X1,X2,...,Xp整体上的线性关系成立,而不能判断回归方程和每个自变量是显著的,还需进行F检验和t检验。在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得R2往往增大,因此增加解释变量(尤其是不显著的解释变量)个数引起的R2的增大与拟合好坏无关。第4章违背基本假设的情况试举例说明产生异方差的原因。答:例4.1:截面资料下研究居民家庭的储蓄行为Yi=^0+^1Xi+ei其中:Yi表示第i个家庭的储蓄额,Xj表示第i个家庭的可支配收入。由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以£i的方差呈现单调递增型变化。例4.2:以某一行业的企业为样本建立企业生产函数模型Yi=Aib1Kib2Lib3e£i被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项£的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。异方差带来的后果有哪些?答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:1、参数估计量非有效2、变量的显著性检验失去意义3、回归方程的应用效果极不理想总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。4.3简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数w,i以调整各项在平方和中的作用,加权最小二乘的离差平方和为:Q(B,卩,…,卩)=£w(y—卩—卩x卩x)2(2)w01pii01i1pipi=1加权最小二乘估计就是寻找参数P,P,…,P的估计值(3,0,…,0使式(2)01p0w1wpw的离差平方和Q达极小。所得加权最小二乘经验回归方程记做wTOC\o"1-5"\h\zy=0+0xH0x(3)w0w1w1pwp多元回归模型加权最小二乘法的方法:首先找到权数w.,理论上最优的权数w为误差项方差b2的倒数,即iiiw=(4)ib2i误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用;误差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的加权最小二乘估计0,0,…,0就是参数0,0,…,0的最小方差线性无偏估0w1wpw01p计。一个需要解决的问题是误差项的方差a2是未知的,因此无法真正按照式(4)i选取权数。在实际问题中误差项方差a2通常与自变量的水平有关(如误差项方差ia2随着自变量的增大而增大),可以利用这种关系确定权数。例如a2与第丿个自TOC\o"1-5"\h\zii变量取值的平方成比例时,即a2二kx2时,这时取权数为ijw二(5)iX2ij更一般的情况是误差项方差a2与某个自变量x(与|e.|的等级相关系数最ij1大的自变量)取值的幂函数xm成比例,即a2二kxm,其中m是待定的未知参数。jij此时权数为w二(6)ixm这时确定权数W的问题转化为确定幂参数m的问题,可以借助SPSS软件解决。i4.7有同学认为当数据存在异方差时,加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异,异方差越严重,两者之间的差异就越大。你是否同意这位同学的观点?说明原因。答:不同意。当回归模型存在异方差时,加权最小二乘估计(WLS)只是普通最小二乘估计(OLS)的改进,这种改进可能是细微的,不能理解为WLS一定会得到与OLS截然不同的方程来,或者大幅度的改进。实际上可以构造这样的数据,回归模型存在很强的异方差,但WLS与OLS的结果一样。加权最小二乘法不会消除异方差,只是消除异方差的不良影响,从而对模型进行一点改进。第5章自变量选择与逐步回归自变量选择对回归参数的估计有何影响?答:回归自变量的选择是建立回归模型得一个极为重要的问题。如果模型中丢掉了重要的自变量,出现模型的设定偏误,这样模型容易出现异方差或自相关性,影响回归的效果;如果模型中增加了不必要的自变量,或者数据质量很差的自变量,不仅使得建模计算量增大,自变量之间信息有重叠,而且得到的模型稳定性较差,影响回归模型的应用。自变量选择对回归预测有何影响?答:当全模型(m元)正确采用选模型(p元)时,我们舍弃了m-p个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的,但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差,所以全模型正确而误用选模型有利有弊。当选模型(p元)正确采用全模型(m元)时,全模型回归系数的最小二乘估计是相应参数的有偏估计,使得用模型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选模型的大,所以回归自变量的选择应少而精。如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣?答:如果所建模型主要用于预测,则应使用CP统计量达到最小的准则来衡量回归方程的优劣。(即使全模型正确,但仍有可能选模型有更小的预测误差)试述前进法的思想方法。答:前进法的思想是变量由少到多,每次增加一个,直至没有可引人的变量为止。在R中使用前进法做变量选择时,通常将初始模型设定为不包含任何变量,只含有常数项的回归模型,此时回归模型有相应的AIC统计量的值,不妨记为Co。然后,将全部m个自变量分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的AIC统计量的值,选其中最小值记为:Cj1。因此,变量xj将首先被引人回归模型,为了方便进一步地说明前进法,不妨将xj记作X1,此时回归方程对应的AIC值记为C1。接下来,因变量y分别对(x1,x2),(x1,x3)・・・(x1,xm)建立m-1个二元线性回归方程,对这m-1个回归方程分别计算其AIC统计量的值,选其中最小值记为Cj2则接着将变量xj引人回归模型,此时模型中包含的变量为X1和Xj.依上述方法接着做下去,直至再次引人新变量时,所建立的新回归方程的AIC值不会更小,此时得到的回归方程即为最终确定的方程。试述后退法的思想方法。答:后退法与前进法相反,通常先用全部m个变量建立二个回归方程,然后计算在剔除任意一个变量后回归方程所对应的AIC统计量的值,选出最小的AIC值所对应的需要剔除的变量,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论