




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
#第七章线性回归分析管理中经常要研究变量与变量之间的关系,并据以做出决策。前面介绍的检验可以确定两个变量之间是否存在着某种统计关系,但是如果检验说明两个变量之间存在着某种关系,我们还是不能说明它们之间究竟存在什么样的关系。本章介绍的回归分析能够确定两个变量之间的具体关系和这种关系的强度。回归分析以对一种变量同其他变量相互关系的过去的观察值为基础,并在某种精确度下,预测未知变量的值。社会经济现象中的许多变量之间存在着因果关系。这些变量之间的关系一般可以分为两类:一类是变量之间存在着完全确定的关系,即一个变量能被一个或若干个其他变量按某种规律唯一地确定,例如,在价格P确定的条件下,销售收入Y与所销售的产品数量之间的关系就是一种确定性的关系:Y=P・X。另一类是变量之间存在着某种程度的不确定关系。例如,粮食产量与施肥量之间的关系就属于这种关系。一般地说,施肥多产量就高,但是,即使是在相邻的地块,采用同样的种子,施相同的肥料,粮食产量仍会有所差异。统计上我们把这种不确定关系称为相关关系。确定性关系和相关关系之间往往没有严格的界限。由于测量误差等原因,确定性关系在实际中往往通过相关关系表现出来;另一方面,通过对事物内部发展变化规律的更深刻的认识,相关关系又可能转化为确定性关系。两个相关的变量之间的相关关系尽管是不确定的,但是我们可以通过对现象的不断观察,探索出它们之间的统计规律性。对这类统计规律性的研究就称为回归分析。回归分析研究的主要内容有:确定变量之间的相关关系和相关程度,建立回归模型,检验变量之间的相关程度,应用回归模型进行估计和预测等。第一节一元线性回归分析、问题的由来和一元线性回归模型例7-1。某地区的人均月收入与同期某种耐用消费品的销售额之间的统计资料如表7-1所示。现要求确定两者之间是否存在相关关系。表7-1年份1987198819891990199119921993199419951996人均收入1.61.82.33.03.43.84.54.85.25.4销售额(百万兀)4.75.97.08.210.5121313.51415如果作一直角坐标系,以人均收入x为横轴,销售额y为纵轴,把表7-1中的数ii据画在这个坐标系上,我们可以看出两者的变化有近似于直线的关系,因此,可以用一元线性回归方程,以人均收入为自变量,以销售额为因变量来描述它们之间的关系。即:y=a+bx+e(i=1,2,,n)iii其中:y是因变量y的第i个观察值,ix是自变量X的第i个观察值ia与b是回归系数,
n是样本容量,e为对应于Y的第i个观察值的随机误差,这是一个随机变量。i在上述线性模型中,自变量X是个非随机变量,对于X的第i个观察值X,Y的i观察值y是由两个部分所组成的:bx和e,前者是一个常数,后者是一个随机变量,iii所以也是一个随机变量。对于上述回归模型中的随机误差e要求满足如下的假设条件:i1、应当是服从正态分布的随机变量,即e满足“正态性”的假设。i2、e的均值为零,即玖e)=0,我们称e满足“无偏性”的假设。iii3、e的方差等于b2(e丿=e2,这就是说,所有的e分布的方差都相同,即满足“共iiii方差性”的假设。4、各个£间相互独立,即对于任何两个随机误差e和:(丰j)其协方差等于零,即,Cov(e,e)=0,(i丰j))这称之为满足“独立性”的假设。ij综上所述,随机误差必须服从独立的相同分布。基于上述假定,随机变量的数学期望和方差分别是:E(y)=a+bxb2(ie)=e2iii由此:y〜N(a+bx,e2)iii这就意味着,当X=x时,y是一个服从正态分布的随机变量的某一个取值。如果ii不考虑式中的误差项,我们就得到简单的式子:y=a+bxii这一式子称为Y对X的回归方程。依据这一方程在直角坐标系中所作的直线就称为回归直线。二、模型参数的估计和估计平均误差1、回归参数的估计回归模型中的参数a与b在一般情况下都是未知数,必须根据样本数据(x,y)ii来估计。确定参数a与b值的原则是要使得样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。为此,可以采用“最小二乘法”的办法来解决。对应于每一个x,根据回归直线方程(7-1)可以求出一个y,它就是y的一个估计iii值。估计值和观察值之间的偏差e=(y-y丿。有n个观察值就有相应的n个偏差。iii要使模型的拟合状态最好,就是说要使n个偏差的总和最小。但为了计算方便起见,我们以误差的平方和最小为标准来确定回归模型。这就要求ii-a-ii-a-bx是个极小值。I根据微积分中的极值定理,要使上式取极值,其对a与b所求的偏导数应为0,即
-a-bx)=0i-a--a-bx)=0i-a-bx)xii经整理后可得:Zy=na+bZxZxiyxyii解上式Z^-b=''n=aZx+bZx2ii
可得:1(Zx)Zy)iZx2-1(Zx)2
inZyZxa=--biX"=CZx)/=Z(x-xl=ZY=y)nX2-1(Zx)XXSXY=Z(x-x)(-y)=Zi1(Zx匕)niiSYY1@JSYYni于是,得到参数a与b的简单表达形式如下:b=S/S_XY_XXa=y-bx求出参数a与b以后,就可以得到回归模型y=a+bx由此,只要给定了一个x值,就可以根据回归模型求得一个y来作为实际值y.的iii预测值。2、估计平均误差的计算对于给定的x,根据回归模型就可以求出y的预测值。但是用$来预测y的精iii入、入、y-yiiS=e1Z(,n-2S=e值得注意的是上式中分母是用(n-2)而不是(n-1)或n去除,这是因为n个观察值的数据点用于计算参数a与b时失去了2个自由度,还余下(n-2)个自由度。运用估计平均误差可以对回归方程的预测结果进行区间估计。若观察值围绕回归直线服从正态分布,且方差相等,则有68.27%的点落在土S的范围内,有95.45%的点e落在土2S的范围内,有99.73%的点落在土3S的范围内。ee三、回归模型的检验回归方程建立以后还需要检验变量之间是否确实存在线性相关关系,因为对回归参数的求解过程并不需要事先知道两个变量一定存在相关关系。对一元线性回归模型的统计检验包括两个内容:一是线性回归方程的显著性检验,二是对回归系数进行统计推断。下面我们分别讨论这两个问题。线性回归方程的显著性检验1、方差分解回归分析中需要分析使用Y与X之间的线性相关关系的估计模型y=a+bx来估计y时所产生的误差和所减少的误差,这称为回归中的方差分析。若没有利用Y与X之间的相关关系来估计总体的均值,我们就会选择y的平均值y作为总体的估计值。由此而产生的误差是工(y-y)2,我们称之为“总离差平方和”,记为sst。若利ii用Y与X之间的线性相关关系的估计模型去估计总体均值,则所产生的误差是:工(y-y)2,我们称之为残差平方和,记为SSE。为了说明SST与SSE之间的关系,ii我们对SST进彳(分解。、SST=E(y-亍X=式-亍)+(y-y)]=工G-y)+工(y-y)2+iii=工t-yX+工(y-y)2+0iii=工《—y丄+工(y—y»iii-yii若记SSR=Nty-y丄SSE=工(y-yiiii则SST=SSR+SSE图7-1:三种误差之间的关系SSR反映了由于利用Y和X之间的线性回归模型y来估计Y的均值时,而不是简i单地利用y来估计Y的均值时,使得总误差SST减少的部分,因此统计上称之为“可解释误差”。SSE是利用Y与X之间的线性回归模型来估计Y的均值时仍然存在的误差,因此称之为“不可解释误差”。于是,上式实际上就表示:总误差=可解释误差+不可解释误差图7-1直观地表示了三种误差之间的相互关系。2、相关分析对于任何给定的一组样本(xy)(i=1,2,…口)都可以用最小二乘法建立起一个线性ii回归模型,相应地就可以得到一条回归直线。但是,这样的一条回归直线并不是总有意义的。只有当变量X与Y之间确实存在某种因果关系时,其回归直线才有意义。统计学中要确定变量X和Y之间是否确实存在线性相关,通常利用相关系数来检验。相关系数记作r或r2,它能够较精确地描述两个变量之间线性相关的密切程度。相关系数可以定义为可解释误差SSR和总误差SST之比,即:r2=SSR/SST=1-SSE/SST它反映了由于使用了Y与X之间线性回归模型来估计y.的均值而使离差平方和iSST减少的程度,从而表明Y与X之间线性相关程度及拟合模型的优良程度。r2与SSR成正比。r2越大,说明Y与X之间的线性相关程度越高,也就说明模型的拟合性能较优;r2越小,说明Y与X之间的线性相关程度越低,说明模型的拟合性能较差。当相关系数用r来表示时不仅可以测定Y与X之间的相关程度,而且也可以表示相关的方向。事实上,相关系数r也可以定义为:r=S—亍XYXXYY从上述两个公式计算所得到的结果完全相同,意义也相同。但从r2计算r时为:r=±\:r2要确定r的符号,就需要利用以下的关系:S■厂r=xy=b跖JS-S\SVXXYY1YY由此可见,r与b同号,可以根据b的符号来决定r的符号。从r2的计算公式可以看出:r2总是界于0与1之间的,即0<r2<1O如果y=y,则SST=SSR,SSE=O,ii此时,r2=1o这时称为完全线性相关,模型的拟合程度最优。用Y与X之间的线性回归模型来估计y时的总离差和完全可以用ssr来解释。如果y.二y,则sst=sse,iiSSR=0,因此,r2=0o这时,使用Y与X之间的线性回归模型没有能对任何的总离差平方和SST作出任何解释,说明Y与X之间事实上无线性相关,模型的拟合程度最差。对r的不同的具体值,Y与X之间的相关关系分析如下:当r=1时,称为完全线性正相关;当r=-1时,称为完全线性负相关。当0<|r|<1时,Y与X存在一定的线性相关。当r>0时称Y与X正相关。当r<0时称Y与X是负相关。一般地说,r2>0.9时,估计模型为”优”;0.8<r2<0.9时,估计模型为”良”;0.6<r2<0.8时,估计模型为”一般”。r2<05时估计模型为”差”。但是,要精确地说明两个变量是否确实具有线性相关关系,一般还需要作其他的一些检验。3、F检验法
在一元线性回归模型中,若b=0,则X的变化不会引起Y的变化,即Y与X不具有线性相关关系。因此,线性回归方程的显著性检验可以通过回归方程的F检验来完成。我们提出H:b=0,H:b主0,01则在H成立,即Y与X之间不存在线性相关的条件下,统计量1-r2服从自由度为1,n-2的F分布。在给定了检验的显著性水平以后,可由F分布表得到H成立时的临界值F,如果对于一组样本计算得出的统计量F的值大于F,则否000定H,即b丰0,说明X与Y之间确定存在线性相关关系。0因此,对回归方程的相关性检验可按下列步骤作F检验:1)提出假设H:b=0,H:b丰0,01在H成立时,统计量,n-2)对于给定的显著性水平a,查F分0SSE布表得到检验的临界值F。0对于一组样本计算SSR和SSE,并由此得到F值。比较F与F的值,若F>F,则拒绝零假设。我们认为X与Y之间存在线性相00关关系,否则接受H,认为X与Y之间没有线性相关关系。04、t检验尽管相关系数r是对变量Y与x之间的线性关系密切程度的一个度量,但是相关系数r是根据样本数据计算得到的,因而具有一定的随机性,样本容量越小,其随机性就越大。因此也需要通过样本相关系数r对总体的相关系数P作出推断。由于相关系数r的分布密度函数比较复杂,实际应用中需要对r作变换。令rJn-2t二厂则统计量t服从t(n-2)分布。于是关于总体是否线性相关的问题就变成对总体相关系数P=0的假设检验,也就只要对统计量t进行t检验就行了。根据一组样本计算出上述t值,再根据问题所给定的显著性水平a和自由度n-2,查t分布表,找到相应的临界值t。若2“-J表明t在统计上是显著的,即总体的两个变量间存在线性关系。否则就认为两个变量间不存在线性关系。5、D・W检验回归模型中假设Cov(e.,ej)=0,即随机项是独立的。这一假设是否成立,可以通ij过回归模型的误差序列是否相互独立来进行检验。若误差序列各项间相互独立,则序列各项之间没有相关关系。若序列各项之间有相关关系,误差序列不满足线性回归模型的基本假设,回归模型就不能表达变量Y与X之间的真实变动关系。DW(Durbin-Watson)检验可以检验残差序列的相关性。其检验办法如下:
1)计算误差序列的d统计量(D・W值)d二工(e-eii-i2)根据给定的显著性水平a(通常为a=0.05或0.01),自变量个数k和样本数据个数n查D、W表,得到d的下限值d和上限值d。lu3)判断。若d<d<4-du则残差序列无自相关,各项间相互独立;若0<d<d或4-d<d<4ll表明残差序列存在正自相关或负自相关,各项之间不相互独立,D・W检验未通过;若d<d<d或4-d<d<4-dluul则无法断定是否存在自相关。线性回归模型产生残差序列自相关的原因有三种,第一是所选择的数学模型不适合,变量间不是线性关系而建立了线性模型。此时应进一步选择合适的数学模型。第二是模型中所包含的自变量数目不合适,或是遗漏了某些重要的影响因素,或是包含了不必要的其他因素。第三是序列中包含有很强的趋势分量。通常可以用迭代法或差分法进行修正。经济指标的时间序列常常存在自相关现象,这一点特别要注意。(二)关于回归系数b的统计推断由于样本不同,回归系数a与b的值也不同,因此。回归系数a和b也是随机变量。同时a和b是正态随机变量Y的线性组合,所以a和b也是服从于正态分布的随机变量。关于回归系数b的假设检验对正态随机变量b求数学期望和方差,可得E©丿=b(入)C2CJ20=e—Sxx一般情况下b2未知,需要用其无偏估计量S2来代替:ee讥(•)"()根据t分布原理,样本统计量t=黑-b/:b°丿服从于自由度为(n-2)的t分布。于是要检验回归参数b是否等于某一假设值b的问题,也就转化为假设检验问题。0设H设H:b=bo,竹:、勿丰bo,计算统计量t=V?—b0)b(b)判断原假设是否成立。当显著性水平为a时,查t分布表得t和t,若a21-a22)3)2)3)t、t或t<t,则拒绝H,反之接受H。i-a2a2oob的置信区间根据抽样分布定理,可以确定b的置信区间。因为P(tWtJt)=1—a1-bTOC\o"1-5"\h\za1-a1-b'21'2所以,当置信度为1—a时,b的置信区间是b-1--c?(b),b+t;•c?(b)La21-a2」第二节多元线性回归分析一、多元线性回归模型多元线性回归分析是研究一个因变量与多个自变量之间线性相关关系的统计分析方法。事实上,大量社会经济现象总是多个因素作用的结果。多元线性回归考虑到多个自变量对因变量的影响,能够更真实地反映现象之间的相互关系,因此在实践中应用更广。假设一个随机变量Y与m个非随机变量X之间存在线性相关关系,则它们之间的关系可以用以下的线性回归模型来表示:Y=卩+卩X+卩X+•••+卩X+e01122mm其中:Y是因变量,)Xi(=1,2,…m)是自变量,卩(=0,1,2,…m)是模型的参数,称为偏相关系数。ie是随机误差。对于上述模型中的非随机变量X.的第j个取值XY的观察值Y由两部分组成:iijj(卩+卩X+卩X+•••+卩X)和e。前者是个常数,后者是个随机变量,所以Y也
01122mmjj是个随机变量。与一元线性回归模型同样地,我们也必须假设多元线性回(归模型)中的误差项必须满足正态性、无偏性、共方差性和独立性的条件。假设e〜NV),c2丿,则E(Y)=(P+卩X+卩X+•••+卩X+e)01122mm=卩+卩X+卩X+•••+卩X01122mmc2(Y)=c2(p+卩X+卩X+•••+卩X+e)01122mm=0+c2(e)=c2由此可见:Y〜N(p+pX+pX+-+PX,c201122mme二、参数估计般情况下都是未知数,多元线性回归模型的参数P(=)丄2,…m)及c2在须根据样本数据(yj,jy%)来估计。
般情况下都是未知数,x,x1j回归参数B,(=0,1,2,-m)的估计方法还是”最小二乘法”。根据样本数据Q,x,x,…,x丿来估计卩(Z=0,1,2,x,x1jJ1j2jmjiQ=巧-Jjj+Bxx011jmmj取极小值。为此,对Q分别求B到m+1个方程。QQ
0QB+Bxx011jmmj取极小值。为此,对Q分别求B到m+1个方程。QQ
0QB0dQ=0QB1i=0,1,2,…m)的偏导数,并令其等于零,由此,可以得QQ0k因书写较烦,不一一列出。若对于自变量X,X,…,X和因变量Y共有n组观察数据。x表示自变量X的12miki第k次观察值,-.表示因变量Y的第i次观察值。令:lij=^(x-xXx-x)C,j=1,2,…m)ikk1ijkjli0l00亍(x一丁)(一-)ik1Yn(ykikikC=1,2,…m)k=1-1另X=—厶兀inik
k1-1另y=nyk=1,2,...m)(i=0,1,2,…(i=0,1,2,…m)可以由下列方程组求出:110120£2=Y(y—yejj一m一1)则回归系数BiTOC\o"1-5"\h\zB+1B+•••+/B11221mm1B+1B+…+1B2112222mm=lm01B+1B+…=lm0m11m22mmm常数项B=Y-YB-X0ii多元线性回归模型中的另一个常数是Y的方差C2。因为多元线性回归模型中有jem+1个回归参数要估计,所以Q2的无偏估计量应当是:e三、多元回归中的方差分析和显著性检验与一元线性回归模型同样地,我们在得到多元线性回归模型以后也需要对模型中所包含的变量是否确实与因变量之间存在线性相关关系,以及回归模型的拟合效果如何进行分析检验。多元回归中的方差分析和显著性检验可分为几个部分,首先是对总离差平方和以及回归离差平方和进行分解,分别测定Y与m个自变量X之间总体上的相关程度•以及Y与某个或者若干个自变量X的相关程度,并分别引进多元相关系数和偏相关系数的概念。然后,用F检验进行总相关检验和偏相关的检验。在此基础上再进行残差分析。(一)总离差平方和的分解和多元相关系数与一元线性回归时一样,我们也可以定义多元线性回归的总离差平方和SST,并把它分解为SSR和SSE两部分SST=Y&-Y》=mY)+》(Y-Y)与一元线性回归时一样我们也把上式记作SST=SSR+SSETOC\o"1-5"\h\z其中:Y=B+px+Bxxj011j22jmmj根据上述分解式我们也可以定义多元相关系数r2:r2=SSR-Y)•工C-Y)=1-Y(y-y》/工(y-y)2SSTjj'jjiiiiSSE=1—SST.(A它反映了由于使用Y与m个X之间的线性回归模型用Y.来估计E*丿,而使总离差平方和SST减少的程度,从而表明了Y与X之间的线性相关程度及拟合模型的优良程度.SSR越大,r2越大,说明Y与X之间的线性相关程度越高,说明线性模型的拟合优度越高;反之SSR越小,r2越小,说明Y与m个X的线性相关度越低,即线性模型的拟合优度越低。r2的计算公式说明0<r2<1,若9=丫,则SST=SSR,SSE=0,r2=1.说明用估计模型Y估计E(Y)解释了所有的总离差平方和SST,拟合值与实际值无差异,此时变量间完全线性相关。八如果Y=Y,则SST=SSE,SSR=0,r2=1.说明回归模型Y估计Y不能解释任何的总离差平方和SST,拟合模型无效,说明变量间完全线性无关。在一元线性回归的情形r=±"r2,但在多元线性回归的情形下,自变量的个数m>2时,回归系数的符号可能有正有负,难以确定,因此,我们规定多元相关系数总是为正的,』r=+\;r2由此说明多元相关系数不能说明Y与K个X之间的线性相关方向,仅仅说明了它们之间的线性相关程度.
(二)回归离差平方和与偏相关系数在多元线性回归模型中,如果增加与Y相关的某个自变量X,贝ySSR随之增加,而SSE随之减少.因此,SSR还可以被进一步分解.例如,若原回归模型中只包括自变量x,x,…x,若模型中增加了与Y相关的另一个自变量x以后,使SSR增加的那部TOC\o"1-5"\h\z12kk+1分称为“x的净增回归平方和”,并定义为SSR(x/x,x,…x)。于是k+1.k+112kSSRVxx,x,…x丿=SSR(x,x,…x)—SSR(x,x,…x)k+1'12k12k+r12k=SSE(x,x,…x)—SSE(x,x,…x)12k12k+1由此我们得出对于变量x的偏相关系数的计算公式:k+1••x)—k+1—SSE(x,x,…x)—SSE(x••x)—k+1—r=、1——2k12-+1yxk+iSSE\x,x,…x+1*12k它反映了把自变量x纳入模型以后使得原模型的残差平方和SSR(x,x,…x)k+112k减少的程度。某一变量的偏相关系数越大,说明Y与这一变量的偏相关程度越大,反之,某一变量的偏相关系数越小,说明Y与这一变量的偏相关程度越小。多元回归模型的F检验对于一元回归方程而言,对自变量X的系数作是否为零的假设检验也就等价于对整个回归模型进行了显著性检验。但对多元回归模型而言,对回归模型中各个系数分别进行的显著性检验与对整个回归方程的显著性检验是不同的。因此,我们既需要对整个回归方程进行显著性检验,也需要对回归模型中各个系数分别进行显著性检验。1、总相关的F检验对整个回归方程进行显著性检验通常采用F检验,即检验Y与K个X之间整体上是否存在显著的线性相关关系,此时检验的步骤如下:建立假设原假设H0:卩]二卩2二…二卩二0备择假设H:¥不全为0(i二1,2,…,n丿1i事实上,在所有的自变量X中,只要有一个X与Y之间存在显著线性相关,那么Y与K个X之间的相关系数就不等于0.反过来若Y与K个X之间的相关系数不是零,在K个中必有一个不为零。计算检验统计量F-1)MSRMSESSR。-1)MSRMSESSEC,x,…12F是两个平均离差平方和(方差)之比,可以证明如果代正确,分子MSR的数学期望等于MSE的数学期望,即E(MSR)=E(MSE)=2,F服从自由度为K和(N-M-1)的F分布。£如果H为假,E(MSR)>E(MSE)。因此,如果H。正确,F值将接近于1;如H。为假,则F值将大大超过1。°°判断Ho是否成立。当显著性水平确定为a,自由度为K和N-K-1时,查F分布表得F。如果F三F,则拒绝H。说明Y与K个X之间总的来说存在显著性相关,接受H。aa00说明Y与K个X之间不存在显著性相关。2、偏相关的F检验
偏相关检验的目的在于检验新加入模型的X是否与Y存在显著的线性相关。通过总相关的F检验表明Y与K个自变量X在整体上存在显著的线性相关,但并不意味着各个X都与Y存在显著的线性相关,偏相关是检验在丫与(K-1)个乂存在显著的线性相关的条件下,X是否与Y存在显著的线性相关,即X进入模型后对减少模型的残差平方和是否KK有显著的作用。偏相关检验的步骤是:1)提出原假设H:备择假设H:0上述假设也可写作H:0=0,H:p丰00K1K)-SSR(x,x,)-SSR(x,x,…x)k_112L,x,…x丿12k(n-k-1)SSR\xx,x,…x)=k——12k-1SSE(x,x,…x丿12k(n-k-1)SSRxx,x,…xF=i__2SSE3)判断H是否成立。当显著性水平为a时,查F分布表求出F(分子自由度为1,0a分母自由度为N-K-1)。如果F三F,则拒绝原假设,说明Y与X之间存在显著偏相关,aK反之,接受原假设,说明Y与X之间不存在显著偏相关。K四、多元回归模型的残差分析前面关于回归模型的参数估计和检验都是建立在一系列的理论假设基础之上的,但是在实际问题中,总体的实际情况是否与基本假设相符还需要验证。此时最简单的方法就是残差散点图分析。1、线性与非线性前面所讨论的回归模型都是假设Y与X之间存在线性相关关系,然后应用样本数据建立起它们之间的线性回归模型的。但是如果总体中Y与乂尺之间的相关关系并非是线性的,则模型的假设就不成立。应用模型来进行估计和预测就不可能得出有用的结果。要检验Y与X之间是否存在线性相关关系,可以用残差散点图来分析残差e=Ki(Y•-)的散布情况。我们以残差e为纵座标,以估计值Y为横座标,在直角座标jjij系上依次绘出点(Y,e)o分析观察点的散布情况。如果观察点随机地散布在横线e=0jii的周围,说明总体符合线性相关关系的假设是正确的。如果观察点的散布显示一定的规律性或系统性,则说明总体变量不符合线性相关关系的假设。图7-2就是用来分析线性与非线性的一个残差散点图。如果总体变量不符合线性相关关系的假设则应根据具体情况重新建立模型。此时可考虑建立合适的非线性模型。对于某些非线性模型可以进行变量转换,转换成线性模型再重新进行估计。图7-2线性与非线性的残差散点图比较2、共方差与异方差在建立线性回归模型时,我们假设随机误差e具有相同的方差,即共方差。我们i也可以通过残差散点图来验证总体是否符合共方差性的假设。以残差e为纵座标,以i估计值为横座标,在直角座标系上依次绘出点(Y,e)。分析观察点的散布情况。如ji果观察点随机地散布横线e=0的周围,说明总体基本符合共方差性的假设。如果观察i点随的增大而扩散或聚集,说明总体不符合共方差性的假设。图7-3就是用来分析共方差与异方差的一个残差散点图。图7-3共方差与异方差的残差散点图比较如果总体出现异方差迹象就需要通过采用适当的变量转换可望使方差趋于稳定,再利用回归模型进行估计和预测。3、独立与非独立回归模型还假设随机误差e之间相互独立,即Cov(e,e)=0(i丰j)。我们也可以iij通过残差散点图来验证总体是否符合独立性的假设。以残差e为纵座标,以估计值为i横座标,在直角座标系上依次绘出点(Y,e)。对于与时间有关的样本数据则最好以ji时间t为横轴。分析观察点的散布情况。如果观察点随机地、无规则地散布在横线e=0i的周围,说明总体基本符合独立性的假设。如果观察点在横线e=0的周围显示出周期i性或趋势性的变化,则说明总体不符合独立性的假设。图7-4就是用来分析独立与非独立的一个残差散点图。图7-4独立与非独立的残差散点图比较如残差散点图显示残差之间不独立,则可以寻求把合适的自变量加入模型以消除残差的非独立现象。如果这一办法仍无法消除残差间的非独立性,则可以采用“一价差分法”,做变量转换,然后重新估计模型的参数。4、正态与非正态回归模型还假设随机误差e服从正态分布。要检验总体残差是否满足正态分布的i要求要通过建立标准残差E=j的直方图来检验。从理论上说,E应服从标准正态分布,即E〜N(0,1)。所以应有近50%的E为正,50%的E为负;68%的E落在-1与+1之间,96%的E落在-2与+2之间。如果画出标准残差的直方图则应如图7-5的标准正态残差分布图所示。若这一条件满足就说明总体基本符合正态性的假设。如果样本的容量不大时,&在理论上应服从于自由度为(N-K-1)的t分布。所以,对应于(N-K-1)的t分布,如果有50%的值位于t和t之间,有95%的值位于t和t之间,说0.250.750.0250.975明总体基本符合正态性的假设。图7-5标准正态残差分布图5、多重共线性在应用回归模型时,如果自变量中有两个或两个以上的自变量之间存在着线性或几乎完全线性相关的关系就会产生多重共线性现象。在多重共线性现象的情况下用最小二乘法估计模型的参数就会不稳定。此时当模型中增加或减少一个变量时已在模型中的变量的系数也会变化。在多重共线性现象较严重的情况下,解释回归参数估计量的含义就没有什
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年广西玉林市容县高中、北流高中、博白县三校联考高一3月月考语文试题(解析版)
- 2025年西安铁道职业学校招聘考试笔试试题(含答案)
- 环境科学与工程环保试题集
- 油漆行业包装管理制度
- 油脂生产车间管理制度
- 泉州疫情升级管理制度
- 法律变形量化管理制度
- 洗浴中心技师管理制度
- 洗涤产品车间管理制度
- 流通企业存货管理制度
- 《水热溶剂热合成》课件
- 建筑安全玻璃管理规定
- 保险学(第五版)习题库答案
- DB33-T 2329-2021农田面源污染控制氮磷生态拦截沟渠系统建设规范
- 2017高考理综全国卷及答案
- 脑肠轴与情绪行为课件
- 保洁常用工具和设备一览表
- 广告效果测评整本书课件完整版电子教案全套课件最全教学教程ppt(最新)
- 拉萨市基本养老保险参保人员登记表
- DB32∕T 4170-2021 城市轨道交通车辆基地上盖综合利用防火设计标准
- 《湖北省中小学生命安全教育课程标准》
评论
0/150
提交评论