多元线性回归模型资料讲解_第1页
多元线性回归模型资料讲解_第2页
多元线性回归模型资料讲解_第3页
多元线性回归模型资料讲解_第4页
多元线性回归模型资料讲解_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元线性回归模型第三章多元线性回归模型基本要求:1、理解多元线性回归模型的定义2、理解多元线性回归模型的假定3、掌握参数估计的计算4、理解参数统计性质第一节多元线性回归模型及假定一、多元线性回归模型许多经济现象往往要受多个因素的影响,研究被解释变量受多个解释变量的影响,就要利用多元回归模型。多元线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量Y与多个解释变量X,X,A,X之间存在线性关系。12k假定被解释变量Y与多个解释变量X,X,A,X之间具有线性关系,是解释变量12k的多元线性函数,称为多元线性回归模型。即Y二卩+卩X+卩X+A+卩X+卩01122kk

2、(3-1)其中Y为被解释变量,X(j二1,2,L,k)为k个解释变量,0(j二0,1,2,L,k)为k+1个jj未知参数,卩为随机误差项。被解释变量Y的期望值与解释变量X,X,A,X的线性方程为:12kE(Y)=0+0X+0X+L+0X(3-01122kk2)称为多元总体线性回归方程,简称总体回归方程。对于n组观测值Y,X,X,A,X(i=1,2,A,n),其方程组形式为:i1i2ikiY二P+PX+PX+L+PX+p,(i二1,2,L,n)i011i22ikkii(3-3)=p+pX+pX+A+pX+P10111221kk11=p+卩X+pX+A+卩X+P20112222kk22|AAkkn

3、=p+pX+pX+A+PX+P0其矩阵形式为(3-4)其中Y二nx1Y1Y2MAAMAXk1Xk2MXkn为被解释变量的观测值向量;XP_P0P12MP_k总体回归方程表示为:的观测值矩阵;p(k+1)x1P_P0P12MP_k1P2M1XXAX1121Ak11XXX1222k2MMMMM1XXAX为解释变量nx(k+1)1n2nkn1为总体回归参数向量;P-nx1为随机误差项向量。E(Y)=Xp(3-5)与一元线性回归分析一样,多元线性回归分析仍是根据观测样本估计模型中的各个参数,对估计参数及回归方程进行统计检验,从而利用回归模型进行经济预测和分0k析。多元线性回归模型包含多个解释变量,多个

4、解释变量同时对被解释变量Y发生作用,若要考察其中一个解释变量对Y的影响就必须假设其它解释变量保持不变来进行分析。因此多元线性回归模型中的回归系数为偏回归系数,即反映了当模型中的其它变量不变时,其中一个解释变量对因变量Y的均值的影响。由于参数卩,卩,卩丄,卩都是未知的,可以利用样本观测值(X,X丄,X;Y)对它012k1i2ikii们进行估计。若计算得到的参数估计值为BBB,L,B,用参数估计值替代总体回归012k函数的未知参数卩,卩,卩,L,卩则得多元线性样本回归方程:012kY=0+0X+0X+L+0Xi011i22ikkn(3-6)其中0.(j=0,1,2,L,k)为参数估计值,Y(i=1

5、,2,L,n)为Y的样本回归值或样本拟合jii值、样本估计值。其矩阵表达形式为:(3-7)其中Ynx1Xnx(k+1):k+11八Y1八Y2M为被解释变量样本观测值向量Y的nxl阶拟合值列向量;1X111X12MM1X1nX21XX2nXk1Xk2MXkn为解释变量X的nx(k+1)阶样本观测矩阵;000102M为未知参数向量0的(k+1)x1阶估计值列向量。e。i样本回归方程得到的被解释变量估计值f与实际观测值Y之间的偏差称为残差iieY-YY-(0+0X+0+L+0X)iiii011i2ikiki(3-8)二、多元线性回归模型的假定与一元线性回归模型相同,多元线性回归模型利用普通最小二乘法

6、(OLS)对参数进行估计时,有如下假定:假定1零均值假定:E(卩.)二0,i二1,2,L,n,即E(A)Ej-1-E(卩)1E(卩)2M2M_E(卩)_i=0nn(3-9)假定2同方差假定(卩的方差为同一常数):Var(卩)=E(卩2)=2,(i1,2,L,n)ii假定3无自相关性:Cov(卩,卩)E(卩卩)0,(i丰j,i,j1,2,L,n)ijij(卩,卩,L,卩)12E(卩2)1E(卩卩)21ME(卩卩)12E(卩2)2M_E(卩卩)n1E(卩卩)n2AAMA卩2121Mn1E(卩卩)1nE(卩卩)2nM12卩22Mn2LLML1n2nM卩2n=21un0A2(3-10)假定4随机误差项

7、p与解释变量X不相关(这个假定自动成立):Cov(X,p)二0,(j=1,2,A,k,i=1,2,A,n)jii假定5随机误差项p服从均值为零,方差为2的正态分布:PN(0,61)ipn假定6解释变量之间不存在多重共线性:rank(X)=k+1八e2二乙(Y-丫)2012kiiiV二厶(y-BBx-Bx-aBx)2i011i22ikki(3-11)取得最小值。根据多元函数的极值原理,Q分别对B,B,a,B求一阶偏导,并令其等01k于零,即dQ餉-0(j-1,2,L,k)j(3-12)即翌apo辺air-2Z(Y-B-BX-BX-L-BX)(-1)-0i011i22i-2Zi011i22ikki

8、(y-B-Bx-Bx-l-Bx)(-x)-okki1iLLaQ-Z(y-B-Bx-Bx-li011ia|Tk-BX)(-X)-0kkiki化简得下列方程组nB+卩工X+B工X+L011i22iBZx+BZX2+BZX01i11i2LL+B工Xkkix+L+2i1i-工YB工xxkki1i-ZXY1ii+BZX2-ZXYkkikiiBZx+BZxx+BZxx+l0ki11iki22iki上述(k+1)个方程称为正规方程,其矩阵形式为XY二XXB(3-15)YiYiy.JJ屈_=o124ktQ.tQ.-B-AtQ.1ikiX2kiXkiXAAMkiXX2kiX工i2X1i1ii2XX2iikXi2

9、X2iXz2Xi121iXXikXi1XIi121iXXXMIsz1ikiz;Mx1i;MX工工_一1XXAX11121k11XXAX1222k2XXMMMMM1XXAX1n2nknA1-Y-AX11nYAX2XY2nMMM_Y_AXnknk1k211A1XXAX1112A1n=XXX21222nMMMM_XXAXk1k2kn厂工Y1-11工XYX11X121iiXX22M21工XYMM1kii_XX0为估计值向量P1P2M样本回归模型Y二XB+e两边同乘样本观测值矩阵X的转置矩阵X,则有XY二XXB+Xe得正规方程组:2由假定(6),R(X)=k+1,XX为(k+1)阶方阵,所以XX满秩,X

10、X的逆矩阵(XX)-1存在。因而p二(XX-1XrY(3-16)则为向量p的OLS估计量以二元线性回归模型为例,导出二元线性回归模型的OLS估计量的表达式。由(3-3)式得二元线性回归模型为Y二B+PX+PX+卩i011i22ii为了计算的方便,先将模型中心化。1ynX二yX,x二X-X,j二1,2)jnjijijiji=11ynY=-yY,y=YYniiii=1yL=xx,(p,q=1,2)TOC o 1-5 h zpqpiqiL=yxy,(j=1,2)jYjiiL=yy2YYi设a=B+BX+BX,则二元回归模型改写为中心化模型001122Y=a+Bx+Bx+pi011i22ii(3-17

11、)记a1xxQ0X=_11121,p=Pxx1222由(3-21)式可知“0=YnXx=oo,xy二&丫等x/1ii厶xY2ii(3-18)将L=xx,(p,q=1,2)代入得pqpiqiTOC o 1-5 h zn00XX=0LL11120LL2122(3-19)因为工xYjiii=1=工xjii=1-,(y+Y)=xy+ijiii=1xyjiii=1=LjY,(j=1,2)(3-20)QYXY=iL1YL2Y由(3-16)式得1_EYn0iL1Y_0L-1_L2YB=(XX)-1XY=(3-21)其中LL-11LL11122212LL_LLLLLL_1222112212211211YY2L

12、L21L1-L122L221L1-2DI-22LLH=Y1Y2L1L-L=12pp2y2L-22L2L21-22L-114L-ly圮-22L-一一2卩2_x2-p-X01-y=0-p322323324Ub2(二)随机误差项的方差U的估计量样本回归方程得到的被解释变量估计值f与实际观测值Y之间的偏差称为残差eiiie=Y-Y=Y-(0+0X+0X+L+0X)iiii011i2i2ikiki则e二Y-Y二Y-Xp二(Xp+卩)-X(X,X)-1XY=(xp+)-X(XrX)-1Xr(xp+P)=Xp+P-XP+(XX)-1Xp=p-X(XX)-1X,p=I-X(XX)-1X,Pn设P=I-X(Xr

13、X)-1Xr,可以得出P是n阶对称幂等矩阵,P=P,P2=P。于是ne=PP而残差的平方和为Ee2=ee=(Pp)(Pp)=pPPp=pPpi(3- )i=叩-X(XX)-1X靠nEe)二EI-X(XX)-iX”n=trI-X(XX)-iX卩n=trI-trX(XX)-iX卩n=b2n-(k+1)其中“tr”表示矩阵的迹,即矩阵主对角线元素的和。于是E(ee)n-(k+1)eekn(k+1)丿随机误差项R的方差2的无偏估计量,记作S2,即E(S2)=b2,ReeR残差的标准差(或回归标准差)。S2=b2,s为eRe因此S2ee2(3-25)其中Ve2二ee二(Y-X0)(Y-X0)i二YY-2

14、0XY+pXrXp二YY-20XY+pXX(XX)-1XY二YY-0XY(3-26)例如,对于二元线性回归模型(k=2)s2亠二en-3n-3二ee二L-0L-0LYY11Y22Y3.最小方差性二工Y2-0工XY-0工XYi11ii22ii(3-28)二、估计参数的统计性质1、线性性指最小二乘估计量B是被解释变量的观测值Y,Y丄,Y的线性函数12k由于p二(XX)-1XY设P=(XX)-1X,则矩阵P为一非随机的(k+l)xn阶常数矩阵。所以p二PY(3-29)显然最小二乘估计量p是被解释变量的观测值Y,Y丄,Y的线性函数。12k2、无偏性将Y=XP+p代入(3-16)式得p二(XX)-1X(

15、xp+p)=(XX)-1XXp+(XX)-1Xp=p+(XX)-1Xp(3-30)则E(p)=p+E(XX)-1Xp二p+(XX)-1Xe(p)=p所以p是p的无偏估计量。(3- )设P为nxp阶数值矩阵,X为pxn阶随机矩阵(随机变量为元素的矩阵),Q为nxn阶数值矩阵,则E(PXQ)=P(E(X)Q下面我们推导p的方差、协方差矩阵。定义:Var0)=Ep)(Pp)彳o-卩o,Bi-A,B-一卩丿kkCovP(,丨Var卡1(Mb)Cov卩,Bk1AAMACovP,BCovW,卩k1kVaM)k由(3-30)式得p-p=(Xx)-i(p-p)=(xX)-iX“所以二E(XX)一iXpX(X,

16、X)一i=(XX)-1Xe(“W)X(XX)-1二(XX)-1XG21X(XX)-1卩n=b2(XX)-11122122ii这个矩阵主对角线上的元素表示卩的万差,非主对角线上的元素表示卩的协万差。例如Varb:(XXh的第i行与第i列交叉处的元素(主对角线上的元素);Cov(,B)是位于b2(XXi的第i行与第j列交叉处的元素(非主对角线上的元素)ij:在应用上,我们关心的卩的方差,而忽略协方差,因此把(3-31)式记作Varb2(XX)-i卩iis-1=(xX)t=chj=0,1,2,Ak),则Var(f5?=b:Ci,所以B是卩的最小方差线性无偏估计。这说明,在(3-1)式系数的无偏估计量

17、中,OLS估计量的万差比用其它估计万法所得的无偏估计量的万差都要小,这正是OLS的优越性所在。S2e代替b2则得的标准估计量的估计值,乃称为标准差。:isiiie(3-33)其中eeS2=一en-k-1对于二元回归模型(k=2),求估计量卩,卩的方差,由(3-32)式得Var(J)=b2(XrX丄1=G2iiL-iJii其中L11L12L12L22于是b2L-L_Var莎1=b2L-1:2212J:iiLL-L2l_-lLJ所以L22a22212Varb)=G2G)=iiLLL11(3-34)La11G22LL-L卩112212(3-35)SC)=生S2iLL一L2e(3-36)112212S

18、C)=11S2LLL2e112212(3-37)其中S2efeen一3第三节显著性检验一、拟合优度检验(一)总离差平方和分解设具有k个解释变量的回归模型为Y二B+PX+PX+A+BX+卩i011i22ikkii其回归方程为Y=B+BX+BX+A+BXi011i22ikki离差分解:Y-Y=iYYLCY)iii总离差平方和分解式为:Z(Yy)=工C-Y)+工(yy)2iiiTSS=ESS+RSS(3-38)即(3-39)总离差平方和分解为回归平方和与残差平方和两部分样本决定系数对于多元回归方程,其样本决定系数为复决定系数或多重决定系数R2,(i二1,2,L,k),简记为R2。yXESSR2TSS

19、(3-40)根据式(3-39)R2RSSTSS(3-41)因为TSSiY2一nY2i由(3-26)式知RSSYrYpXY所以ESSTSSRSSpXYnY2R2pXY-n2YYnY2示回归(3-42)R2作为检验回归方程与样本值拟合优度的指标:R2(0R21)越大,方程与样本拟合的越好;反之,回归方程与样本值拟合较差具体的,当k二2时,求样本决定系数P八八iYY11Y22Y由(3-28)式,得工e2=L|3L-|3L,因此有_BL+BLR2=J-Y22Y(3-43)(三)调整后的样本决定系数在使用R2时,容易发现R2的大小与模型中的解释变量的数目有关。如果模型中增加一个新解释变量,总离差TSS不

20、会改变,但总离差中由解释变量解释的部分,即回归平方和ess将会增加,这就是说R2与模型中解释变量个数有关。但通过增加模型中解释变量的数目而使R2增大是错误的,显然这样R2来检验被回归方程与样本值拟合优度是不合适的,需要对R2进行调整,使它不但能说明已被解释离差与总离差的关系,而且又能说明自由度的数目。以R2表示调整样本决定系数,(3-44)其中S2=,S2=ienk1yn1这里nk1是残差平方和的自由度,n1是总离差平方和的自由度由(3-44)式得-R2)亠nk其中,n是样本观测值的个数,k是解释变量的个数。从式中可以看出,当增加一个解释变量时,由前面分析可知R2会增加,引起(-R2)减少,而

21、二增加,因而R2不会n一k一1增加。这样用R2判定回归方程拟合优度,就消除了R2对解释变量个数的依赖。R2或R2只能说明在给定的样本条件下回归方程与样本观测值拟合优度,并不能做出对总体模型的推测,因此不能单凭R2或R2来选择模型,必须对回归方程和模型中各参数的估计量做显著性检验。二、方程显著性检验由离差平方和分解(3-39)式可知,总离差平方和TSS的自由度为n-1,回归平方和ESS是由k个解释变量X,X,A,X对Y的线性影响决定的。因此它的自由度为k。12k所以,残差平方和的自由度由总离差平方和的自由度减去回归平方和的自由度,即为n-k-1。检验回归方程是否显著,第一步,作出假设h:a=B=

22、o012k备择假设片:片、b2、bk不同时为0第二步,在H0成立的条件下,计算统计量FF=E”Sk.f(k,n-k-1)RSS(n-k-1)第三步,查表临界值对于假设H,根据样本观测值计算统计量F给定显著水平a,查第一个自由度为0k,第二个自由度为n-k-1的F分布表得临界值Fa(k,n-k-1)。当F化心,n-k-1)2时,拒绝H0,则认为回归方程显著成立;当F认n-k-1)时,接受H0,则认为回归方程无显著意义。三、参数显著性检验回归方程显著成立,并不意味着每个解释变量x,X4,X对被解释变量Y的影12k响都是重要的。如果某个解释变量对被解释变量Y的影响不重要,即可从回归模型中把它剔除掉,

23、重新建立回归方程,以利于对经济问题的分析和对Y进行更准确的预测。为此需要对每个变量进行考查,如果某个解释变量X对被解释变量Y的作用不显著,那么它在多元线性回归模型中,其前面的系数可取值为零。因此必须对0是否为i零进行显著性检验。由(3.44)式s6)=&6)=ii,-;CS2耳iie(3-45)其中fS2eeen-k-1对回归系数0进行显著性t检验,步骤如下:i提出原假设H:0-0;备择假设H:0丰0o0i1i构造统计量t=丄),当0.-0成立时,统计量t-一0t(n-k-1)。这里S(1L0的标准差,k为解释变量个数,计算由式(3-45)给出。ii(3)给定显著性水平a,查自由度为nk1的t

24、分布表,得临界值t(nk-1)o2若|行ta(n-k-1),则拒绝H:0二0,接受H:0丰0,即认为0显著不为a0i1ii2零。若141X,TOC o 1-5 h zo卩oo将式中b2用它的估计值S2代替,则得e的标准差(e)eoo(e)=Soeoo其中i1eenk1统计量对于给定置信水平1-Q,预测值Y置信区间为oYt,&(e)YY+1,&(e)ou2ooou2o即为YtSV1+X(X,X)-1X,E(YX)Y+1S1+X(X,X)-1X,ou2八ooooou2eoo五、多元线性回归分析实例第四节最大似然估计一、似然函(一)基本假定对于所研究的模型Y=XP+p,给定如下基本假设:卩N(0,罟

25、I)Cov(X,卩)二0,(i=1,2,A,n;j=1,2,A,k)ijiP(x)=k随机抽样总是生产单一的最可能结果:任意样本都是其所属总体的代表。这个强假定是针对小样本而言的。二)似然函数确定随机变量Y的任一观测样本的联合概率的函数,就称为Y的似然函数。一般表达式为:LQ邓;弋丄P(Y)=(22旳卜舟(Y-紳(丫-砂(3-47)二、极大似然估计法的基本思想极大似然估计法(maximumlikelihoodestimation,MLE)需要对随机扰动项的分布做出假定,通常选择正态分布假定。在极大似然估计中,假定样本是固定的,n个观测值都是独立观测的,这个样本可由各种不同的总体生成,而每个样本

26、总体都有自己的参数。那么在可供选择的总体中,哪个总体最可能生成所观测到的n个样本值?为此需要估计每个可能总体取得这n个观测值的联合概率,选择其参数能使观测样本的联合概率最大的那个总体。三、线性回归模型的最大似然估计一元随机扰动变量的正态分布密度函数为P)=iexp1(-0)2i2G2(3-48)相互独立的多元随机扰动变量的正态分布密度函数为PQ)二P(,A,)=P(p)PQ)APQ)12n12n厂、G兀)n2Q2XP(3-49)定义被解释变量的概率密度函数P07J要根据Y与卩的关系进行变换P(Y)=P律3y式中的吝是卩的偏微分矩阵的行列式的绝对值,该值就是Jacobean变换行列式的绝对值Qy

27、AQYQy2oAQyQyMMQyQynndYQy12对于上面所研究的线性回归方程来说,Jacobean矩阵为单位矩阵,相应行列式值是1。因而P(Y)=PC)Y的似然函数LQ;XB,.2I)=P(Y)=p(3-50)设e/d,求似然函数的极大值|L=o由于InL是L的单调函数,所以使InL极大的参数值也将使L极大,即GnL)Q0=GL)xGlQ0)=0。简化似然函数为对数表达式,为:(3-51)求上式对P和.2的偏导数,并令其等于零,可以求出有关估计参数P和S2。p柑(-2XY+2xXp)=命(XY-xXp)=0Q(lnL)(3-52)更2佥+肘Y-XBY-X山0(3-53)这k+1个方程的解为p=(XX)-1XYeeS2=neeIn一k丿显然,参数估计式P是p的无偏估计式,而S2则是b2的小样本有偏估计式,由于pE(S2)二Evn丿仅当n时E(S2).2,所以S2是.2的渐近无偏估计式。pp本章小结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论