方差分析及回归分析_第1页
方差分析及回归分析_第2页
方差分析及回归分析_第3页
方差分析及回归分析_第4页
方差分析及回归分析_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 回归分析教学要求i.一元线性回归及线性相关显着性的检验法,利用线性回归方程进行预测。 2可线性化的非线性回归问题及简单的多元线性回归。本章重点 :理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘 法估计法。教学手段 :讲练结合课时分配: 6 课时§9.1 一元线性回归回归分析是研究变量之间相关关系的一种统计推断法。例如,人的血压y与年龄x有关,这里x是一个普通变量,y是随机变量。丫与x之 间的相依关系f(x)受随机误差 的干扰使之不能完全确定,故可设有:y f (x)( 9.1)式中f(x)称作回归函数,为随机误差或随机干扰,它是一个分布与x无关的随机变量, 我

2、们常假定它是均值为0的正态变量。为估计未知的回归函数 f(x),我们通过n次独立观 测,得x与y的n对实测数据(Xi,yi)i=1, ,n,对f(x)作估计。实际中常遇到的是多个自变量的情形。例如在考察某化学反应时,发现反应速度 y与催化剂用量X1,反应温度&所加压力X3 等等多种因素有关。这里Xi,X2,都是可控制的普通变量,y是随机变量,y与诸Xi间的依 存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:y f (x1,x2, ,xk )(9.2)这里 是不可观察的随机误差,它是分布与 Xi,Xk无关的随机变量,一般设其均值 为0,这里的多元函数f(xi,Xk)称为回

3、归函数,为了估计未知的回归函数,同样可作n次独立观察,基于观测值去估计f(Xi,Xk)o以下的讨论中我们总称自变量 Xi,X2,Xk为控制变量,y为响应变量,不难想象,如对回归函数f(Xi,Xk)的形式不作任何假设,问题过于一般,将难以处理,所以本章将主 要讨论y和控制变量Xi,X2,Xk呈现线性相关关系的情形,即假定f(xi,Xk)=bo+biXi+bkXko并称由它确定的模型(9.i) (k=i)及(9.2)为线性回归模型,对于线性回归模型,估计回归 函数f(xi,Xk)就转化为估计系数bo、bi(i=i,k) o当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称

4、为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍 多元的。§9.i.i 一元线性回归一、一元线性回归的数学模型前面我们曾提到,在一元线性回归中,有两个变量,其中X是可观测、可控制的普通变量,常称它为自变量或控制变量, y 为随机变量,常称其为因变量或响应变量。通过散 点图或计算相关系数判定y与X之间存在着显着的线性相关关系,即y与X之间存在如下关系:y=a+bx+(9.3)通常认为N©®且假设a2与X无关。将观测数据(Xi,yi)(i=1 ,n)代入(9.3)再注意样本为简单随机样本得:(9.4)yi a bxi 2345678910

5、1112 (i 1, n)1, n独立同分布N(0, 2)称(9.3)或(9.4)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。对其进行 统计分析称为一元线性回归分析。不难理解模型(9.4冲EY=a+bx,若记y=E(Y),则y=a+bx,就是所谓的一元线性回归方 程,其图象就是回归直线,b为回归系数,a称为回归常数,有时也通称 a b为回归系数。我们对一元线性回归模型主要讨论如下的三项问题:(1)对参数a, b和a进行点估计,估计量 召称为样本回归系数或经验回归系数,而 ? ? bX称为经验回归直线方程,其图形相应地称为经验回归直线。 在模型(9.3下检验y与X之间是否线性相关

6、。(3)利用求得的经验回归直线,通过 X对y进行预测或控制。二、a b的最小二乘估计、经验公式现讨论如何根据观测值(Xi,yi),i=1,2,n估计模型(9.2)中回归函数f(x)=a+bx中的回归系数。采用最小二乘法,记平方和n(9.5)2Q(a,b)(yt a bxt)t 1找使Q(a.b达到最小的a b作为其估计,即n2 yt at 1Q(a,ff) mi nQ(a,b)bxt0a.bQ2a为此,令n2 (yt at 12Q2b化简得如教材所示的方程组LxyLxxbXt)Xt 0(称为模型的正规方程)b?解得(9.6)了 bXa、b的最小二乘估计,式中(9.6所示的a,t?分别称为称?

7、? bX为经验回归(直线方程),或经验公式。例1某种合成纤维的强度与其拉伸倍数有关。 下表是24个纤维样品的强度与相应的 拉伸倍数的实测记录。试求这两个变量间的经验公式。拉伸倍数X1.92.02.12.52.72.73.53.54.04.04.54.6强度y(Mp a)1.41.31.82.52.82.53.02.74.03.54.23.5编号131415161718192021222324拉伸倍数X5.05.26.06.36.57.18.08.08.99.09.510.0强度y(Mp a)5.55.05.56.46.05.36.57.08.58.08.18.1将观察值(Xi, yi), i=

8、1,24在平面直角坐标系下用点标出,所得的图称为 散点图。从本例的散点图看出,强度y与拉伸倍数X之间大致呈现线性相关关系,一元线性回归模型是适用y与X的。现用公式(9.6)求?,这里n=24 b? 土 0.859L XX由此得强度y与拉伸倍数X之间的经验公式为? 0.15 0.859X三、最小二乘估计a,?的基本性质定理9.1 一元线性回归模型(9.4)中, a b的最小二乘估计a>,b?满足:(1)c? y Ibx 0.15E? a,1D(a)(-ncov(a?, lb)E b? b一 2十)2, D(l?)卩 2LxxLxxX 2Lxx证:(1)注意到对任意i=1,2,n有X) 0,

9、将a、b?表示为:n(2)利 用(Xii 1A nb -一(XiLxx i 1a? 1yi Xt?n i 1_1n-y) (XiX)yiLxx i 1n 1 (Xi X)Xyii 1 n LxxX)(yi(9.8)(9.7)由于y1,y2,%相互独立,有定理9.1表明,a b的最小二乘估计a、b?是无偏的,从(9.7), (9.8还知道它们又是线性 的,因此(9.5所示的最小二乘估计a、b?分别是a b的线性无偏估计。§ 9.1.2建立回归方程后进一步的统计分析C的无偏估计1由于C是误差Ei=1,n)的方差,如果E能观测,自然想到用-n是观测不到的,能观测的是yi.。由Eyi a?

10、bXi ?(即Eyi的估计),就应用残差y ?来估彳 n彳-(yi ? bXi)2-Q(a,b?)n i 1n们希望得到无偏估计,为此需求残差平方和Q(a,b)的数学期望,由定理9.2可推出EQ(ab) (n 2) 2(学员自验)于是得?2Q(a?b)n 2台匕1 n计i,因此,想到用丄(yin i 1?)2来估计c2,我1 n(yi?i)2为C的无偏估计,例如§ 9.1例1中? 0.2545即n 2 i 1?定理 9.2 令?2 Q(?'b),则 E ?22。n 2我们称?旦为标准误差,它反映回归直线拟合的程度。具体计算时可用Q(a,lb)Lyy FLxx Lyy(1Lt

11、)L XX L yy2Lyy(1 r )。二、预测与控制1、预测问题对于一元线性回归模型y a bx(9.9)N(0, 2)我们根据观测数据(Xi,y),i=1,n,得到经验回归方程? a?Xi,i=1,n)如何估计或预测相应的 y呢?这就是所谓的预测问题,自然我们想到用经验公 式,取y0 a? 1?0来估计实际的y0 a bx。0,并称?0为y点估计或点预测。在实际应用中,若响应变量y比较难观测,而控制变量X却比较容易观察或测量,那么根据观测 资料得到经验公式后,只要观测 X就能求得y的估计和预测值,这是回归分析最重要的应 用之一,例如在§ 9.1例1中,拉伸倍数X0=7.5,则可

12、预测强度?0 0.15 0.859 7.5 6.59 但是,上面这样的估计用来预测y究竟好不好呢?它的精度如何?我们希望知道误差, 于是就有考虑给出一个类似于置信区间的预测区间的想法。定理9.3对于一元bX,当控制变量X取值Xo(XoMyi a bXii (i,2独立同分布N(aB)服从二元正态分布。(正态)线性模型1,n)(0,2)(9.10)有(1)?2(n 2)y b?证明:略又,我们知道 X2(n 2)22?是相互独立的随机变量。yo是r.v,且与yi,y2,yn相互独立,由定理9.3及定理9.2知,yo 2? i?Xo N(.,.)且 Eyo E? XoEb? a bxo,由于yo与

13、y相互独立(?o只与y1,yn有关),且yoN(a+bxo, d) 1 (Xo X)2r 2n- yo ?oN(o,1LXX由定理9.3知,yo ?o与(n 2)独立,故T= (Vo ?o)/j?21 1 (XO X) t(n 2) / VnLxx对于给定的置信水平1-,查自由度为n-2的T分布表可得满足P(|t| t ) 1 的临界值t ta根据不等式的恒等变形可得Vo的置信度为1-的置信区间为:这就是yo的置信度为1-的预测区间,它是以?o为中心,长度为2t (X)的区间,(记(9.11)(X) J ?21 1 (XO X),区间的中点 VoV n Lxx处最短,Xo越远离X,预测区间的长

14、度就越长。 直线对称的两条曲线上,并是喇叭形。? bXo随Xo而线性变化,它的长度在Xo X预则区间的上限与下限落在关于经验回归当n较大,Lxx充分大时,-21 1(XoX) 1nL XX(:?ot ?,? t即预测的精度主要由可得yo的近似预测区间: 上式说明预测区间的长度, 重要的量。2、控制问题在实际应用中往往还需要考虑预测的反问题,即要以不小于 1-的概率将 (力也)内,也就是使 相应的Xo应控制在什么范围内。这类问题称为 控制问题。根据前一段的讨论,若 (?o t (X), 乂 t (X) (y1, y2)(9.13)则可有 P(y1 yo y2)1因此控制问题一般是找满足(9.13

15、的 Xo的范围。但求解很麻烦。一种近似的处理法是: 由 yo N(a bXo, 2)将a, b,d分别用其无偏估计a?, k?, ?2代,近似有 yo N(s? bco, ?2)?)?确定,因此在预测中,V ?近似N(?o,?2),从而- N(O.1)根据P(yo ?o(9.12)0曰一个基本而yo控制在Xo满足查N(0.1)分布表确定u,于是yo的置信度1-的预测区间可近似认为是(?o ua ?,'(?o U ?,?o U ?)问题无解,否则方程组Ua ?)要解决前述问题可以从满足:(%2)的Xo去寻找Xo的控制范围。显然,当2u ? y y1时,y1召汝u y2 a? ijX

16、9;' u 由此得X0的控制范围是(min(x,x ),max(x,x )三、线性相关的检验前面的讨论都是在假定y与x呈现线性相关关系的前提下进行的,若这个假定不成立, 则我们建立的经验回归直线方程也失去意义,为此必须对 验,为解决这个问题,先作手:1、偏差平方和分解记L ' (y V)2,称它为总偏差平方和,它反映数据i 1nnn(yi yi ?i y)2(yi ?)2(?i 1i 1i 1Q (玄肉就是前面提到的残差平方和有解x,xy与x之间的线性相关关系作检yi的总波动,易得L有如下分解式:Ly)2 Qe其中Qe,UN(y?i y)2称为回归平方和,I 1上式右边的交叉项

17、:n2 (yi ?i)(? y)i 1与y之间的线U/Q的大小,由上可知,U越大,Qe就越小,x与y间线性关系就越显着;反之,x 性关系越不显着。于是,自然地考虑到检验回归方程是否有显着意义是考察 其比值大,则L中U占的比重大,回归方程有显着意义,反之,无显着意义。2、线性相关的F检验根据上段的思想来构造检验统计量,先看下面的定理。定理9.4当H0:b=0成立时 U/ ;2(1)且Q与U相互独立。2证:当H0成立时,由Th2.1-1及Th2.2-2知,N(0,)Lxx亚二 N(0.1)于是企1Lx由定理9.4,我们还知(n2(n 2),且Q与k?相互独立,从而Q与U=l?Lxx独立,由上面的定

18、理及uIL H0 真F百 F(1,nQ/n 2?2因此可选它作检验H0:b=0的检验统计量,当H0为真时F的值不应太大,故对选定的水平 a>0,由P(F F1 )= a查F(1,n-2分布表确定临界值F-分位数,当观测数据代入(9.14)式算 出的F值合FF1-时,不能接受H0,认为建立的回归方程有显着意义。检验F分布的构造性定理知:2)(9.14)选用Ho:经验公式无显着意义(0=0.05)F心凹罗F(1,22)QF F 查表得巳=4.30由p现计算F值由 L=Lyy=117.95Q=L-U =5.6得 F 22 IZ 441.3755.6因F> Fa,所以拒绝Ho,认为所得的经

19、验回归方程有显着意义。四、相关与回归的区别与联系1、联系由前面的讨论,有: 得回归平方和U=r2L残差平方和Q Q(a,?) L(1 r2)数,另方面由F(n 2)UQ通常称r2为拟合优度系数。r就是变量X与y的积差相关系(n 2)r2L (rj(n Z),(1 r2)L (y与X是否显着线性相关时,F检验法与相关系数T检验法等效。可见r2反映了回归平方和在总偏差平方和中占的比重,该比重越大,误差平方和在总 偏差平方和中占的份量就越小。看出,在检验2、区别相关关系不表明因果关系,是双向对称的,在相关分析中,对所讨论的两个变量或多 个变量是平等对待的,相关系数r反映数据(Xi,yi)所描述的散点

20、对直线的靠拢程度。回归分析中,变量在研究中地位不同,要求因变量 (响应变量)y是随机变量,自变量一 般是可控制的普通变量(当然也可以是随机的)。在回归方程中,回归系数只反映回归直线 的陡度,且它不是双向对称的。§ 9.1.3 元非线性回归前面讨论的线性回归问题,是在回归模型为线性这一基本假定下给出的,然而在实用 中还经常碰到非线性回归的情形,这里我们只讨论可以化为线性回归的非线性回归问题, 仅通过对某些常见的可化为线性回归问题的讨论来阐明解决这类问题的基本思想和方法。一、曲线改直例1炼纲过程中用来盛钢水的钢包,由于受钢水的浸蚀作用,容积会不断扩大。下 表给出了使用次数和容积增大量的

21、15对试验数据:使用次数(Xi)增大容积(yi)使用次数(Xi)增大容积(yi)26.4299.9938.201010.4949.581110.5959.501210.6069.701310.80710.001410.6089.931510.901610.76试求丫关于X的经验公式。解:首先要知道丫关于X的回归函数是什么类型,我们先作散点图。(见教材) 从图上看,开始浸蚀速度较快,然后逐渐减缓,变化趋势呈双曲线状。因此可选取双曲线:(设y与X之间具有如下双曲线关系)1Ja b -y x作为回归函数的类型,即假设y与x满足:11 a b -xJx(9.16)11,则(9.15变成a b ,E 0

22、,Dy,先由x、y的数据取倒数,可得n,E的数据这是一种非线性回归(0.0625,0.0929)对得到的15对新数据,用最小二乘法可得:线性回归方程? 0.13120.0823后,代回原变量得(0.5000,0.1558); 二? 为y关于x的经验公式(回归方程)0.0823x 0.1312在例1中,假设了 y与x之间满足双曲线回归模型,显然这是一种主观判断,因此所 求得的回归曲线不一定是最佳的拟合曲线。在实用中,往往是选用不同的几种曲线进行拟 合,然后分别计算相应的残差平方和 Qe (yi yo2或?(标准误差)进行比较Qe(或 ?)最i小者为最优拟合。二、常见可改直的曲线 下面简介一些可通

23、过变量替换化为线性回归的曲线回归模型。1、双曲线a by x2、幕函数 y=axb(或 y=ax-b) y' ny, x' nx, a' na 则有 y3、指数函数y=aebx或y=ae-bx 两边取对数ny na bx 令bx或y4、倒指数函数y ae11作变换y'丄,X'-则回归函数化为:yx(b > 0)对幕函数两边取对数a b x(b> 0)y ny,baexy' =a+bx'ny na b nx ,作变换bx两边取对数后作变换y ny,(b> 0,1 ,axa> 0)na ,则有y a b x5、对数函数

24、,y=a+b nx 作变换xnx,贝U有 y=a+bx .作实习操作时一并介绍。另外还有一些可化为线性回归的曲线回归,将在用“ sp ss例1(续)由例1的散点图看出,除双曲线拟合外,本例还可选择倒指数拟合: y=aeb/x两边取对数得:令 ny,1n y b na x11,变为如下的回归问题:x利用最小二乘法求得:E?=-1.1107,yA =2.4578因此回归直线为:1.1107 ' 2.4578代回原变量得:? 11.6489e1.1107/x经计算双曲线拟合时 Q=1.4396 ?=0.3328,倒指数拟合时?=0.2168,故倒指数拟合效果更好些。§ 9.2多元线

25、性回归实际应用中,很多情况要用到多元回归的方法才能更好地描述变量间的关系,因此有 必要在本节对多元线性回归做一简单介绍,就方法的实质来说,处理多元的方法与处理一 元的方法基本相同,只是多元线性回归的方法复杂些,计算量也大得多,一般都用计算机 进行处理。一、数学模型和回归方程的求法。1、多元线性回归的模型。设因变量y与自变量X1,X2,Xk之间有关系式:(9.17)y bo b/. bkXk1 N(0, 2) 抽样得n组观测数据:(y1; X11,X21,Xk1)(y2; X12,X22,Xk2)(yn; X1n,X2n,Xkn)其中Xij是自变量Xi的第j个观测值,yj是因变量y的第j个值,代

26、入(9.17)得模型的数据 结构式:boboyiy2b1x11b1X12b2x21. bkxk1bl X22. bkXk2(9.18)b1X1n b2X2n bk Xkn 独立同分布N ( 0, 2)我们称(9.17)或(9.18为k元正态线性回归模型,其中b0,b1,bk及o2都是未知待估的 参数,对k元线性模型,需讨论的问题与一元时相同。需要说明的几点见教材2、未知参数的估计与一元时一样,采用最小二乘法估计回归系数b0,b1,bk.称使b2X2t . bkXkt)2 达到最 小 的 I?0,b1,.,bk 为参数ynbo1,利用微积分知识,最小二乘估计就是如下方程组的解:l12b2. I1

27、kbkL1y1 21b1l22b2.I2kbkL2y1 k1b11 k2b2. IkkbkLkyb0y b1Xb2 X2.bkXk其中,n-1 y -yt,n-1Xin t 1n t 1nQ(b0,b1,.,bk) ?yt (b。 biX1tt 1(b0,b1,bk)的最小二乘估计,Xit(i 1,2,.,k)(9.19)通常称方程组(9.19为正规方程组,其中前k个方程的系数矩阵记为L* (Ij)kk,当L*可逆时, 正规方程组(9.19)有解,便可得bob,bk的最小二乘估计 bOE, Bkb1L1y(L*) 1 b? ybxi. bkxk即bk代入模型(9.18)略去随机项得经验回归方程

28、为:? bO l?X1 . b?Xk(9.20)类似一元可以证明bi都是相应的bi(i=0, 1, ,k)的无偏估计,且(K的无偏估计为:¥Q(bO,b?,.,bk)Lkyn k 1二、回归方程的显着性检验与一元的情形一样,上面的讨论是在 y与X1,Xk之间呈现线性相关的前提下进 行的,所求的经验方程是否有显着意义,还需对 y与诸Xi间是否存在线性相关关系作显着 性假设检验,与一元类似,对? bo b?X1.H o:b1=b2=b k=o为了找检验nL(ytt 1(ytt即 L=U+QeHo的检验统计量,也需将总偏差平方和bkkxk是否有显着意义,可通过检验Lyy作分解:y)2(yt乂 yt)2(yty)2Qe(9.21)这里?tb?t其中 L=Lyy, U? ?b1X1t.bkXkt .利用柯赫伦定理可以证明:在立,所以有U /k(?t2y) ,Qet分别称Qe,Ho成立下,(yttU为残差平方和、yt)2回归平方和,可以证明:2(n k 1)且U与Qe相互独Ho真F F(k,n kQ/( n k 1)(这里记Qe为Q,下同) 取F作Ho的检验计量,对给定的水平 , 介值F,由样本观测值代入(9.22算出统计 所建的回归方程有显着意义。通过F检验得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论