多元回归与相关课件_第1页
多元回归与相关课件_第2页
多元回归与相关课件_第3页
多元回归与相关课件_第4页
多元回归与相关课件_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十一章 多元回归与相关多元线性回归多元相关与偏相关 一元回归是依变量y在一个自变量x上的回归,它仅仅涉及到两个变量的关系问题。但在许多实际问题中,影响依变量的因素常常不止一个。因此,为了研究依变量y与多个自变量x之间的关系,必须在一元回归的基础上做相应的补充,进一步研究多元回归的问题。多元回归与相关分析主要解决的问题:1、建立由多个自变量描述和预测依变量的 多元回 归方程。2、在多个自变量中,选择对依变量有显著 效应的自变量,剔除不显著的自变量, 建立最优回归方程。3、计算某个自变量在其它自变量固定不变 时对依变量的效应,这个效应称为偏回 归系数。5、计算各个自变量的标准偏回归系数(通径 系

2、数),评定各自变量对依变量影响的相 对重要程度。4、计算多个自变量综合起来对依变量的多元 相关系数,也可计算两变量间在其它变量 保持不变时的偏相关系数。11 .1 多元回归方程 多元回归是研究一个依变量在两个或两个以上自变量上的回归,也称为复回归。 在多元线性回归分析中,当其他自变量都保持一定数量水平时,各自变量对依变量的效应(影响),称为偏回归系数。 一、多元线性回归方程 假定在M个随机变数中,有一个为依变数Y,另外m个(m=M-1)为自变数x1, x2, , xm, 且m个自变数皆与依变数成线性关系,则其回归方程可表示为:因此,y对x1 , x2 , , xm 的多元回归方程可简写为:二、

3、正规方程组的解及其实例 要使多元回归方程能够最好地代表y与x1、x2、xm 在数量上的互变关系,根据最小平方法原理,应使 根据求极值的原理,分别对b1,b2,bm求偏导,并令之为0,即可整理得m元线性回归方程的正规方程组:这个正规方程组可用矩阵(matrix)表示为 A b K Ab=K b=A-1K若要求解b,则需先求出系数矩阵A的逆矩阵A-1 , AA-1=I【例11.1】测得小麦每株穗数(x1)、每穗粒数(x2)、千粒重(x3,)和单株产量(y,克)如下表,试建立其多元回归方程。样 本 x1 x2 x3 y 1 10.5 33.2 36.3 14.7 2 9.2 30.1 36.2 13

4、.5 3 10.7 32.6 37.7 16.5 4 13.9 31.8 37.2 21.5 5 10.2 32.4 36.4 14.5 6 10.8 33.1 35.0 15.9 7 8.1 33.5 33.4 7.6 8 10.6 34.6 34.5 16.0 9 10.1 30.7 34.1 12.7 10 10.4 31.6 34.9 12.4 11 10.7 33.8 39.2 19.3 12 8.4 31.4 35.1 9.2 13 6.3 33.5 32.0 6.4 14 8.2 31.9 37.2 10.6 15 9.8 32.4 36.5 11.3 解:根据表中的资料算得14

5、个一级数据:由一级数据算得14个二级数据:于是得正规方程组上述方程组的系数矩阵A、常数项矩阵K、未知数矩阵b分别为: 此方程的意义为: 当穗粒数x2和千粒重x3保持不变时,每株穗数x1每增加1个,则单株产量增加1.8485g; 当每株穗数x1和千粒重x3保持不变时,穗粒数x2每增加1粒,单株产量增加0.4678g; 当每株穗数x1和穗粒数x2保持不变时,千粒重x3每增加1g,单株产量增加0.6421g。 根据以上回归方程,就可以估计 的值。 如当第一个样本的观测值x1=10.5 , x2=33.2, x3=36.3时, y的估计值为: 而y的实际观察值为14.7克,二者的差值即为离回归部分。

6、离回归的存在,有以下可能原因:1、除x1、x2、x3三个变量外,还有其它变量 对y 产 生作用;2、有随机误差的影响; 注意:在利用回归方程进行预测时,应限定自变量的范围:x1的区间6.3,13.9,x2的区间30.1,34.6,x3的区间32.0,39.0,不可随意外延。如果扩展预测范围,需补充观测资料,重新建立回归方程。 既然应用多元回归方程进行回归估计时,实际值与估计值有偏差,因此,当建立起一个多元线性回归方程之后,应了解它的的估计标准误。三、多元线性回归方程的估计标准误 多元线性回归方程的建立只是保证了离回归平方和最小,但在给定的x1、x2、xm下,多元回归方程的点估计值和实测值仍然是

7、有差异的。度量这种差异大小的统计量就是回归方程的估计标准误。其计算公式如下:【例11.2】试计算表11.1资料三元线性回归方程 =-42.8610+1.8485x1+0.4678x2+0.6421x3的估计标准误。在例11.1中已算出SSy=239.89, SP1y=91.02, SP2y=5.77, SP3y=73.52由式(11.10)得 Uy123=b1SP1y+b2SP2y+bmSPmy =1.848591.02+0.46785.77+0.642173.52=218.16由式(11.9)得:Qy.123=SSy-Uy.12m =239.89-218.16=21.73 这个1.4055g

8、就是由表11.1所建立的三元回归方程的估计标准误。再由式(11.8)得:四、多元线性回归的假设测验(一)多元回归关系的假设测验 在多元回归分析中,可将依变量的总变异分解为多元回归和离回归两个部分,各项变异来源的平方和、自由度见下表。 多元线性回归的方差分析表变异原因DFSSMSF多元回归mUy/12mMS回MS回/ MS离离回归n-m-1Qy/12mMS离总和n-1SSy令b1, b2, , bm所代表的总体回归系数为 1、 2、 m,则有H0: 1 = 2 = = m = 0HA: 1、 2、 m不全等于零。如果F F0.05,(m,n-m-1),称该回归在0.05 水平上显著;如果F F0

9、.01,(m,n-m-1),则称该回归在0.01水平上显著;如果F F0.05,(m,n-m-1), 称该回归不显著。 【例11.3】试对例11.1资料做多元回归关系的假设测验。解:由例11.1已算得Uy/123=218.16, Qy/123=21.73, SSy=239.89 和 n=15。变异原因 DF SS MS F F0.01三元回归 3 218.16 72.72 36.72 6.22离回归 11 21.73 1.98 总和 14 239.89 表11.3 表11.1资料三元回归的假设测验F=36.72F0.01=6.22,为极显著,故否定H0:1=2=3=0, 推断小麦单株产量依每株

10、穗数、穗粒数和千粒重的三元线性回归为极显著。 注意: 1、多元线性回归显著并不排除有多元非线性回归关系的存在; 2、多元线性回归显著,并不排除其中存在着与y无线性回归关系的自变量的可能性。 正如方差分析中F测验显著,并不代表所有处理平均数的差异都显著。 多元线性回归关系的假设测验实质上是测定各个自变量对y的综合作用是否有真实的回归关系。 如果某些自变量和y有极显著的回归关系,而另一些自变量和 y没有回归关系,在测验综合作用时往往不能予以区分。 因此,要评定各个自变量对y是否有真实的回归关系必须对各个偏回归系数做假设测验。(二)偏回归系数的假设测验 偏回归系数假设测验就是测验各个偏回归系数bi是

11、否来自i=0的总体。 H0: i=0 ; HA: i0。 可用t测验或F测验进行。1、 t测验 偏回归系数bi的标准误为 由于 服从df=n-m-1的t分布,故在H0: i=0 的假设下,可由 测定bi是否抽自i=0 的总体。 【例11.4】试对例11.1资料的b1=1.8485, b2=0.4678, b3=0.6421做t测验。 在例11.2已算得 sy/123=1.4055, c11=0.034847, c22=0.048472, c33=0.0307266查附表3,得t0.05,11=2.201, t0.01,11=3.106, b1的t=7.04t0.01,11为极显著;b2的t=1

12、.51t0.05,11为显著。 即每株穗数(x1)和千粒重(x3)对产量皆有显著的回归关系。 对于b2应接受H0,否定HA,即每穗粒数对产量没有真实的回归关系。2、F测验 在 多元回归中,Uy12m总是随着m的增多而增大,如果取消一个自变量xi,则Uy12m-1要比Uy12m减少Upi. Upi就是y在xi上的偏回归平方和,也就是由xi的变异所产生的回归部分平方和,具有1个自由度。因此,由可测定bi是否来自i=0的总体。【例11.5】试对例11.1资料的b1=1.8485, b2=0.4678, b3=0.6421做F测验。由以上计算结果可算得 y对x1的偏回归平方和为 Up1=b12/c11

13、=1.84852/0.034847=98.06 y对x2的偏回归平方和为 Up2=b22/c22=0.46782/0.048472=4.51 y对x3的偏回归方和为 Up3=b32/c33=0.64212/0.0307266=13.42 表11.4 例11.1资料偏回归系数的假设测验 变异来源DFSSMSFF0.05F0.01因x1的偏回归198.0698.0649.53*4.849.65因x2的偏回归14.514.512.28因x3的偏回归113.4213.426.78*离 回 归1121.731.98这里有一个问题值得引起注意: 表11.3中y因x1、x2、x3的三元回归平方和 Uy/12

14、3=218.16 而表11.4中y因x1、x2、x3的偏回归平方和分别为Up1=98.06, Up2=4.51, Up3=13.42, 则Up1+Up2+Up3=115.99 Upi (rij0) Uy/12m Upi (rij0)(三)自变数的重要性和取舍 在多元回归中,各个自变量对于y的影响是不同的。凡是偏回归平方和最小的必然是在这些因素中对y作用最小的一个。通常经过偏回归系数的假设测验后,对于那些不显著的自变量可以舍去 。1. 由于自变量间可能存在着相关,不能一次将所有不显著的自变量全部舍去。2. 通常先弃去那个Upi最小而又不显著的自变量,然后再作分析。 4. 如此重复进行,直至回归方

15、程中所包含 的自变量都达显著时为止。这时的多元 回归方程称为最优多元回归方程。3. 这时,各自变量对y的偏回归平方和 都 将有所改变,应对它们重新测验,再弃 去那个Upi最小而又不显著的自变量。 【例11.6】试对表11.1资料的自变量进行取舍,建立最优多元线性回归方程。 由例11.4偏回归系数的假设测验知,x2的偏回归系数b2不显著,将其从多元回归方程中剔除,作二元回归分析,计算如下:b*1=1.8485-(-0.0004579/0.048472)0.4678 =1.8529c*11=0.034847-(-0.0004579)2/0.048472 =0.034843b*3=0.6421-(0

16、.0031258/0.048472)0.4678 =0.6119c*33=0.0307266-(0.0031258)2/0.048472 =0.030525将b*1,b*3代入式(11.3)得 a=13.47-1.85299.86-0.611935.71=-26.65二元回归方程为 =-26.65+1.8529x1+0.6119x3 对b*1,b*3进行显著性检验: Uy/13=b*1X1Y+b*3X3Y =1.852991.02+0.611973.52 =213.64 Qy/13=239.89-213.64=26.25这时因已剔除了一个自变量,故离回归平方和的自由度为n-(m-1)-1=n-

17、m。因此所建立的二元回归方程 = - 26.65+1.8529x1+0.6119x3为最优回归方程。 11.2 多元相关和偏相关 在M=m+1个变量中,m个变量的综合与1个变量的相关,叫做多元相关或复相关。而在其余M-2个变量都固定时 ,指定的两个变量间的相关,叫做偏相关或净相关。1、多元相关系数 y依x1,x2,xm的多元决定系数或复决定系数R2y12m定义为:R2y/12m=Uy/12m/SSy 而多元相关系数或复相关系数Ry12m则定义为 即多元相关系数为多元回归平方和与总变异平方和之比的平方根。 由于0Uy.12m SSy,故Ry/12m的取值区间为0,1。在自由度一定时,Ry/12m

18、愈近于1,复相关愈密切; Ry/12m愈近于0,愈不密切。Uy/12m一般总是随m的增多而加大。因为多元回归平方和一定大于任一个自变量对y的回归平方和,故多元相关系数一定要比任一xi和y的简单相关系数的绝对值大。2、偏相关系数 在M个变量中固定M-2个变量,余下的两个变量的线性相关系数叫做偏相关系数或净相关系数。 它表示在其他各个变量都保持一定时,指定的两个变量间相关的密切程度。 变量在实际上都是不固定的,所谓固定是指应用统计方法,消去不固定的影响。因此偏相关系数rij.就是变量xi和xj,当它们和其他变量的相关都消去后的线性相关系数。 两个变量间的简单相关系数不能正确说明这两个变量间的真正关系。在多个变量错综复杂的关系中,偏相关系数可帮助排除假像相关,找到真实关系最为密切的变量。 表示x3,x4,xm变量都固定时,x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论