统计学教程回归分析9_第1页
统计学教程回归分析9_第2页
统计学教程回归分析9_第3页
统计学教程回归分析9_第4页
统计学教程回归分析9_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十四节回归分析在散布图中我们研究了两个变量是否存在相关关系及其密切程度的问题;在方差分析中,我们研究了一个或几个因素对产品质量特性的影响是否显著的问题。 当因素与质量特性的相关关系密切或因素对质量特性影响显著时,如果我们需要进一步研究这种密切关系或影响呈现何种统计规律时,这就需要用回归分析的方法来解决。一、概念1. 回归分析的含义若具有相关关系的变量间(自变量X,因变量y)存在相关的定量关系,并 能用函数表达出来,这种关系称为变量 y对变量x的回归关系。研究变量间的 相关关系并为其建立函数形式,叫回归分析。2. 用途确定几组相关数据之间是否存在相关关系,若存在相关关系,为其建立函数表达式;分

2、析影响因素的重要性;根据一个或几个变量的值,预测和控制某一随机变量的变化范围。二、一元线性回归分析1. 一元线性回归的模式设产品的质量特性为y影响其的质量因数为x,若不存在试验误差时,y为x 的线性函数,即y=a+bx今对X在水平X1, X2, , , Xn上进行试验,由于存在试验误差,使相应的 质量特性出现为随机变量yi, y2, , , yno设;y =a+bx+ £ i; i=1, 2, , , n式中a, b是未知参数,e i是试验的随机误差,是不可观测的随机变量。yi 是试验结果,是可观测的随机变量。假定:£ 1 , £ 2, , ,£ n,相

3、互独立且均服从正态分布N (0,(T2),我们称满足该条件的结构式yi=a+bXi+ & i为一元线性回归模式(或一元线性回归方程)。所谓“一元”,指自变量(质量因素)只有一个;所谓“线性”指不存在试验误差时, y 与 X 之间的关系为线性关系,即y=a+bX。一元线性回归所要解决的问题是:判定 X 与 y 之间是否存在线性关系,这就等于检验假设:HO: b=0;倘若x与y之间存在线性关系,则求出这种关系:? =a+bx;给定x= xo,求出? (xo) =a+bxo的区间估计;若给定y的区间,预测x的控制区问。2.一元线性回归方程的建立例1.6-1设某化工产品收率y与反应温度x之间存

4、在直线关系,今测得5对数据如表1.14-1表中xi、yi的对应数据。表1.14-1回归直线计算表ixi (C)y (%)2 xi2 yixi yi17011.254900126.5625787.527011.286400127.2384902.439011.658100135.72251048.5410011.7510000136.89001170.0511012.1412100147.37989133.4E45058.0241500673.79305243.8平均9011.604解:作散布图作散布图(见图1.14-1)。从图中点的分布情况可看出,x与y大致是直线关建立回归方程计算 Xi2、Y

5、i2、XiYi、2Xi、2Yi、AXi2、AY2、2XY如表1.14-1中的对应数据。nn2122 一Lxx八 xi2 -xi )2=41500- (450) 2/5=1000i 4 n i 1n1n nLxy" xi yxyi =5243.8-450x 58.02/5=22.0i 4nLyy八, y2i 4n i 4 i 1n2yi)2 =673.7930- (58.02) /5=0.5289n i 4 1b= Lxy/Lxx=22.0/1000=0.022a=y -bx=11.604-0.022X 90=9.624Y?=a+bx=9.624+0.022xo其在散布图上的直线如图1

6、.14-1所示。3. 一元回归方程的统计分析求出的回归直线方程是否真正反映了 x与y之间的统计规律,必须进行检 验。即,我们需要检验假设H 0: b=0是否成立,只有当拒绝H 0时,即bw0时,x与y之间配置的回归直线方程才 有意义,否则x与y之间不存在直线关系,配置的回归直线无利用价值。波动平方和的分解nS总=Sr=£ (yi -y)2 = Lyy=0.5289i =1$回=3 Lxy=0.022X 22.0=0.484Se= St- S 回=0.5289-0.484=0.0449fT=n-1=4, f 回=1, fe= ff 回=4-1=3来源SfVFS'P (%回归 e

7、0.48400.0449130.48400.015032.27*0.48400.059988.6711.33TP 0.528940.5289100.00F0.05 (1,3) =10.13, F0.01 (1,3) =34.12表 1.14-2方差分析列方差分析表,见表由于F>Fo.05 (1, 3),所以判为显著,说明x与y之间存在直线关系。4.利用一元回归方程进行预测由于y是随机变量,在给定的自变量x的值确定后y的值可能不同,但在 定范围内波动,即y (xo)是可以预测其所处的范围的。所谓预测,就是给定x=xo,预测随机变量yo=a+bxo+e 0的取值范围1.14-2 0例1.6-

8、1的方差分析表11预测区间半径6'为:16=? t a/2( n-2)/1 + 一n(xo - x)Lxy?=Lxy - bLxyn-2| xo-x |越大,这说明预测点xo偏离数据xi, x2, , , xn的中心x越大,则 区间估计的精度与预测的精度越差。一般要求,min1<i <n x < xo< maxi<i<n xi即回归方程的区间估计与预测,不能轻易超过试验数据的取值范围。给定 a =0.05, %=95,查 3.2.3 t 分布表,t a/2(n-2)= t 0.025 (3) =3.1824,Y?o=9.624+O.O22xo=9.6

9、24+O.O22 x 95=11.714= 0.1222Lxy - bLxy _ 0.5289 - 0.022 22.0n-2-32/"ta/2(n-2) f+n+_=0.1223 x3.1824 J1 +1+ 纯理-=0.43151000本例概率为0.95的预测区间为:(?0- 6, ?0+6),即 (11.714-0.431, 11.714+0.431) =(11.283, 12.145)即反应温度为95c时,有95%勺把握预测收率为11.283江12.145%。5.利用一元回归方程进行控制控制不过是预测的反问题。假定要求指标在(扎,yu)区间为合格,现在要决定自变量刈在什么范围

10、内,才能以1- a的概率保证指标合格。则要求自变量刈满足如下不等式组:a+bx-U1-a/2 ? > yLa+b x+U-/2 ? < yu在例1.14-1中,如要求以0.95的概率保证收率在(11.5, 12.0)以内, 则反应温度应控制在什么范围内。由于U0.975= 1.96 ,解不等式组:J 9.624+0.022 X-1.96 X 0.1222 >11.519.624+0.022 X+1.96 X 0.1222 < 12.0f0.022X> 11.5-9.624+1.96 X 0.122210.022X> 12.0-9.624-1.96 X 0.1

11、222得X: (96,97),即若反应温度控制在96c 97c之间,有95%勺把握保证 收率在(11.5 , 12.0)以内。三、二元线性回归分析1.二元线性回归的模式若产品的质量特性y与影响其的质量因素xi, X2之间存在线性相关关系,配 置的线性回归方程为:?=b0+b1X1+ b2X2该方程表示三维空间的一个平面,因此称为回归平面。其中bo为常数项,b1、b2称为方程的偏回归系数。y对某一自变量的回归系数表示当其它变量都固定时, 该自变量变化一个单 位,y变化的平均数值,故b1表示当X2固定时,X1变化一个单位,引起变化的平 均数值。若y、昆、X2分别是试验观测数据y、X1、X2的算术平

12、均值:y =2y i/n, X1 = -Xi/n, X2=-X2i/nL12=L21=2 X1i X2 i - (2X1 i) (2X2 i) /nLky= 2 xkiy i - (、Xk i) (2yk i) /n,k=1 , 2Lkk=2x2ki- (2xk i) 2/n, k=1, 2于是正规方程可表示为:L11 b1 + L 12 b2= L 1yL21 b1+ L 22 b2= L 2y用行列式求解这组正规方程即得:Li y L22 - L2y L12 b1=2L11 L22 - L12b=L2y L11 一 LyL21L11L22 - L12b°= y-b1X1+b2X2

13、以上的计算公式可列二元线性回归计算表,见表 1.14-3表1.14-3二元线性回归计算表厅PX1X2y2X12X2X1X2xi yX2 y2y12,n22X1i2x2i2y i2X1i2、X2i22X1i X2i2X1 i y i、X2i y i、y2 i2.二元线性回归方程的建立例1.6-2 水泥一天强度、矿渣掺加量与到七天的强度增加率,根据专 业知识和生产实践,知道其相关关系为负相关关系。设:水泥一天到七天的强度增加率为 y矿渣掺加量为xi (%);水泥一天的耐压强度为x2(o.iMpa;试验测得的100组数据见表1.14-4试确定其二元线性回归方程。表1.14-4 例1.6-2的回归计算

14、表序号x ix2 iy ix i 2x; i 2x1 i x2 ix1 i yix2 i y iy i 2149.92523.592492.0064270427042595.8417902128186.68251.19513.562620.4146260126012910.69182.2364181.5650.03443.932503.000193619362210.32196.6179172.93,100,51.53385.832655.3409129612961848.60299.3705205.882 ;j067.224542456.08 257078057422109842109842

15、29769.3423586.71720726.09由上表可计算:Lyy=,yi2yi )2/100 = 2206.944 (465.09)2 /100 =43.9499L11=£ x; (£ x1i )2/100 =257078 -(5067.22)2 /100 = 311.3889L22八 x:i -(、x2i )2/100 =210984 (4542)2/100 = 4686.36L12=L21 = x1ix2i&),x2i)/n=229769.34-5067.22 X 4542/100=-383.7924L1y=" xiyi。) yi)/n=2358

16、6.717-5056.22 乂 465.08/100=20.09020=" x2iyi -C x2i)(y yi)/n=20726.9-4542 X 465.08/100=-397.8436因二元线形正规方程可表示为:L11 b1+ L 12 b2= L 1yL21 b1+ L 22 b2= L 2y将具体数值代入正规方程,可得方程组::311.3889 b1-383.7924 b2=20.0902-383.7924 b14686.36 b2=-397.8436解该得方程组得:b1 =L22 L1y L2yL12L11L2220.0902 4686.36 -(-397.8436) 2

17、0.7924311.3889 4686.36 -(-383.7954)2=-0.0446b2Lil L2y - L2y Ll2LllL 22-L212-0.0885311.3889 (397.8436) (383.7942) 20.902311.3889 4686.36 -(-383.7924)2bo=y- b1 X1- b2X2= 10.9306465-(-0.0446) 2-(-0.0885)”100100100求得的二元线性回归方程为:?=10.9305-0.0446 X1-0.0885 X2多元线性回归方程上面的数据处理方法可推广到多个变量的线性回归方程。若影响y的因素有k个:2, X

18、2, , Xk,则多元线性回归方程为:?= b0+b1X1+ b2X2+, + bkXk式中,b0为常数项,b1, b2, , bk为偏回归系数。回归系数的正规方程为:L11 b1+ L 12 b2+,+L1k bk= L 1yL21 b1+ L 22 b2+, +L2k b = L 2yLk1 b1+ L k2 b2+, +Lkk b = L ky常数项be的计算公式为:b0= y-匕又1-bzX? - bkXk多项式回归在实际工作中,并非诸因素和指标之间都具备线性相关关系。例如某个因素和指 标之间经试验,开始阶段指标随因素增加而增大,但增大到一定值之后,再增加 因素值时指标反而减小。这种情

19、况可用抛物线函数来描述它们之间的相关关系,即 y = a + bX + CX2。对这种函数,若令:X1 =X,X2 =X2,则原方程变为:y = a bX CX2上式就是多元线性回归了。所谓多项式回归,就是变量间具备下面的通式:y=b0+b1Z1+ b2Z2+ b3Z12+ b4 Z1Z2+b5 z22+,若令 X1=Z1, X2= Z2 , X3=Z12, X4= Z1 Z2, X5=Z22,则多项式通式可变为:y=b0+b1X1+ b2X2+ b3X3+ b4X4+b5 X5+,上面这种分析方法可适用于相当多的非线形问题。若从实践经验或理论分析知道,回归方程是下面的非线性方程:y=b0+b

20、lfl(zi,Z2, ,Zk)+b2 f2(zi ,Z2, ,Zk)+,+ bm fm(Z1,Z2, ,Zk)其中所有的fi(Z1, Z2, , , Zk)都是自变量的已知函数而不包括任何未知参数。 令xi= fi(Zi, 22, , , Zk)X2= f2(Z1, Z2, , , Zk)Xm= fm(Z1, Z2, , , Zk)则非线性方程的形式变为:y=bo+bixi+ b2X2+, + bmX2这类问题都可用多元线,性回归的方式进行处理,多项式回归在回归问题 中占有特殊地位,因为任何函数至少在一个比较小的范围内,可用多项式任意逼近。因此,在比较复杂的质量管理问题中,如化工、轻工、电子、

21、机械等行 业进行定量质量管理分析时,可以先不管质量指标y与诸因素x之间究竟为何 种相关关系,而先用多项式回归进行分析计算后,再确定实际的相关关系。3.二元回归方程的统计分析计算波动平方和与自由度n2$总=$丁=£ (yi -y) = Lyy=43.9499i 1S 回=2 biLiY=blLlY+ b2L2Y=(-0.0446) X20.0902+ (-0.0885) x (-397.8436 )=34.3131 Se= Sr- S 回=43.9499-34.3131=9.6368f 回=卜=2, fr=n-1=100-1=99, ,fe= fr- f 回=99-2=97方差分析列方

22、差分析表,见表1.14-5。表1.14-2 例1.6-1的方差分析表来源SfVFSP (%回归e34.31319.636829717.15660.0993172.775*34.11249.837577.6222.38T43.94999943.9499100.00F0.01 (2, 97) =4.89由于F>F0.01 (2, 97),所以判回归为高度显著。回归高度显著,说明水泥一天强度、矿渣掺加量对七天的强度增加率影响高度显著4 .利用二元回归方程进行预测在多项式回归中,预测区间的样本半径近似标准差为:=jLyy (blLly + b1L2 y + bzy +bzL2y)100 -2-14395K -0.045) 20.09 (-0.045) (-397.84) (-0.08) 20.09 (-0.08) (-397.84)97=0.550当 a =0.05, xi =50, X2=45 时,y0=10.9305-0.0446 xi-0.0885 X2= 10.9305-0.0446 X 50-0.0885 X 45=4.723y的预测区间为:,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论