试验设计(陈魁)第一章_第1页
试验设计(陈魁)第一章_第2页
试验设计(陈魁)第一章_第3页
试验设计(陈魁)第一章_第4页
试验设计(陈魁)第一章_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 16 第1章 方差分析和回归分析 第章 方差分析和回归分析方差分析是一种统计方法,有着广泛的应用它是试验设计中用到的重要分析方法在实践中,影响一个事物的因素往往是很多的,人们总是要通过试验,观察各种因素的影响例如,不同型号的机器,不同的原材料,不同的技术人员以及不同的操作方法,等等,对产品的产量、性能,这是人们所希望的,解决这个问题的有效方法之一就是方差分析上述产品的产量、性能等称为试验指标,它们受因素的影响因素的不同状态称为水平,一个因素可采取多个水平不同的因素、不同的水平可以看作是不同的总体通过观测可以得到试验指标的数据,这些数据可以看成是从不同总体中得到的样本数值,利用这些数据可以分析

2、不同因素、不同水平对试验指标影响的大小为便于说明问题,我们先从最简单的单因素情况说起11 单因素试验的方差分析设单因素A有a个水平在水平下,进行次独立试验,得到试验指标的观察值列于表111 表 1.1.112假定在各个水平下的样本为,它们来自各具有相同方差,均值分别为的正态总体其中,均为未知,并且不同水平下的样本之间相互独立取下面的线性统计模型: 其中为随机误差.设 为总平均值,其中,令 为第个水平的效应,则,于是式(1.1.1)变成 方差分析的任务就是检验线性统计模型(1.1.1) 中个总体中的各的相等性,即有原假设,对立假设,至少有一对这样的, 也就是下面的等价假设: 检验这种假设的适当的

3、程序就是方差分析.顺便指出,对线性统计模型或,进行形如式或式的假设检验,这种模型叫做固定效应模型.解决这种模型的具体步骤如下:1. 总离差平方和的分解记在水平下的样本均值为 , 样本数据的总水平均值为, 总离差平方和为. 将改成并分解,得 上面展开式中的第三项为0.因为 若记 (1.1.8) (1.1.9)则有 (1.1.10)这里表示全部试验数据与总平均值之间的差异,又称为总残差.表示水平下的样本均值与总平均值之间的差异,叫做因素A效应的平方和,有称为组间差.表示在水平下的样本均值与样本值之间的差异,它是由随机误差引起的,叫做误差平方和,又称为组内差.式(1.1.10)表示等于与之和.这就是

4、总离差平方和的分解式. 2. 统计分析 由式(1.1.1)知, (1.1.11)将改写为 (1.1.12)这里是样本方差,即 考虑到 , (1.1.13)考虑到 , (1.1.13)从而知的自由度为n-1.将改写为 = , (1.1.14)这里 是在 水平下的样本方差,即 .因为 (1.1.15) 再由分布的可加性知 (1.1.16)其中m = 即 (1.1.17)由此可见, 的自由度为n-a ,并且有 , (1.1.18)即有 (1.1.19)或 (1.1.20)由式(1.1.18)知, ,展开后可化成 (1.1.21)由式(1.1.2)、式(1.1.16)、式(1.1.11)和之间的独立性

5、可知 , (1.1.22) , (1.1.23)所以 , 再由得 = = = =.由于,所以得出 (1.1.24)在成立的条件下,有 (1.1.25) (1.1.26) 因为与相互独立(证明略),再由式(1.1.10)、式(1.1.13)、式(1.1.17)和分布的加法性质可得出 (1.1.27)并得出的自由度为a-1. 记 (1.1.28) (1.1.29)并分别称之为的均方.由式(1.1.20)可知,是的无偏估计,当成立时,由式(1.1.26)可知,也是的无偏估计. 在成立的条件下,取统计量 即 (1.1.30) 对于给出的a,查出的值。由样本值计算出,从而算出F值.由式(1.1.24)看

6、出,若不成立,即(至少一个i),偏大,导致F偏大,因此,判断如下:若则拒绝;若则接受.为了计算的方便,通常采用下面的简便计算公式.记则有 (1.1.31) 将上面的分析过程和结果,列成一个简洁的表格(见表1.1.2),能给解决问题带来方便,这个表叫做单因素方差分析表. 表1.1.2 单因素方差分析表方差来源 平方和自由度 均方 F比 因素A a-1 误差E n-a 总和T n-1 例1.1.1 人造纤维的抗拉强度是否受搀入其中的棉花的百分比的影响是有疑问的.现确定棉花百分比的5个水平:15%,20%,25%,30%,35%.每个水平中测5个抗拉强度的值,列于表1.1.3.问:抗拉强度是否受搀入

7、棉花百分比的影响(=0.01)?表1.1.3 棉花的百分比i/% 抗拉强度观察值j 1 2 3 4 5 15 7 7 15 11 9 49 20 12 17 12 18 18 7725 14 18 18 19 19 8830 19 25 22 19 23 10835 7 10 11 15 11 54 解 设抗拉强度为原假设备择假设: 至少有一对i,j.这里a=5,.,的自由度分别为24,4,20(见表1.1.4). 表1.1.4 例1.1.1的方差分析表方差来源 平方和 自由度 均方 F比因素A 475.76 4 118.94 误差E 161.20 20 8.06总和T 636.96 24已给

8、出=0.01,查表得这里F=14.76>4.43=故拒绝原假设,接受说明棉花的百分比对人造纤维的抗拉强度有影响. 1.2 双因素试验的方差分析 多因素试验中最简单的是双因素试验.在双因素试验中,每个因素对试验都有各自单独的影响,同时还存在着两者联合的影响,这种联合影响叫做交互作用.为了考虑问题方便,我们先讨论无交互作用的情况.如果交互作用影响很小,也可按无交互作用看待. 1.2.1 无交互作用的方差分析 设两因素A,B.A有a个水平:B有b个水平,在每一个组合水平()下,做一次试验(无重复试验)得出试验指标的观察值,列于表1.2.1. 表 1.2.1 因素B因素A 设,各相互独立,取线性

9、统计模型 (1.2.4)若记 (1.2.2)其中 (1.2.3)称为因素的水平的效应,称为因素的水平的效应,则 (1.2.4)这样,模型(1.2.1)变成了下面的线性模型 (1.2.5)其中都是未知参数.对这个线性模型,检验如下的假设: (1.2.6) (1.2.7)具体步骤如下:1. 总离差平方和的分解记在水平下的样本均值为, (1.2.8)在水平下的样本平均值为, (1.2.9)样本数据的总平均值为, (1.2.10)总离差平方和为. (1.2.11)将改写并分解,得 (因三个交互乘积的和项为0),记为. (1.2.12)这就是总离差平方和的分解式,其中, (1.2.13), (1.2.1

10、4). (1.2.15),分别为因素、因素效应的平方和,为误差平方和.2. 统计分析和单因素的分析类似,这里的自由度为ab-1,的自由度为a-1,的自由度为b-1,的自由度则为(ab-1)-(a-1)-(b-1)=(a-1)(b-1).相应地,有均方值 (1.2.16)它们的期望值为 (1.2.17)当原假设都成立时,,都是的无偏估计量.在都成立的条件下, (1.2.18). (1.2.19)取统计量,即. (1.2.20). (1.2.21)由样本可计算出,的值.对给出的值,可查出,.如果,则拒绝,否则,就接受;如果,则拒绝,否则,就接受.为了计算方便,常采用下面的算式: (1.2.22)列

11、出方差分析表,见表1.2.2表1.2.2 双因素无交互作用方差分析表方差来源平方和自由度均方比因素因素因素因素例1.2.1使用4种燃料,3种推进器做火箭射程实验,每一种组合情况做一次实验,所得火箭射程列在表1.2.3种,试分析各种燃料()与各种推进器()对火箭射程有无显著影响(). 表1.2.3各种组合下的火箭射程单位:n mile58256265317974915415161548601709392170275858248718272432239420486874解这是双因素实验,不考虑交互作用设火箭射程为原假设,.备择假设 , ,这里., , , .的自由度分别为11,3,2,6.列出方差

12、分析表;见表1.2.4表1.2.4火箭射程方差分析表方差来源平方和自由度均方比燃料15759.52530.43推进器22385211192.50.92误差73198612199.7总和11134211对于给出的,查表得出.因为,所以接受原假设,,故不同的燃料、不同的推进器对火箭射程均无显著影响.说明:这个例子中所得的结论,粗略看来,好像与常理不符但是,要提醒读者注意的是,这里所说的燃料、推进器指的是现有的,试验用的几种,并不是另外任意的燃料和推进器。1.2.2 有交互作用的方差分析设两因素A,BA有a个水平:A1,A2,Aa;B有b个水平:B1,B2,Bb为研究交互作用的影响,在每一组合水平(

13、Ai,Bj)下重复做n次(n2)试验,每个观察值记为ijk,结果见表1.2.5表 1.2.5 B1 B2 Bb 设ijkN(ij,2),=1,2,a,=1,2,b,=1,2,各ijk相互独立取线性统计模型 (1.2.23)其中为总平均值,i为水平Ai的效应,j为水平Bi的效应,ij为水平Ai和水平Bi的交互效应,显然有 , , ,.这样就有下面的统计模型: (1.2.24)其中和都是未知参数.对于这个模型我们检验下面的假设: (1.2.25) (1.2.26) 1.2 双因素试验的方差分析 17 (1.2.27)具体步骤如下:1. 总离差平方和的分解记 总离差平方和为将ST改写为分解,得 简记

14、为 (1.2.28)其中 (1.2.29) (1.2.30) (1.2.31) 18 第1章 方差分析和回归分析 (1.2.32)SA,SB分别为因素A和因素B的效应平方和,SA×B为因素A,B的交互效应平方和,SE为误差平方和.2. 统计分析首先,这里ST的自由度为abn-1,SA,SB的自由度分别为a-1,b-1, SA×B的自由度为(a-1)(b-1),SE的自由度为(abn-1)-(a-1)-(b-1)-(a-1)(b-1)=ab(n-1).相应地,有下列均方值: (1.2.33)它们的期望值分别为 (1.2.34)当各个原假设H0都成立时,MSA,MSB,MSA&

15、#215;B,MSE都是2的无偏估计量.当HA0成立时,取统计量当HB0成立时,取统计量当HAB0成立时,取统计量由样本值分别求出F1,F2,F3,对给定的分别查出(a-1,ab(n-1),(b-1,ab(n-1),(a-1)(b-1),ab(n-1).作如下判断:如果F1>F(a-1,ab(n-1),则拒绝HA0,因素A有显著影响;如果F2>F(b-1,ab(n-1),则拒绝HB0,因素B有显著影响;如果F3>F(a-1)(b-1),ab(n-1),则拒绝HAB0,交互作用A×B有显著影响.为了计算方便,常用下面的计算公式: (1.2.35)列出方差分析表,如表1

16、.2.6.表1.2.6 双因素有交互作用方差分析表方差来源平方和自由度均方F比因素ASAa-1MSAF1=MSAMSE因素BSBb-1MSBF2=MSBMSE交互作用ABSA×B(a-1)(b-1)MSA×BF3=MSA×BMSE误差ESEab(n-1)MSE总和TSTabn-1例1.2.2 对例1.2.1中燃料(A)和推进器(B)的每种组合(Ai,Bj)做两次试验,得火箭射程如表1.2.7所示,试分析燃料(A),推进器(B)和它们的交互作用(A×B)对火箭的射程是否有显著影响(a=0.05). 1.3 一元线性回归 21 表1.2.7 各种组合下的火箭

17、射程 单位:n mile BjAiB1B2B3A1582 526562 412653 6083343A2491 428541 505516 4842965A3601 583709 732392 4073424A4758 715582 510487 4143466Aj46844553396113198=解 这是双因素考虑交互作用的试验.设火箭射程为原假设备择假设这里a=4,b=3,n=2,abn=24,利用计算公式(1.2.35)有列出方差分析表,如表1.2.8所示.表1.2.8 火箭射程方程差分析表方差来源平方和自由度均方F比因素A2616838723因素B37098218549交互作用176

18、869629478误差C23695121975总和T26383023对已给的,查表得, , .因为, , ,所以我们拒绝原假设 ,,,说明燃料、推进器和它们的交互作用对火箭射程都有显著影响,尤其以交互作用的影响更为显著. 1.3一元线性回归变量之间的各种关系是客观世界中普遍存在的关系.这些关系大致分为两类:一类是确定性关系,即变量之间的关系可以用精确的函数关系来表达,如球体积与球直径之间的关系为.另一类是非确定性关系,称为相关关系,如人的身高与体重的关系,血压与年龄的关系,农作物产量与降雨量之间的关系等等,都是相关关系.回归分析就是研究相关关系的一种数学工具,它提供了变量之间关系的一种近似表达

19、,即经验公式.经验公式还可用来达到预测和控制的目的.下面只讨论随机变量与普通变量之间的关系. 1.3.1 线性回归方程 设随机变量,对于的每一个值,都有它自己的分布,若()存在,则它一定是的函数,记为,叫做关于的回归.的值可以通过样本进行估计,对于的一组值,做独立试验,对得出个观察结果,即有对观察结果 (1.3.1) 这对结果就是容器为的样本,我们要解决的问题是如何利用样本估计().在这里22 第1章 方差分析和回归分析首先要推测形式.在有些问题中,可以从有关的知识知道的形式,这是很好的.如果做不到这点,通常的办法是根据观察值(1.3.1),在直角坐标系中描出相应的点,这种图叫做散点图,从散点

20、图可以粗略地看出与的关系,从而推测出的形式,从这种形式出发,再进一步的分析. 例1.3.1 为研究某一化学反应过程中温度对产品得率的影响,测得数据如下:温度/100110120130140150160170180190得率/%45515461667074788589求关于的回归.解 先画出散点图,见图1.3.1.从图看出, 大致是线性函数,即应为的形式.下面先进性一般的讨论,然后再解这个例题.图1.3.1 散点图利用样本估计的问题称为求关于的回归问题,若为线性函数,即,这时,估计的问题称为求一元线性回归问题.假设对于在某个区间内的每一个值有(),其中,都是未知参数.对作正态假设,也就是要讨论下

21、面的线性模型, () (1.3.2)式(1.3.2)叫做一元正态线性回归模型.我们只讨论这种问题. 由样本通过一定的方法可得到式(1.3.2)中,的估计,对于给定的,取1.3 一元线性回归23作为的估计,我们称方程为关于的线性回归方程,1.3 一元线性回归23其图形称为回归直线.对样本由式(1.3.2)知 (1.3.3)考虑,的函数 (1.3.4)用最小二乘法求出的估计,使.分别求Q关于的偏导数,并令其为0,有 (1.3.5)得出方程组 (1.3.6)式(1.3.6)叫做正规方程组.由于式(1.3.6)可改写为 (1.3.6)因为不全相同,方程组的系数行列式不为0,即 .所以方程组有唯一的一组

22、解 (1.3.7)由于 (1.3.8)式(1.3.7)可改写为 (1.3.9)其中,按式(1.3.8)计算.所求线性回归方程为 . (1.3.10)若取,即,代入式(1.3.10),得 . (1.3.11)式(1.3.11)表明,对于一组样本观察值,回归直线通过散点图的几何中心. 利用前面得出的结果,继续解本例所提的问题.假若例1.3.1中随机变量满足式(1.3.2)所述的条件,求关于的回归方程. 这里,为求线性回归方程,对所需要的计算列于表1.3.1中.表1.3.11234567891010012013014015016017018019020045515461667074788589100

23、001210014400169001960022500256002890032400361002025260129163721435649005476608472257921450056106480793092401050011840132601530016910145067321850047225101570由式(1.3.8)得由式(1.3.9)得所以,回归直线方程为或写成另一种形式1.3.2 的点估计 对每一个,有,称(图1.3.2)为处的残差.并称平方和 (1.3.12)为残差平方和,不妨记为. 可以证明(略) y (1.3.13)于是有 即 (1.3.14) 0 x由此可知 图 1.3

24、.2 (1.3.15)是的无偏差估计. 为了计算上的方便,我们将作如下变形,会得到一个简单而重要的计算公式(再由式(1.3.11) . 由式(1. 3. 9)知,所以有 . (1. 3. 16) 例 1. 3. 2 对例1. 3. 1,求的无偏估计。 解 表1. 3. 1 中已经算出所以 .又 ,所以 , .1. 3. 3 线性假设的显著性检验(T检验法) 前面讨论的问题是在线性模型下,求出了线性回归方程。这个线性回归方程有没有实用价值需要经过检验才能确定。这里所说的检验应当是对线性假设进行检验,问题的实质是,线性系数b不应当为0(若,y不依赖于x),我们需 要检验下面的假设: (1. 3.

25、17)由式(1. 3. 15)和式(1. 3. 13)知 , (1. 3. 18)可以证明(不证) 。 (1. 3. 19)对进行标准化,有 , (1.3.20)切相互独立,根据t分布的定义,有 ,即 , (1.3.21)这里。 在成立的前提下,取统计量为 , (1.3.22)给定显著性水平,的拒绝域为 。 (1.3.23)计算出的值,查出,若,则拒绝,否则就接受 。拒绝,意味着回归效果是显著的;接受说明回归效果是不显著的。这种检验法叫T检验法。例1.3.3 用T检验法检验例1.3.1中的回归效果是否显著?。 解 由例1.3.1和例1.3.2已知,。求出 。又,查出。这里45.25>2.

26、306,即值在的拒绝域内,故拒绝,说明回归效果是很显著的。 在回归效果显著的情况下,常常需要对回归系数作区间估计。由式(1.3.21)可知,b的置信度为1的置信区间为 。 (1.3.24)在例1.3.1中,b的置信度为的置信区间为 ,所以 。 1. 3. 4 线性回归的方差分析 下面用方差分析法检验线性模型和1. 3. 3 中一样见式(1. 3. 17), (1. 3. 17) 注意到,所以有 ,这里的第三项为0.若记 , (1.3. 25)称为回归平方和。称 (1. 3. 12)为残差平方和,称为Y的校正平方和,因此有 . (1. 3. 26)的自由度为,的自由度为,所以的自由度为1. 对比

27、式(1. 3. 16)和式(1. 3. 26),知 , (1. 3. 27) , (1. 3. 28) 。 (1. 3. 13)选统计量 即 (1. 3. 29) 列出方差分析表,如表1. 3. 2 表 1.3.2 方差来源平方和 自由度 均 方 F比 回归 残差 总和 1 给出检验水平,查出,算出F值。 如果,则拒绝,说明回归效果显著。如果,则接受,说明回归效果不显著。 这中检验法叫做F检验法。 例 1. 3. 4 对例1. 3. 1 作方差分析,检验回归效果。 解 在例1. 3. 2 中,已算出,,所以,由式(1. 3. 26)有 ,的自由度为9,的自由度为8. 列方差分析表,如表1. 3

28、. 3. 表 1.3. 3方差来源 平方和 自由度 均 方F 比显著性 回归 残差 总和1924.6 7.5 1932,1 1 8 9 1924.6 0.94 2047.4 * *给出,因为,所以回归效果是非常显著的,用“* *”表示。 从例1. 3. 4和例1. 3. 3 看到,用T检验法和F检验法检验同一个问题,所得结果是一样的。事实上,从式(1. 3. 15),式(1. 3. 22)和式(1. 3. 27)归结到式(1. 3. 29),比较,得出。还可参看附录A2.1. 1的式(A2. 1. 27)。会有更明确的认识。1.3.5 利用回归方程进行预报(预测)在我们讨论的回归问题中,Y是随

29、机变量,x是普通变量,对于给定的x,Y的取值是随机的,回归方程是Y对x依赖关系的一个估计。对给定的x值,用回归方程确定Y的值,这就叫做预报。1.点预报:设回归方程为。任给,用作为Y的预报值,记为,这就叫做点预报。例如在例1. 3. 1中,回归方程为,若给定,得到Y的预报值为,这是Y的预测值为66,看来差别并不太大,说明回归效果是较好的。 2.区间预报:点预报的实际意义并不大,真正有实用价值的是区间预报,区间预报就是对指定的,Y的取值有一个置信度为的范围,即置信区间,称为预报区间。 设在,点对应随机变量Y的观察结果为,由式(1.3.2)知 。 (1. 3. 30)由此可知 。 (1. 3. 31

30、) 在点,的预报值为 。可以证明(不证) 。 (1. 3. 32)因为都是的线性组合,所以相互独立,再由式(1.3.31)和式(1.3.32),得出 。经标准化并记为U,得 。 (1. 3. 33)由式(1. 3. 18)知(记为V) 且相互独立,再由t分布的定义,知 (1. 3. 34) 即 对于给定的置信度,有P() = 1-a即 P() = 1-a, (1,3.35)其中 (1,3.36)由此得出,的置信度位 1-a 的预报区间为(), (1,3.37)有式(1,3.37)知,预报区间的长度为2.再由式(1,3.36)看出,对给定的样本值及置信度1-a,愈靠近,就愈小,即愈小,预报区间的长度就愈小,当时,达到最小 对于任意x根据样本观察值可做出两条曲线 y y(x) , 。 这两条曲线把回归直线 O x 夹在中间,形成一条宽窄不等的带域,这个带域在x =处最窄(见图1,3,3) 例 1,3.5 求例1,3.1中温度 = 145时得率的预报区间,a = 0.05 。解 在 =145处的回归值 = 2.306,由(1.3.36)得 = 2.3060.965=2.332.所以预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论