方差分析简介_第1页
方差分析简介_第2页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、方差分析简介1. 引言方差分析(analysisofvariance,简称ANOVA)是一种假设检验方法,即基本思想可概述为:把全部数据的总方差分解成几部分,每一部分表示某一影响因素或各影响因素之间的交互作用所产生的效应,将各部分方差及随机误差的方差相比较,依据F分布作出统计推断,从而确定各因素或交互作用的效应是否显著。因为分析是通过计算方差的估计值进行的,所以称为方差分析。方差分析的主要目标是检验均值间的差别是否在统计意义上显著。如果只比较两个均值,事实上方差分析的结果和t检验完全相同。只所以很多情况下采用方差分析,是因为它具有如下两个优点:(1)方差分析可以在一次分析中同时考察多个因素的显

2、著性,比t检验所需的观测值少;(2)方差分析可以考察多个因素的交互作用。方差分析的缺点是条件有些苛刻,需要满足如下条件:(1)各样本是相互独立的;(2)各样本数据来自正态总体(正态性:normality);(3)各处理组总体方差相等(方差齐性:homogeneityofvariance)。因此在作方差分析之前,要作正态性检验和方差齐性检验,如不满足上述要求,可考虑作变量变换。常用的变量变换方法有平方根变换,平方根反正弦变换、对数变换及倒数变换等。方差分析在医药、制造业、农业等领域有重要应用,多用于试验优化和效果分析中。2. 单因素方差分析2.1基本概念1)试验指标:在一项试验中,用来衡量试验效

3、果的特征量称为试验指标,有时简称指标,也称试验结果,通常用y表示。它类似于数学中的因变量或目标函数。试验指标用数量表示称为定量指标,如速度、温度、压力、重量、尺寸、寿命、硬度、强度、产量和成本等。不能直接用数量表示的指标称为定性指标。如颜色,人的性别等。定性指标也可以转化为定量指标,方法是用不同的数表示不同的指标值。2)试验因素:试验中,凡对试验指标可能产生影响的原因都称为因素(factor),也称因子或元,类似于数学中的自变量。需要在试验中考察研究的因素,称为试验因素,有时也称为因素,通常用大写字母A、B、C、表示。在试验中,有些因素能严格控制,称为可控因素;有些因素难以控制,称为不可控因素

4、。试验因素是试验中的已知条件,能严格控制,所以是可控因素。通常把未被选作试验因素的可控因素和不可控因素都称为条件因素,统称为试验条件。(3)因素水平:因素在试验中所处的各种状态或所取的不同值,称为该因素的水平(level),也简称为水平或位级,通常用下标1、2、3、表示。若一个因素取K种状态或K个值,就称该因素为K水平因素。因素的水平,有的可以取得具体值,女口6Kg、10cm;有的只能取大致范围或某个模糊概念,如软、硬、大、小、好、较好等;但也有无法用数值表征的,如履带的不同形式,轮胎花纹的不同种类,机器的不同操作方式,大豆的不同品种等。(4)处理组:所有试验因素的水平组合所形成的试验点称为处

5、理组(treatmentgroup),也称组合处理。三因素试验中,ABC是一个组合处理,它表示由A因素1水平、B因素2水平和C因2素3水平组合而形成的一个试验点。2.2主要步骤假设我们在实验中只考虑因素A,该因素有p个水平,每个水平做r次重复试验,设第i个水平的第j次重复试验的数据为y,如表1所示。ij表1试验数据AiA2AiAp1yyyy1121订pl2yyyy1222i2p2jyyyyij2jijpj99ryyyy1r2rirpr根据这些数据,可以计算全体数据的均值y和和各水平对应数据的均值y:i.,,i=1,2,,p进一步,可以计算全体数据的偏差平方和S、因素A对应的偏差平方和S,以及误

6、差的偏差平方和S:TAe下一步,需要计算这三个偏差平方和所对应的自由度。之所以要计算自由度,是因为如果用偏差平方和除以对应的数据项数,得到的统计量并不是方差的无偏估计。而偏差平方和及对应的自由度的商才是方差的无偏估计。设有n个数据x,x,有多少个线性约束关1系。2满足,x,它们的平方和的自由度取决于x.之间设X=(x,x,,x)t,若存在秩为m的矩阵A,12nAX=0则S的自由度是n-m。下面来求S的自由度。令x=y一y,i=1,2,.,p,j=1,2,.,r,k=(i-1)r+j,贝xj之间存在一个线性约束艺x=丫艺(y一y)=另艺y一rpy=0iijiji=1i=1j=1i=1j=1即m=

7、1,A=(1,1,,1),故f=rp一1。同理可得f=p一1,f=rp一p。可以证明(证明本文从略l,7对于偏差平方和及其对应的自由度,如下关系成立:S=S+S,f=f+fTAeTAe这就是Fisher偏差平方和加性原理,它是全部方差分析的基础。在得到偏差平方和及其对应的自由度后,就可以得到因素A和误差e对应的平均偏差平方和S=S/f,S=S/fAAAeee平均偏差平方和是反映数据波动大小的一个测度,比较S和S的大小可以看出因素A的不同水平带来的试验指标的波动是否及随机误差相同,所以,可以由此判断因素A对试验指标是否有显著影响。判断S和S是否相同的方法采用F检验(基于F分布的假设检验),令Ae

8、F=S/SAe则可认为F服从自由度为f和f的F分布。用求出的F值查F分布表可得到对应的P值,一般取置信水平a=0.05,即当P值小于0.05时拒绝原假设,认为因素A对试验指标的影响显著,否则维持原假设,认为影响不显著。3/132.3数学模型设因素A取了p个水平,每个水平重复了r次试验,在水平A下的第i次实验结果y可以分解为1ijy=卩+£ijiij其中,卩表示在水平Ai下的理论指标值,8是试验误差。我们把试验误差8认为是相互独立的随机变量,且服从正态分布N(Oq2),这是方差的基本假设之一。为了看出因素各水平的影响大小,将卩再进行分解,令ia二卩一卩,1=1,2,,pii则y二卩+a

9、+8,1=1,2,,p;J=1,2,,Rijiij显然a之间有关系1a表示水平A对试验结果产生的影响,它称作水平A的效应。方差分析的数学模型就是建立在这么几条假定的基础上的(1) y+a+8,i=1,2,,p;j=1,2,,rijiij(2)(3)8相互独立且都服从分布N(0Q2)ij由这三条建立的模型叫做线性模型。建立模型以后,统计分析需要解决下列问题:1参数估计。即通过试验估计M和a,它们的估计量用和a表ii示。yijiyiyy=yy=yyyyi.rirpi=ii=ij=i可以证明(本文从略),a和a是卩和a的无偏估计。i假设检验。如果因素A对指标有影响,效应a不全为0,如果因素A对指标没

10、有影响,则效应a.全为0。因此,要检验因素A对指标影响是否显著就是检验假设H:a=a=.=a=00i2p这需要选择一个合适的统计量。令则Y =Y(卩+A+£)=卩+A+£i.rijriijii.J=1J=1Y =-(P+A+£)=卩+£Niiji=1j=1故S=厂另(Y-Y)2=厂另(a+£-£)2Ai.ii.i=1i=1=厂另A2+2厂另A(£-£)+正(£-£)2iii.i.i=1i=1i=1S=K艺(yy)2=(££)2eiji.i.i=1j=1i=1j=1如果原假设H

11、0成立,则a=a=.=a=0,有012p因为£相互独立且都服从分布N(0,a2),由统计理论推知S心2服Ja从自由度为/二(P-1)的X2分布,S上2服从自由度为/二(N-P)的X2分布,而且两者独立,从而服从自由度为f,f的F分布。所以可以采用F统计量作为假设检验Ae的统计量(这种假设检验称为F检验),通过查F分布表确定拒绝域或P值,从而作出推断结论。3. 多因素方差分析所谓多因素方差分析,就是同时检验多个因素影响是否显著的方差分析方法。多因素方差分析。方差分析的一大优势就是可以同时考虑多个试验因素对试验指标的影响,这样,既节省了试验次数,试验误差也比进行多次单因素方差分析要小。在

12、多因素方差分析中,有一个很重要的问题,就是试验设计(DOE:DesignofExperiment)。其主要目的是通过设计每次试验中因素水平的搭配,用尽可能少的试验次数和试验数据满足方差分析的要求,获得较好的分析结果。最常用的试验设计有析因设计和正交设计。前者是对所有因素的所有水平组合都进行试验,因此又称交叉分组设计;后者是按照某种正交表设计试验,以较少的试验次数即可接近析因设计的效果。因此,析因设计一般用于两个因素且水平数较少的情况,而因素和水平较多时则多采用正交设计。除正交设计外,还有其它许多实验设计方法,如系统分组设计(嵌套设计)、正交拉丁方设计、裂区设计等,它们一般用在并非任意组合都可以

13、实现或找不到合适的正交表的情况。实验设计确定的一个水平组合,如ABA,称作一个处理组。如果在一个处理组内做多次重复试123验得到多个试验数据,则称为有重复试验的设计,否则称无重复试验的设计。在方差分析中,一般要求各处理组内的重复试验数相等。对于不相等的情况,方差分析也可以计算,但公式略有差别,而且可靠性差,所以一般采用其它方法如通用线性模型(GLM:GeneralLinearModel)来计算。在多因素方差分析中,还有一个重要的概念,这就是因素间的交互作用(interaction),它是指几个因素的某些水平互相增强或互相削弱的现象。表2中,当A从A变化到A时,指标都增加,及B取B或B无关;12

14、12同样,B从B变到B时,指标都增加,及A的水平无关,此时,我们说A12和B之间没有交互作用。而在表3中,因素A对指标的影响及B的水平有关,此时我们说A和B之间存在交互作用,记作AXB。表2无交互作用的试验数据表3有交互作用的试验数据由于析因设计主要用于因素和水平数较少的情形,所以本文以双因素试验为例,介绍析因设计的方差分析的主要步骤。设考虑两个试验因素A和B,A有p个水平,B有q个水平,每个处理组内做r次重复试验,在AB条件下的第k次实验的数据记作y;在人8ijijkij条件下做的全部试验数据之和记作Y,显然ijY二xijijkk=1令KiA表示在Ai条件下试验数据之和,KjB表示在Bj条件

15、下试验数据之和,Ka=1Ly,iij<j=1Kb=Y,jiji=1它们的平均值记为kA和kB(i=1,2,.,p),(i=1,2,.,p)kAi=丄Ka,qrikB=Kbjprjij整个试验的总平均则总偏差平方和S,因素A和B的偏差平方和S,S,误差的偏差平方TAB和S,交互作用的偏差平方和S分别计算如下eAxBS=ZSK(y-y)2Tijki=1j=1k=1S=丫区艺(y-y)2,y=-Yeijkij.ij.riji=1j=1k=1S=S-S-S-S=(y-kA-kB+y)2AxBTABeij.iji=1j=1它们的自由度分别为fA=p-1,fB=q-1,fT=pqr-1fAxB=(p

16、-1)(q-1),fe=pq(r-1)需要注意的是:如果各处理组中没有重复试验,即r=1,那么按上式计算出的S=0,这将导致后续步骤无法开展。因此,在无重复试验的情形,e应该用下式计算S和feeS=S-S-S=LL(y-kA-kB+y)2eTABij.iji=1j=1f=(p-1)(q-1)e此时,将无法计算S。因此,无重复试验的设计无法考察交互作用。AxB然后,计算平均偏差平方和AxBAxB/fAxBAxBAxB把这些F值查F表求得拒绝域或P值,即可做出统计推断。类似于2.3节,也可以得到双因素方差分析的数学模型:y=p+a+b+(ab)+£,i=1,2,.,p,j=1,2,.,q

17、,k=1,2,.,rijkijijijk其中,a,b,(ab)分别为因素A,B的主效应以及A及B的交互ijij效应,满足,Y(ab)二为(ab)二0ijijijiji=1j=1e为实验的随机误差,它们相互独立且都服从正态分布N(0,b2)。ijk由这一模型,可以及2.3节类似地得出各参数的估计,以及采用F检验的原因。3.2正交设计的方差分析正交设计是利用一系列规格化的正交表来科学地安排多因素试验的一种十分有效的设计方法。其原理是从各因素各水平的全搭配中选择一部分必不可少的搭配进行试验,从而大大减少试验次数,又基本不降低研究效率。正交表是已经制作好的规格化的表,可分为同水平的和混合水平的2大类。

18、等水平表一般记作形如L(bc),其中a表示正交表的行数,即试验的次数;b表示因素的水平数,即每个因素有b个水平;c表示正交表的列数即因素数。所以,正交表L(bc)用于c个因素,每个因素b个水平的情形,按该表设计共需做a次试验。表4所示为等水平表L(23)。表5所示为一个混合正交表Lx33),这表示可以安排4个因素,其中一个因素有2水平,另外3个因素有3水平,共需9次试验。14/13表4正交表L(23)4试验号列123:111122212221列名ABAXB表5正交表L(2133)9"5验号列号'、1234111112122231333411235123161312721328

19、221392321之所以选用正交表,是因为它具有如下性质:在任何一列中各水平都出现且出现的次数相等,在任意两列之间各种不同水平的所有可能组合都出现,且出现的次数相等。这就使得部分试验中所有因素的所有水平信息即两两因素间的所有组合信息无一遗漏,且任一因素各水平的试验条件相同,从而能最大限度的反映该因素不同水平对试验指标的影响。在3.1节中讨论了双因素情况下的交互作用,事实上,当有多个因素时,还存在多个因素的交互作用,称为高级交互作用,记作AXBXCo在正交试验设计中,交互作用一律当作因素看待,这是处理交互作用问题的一条总的原则。在正交表中,一般都为交互作用安排了相应的列,如表4中的L(23)的第

20、3列即用于安排交互作用AXB,这意味着使用这一正交表4时,如果要考察交互作用,则只能考虑两个因素,因为第3列已经被占用了。但和因素不同的是,用于考虑交互作用的列并不影响试验方案及其实施,也就是说不必在试验中刻意安排交互作用,只需计算时按第3列计算即可,而且一个交互作用不一定只占1列,也可能占有多列。因为正交设计中把交互作用看作因素安排到正交表的列中,因此使得方差分析的计算过程更加简单了。设选用正交表L(bc)进行正交试验,即有ac列,每列b个水平,共a个处理组,设每个处理组有r个数据,第i个处理组的第t个数据记为y,贝V全体的均值y和第j列第K个水平的均值ity为jk,y二-工工yjkr-C(j,k)1it(,J)=kt=1其中,c(J,k)表示第j列中第K个水平出现的次数,g(i,J)=k表示第i个处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论