试验的方差分析_第1页
试验的方差分析_第2页
试验的方差分析_第3页
试验的方差分析_第4页
试验的方差分析_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章试验的方差分析

问题的提出:先看一个例子:考察温度对某一化工厂产品的得率的影响,选了五种不同的温度。总平均得率=89.6%要分析温度的变化对得率的影响从平均得率来看,温度对得率的影响?1)同一温度下得率并不完全一样,产生这种差异的原因是由于试验过程中各种偶然性因素的干扰及测量误差等所致,这一类误差统称为试验误差;2)两种温度的得率在不同的试验中的倾向有所差别。如65oC与70oC相比较,第一次65oC比70oC好,而后二次70oC比65oC好。产生这种矛盾的现象也是由于试验误差的干扰。由于试验误差的存在,对于不同温度下得率的差异自然要提出疑问,这差异是试验误差造成的,还是温度的影响呢?1)由于温度的不同引起得率的差异叫做条件变差;例中的全部15个数据,参差不齐,它们的差异叫做总变差(或总离差)。产生总变差的原因一是试验误差,一是条件变差。2)方差分析解决这类问题的思想是:a.由数据的总变差中分出试验误差和条件变差,并赋予它们的数量表示;b.用条件变差和试验误差在一定意义下进行比较,如两者相差不大,说明条件的变化对指标影响不大;反之,则说明条件的变化影响是很大的,不可忽视;c.选择较好的工艺条件或确定进一步试验的方向;变差的数量表示:有n个参差不齐的数据x1,x2,…,xn,它们之间的差异称为变差。如何给变差一个数量表示呢?1)一个最直观的想法是用这n个数中最大值与最小值之差,即极差来表达,用R记之;2)变差平方和,以S记之。S是每个数据离平均值有多远的一个测度,它越大表示数据间的差异越大。对变差平方和的进一步讨论(1):例:测得某高炉的六炉铁水含碳量为:4.59,4.44,4.53,4.52,4.72,4.55,求其变差平方和。对变差平方和的进一步讨论(2):我们看到S的计算是比较麻烦的,原因是计算x时有效位数增加了,因而计算平方时工作量就大大增加。另外,在计算x时由于除不尽而四舍五入,在计算S时,累计误差较大。为此常用以下公式:对于前面的例子自由度的提出(1):例2:在上例的基础上在同样的工艺条件下又测了四炉铁水,它们是:4.60,4.42,4.68,4.54,加上原来的六炉共十炉,求其变方和。自由度的提出(2):平均数与过去的结果是相近的,但平方和是显著地变大了。我们要设法消除数据个数的多少给平方和带来的影响。一个直观的想法是用平方和除以相应的项数,但从数学理论上推知这不是一个最好的办法,而应把项数加以修正,这个修正的数就叫做自由度。自由度的提出(3):设有n个数y1,y2,…,yn,它们的平方和的自由度是多少呢?这就看{yi}之间有没有线性约束关系,如果有m个(0<m<n)线性约束方程a11y1+a12y2+…+a1nyn=0a21y1+a22y2+…+a2nyn=0…am1y1+am2y2+…+amnyn=0并且这m个方程相互独立,即方程系数矩阵的秩等于m,则S的自由度是n-m.自由度的提出(4):根据这个定义,如令yi=xi-(i=1,2,…,n)则显然{yi}之间有一个线性约束关系,即即m=1,a11=a12=…=a1n=1所以变差平方和的自由度=n-m=n-1均方的概念:平均平方和(简称均方)等于变差平方和除以相应的自由度f.平均平方和以MS表示,它的开方叫做均方差对例1、MS=0.043483/5=0.0086966,均方差为0.09326对例2、MS=0.07949/9=0.0088322,均方差为0.09398我们看到六炉和十炉的MS是很相近的,这与工艺条件相同是吻合的,说明用MS反映波动的大小是更为合理的。一.方差分析的两类误差:1.随机误差:因素的同一水平(总体)下,样本各观察值之间的差异比如,同一温度下产品的得率是不同的这种差异可以看成是随机因素的影响,称为随机误差

2.

系统误差:因素的不同水平(不同总体)下,各观察值之间的差异

比如,不同温度之间的产品得率之间的差异

这种差异可能是由于抽样的随机性所造成的,也可能是由于温度差异所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差二.方差分析的两类方差:1.数据的误差用平方和(sumofsquares)表示,称为方差2.组内方差(withingroups)因素的同一水平(同一个总体)下样本数据的方差比如,同一温度下产品得率的方差组内方差只包含随机误差3.组间方差(betweengroups)因素的不同水平(不同总体)下各样本之间的方差比如,不同温度下产品得率之间的方差组间方差既包括随机误差,也包括系统误差三.方差的比较:1.若不同温度对产品得率没有影响,则组间误差中只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近1;2.若不同温度对产品得率有影响,在组间误差中除了包含随机误差外,还会包含有系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1;3.当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响。判断温度对产品得率是否有显著影响,实际上也就是检验产品得率的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,说明不同温度对产品得率有显著影响。四.方差的基本假定:1.每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本比如,每个温度下产品的得率必需服从正态分布2.各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的比如,五种温度下产品的得率方差都相等3.观察值是独立的比如,每个温度下产品的得率与其他温度下产品的得率独立2.1单因素试验的方差分析

(one-way

analysis

of

variance)2.1.1单因素试验方差分析基本问题(1)目的:检验一个因素对试验结果的影响是否显著性(2)基本命题:设某单因素A有r种水平:A1,A2,…,Ar,在每种水平下的试验结果服从正态分布在各水平下分别做了ni(i=1,2,…,r)次试验判断因素A对试验结果是否有显著影响

(3)单因素试验数据表试验次数A1A2…Ai…Ar1x11x21…xi1…xr12x12x22…xi2…xr2…………………jx1jx2j…xij…xrj…………………nix1n1x2n2…xini…xrnr2.1.2单因素试验方差分析基本步骤(1)计算平均值组内平均值:

总平均:(2)计算离差平方和①总离差平方和SST(sumofsquaresfortotal)

表示了各试验值与总平均值的偏差的平方和反映了试验结果之间存在的总差异②组间离差平方和SSA(sumofsquareforfactorA)

反映了各组内平均值之间的差异程度由于因素A不同水平的不同作用造成的③组内离差平方和SSe

(sumofsquareforerror)反映了在各水平内,各试验值之间的差异程度由于随机误差的作用产生三种离差平方和之间关系:(3)计算自由度(degreeoffreedom)总自由度:dfT=n-1组间自由度:dfA

=r-1组内自由度:dfe

=n-r

三者关系:dfT=dfA

+dfe(4)计算平均平方均方=离差平方和除以对应的自由度MSA——组间均方MSe——组内均方/误差的均方(5)F检验服从自由度为(dfA,dfe)的F分布(Fdistribution)对于给定的显著性水平

,从F分布表查得临界值F

(dfA,dfe)

如果FA

>F

(dfA,dfe)

,则认为因素A对试验结果有显著影响,否则认为因素A对试验结果没有显著影响(6)方差分析表若FA

>F0.01(dfA,dfe)

,称因素A对试验结果有非常显著的影响,用“**”号表示;若F0.05(dfA,dfe)

FA

<F0.01(dfA,dfe)

,则因素A对试验结果有显著的影响,用“*”号表示;若FA

<F0.05(dfA,dfe)

,则因素A对试验结果的影响不显著单因素试验的方差分析表差异源SSdfMSF显著性组间(因素A)SSAr-1MSA=SSA/(r-1)MSA/MSe组内(误差)SSen-rMSe=SSe/(n-r)总和SSTn-1例2-1:(单因素的方差分析)人造纤维的抗拉强度是否受掺入其中的棉花的百分比的影响是有疑问的。现确定棉花百分比的5个水平:15%,20%,25%,30%,35%。每个水平中测5个抗拉强度的值,列于下表。问:抗拉强度是否受掺入棉花百分比的影响(α=0.01)?

解:(1)计算平均值

依题意,本例为单因素试验的方差分析,单因素为棉花的百分比,它有5种水平,即r=5,在每种水平下做了5次试验,故ni=5(i=1,2,…5),总试验次数n=25。有关平均值的计算见表3-1棉花的百分比抗拉强度观察值试验次数ni组内和Ti组内平均

总平均123451577151195499.81520121712191857715.425141818191958817.6301925221923510821.63571011151155410.8表3-1例3-1计算表(2)计算离差平方和(3)计算自由度(4)计算均方(5)F检验说明棉花的百分比对人造纤维的抗拉强度有影响。最后将有关计算结果列于方差分析表中。2.2双因素试验的方差分析1.分析两个因素(行因素Row和列因素Column)对试验结果的影响2.如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为无交互作用的双因素方差分析或无重复双因素方差分析(Two-factorwithoutreplication)3.如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析

(Two-factorwithreplication)双因素方差分析的基本假定:1.每个总体都服从正态分布对于因素的每一个水平,其观察值是来自正态分布总体的简单随机样本2.各个总体的方差必须相同对于各组观察数据,是从具有相同方差的总体中抽取的3.观察值是独立的2.2.1双因素无重复试验的方差分析(1)双因素无重复试验2.2双因素试验的方差分析B1B2…BsA1x11x12…x1sA2x21x22…x2s……………Arxr1xr2…xrs(2)双因素无重复试验方差分析的基本步骤①计算平均值总平均:Ai水平时:

Bj水平时:②计算离差平方和总离差平方和:因素A引起离差的平方和:因素B引起离差的平方和:误差平方和:③计算自由度SSA的自由度:dfA

=r-1SSB的自由度:dfB=s-1SSe的自由度:dfe=(r-1)(s-1)SST的自由度:dfT=n-1=rs-1dfT=dfA

+dfB+

dfe④计算均方

⑤F检验FA服从自由度为(dfA,dfe)的F分布;FB服从自由度为(dfB,dfe)的F分布;对于给定的显著性水平

,查F分布表:

F

(dfA,dfe),F

(dfB,dfe)若FA>F

(dfA,dfe),则因素A对试验结果有显著影响,否则无显著影响;若FB>F

(dfB,dfe),则因素B对试验结果有显著影响,否则无显著影响;差异源SSdfMSF显著性因素ASSAr-1因素BSSBs-1误差SSe总和SSTrs-1⑥无重复试验双因素方差分析表无重复试验双因素方差分析表为了方便计算,我们采用下面的简便计算公式:例2-2:(双因素无交互作用的方差分析)使用4种燃料,3种推进器作火箭射程试验,每一种组合情况做一次试验,则得火箭射程列在表中,试分析各种燃料(Ai)与各种推进器(Bj)对火箭射程有无显著影响(α=0.05)解:这里r=4,s=3,rs=12方差来源平方和自由度均方F比燃料43推进器B22385211192.50.92误差E73198612199.7总和T11134211给出的α=0.05,查出F0.05(3,6)=4.76,F0.05(2,6)=5.14因为F1=0.43<4.76,F2=0.92<5.14故不同的燃料、不同的推进器对火箭射程均无显著影响。因素B1B2…BsA1…A2………………Ar…2.2.2双因素重复试验的方差分析(1)双因素重复试验方差分析试验表双因素重复试验方差分析试验表(2)双因素重复试验方差分析的基本步骤①计算平均值总平均:任一组合水平(Ai,Bj)上:Ai水平时:Bj水平时:②计算离差平方和总离差平方和:因素A引起离差的平方和:因素B引起离差的平方和:交互作用A×B引起离差的平方和:误差平方和:③计算自由度SSA的自由度:dfA

=r-1SSB的自由度:dfB=s-1SSA×B的自由度:dfA×B

=(r-1)(s-1)SSe的自由度:dfe=rs(c

-1)SST的自由度:dfT=n-1=rsc-1dfT=dfA

+dfB+

dfA×B+

dfe④计算均方⑤F检验若FA>F

(dfA,dfe),则认为因素A对试验结果有显著影响,否则无显著影响;若FB>F

(dfB,dfe),则认为因素B对试验结果有显著影响,否则无显著影响;若FA×B>F

(dfA×B,dfe),则认为交互作用A×B对试验结果有显著影响,否则无显著影响。⑥重复试验双因素方差分析表有交互作用的方差分析简化公式:【例】城市道路交通管理部门为研究不同的路段和不同的时间段对行车时间的影响,让一名交通警察分别在两个路段和高峰期与非高峰期亲自驾车进行试验,通过试验取得共获得20个行车时间(分钟)的数据,如下表。试分析路段、时段以及路段和时段的交互作用对行车时间的影响交互作用的图示:路段与时段对行车时间的影响交互作用无交互作用行车时间路段1路段2高峰期非高峰期行车时间路段1路段2高峰期非高峰期2.3试验设计1.完全随机化设计2.随机化区组设计3.因子设计试验设计与方差分析完全随机化设计因子设计试验设计随机化区组设计可重复双因素方差分析单因素方差分析无重复双因素方差分析完全随机化设计

(completelyrandomizeddesign)1.“处理”被随机地指派给试验单元的一种设计“处理”是指可控制的因素的各个水平“试验单元(experimentunit)”是接受“处理”的对象或实体2.在试验性研究中,感兴趣的变量是明确规定的,因此,研究中的一个或多个因素可以被控制,使得数据可以按照因素如何影响变量来获取3.对完全随机化设计的数据采用单因素方差分析【例】一家种业开发股份公司研究出3个新的小麦品种:品种1、品种2、品种3。为研究不同品种对产量的影响,需要选择一些地块,在每个地块种上不同品种的小麦,然后获得产量数据进行分析。这一过程就是试验设计的过程。这里的“小麦品种”就是试验因子或因素,品种1、品种2、品种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论