苍玉权老师 统计学PPT课件版 第7章 方差分析_第1页
苍玉权老师 统计学PPT课件版 第7章 方差分析_第2页
苍玉权老师 统计学PPT课件版 第7章 方差分析_第3页
苍玉权老师 统计学PPT课件版 第7章 方差分析_第4页
苍玉权老师 统计学PPT课件版 第7章 方差分析_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章方差分析7.1实验设计简介7.2方差分析基本思想7.3单因素方差分析7.4两因素方差分析7.1实验设计简介几个常用术语试验指标(experimentalindicator)

为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目称为试验指标血糖含量、体高、体重等几个常用术语(续)实验因素(experimentalfactor)实验中所研究的影响实验指标的因素叫试验因素当实验中考察的因素只有一个时,称为单因素实验;若同时研究两个或两个以上的因素对实验指标的影响时,则称为两因素或多因素实验。实验因素常用大写字母A、B、C、…等表示。几个常用术语(续)因素水平(leveloffactor)试验因素所处的某种特定状态或数量等级称为因素水平,简称水平几个常用术语(续)实验处理(treatment)事先设计好的实施在试验单位上的具体项目叫实验处理,简称处理进行单因素实验时,实验因素的一个水平就是一个处理在多因素实验时,实验因素的一个水平组合就是一个处理几个常用术语(续)实验单位(experimentalunit)在实验中能接受不同实验处理的独立的实验载体叫实验单位在实验中,将一个处理实施在两个或两个以上的实验单位上,称为处理有重复;一处理实施的实验单位数称为处理的重复数几个术语(续)因素水平与处理因素水平为某因子(自变量)之特殊形式或不同状态,例如我们可以将「施肥」细分成三个水平:完全不施肥、施轻肥、施重肥如果解释的因素为单一(施肥与否),称为单因子分析,如果解释因子在两个以上(施肥与否+栽种温度),称为多因子分析。在单因素分析中,每一个因素水平皆称为一种处理(treatment),多因子分析中,因子水平之组合称为一种处理(施重肥+高温、无施肥+高温、施重肥+低温、无施肥+低温…等几个术语自变量与因变量我们经常设计研究来了解造成某种现象变化的原因例如:我们想要了解为什么有时候种植西瓜会甜有时候不会甜(甜度变动)这种我们欲了解的变量称为因变量(dependentvariable)、被解释变量、或反应变量(responsevariable)。我们怀疑西瓜的甜度与栽种过程中是否施肥有关,将某些西瓜种籽加以施肥处理,其它西瓜保持自然生长,这种造成依变量产生变化的变量称之为因子(factor)或独立变项、自变量(independentvariable)。实验设计概念广义理解是指实验研究课题设计,也就是整个实验计划的拟定狭义的理解是指实验单位的选取、重复数目的确定及实验单位的分组实验设计的目的是避免系统误差,控制、降低实验误差,无偏估计处理效应,从而对样本所在总体作出可靠、正确的推断实验设计(续)实验设计三原则重复重复是指试验中同一处理实施在两个或两个以上的试验单位上随机化随机化是指在对实验对象进行分组时必须使用随机的方法,使对象进入各实验组的机会相等,以避免试验对象分组时实验人员主观倾向的影响双盲实验设计(续)局部控制─实验条件的局部一致性在实验环境或实验单位差异大的情况下,可将整个实验环境或实验单位分成若干个小环境或小组,在小环境或小组内使非处理因素尽量一致,这就是局部控制

。完全随机化设计完全随机化设计(completelyrandomizeddesign)“处理”被随机地指派给试验单元的一种设计.Subjectsareassumedtobehomogeneous只有一个因素With2ormoregroups(orlevels)完全随机化设计(续)Factor(TrainingMethod)FactorLevels

(Groups)RandomlyAssignedUnitsDependentVariable

(Response)21hrs17hrs31hrs27hrs25hrs28hrs29hrs20hrs22hrs完全随机化设计(续)高尔夫球的品牌与每次击球的球距有无影响?随机化区组设计随机化区组设计(randomizedblockdesign)先按一定规则将实验单元划分为若干同质组,称为“区组(Block)”再将各种处理随机地指派给各个区组分组后再将每个品种(处理)随机地指派给每一个区组的设计就是随机化区组设计随机化区组设计(续)因子设计因子设计(factorialdesign)感兴趣的因素有两个如:小麦品种和施肥方式.假定有甲、乙两种施肥方式,这样三个小麦品种和两种施肥方式的搭配共有3×2=6种。如果我们选择30个地块进行实验,每一种搭配可以做5次试验,也就是每个品种(处理)的样本容量为5,即相当于每个品种(处理)重复做了5次实验考虑两个因素(可推广到多个因素)的搭配实验设计称为因子设计该设计主要用于分析两个因素及其交互作用对实验结果的影响因子设计(续)7.2方差分析基本思想方差分析的概念缘由t检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验,但在科学研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数间的差异显著性检验。大学中各年级的同学智商是否有别?三种不同的教学方法对于学生的成绩是否有影响?方差分析的概念(续)检验过程烦琐这种做法太浪费时间,因为比较几个总体可能产生很多的比较组,例如比较五个总体的平均值差异,如果以两两比较的方式,我们必须进行C52=10次的t-test。无统一的试验误差,误差估计的精确性和检验的灵敏性低试验有5个处理,每个处理重复6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测值估计试验误差,误差自由度为2(6-1)=10;若利用整个试验的30个观测值估计试验误差,显然估计的精确性高,且误差自由度为5(6-1)=25。方差分析的概念(续)推断的可靠性低,检验的I型错误率大,如果每组的显著水平皆为α,则全体比较的显著水平会高于α假设我们在.05的显著水平下要检定下列零假设:

H0:u1=u2=u3如果拆成下列三组零假设:

H0:u1=u2,H0:u1=u3,H0:u2=u3每个假设被「接受」的概率为.95,三个假设全部被接受的概率为.953=.857,也就是说当假设为真但被推翻的概率为(1-0.857)=0.143>0.05远高于显著水平方差分析的概念(续)因此我们需要在共同的显著水平α下,同时考虑多个均值的差异,我们以F分布来进行检验,称之为方差分析方差分析(analysisofvariance)是由英国统计学家R.A.Fisher于1923年提出方差分析的概念(续)方差分析方差分析法是一种在若干能相互比较的资料组中,把产生变异的原因加以区分开来的方法与技术研究分类型自变量对数值型因变量的影响

一个或多个分类尺度的自变量一个间隔或比率尺度的因变量单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量方差分析的概念(续)例:消费者很想知道哪种车型与油耗关系,比较A,B,C三种车款每加仑可以行驶的里数如下:基本假设假设每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的各总体的观察值是独立的基本思想Q:我们所观察到的样本均值差异是否大到足以推翻上面的零假设?三种汽车每单位汽油的里数皆相同基本思想(续)情形1:样本内的方差很小181920212223CBA基本思想(续)情形2:样本內的方差很大151719212325CBA27基本思想(续)分析逻辑假设从K个总体中抽取大小分别为n1,n2,n3…nk的K个独立随机样本。我们对总体有下列的假设:各总体皆为正态分布,且有共同相同的方差σ2。以u1,u2,…uk

来表示总体的均值,单因子分析检证下零假设H0:u1=u2…=ukvs.H1:至少有两组均值不同基本思想(续)x11x21x31xn1,1x12x22x32xn2,2共有K个总体μ1,σ1μ2,σ2x1kx2kx3kxnk,kμk,σkXiji代表在样本中的序号,i=1,2,…njj代表样本组別,j=1,2,…k基本思想(续)分別來自k总的k个样本第k組样本共有nk个观察值各组样本数可以不同,分别为n1,n2,…nk,总样本数n=n1+n2+…+nk基本思想(续)基本思想(续)总差异=由因子所引起的差异+随机差异总平均因子的影响随机差异的影响基本思想(续)两边取平方和基本思想(续)方差分析是通过各组样本内的变异与组间变异之比较来检证各组平均值是否相等,全体样本数据的总变异量为:即个别观察值与总均值差距的平方和,称为总变离差平方和基本思想(续)方差分析将总方差分解成下列两部分:总离差平方和=组内离差平方和(未解释)+组间离差平方和(已解释)TotalSumofSquares(TSS)=Within-groupSumofSquaresorSumofSquaresWithin(SSW)+Between-GroupSumofSquaresorSumofSquaresBetween(SSB)基本思想(续)随机误差与系统误差随机误差因素的同一水平(总体)下,样本各观察值之间的差异这种差异可以看成是随机因素的影响,称为随机误差

系统误差因素的不同水平(不同总体)下,各观察值之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差基本思想(续)组内方差(withingroups)因素的同一水平(同一个总体)下样本数据的方差组内方差只包含随机误差组间方差(betweengroups)组间方差既包括随机误差,也包括系统误差因素的同一水平(总体)下,样本各观察值之间的差异基本思想(续)例析:若不同车型对油耗没有影响,则组间误差中只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近1若不同车型对油耗有影响,在组间误差中除了包含随机误差外,还会包含有系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响基本思想(续)判断车型对油耗有没有影响,实际上也就是检验具有同方差的三个正态总体的均值是否相等如果三个总体的均值相等,可以期望三个样本的均值也会很接近三个样本的均值越接近,推断三个总体均值相等的证据也就越充分样本均值越不同,推断总体均值不同的证据就越充分基本思想(续)如果原假设成立,即H0:m1=m2=m3三种车型均值都相等意味着每个样本都来自均值为、差为2的同一正态总体Xf(X)123基本思想(续)若备择假设成立,即H1:mi(i=1,2,3)不全相等至少有一个总体的均值是不同的三个样本分别来自均值不同的三个正态总体

Xf(X)3

1

27.3单因素方差分析单因素方差分析组间方差SSA随机抽样造成组内方差SSE总方差SST=+单因素方差分析(续)方差来源自由度总离差平方方差F

Statistic组间

(Factor)c–1SSAMSA=

SSA/(c–1)MSA/MSE组内

(Error)n–cSSEMSE=SSE/(n–c)合计n–1SST=

SSA+SSE单因素方差分析(续)a若是各处理总体间均值差异不大,

则F=MSA

/MSE

»1.总是使用单侧检验呦哟!AlwaysOne-Tail!Fa(c-1,n-c)0RejectH0DoNotRejectH0F单因素方差分析(续)例析:你是生产管理经理,欲知道三台机器的产品装箱平均时间是否有差异。因此你抽选了具相同训练及经验的操作员,并随机指定至此三台机器;每台五人。并测试得到了下列的装箱时间。以显著水平.05,检定三台机器的装箱平均时间是否有差异?

Machine1

Machine2

Machine3

25.40 23.40 20.00

26.31 21.80 22.20

24.10 23.50 19.75

23.74 22.75 20.60

25.10 21.60 20.40单因素方差分析(续)272625242322212019•••••••••••••••TimeinSeconds

Machine1

Machine2

Machine3

25.40 23.40 20.00

26.31 21.80 22.20

24.10 23.50 19.75

23.74 22.75 20.60

25.10 21.60 20.40单因素方差分析(续)F03.89H0:1=2=3H1:不全相等=.05df1=2df2=12临界值:检验统计量:

决策:结论:Rejectat=0.05.Thereisevidencethatatleastoneidiffersfromtherest.=0.05FMSAMSW2358209211256...单因素方差分析(续)方差来源自由度总离差平方和方差F

Statistic组间

(Factor)3-1=247.164023.5820MSA/MSW=25.60组内

(Error)15-3=1211.0532.9211合计15-1=1458.2172多重比较多重比较当方差分析的结果拒绝H0,接受H1

时,只说明k个总体均数不全相等。若想进一步了解哪些两个总体均数不等,需进行多个样本均数间的两两比较或称多重比较(multiplecomparison)。也叫posthoc检验SNK-q检验(多个均数间全面比较)LSD-t检验(有专业意义的均数间比较)Dunnett检验(多个实验组与对照组比较)还有TUKEY、DUNCAN、SCHEFFE、WALLER、BON等比较方法最小绝对离差法哪个总体均值差异显著E.g.,1=2

3后验程序方差分析拒绝原假设后进行配对比较

比较绝对均值绝对差多重比较(续)Xf(X)1=23多重比较(续)1.计算均值差的绝对值;

Machine1

Machine2

Machine3

25.40 23.40 20.00

26.31 21.80 22.20

24.10 23.50 19.75

23.74 22.75 20.60

25.10 21.60 20.402.计算临界值:3.若大于临界值,则拒绝。例子0.05水平上中皆大于临界值,则每对皆显著。

随机区组实验随机区组实验项目被除数分成区组假定完全随机设计处理和区组之间没有交互影响随机区组实验(续)随机区组实验(续)VariationDue

toGroup

SSAVariation

AmongBlocks

SSBVariationAmongAllObservations

SSTCommonlyreferredtoas:SumofSquaresErrorSumofSquaresUnexplainedCommonlyreferredtoas:SumofSquaresAmongAmongGroupsVariation=++VariationDuetoRandomSampling

SSECommonlyreferredtoas:SumofSquaresAmongBlock随机区组实验(续)方差来源自由度总离差平方和方差F

Statistic组间c–1SSAMSA=

SSA/(c–1)MSA/

MSE区组间r–1SSBMSB=SSBL/(r–1)MSB/

MSE误差(r–1)*(c

–1)SSEMSE=SSE/[(r–1)*(c–1)]合计rc–1SST随机区组实验(续)例析:你是生产管理经理,欲知道三台机器的产品装箱平均时间是否有差异。因此你抽选了具不同训练及经验的操作员,每个经验等级五人,指定相同经验的三人分别至此三台机器;并测试得到了下列的装箱时间。以显著水平.05,检定三台机器的装箱平均时间是否有差异?

Machine1

Machine2

Machine3

25.40 23.40 20.00

26.31 21.80 22.20

24.10 23.50 19.75

23.74 22.75 20.60

25.10 21.60 20.40随机区组实验(续)F04.46H0:1=2=3H1:不全相等=.05df1=2df2=8临界值:检验统计量:决策:结论:Rejectat=0.05.Thereisevidencethatatleastoneidiffersfromtherest.=0.05FMSAMSE235821.050322.45.随机区组实验(续)方差来源自由度总离差平方和方差F

Statistic组间2SSA=

47.164MSA=

23.58223.582/1.0503=22.452区组间4SSB=

2.6507MSB=.6627.6627/1.0503=.6039误差8SSE=

8.4025MSE=1.0503合计14SST=

58.21727.4两因素方差分析两因素方差分析概念分析两个因素(行因素Row和列因素Column)对试验结果的影响如果两个因素对试验结果的影响是相互独立的,这时的双因素方差分析称为无交互作用的双因素方差分析

(Two-factorwithoutreplication)如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析

(Two-factorwithreplication)两因素方差分析(续)基本假定每个总体都服从正态分布对于因素的每一个水平,其观察值是来自正态分布总体的简单随机样本各个总体的方差必须相同对于各组观察数据,是从具有相同方差的总体中抽取的观察值是独立的两因素方差分析(续)

因子2(训练方式)因子水平Level1Level2Level3Level119hr.J20hr.J22hr.J因子1

(高)11hr.J17hr.J31hr.J(动机

)Level227hr.L25hr.L31hr.L(低)29hr.L30hr.L49hr.L两因素方差分析(续)Xijk因子A之水平i因子B之水平j第k个观察值因子

B因子A12...c1X111X121...X1c1X112X122...X1c22X211X221...X2c1X212X222...X2c2:::::rXr11Xr21...Xrc1Xr12Xr22...Xrc2水平组合称为Cell两因素方差分析(续)交互作用当所选择不同的A、B因子时,cell均值数产生特别的变化。无法以个别因素影响而得到的均值如何使用表或图来观测交互作用在数据表上计算出每一细格的平均数在图上相对应的列与行间绘出该格平均数的位置两因素方差分析(续)在不同动机(高,低)下及不同训练方式(A,B,C)下,以图形了解学习平均时间之交互作用有交互作用(interaction)无交互作用(nointeraction)平均时间ABC高动机低动机平均时间ABC高动机低动机两因素方差分析(续)SSEVariationDuetoFactorAVariationDuetoRandomSamplingVariationDuetoInteractionSSASSABSSTVariationDuetoFactorBSSB总方差d.f.=n-1d.f.=r-1=++d.f.=c-1+d.f.=(r-1)(c-1)d.f.=rc(n’-1)两因素方差分析(续)方差来源自由度离差平方和方差F

Statistic因素A

(行)r–1SSAMSA=

SSA/(r–1)MSA/

MSE因素B

(列)c–1SSBMSB=SSB/(c–1)MSB/

MSEAB

(交互)(r–1)(c–1)SSABMSAB=

SSAB/[(r–1)(c–1)]MSAB/

MSE误差r*c*(m

–1)SSEMSE=SSE/[r*c*(m

–1)]合计R*c*(m

–1)SST两因素方差分析(续)例解:你是菲尔营销公司的分析师,你想要了解产品在架上不同位置会对产品的销售产生何种的影响。今随机抽选了三种大小的店面、配合了四种不同的架位。并选取架位配合店面大小各重复两店。使用a=.05,检验所有各种效应并下结论VO-5VO-5VO-5SUAVESUAVEPERTPERTPERT两因素方差分析(续)

架上位置

(B)

店的大小

(A)

1

2

3

4

小型

45

50

56

63

65

71

48

53

中型

57

65

69

78

73

80

60

57

大型

70

78

75

82

82

89

71

75

两因素方差分析(续)SourceofVariationDegr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论