




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章方差分析(一)第一节方差分析原理(一个性质、两个分布、三个假定)第二节单向分组数据(各组观察值个数有相同和不相同之分)第三节多向分组数据(含两向分组、三向分组实例)第四节三个假定与数据转换(正态性、可加性、同质性)第五章要点提示方差分析是本课程的重点,它与试验研究联系最为密切。学习时①要从完全随机设计(单向分组)的试验数据着手,结合显著性检验的知识,深刻理解方差分析原理的全部内涵,即一个性质、两个分布和三个假定(某些情况下作数据转换的必要性);②区分LSR法多重比较与t-test的异同点;③重点掌握单因素随机区组和拉丁方试验结果的方差分析法,能熟练地运用字母法标记多重比较结果。涉及教材内容:第六章第一、二、四、六节,第十二章前三节。作业布置:教材第六章第三节内容自习;
教材P128T6、T9;
P245T6、T7。第五章方差分析(一)
第一节方差分析原理方差分析(analysisofvariance),缩写词原为ANOVA,现在也用AOV。
它是对多个样本平均数进行假设测验的方法,因为对三个以上的平均数差异进行比较时,采用只能就一个或两个样本平均数差异进行显著性测验的方法已不敷应用,例如:例5.1以A.B.C.D四种药剂处理水稻种子(k=4),每个处理各得4个苗高观察值(n=4),且T=336,Ӯ=21,试予分析。解本例需要分析两个方面的问题:⑴水稻种子经不同药剂处理后苗高是否有显著差异(即存在本质差别)?⑵若有显著差异的话,在哪些药剂之间?药剂水稻苗高TtӮtSSA18212013721838B20242622922320C10151714561426D282729321162914
如果按第三章的方法,直接进行显著性检验,就要孤立地对以下6个两两差数做t-test,即:顺序Ӯt
Ӯt-14Ӯt-18Ӯt-23D2915116
B2395
A184C14第一节方差分析原理一、数据整理
根据方差分析的先决条件,在“三个假定”成立的前提下,对右表继续整理:C=T2/nk=3362/16=7056SST=ΣΣ(Y-Ӯ
)2=ΣΣY2-C=182+212+……+322-7056=602dfT=nk-1=4×4-1=15二、平方和、自由度的分解
Y-Ӯ=(Y-Ӯt)+(
Ӯt-Ӯ)两边同时平方得:(Y-Ӯ)2=(Y-Ӯt)2+(
Ӯt-Ӯ)2
+2(Y-Ӯt)(
Ӯt-Ӯ)由同一处理重复观察值的……累加:Σ(Y-Ӯ)2=Σ(Y-Ӯt)2+Σ(Ӯt-Ӯ)2
+2(
Ӯt-Ӯ)Σ(Y-Ӯt)〔=0〕Σ(Y-Ӯ)2=Σ(Y-Ӯt)2+n(
Ӯt-Ӯ)2药剂原始数据TtӮtSSA18212013721838B20242622922320C10151714561426D282729321162914再把全部处理观察值的……累加,得:ΣΣ(Y-Ӯ)2=ΣΣ(Y-Ӯt)2+nΣ(
Ӯt-Ӯ)2即:SST=(组内)SSe+
(组间)SSt其中SSt=nΣ(
Ӯt-Ӯ)2=Σ
Tt
2
/n-C=(722+922+562+1162
)/4
-7056=504于是SSe=SST-
SSt=602-504=98=SS1
+
SS2
+
SS3
+SS4=
38+20+26+14dft=k-1=3dfe=dfT-dft=15-3=df1
+
df2
+
df3
+df4=
3+3+3+3=12
第一节方差分析原理三、列ANOVA表,进行F-test
变异来源
DFSSMSFF0.01
处理350416820.56**5.95误差12988.17总15602
(F值右上角标一个*达到0.05,标两个**达到0.01)这里进行的F-test与第三章(Ho:σ大2≤σ小2)的相同之处是都做右尾测验,查的是同一张F临界值表;不同之处是固定用误差方差Se2作分母(Ho:σt2≤σe2
),而不论其相对大小。显然,F值越大,说明处理效应引起的数据变异不仅在量的方面所占比重较大,而且相对于误差引起的变异来讲显得越重要、越突出;本例F-test结果显示极显著,表明原始数据的总变异主要由不同的药剂种类引起,各处理之间至少有两个存在着(极)显著差异。以上一、二、三就是R.A.Fisher创建的方差分析法,其原理归纳如下:㈠平方和与自由度的可加性;
SST
综合了全部观察值的变异量,它汇总了各变异来源(SOV)导致原始数据和全试验平均数(Ӯ
)出现差异的分量,包括可控因素分量和误差分量两类;“可加性”证实前者就是观察值按可控因素分组后算得的组间平方和(可控因素可以是试验因素,也可以是象区组那样的其它系统因素)。试验设计有几个可控因素,数据就会有几种可能的分组方式,也就可以算出几个组间SS,而本属于组内SS的误差分量在平方和分解时总是由SST减去所有可控因素SS得到,因此它又被称为“剩余平方和”。
自由度的剖分与平方和的剖分一一对应。㈡依据F分布进行整体测验;只确定可控因素分量和误差分量的相对重要程度是否达到显著水平。
第一节方差分析原理四、多重比较
R.A.Fisher创建的方差分析法并没有明确(极)显著差异究竟存在于哪些“组平均数”之间,F值(极)显著所包含的信息只有通过对C2n=k(k-1)/2个两两差数进行多次连续性测验才能完全揭露出来,这就是多重比较。多重比较不论用哪一种方法,区别于多次孤立的t-test或者说体现其“连续性”特征之处有两个,一是必须使用同一个共用的概率尺(标准误,记为“SE”),本例SE=√MSe/n=√8.17÷4=1.43cm;二是所依据的抽样分布由计算MSe即Se2的自由度dfe决定,并根据两两差数秩次距“P”的不同而有所修正。如本例P=2、3、4,测验时依据dfe=12的t分布并在P=3和4时修正为SSR分布如右。
顺序Ӯt
Ӯt-14Ӯt-18Ӯt-23D2915
11
6
B239
5
A18
4C14ν=12,P=2→←SSR=t√2ν=12,P=3→ν=12,P=4→
3.33↓
3.23↓3.08↓
第一节方差分析原理附表8列出了各自由度对应的t分布曲线再按9种秩次距修正出来的SSR分布当两尾概率取0.05和0.01时临界值,记为SSR0.05和SSR0.01,其中P=2的那一条因为实际就是t分布曲线压缩横坐标刻度所得,所以表中列出的SSR0.05和SSR0.01就分别等于附表4所列t0.05和t0.01的√2倍;其它P≥3的SSR分布随着P的递增,对t分布的修正幅度加大,因此表中列出的SSR0.05和SSR0.01也就随之递增。多重比较测验两两差数的显著性时不是将它除以SE转换成SSR(也是标准化变量!)后再与SSR0.05和SSR0.01比大小,而是先将SSR0.05和SSR0.01乘以SE算出“显著尺”LSR,再将它们直接和相应秩次距的两两差数比大小,超过LSR0.05标*,超过LSR0.01标**。
顺序Ӯt
Ӯt-14Ӯt-18Ӯt-23D2915
11
6
B239
5
A18
4C14ν=12,P=2→←SSR=t√2ν=12,P=3→ν=12,P=4→
3.33↓
3.23↓3.08↓第二节单向分组数据
单向分组数据指观察值仅按一个方向分组的数据。如试验中将全部供试单位(试验材料)随机地分成若干组,然后各组给以不同处理,即同组供试单位受相同处理,不同组受不同处理,这样所得的全部观察值在设计上称为完全随机试验数据,而实际研究中象例5.1那样的调查结果也属此类。一、各组观察值个数相等
例5.2有一水稻施肥的盆栽试验,设5个处理(k=5),A和B分别施用两种不同工艺流程的氨水,C施碳酸氢铵,D施尿素,每盆折合纯氮1.2g,E作对照即不施氮肥。每个处理4盆(n=4),nk=20盆(试验规模)完全随机排列于同一网室中,各盆得稻谷产量(试验指标)列表如右,试予分析。处理小区稻谷产量TtӮtA2430282610827.0B272421269824.5C3128253011428.5D3233332812631.5E212216218020.0
1、数据整理C=T2/nk=5262/20=13833.8SST=ΣΣ(Y-Ӯ
)2=ΣΣY2-C=242+302+……+212-13833.8=402.2dfT=nk-1=4×5-1=19第二节单向分组数据2、平方和、自由度的分解SSt=nΣ(
Ӯt-Ӯ)2=Σ
Tt
2
/n-C=301.2
=(1082+982+1142+1262
+802
)/4
-13833.8于是SSe=SST-
SSt=402.2-301.2=101dft=k-1=4dfe=dfT-dft=19-4=153、列ANOVA表,进行F-test
假设是Ho:σt2≤σe2而不是Ho:σt2=σe2
(和
Ho:μA=μB=μC=μD=μE效果一样)SOVDFSSMSFF0.01
处理4302.275.311.19**4.89误差151016.73总19402.24、多重比较SE=√MSe/n=√6.73÷4=1.297g处理小区稻谷产量TtӮtA2430282610827.0B272421269824.5C3128253011428.5D3233332812631.5E212216218020.0再根据附表8的SSRα进而算得显著尺:PSSR0.05SSR0.01LSR0.05LSR0.013.014.17
3.905.413.16 4.37
4.105.673.25 4.50 4.225.8453.314.584.295.94第二节单向分组数据本例的多重比较结果以三角梯形表表述如下:Ӯt
0.05Ӯt
-20Ӯt
-24.5Ӯt
-27.0Ӯt
-28.531.5a11.5**7.0**4.5*3.028.5ab8.5**4.01.5
27.0b7.0**2.524.5b4.5*
20.0cӮt
31.528.5
27.0
24.5
20.0第二节单向分组数据二、各组观察值个数不相等
例5.3某病虫测报站,调查四种不同类型的稻田各7、6、8、7共28块,每块田所得到的稻纵卷叶螟的百丛虫口密度观察值如右表,试予分析。1、数据整理
C=T2/Σni=3272/28=3818.9SST=ΣΣ(Y-Ӯ
)2=ΣΣY2-C=122+132+……+122-3818.9=226.1dfT=Σni-1=28-1=27
可加性原理与前面例5.1、例5.2一样:
SST=组间SSt+组内SSedfT=组间dft+组内dfe
虫口密度数据TtӮtni甲1213141515161710214.577乙1410111314117312.176丙921011121312118010.008丁1211109810127210.297k=4T=327Σni=28由于各组观察值个数ni不全相等,方差分析过程部分计算公式随之改变,须注意其与前面例5.1、例5.2的区别!第二节单向分组数据2、平方和、自由度的分解SSt=Σ(
Tt
2
/ni)-C=96.1
=(1022/7+732/6+802/8+722/7
)
-3818.9于是SSe=SST-
SSt=226.1-96.1=130dft=k-1=3dfe=dfT-dft=27-3=243、列ANOVA表,进行F-test
假设是Ho:σt2≤σe2而不是Ho:σt2=σe2
(和
Ho:μA=μB=μC=μD=μE效果一样)SOVDFSSMSFF0.01
处理396.132.035.91**4.72误差24130.05.42总27226.14、多重比较SE=√MSe/no=√5.42÷6.98=0.88虫口密度数据TtӮtni甲1213……1710214.577乙1410……117312.176丙92……118010.008丁1211……127210.297按dfe=24查得SSR临界值后比较如下:PLSR
顺序Ӯt0.05
0.01
0.050.01甲14.57a
A2.573.48乙12.17ab
AB2.703.64丁10.29b
B2.773.73丙10.00b
B第三节多向分组数据试验统计过程中,象前面三例那样只需按不同试验处理(即一个可控因素)对数据进行分组是很不够的,因为农业及生物学领域所进行的试验研究由于受自然条件的制约,导致试验所得各观察值出现差异的可控因素决不仅仅局限于试验因素。比如在实施了局部控制的试验方案设计中,各区组之间的差别就反映了系统因素效应,此时的试验数据除了要按不同试验处理分组之外,还必须按不同的区组进行分组。由于区组可以不止一个方向,这就产生了两向甚至三向分组数据的分析问题,前者最典型的是随机区组试验数据,后者则以拉丁方试验结果为代表,两者都是经典试验设计与统计分析内容;并且和完全随机试验一样,可以是单因素试验,也可以是复因素试验。鉴于复因素试验要专门安排一章来讲授,本节只介绍单因素随机区组和拉丁方试验数据的方差分析。
例5.4
用生长素作用于豌豆,连对照共6个处理。待种子发芽后,分别在每盆中移植四株,每组(一个重复)分为6盆,每盆一个处理。试验共4组,排于温室时只保证同组各盆的环境条件一致。观察值为每盆见第一朵花时记录的四株豌豆(试验单元)的总节间数,结果如下表,试予方差分析。第三节多向分组数据SST=处理SSt+区组SSr+剩余SSedfT=处理dft+区组dfr+剩余dfeSSt=Σ
Tt
2
/n-C=(2432+2632+2452+2552
+2532
+2502
)/4
-C=65.87SSr=Σ
Tr
2
/k-C=(3752+3822+3772+3752)/6
-C=5.45SSe=SST-
SSt
-
SSr=114.62-65.87-5.45=43.3dft=k-1=5dfe=dfT-dft-
dfr=23-5-3=15处理\区组ⅠⅡⅢⅣTtӮt对照6062616024360.8赤霉素6565686526365.8动力精6361616024561.3吲哚乙酸6467636125563.8硫腺嘌呤6265626425363.3马来酸6162626525062.5
Tr3753823773751509一、数据整理n=4k=6nk=24(随机区组)C=T2/nk=15092/24=94878.38SST=ΣΣ(Y-Ӯ
)2=ΣΣY2-C=602+622+……+652
-94878.38=114.62dfT=nk-1=4×6-1=23
二、SST、dfT的分解第三节多向分组数据三、列ANOVA表,进行F-test(假设是Ho:σt2≤σe2而不是Ho:σt2=σe2
)SOVDFSSMSFF0.01区组35.451.82<13.29处理565.8713.174.56**4.56误差1543.32.89总23114.62
总有人用区组SS、DF算MS并进行F-test,这样做不妥当:①区组之间的差异是试验设计时实行局部控制、转化系统因素效应收到的效果,只参与SST、dfT的分解以控制试验误差;②一个区组安排了试验方案的一个完整重复,区组数就是重复次数,但“重复区组”只是构成了估计抽样误差的必要条件,不能提供其自身(区组之间)差异是否显著的信息。四、多重比较SE=√MSe/n=√2.89÷4=0.85再根据附表8的SSRα进而算得显著尺:P23456SSR0.053.013.163.253.313.36SSR0.014.17
4.374.504.584.64LSR0.052.562.692.762.812.85LSR0.013.543.713.823.893.94顺序Ӯt0.050.01赤霉素65.8aA吲哚乙酸63.8abAB硫酸腺嘌呤63.3abcAB马来酸62.5bcAB动力精61.3bcB对照60.8cB第三节多向分组数据一、数据整理n=k=5nk=25C=T2/nk=8822/25=31116.96SST=ΣΣY2-C=815.04=372+382+……+412-31116.96dfT=nk-1=5×5-1=24
三、列ANOVA表,进行F-testSOVDFSSMSFF0.05行4348.64列46.64品种4271.4467.864.33*3.26误差12188.3215.69总24815.04
不要试图对横行区组(行)或纵行区组(列)进行F-test!二、SST、dfT的分解SSt=Σ
Tt
2
/n-C=271.44=(1772+2082+1682+1662
+1632)/5
-CSSr=Σ
Tr
2
/k-C=348.64=(1952+1912+1472+1872+1622)/5
-CSSc=Σ
Tc
2
/k-C=6.64=(1742+1772+1762+1742+1812)/5
-CSSe=SST-
SSt
-
SSr-
SSc=188.32=815.04-271.44-348.64-6.64
dft=k-1=dfr=dfc=n-1=4dfe=dfT-dft-
dfr-
dfc
=24-4-4-4=12第三节多向分组数据四、多重比较SE=√MSe/n=√15.69÷5=1.7再根据附表8的SSRα算得显著尺:P2345SSR0.053.083.233.333.36SSR0.014.32
4.554.684.76LSR0.055.455.725.895.95LSR0.017.648.038.288.43顺序Ӯt0.050.01B41.6aAA35.4bABC33.6bABD33.2bBE32.6bB多向分组数据不能象单向分组数据那样有各组观察值个数相同和各组观察值个数不相同两种数据结构,因为试验设计决定了其数据中各组观察值个数必须相同。即使试验实施后因为不可抗拒的原因使得个别小区观察值缺失而导致该组观察值个数少于其它组,也要按“最小二乘法”在却失小区算出一个估计值补进去才能进行方差分析,此时的“缺区估计”值无任何实际意义,纯粹是为了使方差分析时获得的误差平方和取最小值而确定的算术值,换句话说,没有获得观察值的小区只有用缺区估计值参与方差分析才能使算出的误差平方和为最小值。第四节三个假定与数据转换在显著性检验一章知,针对两个小样本的平均数进行t-est时,只有方差同质(即两个样本方差S2经F-test不显著)的情形才能合并方差进而求算t值。在例5.1中介绍SS、df的可加性时,对组内SSe、dfe进行分析,知其实质就是多个样本的合并方差,既然方差分析说到底依然是对多个样本平均数的两两差数做若干次连续的显著性检验(SSR-test或q-test),自然也应该在多个样本的方差合并之前证实它们同质才行,这可是方差分析的条件问题!即使是多元统计分析中建立生产过程的回归模型(现代生物统计技术)也少不得这个前提。但本章从例5.1讲到例5.5,也并没有明示上述前提条件是否存在,这是因为这些例题所用的原始数据已从其来源和性质进行“把关”,并根据其变化特点予以“把握”,使方差的同质(也叫“齐性”)有了一个基本的保证,具体有三条:⑴根据数据的来源和性质,判断其是否符合方差分析的正态性假定;⑵根据数据各组观察值的变化特点看是否符合方差分析的可加性假定;⑶根据Bartlett-test的结果看多个样本方差是否符合方差分析的同质性假定。第四节三个假定与数据转换①各组观察值必须是用随机方法获得的;②各正态总体的μi与σi2无任何函数关系,或者说μi与σi2彼此独立。因此,首先务必明确方差分析只能用于经过随机排列(分组)设计获得的试验数据,或者是通过随机取样得到的调查结果,不能用于顺序排列(分组)设计获得的试验数据或者未经随机取样得到的调查结果。
二项资料的百分数或统计次数,其实质乃二项总体抽样所得,这类总体的方差是平均数的函数,即σi2=piqi=μi(1-μi),服从的是二项分布;
稀有现象的次数数据,如单位面积内的某种杂草的株数或者昆虫的头数,某块载玻片上细菌群落的计数,每毫升溶液中某种微生物个体数,每个显微镜视野中某种细胞个数等等,它们所属的总体平均数和方差几乎相等μi=σi2,可视其为来自Poisson总体,服从的是泊松分布。以上两类数据因为不符合正态性假定的第②点要求,原则上都不能直接进行方差分析,必须通过数据转换恢复正态性之后才能做方差分析,前者通常进行百分数的反正弦转换,后者通常进行统计次数的平方根转换或者对数转换。第四节三个假定与数据转换例5.6研究华农二号玉米花粉在不同贮存条件下的生活力:⑴花粉粒盛于烧杯内,上盖纱布,存放在冰箱中;⑵花粉粒盛于烧杯后,置于干燥器内,再存放在冰箱中;⑶花粉粒盛于烧杯内,在室温下贮存。都经4h贮存后在显微镜下检查6个视野中有活力的花粉数(只有作CK用的检查新鲜花粉),结果如下:
二项资料百分数的反正弦转换就是将成数p的平方根视为三角函数之正弦值,反过来求其反正弦值,也就是转化为0—90°的角度数,教材有附表供查阅。若所有的百分数都介于30%—70%之间,则因为p与q相差不悬殊,所服从的二项分布很接近正态分布,因此可不做反正弦转换,直接进行方差分析。本例的百分数有许多>70%的,和<30%一样,必须进行数据转换。二项资料的百分数p(%)转换后的反正弦值sin-1√pTt
Ӯt
979182857877CK80.072.564.967.262.061.3407.968.0957772645668⑴77.161.358.153.148.455.6353.658.9937875766371⑵74.762.060.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学辅导员考试题库:学生职业生涯规划指导策略与技巧试题
- 酒仓施工方案
- 2025年乡村医生农村中医适宜技术中医老年病科试题集
- 花卉花架施工方案
- 2025年小学语文毕业升学考试全真模拟卷(文学名著阅读)-名著与生活实际联系试题
- 沙滩整治施工方案
- 2025年贺州货运上岗证考试题答案
- 2025年黔东南考从业资格证货运试题
- 2025年吴忠货运从业资格证考试题库a2
- 2025年漳州考货运从业资格证
- 小学五年级下册体育教案_(全册)
- 客户受电工程竣工检验意见书(南网)
- 多媒体课件制作流程图
- MT_T 695-1997 煤矿用高倍数泡沫灭火剂通用技术条件_(高清版)
- 《商业发票》word版
- 土地使用权(住宅用地)市场比较法评估测算表
- DFMEA全解(完整版)
- 《教案封面设计》word版
- 奥迪A4L汽车驱动桥的结构设计毕业设计
- (最新整理)世界水利发展史
- 超市新员工进职[新版]ppt课件
评论
0/150
提交评论