生物统计学-chapter一方差分析基本原理_第1页
生物统计学-chapter一方差分析基本原理_第2页
生物统计学-chapter一方差分析基本原理_第3页
生物统计学-chapter一方差分析基本原理_第4页
生物统计学-chapter一方差分析基本原理_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四节

方差分析***ysis

of

Variance

(ANOVA)—方差分析的基本原理度分解二平方和和三

F测验

四多重比较五方差分析的线性模型与期望均方六方差分析的基本假定和数据转换若有k个处理,则要作k(k-1)/2次两个平均数的差异显著性检验假定每次比较的显著水平均为0.05,则至少犯一次Type

1

error的概率为:1-(1-0.05)10=0.401325如:5个平均数的比较,采用t测验法要进行C=10次两个平均数的差异显著性检验多个平均数间的差异显著性测验方差分析

( ysis

of

variance)是计学家R.A.Fisher于1923年提出由英的。是将总变异分解为各个变异来源的相应部分,从而发现各种变异原因在总变异中相对重要程度的一种统计分析方法。从总变异中扣除了各种试验原因所引起的变异后,剩余变异为试验误差的无偏估计。—

方差分析的基本原理假设某单因素试验有k个处理,每个处理有n次重复,则共有nk个观测值。这类试验资料的数据模式:(一)、方差分析的线性模型处理合计 平均1X

11X

12…X

1j…X

1nT1X

1.2X

21X

12…X

2j…X

2nT2X

2.………………………iX

i1X

i2…X

ij…X

inTiX

i.………………………kX

k1X

k2…X

kj…X

knTkX

k.T=ΣTi=Σxij

T

X..观察值表中xij

表示第i个处理的第j个观测值(i=1,2,…,k;j=1,2,…,n);Ti表示第i个处理n个观测值的和;T表示全部观测值的总和;xi.表示第i个处理的平均数;x..表示全部观测值的总平均数;

处理

X

1jX

2j…Xij…12…i…kX

11

X

12X

21

X

12…

…Xi1

Xi2…

…Xk1

Xk2………………Xkj………………合计

平均X

1n

T1

X

1.X

2n

T2

X

2.…

…Xin

Ti

Xi.…

…XknTkT=ΣTi=ΣxijXk.

T

X..观察值表中数据所代表总体的线性模型为:

i

i

jxij式中μ—全试验总体的平均数;τi—试验处理效应,εij—随机误差当以样本表示时,样本的线性模型为式中x是µ的无偏估计;ti

是τi的无偏估计,eij是随机误差

x

ti

ei

jxij从上面两个公式可知:引起每个观察值出现变异的原因有处理效应(τi或ti

)和试验误差(εij或eij

)。二、平方和与度的分解方差是平方和与度的商,要将整个试验资料的方差分解为各个来源的相应方差,首先须将平方和与度分解为相应的部分。单因素试验的总均方(方差)可分解为处理间均方和处理内均方。i1

j

1

ij

nk(

x

)2k

nT22ij

..

ij

x

)

x

SS

(x

1、总平方和的分解

总变异的平方和是各观测值xij与总平均数的离均差平方和,记为SST。即:nk

nkT

2x

)C

2(

ijC称矫正数k

ni1

j1k

ni1

j1nk

ni1kij1i1i(x

.k

ni1

j1iijx..)(x

iik

ni1

j1ij

ii(x

.ij2(xij

xi.)2(xij

xi.)]

[(x

.

x..)x..)

22xi

.)

(xij

x

.)2(x

.

x..)

2(x

.2x

.)x..)

(x

2(x

x..)因为=0SSt,即:所以k

n

k

k

n(xij

x..

)2

n(xi.

x..

)2

(xij

xi.)2i1

j

1

i1

i1

j

1ki1n(xi

.

x..)2

为各处理平均数与总平均数的离均差平方和与重复数n的乘积,反映了重复n次的处理间变异,称为处理间平方和,记为kSSt

n(xi

.

x..)

2i1k

n上式中,(xij

xi.)2为各处理内离均差平i1

j

1方和之和,反映了各处理内的变异即误差,称为处理内平方和或误差平方和,记为SSe,即k

nSSe

(xij

xi.

)

2i1

j

1于是有SST

=SSt

+SSe平方和的计算

CnTnknTn

nkT

2

n(Ti

)2

nk(

T

)2x

n

n

nx

n

ii

i

i

ii

i

i

2

nkx

2222222x

2nkx

2

nkx

2x

2nx

x

n

x

2

)(x

2x

x)2SSt

n(xi

x三个平方和的计算公式SSt

Cikijx2k

nTSS

T

2

i1

Cni1

j

1SSe

SST

SSt2、总度的分解总

度记为dfT,dfT=nk-1。处理间

度dft,

dft

=k-1处理内

度dfe,

dfe

=kn-k=K(n-1)度分解式为nk-1=(k-1)+k(n-1)各部分平方和除以各自的

度便得到总均方、处理间均方和处理内均方,

分别Tt记为

MST(或

S

2

)、MSt(或

S

2)和eMSe(或S

2

)。TMST

S

2

SS

/

dfT

TtMSt

S

2

SS

/

dft

tMSe

S

2

SS

/

dfe

e

e例题:以A、B、C、D四种药剂处理水稻,其中A为对照,每处理各得4个苗高观察值(cm),其结果见下表,试分解其平方和与度。药剂苗高观察值合计TiA182120137218B202426229223C101517145614D2827293211629T=336x平均值xi这是一个单因素试验,处理数k=4,重度计算如下:复数n=4。各项平方和及矫正数C=T2/nk=3362/(4×4)=7056总平方和dfT=nk-1=

4×4-1=15SS

x2

Cij

182

212

322

7056

602T(722

922

562

1162

)

C

504141n2SS

T

C

it处理间平方和dft=k-1=4-1=3处理内平方和SSe

SST

SSt

602

504

98dfe=K(n-1)=4×

(4-1)=12进而得各项变异的均方/方差总变异均方MST=SST/dfT=602/15=40.13处理均方MSt=SSt/dft=504/3=168.00误差均方Mse=SSe/dfe=98/12=8.17三、F

分布与F

测验1、F分布在一正态总体N(μ,σ2)中随机抽取样本含量为n1和n2的两个样本分别求得其均方s1

和s2

,统计学上把两个均方之比值称2

2为F值。即F

=s12

/

s22若在给定的n1和n2的条件下,按上述方法进行一系列抽样,则可获得一系列的F

值。这些F

值所具有的概率分布称为F

分布。F

分布曲线是随

度υ1(

n1

–1)

、υ2

n2–1)而变化的一组偏态曲线,其形态随着υ1、

υ2的增大逐渐趋于对称。F分布的取值范围是(0,+∞)2、F

测验用F

值出现概率的大小推断两个总体方差是否相等的方法称为

F

测验(F

-test)。进行F

测验目的在于推断处理间的差异是否存在。计算F

值时以被测验因素的方差作分子,误差均方作分母。如在单因素试验结果的方差分析中,无效假设为H0:μ1=μ2=…=μk,备择假设为HA:各μi不全相等。F=MSt/MSe,可以判断处理的效应是否存在,也就是要判断处理间均方是否显著大于处理内(误差)均方。如果F<1,不必查F表即可确定P>0.05,应接受H0。若F≥

即P≤0.01,接受HA,标记“**”。若F<

即P>0.05,

否定H0,各处理间差异不显著,标记“ns”;若

F0.05(df1

,df

2

)

F

F0.01(df1

,df

2

)即0.01

<P

<0.05标记“*”;1

2F0.05(df

,df

)F0.01(df1

,df

2

)【例题】:不同药剂处理水稻观察苗高的试验中,测验不同药剂处理的效应是否相同?算出:

MSt

=168.00,

df1=3MSe=8.17,

df2=12药剂苗高观察值合计Ti平均值ABCD18

21

20

1320

24

26

2210

15

17

1428

27

29

32729256116T=336x

2118231429xi则:

F=MSt

/MSe=168.00/8.17=20.56**根据df1=3,df2=12

查附表5,得F0.05(3,12)=3.49

,F0.01(3,12)=5.95因为

F>F0.01(3,16)

,

P<0.01推断:药剂间的变异显著大于药剂内变异,不同药剂对水稻苗高具有不同的效应。结果表示:在方差分析中,通常将变异来源、度、平方和、均方和F值归纳成一张方差分析表。变异来源dfSSMSF药剂处理间3504168.0020.56**药剂处理内(误差)12988.17总变异15602水稻药剂处理苗高方差分析表四、多重比较统计上把多个平均数间的相互比较称为多重比较(multiple

comparisons)。常用的有最小显著差数

SD法)、复极差法(q法)和最小显著极差法(SSR法)

。如果则这两个平均数在α水平上显著。LSD的实质是两个平均数相比较的t测验法。首先计算出显著水平为α的最小显著差数LSDα。然后用任两个平均数的差与LSDα比较.(一)最小显著差数

SD法)(least

significant

difference)x1

x2

LSD式中:t

(dfe

)为F检验中误差

度由则a(dfe

)axi.

xj

.LSD

t

S时,显著水平为α的临界t值,Sx

.

x

.为平均i

j数差数的标准误,当两样容量相等时。i.

j.Sx

2MSe

/

n

x其中

MSe

为F检验中的误差均方,n为各处理的重复数。当显著水平α

=0.05和0.01时,从t值表中查出

t0.05(dfe

)

t0.01(df

)e,得:LSD0.05

t0.05(df

)

Sx

xe

i.

j

.LSD0.01

t0.01(df

)

Sx

xe

i.

j

.LSD法多重比较的步骤:列出平均数的多重比较表:各处理按其平均数从大到小排列,计算任两个平均数的差;计算最小显著差数LSD0.05

和LSD0.01

;将任两个平均数的差数与LSD0.05

和LSD0.01

比较,作出统计推断。例题:四种药剂处理水稻后对苗高的影响药剂苗高观察值合计Ti平均值xiA182120137218B202426229223C101517145614D2827293211629T=336x=21变异来源dfSSMSF药剂处理间3504168.0020.56**药剂处理内(误差)12988.17总变异15602水稻药剂处理苗高方差分析表当df=12时,t0.05=2.179,t0.01=3.055LSD

0.05=

t0.05

×LSD

0.01=

t0.01

×=4.40(cm)=6.18(cm)不同药剂处理对水稻苗高影响的多重比较。

2MSe

/

n

28.17

/

4

2.02Sx

xi

.

j

.Sx

.

x

.i

jSx

.

x

.i

jXi-236*Xi-1811**5*处理 平均数

Xi-14D

29

15**B

23

9**A

18

4C

14差

异(二)复极差法当随机抽取k(k>2)个样本时,随机极差与k=2是不同的。根据极差范围内平均数个数不同,分别确定最小显著极差(Least

significantranges,LSR)LSRα。1、q

法q

法的尺度构成为LSRα

=qα;df,

p

·

SESE

MSe

/

n式中α为显著性水平,df为F测验误差度,p

为所有平均数按从大到小排列两极差范围内所包含的平均数个数。SE为平均数的标准误。例题:用q法对不同药剂处理对水稻苗高影响进行多重比较。SE

MSe

/

n

8.14

/

4

1.43查q表(附表7),当df=12时,p=2,3,4的qα值。并计算出尺度值LSRαP

q

0.05q

0.01LSR0.05LSR0.0123.084.324.406.1833.775.055.397.2144.205.506.017.87LSRα

值的计算(q

法)Xi-236*Xi-1811**5*处理

平均数

Xi-14D

29

15**B

23

9**A

18

4C

14与LSD对比不同药剂处理水稻苗高的显著性测验(q法)差

异2、新复极差法(SSR法)q

SR变幅较大,(Duncan)

于1955年提出了新复极差法,最短显著极差法(shortest

significant

ranges,SSR法)。SSR法与q法,唯一不同的是计算最小显著极差时需查SSR表(附表8)。LSRα

=SSRα,df,p

·

SE例题:用SSR法对不同药剂处理对水稻苗高影响进行多重比较。8.14

/

4

1.43SE

MSe

/

n

查SSR表(附表8),当df=12时,p=2,3,4的SSRα值。并计算出尺度值LSRαPSSR0.05SSR0.01LSR0.05LSR0.0123.084.324.406.1833.234.554.626.5143.334.684.766.69LSRα值的计算(SSR法)D

29

15**11**6*B239**

5*A184C14不同药剂处理水稻苗高的显著性测验(SSR法)差

异处理

平均数

Xi-14

Xi-18

Xi-23PSSR0.05SSR0.01LSR0.05LSR0.0123.084.324.406.1833.234.554.626.5143.334.684.766.69LSRα值的计算(SSR法)P

q

0.05q

0.01LSR0.05LSR0.0123.084.324.406.1833.775.055.397.2144.205.506.017.87LSRα值的计算(q

法)SSR和q法尺度的比较(三)多重比较方法的选择:LSD法≤SSR法≤q法即k=2时,取等号;在多重比较中,LSD法的尺度最小,q检验法尺度最大,新复极差法尺度居中。1、与一个对照处理相比,可以采用LSD法。处理之间相互比较可以采用复极差法。2、根据试验的重要性决定。试验事关重大,可采用复极差法(q法)。一般性试验,采用SSR法较为妥当。3、在农业田间试验中,由于试验误差较大,常采用SSR法。(四)多重比较结果的表示法1、梯形表法:将平均数按从大到小顺序排列,然后算出各平均数间的差数,达到显著水平的,在差数右上角标一个“*”号,达到0.01显著水平的,标两个“**”号。Xi-236*Xi-1811**5*处理

平均数

Xi-14D

29

15**B

23

9**A

18

4C

14不同药剂处理水稻苗高的显著性测验(q法)差

异2、标记字母法品种平均产量差异显著性E14.2aAB12.4abAG11.9abABH11.4bABC10.8bcABF10.1bcBA9.8cBD9.0cB品种试验产量的显著性(SSR测验)标记字母法的解读:各平均数间只要有一个相同字母,即为差异不显著,凡无相同字母的即为差异显著。用小写字母表示显著水平α=0.05

,用大写字母表示显著水平α=0.01。此法的优点是占篇幅小,在科技文献中常见。五、遗传模型与期望均方方差分析的线性模型为:i

jiij对总体:x

i

jiij对样本:x

x

t

ex

----µ

的无偏估计;ti

----τi的无偏估计eij----εij的无偏估计(一)遗传模型性模型中,根据研究目的不同,对τi会有不同解释,因此有固定模型和随机模型之分。1、固定模型:试验的每一个处理分别抽自一个特定的总体

N(

µi,δe

2),处理效应τi=µi

-µ是固定的,即是一个常数,并且本次试验的Στi

=0试验的目的在于研究处理本身τi效应的大小。测验的假设为Ho:τi

=0或Ho

:µi=µ。当否定Ho时,需作多重比较。固定模型举例:几个小麦新品种的产量试验,农作物密度、施肥等试验。研究的目的是比较这些处理本身的效应大小。试验结论仅限于供试的特定处理。

2、随机模型:

在单因素试验中,若k个处理并非特别指定,而是从同一个总体N(µ,στ2)中随机抽取的k个样本而已。这种试验目的不是针对这些供试处理本身,而是通过研究τi的变异,对抽出这些处理所在总体的变异(στ2

)进行研究。试验的各个处理是抽自同一总体N(µ,στ2)的一组随机样本,因而在一次试验中处理效应τi=µi-µ是随机的,τi

是一个随量,τi

~N(0,στ2

)。测验的假设为Ho

:στ2=0或HA

:στ2

>0。当否定Ho时,处理方差στ2

是随机模型的重点研究对象。若重复试验时,需从总体中重新随机抽取样本。举例:随机模型某单位从

引进400个玉米自交系,欲评估这批材料的遗传参数,从中随机抽取20个自交系,进行试验。3、混合模型多因素试验中,一个因素为随机,另一个因素为固定的模型称为混合模型。(二)期望均方无偏估计:如果所有可能样本的某一统计数的平均数等于总体的相应参数,则

称该统计数是总体相应参数的无偏估计值。均方的无偏估计值称为期望均方。2t2tE(MS

)

n

2eE(MS

)

处理效应的期望均方在固定模型和随机模型中可能不同。对单因素试验来说:固定模型的期望均方是MSt

=

δ2

+n

κτ2Mse

=

δ2随机模型的期望均方是:MSt

=δ2

+n

δτ2Mse

=δ2两种模型的估计值是相同的。方差分析就是通过MSt

与MSe的比较来推断κτ2或δτ2

是否存在。在固定模型中需要比较各个µi是否相等。但对多因素来说,两种模型将会有较大差别,F测验也将不同。变异来源MS期望均方固定模型随机模型混合模型*A因素MSAδ2+bnκ2αδ2+nδ2αβ+bnδ2αδ2

+bnδ2αB因素MSBδ2+anκ2βδ2+nδ2αβ+anδ2βδ2+nδ2αβ+

anκ2βA×B互作MSABδ2+bnκ2αβδ2+nδ2αβδ2+nδ2αβ误差MSeδ2δ2δ2六、方差分析的基本假定和数据转换方差分析必须满足一定条件方可进行。效应可加性、误差符合正态分布、方差同质性(一)方差分析的基本假定:1、效应的可加性(

Additivity)方差分析的模型均为线性可加模型。这个模型要求各种变异来源的效应是“可加的”。正是由于这一“可加性”,才有了试验观测值总平方和与

度的分解。如:倍性关系不符合“可加性”2、试验误差符合正态分布(normality)据F分布的定义可知,

样本为正态总体的一个随机样本。试验误差应该是相互独立的,且服从正态分布N(0,σ2)。只有在这样的条件下才能进行F检验。这就要求处理要随机。如:二项分布百分数分布的误差不具有正态性。3、方差的同质性(homogeneity)的。各个处理所在总体的方差σ2应是同质,才能将各个处理内的均方成合并均方,以此做为测验各处理差异显著性的共同的误差均方。SSe=SSe1+SSe2+SSe3+SSe4如何判断资料是否符合基本假定?1、凭对资料的了解如二项资料平均数与标准差有相关性。2、方差的同质性测验选取大、中、小处理,简单求其平均数和方差(或极差),判断方差是否相差太大,或与平均数是否相关。对不符合基本条件的资料,可采取以下措施:1、剔除某些表现“特殊”的观察值。2、将全试验误差分解为几个较为同质的试验误差,分别进行方差分析。3、采用几个观察值的平均数作方差分析4、采用相应的数据转换,用转换后的数据作方差分析1、平方根转换此法适用于样本平均数与其方差之间有某种函数关系的资料,尤其是呈泊松分布的次数资料。变换也有利于满足效应的可加性和误差的正态性要求。(二)数据转换(transformation

of

data)原数据x的平方根或多数观测值小于10,则把原数据变换成x

;

若原观测值中有为0的数x

1

。(A1、A2、A3、结果见下表。试例题:一定面积燕麦

A4、A5)的杂草株数进行方差分析。处理A1A2A3A4A533193773155231162620xi395413853835δ944528燕麦某种杂草株数的平方根处理A1A2A3A4A5120.923.28.84.14.2221.020.57.85.65.1317.919.412.39.38.8419.517.77.24.04.5xi19.820.29.05.85.7δ2.32.32.1方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论