试验统计学演示稿7章方差分析⑴_第1页
试验统计学演示稿7章方差分析⑴_第2页
试验统计学演示稿7章方差分析⑴_第3页
试验统计学演示稿7章方差分析⑴_第4页
试验统计学演示稿7章方差分析⑴_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试验统计学第四章概率论与数理统计的基础知识本课程使用区靖祥编著的《试验统计学》一书作为课本。全程为50学时,占2学分。第二章常用的试验设计第三章试验数据的整理第五章参数区间估计第八章常用试验设计的资料分析第六章统计假设测验第七章方差分析第九章直线相关与回归第一章绪论第十章协方差分析上一章中讨论了对一个总体、两个总体和多个总体的方差的测验,对一个总体、两个总体和多个总体的计数资料百分数的测验和对一个总体、两个总体平均数的测验,唯独没有提到对多个总体平均数的测验。本章中就讨论对多个总体平均数的测验方法,那就是方差分析(AnalysisofVariance,或简称ANOVA)第七章方差分析第二节处理平均数间的多重比较第一节方差分析的基本原理第三节方差分量的估计第七章方差分析第四节单向分类资料的方差分析第五节两向分类资料的方差分析第六节系统分组资料的方差分析第七节方差分析的基本假设和数据转换

对于多个总体平均数的测验仍然如前面一章的所有测验那样分为三个步骤:㈠对所研究的总体参数提出一对假设;㈡在无效假设HO为正确的前提下,研究样本统计量的抽样分布;㈢根据“小概率原理”决定接受还是拒绝HO。只是具体操作上有些区别。第一节方差分析的基本原理

方差分析的数学模型和基本的计算过程第一节方差分析的基本原理如果收集了若干个(比如说

k

个)样本,欲知道它们各自所来自的总体的平均数是否都相等,需要使用方差分析方法。在这里,被测验的假设是HO:

1=

2=…=

kvsHA:并非所有

i都相等

为了讨论方便,对代表数据的符号作一些约定。

方差分析的思路第一节方差分析的基本原理方差分析的基本思路是将试验数据的总变异分解为已知的若干可控因素引起的变异,扣除这些可控因素引起的变异后,把剩余的变异当作为由误差引起的,再将要考察的因素引起的变异与误差引起的变异比较,如果待考察的因素引起的变异显著地大于误差引起的变异,便判定该因素对试验指标有显著的效应,拒绝HO,接受HA;否则,判定该因素对试验指标没有显著的效应,接受HO,拒绝HA。数据的变异是用方差(或称为均方)来衡量的。又因为方差是平方和与自由度的商,因此总变异的分解体现为总平方和的分解和总自由度的分解。

总体的线性可加模型及平方和的分解第一节方差分析的基本原理方差分析是建立在一定的线性可加模型的基础上的,所谓线性可加模型是指每个观察值可以视为若干线性组成部分之和。例如,如果有一个大小为N的总体,各个体的观察值分别为X1,X2,…,XN。那么第

j

个体的观察值Xj就可以看作为总体平均数

和观察到该个体时的误差

j之和,即。又如果将一个大总体,再划分为k个亚总体。那么,。其中,并且。如果没有随机误差则;有了试验误差之后,。注意:所有的

2都没有下标,即所有亚总体的方差都是相等的。

总体的线性可加模型及平方和的分解第一节方差分析的基本原理又如果将一个大总体,再划分为k个亚总体。那么,。其中,并且。如果没有随机误差则;有了试验误差之后,。可以将

i进一步分解为。即如果所有k个亚总体的平均数

i都没有区别的话,其总体平均数都应该等于

。但是如果各个亚总体的平均数有所区别,第i个亚总体的总体平均数

i应该比总的总体平均数

多出一个增值

i,即

。将这两步合并,便得到数学模型:

总体的线性可加模型及平方和的分解第一节方差分析的基本原理将数学模型右边的

移到左边得:,两边平方得:

将所有观察值的分解式相加,得总平方和的分解式:

两层连加号中,i从第1个亚总体加到第k个亚总体,j从该亚总体第1个观察值加到最后一个观察值。

如果试验误差与处理效应无关,右边的中间项应该为0。于是上式变成为:即:总体的总平方和分解为组间平方和和误差平方和。对于有限总体,可以利用这些平方和和各总体中的个体数计算出总方差、组间方差和误差方差。大多数情况下,这些总体都是无限总体,但我们可以想象它们中也存在着这三种方差。

样本的线性可加模型及平方和、自由度的分解第一节方差分析的基本原理

于是样本的总平方和也可以进行相应的分解:如果各种平均数是经过四舍五入而得到的近似数,用上述公式计算总平方和、组间平方和和误差平方和时都可能引入较大的计算误差。经过适当的代数恒等式变换,可以将它们都转化为计算公式。

如果从上述总体中随机抽取得象如前表那样的样本,用作为

的估计值,用作为

i的估计值,用ti作为

i的估计值,用eij作为

ij的估计值,得样本数学模型:或简记为SST=SSt+SSe。SSt称为样本的组间平方和,SSe称为样本的组内平方和或样本的误差平方和。

样本的线性可加模型及平方和、自由度的分解第一节方差分析的基本原理

各种样本平方和的计算公式:校正项即:总平方和即:组间平方和即:误差平方和即:

误差平方和=总平方和-各种可控因素的平方和

建议记忆这些文字描述,比强记用英文字母表示的公式要容易得多,而且具有普遍意义。

样本的线性可加模型及平方和、自由度的分解第一节方差分析的基本原理总自由度的分解:总自由度dfT=nk

-1,即:总自由度=观察值总数-1组间自由度dft=k

-1,即:组间自由度=组数-1误差自由度dft=dfT

dft=k(

n

-1),即:

误差自由度=总自由度-各种可控因素的自由度将各项平方和除以相应的自由度就得到各项方差:组间方差(或称组间均方)MSt=SSt/dft

=SSt/(k-1),误差方差(或称误差均方)MSe=SSe/dfe

=SSe/[k(n-1)]。可以通过F

测验,用样本的方差比F

=MSt/MSe来判断相应的总体方差是否相等。

将整个计算过程归纳起来,可以得到一个方差分析表,有了方差分析表,整个分析过程就一目了然了。方差分析表(ANOVAtable)第一节方差分析的基本原理如果F≤F0.05,则判断差异不显著,说明组间均方中的差异仅仅是试验误差而已,各组之间没有实质性的差异存在;如果F>F0.05,则判断差异显著,这时在F值右上角注一个星号“*”,说明组间均方中不但含有试验误差,而且确实含有各组间的、由于观察值处于不同的组所引起的差异;如果F>F0.01,则判断差异极显著,这时在F值右上角注两个星号“**”,说明组间具有极显著的差异。方差分析表变异来源自由度平方和均方F值F0.05F0.01组间dft=k-1SStMStF=MSt/MSe

误差dfe=k(n-1)SSeMSe

总变异dfT=nk-1SST

举一个简单例子说明整个计算过程。第一节方差分析的基本原理例7.1现有四个水稻品种A、B、C和D,完全随机地种在一个划分为12个小区的试验地中,每品种种了3个小区。田间排列和小区产量如图7.1所示。欲了解这四个品种的产量是否相同。这里只有一个可控因素(即品种),因此称为单向分类的资料。当然它也是考察因素。

C(3)A(2)D(8.5)B(6)A(3)B(8)A(4)C(5)C(7)D(9.5)B(10)D(10.5)6.3759.558376.528.51524910.571049.55838.5362合计

DCBA品种第一节方差分析的基本原理例7.1现有四个水稻品种A、B、C和D,完全随机地种在一个划分为12个小区的试验地中,每品种种了3个小区。田间排列和小区产量如图7.1所示。欲了解这四个品种的产量是否相同。这里只有一个可控因素(即品种),因此称为单向分类的资料。当然它也是考察因素。

D(10.5)B(10)D(9.5)C(7)C(5)A(4)B(8)A(3)B(6)D(8.5)A(2)C(3)6.3759.558376.528.51524910.571049.55838.5362合计

DCBA品种

HO:

1=

2=

3=

4=

vsHA:并非所有

i都等于

C.T.=76.52/12

=487.6875

总自由度:dfT

nk-1=12-1=11

SST

=(2-6.375)2+(3-6.375)2+…+(10.5-6.375)2或=(22+32+…+10.52)-C.T.=97.0625

总平方和:第一节方差分析的基本原理例7.1现有四个水稻品种A、B、C和D,完全随机地种在一个划分为12个小区的试验地中,每品种种了3个小区。田间排列和小区产量如图7.1所示。欲了解这四个品种的产量是否相同。这里只有一个可控因素(即品种),因此称为单向分类的资料。当然它也是考察因素。

HO:

1=

2=

3=

4=

vsHA:并非所有

i都等于

C.T.=76.52/12

=487.6875

总自由度:dfT

nk-1=12-1=11

SST

=(2-6.375)2+(3-6.375)2+…+(10.5-6.375)2或=(22+32+…+10.52)-C.T.=97.0625

总平方和:方差分析表

变异来源自由度

平方和

F值

F0.05

F0.01

间误

差总变异1197.0625第一节方差分析的基本原理例7.1现有四个水稻品种A、B、C和D,完全随机地种在一个划分为12个小区的试验地中,每品种种了3个小区。田间排列和小区产量如图7.1所示。欲了解这四个品种的产量是否相同。这里只有一个可控因素(即品种),因此称为单向分类的资料。当然它也是考察因素。

HO:

1=

2=

3=

4=

vsHA:并非所有

i都等于

C.T.=76.52/12

=487.6875

组间自由度:dft

k

-1

=4-1

=3SSt=3×(3-6.375)2+…+3×(9.5-6.375)2或

=(92+242+152+28.52)/3-C.T.=77.0625组间平方和:1197.0625方差分析表

变异来源自由度

平方和

F值

F0.05

F0.01

间误

差总变异1197.0625377.0625第一节方差分析的基本原理例7.1现有四个水稻品种A、B、C和D,完全随机地种在一个划分为12个小区的试验地中,每品种种了3个小区。田间排列和小区产量如图7.1所示。欲了解这四个品种的产量是否相同。这里只有一个可控因素(即品种),因此称为单向分类的资料。当然它也是考察因素。

HO:

1=

2=

3=

4=

vsHA:并非所有

i都等于

C.T.=76.52/12

=487.6875

组内(误差)自由度:dfe

dfT

-dft

=11-3

=8SSe=[(2-3)2+(3-3)2+(4-3)2]+…+

SST

-SSt

=97.0625-77.0625=20组内(误差)平方和:1197.0625377.0625方差分析表

变异来源自由度

平方和

F值

F0.05

F0.01

间377.0625误

差总变异1197.0625820.0000在计算各项均方和F值,进行F测验。25.68752.500010.2754.077.59**

方差分析的基本假定第一节方差分析的基本原理⑴方差分析是建立在一定的线性可加模型的基础上的,所谓线性可加模型是指每个观察值可以划分为若干个线性组成部分(或称数据具有“可加性”);⑵如果试验误差

ij是随机的、彼此独立的,而且服从平均数为0的正态分布,那么就可以用F测验来比较组间方差与误差方差是否相等(或称误差具有“随机、独立、正态性”);⑶如果k个亚总体的方差相等,计算试验误差时就可以将这k个亚总体的组内平方和合并成整个试验的误差平方和(或称误差方差具有“同质性”)。如果某一试验的数据资料不符合这三个基本假定,而我们使用了方差分析方法对它进行分析,就有可能出现错误的结论。本章最后讨论将一些处理这类数据的方法。

处理效应的固定模型和随机模型第一节方差分析的基本原理

在固定模型中,

i是个常数,具有固定的值;

在随机模型中,

i是个随机变量,其数值随着抽取得的样本不同而变化。下面举例说明这两种模型的区别。

对于前面列出的线性可加模型中的处理效应

i有两种不同的可能情况,一种是固定模型(fixedmodel),另一种是随机模型(randommodel)。

在一个试验的数据中,

i到底是固定模型还是随机模型要看研究的目的而定。第一节方差分析的基本原理此法统计假设为:HO:

A=

B=

C=

DvsHA:并非所有

i都相等或HO:

A=

B=

C=

D

vsHA:并非所有

i都相等

如果差异显著,则需要进行多重比较,看看到底是哪一对品种之间有显著差异。

例7.2

某农业技术推广站引进了3个水稻新品种(ABC),加上当地使用的常用品种(D),共4个品种,进行品

种比较试验,要比较它们的产量高低。

i是各品种平均数

A,

B,

C,

D与总平均数

之差,

i

i-

,是常数,处理效应

i为固定模型。如果实验失败要重做,仍将使用这4个品种。第一节方差分析的基本原理

如果差异显著,则需要估计由于品种不同引起的方差和由于环境条件引起的方差各有多大。

例7.3

某一个水稻育种家手头上有300多个水稻品种,他想了解这些品种的遗传变异情况。他从总体(300个品种)中抽取了4个品种(ABCD),进行遗传试验,求出遗传方差、环境方差等变异量,看看遗传引起的变异在总变异中占多大比重。

这时ABCD只是从300个品种构成的总体中随机抽取得到的四个样本,效应随着抽取得到的样本不同而发生变化,因此

i是随机变量。处理效应为随机模型。

如果实验失败要重做,将需要另外抽取4个品种。此法统计假设为:HO:vsHA:第一节方差分析的基本原理此法统计假设为:HO:

A=

B=

C=

DvsHA:并非所有

i都相等或HO:

A=

B=

C=

D

vsHA:并非所有

i都相等

如果差异显著,则需要进行多重比较,看看到底是哪两支温度表之间有显著差异。例7.4

某实验室有4支温度表(ABCD),试验员想了解它们测量温度的性能是否有显著差别,找了一种熔点非常稳定的物质(例如奎宁),用这4支温度表测量它的熔点,并用方差分析方法进行分析。

i是各温度表平均数

A,

B,

C,

D与总平均数

之差,

i

i-

,是常数,处理效应

i为固定模型。如果实验失败要重做,仍将使用这4支温度表。第一节方差分析的基本原理

如果差异显著,说明这批产品中有太多的次品。应该进行恰当的处理。

例7.5

某医疗器械厂生产了一批温度表(几百支),质量检查员想了解它们测量温度的性能是否一致,从这几百支温度表中,随机抽取了4支(ABCD),测量奎宁的熔点,并用方差分析方法进行分析,并通过对这4支样本的情况来推断总体(整批几百支)的情况。

这时ABCD只是从几百支温度表构成的总体中随机抽取得到的四个样本,效应随着抽取得到的样本不同而发生变化,因此

i是随机变量。处理效应为随机模型。

如果实验失败要重做,将需要另外抽取4支温度表。此法统计假设为:HO:vsHA:

期望均方第一节方差分析的基本原理

在处理效应有固定模型和随机模型两种,每个样本方差估计些什么理论成分,对于构成F

测验的比率是非常重要的。:方差分析表中列出的各项均方都仅仅是样本方差,它们所估计的总体成分称为期望均方(EMS)。首先,误差

ij总是随机的,其方差

2用表示。

在固定模型中,处理效应

i为常数。记它们之间的方差为。于是或的期望值为,

的期望值为

2。

因此F

测验为:。如果F

测验显著,说明不为0,处理间确实有实质性的差异存在。

期望均方第一节方差分析的基本原理

在处理效应有固定模型和随机模型两种,每个样本方差估计些什么理论成分,对于构成F

测验的比率是非常重要的。:方差分析表中列出的各项均方都仅仅是样本方差,它们所估计的总体成分称为期望均方(EMS)。首先,误差

ij总是随机的,其方差

2用表示。

在随机模型中,处理效应

i为随机变量。仍记它们之间的方差为。于是或的期望值为,

或的期望值为

2。

因此F

测验为:。如果F

测验显著,说明不为0,如果研究目的要求的话,就要对各种方差分量进行估计。

如果处理效应是固定模型并且处理间差异显著,可采用多重比较来了解到底是哪两个品种之间有显著差异。我们只拟介绍多重比较的三种方法:一、最小显著差数法(LSD法或

t

测验法)三、最小显著极差法之二(新复极差法或

Duncan

法)二、最小显著极差法之一(复极差法或

q

测验法)第二节处理平均数间的多重比较

选择多重比较方法的原则

其它多重比较结果的表示方法一、最小显著差数法(LSD法或

t

测验法)第二节处理平均数间的多重比较把第六章中的

t

测验法稍微改一改。例如,如果共有A、B、C、D四组处理,则有k(k-1)/2=4(4-1)/2=6对比较,它们分别是:H0:μA=μB

vsHA:μA≠μB

用与t0.05比较H0:μA=μC

vsHA:μA≠μC

用与t0.05比较H0:μA=μD

vsHA:μA≠μD

用与t0.05比较H0:μB=μC

vsHA:μB≠μC

用与t0.05比较H0:μB=μD

vsHA:μB≠μD

用与t0.05比较H0:μC=μD

vsHA:μC≠μD

用与t0.05比较在上一章的两两比较中,各自的

t

用各自的计算。由于所有这些都是相应的总体方差的估计值。而在方差分析中,我们曾假定过所有亚总体的都相等,并且都等于

2,因此,在多处理的试验中,将所有组的组内差异合并平均将是更好的误差估计。即用代替各个进行计算。当ni=nj=n时,用计算,称标准误差,记为SE。

其中的MSe为方差分析表中的误差均方,n为计算每个平均数所用到的观察值个数。

于是,这六对比较便成为:SESESESESESE判别规则变成:当时差异显著。

为方便,将上式改写为当时差异显著。记,。将所有处理按平均数从大到小排列,计算出各对比较的平均数之差,将所有这些比较列成一个梯形表,如表7.5所示。再与LSD0.05、LSD0.01比较,就可以很方便地知道那一对差异显著了。

本例中,MSe=2.5,n=3,,dfe=8时,t0.05=2.306,t0.01=3.355,于是:,表7.5例7.1的多重比较梯形表(LSD法)处理名称平均数D9.56.5**4.5**1.5

B8.05.0**3.0*C5.02.0A3.0

读者可能会说,既然最后还是要做

t

测验,开始的时候何必做方差分析F测验呢?理由是:⑴

在有多个处理时,由合并的组内均方估计误差,比只用两个样本的信息对误差进行估计要准确些;⑵如果6个t测验都要求有95%的可靠性,即

=0.05。那么整个试验中,出现判错的概率就变成了

=1-0.956=0.2649。即尽管对各个测验的显著水准为

=0.05,但整个试验总的可靠性降低了(1-0.2649=0.7351),或者说犯第Ⅰ类错误的可能性(概率)增加了。

因此,要在F

测验显著后才进行多重比较,以保证不会出现太大的第Ⅰ类错误。这一规则称为费雪氏保护(Fisher’sprotection)。为了减少第I类错误,人们便去寻找其它多重比较的方法。第二节处理平均数间的多重比较Student、Newman和Keul发现当只有两个平均数进行比较的时候,t测验法的结果还是比较理想的,只是当这两个平均数之间插入了另一些平均数的时候,就容易犯第I类错误,因此,他们提出对于间隔不同的平均数采用不同的比较标准,那就是最小显著极差法的基本思路。

q

测验法(或称SNK测验或NK测验)是最小显著极差法之一,其具体做法是:⑴利用方差分析表中的误差均方计算试验的标准误差SE,注意方根号内的分子部分只有MSe!分母则与LSD法一样,n为计算各个平均数时用到的观察值数目;⑵从附表8查出g等于2~k的q0.05和q0.01值。乘上SE计算出

判别标准:LSR0.05=q0.05×SE

LSR0.01=q0.01×SE。⑶做一个样本平均数差数的梯形表,将样本间的平均数差数与相应g值的LSR0.05

和LSR0.05值比较。

本例中,MSe=2.5,n=3,,表7.5例7.1的多重比较梯形表(q

测验法)处理名称平均数D9.56.5**4.5*1.5

B8.05.0*3.0*C5.02.0A3.0用df=8查得的q值

作比较的判别标准g234g234q0.053.264.044.53LSR0.052.973.694.14q0.014.745.636.2LSR0.014.335.145.66减少了第I类错误,又可能增加了犯第II类错误的概率。第二节处理平均数间的多重比较

Duncan

提出了一种新的比较标准,用它进行多重比较,犯两类统计错误的可能性均居于前述两种方法之间。它的具体做法与

q

测验法一模一样,只是用一张Duncan氏的SSR表代替

q

表。

本例中,MSe=2.5,n=3,,表7.5例7.1的多重比较梯形表(Duncan测验法)处理名称平均数D9.56.5**4.5*1.5

B8.05.0**3.0*C5.02.0A3.0用df=8查得的SSR值

作比较的判别标准

g234g234SSR0.053.263.393.47LSR0.052.973.093.16SSR0.014.745.005.14LSR0.014.334.564.69可以看到:当g=2时三种判别是一样的;但g>2时LSD的判别标准最小;Duncan

法的判别标准居中;Q

测验的判别标最高,即最难推翻H0。

第二节处理平均数间的多重比较

现在把三种多重比较的判别标准列出来比较一下:作比较的判别标准

g234LSR0.052.973.093.16LSR0.014.334.564.69

LSD法:LSD0.05=2.97,LSD0.01=4.33

q

测验法:作比较的判别标准g234LSR0.052.973.694.14LSR0.014.335.145.66

Duncan法:第二节处理平均数间的多重比较

现在把三种多重比较的比较结果列出来比较一下:表7.5例7.1的多重比较梯形表(LSD法)处理名称平均数D9.56.5**4.5**1.5

B8.05.0**3.0*C5.02.0A3.0表7.5例7.1的多重比较梯形表(q

测验法)处理名称平均数D9.56.5**4.5*1.5

B8.05.0*3.0*C5.02.0A3.0表7.5例7.1的多重比较梯形表(Duncan测验法)处理名称平均数D9.56.5**4.5*1.5

B8.05.0**3.0*C5.02.0A3.0事实上,对于一个具体的试验资料,选用那种方法进行多重比较,是完全根据试验的目的而定的。第二节处理平均数间的多重比较比方:发展少先队员时,应采用LSD法;发展共青团员时,可以采用Duncan测验法;发展共产党员时,应采用

q

测验法。一般地说:如果只要求把某些处理与试验中的对照处理进行比较时,可采用LSD法;

进行高级筛选时,可考虑使用

q

测验法;一般情况下,常采用

Duncan

法。当处理数比较多时,用梯形表来表示多重比较的结果就可能要列出一个很宽的表格。因此在一些特别的场合,如要从计算机的屏幕输出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论