概率统计第八章_第1页
概率统计第八章_第2页
概率统计第八章_第3页
概率统计第八章_第4页
概率统计第八章_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率统计第八章第1页,课件共76页,创作于2023年2月§8.1方差分析例8.1.0

在饲料养鸡增肥的研究中,某研究所提出两种饲料配方:A1是以鱼粉为主的饲料,A2是以树粉为主的饲料。为比较两种饲料的效果,特选16只相似的雏鸡随机均分为两组,每组各喂一种饲料,60天后观察它们的重量。试验结果如下表所示:饲料A鸡重(克)A110731009106010011002101210091028A21107109299011091090107411221001第2页,课件共76页,创作于2023年2月分析:本例中,我们要比较的是两种饲料配方下鸡的平均重量是否相等。这是两总体均值的比较问题,可以采用两样本均值差的假设检验方法来处理。两样本假设检验中,一个分类变量把试验数据分为两组,要研究这两组的均值有没有显著差异。

例8.1.0,分类变量:饲料配方(2种)试验数据:鸡的重量第3页,课件共76页,创作于2023年2月8.1.1

问题的提出

实际工作中我们经常碰到多个(>2)正态总体均值的比较问题,处理这类问题通常采用所谓的方差分析方法。第4页,课件共76页,创作于2023年2月例8.1.1

在饲料养鸡增肥的研究中,某研究所提出三种饲料配方:A1是以鱼粉为主的饲料,A2是以树粉为主的饲料,A3是以苜蓿粉为主的饲料。为比较三种饲料的效果,特选24只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量。试验结果如下表所示:第5页,课件共76页,创作于2023年2月表8.1.1

鸡饲料试验数据

饲料A鸡重(克)A110731009106010011002101210091028A21107109299011091090107411221001A310931029108010211022103210291048第6页,课件共76页,创作于2023年2月

分析:

本例中,我们的目的是比较三种饲料配方下鸡的平均重量是否相等,假设检验的方法不再适用。方差分析就是对多个总体均值进行比较最常用的一种统计方法.

方差分析中,一个分类变量把试验数据分为多组,要研究多组样本数据的均值有没有显著差异。例8.1.1,分类变量:饲料配方(3种)试验数据:鸡的重量第7页,课件共76页,创作于2023年2月方差分析中,将分类变量称为因子,试验数据称为指标。

本例中,有3种饲料,每种饲料获得了8个试样。

因子(分类变量):饲料,记为A;

水平(因子不同取值):三种不同的配方的饲料记为A1,A2,A3;

指标(试验数据):鸡的重量,记为yij

,表示使用配方Ai下第j只鸡60天后的重量,i=1,2,3,j=1,2,,10。方差分析的结论是因子的不同水平对指标有无显著影响。第8页,课件共76页,创作于2023年2月8.1.2

单因子方差分析的统计模型

在例8.1.1中我们只考察了一个因子,称其为单因子试验。

通常,在单因子试验中,记因子为A,设其有r个水平,记为A1,A2,…,Ar.在每一水平下考察的指标可以看成一个总体,现有r个水平,故有r个总体,假定:第9页,课件共76页,创作于2023年2月1、正态性:每一总体均为正态总体,记为N(i,

i2),i=1,2,…,r;2、方差齐性:各总体的方差相同:1

2=22

=…=

r2=

2

;3、独立性:从每一总体中抽取的样本是相互独立的,即所有的试验结果yij都相互独立。

第10页,课件共76页,创作于2023年2月我们要比较各水平下的均值是否相同,即:H0

:1=2=…=r

(8.1.1)备择假设为H1

:1,2,…,r

不全相等在不引起误解的情况下,H1常可省略不写。

H0成立:因子A的r个水平均值相等,因子水平A没有显著差异,简称因子A不显著;

H0不成立:因子A的r个水平均值不全相同,因子A的不同水平间有显著差异,简称因子A显著。

第11页,课件共76页,创作于2023年2月记yij表示水平Ai下的第j次观察结果,则一共得如下n=rm个试验结果:

yij,

i=1,2,…,r,j=1,2,…,m,

其中r为水平数,m为重复数。单因子试验中,因子为A,设有r个水平A1,A2,…,Ar.设对第i个水平Ai

作了m次重复观察,得到m个试验结果。因子A

试验数据

A1y11

y12

…y1mA2y21

y22

…y2m┆┆Aryr1

yr2

…yrm第12页,课件共76页,创作于2023年2月在水平Ai下的试验结果yij与该水平下的指标均值i一般总是有差距的,即有yij=

i+ij

(8.1.2)

其中i

表示水平Ai下的均值,ij为随机误差。(8.1.2)式称为试验结果yij的数据结构式。

第13页,课件共76页,创作于2023年2月

单因子方差分析的统计模型:yij=

i+ij,1≤i≤r,1≤j≤m

(8.1.3)

假定ij满足:●ij相互独立●同方差,零均值●正态分布(ij~N(0,2))

总均值与效应:

称诸i的平均为总均值.

而称第i水平下的均值i与总均值

的差:

ai=i-为Ai的效应。

第14页,课件共76页,创作于2023年2月模型(8.1.3)可以改写为

(8.1.8)

即观察值yij表示为总平均数μ、水平效应αi、试验的随机误差εij之和。假设(8.1.1)可改写为

H0

:a1

=a2=…=ar=0(8.1.9)

第15页,课件共76页,创作于2023年2月方差分析的实质就是检验多个正态总体均值是否相等。方差分析是将r个水平的试验数据作为一个整体看待,试验数据波动由两方面引起:因子水平的不同引起;偶然误差引起。方差分析的基本思想:试验数据波动分解成两部分,一部分反映由因子水平不同引起的波动,另一部分反映由试验误差引起的波动。总偏差平方和分解为反映必然性的各个因子的偏差平方和与反映偶然性的误差平方和,并计算它们的平均偏差平方和(方差)。将两者进行比较,借助F检验法,检验假设H0:μ0=μ1=μ2=…=μ,从而确定因素对试验结果的的影响是否显著。方差分析(analysisofvariance)是由统计学家Fisher于1923年提出的。第16页,课件共76页,创作于2023年2月8.1.3

平方和分解

一、试验数据通常在单因子方差分析中可将试验数据列成如下页表格形式。第17页,课件共76页,创作于2023年2月表8.1.2

单因子方差分析试验数据

因子水平

试验数据

行和

行平均

A1y11

y12

…y1mT1A2y21

y22

…y2mT2┆┆┆┆Aryr1

yr2

…yrmTrT第18页,课件共76页,创作于2023年2月数据间是有差异的。数据yij与总平均间的偏差可用yij

表示,它可分解为二个偏差之和(8.1.10)记二、组内偏差与组间偏差第19页,课件共76页,创作于2023年2月由于

(8.1.11)所以yij-仅反映组内数据与组内平均的随机误差,称为组内偏差(组内变差);而

(8.1.12)除了反映随机误差外,还反映了第i个水平的效应,称为组间偏差(组间变差)。第20页,课件共76页,创作于2023年2月第21页,课件共76页,创作于2023年2月在统计学中,把k个数据y1,y2,…,yk分别对其均值=(y1+…+yk)/k的偏差平方和称为k个数据的偏差平方和,它常用来度量若干个数据分散的程度。三、偏差平方和及其自由度第22页,课件共76页,创作于2023年2月在构成偏差平方和Q的k个偏差y1

,…,yk

间有一个恒等式这说明在Q中独立的偏差只有k1个。在统计学中把平方和中独立偏差个数称为该平方和的自由度,常记为f,如Q的自由度为fQ=k1。自由度是偏差平方和的一个重要参数。

第23页,课件共76页,创作于2023年2月各yij间总的差异大小可用总偏差平方和

表示,其自由度为fT=n1;四、总平方和分解公式仅由重复试验中随机误差引起的数据间的差异可以用组内偏差平方和表示:

也称为误差偏差平方和,其自由度为fe=nr;第24页,课件共76页,创作于2023年2月由于组间差异除了随机误差外,还反映了效应间的差异,故由效应不同引起的数据差异可用组间偏差平方和表示:

也称为因子A的偏差平方和,其自由度为fA=r1;反映的是各水平平均值偏离总平均值的偏离程度。第25页,课件共76页,创作于2023年2月定理8.1.1

在上述符号下,总平方和ST可以分解为因子平方和SA与误差平方和Se之和,其自由度也有相应分解公式,具体为:

ST=SA+Se,fT=fA+fe

(8.1.16)(8.1.16)式通常称为总平方和分解式。

第26页,课件共76页,创作于2023年2月偏差平方和Q的大小与自由度有关,为了便于在偏差平方和间进行比较,统计上引入了均方和的概念:MS=Q/fQ

,其意为平均每个自由度上有多少平方和,它比较好地度量了一组数据的离散程度。

8.1.4检验方法第27页,课件共76页,创作于2023年2月对因子平方和SA与误差平方和Se之间进行比较,用其均方和MSA=SA

/fA

,MSe=Se

/fe进行比较更为合理,故可用作为检验H0的统计量。第28页,课件共76页,创作于2023年2月定理8.1.2

在单因子方差分析模型(8.1.8)及前述符号下,有

(1)Se/

2~

2(nr),从而E(Se)

=(nr)

2

,进一步,若H0成立,则有SA/

2~

2(r1)(2)SA与Se独立。

由定理8.1.2,若H0成立,则检验统计量F服从自由度为r-1和n-r的F分布.第29页,课件共76页,创作于2023年2月如果H0不成立,则所以,即H0不成立时,有大于1的趋势。所以H0为真时的小概率事件应取在F值较大的一侧。因此拒绝域为

W={FF1(fA,fe)},cF单侧检验第30页,课件共76页,创作于2023年2月构造检验的统计量

(F分布与拒绝域)如果均值相等,F=MSA/MSE1a

F分布F1-

(r-1,n-r)0拒绝H0不能拒绝H0F第31页,课件共76页,创作于2023年2月通常将单因子方差分析的计算过程列成一张表格,称为方差分析表。表8.1.3

单因子方差分析表来源平方和自由度均方和F比因子SAfA=r1MSA=SA/fAF=MSA/MSe误差Sefe=nrMSe=Se/fe总和STfT=n1第32页,课件共76页,创作于2023年2月对给定的,可作如下判断:若F<

F1(fA,fe)

,则说明因子A不显著。该检验的p值也可利用统计软件求出,若以Y记服从F(fA,fe)的随机变量,则检验的

p值为p=P(YF)。如果F>=F1(fA,fe),则认为因子A显著;第33页,课件共76页,创作于2023年2月常用的各偏差平方和的计算公式如下:

(8.1.19)

一般可将计算过程列表进行。

第34页,课件共76页,创作于2023年2月例8.1.2

采用例8.1.1的数据,将原始数据减去1000,列表给出计算过程:表8.1.4例8.1.2的计算表水平数据(原始数据-1000)TiTi2A17396012129281943763610024A210792-101099074122158534222560355A3932980212232294835412531620984113350517791363第35页,课件共76页,创作于2023年2月利用(8.1.19),可算得各偏差平方和为:把上述诸平方和及其自由度填入方差分析表第36页,课件共76页,创作于2023年2月表8.1.5例8.1.2的方差分析表

来源平方和自由度均方和F比因子9660.083324830.04173.5948

误差28215.9584211343.6171总和37876.041723若取=0.05,则F0.95

(2

,21)=3.47

,由于F=3.5948>3.47,故认为因子A(饲料)是显著的,即三种饲料对鸡的增肥作用有明显的差别。

第37页,课件共76页,创作于2023年2月8.1.5参数估计

在检验结果为显著时,我们可进一步求出总均值、各主效应ai和误差方差2的估计。

第38页,课件共76页,创作于2023年2月一、点估计由模型(8.1.8)知诸yij相互独立,且yij~N(+ai,2)

,因此,可使用极大似然方法求出一般平均、各主效应ai和误差方差2的估计:由极大似然估计的不变性,各水平均值i的极大似然估计为,由于不是2的无偏估计,可修偏:第39页,课件共76页,创作于2023年2月由于可给出Ai的水平均值i的1-的置信区间为

其中。

二、i

的置信区间第40页,课件共76页,创作于2023年2月例8.1.3

继续例8.1.2,此处我们给出诸水平均值的估计。因子A的三个水平均值的估计分别为从点估计来看,水平2(以槐树粉为主的饲料)是最优的。

第41页,课件共76页,创作于2023年2月误差方差的无偏估计为利用(8.1.23)可以给出诸水平均值的置信区间。此处,,若取=0.05

,则t1-

/2(fe)=t0.95(21

)=2.0796,于是三个水平均值的0.95置信区间分别为第42页,课件共76页,创作于2023年2月在单因子试验的数据分析中可得到如下三个结果:

因子是否显著;

试验的误差方差2的估计;

诸水平均值i的点估计与区间估计。

在因子A显著时,通常只需对较优的水平均值作参数估计,在因子A不显著场合,参数估计无需进行。第43页,课件共76页,创作于2023年2月8.1.6重复数不等情形单因子方差分析并不要求每个水平下重复试验次数全相等,在重复数不等场合的方差分析与重复数相等情况下的方差分析极为相似,只在几处略有差别。

数据:设从第i个水平下的总体获得mi个试验结果,记为yi1

,yi2…,yim

,i=1,2,…r,统计模型为:

(8.1.24)

第44页,课件共76页,创作于2023年2月总均值:诸i的加权平均(所有试验结果的均值的平均)(8.1.25)称为总均值或一般平均。

效应约束条件:

各平方和的计算:SA的计算公式略有不同

第45页,课件共76页,创作于2023年2月例8.1.4某食品公司对一种食品设计了四种新包装。为考察哪种包装最受顾客欢迎,选了10个地段繁华程度相似、规模相近的商店做试验,其中二种包装各指定两个商店销售,另二个包装各指定三个商店销售。在试验期内各店货架排放的位置、空间都相同,营业员的促销方法也基本相同,经过一段时间,记录其销售量数据,列于表8.1.6左半边,其相应的计算结果列于右侧。

第46页,课件共76页,创作于2023年2月表8.1.6销售量数据及计算表

包装类型

销售量

miTiTi2/miA11218230450468A2141213339507509A319172135710831091A4243025414581476和n=10T=180第47页,课件共76页,创作于2023年2月由此可求得各类偏差平方和如下

方差分析表如表8.1.8所示

.若取=0.01,查表得F0.99(3,6)=9.78,由于F=11.22>9.78,故我们可认为各水平间有显著差异。

第48页,课件共76页,创作于2023年2月表8.1.7例8.1.4的方差分析表

来源平方和自由度均方和F比因子A25838611.22误差e4667.67总和T3049第49页,课件共76页,创作于2023年2月由于因子显著,我们还可以给出诸水平均值的估计。因子A的四个水平均值的估计分别为由此可见,第四种包装方式效果最好。误差方差的无偏估计为第50页,课件共76页,创作于2023年2月进一步,利用(8.1.23)也可以给出诸水平均值的置信区间,只是在这里要用不同的mi代替那里相同的m。此处,,若取=0.05,则t1-/2(fe)=t0.95(6)=2.4469,,于是效果较好的第三和第四个水平均值的0.95置信区间分别为

第51页,课件共76页,创作于2023年2月§8.2

多重比较

8.2.1效应差的置信区间如果方差分析的结果因子A显著,则等于说有充分理由认为因子A各水平的效应不全相同,但这并不是说它们中一定没有相同的。就指定的一对水平Ai与Aj,我们可通过求i-j的区间估计来进行比较。

第52页,课件共76页,创作于2023年2月由于,故由此给出i-j的置信水平为1-的置信区间为

(8.2.1)其中是2的无偏估计。这里的置信区间与第六章中的两样本的t区间基本一致,区别在于这里2的估计使用了全部样本而不仅仅是两个水平Ai,Aj下的观测值。第53页,课件共76页,创作于2023年2月例8.2.1

继续例8.1.2,,fe=21,取=0.05

,则t1-/2(fe)=t0.975(21)=2.0796,于是可算出各个置信区间为

可见第一个区间在0的左边,所以我们可以概率95%断言认为1

小于2,其它二个区间包含0点,虽然从点估计角度看水平均值估计有差别,但这种差异在0.05水平上是不显著的。

第54页,课件共76页,创作于2023年2月8.2.2多重比较问题

在方差分析中,如果经过F检验拒绝原假设,表明因子A是显著的,即r个水平对应的水平均值不全相等,此时,我们还需要进一步确认哪些水平均值间是确有差异的,哪些水平均值间无显著差异。同时比较任意两个水平均值间有无明显差异的问题称为多重比较,多重比较即要以显著性水平同时检验如下r(r1)/2个假设:(8.2.2)

第55页,课件共76页,创作于2023年2月直观地看,当H0ij成立时,不应过大,因此,关于假设(8.2.2)的拒绝域应有如下形式

诸临界值应在(8.2.2)成立时由P(W)=确定。可分重复数相等和不等分别介绍临界值的确定。

第56页,课件共76页,创作于2023年2月

8.2.3重复数相等场合的T法

在重复数相等时,由对称性自然可以要求诸cij相等,记为c.记,则由给定条件不难有

第57页,课件共76页,创作于2023年2月于是当(8.2.2)成立时,1==r=,可推出其中,称为t化极差统计量,其分布可由随机模拟方法得到。于是,其中q1(r,fe)表示q(r,fe)的1分位数,其值在附表8中给出。第58页,课件共76页,创作于2023年2月重复数相同时多重比较可总结如下:

1、对给定的的显著性水平,查多重比较的分位数q(r,fe)表,计算;

2、比较诸与c的大小,若则认为水平Ai与水平Aj间有显著差异,反之,则认为水平Ai与水平Aj间无明显差别。这一方法最早由Turkey提出,因此称为T法。

第59页,课件共76页,创作于2023年2月8.2.4重复数不等场合的S法在重复数不等时,若假设(8.2.2)成立,则或从而可以要求,在此要求下可推出第60页,课件共76页,创作于2023年2月可以证明,从而亦即第61页,课件共76页,创作于2023年2月

例8.2.3

在例8.1.4中,我们指出包装方式对食品销量有明显的影响,此处r=4,fe=6,

,若取

=0.05,则F0.95(3,6)=4.76。注意到m1=m4=2,m2=m3=3,故第62页,课件共76页,创作于2023年2月由于这说明A1,A2,

A3间无显著差异,A1,A2与A4有显著差异,但A4与A3的差异却尚未达到显著水平。综合上述,包装A4销售量最佳。

第63页,课件共76页,创作于2023年2月§8.3方差齐性检验

在进行方差分析时要求r个方差相等,这称为方差齐性。理论研究表明,当正态性假定不满足时对F检验影响较小,即F检验对正态性的偏离具有一定的稳健性,而F检验对方差齐性的偏离较为敏感。所以r个方差的齐性检验就显得十分必要。所谓方差齐性检验是对如下一对假设作出检验:(8.3.1)

第64页,课件共76页,创作于2023年2月很多统计学家提出了一些很好的检验方法,这里介绍几个最常用的检验,它们是:

Hartley检验,仅适用于样本量相等的场合;

Bartlett检验,可用于样本量相等或不等的场合,但是每个样本量不得低于5;

修正的Bartlett检验,在样本量较小或较大、相等或不等场合均可使用。

第65页,课件共76页,创作于2023年2月8.3.1Hartley检验

当各水平下试验重复次数相等时,即

m1=m2==mr=m,Hartley提出检验方差相等的检验统计量:(8.3.2)

这个统计量的分布无明显的表达式,但在诸方差相等条件下,可通过随机模拟方法获得H分布的分位数,该分布依赖于水平数r

和样本方差的自由度f=m1,因此该分布可记为H(r,f),其分位数表列于附表10上。

第66页,课件共76页,创作于2023年2月直观上看,当H0成立,即诸方差相等(12=22==r2)时,H的值应接近于1,当H的值较大时,诸方差间的差异就大,H愈大,诸方差间的差异就愈大,这时应拒绝(8.3.1)中的H0。由此可知,对给定的显著性水平,检验H0的拒绝域为

W={H>H1(r,f)}

(8.3.3)其中H1(r,f)为H分布的1分位数。

第67页,课件共76页,创作于2023年2月

例8.3.1

有四种不同牌号的铁锈防护剂(简称防锈剂),现要比较其防锈能力。数据见表8.3.1。这是一个重复次数相等的单因子试验。我们考虑用方差分析方法对之进行比较分析,为此,首先要进行方差齐性检验。第68页,课件共76页,创作于2023年2月本例中,四个样本方差可由表8.3.1中诸Qi求出,即由此可得统计量H的值

=0.05时,由附表10查得H0.95(4,9)=6.31,由于H<6.31,所以应该保留原假设H0,即认为四个总体方差间无显著差异。

第69页,课件共76页,创作于2023年2月8.3.2Bartlett检验

在单因子方差分析中有r个样本,设第i个样本方差为:由于几何平均数总不会超过算术平均数,故有GMSe≤MSe

,其中

等号成立当且仅当诸si2彼此相等,若诸si2间的差异愈大,则此两个平均值相差也愈大。

第70页,课件共76页,创作于2023年2月由此可见,在比值GMSe/MSe较大时,就意

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论