第十方差分析_第1页
第十方差分析_第2页
第十方差分析_第3页
第十方差分析_第4页
第十方差分析_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十方差分析第1页,共76页,2023年,2月20日,星期二方差分析及其有关术语第2页,共76页,2023年,2月20日,星期二什么是方差分析(ANOVA)?

(analysisofvariance)检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等研究分类型自变量对数值型因变量的影响一个或多个分类尺度的自变量两个或多个(k个)处理水平或分类一个间隔或比率尺度的因变量有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量第3页,共76页,2023年,2月20日,星期二什么是方差分析?消费者对四个行业的投诉次数行业观测值零售业旅游业航空公司家电制造业12345675766494034534468392945565131492134404451657758【例】为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表第4页,共76页,2023年,2月20日,星期二什么是方差分析?分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响作出这种判断最终被归结为检验这四个行业被投诉次数的均值是否相等若它们的均值相等,则意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;若均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异第5页,共76页,2023年,2月20日,星期二方差分析中的有关术语因素或因子(factor)所要检验的对象要分析行业对投诉次数是否有影响,行业是要检验的因素或因子水平或处理(treatment)因子的不同表现零售业、旅游业、航空公司、家电制造业就是因子的水平观察值在每个因素水平下得到的样本数据每个行业被投诉的次数就是观察值第6页,共76页,2023年,2月20日,星期二方差分析中的有关术语试验这里只涉及一个因素,因此称为单因素四水平的试验总体因素的每一个水平可以看作是一个总体比如零售业、旅游业、航空公司、家电制造业可以看作是四个总体样本数据被投诉次数可以看作是从这四个总体中抽取的样本数据第7页,共76页,2023年,2月20日,星期二方差分析的基本思想和原理第8页,共76页,2023年,2月20日,星期二方差分析的基本思想和原理零售业旅游业航空公司家电制造第9页,共76页,2023年,2月20日,星期二从散点图上可以看出不同行业被投诉的次数是有明显差异的同一个行业,不同企业被投诉的次数也明显不同家电制造被投诉的次数较高,航空公司被投诉的次数较低行业与被投诉次数之间有一定的关系如果行业与被投诉次数之间没有关系,那么它们被投诉的次数应该差不多相同,在散点图上所呈现的模式也就应该很接近方差分析的基本思想和原理第10页,共76页,2023年,2月20日,星期二仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异这种差异也可能是由于抽样的随机性所造成的需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源方差分析的基本思想和原理第11页,共76页,2023年,2月20日,星期二1. 比较两类误差,以检验均值是否相等2. 比较的基础是方差比3. 如果系统(处理)误差明显地不同于随机误差,则均值就是不相等的;反之,均值就是相等的4. 误差是由各部分的误差占总误差的比例来测度的方差分析的基本思想和原理第12页,共76页,2023年,2月20日,星期二方差分析的基本思想和原理

(两类误差)随机误差因素的同一水平(总体)下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数是不同的这种差异可以看成是随机因素的影响,称为随机误差

系统误差因素的不同水平(不同总体)下,各观察值之间的差异比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差第13页,共76页,2023年,2月20日,星期二方差分析的基本思想和原理数据的误差用平方和(sumofsquares)表示,称为方差组内方差(withingroups)因素的同一水平(同一个总体)下样本数据的方差比如,零售业被投诉次数的方差组内方差只包含随机误差组间方差(betweengroups)因素的不同水平(不同总体)下各样本之间的方差比如,四个行业被投诉次数之间的方差组间方差既包括随机误差,也包括系统误差第14页,共76页,2023年,2月20日,星期二方差分析的基本思想和原理

(方差的比较)若不同行业对投诉次数没有影响,则组间误差中只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近1若不同行业对投诉次数有影响,在组间误差中除了包含随机误差外,还会包含有系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响判断行业对投诉次数是否有显著影响,实际上也就是检验被投诉次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,说明不同行业对投诉次数有显著影响第15页,共76页,2023年,2月20日,星期二方差分析的基本假定第16页,共76页,2023年,2月20日,星期二方差分析的基本假定每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本比如,每个行业被投诉的次数必需服从正态分布各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的比如,四个行业被投诉次数的方差都相等观察值是独立的比如,每个行业被投诉的次数与其他行业被投诉的次数独立第17页,共76页,2023年,2月20日,星期二方差分析中的基本假定在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等如果四个总体的均值相等,可以期望四个样本的均值也会很接近四个样本的均值越接近,推断四个总体均值相等的证据也就越充分样本均值越不同,推断总体均值不同的证据就越充分第18页,共76页,2023年,2月20日,星期二方差分析中基本假定如果原假设成立,即H0:

m1=m2=m3=m4四个行业被投诉次数的均值都相等意味着每个样本都来自均值为、方差为2的同一正态总体Xf(X)1

2

3

4

第19页,共76页,2023年,2月20日,星期二方差分析中基本假定若备择假设成立,即H1:

mi(i=1,2,3,4)不全相等至少有一个总体的均值是不同的四个样本分别来自均值不同的四个正态总体Xf(X)3

1

2

4

第20页,共76页,2023年,2月20日,星期二问题的一般提法第21页,共76页,2023年,2月20日,星期二问题的一般提法设因素有k个水平,每个水平的均值分别用1,2,,k

表示要检验k个水平(总体)的均值是否相等,需要提出如下假设:H0:

12…k

H1:

1,2,,k

不全相等设1为零售业被投诉次数的均值,2为旅游业被投诉次数的均值,3为航空公司被投诉次数的均值,4为家电制造业被投诉次数的均值,提出的假设为H0:

1234

H1:

1,2,3,4

不全相等第22页,共76页,2023年,2月20日,星期二方差分析的原理变异的可加性原理把实验数据的总变异分解为不同来源的变异,并根据不同来源的变异在总变异中所占的比重对造成数据变异的原因作出解释.变异的统计量是实验数据与平均数的离差平方和(SS)第23页,共76页,2023年,2月20日,星期二试验设计与方差分析完全随机化设计因子设计试验设计随机化区组设计可重复双因素方差分析单因素方差分析无重复双因素方差分析第24页,共76页,2023年,2月20日,星期二完全随机化设计【例】一家种业开发股份公司研究出3个新的小麦品种:品种1、品种2、品种3。为研究不同品种对产量的影响,需要选择一些地块,在每个地块种上不同品种的小麦,然后获得产量数据进行分析。这一过程就是试验设计的过程

这里的“小麦品种”就是试验因子或因素,品种1、品种2、品种3就是因子的3个不同水平,称为处理假定选取3个面积相同的地块,这里的“地块”就是接受处理的对象或实体,称为试验单元将每个品种随机地指派给其中的一个地块,这一过程就是随机化设计过程第25页,共76页,2023年,2月20日,星期二完全随机化设计

(completelyrandomizeddesign)“处理”被随机地指派给试验单元的一种设计“处理”是指可控制的因素的各个水平“试验单元(experimentunit)”是接受“处理”的对象或实体在试验性研究中,感兴趣的变量是明确规定的,因此,研究中的一个或多个因素可以被控制,使得数据可以按照因素如何影响变量来获取对完全随机化设计的数据采用单因素方差分析第26页,共76页,2023年,2月20日,星期二基本方法:把被试随机分配给自变量的各个水平,每个被试只接受一个水平的处理.

只有一个实验因素(自变量),处于的水平.控制误差变异的方法:随机化分配(被实随机化分配,被试间的变异也是随机分配,在统计上无差异)设计模型:表示:被试在某个处理水平上的分数,等于总体平均数(真值),该水平上的处理效应和误差效应之和.其中:误差值是个正态分布的随机变量第27页,共76页,2023年,2月20日,星期二单因素方差分析的数据结构

(one-wayanalysisofvariance)

观察值(j)因素(A)i

水平A1水平A2

水平Ak12::n

x11

x21

xk1x12

x22

xk2::

:

:::

:

:x1n

x2n

xkn第28页,共76页,2023年,2月20日,星期二分析步骤提出假设构造检验统计量计算统计量(平方和,自由度,均方,F比值)作决策列方差分析表第29页,共76页,2023年,2月20日,星期二提出假设一般提法H0

:m1=m2=…=

mk

自变量对因变量没有显著影响H1:m1

,m2

,…

,mk不全相等(或至少有一对m不相等)自变量对因变量有显著影响注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等第30页,共76页,2023年,2月20日,星期二构造检验的统计量构造统计量需要计算各水平的均值()全部观察值的总均值()误差平方和(SS)均方(MS)

第31页,共76页,2023年,2月20日,星期二构造检验的统计量

(计算水平的均值)假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数计算公式为式中:ni为第i个总体的样本观察值个数

xij为第i个总体的第j个观察值

第32页,共76页,2023年,2月20日,星期二构造检验的统计量

(计算全部观察值的总均值)全部观察值的总和除以观察值的总个数计算公式为第33页,共76页,2023年,2月20日,星期二构造检验的统计量第34页,共76页,2023年,2月20日,星期二构造检验的统计量

(计算总误差平方和SST)全部观察值与总平均值的离差平方和反映全部观察值的离散状况其计算公式为前例的计算结果:

SST=(57-47.869565)2+…+(58-47.869565)2=115.9295第35页,共76页,2023年,2月20日,星期二构造检验的统计量

(计算水平项平方和SSB)各组平均值与总平均值的离差平方和反映各总体的样本均值之间的差异程度,又称组间平方和该平方和既包括随机误差,也包括系统误差计算公式为前例的计算结果:SSB=1456.608696第36页,共76页,2023年,2月20日,星期二构造检验的统计量

(计算误差项平方和SSw)每个水平或组的各样本数据与其组平均值的离差平方和反映每个样本各观察值的离散状况,又称组内平方和该平方和反映的是随机误差的大小计算公式为前例的计算结果:SSW=2708第37页,共76页,2023年,2月20日,星期二构造检验的统计量

(三个平方和的关系)总离差平方和(SST)、误差项离差平方和(SSW)、水平项离差平方和(SSB)之间的关系SST=SSB+SSW前例的计算结果:4164.608696=1456.608696+2708第38页,共76页,2023年,2月20日,星期二构造检验的统计量

(三个平方和的作用)

SST反映全部数据总的误差程度;SSW反映随机误差的大小;SSB反映随机误差和系统误差的大小如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小SSt:总体平方和

SSB:组间平方和(处理平方和)

SSW:组内平方和第39页,共76页,2023年,2月20日,星期二构造检验的统计量

(计算均方MS)各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差计算方法是用误差平方和除以相应的自由度三个平方和对应的自由度分别是SST的自由度为n-1,其中n为全部观察值的个数SSB的自由度为k-1,其中k为因素水平(总体)的个数SSW的自由度为n-k第40页,共76页,2023年,2月20日,星期二构造检验的统计量

(计算均方MS)

组间方差:SSB的均方,记为MSB,计算公式为

组内方差:SSW的均方,记为MSW,计算公式为第41页,共76页,2023年,2月20日,星期二构造检验的统计量

(计算检验统计量F)将MSB和MSW进行对比,即得到所需要的检验统计量F当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即第42页,共76页,2023年,2月20日,星期二构造检验的统计量

(F分布与拒绝域)如果均值相等,F=MSA/MSE1a

F分布F(k-1,n-k)0拒绝H0不能拒绝H0F第43页,共76页,2023年,2月20日,星期二统计决策

将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策根据给定的显著性水平,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=N-k相应的临界值F

若F>F

,则拒绝原假设H0

,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响若F<F

,则不能拒绝原假设H0

,表明所检验的因素对观察值没有显著影响第44页,共76页,2023年,2月20日,星期二统计决策拒绝原假设,即说明四个行业的服务质量有显著差异.第45页,共76页,2023年,2月20日,星期二方差分析表BWBWMSB/MSW第46页,共76页,2023年,2月20日,星期二方差分析表第47页,共76页,2023年,2月20日,星期二实例:研究目的:文章生字密度对被试阅读理解能力的影响研究假设:阅读理解能力随生字密度的增加而下降自变量(a)-生字密度,四个水平(K=4)a1(5:1)a2(10:1)a3(15:1)a4(20:1)因变量(Y)-被试阅读理解的测验分数第48页,共76页,2023年,2月20日,星期二被试a1a2a3a413489266983448843277554512675613753712823611均值(μ)

4.3753.8757.00010.000方差(σ2

)2.4841.3591.5004.500第49页,共76页,2023年,2月20日,星期二3、计算步骤(1)提出原假设:H0:µ1=µ2=µ3=µ4H1:至少有一对不相等(2)求离差平方和(SS)

SSt=Nσt2=268.875,其中

σt2=8.402SSB=Nσμ2=190.125,其中

σμ2=6.313 SSW=SSt-SSB=78.750第50页,共76页,2023年,2月20日,星期二

dft=N-1=4*8-1=31dfB=K-1=4-1=3

dfW=N-K=4*(8-1)=28

(4)求均方

MSB=SSB/dfB=190.125/3=63.375MSW=SSW/dfW=78.750/28=2.813(3)确立自由度(df)第51页,共76页,2023年,2月20日,星期二(5)进行F检验

F=MSB/MSW=63.375/2.813=22.53>F.01(3,28)=4.57

(6)列方差分析表(略)第52页,共76页,2023年,2月20日,星期二(7)结论:存在显著性差异,拒绝原假设。结合均值,被试做生字密度小的文章的阅读理解能力高于生字密度大的文章。

第53页,共76页,2023年,2月20日,星期二随机化区组设计第54页,共76页,2023年,2月20日,星期二完全随机化设计【例】一家种业开发股份公司研究出3个新的小麦品种:品种1、品种2、品种3。为研究不同品种对产量的影响,需要选择一些地块,在每个地块种上不同品种的小麦,然后获得产量数据进行分析。这一过程就是试验设计的过程

这里的“小麦品种”就是试验因子或因素,品种1、品种2、品种3就是因子的3个不同水平,称为处理假定选取3个面积相同的地块,这里的“地块”就是接受处理的对象或实体,称为试验单元将每个品种随机地指派给其中的一个地块,这一过程就是随机化设计过程第55页,共76页,2023年,2月20日,星期二随机化区组设计

(randomizedblockdesign)先按一定规则将试验单元划分为若干同质组,称为“区组”再将各种处理随机地指派给各个区组比如在上面的例子中,首先根据土壤的好坏分成几个区组,假定分成4个区组:区组1、区组2、区组3、区组4,每个区组中有三个地块在每个区组内的3个地块以抽签的方式决定所种的小麦品种分组后再将每个品种(处理)随机地指派给每一个区组的设计就是随机化区组设计第56页,共76页,2023年,2月20日,星期二随机化区组设计试验数据:无重复双因素方差分析第57页,共76页,2023年,2月20日,星期二实例:完全随机实验设计探讨文章的生字密度对学生阅读理解的影响自变量-----生字密度

K=45:1(a1);10:1(a2);15:1(a3);20:1(a4)因变量-----被试阅读理解测验分数N=32人=4组*8(各水平被试数量可以不等)

a1a2a3a4S1S2S3S4...........S32第58页,共76页,2023年,2月20日,星期二随机区组实验设计对32个学生做智力测试,分成8个区组(4被试/组,同质),后随机分配每个区组内的4个同质被试分别阅读一种生字密度的文章.a1a2a3a4区组1S1S2S3S4区组2S5S6S7S8.....区组8...S32把学生的智力作为一个无关变量a=8k=4第59页,共76页,2023年,2月20日,星期二基本方法:将实验对象按一定的标准划分为a个区组,保证区组同质性(是区组内的实验对象的个别对象尽可能小),每个区组接受P个处理,区组内被试和处理的分配是随机的.目的:MSA中不但存在抽样误差,还存在人与人之间的差异,即同一组中不同被试的差异;这样使F统计量更精确。实质:使用区组方法减小误差变异,即分离出有无关变量引起的变异.第60页,共76页,2023年,2月20日,星期二随机区组实验设计的方差分析SSTSSBSSWSSTSSBSSRSSE完全随机化实验设计的总离差平方和的划分随机区组实验设计的总离差平方和的划分第61页,共76页,2023年,2月20日,星期二随机区组方差分析的数据结构

处理区组处理(A)i

水平A1水平A2

水平Ak12::Ax11

x21

xk1x12

x22

xk2::

:

:::

:

:x1a

x2a

xk第62页,共76页,2023年,2月20日,星期二随机区组实验设计方差分析的步骤1、建立假设2、计算离差平方和3、确定自由度

dfT=N-1dfB=k-1dfR=n-1dfE=(k-1)(n-1)第63页,共76页,2023年,2月20日,星期二

4、求均方MST、MSB、MSR、MSE5、进行F检验6、与临界值比较,作出决策7、列方差分析表实例:P2859-69-7第64页,共76页,2023年,2月20日,星期二

例:有四种语文实验教材,分别代号为A、B、C、D。为比较其教学效果,按随机区组实验设计原则,将小学分为城镇重点小学、一般小学和乡村小学三个区组,并分别在每个区组中随机抽取4所学校,它们分别被随机指派实验一种教材。经一年教学后通过统一考试得到各校的平均成绩如下表。问这四种教材的教学效果是否一致。处理区组ABCDX。j19164.583.575.578.63292.55991.57479.25391.55483.57175Xi。91.6759.1786.1773.5第65页,共76页,2023年,2月20日,星期二(1)提出原假设:H0:µA=µB=µc=µDµ1=µ2=µ3(2)求离差平方和(SS)

第66页,共76页,2023年,2月20日,星期二(3)确定自由度dft=12-1=11dfB=4-1=3dfR=3-1=2dfE=(4-1)(3-1)=6(4)求均方MSB=627.85MSR=21.0625MSE=11.23(5)F检验FB=627.85/11.23=55.91>F0.05(3,6)=4.76FR=21.06/11.23=1.88<F0.05(2,6)=5.14(6)作出决策四种教材中至少有两种教材的效果存在显著差异;不同区组之间的差异不显著。第67页,共76页,2023年,2月20日,星期二(7)列方差分析表变异来源自由度平方和均方F处理31883.65627.8555.91**区组242.12521.061.88误差667.37511.23总计111993.06第68页,共76页,2023年,2月20日,星期二事后检验1、为什么不能用t检验对多个平均数的差异进行比较两两比较-----均值显著性检验CK2次(1)工作量大(2)对于原假设H0

,检验差异大,拒绝原假设,则犯弃真错误。错误概率:其中:n=CK2

可见,n增大,则错误概率也增大。第69页,共76页,2023年,2月20日,星期二N-K检验法(q检验法)检验步骤:建立假设H0:(1)µA=µB,µA=µC,µA=µD,µB=µC,µB=µD,µC=µD1、对均值从大到小做等级排序四个平均数:等级(R)1234

平均数:2、求两两配对比较的平均数的比较等级r(ij)3、根据附表6,确定在一定显著性水平下的临界值q(r,dfe)第70页,共76页,2023年,2月20日,星期二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论