统计学第6章方差分析法_第1页
统计学第6章方差分析法_第2页
统计学第6章方差分析法_第3页
统计学第6章方差分析法_第4页
统计学第6章方差分析法_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章方差分析AnalysisofVariance(ANOVA)2/2/20231版权所有BY统计学课程组学习目标掌握方差分析中的基本概念;掌握方差分析的基本思想和原理;掌握单因素方差分析的方法及应用;初步了解多重比较方法的应用;2/2/20232版权所有BY统计学课程组学习内容第一节方差分析简介常用术语

基本假定第二节单因素方差分析

分析模型

基本思想

分析步骤

多重比较2/2/20233版权所有BY统计学课程组7.1方差分析简介7.1.1方差分析中的基本概念7.1.2方差分析中的基本假设与检验2/2/20234版权所有BY统计学课程组失业保险案例:为什么要进行方差分析?

为了减小失业保险支出、促进就业,政府试图为失业者提供再就业奖励:如果失业者可以在限定的时间内重新就业,他将可以获得一定数额的奖金。政策会有效吗?2/2/20235版权所有BY统计学课程组试验数据不同奖金水平失业者的再就业时间(天)

无奖金低奖金中奖金高奖金928696781001089275859390768888778789897973907571839478828280727568787981722/2/20236版权所有BY统计学课程组要研究的问题总体1,μ1(奖金=1)总体2,μ2(奖金=2)总体3,μ3(奖金=3)样本1样本2样本3样本4总体4,μ4(奖金=4)2/2/20237版权所有BY统计学课程组各个总体的均值相等吗?Xf(X)1

2

3

4

Xf(X)3

1

2

4

2/2/20238版权所有BY统计学课程组失业保险案例:实验结果……1=无奖金2=低奖金3=中奖金4=高奖金。根据实验结果,可以认为各总体的平均失业时间相同吗?2/2/20239版权所有BY统计学课程组研究方法:两样本的t检验?如果采用t检验法对多个总体均值进行差异显著性检验,会出现如下问题:全部检验过程烦琐,做法不经济无统一的总体方差估计,检验的精度降低犯第一类错误的概率增大,检验的可靠性降低2/2/202310版权所有BY统计学课程组方差分析可以用来比较多个均值方差分析(Analysisofvariance,ANOVA)的主要目的是通过对方差的比较来同时检验多个均值之间差异的显著性。可以看作t检验的扩展,只比较两个均值时与t检验等价。20世纪20年代由英国统计学家费喧(R.A.Fisher)最早提出的,开始应用于生物和农业田间试验,以后在许多学科中得到了广泛应用。2/2/202311版权所有BY统计学课程组ANOVA(analysisofvariance)由于方差分析法是通过比较有关方差的大小而得到结论的,所以在统计中,常常把运用方差分析法的活动称为方差分析。方差分析的内容很广泛,既涉及到实验设计的模式,又关乎数据分析模型中因素效应的性质。本章在完全随机试验设计下,讨论固定效应模型方差分析的基本原理与方法,重点介绍单因素方差分析及两因素方差分析的内容。2/2/202312版权所有BY统计学课程组7.1.1方差分析中的几个基本概念因变量:我们实际测量的、作为结果的变量,例如失业持续时间。因变量也称试验指标,其不同的取值常称为观察值或试验数据。自变量:作为原因的、把观测结果分成几个组以进行比较的变量例如奖金水平。在方差分析中,自变量也被称为因素(factor)。因素的不同表现,即每个自变量的不同取值称为因素的水平。2/2/202313版权所有BY统计学课程组7.1.1方差分析中的几个基本概念方差分析主要用来研究一个定量因变量与一个或多个定性自变量的关系只有一个自变量的方差分析称为单因素方差分析。研究多个因素对因变量的影响的方差分析称为多因素方差分析,其中最简单的情况是双因素方差分析。2/2/202314为便于理解,在单因素方差分析中,将因素的任何一个水平(处理)看作是一个总体,该水平(处理)下试验得到的数据可看成是从总体中抽出的一个样本,处理的重复数即为样本容量。7.1.1:固定效应与随机效应模型2/2/202315版权所有BY统计学课程组若因素的每一个水平(处理)均做试验,相当于对该因素进行了全面调查。此种情形下,方差分析目的在于:对比较寻优,即确定因素的显著影响水平,且该显著影响水平仅在中有效,在外无效,一句话,试验数据不能对因素做推断,这属于固定效应模型方差分析范畴。固定效应模型:因素的所有水平都是由实验者审慎安排而不是随机选择的。7.1.1:固定效应模型2/2/202316版权所有BY统计学课程组若只对因素的部分水平(处理)做试验,相当于对进行了抽样调查,此种情形下,方差分析目的在于:对因素的总体变量所服从的分布进行差异性检验和参数估计,即样本推断总体,这属于随机效应模型方差分析范畴。随机效应模型:因素的水平是从多个可能的水平中随机选择的。固定效应和随机效应模型在假设的设置和参数估计上有所差异,本章研究的都是固定效应模型。7.1.1:随机效应模型2/2/202317版权所有BY统计学课程组方差分析与回归分析的联系*回归分析主要用来研究定量自变量和定量因变量之间的关系(第八章学习)。回归分析中方差分析常常用来检验回归方程的整体显著性。回归模型中也可以包含定性自变量。这时回归模型与方差分析模型是等价的。2/2/202318版权所有BY统计学课程组7.1.2:方差分析中的基本假设(1)在各个总体中因变量都服从正态分布;(2)在各个总体中因变量的方差都相等;(3)各个观测值之间是相互独立的。2/2/202319版权所有BY统计学课程组(1)正态性的检验各组数据的直方图Q-Q图,K-S检验*2/2/202320版权所有BY统计学课程组(2)等方差性的检验经验方法:计算各组数据的标准差,如果最大值与最小值的比例小于2:1,则可认为是同方差的。

本例中,最大值和最小值的比例等于1.83<2。Levene检验*奖金水平均值N标准差188.4496.82285.33911.02382.5698.38477.1196.012/2/202321版权所有BY统计学课程组方差分析对前两个假设条件是稳健的,允许一定程度的偏离。独立性的假设条件一般可以通过对数据搜集过程的控制来保证。如果确实严重偏离了前两个假设条件,则需要先对数据进行数学变换,也可以使用非参数的方法来比较各组的均值。(3)其它说明2/2/202322版权所有BY统计学课程组7.2.1单因素方差分析模型7.2.2方差分析的基本原理7.2.3单因素方差分析的步骤7.2.4方差分析中的多重比较7.2.单因素方差分析2/2/202323版权所有BY统计学课程组7.2.1单因素方差分析模型2/2/202324版权所有BY统计学课程组单因素方差分析的数据结构2/2/202325版权所有BY统计学课程组同一试验条件下的数据变异-----随机因素影响不同试验条件下,试验数据变异-----随机因素和可能存在的系统性因素即试验因素共同影响试验数据变异原因(误差来源)分析2/2/202326版权所有BY统计学课程组实验数据误差类型随机误差因素的同一水平(总体)下,样本各观察值之间的差异比如,同一奖金水平下不同不同人的失业时间是不同的这种差异可以看成是随机因素影响的结果,称为随机误差

系统误差因素的不同水平(不同总体)下,各观察值之间的差异比如,不同奖金水平之间的失业时间之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于奖金本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差2/2/202327版权所有BY统计学课程组方差分析的实质与分析目的方差分析的实质:观测值变异原因的数量分析。方差分析的目的:系统中是否存在显著性影响因素2/2/202328版权所有BY统计学课程组7.2.1单因素方差分析模型(1)单因素方差分析:模型中有一个自变量(因素)和一个因变量。在失业保险实验中,假设张三在高奖金组,则

张三的失业时间

=高奖金组的平均失业时间+随机因素带来的影响

=总平均失业时间

+高奖金组平均值与总平均值之差

+随机因素带来的影响

2/2/202329版权所有BY统计学课程组7.2.1单因素方差分析模型(2)2/2/202330版权所有BY统计学课程组7.2.2方差分析的基本原理2/2/202331版权所有BY统计学课程组总变差(离差平方和)的分解数据的误差用离差平方和(sumofsquares)描述。组内离差平方和(withingroups)因素的同一水平(同一个总体)下样本数据的变异比如,同一奖金水平下失业时间的差异组内离差平方和只包含随机误差组间离差平方和(betweengroups)因素的不同水平(不同总体)下各样本之间的变异比如,四个奖金水平之间失业时间的差异组间离差平方和既包括随机误差,也包括系统误差2/2/202332版权所有BY统计学课程组总变差(离差平方和)分解的图示组间变异总变异组内变异2/2/202333版权所有BY统计学课程组SST=SSA+SSE

总变差因素A及随机因素导致的变差随机因素导致的变差组间离差平方和组内离差平方和2/2/202334版权所有BY统计学课程组2/2/202335版权所有BY统计学课程组离差平方和的自由度与均方三个平方和的自由度分别是SST的自由度为nk-1,nk为全部观察值的个数SSA的自由度为k-1,其中k为因素水平的个数SSE的自由度为nk-k各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为方差。均方的计算方法是用离差平方和除以相应的自由度。2/2/202336版权所有BY统计学课程组组间离差平方和组内离差平方和组间方差组内方差受因素A和随机

因素的影响只受随机

因素的影响2/2/202337版权所有BY统计学课程组F比值如果因素A的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近1如果不同水平对结果有影响,组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在显著差异,或者说因素A对结果有显著影响。组间方差组内方差F=2/2/202338版权所有BY统计学课程组F比的分布F分布曲线2/2/202339版权所有BY统计学课程组F分布与拒绝域如果均值相等,F=MSA/MSE1a

F分布显著水平下的临界点F(k-1,nk-k)0拒绝H0不能拒绝H0F2/2/202340版权所有BY统计学课程组7.2.2:方差分析的基本思想将k个水平(处理)的观测值作为一个整体看待,利用方差的可分解性,把观测值总变异的离差平方和及自由度分解为相应于不同变异来源的离差平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差估计值的适当比值,即F比值,并以此比值的大小来判断各样本所属总体平均数是否相等。目的是检查所讨论因素是否作为系统性因素来影响试验结果。2/2/202341版权所有BY统计学课程组7.2.3:方差分析的步骤1.检验数据是否符合方差分析的假设条件。2.提出零假设和备择假设:零假设:各总体的均值之间没有显著差异,即

备择假设:至少有两个均值不相等,即2/2/202342版权所有BY统计学课程组7.2.3:方差分析的步骤3.根据样本计算F统计量的值。方差分析表变差来源离差平方和SS自由度df均方MSF值组间SSAk-1MSAMSA/MSE组内SSEnk-kMSE总变异SSTnk-12/2/202343版权所有BY统计学课程组7.2.3:方差分析的步骤4.确定决策规则并根据实际值与临界值的

比较,或者p-值与α的比较得出检验结论。

在零假设成立时组间方差与组内方差的比值服从服从自由度为(k-1,nk-k)的F分布临界值拒绝域p-值α实际值

F检验的临界值和拒绝域

2/2/202344版权所有BY统计学课程组失业保险的例子(1)在失业保险实验中,设显著性水平α=0.05,试分析奖金水平对失业时间的影响是否显著。不同奖金水平失业者的再就业时间(天)

无奖金低奖金中奖金高奖金928696781001089275859390768888778789897973907571839478828280727568787981722/2/202345版权所有BY统计学课程组失业保险的例子(2)1、根据前面的分析,数据符合方差分析的假设条件。2、提出零假设和备择假设:H0:μ1=μ2=μ3=μ4,H1:μ1、μ2、μ3、μ4不全相等。2/2/202346版权所有BY统计学课程组失业保险的例子(3)3、计算F统计量的实际值。

手工计算可以按照方差分析表的内容逐步计算。由于计算量大,实际应用中一般要借助于统计软件。下面是Excel计算的方差分析表。变差来源SS自由度MSFp-值F临界值组间624.973208.323.040.04332.90组内2195.333268.60总变差2820.3135

2/2/202347版权所有BY统计学课程组失业保险的例子(4)4、样本的F值为3.04。由于

因此我们应拒绝零假设,从而得出奖金水平对再就业时间有显著影响的结论。类似的,由于,可以得出同样的结论。2.90.04330.053.042/2/202348版权所有BY统计学课程组例2热带雨林(1)各水平下的样本容量不同时单因素方差分析的方法也完全适用,只是公式的形式稍有不同,在使用软件进行分析时几乎看不出这种差别。

一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平α=0.05。

2/2/202349版权所有BY统计学课程组例2热带雨林(2)1、正态性检验:直方图从未采伐过1年前采伐过8年前采伐过2712182212429152221915192018331819161722201412241412272281719192/2/202350版权所有BY统计学课程组例2热带雨林(3)同方差性检验:最大值与最小值之比等于33.19/4.81=1.34,明显小于4,因此可以认为是等方差的。

组计数求和平均方差从未采伐过1228523.7525.661年前采伐过1216914.0824.818年前采伐过914215.7833.192/2/202351版权所有BY统计学课程组例2热带雨林(4)2、提出零假设和备择假设零假设:雨林采伐对林木数量没有显著影响(各组均值相等);备择假设:雨林采伐对是有显著影响(各组均值不全相等)。2/2/202352版权所有BY统计学课程组例2热带雨林(5)3、方差分析表4、结论。F值=11.43>3.32,p-值=0.0002<0.05,因此检验的结论是采伐对林木数量有显著影响。变差源SSdfMSFP-valueFcrit组间625.162312.5811.430.00023.32组内820.723027.36总计1445.8832

2/2/202353版权所有BY统计学课程组7.2.4方差分析中的多重比较在方差分析中,不拒绝零假设H0,表示拒绝总体均数相等的证据不足,分析终止;当零假设H0被拒绝时,我们可以确定至少有两个总体的均值有显著差异。但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析。这在方差分析中称为事后检验(PostHoctest)。多重比较是同时对各个总体均值进行的两两比较。方法很多,如Fisher最小显著差异(LeastSignificantDifference,LSD)方法、Tukey的诚实显著差异(HSD)方法或Bonferroni的方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论