版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章方差分析
AnalysisofVariance(ANOVA)7.1方差分析简介7.2单因素方差分析7.3双因素方差分析1学习目标掌握方差分析中的基本概念;掌握方差分析的基本思想和原理;掌握单因素方差分析的方法及应用;初步了解多重比较方法的应用;了解双因素方差分析的方法及应用。27.1方差分析中的基本概念和假设7.1.1方差分析中的基本概念7.1.2方差分析中的基本假设与检验3失业保险案例:为什么要进行方差分析?
为了减小失业保险支出、促进就业,政府试图为失业者提供再就业奖励:如果失业者可以在限定的时间内重新就业,他将可以获得一定数额的奖金。政策会有效吗?
4要研究的问题总体1,μ1(奖金=1)总体2,μ2
(奖金=2)总体3,μ3(奖金=3)样本1样本2样本3样本4总体4,μ4(奖金=4)5各个总体的均值相等吗?Xf(X)
1
2
3
4
Xf(X)
3
1
2
4
6失业保险案例:实验结果……1=无奖金2=低奖金3=中奖金4=高奖金。根据实验结果,可以认为各总体的平均失业时间相同吗?7研究方法:两样本的t检验?用t检验比较两个均值:每次只能比较两个均值,要解决上述问题需要进行6次t检验……在整体检验中犯第一类错误的概率显著增加:
如果在每次t检验中犯第一类错误的概率等于5%,则在整体检验中等于1-(1-0.05)6=0.26498方差分析可以用来比较多个均值方差分析(Analysisofvariance,ANOVA)的主要目的是通过对方差的比较来检验多个均值之间差异的显著性。可以看作t检验的扩展,只比较两个均值时与t检验等价。20世纪20年代由英国统计学家费喧(R.A.Fisher)最早提出的,开始应用于生物和农业田间试验,以后在许多学科中得到了广泛应用。97.1.1方差分析中的几个基本概念因变量:我们实际测量的、作为结果的变量,例如失业持续时间。自变量:作为原因的、把观测结果分成几个组以进行比较的变量例如奖金水平。在方差分析中,自变量也被称为因素(factor)。因素的不同表现,即每个自变量的不同取值称为因素的水平。107.1.1基本概念方差分析主要用来研究一个定量因变量与一个或多个定性自变量的关系只有一个自变量的方差分析称为单因素方差分析。研究多个因素对因变量的影响的方差分析称为多因素方差分析,其中最简单的情况是双因素方差分析。117.1.1:固定效应与随机效应模型固定效应模型:因素的所有水平都是由实验者审慎安排而不是随机选择的。随机效应模型:因素的水平是从多个可能的水平中随机选择的。固定效应和随机效应模型在假设的设置和参数估计上有所差异,本章研究的都是固定效应模型。12方差分析与回归分析的联系*回归分析主要用来研究定量自变量和定量因变量之间的关系(以后学习)。回归分析中方差分析常常用来检验回归方程的整体显著性。回归模型中也可以包含定性自变量。这时回归模型与方差分析模型是等价的。137.1.2:方差分析中的基本假设(1)在各个总体中因变量都服从正态分布;(2)在各个总体中因变量的方差都相等;(3)各个观测值之间是相互独立的。14(1)正态性的检验各组数据的直方图Q-Q图,K-S检验*15(2)等方差性的检验经验方法:计算各组数据的标准差,如果最大值与最小值的比例小于2:1,则可认为是同方差的。
最大值和最小值的比例等于1.83<2
Levene检验*奖金水平均值N标准差188.4496.82285.33911.02382.5698.38477.1196.0116(3)其它说明方差分析对前两个假设条件是稳健的,允许一定程度的偏离。独立性的假设条件一般可以通过对数据搜集过程的控制来保证。如果确实严重偏离了前两个假设条件,则需要先对数据进行数学变换,也可以使用非参数的方法来比较各组的均值。177.2.单因素方差分析7.2.1单因素方差分析模型7.2.2方差分析的基本原理7.2.3单因素方差分析的步骤7.2.4方差分析中的多重比较187.2.1单因素方差分析模型单因素方差分析:模型中有一个自变量
(因素)和一个因变量。在失业保险实验中假设张三在高奖金组,则
张三的失业时间
=高奖金组的平均失业时间
+随机因素带来的影响
=总平均失业时间
+高奖金组平均值与总平均值之差
+随机因素带来的影响
197.2.2:总变差(离差平方和)的分解总变差SST=SSA+SSE
因素A导致的变差随机因素导致的变差组间离差平方和组内离差平方和207.2.2:组间方差和组内方差各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为方差。计算方法是用离差平方和除以相应的自由度三个平方和的自由度分别是SST的自由度为n-1,n为全部观察值的个数SSA的自由度为r-1,其中r为因素水平的个数SSE的自由度为n-r217.2.2:组间方差和组内方差组间离差平方和组内离差平方和组间方差组内方差受因素A和
随机
因素的影响只受随机
因素的影响227.2.2:方差分析的基本思想组间方差组内方差如果因素A的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近1如果不同水平对结果有影响,组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在显著差异,或者说因素A对结果有显著影响。F=231.检验数据是否符合方差分析的假设条件。2.提出零假设和备择假设:零假设:各总体的均值之间没有显著差异,即
备择假设:至少有两个均值不相等,即7.2.3:方差分析的步骤247.2.3:方差分析的步骤3.根据样本计算F统计量的值。方差分析表变差来源离差平方和SS自由度df均方MSF值组间SSAr-1MSAMSA/MSE组内SSEn-rMSE总变异SSTn-1257.2.3:方差分析的步骤4.确定决策规则并根据实际值与临界值的
比较,或者p-值与α的比较得出检验结论。
在零假设成立时组间方差与组内方差的比值服从服从自由度为(r-1,n-r)的F分布临界值拒绝域p-值α实际值
F检验的临界值和拒绝域
26失业保险的例子(1)在失业保险实验中,设显著性水平α=0.05,试分析奖金水平对失业时间的影响是否显著。不同奖金水平失业者的再就业时间(天)
无奖金低奖金中奖金高奖金9286967810010892758593907688887787898979739075718394788282807275687879817227失业保险的例子(2)1、根据前面的分析,数据符合方差分析的假设条件。2、提出零假设和备择假设:H0:μ1=μ2=μ3=μ4,H1:μ1、μ2、μ3、μ4不全相等。28失业保险的例子(3)3、计算F统计量的实际值。
手工计算可以按照方差分析表的内容逐步计算。由于计算量大,实际应用中一般要借助于统计软件。下面是Excel计算的方差分析表。变差来源SS自由度MSFp-值F临界值组间624.973208.323.040.04332.90组内2195.333268.60总变差2820.3135
29失业保险的例子(4)4、样本的F值为3.04。由于
因此我们应拒绝零假设,从而得出奖金水平对再就业时间有显著影响的结论。类似的,由于,可以得出同样的结论。2.90.04330.053.0430例2热带雨林(1)各水平下的样本容量不同时单因素方差分析的方法也完全适用,只是公式的形式稍有不同,在使用软件进行分析时几乎看不出这种差别。一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平α=0.05。
31例2热带雨林(2)1、正态性检验:直方图从未采伐过1年前采伐过8年前采伐过27121822124291522219151920183318191617222014122414122722817191932例2热带雨林(3)同方差性检验:最大值与最小值之比等于33.19/4.81=1.34,明显小于4,因此可以认为是等方差的。
组计数求和平均方差从未采伐过1228523.7525.661年前采伐过1216914.0824.818年前采伐过914215.7833.1933例2热带雨林(4)2、提出零假设和备择假设零假设:雨林采伐对林木数量没有显著影响(各组均值相等);备择假设:雨林采伐对是有显著影响(各组均值不全相等)。34例2热带雨林(5)3、方差分析表4、结论。F值=11.43>3.32,p-值=0.0002<0.05,因此检验的结论是采伐对林木数量有显著影响。变差源SSdfMSFP-valueFcrit组间625.162312.5811.430.00023.32组内820.723027.36总计1445.8832
357.2.4方差分析中的多重比较在方差分析中,当零假设被拒绝时我们可以确定至少有两个总体的均值有显著差异。但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析。这在方差分析中称为事后检验(PostHoctest)。多重比较是对各个总体均值进行的两两比较。方法很多,如Fisher最小显著差异(LeastSignificantDifference,LSD)方法、Tukey的诚实显著差异(HSD)方法或Bonferroni的方法等。这里我们只介绍最小显著差异方法。36用LSD法进行多重比较的步骤1、提出假设H0:mi=mjH1:mi
mj2、计算检验的统计量3a、如果或则拒绝H0。3b、计算的置信区间:
如果0包含在该置信区间内则不能拒绝H0,否则拒绝H0。37实例:失业保险实验根据第一个总体和第四个总体计算的t统计量利用统计软件可以计算出t检验的临界值
由于,因此我们有证据表明
无奖金组与高奖金组的再就业时间有显著差异。其他奖金水平效应之间差异的显著性也可以用类似的方法计算。
38实例:热带雨林采伐很多统计软件都可以直接进行多重比较。下表是SPSS对热带雨林例子的输出结果。置信区间5.31~14.03,3.26~12.68不包括0,差异显著。置信区间-6.04~3.02包括了0,差异不显著。(I)采伐类型(J)采伐类型均值差(I-J)标准误p-值95%置信区间下限上限从未采伐过1年前采伐过9.672.140.00015.3114.038年前采伐过7.972.310.00173.2612.681年前采伐过从未采伐过-9.672.140.0001-14.03-5.318年前采伐过-1.692.310.4682-6.403.028年前采伐过从未采伐过-7.972.310.0017-12.68-3.261年前采伐过1.692.310.4682-3.026.40397.3双因素方差分析7.3.1无交互作用的双因素方差分析7.3.2有交互作用的双因素方差分析7.3.3双因素方差分析的步骤40交互作用交互作用即一个因素对因变量的影响程度
受另一个因素的影响的情况。假设学生分两类:在校和在职。把两类学生随机分成两组,分别采用课堂讲授和交互式教学方法,考试结果如下表。可见课堂讲授的方式更适合于在校生,交互式教学方式更适合于在职生。在这种情况下我们说两个因素之间存在着交互作用。课堂讲授交互式教学在校学生9075在职学生759041双因素方差分析的类型和基本假设双因素方差分析中因素A和B对结果的影响相互独立时称为无交互作用的双因素方差分析。如果除了A和B对结果的单独影响外还存在交互作用,这时的双因素方差分析称为有交互作用的双因素方差分析。双因素方差分析中的基本假设是各个子总体都服从正态分布,有相同的方差,并且各个观测值之间相互独立(与单因素时相同)。427.3.1无交互作用的双因素方差分析模型在无交互作用的双因素方差分析模型中因变量的取值受四个因素的影响:总体的平均值;因素A导致的差异;因素B导致的差异;以及误差项。写成模型的形式就是:437.3.1无交互作用的双因素方差分析模型离差平方和的分解:SSASSBSSESST44无交互作用的双因素方差分析表变差来源离差平方和SS自由度df均方MSF值A因素SSAr-1MSA=SSA/(r-1)FA=MSA/MSEB因素SSBs-1MSB=SSB/(s-1)FB=MSB/MSE误差SSE(r-1)(s-1)MSE=SSE/(r-1)(s-1)合计SSTrs-1457.3.2有交互作用的双因素方差分析模型在有交互作用的双因素方差分析模型中因变量的取值受五个因素的影响:总体的平均值;因素A导致的差异;因素B导致的差异;由因素A和因素B的交互作用导致的差异;以及误差项。写成模型的形式就是:467.3.2有交互作用的双因素方差分析模型离差平方和的分解:
SSTSSASSBSSESSAB47有交互作用的双因素方差分析表变异来源离差平方和SS自由度df均方MSF值A因素SSAr-1MSA=SSA/(r-1)FA=MSA/MSEB因素SSBs-1MSB=SSB/(s-1)FB=MSB/MSEAB交互作用SSAB(r-1)(s-1)MSAB=SSAB/(r-1)(s-1)FAB=MSAB/MSE误差SSErs(m-1)MSE=SSE/rs(m-1)合计SSTrsm-1487.3.3
双因素方差分析的步骤(1)双因素方差分析的步骤与单因素分析类似,主要包括以下步骤:1.分析所研究数据能否满足方差分析要求的假设条件,需要的话进行必要的检验。如果假设条件不满足需要先对数据进行变换。497.3.3
双因素方差分析的步骤(2)2、提出零假设和备择假设。双因素方差分析可以
同时检验两组或三组零假设和备择假设。要说明因素A有无显著影响,就是检验如下假设:要说明因素B有无显著影响,就是检验如下假设:
在有交互作用的双因素方差中,要说明两个因素的交互作用是否显著还要检验第三组零假设和备择假设:507.3.3
双因素方差分析的步骤(3)
3、计算F检验值。4、根据实际值与临界值的比较,或者p-值与α的比较得出检验结论。与单因素方差分析的情况类似,对FA、FB和FAB,当F的计算值大于临界值Fα(或者p-值<α)时拒绝零假设H0。51双因素方差分析:失业保险的例子(1)年龄组123
928894奖11008980
859078868878金21088972937579967782水3927975
907181
788782平4757368
768372同时考虑奖金和年龄因素,二者对失业时间有显著影响吗?52双因素方差分析:失业保险的例子(2)1、同时考虑奖金水平和年龄因素时,每种实验条件
下的数据只有3个,不适合直接进行正态性和等方差
性检验。假设这些条件成立。2、提出假设(有交互作用的方差分析模型):对奖金因素:对年龄因素:对交互作用:53双因素方差分析:失业保险的例子(3)3、方差分析表(Excel)4、结论:在5%的显著性水平下奖金水平对就业时间影响显著;年龄对就业时间有显著
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度物流合同终止退款协议书范本3篇
- 2024年度高端代购定制合同书3篇
- 2024年度大棚建设与农产品质量安全监管服务合同3篇
- 2024年度房地产投资信托基金买卖协议3篇
- 2024商贸城茶叶店租赁及品牌授权合同3篇
- 2024平面设计项目保密协议合同3篇
- 2024年交通工具租借合同2篇
- 2024年度循环借款担保及金融产品创新与研发合作协议3篇
- 2024年度小产权二手房买卖合同违约责任明确范本3篇
- 《genex人工骨粉》课件
- 2024秋期国家开放大学专科《高等数学基础》一平台在线形考(形考任务一至四)试题及答案
- 国开(内蒙古)2024年《创新创业教育基础》形考任务1-3终考任务答案
- 食品安全日管控、周排查及月调度记录表
- 2024-2024年江苏省普通高中学业水平测试物理试卷(含答案)
- 国家开放大学电大专科《刑法学(1)》期末题库及答案
- 焦炉砌筑规程
- 聚酰亚胺基础知识-1(横田力男)
- 毕业论文饮料罐装生产流水线系统设计与调试
- 某某油库投产试运行方案
- 业障病因果病对照表
- 街坊管道设计报告书
评论
0/150
提交评论