应用统计学:方差分析_第1页
应用统计学:方差分析_第2页
应用统计学:方差分析_第3页
应用统计学:方差分析_第4页
应用统计学:方差分析_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章方差分析概述单因素方差分析(one-wayANOVA)单响应变量方差分析(ANOVA)协方差分析(ANCOVA)多响应变量方差分析(MANOVA)一、概述方差分析:英国统计兼遗传学家费舍尔在设计多种农业试验,特别是田间试验,并对试验进行评估中发展起来的。主要用于研究某种因素(如广告)对所感兴趣的因变量(如销售额)是否有显著影响抽样得到的实验数据显示出实验结果的差异性,其原因可能有三类:观测条件不同(影响因素)引起试验结果有所不同此结果差异是系统性的其他影响因素不同引起试验结果有所不同此结果差异是系统性的——干扰:其他条件不变由于各种随机因素的干扰,试验结果也会有所不同此差异是偶然性的协方差分析方差分析的目的将观测条件不同而引起的系统差异与随机因素引起的偶然差异用数量形式区别开来,以确定在实验中有没有系统性因素在起作用。例1某公司希望对新进销售人员进行销售培训以保证销售业绩。如何培训才能达到好的效果成为公司关注的问题。为此设置了两组培训课程。为了比较它们的有效性,进行了一项实验:随机选择三组新进销售人员,每组五人。一组接受A课程销售训练一组接受销售B课程销售训练另一组C没有参与任何训练(对照组)当前两组的训练课程结束后,三组人员都开始实践。两个星期后统计了各组销售人员的销售记录如下:销售培训会提高销售人员的业绩吗?注意不仅不同组中销售员的业绩有区别,同一组中接受相同培训的销售员的业绩也有区别销售业绩:组内差异:随机因素造成组间差异:培训和随机因素造成如果三组销售人员的平均业绩没有显著差别(组间差异不明显),则说明销售训练失败如果接受销售训练的销售人员的业绩显著突出,则说明销售训练成功影响业绩的因素:培训课程随机因素:如个人特质、运气从上表可以看出,各组样本数据差异较大,尤其是3组与1、2组的均值具有一定的差异。这是否说明销售训练会提高销售业绩呢?当然这种差异也许是由于随机因素所造成,所以需要进行统计检验。影响业绩的因素:培训课程随机因素:如个人特质、运气方差分析的假设为:如果原假设成立,说明培训对销售业绩没有显著影响,组间差异与各组内差异都是随机因素造成的。如果备择假设成立,说明培训对销售业绩有显著影响,各组内的差异由随机因素造成,而组间差异则由随机因素和销售训练所导致的系统性差异造成。检验方法:组间变异是否远大于组内变异方差分析的术语因素:一个独立的变量,是方差分析研究的对象。在例1中,“培训”就是一个待研究的因素。水平:因素的不同状态就称为“水平”。分组是按因素的不同水平划分的。例1中,因素“培训”分为三个水平(A课程、B课程、无训练)。响应变量(性能指标):在分组试验中,对试验对象所观测记录的变量称为“响应变量”,它是受“因素”影响的变量,如例1中“销售业绩”。方差分析的类型单因素方差分析(一维方差分析):检验由单一因素影响的一个或几个独立的响应变量的组间均值差异是否显著。如上例,一个影响因素(培训)的不同水平对一个响应变量(销售业绩)的影响分析。(one-wayANOVA过程)单响应变量多因素方差分析:对一个响应变量是否受一个或多个因素影响进行分析,包括协方差分析。常用的是双因素方差分析。(Univariate过程)多响应变量多因素方差分析:研究一个或多个因素变量与多个响应变量集之间的关系。(Multivariate过程)重复测量方差分析:因素对响应变量影响的试验如果是重复测量的,就需要用重复测量方差分析。(RepeatedMeasures过程)问题的表述和假设按实验因素水平形成分组数据同一组中的数据看成是来自同一总体,它们有一个理论上的均值,不同组的数据来自不同总体,一般认为这些总体具有相同方差(其他条件保持不变),而它们的均值可能相同,也可能不同。方差分析的目的:通过假设检验,判断实验因素对响应变量是否有显著影响,即各组均值是相同,还是不同一般地,有r个水平的因素,H0:1=2=…=r=对上例,r=3二、单因素方差分析方差分析的

检验方法:基本思路:判断样本均值的变异是由于因素的不同水平造成的,还是纯粹由于随机因素造成的。研究数据间的“变异”(也称为平方和),即离差平方和:变异来源分解,组内变异(样本与组均值的离差平方和):随机因素造成,记作S组内。组间变异(组均值与总均值的离差平方和):可能单纯由于随机因素造成,也可能是因素的不同水平造成,记作S组间。S组内+S组间=S总(总变异:样本与总均值的离差平方和)S组间和S组内的比值反映了两种差异大小的对比,比值越大说明因素各个水平引起的差异越显著服从F分布通过F值与其临界值的比较,推断各组均值是否相同。结论:在0.05水平上培训对销售业绩的影响不显著。平方和/自由度=均方和检验统计量:因素水平试验次数123…j…r123……ix11x12x13x1jx1rx21x22x2jx2rx31x32x3jx3rxi1xi2xijxir…………设:因素有r个水平,各水平的实验次数为nj,得到样本数据如表单因素方差分析的一般模型方差分析步骤F检验计算各水平均值和总均值计算检验统计量F计算离差平方和:S计算均方和:S/自由度⒈计算水平均值和总均值因素水平试验次数123…j…r12……ix11x12x13x1jx1rx21x22x2jx2rxi1xi2xijxir…………水平均值2、计算离差平方和误差项离差平方和:组内变异S组内总离差平方和(总变异S总)水平项离差平方和:组间变异S组间三个离差平方和的关系为:三个离差平方和的关系为:证明:SSTSSESSA3、计算均方和离差平方和自由度均方和MSSSASSESSTr-1r(nj-1)=n-rn-1MSA=SSA/(r-1)MSE=SSE/(n-r)自由度:观测值的个数约束条件数4、计算检验统计量和假设检验~F(r-1,n-r)建立假设本例r=3。培训例水平均值⒈计算水平均值和总均值培训例-续拒绝域接受域F=3.17<3.89,接受原假设,培训没有显著效果单因素方差分析过程

one-wayANOVA分析→比较均值→单因素ANVOA响应变量因素“对比”对话框:均值多项式比较例如:4mean1-mean3“两两比较…”对话框:选择均值多重比较方法方差相等时可选择的比较方法方差不等时可选择的比较方法与对照组的配对比较用t检验完成各组均值的配对比较“选项”对话框:输出统计量描述统计量固定因素和随机效应的统计量等方差检验显示均值图培训-销售业绩SPSS输出结果多重比较检验方法LSD(Least-significantdifference)最小显著性差异法:用t检验完成个组均值间的配对比较。Duncan多重极差检验:将进行比较的各组均值分成几个有显著差异的子集。一个子集中均值之间的差异不显著。Dunnett法:指定一个组作对照组(last),其他各组分别与对照组进行配对均值比较。例有五种治疗麻疹的药,要比较它们的疗效。假定将30个病人分成五组,每组6人使用同一种药,记录病人从使用药物开始到痊愈所需时间(天)如表。试进行方差分析。输入数据:痊愈时间和组别调用“One-WayANOVA”过程,选择如下选项:方差齐性检验多重比较方法:LSD,Duncan,输出描述统计量。Duncan多重极差检验结果说明:所有5个待比较组分为两个子集(3,2,4,5)和(1,5),属同一子集的药物可认为无明显差异。对于第一个子集,“2、3、4、5药物治愈所需天数均值相等”的假设接受的概率仅为0.067,略大于0.05。单因素方差分析例一DVD厂商希望了解不同年龄段(agegroup)的消费者对其生产的一种新型DVD的评价(dvdscore)做单因素方差分析,画出均值图多重均值比较第四组评价最高第三组评价次高比较第三组均值与第四组均值是否有显著差异一、二组评价较低五、六组评价最低比较32岁以下和46岁以上人群是否有显著差异用单因素ANOVA中的contrast选项:1)mean3-mean42)0.5mean1+0.5mean2-0.5mean5-0.5mean632岁到45岁的评价无显著差异32岁以下和46岁以上消费者的评价无显著差异例:某企业准备上市一种新型香水,需要进行市场调研。经验表明除香水气味外,香水包装对需求也有很大影响。现对三种不同的包装、三种不同香型的香水进行测试,每种组合采用一个不同的市场调查,调查结果见下表。1.923.152.54包装311.53.29包装21.582.042.8包装1流行激情高雅AB三、单响应变量方差分析——以双因素方差分析为例双因素不重复试验B1B2…BmA1A2…An

x11x12…x1mx21x22x2mxn1xn2xnm…两因素分别为A(包装)和B(香型),A有n种水平(n=3),B有m种水平(m=3),每种因素组合只有一个样本值,这样的实验称为不重复试验。实验数据建立下表不重复试验不能识别因素间的交互作用列均值行均值双因素不重复试验方差分析方法与单因素方差分析类似,总变异可分成两个因素的离差平方和及误差平方和:方差分析表:因素的主效应检验离差平方和自由度均方和MSSASBSESTn-1m-1(n-1)(m-1)nm-1MSA=SA/(n-1)MSB=SB/(m-1)MSE=SE/(n-1)(m-1)检验统计量FA=MSA/MSEFB=MSB/MSE行效应(A因素)显著性检验列效应(B因素)显著性检验B香型A包装包装1包装2包装31高雅2激情3流行2.83.292.542.041.53.151.5811.92Bj2.882.231.5Ai2.141.932.542.20离差平方和自由度均方和MSSA=0.57SB=2.85SE=1.57ST=4.992248MSA=0.285MSB=1.425MSE=0.392检验统计量FA=0.73FB=3.64F=6.94结论:包装与香型的影响都不显著双因素重复试验两因素分别为A和B,A有n种水平,B有m种水平,两种因素不同水平共有mn中组合,在每种因素组合(i,j)下作d次重复试验,以减轻误差的干扰,实验数据建立下表A1…j…m1x111,x112,…x11d

x1j1,x1j2,…x1jd

x1m1,x1m2,…x1md…

ixi11,xi12,…xi1d

xij1,xij2,…xijd

xim1,xim2,…ximd…

nxn11,xn12,…xn1d

xnj1,xnj2,…xnjd

xnm1,xnm2,…xnmdB双因素方差分析符号说明

双因素分析模型在双因素模型中可以进行多种检验:因素A的主效应检验因素B的主效应检验因素A和因素B的交互作用检验双因素方差分析表

sumofsquaresdfmeansquareF-RatioacrossSSAnm-1MSA=SSA/(nm-1)MSA/MSWfactorASS(a)n-1MS(a)=SS(a)/(n-1)MS(a)/MSWfactorBSS(b)m-1MS(b)=SS(b)/(m-1)MS(b)/MSWinteractSS(ab)(n-1)(m-1)MS(ab)=SS(ab)/(n-1)(m-1)MS(ab)/MSWwithinSSWN-nmMSW=SSW/(N-nm)

totalSSTN-1

香水例“单变量”过程数据格式响应变量因素协变量随机因素“模型”对话框:模型设定自定义模型指定模型类型建立全模型指定主效应指定所有三维交互效应指定所有四维交互效应选择分解平方和的方法:指定交互效应指定所有两维交互效应本例只有主效应“对比”对话框:效应比较默认:无效应比较改变效应比较设置比较因素每个水平的效应因素变量每一水平都与参考水平比较:选择last或first为参考水平因素每一水平都与其前面个水平比较因素每一水平都与后续水平比较“图”对话框:因变量均数分布图选择横坐标选择纵坐标散点图框“两两比较”对话框:多重比较与one-wayANOVA相同Save对话框:保存“选项”对话框比较主效应均值指定输出统计量效应量估计显示观测功效参数估计:因变量与自变量的回归系数等等方差检验观测量均值对方差的图拟合度不足的检验香型与包装方差分析结果新食品定价和广告策略研究为了确定新食品的定价和广告策略,某企业做了一次市场研究:选出24家商场分别以高、中、低三种价格,和高、低两种广告策略推销产品,经过一段时间之后统计各家商场的销售量,并对此作方差分析。新食品销售的均值图价格低高低广告高广告1.销售量的价格效应较明显2.广告效应较不明显3.交互作用:低价格高广告的销量较大方差分析表四、协方差分析基本思想:在方差分析中引入其它独立变量,以矫正由于非试验因素对响应变量的影响干扰方差分析的准确性。方差分析应在“其它条件不变”下实施。但是,这一点有时难以做到。前例:在研究价格和广告对新食品销售的影响时,如果所选择的商场规模不同,也会对销售量产生影响。我们收集了各个参加试验商场的规模,做销售量对商场规模的散点图销售量对商场规模散点图:绿色点-高广告,红色点-低广告很明显:做高广告的商场规模偏小,低广告的商场规模较大。一般来说,规模大的商场销量较大,规模小的商场销量较小。因此,商场规模的差异可能会干扰对广告效应的评估。将Storesiz作为协变量引入后的方差分析结果协变量调整后的均值图协变量调整前的均值图广告效应变得明显了协变量调整前协变量调整后协变量的作用机理:单因素例:芬兰曾有一条法规:只有城市可以从事商业性卖酒。当这条法规取消时,人们开始担心农村的交通事故会因此增多。一些研究者在12个乡村镇进行了试验:其中4个村镇只允许商店卖酒、4个村镇商店和饭店都可以卖酒,最后4个村镇作为对照组,不许卖酒。一年后统计的交通事故数如表。对此数据进行方差分析,发现卖酒模式对交通事故影响不显著。组间变异不比组内变异显著地大结论是否可信?影响交通事故的其他因素:由于道路状况、天气状况等的差别,有些乡镇比另一些乡镇更容易发生交通事故,选取解禁前各乡镇年交通事故数numpre为参考变量,从数据表中可以看出,第二组各城镇在未解禁前事故率就相当高,解禁后的事故率相对来说并不很高。不同城镇的交通事故数差异很大(甚至同一试验组的城镇之间),原因何在?accidnum解禁后事故数vs解禁前事故数组间相关组内亦相关且相关度更高剔除协变量影响后的组间变异与组内变异协变量调整后,组间变异增大,组内变异减小协变量调整后模型:Intercept+numpre+group协变量调整前模型:Intercept+group均值图比较未考虑协变量协变量调整后协变量调整后调整前协变量调整后,卖酒模式对交通事故数影响显著调整前调整后的成对比较饭店里卖酒对交通事故影响最大bT为X对Z回归的系数X与Z的协方差为0时SST(Xa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论