[社会学]《统计学:思想、方法与应用》第7章 方差分析ppt课件_第1页
[社会学]《统计学:思想、方法与应用》第7章 方差分析ppt课件_第2页
[社会学]《统计学:思想、方法与应用》第7章 方差分析ppt课件_第3页
[社会学]《统计学:思想、方法与应用》第7章 方差分析ppt课件_第4页
[社会学]《统计学:思想、方法与应用》第7章 方差分析ppt课件_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、6 - 1怎样解决下面的问题?n来自来自不同地区不同地区的大学生每个月的平均的大学生每个月的平均生活生活费费支出是否不同呢?支出是否不同呢?n家电的家电的品牌品牌对它们的对它们的销售量销售量是否有显著影是否有显著影响呢?响呢?n不同的不同的路段路段和和不同的时段不同的时段对对行车时间行车时间有影有影响吗?响吗?n超市的超市的位置位置和它的和它的销售额销售额有关系吗?有关系吗?n不同的小麦不同的小麦品种产量品种产量有差异吗?有差异吗? 6 - 2第7章 方差分析7.1 单因素方差分析单因素方差分析7.2 方差分析回忆方差分析回忆7.3 双因素方差分析双因素方差分析6 - 3学习目的 o 理解方差

2、分析的一般思想;理解方差分析的一般思想;o 明白单因素方差分析能解决什么问题;明白单因素方差分析能解决什么问题;o 理解为什么要介绍双因素方差分析;理解为什么要介绍双因素方差分析;o 相关理论在统计学软件中的应用。相关理论在统计学软件中的应用。o 相应统计分析结果的解读。相应统计分析结果的解读。6 - 4研究员想挑选出能使小麦亩产量最大的化肥,选了三个品牌的化肥:A,B和C。程度品牌观测值ABC15706605402560760580361067053045807105505590630520658073056076306405108600680530为什么我们要学习方差分析6 - 5n研究分

3、类自变量研究分类自变量因子因子factor对数值因变量对数值因变量观测结观测结果果的影响的影响 n 例如:例如:“化肥品牌化肥品牌是一个分类自变量是一个分类自变量n 两个或多个两个或多个 程度程度level或分类。例如:或分类。例如:3个化肥个化肥品牌品牌n 一个数值型因变量,产量一个数值型因变量,产量n 分析三个品牌的化肥的产量是否有显著差异,也就分析三个品牌的化肥的产量是否有显著差异,也就是要判断是要判断“品牌品牌对对“产量产量是否有显著影响是否有显著影响n作出这种判断最终被归结为检验这三个品牌的产量的作出这种判断最终被归结为检验这三个品牌的产量的均均值是否相等值是否相等n 假设它们的均值

4、相等,那么意味着假设它们的均值相等,那么意味着“品牌品牌对产量对产量是没有影响的;假设均值不全相等,那么意味着是没有影响的;假设均值不全相等,那么意味着“品牌品牌对产量是有影响的。对产量是有影响的。为什么我们要学习方差分析6 - 6o 可以用假设检验吗?可以用假设检验吗?o 两两比较三种品牌的产量均值是否存在差异。两两比较三种品牌的产量均值是否存在差异。o 用用t分布比较分布比较3组总体均值,需要进展组总体均值,需要进展3次不同的次不同的t检验。检验。o 假如显著性程度设为假如显著性程度设为0.05,那么正确判断的概率,那么正确判断的概率为为0.95。因为我们分别进展。因为我们分别进展3次独立

5、的检验,任次独立的检验,任何一次检验都不做错误判断的概率为:何一次检验都不做错误判断的概率为:P都正确都正确=0.953=0.8574o 因此,至少一次错误的概率为因此,至少一次错误的概率为1-0.8574=0.1426。总之,假如我们用。总之,假如我们用t分布分别分布分别做做3次独立的检验,至少有一样本错误发生的概率次独立的检验,至少有一样本错误发生的概率从从0.05上升到了上升到了0.1426。为什么我们要学习方差分析6 - 71.01.52.02.53.0500550600650700750化肥小麦产量方差分析根本原理6 - 81. 从散点图上可以看出n不同品牌的产量是有明显差异的n同一

6、个品牌,不同地块的产量也明显不同o B较高,C较低2. 品牌与产量之间有一定的关系n假如品牌与产量之间没有关系,那么它们的产量应该差不多一样,在散点图上所呈现的形式也就应该很接近方差分析的根本思想和原理图形分析6 - 9方差分析的根本原理o 为了更容易的找出各化肥品牌的小麦平均产量的不同,我们对每个化肥品牌做一个箱线图。品牌A品牌B品牌C500550600650700750化肥小麦产量6 - 10仅从散点图上观察还不能提供充分的证据证明化肥仅从散点图上观察还不能提供充分的证据证明化肥品牌与小麦产量之间有显著差异品牌与小麦产量之间有显著差异n这种差异也可能是由于抽样的随机性所造成的这种差异也可能

7、是由于抽样的随机性所造成的需要有更准确的方法来检验这种差异是否显著,也需要有更准确的方法来检验这种差异是否显著,也就是进展方差分析就是进展方差分析n所以叫方差分析,因为虽然我们感兴趣的是均值,但在所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时那么需要借助于方差判断均值之间是否有差异时那么需要借助于方差n这个名字也表示:它是通过对数据误差来源的分析判断这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进展方差分析时,需不同总体的均值是否相等。因此,进展方差分析时,需要考察数据要考察数据误差的来源误差的来源方差分析的根本思想和原理6 - 11误

8、差分解1.组内误差组内误差within groups样本数据内部各观察值之间的差异o 比方,同一位置下不同超市之间销售额的差异的差异反映随机因素的影响,称为随机误差 2.组间误差组间误差between groups不同样本之间观察值的差异o 比方,不同位置超市之间销售额的差异可能是随机误差,也可能是超市位置本身所造成的系统性系统误差3.总误差总误差total 全部观测数据的误差大小6 - 12方差分析的根本原理误差分解误差平方和的分解及其关系误差平方和的分解及其关系总误差总误差总平方和总平方和SST随机误差随机误差处理误差处理误差组内平方和组内平方和SSE组间平方和组间平方和SSA6 - 13

9、误差度量均方MSl用均方用均方mean square表示误差大小,以消除观测表示误差大小,以消除观测数据的多少对平方和的影响数据的多少对平方和的影响l用平方和除以相应的自由度用平方和除以相应的自由度l均方也称方差均方也称方差variance l组 间 均 方 也 称 组 间 方 差组 间 均 方 也 称 组 间 方 差 b e t w e e n - g r o u p s variance,反映各因子间误差的大小,反映各因子间误差的大小lMSA=SSA自由度自由度因子个数因子个数-1l组 内 均 方 也 称 组 内 方 差组 内 均 方 也 称 组 内 方 差 w i t h i n - g

10、 r o u p s variance ,反映随机误差的大小,反映随机误差的大小lMSE=SSE自由度自由度数据个数数据个数-因子个数因子个数l总平方和总平方和SST的自由度为的自由度为n-16 - 14方差分析的根本原理误差分析1. 判断原假设是否成立,就是判断判断原假设是否成立,就是判断组间方差组间方差与与组内组内方差方差是否有显著差异是否有显著差异2. 假设原假设成立,组间均方与组内均方的数值就假设原假设成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近应该很接近,它们的比值就会接近13. 假设原假设不成立,组间均方会大于组内均方,假设原假设不成立,组间均方会大于组内均方,它

11、们之间的比值就会大于它们之间的比值就会大于14. 当这个比值大到某种程度时,就可以说不同程度当这个比值大到某种程度时,就可以说不同程度之间存在着显著差异,即自变量对因变量有影响之间存在着显著差异,即自变量对因变量有影响6 - 15误差分析F-检验1. 将组间均方与组内均方进展比较,分析差异是否显著nF=MSAMSEF因子自由度,残差自由度因子自由度,残差自由度2. 用F分布作出决策,给定的显著性程度 n假设FF或P ,那么回绝原假设H0 ,说明均值之间的差异显著,因素对观察值有显著影响6 - 16误差分析F分布与回绝域6 - 171. 设 1为化肥品牌A下产量的均值, 2为化肥品牌B下产量的均

12、值, 3为化肥品牌C下产量的2. 提出的假设为H0 : 1 2 3 H1 : 1 , 2 , 3 不全相等不全相等3.计算检验统计量4.计算P值,作出决策单因素方差分析6 - 18观测值观测值品牌品牌ABC125607605803 36106705304 45807105505 55906305206 65807305607 76306405108 8600680530样本均值样本均值590590685685540540样本容量样本容量888总均值总均值6056056 - 19单因素方差分析表根本构造误差来源误差来源平方和平方和SS自由度自由度df均方均方MSF值值P

13、值值F临界值临界值组间组间因素影响因素影响SSAk-1MSAMSAMSE组内组内误差误差SSEn-kMSE总和总和SSTn-16 - 20由由SPSSSPSS可以得到方差分析表可以得到方差分析表: : 来源来源平方和平方和比例比例自由度自由度均方均方F-比比 p-值值 化肥化肥868000.80224340042.60.00000004残差残差214000.198211019总计总计1082001.00023该表说明我们要回绝零假设,各化肥该表说明我们要回绝零假设,各化肥品牌导致的小麦产量之间有显著不同品牌导致的小麦产量之间有显著不同. . 单因素方差分析6 - 21用Excel进展方差分析

14、Excel检验步骤 第第1步:步:选择“工具工具 下拉菜单第第2步:步:选择“数据分析数据分析 选项第第3步:步:在分析工具中选择“单因素方差分析单因素方差分析 ,然 后选择“确定确定 第第4步:步:当对话框出现时 在“输入区域输入区域 方框内键入数据单元格区域 在方框内键入0.05可根据需要确定 在“输出选项输出选项 中选择输出区域6 - 22用SPSS进展方差分析 单因素方差分析o第第1步:步:选择【Analyze】 【Compare Means】 【One-Way-ANOVA】进入主对话框o第第 2 步 :步 : 在 主 对 话 框 中 将 因 变 量 产 量 选 入【Dependent

15、 List】,将自变量品牌选入【Factor】o第第3步步 需要多重比较时需要多重比较时点击【Post-Hoc】从中选择一种方法,如LSD; 需要均值图时需要均值图时在【Options】下选中【Means plot】,需要相关统计量时需要相关统计量时 选择【Descriptive】,点击【Continue】回到主对话框。点击【OK】 6 - 237.1.4 F检验:比较均值o 虽然方差分析回绝了零假设,但是我们可能虽然方差分析回绝了零假设,但是我们可能还有一些疑惑,还有一些疑惑,o 比方比方1到底哪两种品牌化肥的小麦平均到底哪两种品牌化肥的小麦平均产量不一样?产量不一样?o 2假如两种化肥的小

16、麦平均产量不同,假如两种化肥的小麦平均产量不同,那么它们的平均产量底有多大差异?那么它们的平均产量底有多大差异?6 - 24进一步的问题. o 当方差分析回绝了原假设时,即认为至少有两个总当方差分析回绝了原假设时,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著不同,那么需要进展多重比较个或哪几个均值显著不同,那么需要进展多重比较来检验。多重比较是指在因变量的三个或这三个以来检验。多重比较是指在因变量的三个或这三个以上程度下均值之间进展的两两比较检验。上程度下均值之间进展的两两比较检验。o 多重比较问题:多重比较问题:

17、 012: : LSD, 11ijijijijHHxxLSDtMSEnn选择拒绝域6 - 25多重比较方法o SPSS提供了各种不同的多重比较方法,包括最小提供了各种不同的多重比较方法,包括最小显著差异显著差异LSD法、法、Bonferroni法、法、Tukey法、法、Scheff法,如以下图所示。法,如以下图所示。6 - 26由由SPSS可以得到多重比较结果可以得到多重比较结果 多重比较多重比较因变量:小麦产量I 化肥品牌J 化肥品牌均值差 I-J标准误显著性95% 置信区间下限上限LSDdimension21dimension32-95.000*15.961.000-128.19-61.8

18、1350.000*15.961.00516.8183.192dimension3195.000*15.961.00061.81128.193145.000*15.961.000111.81178.193dimension31-50.000*15.961.005-83.19-16.812-145.000*15.961.000-178.19-111.81Tamhanedimension21dimension32-95.000*17.829.001-145.67-44.33350.000*11.339.00219.2880.722dimension3195.000*17.829.00144.3314

19、5.673145.000*17.829.00094.33195.673dimension31-50.000*11.339.002-80.72-19.282-145.000*17.829.000-195.67-94.33*. 均值差的显著性程度为 0.05。做了以下三比照较:做了以下三比照较:品牌品牌A品牌品牌B、品牌、品牌A品牌品牌C和品牌和品牌B品牌品牌C。每一比照较都有相应的每一比照较都有相应的p-值值。6 - 27o 在研究分类型自变量和数量型因变量之间关联。在这里,我在研究分类型自变量和数量型因变量之间关联。在这里,我们在此研究的是化肥品牌和小麦产量两个变量。其它还有诸们在此研究的是化

20、肥品牌和小麦产量两个变量。其它还有诸如职业与收入的关系、不同教育方法与学生的学习程度的关如职业与收入的关系、不同教育方法与学生的学习程度的关系等例子。系等例子。o 应用方差分析需要的假设条件有:应用方差分析需要的假设条件有:1各总体是正态分布。各总体是正态分布。2各总体的有一样的标准差。各总体的有一样的标准差。3样本互相独立。当满样本互相独立。当满足上述条件时,可以用足上述条件时,可以用F分布作为检验统计量的分布。分布作为检验统计量的分布。o 方差分析是基于计算因变量在按照自变量的方差分析是基于计算因变量在按照自变量的各类的均值之间各类的均值之间的差异程度的差异程度和和每一类中观测值的差异程度

21、。每一类中观测值的差异程度。oF检验及其检验及其p-值告诉我们因变量在各类中的均值是否有显著差值告诉我们因变量在各类中的均值是否有显著差异。通常当异。通常当p-值小于值小于0.05时就可以回绝零假设了时就可以回绝零假设了o有时我们会看到有时我们会看到p值下面的数值显示值下面的数值显示*和和*。在脚注中会解释。在脚注中会解释一个星号表示它的一个星号表示它的p值小于值小于0.05,而两个星号那么表示,而两个星号那么表示p-值小值小于于0.017.2 方差分析回忆6 - 287.3 双因素方差分析o 在小麦产量的例子中,我们将总效应分为两类:化肥变量的效应和残差变量的效应。o 换句话说,我们只考虑了

22、效应的两个来源,即来自化肥变量和随机误差。o 但是影响小麦产量的因素除了所用化肥的品牌,可能还有土壤、天气等等因素的影响。o 考虑其他因素的好处是降低残差的效应,即降低F统计量的分母,F值会变大,使我们回绝均值相等的零假设,或者说我们可以解释更多的效应,从而减少误差。o 本节讨论双因素方差分析双因素方差分析Two-Way ANOVA,其分析方法可以很容易地被推广到多因素方差分析多因素方差分析Multi-Way ANOVA。6 - 29双因素方差分析two-way analysis of variance 分析两个因素分析两个因素行因素行因素Row和列因素和列因素Column对试对试验结果的影响

23、验结果的影响 假如两个因素对试验结果的影响是互相独立的,分别判假如两个因素对试验结果的影响是互相独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方断行因素和列因素对试验数据的影响,这时的双因素方差分析称为差分析称为无交互作用的双因素方差分析无交互作用的双因素方差分析或无或无重复双因重复双因素方差分析素方差分析Two-factor without replication假如除了行因素和列因素对试验数据的单独影响外,两假如除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为因素方差分

24、析称为有交互作用的双因素方差分析有交互作用的双因素方差分析或或可重可重复 双 因 素 方 差 分 析复 双 因 素 方 差 分 析 T w o - f a c t o r w i t h replication 6 - 30双因素方差分析 例题分析个地区的交通管理局正准备扩大从郊区到商业中心的公车效劳,考虑四条道路:1号线、2号线、3号线、4号线。交管局想进展检验判断四条道路的平均行驶时间是否存在差异。因为可能存在不同司机,检验时让每一名司机都分别行驶四条道路。司机司机1号线号线2号线号线3号线号线4号线号线小张小张33353537小李小李36373939小王小王35384038小刘小刘403

25、64340小杨小杨413943406 - 317.3 双因素方差分析行驶时间平方和df均方F显著性组间32.400310.8001.618.225组内106.800166.675总数139.20019 实际上实际上p-值值0.225远大于远大于0.05,所以不能回绝零假设。,所以不能回绝零假设。 交管局得出结论四条道路的平均行驶时间无差异,交管局得出结论四条道路的平均行驶时间无差异,没有某条没有某条道路行驶速度快而被选择的理由。道路行驶速度快而被选择的理由。假如不考虑司机因素假如不考虑司机因素单因素分析单因素分析6 - 327.3.1 无交互效应的双因素方差分析o 假如上例中我们只考虑道路引起

26、的效应而将其余的都归为随机效应,那么我们没有必要让五名司机分别行驶四条道路。o 假如我们考虑不同司机的影响,我们就能减少残差平方和,从而得到更大的F值。我们把本例中的司机因素称为区组因素区组因素blocking variable,即在方差分析中能减少残差平方和的第二个处理因素。o 在本例中将司机作为区组因素,从残差平方和中提取出司机的影响可以影响处理的F比值。o 这里介绍无交互作用的双因素方差分析。6 - 337.3.1 无交互效应的双因素方差分析o 因为我们考虑不同司机行使时间的差异,所以要对区组做假设检验。两组假设分别为:o 1 不同道路均值都相等 o 各道路均值不全相等o 2 区组均值都

27、相等 o 各区组均值不全相等o 两因素方差分析表的格式与单因素方差分析的格式一致,唯一的区别是加了一行区组变差。01:H02:H11:H11111234222221234512:H6 - 347.3.1 无交互效应的双因素方差分析6 - 35 从该表可以看出,关于对司机的零假设的从该表可以看出,关于对司机的零假设的p-值是值是0.002,对道路的零假设的,对道路的零假设的p-值值是是0.024。可以得知在。可以得知在0.05的显著性程度下,道路和区组的零假设都被回绝。的显著性程度下,道路和区组的零假设都被回绝。 因此,道路和司机这两个因素都对行驶时间有显著作用,也就是说这两个因素因此,道路和司

28、机这两个因素都对行驶时间有显著作用,也就是说这两个因素的不同程度确实造成了行驶时间的不同。的不同程度确实造成了行驶时间的不同。 这说明司机这个因素的引进,使得道路对行驶时间从没有影响变成有显著影响这说明司机这个因素的引进,使得道路对行驶时间从没有影响变成有显著影响。7.3.1 无交互效应的双因素方差分析6 - 36o 例题分析n 线路因素和司机因素合起来总共解释了行车时间差异的78.45%n 其他因素残差变量只解释了销售量差异的21.55%7.3.1 无交互效应的双因素方差分析6 - 377.3.2 有交互效应的双因素方差分析o 值得注意的是,对于上面的例子,我们仅仅分析了道路和司机这两个因素

29、分别对行驶时间的影响。也就是说因为司机变化所带来的行驶时间的变化是同行驶的道路是无关的。这显然是值得斟酌的。o 对于一个实际问题,仅考虑因素各自的作用是不是合理?能不能答复我们关心的问题?那就得视详细问题而论了。o 因此,我们接下来简单介绍带交互作用的双因素方差分析。要说明的是,假如每一种因素程度的组合只有一个观测值,那么由于数据量不够会导致无法判断是否有交互作用。这时即使有交互作用,也混在误差项中而无法别离出来。6 - 38o例例7.3 该地区的交管局还想研究司机变化所带来的行驶时间的变化与行驶的道路是否有关?因此,我们假设对这个地区的交管局进展了2次测试。获得数据如下表所示司机司机1号线号线2号线号线3号线号线4号线号线小张小张3335353735373739小李小李3638373939413941小王小王3537384040423840小刘小刘4042363843454042小杨小杨41433941434540427.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论