![第十一章-方差分析与试验设计-课件_第1页](http://file4.renrendoc.com/view/27e2786a01db623908607027819208d9/27e2786a01db623908607027819208d91.gif)
![第十一章-方差分析与试验设计-课件_第2页](http://file4.renrendoc.com/view/27e2786a01db623908607027819208d9/27e2786a01db623908607027819208d92.gif)
![第十一章-方差分析与试验设计-课件_第3页](http://file4.renrendoc.com/view/27e2786a01db623908607027819208d9/27e2786a01db623908607027819208d93.gif)
![第十一章-方差分析与试验设计-课件_第4页](http://file4.renrendoc.com/view/27e2786a01db623908607027819208d9/27e2786a01db623908607027819208d94.gif)
![第十一章-方差分析与试验设计-课件_第5页](http://file4.renrendoc.com/view/27e2786a01db623908607027819208d9/27e2786a01db623908607027819208d95.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十一章方差分析与
试验设计第十一章方差分析与
试验设计1方差分析导论方差分析多重比较方法试验设计(完全随机化试验设计、随机化区组设计、双因素方差分析)方差分析导论2方差分析导论之前已经讨论过对于双总体均值差异的假设检验,那么如果是三个或三个以上的总体均值差异比较的检验呢?先看一个现实例子:某公司有下属甲、乙、丙三家工厂生产主要产品。为了确定这些工厂中有多少员工了解全面质量管理,从每个工厂中抽取一个由6名员工组成的样本,对这些样本进行质量管理有关知识的考核。得到了下表所示的考试分数:方差分析导论之前已经讨论过对于双总体均值差异的假设检验,那么3员工代号工厂甲工厂乙工厂丙185715927575643827362476746957169756858267员工代号工厂甲工厂乙工厂丙185715927575643824公司想知道:下属的三个工厂工人在质量管理知识掌握上是否有差异?因此相应的检验假设为:;Ha:u1,u2,u3不全相等该例题中,响应变量(responsevariables)为工人考分;因素(factor)为工厂;各工厂的名称所属为处理(Treatment)我们本章引入的方差分析方法就是用来检验:三个或三个以上总体均值的方法。如果拒绝了H0,则说明:三个或三个以上的总体均值不全相等;至少有两个总体均值不同。公司想知道:下属的三个工厂工人在质量管理知识掌握上是否有差异5进行方差分析之前有几个假设:1.对于每个总体,响应变量服从正态分布;2.对于所有总体,响应变量的方差相同;3.观测值是独立的。进行方差分析之前有几个假设:6方差分析的原理:如果H0:u1=u2=u3为真,且满足以上假定时,对于三个样本均值都来自同一个抽样分布,那么此时该总体的均值估计(或称为)可以用三个样本均值的算术平均数来估计。方差分析的原理:7此时的总体方差的估计可以由:此时可以由样本的组间方差估计得到;也可以通过样本的组内方差的平均值估计。在H0为真的情况下,二者的比值应接近于1。组间方差:组内估计:此时的总体方差的估计可以由:8如果H0:u1=u2=u3为假,说明总体均值不全相等,他们来自不同的抽样分布。此时的样本均值不接近。相应的,组间方差增大。此时的组间方差不适合估计且组间方差和组内方差的比值远大于1.如果H0:u1=u2=u3为假,说明总体均值不全相等,他们来9由上例计算:可见,总体方差的组间估计远大于组内估计,比率为9.如前所述,当总体方差的组间估计与组内估计的比值较大时,可能导致拒绝原假设,那么多大的程度可以拒绝H0的原假设呢?由上例计算:10方差分析的思想:比较总体方差的组间估计和组内估计:组间估计是以样本均值间的变动来估计总体方差组内估计是合并每个样本内的变动来估计总体方差比较总体方差的组内估计和组间估计在各总体均值无差异时,这两个估计应很接近若两个估计很接近,则不能否定各总体均值无差异若两个估计不是很接近,则按照一定的原则否定各总体均值无差异的假定方差分析的思想:比较总体方差的组内估计和组间估计在各总体均值11方差分析根据之前对方差分析原理的阐述,我们可以用判断样本方差比值的方法对k个总体均值进行检验。假设从k个总体或处理中选择一个样本容量为n的简单随机样本。我们有以下定义,方差分析根据之前对方差分析原理的阐述,我们可以用判断样本方差12其中,nT=n1+n2+…+nk其中,nT=n1+n2+…+nk13若每个样本的样本容量相等,则总样本平均值为:即总体均值恰好等于k个样本均值的算术平均数.若每个样本的样本容量相等,则总样本平均值为:14定义总体方差的组间估计和组内估计的组间估计:MSTR称为处理均方(meansquareduetotreatments)其中,MSTR的分子称为处理平方和SSTR(sumofsquaresduetotreatments)定义总体方差的组间估计和组内估计15的组内估计:MSE称为组内均方(meansquareduetoerror)其中,MSE的分子称为组内平方和,(sumofsquareduetoerror)若H0为真,组间估计是总体方差的无偏估计;若H0为假,组间估计得到的则偏大.不论H0真或假,组内估计都是总体方差的无偏估计.组内估计反映每个处理内部的变动.的组内估计:16定义方差分析的统计量F统计量的构造:两个chi方分布被各自自由度除以后的比值.在响应变量服从独立正态分布的假定下,且H0为真时,我们可以推知,SSTR/,SSE/分别服从自由度为(K-1)和(nT-k)的chi方分布.根据F分布的构造,可知,统计量F=MSTR/MSE~F(k-1,nT-k)服从自由度为k-1和nT-k的F分布.由上例的数据计算可得,样本F统计量为F=258/28.67=9定义方差分析的统计量17方差分析的拒绝规则:H0:u1=u2=…=uk;Ha:u1,u2,…,uk不全相等在显著水平α下的拒绝规则为:若F>F(α;k-1,nT-k),则拒绝H0的原假设,认为总体1,总体2,….总体k的均值不全相等.上例中的拒绝域是,F>F(0,05,2,15)=3.68即当由样本信息计算得到的F统计量大于3.68时,拒绝初始假设H0.因为9>3.68,我们拒绝三个总体均值无差异的假设.方差分析的拒绝规则:18αF=MSTR/MSEF(α;k-1,nT-k)αF=MSTR/MSEF(α;k-1,nT-k)19方差分析表(ANOVA)方差来源平方和自由度均方(meansquare)F统计量组间(处理)SSTRK-1MSTRMSTR/MSE组内(误差)SSEnT-kMSE合计SSTnT-1方差分析表(ANOVA)方差来源平方和自由度均方(mean20方差分析就是将总得平方和及自由度分解为相应的来源:处理和误差.当各样本的容量相等时,方差分析就是将总得平方和及自由度分解为相应的来源:处理和误差21多重比较方法之前讨论的方差分析检验原假设时,只能得到所有总体均值是否相等的结论,但具体到若干个配对总体均值是否相等,就不能得出准确结论.多重比较方法:FisherLSD方法(LeastSignificantDifference)该法是对总体方差估计稍微做出修改得出,别切给予两个总体情形的t检验统计量.多重比较方法之前讨论的方差分析检验原假设时,只能得到所有总体22LSD方法的多重比较步骤1.H0:ui=uj;Ha:ui≠uj2.检验统计量3.拒绝规则为:如果t>t(a/2)或t<-t(a/2),则拒绝H0其中的t分布自由度为(nT-k)LSD方法的多重比较步骤1.H0:ui=uj;Ha:23上例,我们对甲乙丙三家工厂的员工测试表明,三家工厂员工对质量管理的知识认同没有达到一致.但具体是哪两家工厂间,或所有工厂间出现了认识差异呢?用LSD多重比较方法分别对甲乙、甲丙、乙丙来进行判断,相应的变量为:n1=n2=n3=6,k=3,nT=18;MSTR=258;MSE=28.67上例,我们对甲乙丙三家工厂的员工测试表明,三家工厂员工对质量24H0:u1=u2;Ha:u1≠u2在假定H0为真的情形下,有统计量t服从自由度为15的t分布此时,t<t(0.025;15)=2.131不能拒绝H0,不能得出甲乙两厂工人对质量认知有差异的结论。H0:u1=u2;Ha:u1≠u225H0:u1=u3;Ha:u1≠u3在假定H0为真的情形下,有统计量t服从自由度为15的t分布此时,t>t(0.025;15)=2.131拒绝H0,可以得出甲丙两厂工人对质量认知有差异的结论。H0:u1=u3;Ha:u1≠u326H0:u2=u3;Ha:u2≠u3在假定H0为真的情形下,有统计量t服从自由度为15的t分布此时,t<t(0.025;15)=2.131拒绝H0,得出乙丙两厂工人对质量认知有差异的结论。H0:u2=u3;Ha:u2≠u327换句话说,通过判断统计量(样本均值间的差值),可以判定是否拒绝H0.假设,H0:ui=uj;Ha:ui≠uj统计量为拒绝法则为:若,则拒绝H0其中换句话说,通过判断统计量(样本均值间的差值),可以判定是否拒28我们用该法来对甲乙丙三个工厂进行多重比较。由题意,可计算即判断,样本均值差是否大于6.59,即可判定两总体均值是否有差异。(无法得出甲乙总体均值有差异)(乙丙两厂总体均值有差异)(甲丙两厂总体均值有差异)我们用该法来对甲乙丙三个工厂进行多重比较。29利用LSD方法对两个总体均值之差进行置信区间估计:由上例可知,U1-u2的95%置信区间为:U1-u3的95%置信区间为:U2-u3的95%置信区间为:若区间包含0值,则不能拒绝两总体均值相等的假设;若区间不包含0值,则得出两总体均值不等的结论。利用LSD方法对两个总体均值之差进行置信区间估计:30关于第一类错误的概率1、FISHERLSD方法的使用前提是:方差分析是我们有证据拒绝所有总体均值相等的假设。2、比较性第一类错误概率与实验性第一类错误概率:我们用LSD方法分别对两两配对总体进行了比较,在每个检验中,都将显著水平设定为5%,对于每一个检验,犯第一类错误的概率是5%,在多重比较问题中,这个第一类错误概率称为比较性第一类错误概率。关于第一类错误的概率31在以上三个比较过程中,至少有一次犯第一类错误的概率应为:1-0.95^3=0.1426这个概率称为试验性第一类错误概率。将其记为:3、Bonferroni修正在多重比较问题中,若有k个总体,则有,这时,对α=5%,若k=5,则试验性第一类错误概率为,显然,要使试验性第一类错误概率降低,我们要减少α的设定,我们令,该值称为Bonferroni修正。在以上三个比较过程中,至少有一次犯第一类错误的概率应为:32由上例可知,k=3,经过修正的α值应为0.05/3=1.7%,即需要选择比较性第一类错误概率α=1.7%4、若样本容量固定,则在多重检验中减少第一类错误概率,将增加犯第二类错误的概率。因此在多重比较检验中取较小的比较性第一类错误概率,必定要冒第二类错误的风险。由上例可知,k=3,经过修正的α值应为33试验设计:完全随机化设计某公司开发一种新的城市供水过滤设备,购得元件后,由属下一家工厂负责装配。工程部确定了三种最佳装配方法,并从全体装配工人随机抽取了若干名工人进行操作,目的是要比较三中装配方法的优劣。在这项研究中,响应变量为装配元件个数;因素为装配方法;处理为方法1、方法2、方法3(分别对应三个总体);试验单元:被抽到的每个工人。在该试验中,三个总体分别是:使用装配方法1的全体员工;使用装配方法2的全体员工;使用装配方法3的全体员工。试验设计:完全随机化设计某公司开发一种新的城市供水过滤设备,34这个试验设计称为完全随机化设计,它要求将三种装配方式的其中一个随机分配给工人,例如方法1随机分配给第一名工人;方法2随机分配给第二名工人;方法3随机分配给第三名工人。即每个工人接受任一装配方法的机会相等。所有的装配工进行试验抽取15名工人做为随机样本将每一种装配方法随机指派给5个工人方法1n1=5方法2n2=5方法3n3=5这个试验设计称为完全随机化设计,它要求将三种装配方式的其中一35当数据来自完全随机化试验设计是,为检验均值是否相等的假设,我们可以使用之前叙述的方差分析方法。工人号方法1方法2方法315858482646957355715946664475676849样本均值626652样本方差27.226.531样本标准差5.245.155.57当数据来自完全随机化试验设计是,为检验均值是否相等的假设,我36根据之前方差分析的步骤,我们分别计算主要统计量,MSTR,MSE及F根据之前方差分析的步骤,我们分别计算主要统计量,MSTR,M37进行假设设定:H0:u1=u2=u3;Ha:u1,u2,u3不全相等检验统计量F,F=MSTR/MSE在原假设为真,所有总体满足正态分布假定,且所有观测值独立的前提下,该统计量服从自由度为(2,12)的F分布。由样本计算F值F=260/28.33=9.18在显著水平为5%下,检验的拒绝域为:F>F(0.05;2,12)=3.89进行假设设定:38由于F=9.18>3.89,说明拒绝H0原假设,即三种装配方法的平均产量有差异。相应的ANOVA表方差来源平方和自由度均方(meansquare)F统计量组间(处理)52022609.18组内(误差)3401228.33合计86014由于F=9.18>3.89,说明拒绝H0原假设,即三种装配方39试验设计:随机化区组设计什么叫随机化区组设计当试验单元同质时,完全随机设计有效;若试验单元异质,则需要采用随机化区间设计。这个设计的目的就是通过剔除MSE项中的外部来源方差,来得到实际误差方差的最佳估计。随机化区组设计由b个区组所组成,每个区组包含k个试验单位。K个处理被随机的指派给每个区组中的单位,且每个处理在每个区组中只出现一次。试验设计:随机化区组设计什么叫随机化区组设计40例:一项对3种不同包装设计的顾客偏好研究采用随机化区组试验设计,在4个超级市场进行。该试验进行了3周。超级市场包装1包装2包装31173423215262131238462216例:一项对3种不同包装设计的顾客偏好研究采用随机化区组试验设41表中给出的是每个超级市场在给定三周内每周每种包装设计售出的单位数。问这些数据是否可以提供足够的证据表明各种包装设计的平均销售量有差异?在纯随机设计中,包装设计被随机的指派到每个超级市场,然而由题可知,超级市场由于受到地域、人流量等的因素影响,存在异质性。因此总体方差的组内估计MSE除了误差的影响以外,还受到市场间的异质而导致的误差。因此,如果仍采用纯随机设计的方差分析方法,则可能产生错误的结果。表中给出的是每个超级市场在给定三周内每周每种包装设计售出的单42SST=SSTR+SSBL+SSE总方差可以分解为:分解为处理平方和(SSTR),区组平方和(SSBL)以及误差平方和(SSE)其中,k为处理个数,b为区组数,nT为总的样本大小,SST=SSTR+SSBL+SSE43方差来源平方和自由度均方(meansquare)F统计量处理SSTRk-1MSTRMSTR/MSE区组SSBLb-1MSBL误差SSE(k-1)(b-1)MSE合计SSTnT-1方差来源平方和自由度均方(meansquare)F统计量处44由例题计算得到各统计量:
SSE=SST-SSTR-SSBL=45.5由例题计算得到各统计量:45由例题计算得到各统计量:方差来源平方和自由度均方(meansquare)F统计量处理547.1672273.48336.08区组3483116误差45.567.58合计940.66711由例题计算得到各统计量:方差来源平方和自由度均方(mean46同样的,我们也可以根据统计量F=MSTR/MSE的抽样分布来判定处理均值之间的差异。在假定H0为真,总体满足正态分布,且观测值独立的情形下,统计量F服从自由度为(k-1,(k-1)*(b-1))的F分布。拒绝规则为:若F>F(a;k-1,(k-1)*(b-1)),则拒绝H0的原假设。本例的F统计量为36.08>10.92,因此我们拒绝原假设,认为各种包装设计的平均销售量有差异。同样的,我们也可以根据统计量F=MSTR/MSE的抽样分布来47例:空中交管员的压力测试一项研究通过衡量空中交通管制员的工作压力,建议改造并重新设置管制员工作站。设计三个工作方案,先想知道这三个工作方案对减轻管制员压力的效果有多大差异。由于不同的管制员对压力的承受力是不同的,即考察对象不是同质的,组内方差有两个来源,一个是随机误差,一个是管制员的个人差异导致的误差。因此我们通过随机化区组设计将个人差异从MSE中分离出来。为了体现随机化的特点,我们以管制员为区组,将三个方案以随机的顺序指派给每个管制员。每个管制员要操作每个系统。例:空中交管员的压力测试48第十一章-方差分析与试验设计-课件49收集到以下数据:可以计算得到以下汇总数据:收集到以下数据:50第十一章-方差分析与试验设计-课件51计算SST,SSTR,SSBL及SSESSE=SST-SSTR-SSBL=19计算SST,SSTR,SSBL及SSE52将各平方和被各自的自由度除以后,可得到相应的均方:MSTR=SSTR/(K-1)=10.5MSE=SSE/{(k-1)*(b-1)}=1.9MSBL=SSBL/(b-1)=6F=MSTR/MSE=10.5/1.9=5.53将各平方和被各自的自由度除以后,可得到相应的均方:53计算的结果通过ANOVA表表示出来,如下:通过比较F与F(a;2,10)可以得出是否拒绝H0的结论:F=5.53>F(a;2,10)=4.1,拒绝原假设H0:u1=u2=u3说明,统计上可以认为三种方案在对空中交通管制员平均压力效果上有差异。计算的结果通过ANOVA表表示出来,如下:54试验设计:双因素试验之前的试验设计仅针对一个因子(factor)考虑相应的统计结论,现在我们需要考虑关于两个或更多因子相关的结论。我们介绍双因素试验以及双因素的方差分析方法。例:某大学考虑以下三种GMAT辅导课程(factor1),对应的有三个因子值(处理):1.3小时复习,内容覆盖GMAT常考题型;2.1天课程,覆盖有关考试资料,及模拟考试;3.10周课程,发现学生弱点并建立个人改进课程。另外,报考GMAT考试的学生主要来自三类学院(factor2),对应的三个因子值(处理),分别为1.商学院;2.工学院;3.艺术与科学学院。试验设计:双因素试验之前的试验设计仅针对一个因子(facto55因此,发现影响考试成绩的两个因素分别为:课程类型及考生所在的院系。现想考察辅导课程是否GMAT成绩的影响不同?考生所在的院系是否对GMAT成绩的影响不同?以及是否某些院校的考生参加某种辅导课程表现不错,但参加另一种辅导课程则表现不佳?显著水平为:5%因此,发现影响考试成绩的两个因素分别为:56现分别从各学院抽取6名考生,将其随机安排,其中各学院中的两名学生参加课程1,两名参加课程2,两名参加课程3。由GMAT考试收集到的考分数据如下:现分别从各学院抽取6名考生,将其随机安排,其中各学院中的两名57因此,总的观测个数为18.因子1的处理个数为3,因子2的处理个数为3.且样本进行了2次复制。(在每个组合中有2个观测值)由于双因素之间也可能产生影响,因此有交互作用(interaction),如果这个影响对GMAT考分有明显作用,我们就能得出辅导课程效果依赖于毕业院校的结论。因此,总的观测个数为18.因子1的处理个数为3,因子2的处理58方差分析方法:SST=SSA+SSB+SSAB+SSE设,a—因子1的水平数(处理数);b-因子2的水平数(处理数);r-复制的个数;nT为总的观测个数。方差分析方法:59相关记号:A的第i个处理与B的第j个处理的第k个复制的观测值A的第i个处理的样本均值B的第j个处理的样本均值A的第i个处理与B的第j个处理的组合的样本均值所有nT个观测值的样本均值相关记号:60第十一章-方差分析与试验设计-课件61第十一章-方差分析与试验设计-课件62根据GMAT分数数据,我们计算以上统计量:方差来源平方和自由度均方(meansquare)F统计量因素16100230501.38因素24530022265010.27交互作用11200428001.27误差1985092206合计8245017根据GMAT分数数据,我们计算以上统计量:方差来源平方和自由631.检验辅导课程是否对GMAT成绩影响差异?H0:u1=u2=u3;Ha:u1,u2,u3不全相等F=MSA/MSE=1.38在H0为真的前提下,F统计量服从自由度为(2,9)的F分布。F<4.26,不能拒绝H0的假定,我们认为辅导课程之间对成绩的影响没有明显差异。1.检验辅导课程是否对GMAT成绩影响差异?642.检验学院类型是否对成绩有影响差异?H0:u1=u2=u3;Ha:u1,u2,u3不全相等F=MSB/MSE=10.27在H0为真的前提下,F统计量服从自由度为(2,9)的F分布。F>4.26,拒绝H0的假定,我们认为不同的学院对成绩的影响有明显差异。即三个来自不同学院的学生参加相同课程会产生明显差异的考试分数。2.检验学院类型是否对成绩有影响差异?653.检验两因素是否有显著的交互作用?H0:V1=V2=V3;H0:v1,v2,v3不全相等统计量F=MSAB/MSE=1.27在原假设为真(即三种辅导课程对不同学院学生的考试成绩影响相同),则该统计量服从自由度为(4,9)的F分布,因为F<F(a;4,9)=3.63,所以不能拒绝H0假设,即认为三种辅导课程对不同学院学生的GMAT考试影响没有显著差异。3.检验两因素是否有显著的交互作用?66作业1.一次研究调查了市场专业人员的公司伦理价值观念。假定在类似的研究中得到了下列数据(高分值表明伦理价值观念程度高)。对于显著水平0.05,检验三个专业人员群体之间的观念有无显著差异。作业1.一次研究调查了市场专业人员的公司伦理价值观念。假定在672.一位汽车交易商进行测试以判断完成一个小型引擎启动所需分钟数是否与使用计算机引擎分析器或电子分析器有关。因为启动时间对于微型、中型和大型汽车是不同的,使用了三种类型的汽车作为试验中的区组,得到如下数据。显著水平为0.05.2.一位汽车交易商进行测试以判断完成一个小型引擎启动所需分钟683.一家邮购公司设计了一个析因试验以检验杂志广告大小以及广告方案对于收到邮购请求的数目(千个)的影响。考察了三种广告方案和两种不同大小的广告,得到如下数据。利用双因素分析检验属于广告方案、广告大小或交互作用的显著影响。显著水平为5%3.一家邮购公司设计了一个析因试验以检验杂志广告大小以及广告69谢谢骑封篙尊慈榷灶琴村店矣垦桂乖新压胚奠倘擅寞侥蚀丽鉴晰溶廷箩侣郎虫林森-消化系统疾病的症状体征与检查林森-消化系统疾病的症状体征与检查谢谢骑封篙尊慈榷灶琴村店矣垦桂乖新压胚奠倘擅寞侥蚀丽鉴晰溶廷70第十一章方差分析与
试验设计第十一章方差分析与
试验设计71方差分析导论方差分析多重比较方法试验设计(完全随机化试验设计、随机化区组设计、双因素方差分析)方差分析导论72方差分析导论之前已经讨论过对于双总体均值差异的假设检验,那么如果是三个或三个以上的总体均值差异比较的检验呢?先看一个现实例子:某公司有下属甲、乙、丙三家工厂生产主要产品。为了确定这些工厂中有多少员工了解全面质量管理,从每个工厂中抽取一个由6名员工组成的样本,对这些样本进行质量管理有关知识的考核。得到了下表所示的考试分数:方差分析导论之前已经讨论过对于双总体均值差异的假设检验,那么73员工代号工厂甲工厂乙工厂丙185715927575643827362476746957169756858267员工代号工厂甲工厂乙工厂丙1857159275756438274公司想知道:下属的三个工厂工人在质量管理知识掌握上是否有差异?因此相应的检验假设为:;Ha:u1,u2,u3不全相等该例题中,响应变量(responsevariables)为工人考分;因素(factor)为工厂;各工厂的名称所属为处理(Treatment)我们本章引入的方差分析方法就是用来检验:三个或三个以上总体均值的方法。如果拒绝了H0,则说明:三个或三个以上的总体均值不全相等;至少有两个总体均值不同。公司想知道:下属的三个工厂工人在质量管理知识掌握上是否有差异75进行方差分析之前有几个假设:1.对于每个总体,响应变量服从正态分布;2.对于所有总体,响应变量的方差相同;3.观测值是独立的。进行方差分析之前有几个假设:76方差分析的原理:如果H0:u1=u2=u3为真,且满足以上假定时,对于三个样本均值都来自同一个抽样分布,那么此时该总体的均值估计(或称为)可以用三个样本均值的算术平均数来估计。方差分析的原理:77此时的总体方差的估计可以由:此时可以由样本的组间方差估计得到;也可以通过样本的组内方差的平均值估计。在H0为真的情况下,二者的比值应接近于1。组间方差:组内估计:此时的总体方差的估计可以由:78如果H0:u1=u2=u3为假,说明总体均值不全相等,他们来自不同的抽样分布。此时的样本均值不接近。相应的,组间方差增大。此时的组间方差不适合估计且组间方差和组内方差的比值远大于1.如果H0:u1=u2=u3为假,说明总体均值不全相等,他们来79由上例计算:可见,总体方差的组间估计远大于组内估计,比率为9.如前所述,当总体方差的组间估计与组内估计的比值较大时,可能导致拒绝原假设,那么多大的程度可以拒绝H0的原假设呢?由上例计算:80方差分析的思想:比较总体方差的组间估计和组内估计:组间估计是以样本均值间的变动来估计总体方差组内估计是合并每个样本内的变动来估计总体方差比较总体方差的组内估计和组间估计在各总体均值无差异时,这两个估计应很接近若两个估计很接近,则不能否定各总体均值无差异若两个估计不是很接近,则按照一定的原则否定各总体均值无差异的假定方差分析的思想:比较总体方差的组内估计和组间估计在各总体均值81方差分析根据之前对方差分析原理的阐述,我们可以用判断样本方差比值的方法对k个总体均值进行检验。假设从k个总体或处理中选择一个样本容量为n的简单随机样本。我们有以下定义,方差分析根据之前对方差分析原理的阐述,我们可以用判断样本方差82其中,nT=n1+n2+…+nk其中,nT=n1+n2+…+nk83若每个样本的样本容量相等,则总样本平均值为:即总体均值恰好等于k个样本均值的算术平均数.若每个样本的样本容量相等,则总样本平均值为:84定义总体方差的组间估计和组内估计的组间估计:MSTR称为处理均方(meansquareduetotreatments)其中,MSTR的分子称为处理平方和SSTR(sumofsquaresduetotreatments)定义总体方差的组间估计和组内估计85的组内估计:MSE称为组内均方(meansquareduetoerror)其中,MSE的分子称为组内平方和,(sumofsquareduetoerror)若H0为真,组间估计是总体方差的无偏估计;若H0为假,组间估计得到的则偏大.不论H0真或假,组内估计都是总体方差的无偏估计.组内估计反映每个处理内部的变动.的组内估计:86定义方差分析的统计量F统计量的构造:两个chi方分布被各自自由度除以后的比值.在响应变量服从独立正态分布的假定下,且H0为真时,我们可以推知,SSTR/,SSE/分别服从自由度为(K-1)和(nT-k)的chi方分布.根据F分布的构造,可知,统计量F=MSTR/MSE~F(k-1,nT-k)服从自由度为k-1和nT-k的F分布.由上例的数据计算可得,样本F统计量为F=258/28.67=9定义方差分析的统计量87方差分析的拒绝规则:H0:u1=u2=…=uk;Ha:u1,u2,…,uk不全相等在显著水平α下的拒绝规则为:若F>F(α;k-1,nT-k),则拒绝H0的原假设,认为总体1,总体2,….总体k的均值不全相等.上例中的拒绝域是,F>F(0,05,2,15)=3.68即当由样本信息计算得到的F统计量大于3.68时,拒绝初始假设H0.因为9>3.68,我们拒绝三个总体均值无差异的假设.方差分析的拒绝规则:88αF=MSTR/MSEF(α;k-1,nT-k)αF=MSTR/MSEF(α;k-1,nT-k)89方差分析表(ANOVA)方差来源平方和自由度均方(meansquare)F统计量组间(处理)SSTRK-1MSTRMSTR/MSE组内(误差)SSEnT-kMSE合计SSTnT-1方差分析表(ANOVA)方差来源平方和自由度均方(mean90方差分析就是将总得平方和及自由度分解为相应的来源:处理和误差.当各样本的容量相等时,方差分析就是将总得平方和及自由度分解为相应的来源:处理和误差91多重比较方法之前讨论的方差分析检验原假设时,只能得到所有总体均值是否相等的结论,但具体到若干个配对总体均值是否相等,就不能得出准确结论.多重比较方法:FisherLSD方法(LeastSignificantDifference)该法是对总体方差估计稍微做出修改得出,别切给予两个总体情形的t检验统计量.多重比较方法之前讨论的方差分析检验原假设时,只能得到所有总体92LSD方法的多重比较步骤1.H0:ui=uj;Ha:ui≠uj2.检验统计量3.拒绝规则为:如果t>t(a/2)或t<-t(a/2),则拒绝H0其中的t分布自由度为(nT-k)LSD方法的多重比较步骤1.H0:ui=uj;Ha:93上例,我们对甲乙丙三家工厂的员工测试表明,三家工厂员工对质量管理的知识认同没有达到一致.但具体是哪两家工厂间,或所有工厂间出现了认识差异呢?用LSD多重比较方法分别对甲乙、甲丙、乙丙来进行判断,相应的变量为:n1=n2=n3=6,k=3,nT=18;MSTR=258;MSE=28.67上例,我们对甲乙丙三家工厂的员工测试表明,三家工厂员工对质量94H0:u1=u2;Ha:u1≠u2在假定H0为真的情形下,有统计量t服从自由度为15的t分布此时,t<t(0.025;15)=2.131不能拒绝H0,不能得出甲乙两厂工人对质量认知有差异的结论。H0:u1=u2;Ha:u1≠u295H0:u1=u3;Ha:u1≠u3在假定H0为真的情形下,有统计量t服从自由度为15的t分布此时,t>t(0.025;15)=2.131拒绝H0,可以得出甲丙两厂工人对质量认知有差异的结论。H0:u1=u3;Ha:u1≠u396H0:u2=u3;Ha:u2≠u3在假定H0为真的情形下,有统计量t服从自由度为15的t分布此时,t<t(0.025;15)=2.131拒绝H0,得出乙丙两厂工人对质量认知有差异的结论。H0:u2=u3;Ha:u2≠u397换句话说,通过判断统计量(样本均值间的差值),可以判定是否拒绝H0.假设,H0:ui=uj;Ha:ui≠uj统计量为拒绝法则为:若,则拒绝H0其中换句话说,通过判断统计量(样本均值间的差值),可以判定是否拒98我们用该法来对甲乙丙三个工厂进行多重比较。由题意,可计算即判断,样本均值差是否大于6.59,即可判定两总体均值是否有差异。(无法得出甲乙总体均值有差异)(乙丙两厂总体均值有差异)(甲丙两厂总体均值有差异)我们用该法来对甲乙丙三个工厂进行多重比较。99利用LSD方法对两个总体均值之差进行置信区间估计:由上例可知,U1-u2的95%置信区间为:U1-u3的95%置信区间为:U2-u3的95%置信区间为:若区间包含0值,则不能拒绝两总体均值相等的假设;若区间不包含0值,则得出两总体均值不等的结论。利用LSD方法对两个总体均值之差进行置信区间估计:100关于第一类错误的概率1、FISHERLSD方法的使用前提是:方差分析是我们有证据拒绝所有总体均值相等的假设。2、比较性第一类错误概率与实验性第一类错误概率:我们用LSD方法分别对两两配对总体进行了比较,在每个检验中,都将显著水平设定为5%,对于每一个检验,犯第一类错误的概率是5%,在多重比较问题中,这个第一类错误概率称为比较性第一类错误概率。关于第一类错误的概率101在以上三个比较过程中,至少有一次犯第一类错误的概率应为:1-0.95^3=0.1426这个概率称为试验性第一类错误概率。将其记为:3、Bonferroni修正在多重比较问题中,若有k个总体,则有,这时,对α=5%,若k=5,则试验性第一类错误概率为,显然,要使试验性第一类错误概率降低,我们要减少α的设定,我们令,该值称为Bonferroni修正。在以上三个比较过程中,至少有一次犯第一类错误的概率应为:102由上例可知,k=3,经过修正的α值应为0.05/3=1.7%,即需要选择比较性第一类错误概率α=1.7%4、若样本容量固定,则在多重检验中减少第一类错误概率,将增加犯第二类错误的概率。因此在多重比较检验中取较小的比较性第一类错误概率,必定要冒第二类错误的风险。由上例可知,k=3,经过修正的α值应为103试验设计:完全随机化设计某公司开发一种新的城市供水过滤设备,购得元件后,由属下一家工厂负责装配。工程部确定了三种最佳装配方法,并从全体装配工人随机抽取了若干名工人进行操作,目的是要比较三中装配方法的优劣。在这项研究中,响应变量为装配元件个数;因素为装配方法;处理为方法1、方法2、方法3(分别对应三个总体);试验单元:被抽到的每个工人。在该试验中,三个总体分别是:使用装配方法1的全体员工;使用装配方法2的全体员工;使用装配方法3的全体员工。试验设计:完全随机化设计某公司开发一种新的城市供水过滤设备,104这个试验设计称为完全随机化设计,它要求将三种装配方式的其中一个随机分配给工人,例如方法1随机分配给第一名工人;方法2随机分配给第二名工人;方法3随机分配给第三名工人。即每个工人接受任一装配方法的机会相等。所有的装配工进行试验抽取15名工人做为随机样本将每一种装配方法随机指派给5个工人方法1n1=5方法2n2=5方法3n3=5这个试验设计称为完全随机化设计,它要求将三种装配方式的其中一105当数据来自完全随机化试验设计是,为检验均值是否相等的假设,我们可以使用之前叙述的方差分析方法。工人号方法1方法2方法315858482646957355715946664475676849样本均值626652样本方差27.226.531样本标准差5.245.155.57当数据来自完全随机化试验设计是,为检验均值是否相等的假设,我106根据之前方差分析的步骤,我们分别计算主要统计量,MSTR,MSE及F根据之前方差分析的步骤,我们分别计算主要统计量,MSTR,M107进行假设设定:H0:u1=u2=u3;Ha:u1,u2,u3不全相等检验统计量F,F=MSTR/MSE在原假设为真,所有总体满足正态分布假定,且所有观测值独立的前提下,该统计量服从自由度为(2,12)的F分布。由样本计算F值F=260/28.33=9.18在显著水平为5%下,检验的拒绝域为:F>F(0.05;2,12)=3.89进行假设设定:108由于F=9.18>3.89,说明拒绝H0原假设,即三种装配方法的平均产量有差异。相应的ANOVA表方差来源平方和自由度均方(meansquare)F统计量组间(处理)52022609.18组内(误差)3401228.33合计86014由于F=9.18>3.89,说明拒绝H0原假设,即三种装配方109试验设计:随机化区组设计什么叫随机化区组设计当试验单元同质时,完全随机设计有效;若试验单元异质,则需要采用随机化区间设计。这个设计的目的就是通过剔除MSE项中的外部来源方差,来得到实际误差方差的最佳估计。随机化区组设计由b个区组所组成,每个区组包含k个试验单位。K个处理被随机的指派给每个区组中的单位,且每个处理在每个区组中只出现一次。试验设计:随机化区组设计什么叫随机化区组设计110例:一项对3种不同包装设计的顾客偏好研究采用随机化区组试验设计,在4个超级市场进行。该试验进行了3周。超级市场包装1包装2包装31173423215262131238462216例:一项对3种不同包装设计的顾客偏好研究采用随机化区组试验设111表中给出的是每个超级市场在给定三周内每周每种包装设计售出的单位数。问这些数据是否可以提供足够的证据表明各种包装设计的平均销售量有差异?在纯随机设计中,包装设计被随机的指派到每个超级市场,然而由题可知,超级市场由于受到地域、人流量等的因素影响,存在异质性。因此总体方差的组内估计MSE除了误差的影响以外,还受到市场间的异质而导致的误差。因此,如果仍采用纯随机设计的方差分析方法,则可能产生错误的结果。表中给出的是每个超级市场在给定三周内每周每种包装设计售出的单112SST=SSTR+SSBL+SSE总方差可以分解为:分解为处理平方和(SSTR),区组平方和(SSBL)以及误差平方和(SSE)其中,k为处理个数,b为区组数,nT为总的样本大小,SST=SSTR+SSBL+SSE113方差来源平方和自由度均方(meansquare)F统计量处理SSTRk-1MSTRMSTR/MSE区组SSBLb-1MSBL误差SSE(k-1)(b-1)MSE合计SSTnT-1方差来源平方和自由度均方(meansquare)F统计量处114由例题计算得到各统计量:
SSE=SST-SSTR-SSBL=45.5由例题计算得到各统计量:115由例题计算得到各统计量:方差来源平方和自由度均方(meansquare)F统计量处理547.1672273.48336.08区组3483116误差45.567.58合计940.66711由例题计算得到各统计量:方差来源平方和自由度均方(mean116同样的,我们也可以根据统计量F=MSTR/MSE的抽样分布来判定处理均值之间的差异。在假定H0为真,总体满足正态分布,且观测值独立的情形下,统计量F服从自由度为(k-1,(k-1)*(b-1))的F分布。拒绝规则为:若F>F(a;k-1,(k-1)*(b-1)),则拒绝H0的原假设。本例的F统计量为36.08>10.92,因此我们拒绝原假设,认为各种包装设计的平均销售量有差异。同样的,我们也可以根据统计量F=MSTR/MSE的抽样分布来117例:空中交管员的压力测试一项研究通过衡量空中交通管制员的工作压力,建议改造并重新设置管制员工作站。设计三个工作方案,先想知道这三个工作方案对减轻管制员压力的效果有多大差异。由于不同的管制员对压力的承受力是不同的,即考察对象不是同质的,组内方差有两个来源,一个是随机误差,一个是管制员的个人差异导致的误差。因此我们通过随机化区组设计将个人差异从MSE中分离出来。为了体现随机化的特点,我们以管制员为区组,将三个方案以随机的顺序指派给每个管制员。每个管制员要操作每个系统。例:空中交管员的压力测试118第十一章-方差分析与试验设计-课件119收集到以下数据:可以计算得到以下汇总数据:收集到以下数据:120第十一章-方差分析与试验设计-课件121计算SST,SSTR,SSBL及SSESSE=SST-SSTR-SSBL=19计算SST,SSTR,SSBL及SSE122将各平方和被各自的自由度除以后,可得到相应的均方:MSTR=SSTR/(K-1)=10.5MSE=SSE/{(k-1)*(b-1)}=1.9MSBL=SSBL/(b-1)=6F=MSTR/MSE=10.5/1.9=5.53将各平方和被各自的自由度除以后,可得到相应的均方:123计算的结果通过ANOVA表表示出来,如下:通过比较F与F(a;2,10)可以得出是否拒绝H0的结论:F=5.53>F(a;2,10)=4.1,拒绝原假设H0:u1=u2=u3说明,统计上可以认为三种方案在对空中交通管制员平均压力效果上有差异。计算的结果通过ANOVA表表示出来,如下:124试验设计:双因素试验之前的试验设计仅针对一个因子(factor)考虑相应的统计结论,现在我们需要考虑关于两个或更多因子相关的结论。我们介绍双因素试验以及双因素的方差分析方法。例:某大学考虑以下三种GMAT辅导课程(factor1),对应的有三个因子值(处理):1.3小时复习,内容覆盖GMAT常考题型;2.1天课程,覆盖有关考试资料,及模拟考试;3.10周课程,发现学生弱点并建立个人改进课程。另外,报考GMAT考试的学生主要来自三类学院(factor2),对应的三个因子值(处理),分别为1.商学院;2.工学院;3.艺术与科学学院。试验设计:双因素试验之
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论