统计学导论第8章 方差分析课件_第1页
统计学导论第8章 方差分析课件_第2页
统计学导论第8章 方差分析课件_第3页
统计学导论第8章 方差分析课件_第4页
统计学导论第8章 方差分析课件_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章方差分析方差分析方法引导单因素方差分析双因素方差分析第一节方差分析方法引导方差分析问题的提出方差分析的基本原理一、方差分析问题的提出【例8-1】为研究某种新安眠药的效果,将18只试验小白鼠随机的等分成三组,各组分别注射不同剂量的这种安眠药,观察每只小白鼠从注射到入睡的时间,得到数据如下表。

表8-1小白鼠安眠药试验入睡时间数据组号剂量mg入睡时间(分钟)(interval)10.521231924252321.019212018222031.5151013141115可以看出不同剂量的安眠药效果有差异,表明安眠药的剂量对入睡时间有一定的影响;同时同一剂量下的六只小白鼠的入睡时间各不相同,这表明入睡时间除了受到安眠药剂量的影响之外,还有某些偶然性因素及测量误差的影响。

如果我们想检验这三个水平的平均入睡时间之间的差别,在正态总体假设前提下,即检验

,可以采用t检验。两两检验过于繁琐,要想一次性进行检验,可采用方差分析的方法。方差分析,简称ANOVA(analysisofvariance),就是利用试验观测值总偏差的可分解性,将不同条件所引起的偏差与试验误差分解开来,按照一定的规则进行比较,以确定条件偏差的影响程度以及相对大小。当已经确认某几种因素对试验结果有显著影响时,可使用方差分析检验确定哪种因素对试验结果的影响最为显著及估计影响程度。在介绍方差分析之前,先要明确以下一些术语和概念。1、影响因素的分类:在所有的影响因素中根据是否可以人为控制可以分为两类,一类是人为可以控制的因素,称为控制因素或控制变量,如种子品种的选定,施肥量的多少;另一类因素是认为很难控制的因素,称为随机因素或随机变量,如气候和地域等影响因素。在很多情况下随机因素指的是实验过程中的抽样误差。2、控制变量的不同水平:控制变量的不同取值或水平,称为控制变量的不同水平。如甲品种、乙品种;10公斤化肥、20公斤化肥、30公斤化肥等。3、观测变量:受控制变量和随机变量影响的变量称为观测变量,如农作物的产量等。方差分析就是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量以及对观测变量有显著影响的各个控制变量其不同水平以及各水平的交互搭配是如何影响观测变量的一种分析方法。二、方差分析的基本原理

方差分析认为,如果控制变量的不同水平对观测变量产生了显著影响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之,如果控制变量的不同水平没有对观测变量产生显著影响,那么观测变量值的变动就不明显,其变动可以归结为随机变量影响造成的。建立在观测变量各总体服从正态分布和同方差的假设之上,方差分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显著差异的推断问题了。综上所述,方差分析从对观测变量的方差分解入手,通过推断控制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是否给观测变量带来了显著影响,进而再对控制变量各个水平对观测变量影响的程度进行剖析。

(二)检验统计量由上面的分析可知,因素以及因素之间的“交互作用”对试验结果是否有显著影响,不仅要看组间方差与组内方差的比较,同时也要考虑重复试验的次数,因为如果将每一次独立观测的结果作为一个独立变量,方差则是所有变量和其均值的残差平方和。构成方差的独立变量个数越多,其方差越大;而独立变量个数越小,其方差越小。在统计中这些独立变量的个数称为自由度。为了消除自由度对方差大小的影响,我们用方差除去自由度后的结果来比较两者相对大小。由此得到一个检验因素影响是否显著的统计量:F统计量的值越大,就越能说明组间方差是离差平方和的主要来源,因素影响显著;F统计量的值越小,就越能说明组内方差是离差平方和的主要来源,因素影响不显著。一、单因素条件下的平方和分解公式(一)定义:在试验中只考虑一个因素对试验结果影响显著性的方差分析称为单因素方差分析。例如:分析不同施肥量是否给农作物的产量产生显著影响;研究不同学历是否对工资收入产生显著影响等。(二)观测变量方差的分解

表示在

水平下,第

次实验的实验结果。总离差平方和

表示试验结果的差异性的总和(8.1)(8.2)(8.3)(8.4)(8.5)

次数水平12……n合计均值……………………合计----按方差分解的原理可得:交叉项为零,因为同时可以得到:

为组间方差,由不同水平下的各组均值和总平均值的残差平方和;是组内方差,即各组实验结果和各组均值的残差平方和。由此可得离差平方和的分解公式:(8.6)(8.7)

其中,SST为观测变量的总离差平方和;SSA为组间离差平方和,是由控制变量不同水平造成的观测变量的变差;SSE为组内平方和,是由抽样误差引起的观测变量的变差。

是所有

与总均值的残差平方和,但这nr个需要满足的一个约束条件

,因此只有nr-1个独立变量,即自由度是nr-1。是因素在不同水平下的均值

的残差平方和,应满足约束条件,因此自由度是r-1。

是由所有的

相对于各水平下均值的残差平方和,要满足r个约束条件(i=1,2,…,r),所以

的自由度是r(n-1)。综上,、和的自由度满足: nr-1=(r-1)+r(n-1)

方差除去自由度后,就可以得到组间均方差

与组内均方差

(8.11)(8.12)(8.13)进一步,可直接构造F统计量来检验前面提出的假设(8.9)或(8.10),F值越大,越说明组间方差大于组内方差,因此组间方差构成了离差平方和的主要来源,即因素的不同水平对试验结果影响较大,应拒绝原假设;反之,说明组内方差是主要来源,不能拒绝原假设。对于给定的显著性水平α,查F分布表得临界值,当F>时,拒绝原假设,认为因素对总体有显著影响;当F<时,不能拒绝原假设,即不能拒绝因素对试验结果的影响不显著。(8.14)消费者对四个行业的投诉次数行业观测值零售业旅游业航空公司家电制造业12345675766494034534468392945565131492134404451657758【例】为了对几个行业的服务质量进行评价,消费者协会在4个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表:零售业:旅游业:航空:家电制造:拒绝原假设,我们可以认为行业对被投诉次数有显著影响。【例8-2】请对【例8-1】进行单因素方差分析(显著水平α=0.05)。解:原假设:不同计量的安眠药对入睡时间没有影响备择假设:不同计量的安眠药对入睡时间有显著影响

使用Excel软件中的单因素方差分析可以很方便的得到如下的分析表。

从表中可以看出

值p=1.08E-06,远远小于α=0.05。所以认为安眠药剂量对入睡时间存在显著影响,应该拒绝原假设

。表8-4Excel得到的方差分析表差异源平方和自由度均方差F值P值F临界值剂量2912145.539.324321.08E-063.682317误差55.5153.7---总计346.517----【例8-3】现有四种不同产地的化工原料,按照同样的工艺合成一新产品,测得新产品的熔点(单位:摄氏度)数据如下表。请分析原料产地对产品熔点的影响(显著水平

α=0.05)。解:这是一个不等重复的单因素试验。由题意设原料来自四个产地的产品熔点均值为

由于

值p=0.274499,大于显著水平α=0.05。所以认为原料产地不会对新产品的熔点产生显著影响,不能拒绝原假设

。重复测得新产品的熔点(单位:摄氏度)1234产地A1124.0123.0123.5123.0A2123.0122.0--A3121.5121.0123.0-A4123.5121.0--表8-5Excel得到的方差分析表差异源平方和自由度均方差F值P值F临界值组间4.42992431.4766411.5953420.2744994.34683组内6.47916770.925595---总计10.9090910----三、应注意的问题1.方差分析需满足的假设条件。方差分析实质上是对各总体均值相等假设进行检验,为了得到检验统计量的精确分布,要求满足的前提条件是(1)每次试验都是独立进行的;(2)各样本都是来自正态总体的;(3)各总体的方差是相等的。只有满足这些条件,方差分析的结果才是有效的。而一般地,我们总认为以上的假定条件都是满足的或近似满足的。2.在实际问题中,各水平下的总体的试验次数可以相等也可以不等,分析过程和结论基本不变。但是当试验次数相差较大或因素较多时应该考虑采用广义线性模型分析,以消除非均衡试验设计的影响。3.方差分析只能判断各总体的均值是否相等,而不能判断出哪个总体的均值是大还是小,这时需要在均值不等的前提下,将采用多重比较法进一步比较各个均值的大小。第三节

双因素方差分析无交互作用的双因素方差分析有交互作用的双因素方差分析多因素方差分析用来研究两个及两个以上控制变量的不同水平是否对观测变量产生了显著影响。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,还能够分析多个控制变量的交互作用能否对观测变量产生显著影响。例如:分析不同品种、不同施肥量是否给农作物的产量产生显著影响,并进一步研究哪种品种和哪种施肥量是提高农作物产量的最优组合。【例8-4】有一工业产品,在两种不同用量的催化剂(P,N)作用下产量如下表:

这里,有两个因素P和N对产量起作用。从图形上可以清楚看到,当P=0时和当P=4时,对应的N=0和N=6的产量各不相同。这就表明因素P的影响程度要受因素N的水平影响,即存在因素之间的交互作用。而若P=0和P=4的两条直线平行,

则可以认为

之间不存在

交互作用或者交互作用

不显著。图8-2P,N对产量的交互效应P=0P=4N=0400450N=6430560对于存在交互作用的情况,必须要在两个因素的各种水平组合下进行重复试验,并利用重复试验的平均值来估计该水平组合对试验结果的影响,以区分出试验误差和交互作用。而对于交互作用不显著的情况则没有必要重复试验。双因素方差分析的分类一、无交互作用的双因素方差分析A与B是待确认是否对试验结果有显著影响的两个因素,假定A,B之间无交互作用,在两个因素的各种水平组合下进行重复试验可得表8-6。

是在因素A的各个水平下s个试验结果的均值;

是在因素B的各种水平下r个试验结果的均值。表8-6无交互作用的双因素方差分析数据表因素B均值……因素A……………………均值……根据方差分解原理可得:依次展开有:(8.15)(8.16)(8.17)(8.18)(8.19)

表示的是因素A的各个水平下各组试验结果与该组均值的残差平方和,是因素B的各个水平下各组试验结果与该组均值的残差平方和,

是A,B所有水平组合下的试验结果和均值的残差平方和。类似单因素方差分析可知,

的自由度为rs-1,的自由度为r-1,的自由度为s-1,的自由度为(r-1)(s-1)。对应的均方差为:(8.20)(8.21)(8.22)检验因素A与B对试验结果的影响是否显著的F统计量分别为:综合以上结论可以得到方差分析表:(8.23)(8.24)表8-7无交互作用的双因素方差分析表差异源平方和自由度均方差F统计量A因素B因素误差-总计--【例8-5】为了给同规格的四种品牌(brand)的电视机鉴定评分,邀请了5位专家(scorer)评价,结果见下表。

假设各水平搭配下总体服从正态分布且同方差,且鉴定人无法知道电视机的品牌(即鉴定人与电视机品牌无交互作用),试用方差分析检验品牌和专家是否对评分有影响(显著水平α=0.05)。专家B1B2B3B4B5品牌A179878A21010889A375546A486744解:设电视机品牌因素为α,专家因素为β,由题意建立假设检验:可由Excel软件的方差分析直接得到以下方差分析表。可以看出在品牌和专家两个因素中,专家的p值=0.089981>0.05,可以认为专家对评分没有显著影响。而品牌的p值=0.000446,说明电视机品牌对评分有显著影响。表8-8Excel得到的无交互作用的双因素方差分析表差异源平方和自由度均方差F值P值F临界值品牌43.2314.412.992480.0004463.4903专家11.542.8752.5939850.0899813.25916误差13.3121.108333---总计6819----EXCEL在方差分析中的运用

1.输入数据,见附图-25。

附图-252.点击【数据】下拉菜单,找到【数据分析】选项,调出[方差分析:无重复双因素分析]对话框

注意:本例中[标志]复选框被选中,输入区域必须包括品牌代号(A1、A2等)和专家代号(B1、B2等)所在的单元格区域,也即输入区域为“$A$1:$F$5”,而不是只包括数据的单元格区域“$B$2:$F$5”。3.单击[确定]按钮,得到方差分析表。【例8-6】在一个品酒试验中,有9位品师(scorer)分别独立的对四种酒(brand)做出评价。评价结果用七分制表示:(1)最喜欢,(2)很喜欢,(3)轻微喜欢,(4)一般,(5)轻微不喜欢,(6)很不喜欢,(7)最不喜欢。试验结果如下表。请分析品酒师和酒型对得分指标的影响(显著水平α=0.05)。酒型ABCD品酒师152662613536443433655334562344756558232393445解:设品酒师因素为α,酒型因素为β,由题意建立假设检验:由Excel软件得到下表:因为品酒师因素的p值=0.16088,酒型因素的p值=0.16221,所以品酒师和酒型两个因素都对评分没有显著影响。表8-9Excel得到的双因素无交互作用的方差分析表差异源平方和自由度均方差F值P值F临界值品酒师20.7222282.59031.657780.160882.35508酒型8.7532.91671.866670.162213.00879误差37.5241.5625---总计66.9722235----二、有交互作用的双因素方差分析当因素之间存在交互作用时,为了区分随机误差和交互作用,需要在不同的水平组合下进行重复试验。设在因素A与因素B每一个水平组合下等重复的试验t次,得到表8-10。表8-10有交互作用的双因素方差分析数据表因素B……因素A……………………

表示的是在水平组合

下第k次实验的实验结果。在该组合下实验结果的均值为:进一步记:(8.25)(8.27)(8.26)(8.28)和无交互作用的方差分析类似,离差平方和可以分解为:其中:(8.33)(8.32)(8.31)(8.29)(8.34)(8.30)交叉项

表示两个因素的取值水平组合下的试验结果产生的因素水平组合方差。

的自由度分别是rst-1、r-1、s-1、(r-1)(s-1)和rs(t-1)。可计算出均方差:则F统计量依次为:(8.40)(8.35)(8.36)(8.37)(8.38)(8.39)(8.41)总结以上结论可以得到方差分析表8-11:表8-11双因素等重复试验方差分析表差异源平方和自由度均方差F统计量因素因素交互作用误差-总计--多因素方差分析的基本步骤提出原假设:(1)各控制变量不同水平下观测变量各总体的均值无显著差异u1=u2=……=uk=0(2)控制变量及交互作用对观测变量无显著影响。a1=a2=……=ak=0b1=b2=……=br=0(ab)11=(ab)12=……=(ab)kr=0计算检验统计量F和概率P值给定显著性水平(0.05)与p值做比较:如果p值小于显著性水平,则应该拒绝原假设,反之就不能拒绝原假设。【例8-7】一连锁便利店想要进行抽奖销售,为此设计了三种不同的销售点展示牌类型,同时还选择了收银台和入口处两个不同的地点摆放。试验选择了18家分店进行,每种组合随机分配了三家分店,各分店的彩票销售数量(单位:百张)见下表。

请在显著水平α=0.05下,分析两种因素是否对彩票销售有显著影响。展示牌类型ABC收银台旁43,39,4039,38,4357,60,49便利店入口处53,46,5158,55,5047,42,46解:这是一个有交互作用的双因素重复试

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论