应用统计课件第六章:方差分析_第1页
应用统计课件第六章:方差分析_第2页
应用统计课件第六章:方差分析_第3页
应用统计课件第六章:方差分析_第4页
应用统计课件第六章:方差分析_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第六章方差分析

§6.1单因子方差分析

实践例子:美国的Burke市场调查公司是一家最富经验的市场调研机构之一。在一次研究中,一家Anon公司要评价儿童干谷类食品的潜在的新品种。Anon产品开发者认为可能改善食品味道的四类关键因素为:1.食品中小麦与玉米的比例。2.甜味剂的类型:白糖、蜂蜜或人工制剂。3.果味香料的有无。4.加工时间的长短。2用于研究由品尝得来的数据的统计方法是方差分析。分析结果如下:*食品成分及甜味剂的类型对味道影响很大。*果味香精事实上破坏了食品的味道。*加工时间对味道没有影响。这些信息帮助Anon识别出了可能产生最佳口味食品的因素。从而在生产方案中起了很大的作用。3在实际中常会遇到比较多个总体均值是否相等的问题。

例如某工厂的原料来自四个不同地区,那么用不同地区的原料生产的产品的质量是否一致?

再如某工厂有三个联营厂,生产同一产品,生产工艺也相同,那么这几个联营厂的产品质量是否一致?

4类似问题有许多,今后我们称所要比较的地区、联营厂等为因子,因子所处的状态称为水平,如四个地区是地区这个因子的四个水平。我们一般用大写字母A、B、C等表示因子,用大写字母加下标表示该因子的水平,如A的水平用

等表示。5下面用一个例子来说明问题的提法。例6.1.1国民计算机公司(NCP)在亚特兰大、达拉斯以及西雅图的工厂生产计算机与传真机。为确定这些工厂中有多少员工了解全面质量管理,从每个工厂选取了一个由6名员工组成的随机样本,并对他们进行质量意识考试。18名员工的考分列在下表中。管理者想用这些数据来检验假设:三个工厂的平均考分相同。6表6.1员工的考分

观察值亚特兰大(工厂1)达拉斯(工厂2)西雅图(工厂3)

1

85

71

59

2

7575

643

82

73

62

4

7674

69

5

71

69

756

8582

677在本例中我们要比较三个工厂的考分是否相同,为此把工厂看成一个因子,记为A,它有三个工厂,就看成因子A的三个水平,记。我们将第个工厂的第个工人的考分记为在本例中

.由于在每个工厂选的是随机样本,(工人间的差异控制在最小范围)因此一个工厂的工人的不同考分可看成是在一个工厂的若干次重复观察。所以可把一个工厂的考分看成一个总体。为比较三个工厂的平均考分是否相同,相当于要比较三个总体的均值是否一致。为简化起见,需要提出若干假定,把所要回答的问题归结为一个统计问题,然后设法解决它。86.1.2

单因子方差分析的统计模型一、假定在单因子试验中,设因子A有r个水平,

在每一水平下考察的指标可以看成一个总体,现有r个水平,故有r个总体,并假定:(1)

每一总体均服从正态分布;(2)

每一总体的方差相同;(3)

从每一总体中抽取的样本独立。9要比较各个总体的均值是否一致,就是要检验各总体的均值是否相同,设第i个总体的均值为,那么要检验的假设为:

(6.1.1)其备择假设为:

不全相同。通常

可以省略不写。10当

为真时,A的r个水平的均值相同,这时称因子A的各水平间无显著差异,简称因子A不显著;反之,当

不真时,各

不全相同,这时称因子A的各水平间有显著差异,简称因子A显著。用于检验假设(6.1.1)的统计方法称为方差分析法,其实质是检验若干个具有相同方差的正态总体的均值是否相等的一种统计方法。若考察的因子只有一个,称为单因子方差分析。11二、数据结构及统计模型设从第i个总体获得容量为的样本,

在水平下获得的与不会一致,记

称为随机误差,有

(6.1.2)这是的数据结构式。

12称

为一般平均,其中。称

为A的第i水平的主效应,简称为的效应。在方差分析中引入一般平均与效应的概念显然有13(6.1.4)从而假设(6.1.1)可写成:统计模型可以改写成:146.1.3

检验方法一、误差来源

验数据

……

……

……15造成各差异的原因可能有两个:(1)原假设

不真,即各水平下总体均值不同;(2)差异是由于随机误差引起的。

记表示水平下的数据和,

表示水平下数据的平均值,

为所有数据的总平均值。

16每一数据与总平均的偏差可以分解成两部分:

(6.1.5)称为组内偏差,仅反映随机误差:

(6.1.6)

称为组间偏差,除随机误差之外还有第i个水平的效应:

(6.1.7)17二、平方和分解称为总偏差平方和。

称为误差偏差平方和

称为因子A的偏差平方和

18三、检验统计量与拒绝域有计算公式:

可以证明有:19(1)求:利用正态总体中的结论(见第一章)有又由分布的可加性知:则有

20(2)求21从而有

22当原假设为真时,各

相等且为0

,则取检验统计量为:(6.1.8)比较合理的拒绝域形式为:

对给定的显著性水平

应满足

23可知当为真

表6.1.1单因子方差分析表方差来源平方和自由度均方和

F比

24

例6.1.1的方差分析表方差来源平方和自由度均方和

比值5162258.9.000.0034301528.67

94617

P=0.003<0.05,故拒绝256.1.4

效应与误差方差的估计

一、点估计用MLE法求各效应与方差的估计。

26加上约束条件,则MLE为:27

的MLE为,可以证明均为相应参数的无偏估计。

不是

的无偏估计

的无偏估计为

28二、的置信水平为的置信区间我们来利用枢轴量法构造的置信区间。从的点估计出发,有

且它们独立

29§6.2双因子方差分析

一、问题对于双因子试验,试验间差异同样是(1)由于各因子水平变化所引起;(2)试验误差(包括未加控制或无法控制的因子的变化)所引起。和单因子试验的情况一样,在双因子试验中,方差分析的目的就是将试验误差所引起的结果差异与试验条件的改变(即各因子不同的水平变化)所引起的结果差异区分开,以便能抓住问题的实质;此外,还要将试验结果的主要因子和次要因子区分开来,以便集中力量研究几个主要因子。301、例子我们考虑与管理类研究生入学考试(GMAT)有关的一次研究。GMAT是一种商学院研究生院用来评价申请者攻读该领域研究生课程能力的标准化考试,其分数在200~800之间,分数越高表明能力越强。为尝试提高考生在GMAT考试中的分数,一所较大的得克萨斯洲的大学考虑提供下面三种GMAT辅导课程。(1)3小时的复习,内容覆盖了GMAT中常考的题型。(2)

1天的课程,内容覆盖了有关考试材料,还有进行一次模拟考试并评分。(3)10周的强化班,涉及到发现每个考生的弱点并建立个人的改进课程。该研究中的一个因子就是GMAT辅导课程,它有三个水平:3小时复习、1天的课程和10周强化班。31通常GMAT的考生来自三类院校:商学院、工学院和艺术与科学学院。该试验中第二个因子就是考生的本科所在的学院是否影响GMAT分数。有三个水平:商学院、工学院和艺术与科学学院。这两个因子共有种水平组合,在每种水平组合下选取了由两名考生组成的样本。数据如下表:32表6.2.1

两因子试验的GMAT分数

因子B:学院

商学院工学院艺术与科学学院

3小时500540480

因子A:

580160400

辅导课程1天460560420

540620480

10周560600480

600580410

33对于表6.2.1中的数据进行方差分析计算可以回答下面的问题。*因子A的影响:辅导课程对于GMAT分数的影响是否不同?*因子B的影响:本科学院对于考生在GMAT中表现出来的能力方面的影响是否不同?*交互影响(因子A与因子B):是否某些学院的考生在一种辅导课程中表现不错,但其他学院的考生却在另一种辅导课程中表现很好。如果交互影响对于GMAT分数有显著作用,那么我们可以得出辅导课程的类型的影响依赖于本科学院的结论。342、方差分析两因子方差分析的平方和分解公式如下:

有以下记号:

35表6.2.2

有t个重复次数的两因子试验的ANOVA表方差来源平方和自由度均方因子A因子B交互作用误差

总计

363、计算与结论

因子B的第j水平下的样本均值;采用下面一些记号:─因子A第i水平和因子B的第

j水平下的第k个观察值;

所有rst个观察值的总样本平均;因子A第i水平和因子B的第j水平组合下的样本均值因子A的第i水平下的样本均值;3738表6.2.3两因子试验的GMAT研究汇总数据

商学院工学院艺术与科学行合计因子A平均值3小时复习50058010805404601000480400880

2960

1天的课程46054010005606201180420480900

3080

10周强化班56060011606004801180480410890

3230

列合计因子B平均值3240336026709270合计

39表6.2.4两因子GMAT研究的ANOVA表方差来源平方和自由度均方因子A610023050因子B45300222650交互作用1120042800

误差1985092206

总计8245017

40二、数学模型因子A有r个水平,,因子B有s个水平

,在条件下指标值

一般平均水平的(主)效应水平的(主)效应要检验:一切是否相等。若一切均相等,A,B不显著;若一切不全相等,则A的水平有差异,B的水平有差异,或二者均有差异。令:41

与之间的关系如下:①②

效应可加模型(无交互作用模型)42均不拒绝一切相等拒绝,不拒绝一切不等,原因,A显著;拒绝,不拒绝一切不等,原因,B显著;

均拒绝一切不等。条件下进行一次试验,结果,因只进行了一次试验,故不能考查其交互作用。有如下模型:

43②,与的交互效应44有交互作用模型:在条件下进行m次(m≥2)试验结果为45例(收率)一个因子水平的好坏程度与另一因子水平无关(此情况称无交互作用,两直线平行),一个因子水平的好坏程度受另一因子水平的制约(此情况称有交互作用,两直线不平行)。

B

A低高短5060长6575(55,80)46三、效应可加模型的方差分析

1.数学模型47①分析各不同的原因1)不成立,A水平间有差异;2)不成立,B水平间有差异;3)随机误差48②平方和分解总的数据波动:令则总的偏差平方和为因子A的水平不同引起的数据波动:令

因子A的偏差平方和为

因子B的偏差平方和为49

只与误差有关50③F比在为真时,,因为在为真时,在为真时,可证明:且与独立51若

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论