版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、本科学生毕业论文方差分析作 者 院 (系) 专 业 年 级 学 号 指导老师 日 期 方差分析 摘 要:方差分析是从观察变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量.本文根据不同需要把某变量方差分解为不同的部分,比较它们之间的大小并用检验进行显著性检验的方法,并且用excel解决了一些问题.关键词:单因素方差分析;双因素方差分析;组间方差;组内方差;统计量1 方差分析问题的提出假设检验主要是检验两总体的均值是否差异显著,对于多个总体均值是否差异显著的问题,如果按照每一对总体进行一次检验,显然要花费很多时间,而方差分析能一次性地检验多个总体均值是否存在显著差异.因此,方
2、差分析所提供的处理方法比两两比较的处理方法要方便很多. 例1:取一批由同种原料织成的布,用不同的染整工艺进行缩水实验,以考察不同的染整工艺对布的缩水率有无显著影响,进而可以寻找出缩水率较小的染整工艺.现有五种不同的工艺,在每一工艺下重复处理四块布,测得其缩水率数据如下表所示,试问五种不同的染整工艺的平均缩水率有无显著差异?表1 染整工艺缩水率4.36.85.26.56.16.34.24.16.58.38.68.29.38.77.210.19.58.811.48.9例2:在饲料养鸡增肥的研究中,某研究所提出三种饲料配方:是以鱼粉为主的饲料是以槐树粉为主的饲料,是以苜蓿粉为主的饲料.为比较三种饲料
3、的效果,特选24只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量,试验结果如下所示:表2饲料 鸡重/g107310091060100110021012100910281107109299011091090107411221001109310291080102110221032102910482 基本概念指标:衡量试验条件好坏的变量称为指标,用y表示,它是一个随机变量.在例1中,缩水率就是试验指标. 因子:在试验中影响指标y的因素称为因子,它们常用大写字母、等来表示.在例1中染整工艺对指标缩水率有影响,因此染整工艺就是因子,记为 水平:在试验中因子所处的状态称为因子的水平,用
4、表示因子的字母加下标来表示,譬如因子的水平用等来表示.在例1中有五种染整工艺,这便是染整工艺这一因子五个水平,分别记为试验条件(也称处理):在单因子试验中,每个水平就是一个处理,在多因子试验中,每个因子取一个特定的水平,这些特定水平的组合称其为一个试验条件,又称为一个处理.3 基本假定从最简单的单因子试验问题着手,介绍在方差分析中所作的假定.假定因子有个水平,记为在水平下指标值的全体便构成一个总体,共有个总体.我们有如下假定:(1)假定第个总体服从正态分布,其均值为, (2)每一总体的方差相等,记为; (3)从第个总体获得一个容量为的样本为,且这个样本相立. 在上述三个假定下,比较各个总体的均
5、值是否相同的问题,即要检验如下假设不全相等,检验这一对假设的统计方法便是方差分析.当拒绝时,表示不同水平下的指标的均值有显著差异,此时称因子是显著的,否则称因子不显著. 4 统计模型按假定有,因此可以认为观察值与其均值的差是随机误差,从而 有如下数据结构式:由及各个相互独立,可知各相互独立,且都服从.因此可以给出如下的单因子方差分析统计的模型: 在该模型下检验的假设是:,为了推广到两因子及多因子方差分析方便起见,引入一般平均与效应的概念,如记各均值的平均为:称为一般平均,或称为总平均,又记它表示从水平的均值中除去总均值后特有的贡献,称为水平的效应,它可正可负,容易看出,诸受到约束: 这样一来,
6、统计模型可改写为, 在该模型下检验的假设可以改写为:5 基本思想5.1 平方和分解众所周知,各数据的差异程度(即波动大小)可用它们的总偏差平方和(简称总平方和)去度量:,其中为自由度.引起数据波动的原因不外有如下两个:(1)由于因子的不同水平引起的,当原假设不真时,各个水平下指标的均值(简称水平均值)不同,诸样本均值间的差异程度可用如下的偏差平方和去度量:这里乘以是为每个水平进行了次试验.这个平方和称为组间偏差平方和,又称为因子偏差平方和,简称因子平方和.(2)由于试验存在随机误差,即使在同一水平下获得的数据也会有差异,这是除因子水平外的一切原因引起的,我们将它们归结为随机误差,可以用组内偏差
7、平方和(也称为误差平方和)表示:由于考虑到交叉乘积项之和为0,故有如下总平方和分解式:5.2 均方(平均偏差平方和)与比偏差平方和q的大小与数据个数(自由度)有关,一般说来,数据越多,其偏差平方和越大.为了便于在偏差平方和间进行比较,统计上引入了均方和的概念,它定义为,其意为平均每个自由度上有多少平方和,它比较好地度量了一组数据的离散程度.如今要对因子平方和与误差平方和之间进行比较,用其均方和进行比较更为合理,因为均方和排除了自由度不同产生的干扰.故用作为检验的统计量.如果,则认为因子显著;若,则说明因子不显著.经过简单推导,可以给出常用的各偏差平方和的计算公式如下:.6 单因子方差分析 设在
8、一个试验中只考虑一个因子,它有个水平,在每个水平下进行次重复试验,其结果用表示,常常把数据列成如表3的形式:表3水平试验数据和均值待添加的隐藏文字内容3例3:某连锁商业企业在同城三个不同的地点开了三家分店,从这三家分店随机抽了5天的营业额资料如表4表4第一家分店第二家分店第三家店第一天10714第二天12118第三天9812第四天81310第五天111011试分析这三家分店的平均日营业额是否相同,从而确定地点因素是否对日均营业额有影响(),如果把每一个分店的日营业额看成一个总体,以上问题的实质是检验这三个总体的均值是否相等:,其中,分别为三分店的平均日营业额.通过excel,进行单因素方差分析
9、,可以得到两个统计表,并且得出统计量:表5方差分析:单因素方差分析组观测数求和平均方差列 1550102.5列 25499.85.7列 3555115方差分析差异源-value crit组间4066666670.4696970.6362153.885294组内52.8124.4总计56.9333333314由上表可得:,样本的统计量,分析表给出了临界值是,接受,即没有充分证据说明三个分店的地点不同对日均营业额产生了影响.如果直接从值进行判断,由于,结论也是接受原假设.6.1 重复数不等的方差分析例4: 某型号化油器原中小喉管的结构使油耗较大,为节约能源,设想了两种改进
10、方案以降低油耗.油耗的多少用比油耗进行度量,现在对用各种结构的中小喉管制造的化油器分别测定其比油耗,数据如下.假定每一种结构下的比油耗服从等方差的正态分布,试问中小喉管的结构对平均比油耗的影响是否显著.表6水平:原结构11.012.87.68.34.75.59.310.3:改进方案12.84.5-1.50.2:改进方案24.36.11.43.6现在对这些数据做方差分析用excel,有下表7表7方差分析:单因素方差分析组观测数求和平均方差行1869.58.68757.518393行2461.57.126667行3415.43.853.776667方差分析差异源-valuecrit组间155.64
11、56277.8228111.855070.0011743.805565组内85.33875136.564519总计240.984415设,从分布表查得,由于求得的,所以在水平上因子是显著的,说明不同的中小喉管结构生产化油器的平均比油耗有明显的差异.6.2 各水平均值与误差方差的估计当因子是显著的,我们还可以给出每一水平均值与水平效应的估计,以便找出最好的水平.,它们都是相应参数的无偏估计,从而第个水平均值的无偏估计为误差方差的无偏估计: ,可取得的估计为.6.3 多重比较 在单因子方差分析中,若经检验拒绝原假设,这表明,因子的个水平均值不全相等,但不一定两两之间都有差异.故还需进一步去确认哪些
12、水平均值之间确有显著的差异,哪些水平之间无显著的差异.这就要进行多重比较.同时比较任意两个水平均值间有无显著差异的问题称为多重比较.这里的关键词是“同时”两字.若有r(r2)个水平均值,则同时检验以下个假设的检验就是多重比较的问题:譬如在时,多重比较问题就是要同时检验如下三个假设:直接考虑,当为真时,不应过大,过大就应拒绝.因此在同时考虑个假设时,“诸中至少有一个不成立”就构成多重比较的拒绝域,它应有如下形式:这里表示水平下数据的平均值,.对于给定的显著性水平,就要确定这样的临界值,使得上述个假设都成立时有. 7 两因子方差分析如果在一个试验中需要同时考察两个因子和,并设因子有个水平,因子有个
13、水平,这时共有个不同的试验条件,也就是说有个总体.现做如下假设: 每一个总体的分布是正太分布,其均值为,它与因子及的水平有关;其方差相等,都是. 现在我们不仅需要分析因子的不同水平对指标的均值有无显著的影响,还需要分析因子的不同水平对指标的均值有无显著的影响,有时还需要回答两个因子不同水平的搭配对指标的均值有无特殊的影响,这种特殊影响如果存在就称为因子与间有交互作用,记为或.7.1 无交互作用下的方差分析:设与是可能对试验结果有影响的两个因素,相互独立,无交互作用.设在双因素各种水平的组合下进行试验或抽样,得数据如表8:表8因素均值因素均值表中每行均值是在因素的各个水平上试验结果的平均数;表中
14、每列的均值是在因素的各种水平上试验的平均数.以上数据的离差平方和分解形式为:上式中,表示的是因素的组间方差总和,是因素的组间方差总和,都是由各因素在不同的水平下各自的均值差异引起的;仍是组内方差的部分,由随机误差产生.各个方差的自由度是:的自由度为,的自由度为,的自由度为,的自由度为.各个方差对应的均方差是:对因素而言,对因素而言,;对随机误差项而言,我们得到检验因素与影响是否显著的统计量分别是,.例5:某企业有三台不同型号的设备,生产同一种产品,现有五名工人轮流在此三台设备上操作,记录下他们的日产量如表所示.试根据方差分析说明这三台设备之间和五名工人之间对日产量的影响是否显著?表9工人1工人
15、2工人3工人4工人5设备a6472638178设备b7566617380设备c7867806971解:检验的假设有两个,第一个假设是针对设备(设为因素)的:h01:三台设备对日产量没有显著影响;:三台设备对日产量有显著影响.第二个假设是针对人员(设为因素)的:工人技术对日产量没有显著的影响;:工人技术对日产量有显著影响.将以上数据输入excel表格中,进行“无重复双因素分析”,输出的方差分析表如下:方差分析:无重复双因素分析表10观测数求和平均方差设备a535871.665.3设备b53557156.5设备c53657332.5工人1321772.3333354.33333工人2320568.
16、3333310.33333工人3320468109工人4322374.3333337.33333工人5322976.3333322.33333方差分析差异源行10.533325.2666670.092371列161.0667440.266670.706226误差456.1333857.01667总计627.733314从表中可知:接受,没有证据证明三台设备对日产量有显著影响;,接受,也没有证据证明五名工人的技术对日产量有显著影响.7.2 有交互作用的方差分析:为了研究两个因素是否独立,有无交互作用,我们需要在各个因素水平的组合下,进行重复试验;因此,有交互作用时,方差分析的数据结果不同于无交互
17、作用的情形.设因素与因素每一对水平搭配下重复试验的次数都是,得试验数据结构如表11:表11因素因素表中的表示的是在因素水平组合下第次试验的结果.在此组合下试验结果的平均值为:进一步记:则我们类似有以下的离差平方和分解形式:式中 ,与无交互作用的双因素方差分解相比,这里多出了一项,它刚好反映了两个因素交互作用的结果.离差平方和,和的自由度分别是.我们得到如下的均方差: 则检验因素与影响是否显著的统计量分别是: .检验交互影响是否显著的统计量是:.例6:为了分析光照因素与噪音因素对工人生产有无影响,光照效应与噪音效应应有交互作用,在此两因素不同的水平组合下做试验,结果如表12:表12因素因素15
18、15 1719 19 1616 18 2117 17 1715 15 1519 22 2215 17 1618 17 1618 18 1818 20 2015 16 1717 17 17 解: 检验的假设有三个: :光照因素对产量没有显著影响; :光照因素对产量有显著影响; :噪音因素对产量没有显著影响; :噪音因素对产量有显著影响;:光照效应与噪音效应没有交互作用;:光照效应与噪音效应有交互作用.将以上数据输入excel表格中,进行“有重复双因素分析”,输出的方差分析表13:表13方差分析:可重复双因素分析summary总计 观测数333312求和47514858204平均15.666671
19、71619.3333317方差1.333333011.3333332.90909 观测数333312求和54455148198平均1815171616.5方差30112.27273 观测数333312求和55635451223平均18.3333321181718.5833方差6.3333333004.08333总计观测数9999求和156159153157平均17.3333317.666671717.44444方差4.257.751.252.777778 方差分析差异源-value样本28.38889214.194449.4629630.00093列2.08333330.6944440.462
20、9630.71077交互63.83333610.638897.0925930.0002内部36241.5总计130.305635接受,没有充分证据证明光照对产量有显著影响;,拒绝,有充分证据说明噪音对产量有显著影响;,拒绝,有充分证据说明光照与噪音存在交互作用并由此对产量产生显著影响.8 方差齐性检验,正态性检验与诊断 以上分析都是基于方差分析中对数据的三项假定(正态性,方差齐性与数据间独立性)成立下进行的.那么这些假定是否满足?只有试验是按随机次序进行的,那么独立性一般不成问题.下面先讨论方差齐性.设第个总体的分布为,从中获得的样本是,记样本方差为,则方差齐性所要检验的假设可以表示为:,对此
21、通常采用bartlett检验,检验统计量为:其中,对给定的显著性水平,拒绝域为:,该检验不管重复数是否相等均可使用.例7:如在上面的化油器问题中,检验三个总体的方差是否相等. 解:本题中所涉及的三个总体对应的样本方差分别为:由上面可知:在0.05水平上拒绝域为.现在,则 样本未落在拒绝域中,所以在0.05水平上可以认为所涉及的三个总体的方差相等.下面做正态性检验与诊断.关于数据来自正态分布的检验可分两种情况处理.(1)若各个水平下重复试验次数不少于8,可对每水平下的数据分别用正态概率纸作检验.注:若把各个水平下的数据画在同一张正态概率纸上,且每一水平下的点各自呈现在一条直线附近,此时r条直线近
22、似平行,还可以看出它们的方差近似相等.(2)若各个水平下重复试验次数少于8,那么可以计算每一数据的残差这时共有个残差,它们可近似看作来自同一个正态总体,用此个残差作正态概率图,若个点呈直线状即可认为正态性假设成立.注:所谓残差是指观察值与拟合值之差,在单因子方差分析中每水平的第个观察值为,其拟合值(即的估计)是,因此残差,利用残差进行判断的方法称为诊断.参考文献1茆诗松,程依明,濮晓龙编著.概率论与数理统计教程m.高等教育出版社,2004.(7).80120.2王松桂,陈敏,陈立革编著.线性统计模型m.高等教育出版社,1999.(9).5070. 3曾五一主编.统计学概论m.首都经贸大学出版社,2008.(5) .70110. 4周纪芗,茆诗松主编.质量管理统计方法m.中国统计出版社,2008.(10). 75120. 5黄良文,曾五一.统计学原理m.中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024秋新沪科版物理8年级上册教学课件 第6章 熟悉而陌生的力 第4节 探究:滑动摩擦力大小与哪里因素有关
- 2023年智能电能表及配件项目融资计划书
- 2023年原料药机械及设备项目融资计划书
- 养老院老人生活照料管理制度
- 养老院老人健康饮食营养师考核奖惩制度
- 物流整改方案
- 政府还款协议书(2篇)
- 抵押房子合同书(2篇)
- 《豆类坚果类与健康》课件
- 2024年度生态农业地产融资合作开发合同3篇
- 护理质控分析整改措施(共5篇)
- 金属矿山安全教育课件
- 托盘演示教学课件
- 中华农耕文化及现实意义
- DBJ61-T 112-2021 高延性混凝土应用技术规程-(高清版)
- 2023年高考数学求定义域专题练习(附答案)
- 农产品品牌与营销课件
- 苏科版一年级心理健康教育第17节《生命更美好》教案(定稿)
- 车辆二级维护检测单参考模板范本
- 测定总固体原始记录
- (最新整理)夜市一条街建设方案
评论
0/150
提交评论