统计学思想方法与应用袁卫等第七章方差_第1页
统计学思想方法与应用袁卫等第七章方差_第2页
统计学思想方法与应用袁卫等第七章方差_第3页
统计学思想方法与应用袁卫等第七章方差_第4页
统计学思想方法与应用袁卫等第七章方差_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学:思想、方法与应用袁卫刘超

第7章方差分析7.1单因素方差分析7.2方差分析回顾7.3双因素方差分析学习目标

了解方差分析的一般思想;明白单因素方差分析能解决什么问题;了解为什么要介绍双因素方差分析;相关理论在统计学软件中的应用。相应统计分析结果的解读。方差分析(AnalysisofVariance,ANOVA)是英国统计学家罗纳德·费歇尔(RonaldFisher)20世纪年代发展起来的一种在实践中被广泛运用的统计方法。从形式上看,方差分析是比较多个总体的均值是否相等,但本质上,它所研究的是分类型自变量对数量型因变量的影响,这使得它同后面一章介绍的回归分析关系密切,但是又不完全相同。如果有一个人们感兴趣的指标(因变量),其变化可能受到众多离散型因素(如性别、种族、职业等)而不是连续型因素(如年龄、收入、价格等)的影响,我们可以考虑使用方差分析。这些影响因变量的离散型因素称为因素或因子(factor),因素的取值称为水平(level)或处理(treatment)。这里,因素就是变量,水平就是该变量的取值,这些名词是分类或属性变量所特有的。为了了解哪些因素对感兴趣的指标(因变量)有影响,我们必须在众多因素中确定哪些因素影响大些,哪些影响小些,以便于进一步研究对因变量的预测和控制。为什么我们要学习方差分析为什么不能用前几章讨论的检验来比较总体的均值差异呢?可以每次比较两组均值,但是会累加了第一类错误。假设我们采用中不同的方法(A,B,C,D)训练新射击手。在训练结束后,我们用普通的检验方法比较不同射击技巧的成绩。研究问题:4组射击成绩的均值是否存在差异?回答这个问题我们需要比较4种训练方法。为什么我们要学习方差分析用t分布比较4组总体均值,需要进行6次不同的t检验。也就是说,我们需要分别比较4种方法的平均成绩:A和B,A和C,A和D,B和C,B和C,以及C和D。如果显著性水平设为0.05,那么正确判断的概率为0.95。因为我们分别进行6次独立的检验,任何一次检验都不做错误判断的概率为:P(都正确)=0.956=0.735因此,至少一次错误的概率为1-0.735=0.265。总之,如果我们用t分布分别做6次独立的检验,至少有一样本错误发生的概率从0.05上升到了0.265。显然我们需要用更好的办法来而非6次t检验,方差分析允许我们同时比较多个处理的均值并且避免了第一类错误概率的增加。7.1单因素方差分析例7.1

研究员想挑选出能使小麦亩产量最大的化肥,选了三个品牌的化肥:A,B和C。开始,他将土地分成大小相同的24块。小麦在同时以相同的方式播种,唯一差别就是所施的肥料不同,8块地用A,8块地用B,其余8块地用C。在收割的季节,记下每块地的小麦产量。这里三种不同的肥料就是三种不同的处理。产量用公斤表示。数据见表7.1。ABC5706605405607605806106705305807105505906305205807305606306405106006805307.1.1小麦产量与化肥品牌之间的关系为了显示平均产量是否随化肥品牌不同而不同,我们首先看散点图7.1。这里的散点图与前面介绍的散点图有一些不一样,其横轴是分类变量。7.1.1小麦产量与化肥品牌之间的关系从散点图可以发现,不同品牌的化肥所导致的小麦平均产量的确是有明显差别的。而且即使是同一品牌,小麦的产量也明显不同。这些区别至少说明,小麦的产量与化肥的品牌之间是有关系的。如果这三块地的小麦产量差不多,则可以认为小麦的产量与化肥的品牌之间是没有关系的。7.1.1小麦产量与化肥品牌之间的关系为了更容易的找出各化肥品牌的小麦平均产量的不同,我们对每个化肥品牌做一个箱线图。7.1.1小麦产量与化肥品牌之间的关系比较基于数据的箱线图可以揭示小麦产量的哪些信息呢?首先应该来对比不同化肥品牌的中位数,因为它们代表中心值。当我们仔细看盒子中间代表中位数的横线时,就会注意到品牌B的中位数最高。因此可以断定这个品牌的化肥的小麦产量最高。类似的,品牌C的中位数最低,则品牌C的化肥的小麦产量最低。品牌B的化肥的小麦产量居中。箱线图的另一个特征是盒子的高度不同。例如品牌A和品牌C的盒子高度接近,都比品牌B盒子要矮,这就意味着品牌A和品牌C这两种化肥下的小麦产量波动性都小比品牌B的化肥下的小麦产量。

7.1.2关系强度有多大?箱线图比散点图更能显示各地区之间小麦产量的不同和两个变量间存在关系。但我们还想知道这两个变量之间关系的强度,以及这个关系是否可能出于偶然。要回答这些问题我们还需要做进一步的工作,即利用方差分析。我们的兴趣在均值上,但在判断均值之间是否有差异时要借助于方差。7.1.2关系强度有多大?原理为:把因变量的值随着自变量的不同取值而得到的变化进行分解,使得每一个自变量都有一份贡献,最后剩下无法用已知的原因解释的则看成随机误差的贡献。然后用各自变量的贡献和随机误差的贡献进行比较(F检验),以判断该自变量的不同水平是否对因变量的变化有显著贡献。输出就是F-值和检验的一些p-值。方差分析原理模型中的假定:涉及的检验:H0:m1=…=mp线性模型:公式:总平摔方和=组间腹平方疗和+组内刘平方挡和其中,SS遮T有自栋由度n-杜1,SS薄B有自要由度p-男1,SS您E有自紫由度n-杏p,在正增态分恭布的湿假设默下,如果伸各组蕉增重胆均值悬相等(零假蝴设),则有自奸由度楚为p-看1和n-龟p的F分布.7.幻玉1.泰3在总法体中亭的关拦系如钱何?由SP韵SS可以浇得到贸方差仪分析祝表:来源平方和比例自由度均方F-比p-值化肥868000.80224340042.60.00000004残差214000.198211019总计1082001.00023该表然说明办我们旋要拒瓜绝零崇假设俯,各铅化肥柄品牌拦导致宽的小得麦产助量之战间有维显著印不同.方差赞分析兼表的汁说明:

SumofSquares(平方和)Df自由度MeanSquare(均方)FSig.BetweenGroups(处理)SSBP-1MSB=SSB/(p-1)F=MSB/MSEP(F>Fa)WithinGroups(误差)SSEn-pMSE=SSE/(n-p)

Total(总和)SSTn-1

这里n为观镰测值舌数目p为水润平数,Fa满足P(两F>挪Fa)=a.这是视自由垫度为p-誓1和n-寸p的F-分布灯的概洁率7.拒1.愧4F检纽奉验:等比较斤均值虽然逮方差沸分析邮拒绝驱了零岂假设残,但萍是我芳们可斜能还置有一逢些疑燥惑,比如污(1)到陡底哪浓两种躁品牌隔化肥猾的小兆麦平爷均产事量不衫相同挠?(2)如杜果两冈种化舒肥的惑小麦混平均惹产量集不同走,那圣么它讨们的业平均境产量自底有镰多大擦差别劝?7.遇1.遵4F检页验:栋比较母均值为了球找到斩是哪偿一个塑均值矿与众怪不同款,我染们在倘图7.冷3中列苦出了复每种稀化肥贼得到嫩的小杰麦产睛量的要均值艘。从图挠中可撤以看乞出中撤化肥康品牌B的小按麦产厌量均遭值最宗高,张而品异牌A的小途麦产彩量均列值居仙中,仁品牌C的小妈麦产你量均艇值最糠低。剃但是茎仍然逼很难注说哪精一组自均值腊在统窃计意吓义上传不同须,哪访一个应相同拒。进一卵步的眨问题..炉.当方馅差分柳析拒妥绝了正原假至设时怀,即而认为酒至少荐有两服个总五体的陵均值旱存在垒显著常性差柄异时绵,须押进一阅步确乌定是庙哪两跃个或扑哪几哑个均类值显煮著不著同,存则需踏要进泳行多译重比法较来兔检验匆。多担重比答较是纪指在麦因变诸量的诵三个充或这森三个辣以上狸水平爬下均腰值之贤间进浸行的纵两两吊比较活检验妻。多重誉比较撑问题蚕:多重介比较残方法SP削SS提供喝了各侄种不击同的败多重路比较庸方法增,包期括最糊小显皂著差置异LS吃D法、Bo秩nf驼er芬ro否ni法、Tu捉ke快y法、Sc植he呀ff法,慌如下榜图所挨示。由SP仅SS可以遮得到熔多重策比较炕结果此时迷我们雀在SP连SS的输虫出结腰果选芳择LS么D方法泊输出两的多串重比荣较结韵果。阵如果速设定询的显献著性霜水平鸽为α=剃0.舍10,由除于0.胖05剧7<证0.橡10,那耀么不肠具有假方差系齐性尿,此异时我蹲们可钻以选挺择Ta炎mh桨an巨e方法贝的输忘出结秋果,滔见表7.穿5的第诞三部妖分的徐下边押。多重比较因变量:小麦产量(I)化肥品牌(J)化肥品牌均值差

(I-J)标准误显著性95%置信区间下限上限LSDdimension21dimension32-95.000*15.961.000-128.19-61.81350.000*15.961.00516.8183.192dimension3195.000*15.961.00061.81128.193145.000*15.961.000111.81178.193dimension31-50.000*15.961.005-83.19-16.812-145.000*15.961.000-178.19-111.81Tamhanedimension21dimension32-95.000*17.829.001-145.67-44.33350.000*11.339.00219.2880.722dimension3195.000*17.829.00144.33145.673145.000*17.829.00094.33195.673dimension31-50.000*11.339.002-80.72-19.282-145.000*17.829.000-195.67-94.33*.均值差的显著性水平为

0.05。做了暖以下舱三对蒜比较糟:品牌A~品牌B、品苦牌A~品牌C和品野牌B~品牌C。每逆一对拘比较撤都有少相应文的p-值。应用柔方差扁分析绿需要乖的假眨设条斑件有承:(1)各覆总体演是正构态分渐布。佩(2)各效总体你的有原相同皮的标英准差做。(3)样床本互英相独速立。画当满状足上没述条苗件时搜,可科以用F分布垒作为圈检验禾统计文量的诱分布界。在研纪究分彻类型规自变筒量和骆数量鲜型因南变量俊之间柔关联签的过叨程中荐的一胃部分走是方辜差分循析。迹在这肃里,脆我们深在此禾研究副的是居化肥贡品牌概和小脉麦产温量两疲个变彼量。状其它盾还有床诸如寻职业恳与收旺入的挪关系揪、不励同教藏育方祖法与炮学生随的学毅习水讨平的畅关系咬等例素子。方差本分析挨是基瞒于计令算因戏变量球在按搭照自斯变量前的各吴类的栽均值民之间指的差恭异程侄度和盯每一泳类中策观测靠值的杆差异义程度象。我们洪所得纳到方刺差分防析的靠结果唇是基顽于各壮种平右方和猛的大裹小。鲜表7.驼4是一鲁个典赠型的共计算快机输芽出的赴结果(当然困,对堆不同缝的计歉算程销序,疼方差有分析烟表的味形式差也许况会发甩生变索化)。7.最2方差陕分析绸回顾F检验蓝及其p-值告乏诉我踢们因蕉变量趟在各纠类中愈的均横值是遮否有猜显著伯差异仪。如冒果F值大散而因那此p-值小读,我浪们就艘拒绝牢无区栗别的猴零假宇设,版并认岛为在客实际阳中两床个变音量之联间是草有关进系的纷。通游常当p-值小友于0.被05时就站可以沾拒绝盈零假安设了娇。有时酷我们联会看研到p值下当面的隔数值猎显示*和**。在椒脚注驰中会狂解释松一个括星号五表示完它的p值小酬于0.板05,而绑两个乘星号扛则表竹示p-值小荐于0.臂01。统惩计表巨的缺峰点是诱它无罪法提摊供精绕确的p-值;汇它一眼般只丧能给章出p是小拿于某垄些值草的。披但是皱,我辫们可成以用谁统计扑软件步求出拾精确娃的p-值。露比如松可以得在Ex制ce策l中通壶过“=F拿DI咏ST尽(4丸2.累6,课2,汇21爷)”命令稀求得犯小麦控产量婶方差妇分析崇的p-值就新为0.涉00畜00香00捏04。精练确的p-值能笼够提需供更羽多的死信息游,因升为我扁们能棉知道狼它究贞竟比0.厅05或比0.侍01小多傻少,残也可圈以知改道在杨拒绝哄零假躲设时目的把摩握有德多大客。7.纳2方差欺分析革回顾7.跨3双因陵素方观差分奇析在小宗麦产稀量的粮例子亚中,姻我们羊将总聪效应监分为渡两类肌:化解肥变禁量的枝效应花和残康差变帖量的施效应串。换句贼话说肃,我川们只暴考虑舞了效晨应的辫两个贱来源啄,即米来自纷化肥烛变量新和随搏机误牧差。但是罗影响萝小麦俯产量覆的因遮素除昂了所砍用化刃肥的化品牌月,可膜能还绪有土肉壤、竟天气尘等等源因素拴的影纪响。考虑兽其他傍因素幕的好昏处是性降低块残差骆的效浑应,桶即降粘低F统计月量的香分母侍,F值会死变大受,使骆我们勇拒绝筑均值蹲相等馆的零枕假设丽,或截者说滚我们洒可以公解释球更多横的效疲应,沉从而闻减少菊误差辈。下列育例子的说明崇了误蛛差变英差的包减少馆。本计节讨丽论双因份素方疲差分切析(Tw个o-据Wa锯y健AN暖OV雕A),其敬分析陡方法华可以尿很容颜易地第被推冻广到多因严素方舌差分谈析(Mu抛lt刮i-蜻Wa催y嫁AN茎OV威A)。7.傍3双因郊素方暗差分辨析例7.辜2一个等地区裙的交惠通管溜理局刚正准件备扩梯大从弹郊区冤到商兽业中刑心的斗公车浑服务石,考挖虑四滨条路已线:1号线劝、2号线牢、3号线絮、4号线悉。交乌管局戴想进厉行检议验判蝇断四品条路藏线的订平均尾行驶额时间斯是否运存在浸差异疯。因能为可腐能存东在不模同司硬机,膀检验夸时让跳每一岂名司德机都途分别速行驶油四条膀路线芦。下补面是牲每个牛司机易在每责条路直线上京所需粱的行帅驶时嘉间。在0.挽05的显基著性庙水平针下,躺四条毛路线盈的行遣驶时骄间的扔均值浙是否属有差满异?召如果郊不考钞虑司它机的佳影响被,行彻驶时督间的体均值近是否倒有差友异?司机1号线2号线3号线4号线小张33353537小李36373939小王35384038小刘40364340小杨413943407.把3双因申素方幻玉差分雪析首先示,我陡们用纤单因或素方宽差分船析的零假设很检验茅,即厨只考慰虑四绣条路牲线。咽在这抽种情车况下这,效席应来燃源于覆因素吹或者墨随机茅误差阶。比巴较四却条路迁线平乓均行如驶时盘间的脊零假掩设和杆备择胜假设刘为:因为眯共有拌四条鞠路线膀,所吸以分蒸子的旗自由酿度为4-谨1=蔑3,分揉母的贸自由挪度为20秆-4搜=1谱6。此渣时对固应于0.困05的显我著性叶水平宵下的笨临界印值是3.娱24,因辅此,轻如果久计算壁的F值大伤于3.答24,则菜拒绝蚁零假征设。各处余理均藏值不凯全相烤等。7.享3双因帝素方说差分私析行驶时间平方和df均方F显著性组间32.400310.8001.618.225组内106.800166.675总数139.20019F值的猎计算蚂结果宴是1.亚61贵8,比惕临界金值3.弟24小,签实际修上p-值0.叔22映5远大嫂于0.港05,所哲以不含能拒巩绝零损假设练。交管肆局得寒出结架论四荣条路热线的惑平均钉行驶巩时间骂无差适异,诊没有们某条何路线津行驶任速度絮快而还被选侧择的颜理由耗。7.称3.宿1无交椅互效陆应的奖双因竟素方秀差分疾析如果韵上例烧中我愿们只必考虑财路线付引起罩的效馅应而谣将其踏余的魂都归砍为随锐机效比应,里那么狂我们挎没有煎必要缘瑞让五魄名司御机分虫别行悬驶四援条路得线。如果战我们弹考虑梯不同翼司机笋的影跟响,霸我们谜就能品减少早残差翅平方预和,短从而酱得到张更大找的F值。宣我们员把本瓣例中杏的司邪机因怨素称兰为区组屋因素(bl宾oc拥ki日ng声v萌ar啊ia晓bl当e),跪即在冰方差爪分析苗中能时减少台残差亏平方损和的竹第二套个处懂理因仰素。在本岩例中椒将司团机作燥为区腾组因荐素,钩从残党差平载方和口中提祸取出羽司机蝴的影陡响能嘴够影顽响处狭理的F比值拼。这里您介绍橡无交杂互作奸用的浙双因皆素方粘差分哪析。7.民3.卵1无交发互效遗应的厘双因宾素方精差分拒析因为辅我们件考虑竞不同柏司机宣行使迅时间肥的差接异,送所以算要对茅区组畜做假台设检哨验。隶两组是假设螺分别猾为:1.丑不同根路线振均值位都相木等(),各路乖线均忧值不广全相遥等2.副区组嚼均值她都相额等(),各区窝组均捎值不焰全相缺等两因斤素方福差分瞧析表残的格膛式与林单因号素方解差分族析的娘格式沿一致睁,唯谁一的市区别押是加喉了一捕行区驻组变校差。7.摔3.例1无交驰互效摔应的衫双因真素方腊差分惭析因变量:行驶时间源III型平方和df均方FSig.模型29295.400a83661.9251536.472.000路线32.400310.8004.531.024司机78.200419.5508.203.002误差28.600122.383总计29324.00020a.R方

=.999(调整

R方

=.998)从该陪表可赚以看纯出,研关于顿对司墨机的害零假照设的p-值是0.辉00伙2,对蔑路线拐的零贱假设滑的p-值是0.搏02节4。可州以得扰知在0.枯05的显孙著性更水平凳下,宗路线惜和区张组的蓝零假牢设都趁被拒脑绝。因此逮,路铺线和站司机收这两坛个因润素都上对行范驶时汽间有孤显著锦作用虏,也鲜就是绍说这住两个床因素散的不青同水粥平的执确造桌成了艘行驶稿时间桑的不墙同。这表献明司臭机这争个因股素的刺引进喜,使绢得路毅线对速行驶居时间毒从没先有影逆响变绞成有疮显著敞影响隔。7.鸡3.睁2有交语互效舌应的蒜双因蛾素方拣差分罚析值得泻注意倦的是墙,对麦于上嚼面的鞠例子涉,我生们仅涂仅分芬析了尝路线矩和司缓机这毒两个山因素让分别凡对行周驶时冤间的阳影响发。也翻就是战说因莲为司闭机变讨化所吩带来恐的行哨驶时祖间的榜变化酿是同卫行驶刚的路灰线是浊无关趣的。屑这显拍然是俘值得急斟酌工的。对于驾一个绸实际挂问题度,仅灰考虑江因素蔽各自逢的作涛用是做不是狮合理译?能拌不能味回答喝我们贿关心蹦的问袍题?充那就投得视撤具体夹问题逃而论哪了。因此震,我交们接缝下来例简单环介绍筹带交壤互作成用的怕双因寇素方衰差分银析。底要说呢明的净是,六如果变每一开种因剑素水中平的蹲组合单只有牲一个谁观测陶值,药那么航由于哨数据炼量不煌够会帆导致翼无法肯判断吸是否穷有交宜互作眯用。宗这时辞即使柔有交必互作佩用,谁也混乐在误裳差项姑中而惧无法婚分离浮出来干。7.旅3.集2有交该互效阔应的强双因免素方购差分取析例7.愿3该地掏区的廊交管窄局还织想研辈究司夹机变帜化所肃带来揭的行素驶时朽间的毙变化幼与行裂驶的坚路线昏是否太有关谷?因醉此,抗我们旨假设麦对这网个地证区的初交管胖局进场行了2次测盐试。毁获得嫂数据旬如下臭表所庙示。司机1号线2号线3号线4号线小张3335353735373739小李3638373939413941小王3537384040423840小刘4042363843454042小杨41433941434540427.躁3.拘2有交凤互效摇应的吧双因男素方厌差分闻析从数枕据表克可以道看出毁,司都机因泰素有5个水城平,鉴路线也因素鄙有4个水拍平,年每个廉水平年组合徒重复禁数n=镇2,共巾有=5贷×4绩×2沫=4摧0个观悲测值驴。我们系仍然曲可以鹿像前暖面那亩样讨打论行蛙驶时引间和扎作为斗因素悠(自酒变量辉)的举路线鬼类型崖和司笨机之羊间的行关系熄,还由深于路搁线类陪型和施司机受的每支种组某合都草有2个观赶测值队,因毒此还归可以珠考虑绕路线壳类型情和司挑机之求间的苏交互导效应抚行驶鸡时间劳的影菊响。7.膛3.刷2有交遗互效恭应的娇双因男素方协差分芝析因变量:行驶时间源III型平方和df均方FSig.模型61906.000a203095.3001629.105.000司机*路线61.000125.0832.675.025司机155.000438.75020.395.000路线67.500322.50011.842.000误差38.000201.900总计61944.00040a.R方

=.999(调整

R方

=.999)从中凯可以嚷

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论