数学建模之方差分析_第1页
数学建模之方差分析_第2页
数学建模之方差分析_第3页
数学建模之方差分析_第4页
数学建模之方差分析_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一讲方差分析1.1方差分析的概念1.2单因素方差分析1.3有交互作用的双因素方差分析1.4无交互作用的双因素方差分析

一、问题的引入

在实际应用中,我们常常会遇到需要对两个以及两个以上总体均值是否相等进行检验,从而判断某一种因素对我们所研究的对象是否产生了显著的影响。

1.1

方差分析的概念例1:某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见下表,试分析饮料的颜色是否对销售量产生影响。

该饮料在五家超市的销售情况超市无色粉色橘黄色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8例2某公司为了研究三种不同内容的广告宣传对某种无季节性的大型机械的销售量是否有显著影响,经调查统计,一年四个季度的销售量(单位:台)如下:

A1是强调运输方便性的广告,A2是强调节省燃料的经济性的广告,A3是强调噪音低的优良性的广告.试判断:新闻广告的类型对该种机械的销售量是否有显著影响?若影响显著,哪一种广告内容为好?广告类型第一季度第二季度第三季度第四季度A1163176170185A2184198179190A3206191218224方差分析:在若干个能够相互比较的资料组中,判别各组资料是否存在差异以及分析差异原因的方法和技术。方差分析由英国统计学家R.A.Fisher首创,为纪念Fisher,方差分析又称F检验(Ftest)。用于推断多个总体均值有无差异二、基本概念

1.因素又称因子,指需要考察的引起数据变动的主要原因,通常用A、B、C……表示。如:要分析饮料的颜色对销售量是否有影响,颜色是要检验的因素或因子.

又如:要分析新闻广告的内容对某种机械的销售量是否有显著影响,新闻广告类型是所要检验的因素。可以控制的试验条件单因素方差分析:在实验中考察的因素只有一个。多因素方差分析:在实验中考察的因素有两个以上。双因素方差分析:在实验中考察的因素有两个。2.水平:因子在实验中的不同状态。如:例1中橘黄色、粉色、绿色和无色透明四种颜色就是因素的四个水平。3.交互影响:如果因子间存在相互作用,称之为“交互影响”;如果因子间是相互独立的,则称为无交互影响。4.观察值:在每个因素不同水平下得到的样本值。如例1中每种颜色饮料的销售量就是观察值。三、方差分析的基本思想比较两类误差以检验均值是否相等随机误差和系统误差随机误差:在因素的同一水平(同一个总体)下,样本的各观察值之间的差异。比如,同一种颜色的饮料在不同超市上的销售量是不同的。不同超市销售量的差异可以看成是随机因素的影响,或者说是由于抽样的随机性所造成的,称为随机误差。系统误差:在因素的不同水平(不同总体)下,各观察值之间的差异。比如,同一家超市,不同颜色饮料的销售量也是不同的。这种差异可能是由于抽样的随机性所造成的,也可能是由于颜色本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差。比较的基础是方差比组内方差、组间方差

组内方差:因素的同一水平(同一个总体)下样本数据的方差。比如,无色饮料在5家超市销售数量的方差。组内方差只包含随机误差组间方差:因素的不同水平(不同总体)下各样本之间的方差比如,例1中橘黄色、粉色、绿色和无色透明四种颜色饮料销售量之间的方差。组间方差既包括随机误差,也包括系统误差。方差的比较如果不同颜色(水平)对销售量(结果)没有影响,那么在组间方差中只包含有随机误差,而没有系统误差。这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近1。如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1。当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异。四、基本假定1.每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本比如,每种颜色饮料的销售量必须服从正态分布2.各个总体的方差必须相同对于各组观察数据,是从具有相同方差的总体中抽取的。比如,四种颜色饮料的销售量的方差都相同。

3.不同水平下的样本相互独立一、数学模型表1观察结果水平样本总和样本均值总体均值1.2单因素方差分析假设单因素试验方差分析的数学模型需要解决的问题1.检验假设数学模型的等价形式总平均s个水平原数学模型改写为检验假设等价于检验假设—数据的总平均—总离差平方和(总变差)二、平方和的分解—误差(残差)平方和—组间离差平方和(效应平方和)组内平方和ST是全部观察值与总平均值的离差平方和,反映全部观察值的离散状况,从而反映了全部数据总的误差程度。SA既包括随机误差,也包括系统误差,反映的是随机误差和系统误差的大小。总误差平方和=组间误差平方和+组内误差平方和如果组间方差明显高于组内方差,说明样本数据波动的主要来源是组间方差,因子是引起波动的主要原因,可认为因子对实验的结果存在显著的影响;反之,如果波动的主要部分来自组内方差,则因子的影响就不明显,没有充足理由认为因子对实验或抽样的结果有显著作用。判断因子的不同水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小。

检验这种差异,需要构造一个用于检验的统计量。检验假设拒绝域为组间均方差组内均方差三、假设检验单因素试验方差分析表方差来源因素A误差总和平方和自由度均方F比四、单因素方差分析的Matlab实现p=anova1(X,group)输入:X是一个向量,从第一个总体的样本到第r个总体的样本依次排列,group是与X有相同长度的向量,表示X中的元素是如何分组的.group中某元素等于i,表示X中这个位置的数据来自第i个总体.因此group中分量必须取正整数,从1直到r.p=anova1(X)%比较X中各列数据的均值是否相等此时输出的p是零假设成立时,数据的概率,当p<0.05称差异是显著的,当p<0.01称差异是高度显著的.输入X各列的元素相同,即各总体的样本大小相等,称为均衡数据的方差分析,不均衡时用下面的命令例1某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表。表1饲喂不同饲料的鱼的增(单位:10g)饲料鱼的增重(xij)A131.927.931.828.435.9A224.825.726.827.926.2A322.123.627.324.925.8A427.030.829.024.528.5四种不同饲料对鱼的增重效果是否显著?解:这是单因素均衡数据的方差分析,Matlab程序如下:A=[31.927.931.828.435.924.825.726.827.926.222.123.627.324.925.827.030.829.024.528.5];%原始数据输入

B=A';%将矩阵转置,Matlab中要求各列为不同水平p=anova1(B)运行后得到一表一图,表是方差分析表(重要);图是各列数据的盒子图,离盒子图中心线较远的对应于较大的F值,较小的概率p.Source方差来源SS平方和df自由度MS均方差F统计量P值Columns(因素A组间)SSAr-1SS/(r-1)7.140.0029Error误差(组内)SSEn-rSS/(n-r)Total总和SSTn-1表中所列出的各项意义如下:因为p=0.0029<0.01,故不同饲料对鱼的增重效果极为显著.如果没有给出概率,如何查表?四种不同饲料对鱼的增重效果极为显著,那么哪一种最好呢?请看下图此时,第一个图对应第一种饲料且离盒子图中心线较远,效果最突出。如果从原始数据中去掉第一种饲料的试验数据,得到的结果为各种饲料之间对鱼的增重效果不显著.p=anova1(B(:,2:4))例2为比较同一类型的三种不同食谱的营养效果,将19支幼鼠随机分为三组,各采用三种食谱喂养.12周后测得体重,三种食谱营养效果是否有显著差异?食谱体重增加量甲164190203205206214228257乙185197201231丙187212215220248265281解:这是单因素非均衡数据的方差分析A=[164190203205206214228257185197201231187212215220248265281];group=[ones(1,8),2*ones(1,4),3*ones(1,7)];p=anova1(A,group)方差分析表均值盒子图由于概率p=0.1863比较大,故认为三种食料没有显著差异.五、因素各水平均值的估计与比较从例1的结果可以知道四种饲料对鱼类体重增长效果有显著差异,如何进一步比较选择最优的因素水平?1.各水平均值的估计及其置信区间根据方差分析的要求每个因素水平Ai的数据来自正态分布N(

i,2),因此样本均值标准化得到又因为,所以进而根据定理:设X~N(0,1),则因为代入定理立得对给定的置信水平,可得

i置信度为1-

的置信区间为:2.各对均值差的置信区间根据两样本均值差构造标准正态分布,进而得到两样本的T统计量,于是

i-j置信度1-的置信区间3.多重比较的MATLAB实现为了便于解决实际问题,我们给出多重比较的MATLAB命令。c=multcompare(s)其中输入s,由[p,c,s]=anova1(b);得到输出C共有6列,每一行给出均值差的置信区间例3四个实验室试制同一型号纸张,为了比较光滑度每个实验室测量了8张纸,进行方差分析

实验室纸张光滑度A138.741.543.844.545.54647.758A2

39.239.339.741.441.842.943.345.8A33435394043434445A43434.834.835.437.237.841.242.8解:a=[38.7,41.5,43.8,44.5,45.5,46,47.7,5839.2,39.3,39.7,41.4,41.8,42.9,43.3,45.834,35,39,40,43,43,44,4534,34.8,34.8,35.4,37.2,37.8,41.2,42.8];%输入数据b=a’;%MATLAB只对各列进行分析[p,c,s]=anova1(b);%方差分析c=multcompare(s)%多重比较从方差分析表可知:四个实验室生产有差异,那么如何比较?软件输出c如下所示:1,2列表示比较的实验室号码,3,5列分别为置信区间左右端点

,第4列是均值差的统计量观测值.

1.00002.0000-1.47534.03759.55031.00003.0000-0.17535.337510.85031.00004.00002.94978.462513.97532.00003.0000-4.21281.30006.81282.00004.0000-1.08784.42509.93783.00004.0000-2.38783.12508.6378若置信区间包含原点则无显著差异,可见只有1,4实验室有显著差异.另外,软件输出一幅图形,告知1,4有显著差异.1.3有交互作用的双因素方差分析一、问题的引出在实际问题的分析中,常常需要考虑多个因素的影响。如在对某商品销售量影响因素的分析中,除了考虑广告内容的影响,还要考虑销售价格、包装等因素的影响。——多因素的方差分析若只考虑两个因素的影响——双因素的方差分析

有交互作用的双因素方差分析无交互作用的双因素方差分析表2因素A因素B二、数学模型假设记号总平均有交互作用的双因素方差分析的数学模型检验假设2.研究统计特性;检验步骤1.分解平方和;3.确定拒绝域.1.分解平方和总偏差平方和(总变差)误差平方和因素

A的效应平方和因素

B的效应平方和因素A,B的交互效应平方和2.研究统计特性自由度数学期望3.确定拒绝域表3有交互作用的双因素方差分析表方差来源平方和自由度均方F

比因素

A因素

B交互作用误差总和例

抗牵拉强度是硬橡胶的一项重要的性能指标,现试验考察下列两个因素对该指标的影响.A(硫化时间):A1(40秒),A2(60秒).B(催化剂种类):B1(甲种),B2(乙种),B3(丙种).六种组合水平下,各重复做了两次试验,测得数据(单位:kg/cm2)如下,试问因素A,因素B对该指标的影响是否显著?应用EXCEL软件可得如下结果:从以上结果可见,乙种催化剂、硫化60秒可使硬橡胶的抗牵拉强度达到最大.

检验两个因素的交互效应,对两个因素的每一组合至少要做两次试验.

如果已知不存在交互作用,或已知交互作用对试验的指标影响很小,则可以不考虑交互作用.

对两个因素的每一组合只做一次试验,也可以对各因素的效应进行分析——无交互作用的双因素方差分析1.4无交互作用的双因素方差分析表4

因素B因素A假设无交互作用的双因素方差分析的数学模型检验假设表5无交互作用的双因素方差分析表方差来源平方和自由度均方F比因素A因素B误差总和例

为提高某种产品的合格率,考察原料用量和来源地对其是否有影响.原料来源地有三个:甲、乙、丙.原料用量有三种:现用量、增加5%、增加8%.每个水平组合各做一次试验,得到的数据如下:试分析原料用量及来源地对产品合格率的影响是否显著.解:设原料来源地为因素A,三个地区为因素A的三个水平,第i个水平对合格率的特殊效应为;原料用量为因素B,三种用料量为因素B的三个水平,第j个水平对合格率的特殊效应为,原假设为由EXCEL软件可得如下结果:最优条件为A2B2,即采用乙地原料并在原有用料量上增加5%,这一方案为最佳.双因素方差分析的Matlab实现调用格式:p=anova2(X,reps)含义:比较样本X中两列或两列以上和两行或两行以上数据的均值。不同列的数据代表因素A的变化,不同行的数据代表因素B的变化。若在每个行-列匹配点上有一个以上的观测量,则参数reps指示每个单元中观测量的个数。

返回:当reps=1(默认值)时,anova2将两个p值返回到向量p中。

H0A:因素A的所有样本(X中的所有列样本)取自相同的总体;

H0B:因素B的所有样本(X中的所有行样本)取自相同的总体。当reps>1时,anova2还返回第三个p值:

H0AB:因素A与因素B没有交互效应。解释:如果任意一个p值接近于0,则认为相关的零假设不成立。

Matlab程序:disp1=[58.256.265.3;4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论