6第六章方差分析.ppt_第1页
6第六章方差分析.ppt_第2页
6第六章方差分析.ppt_第3页
6第六章方差分析.ppt_第4页
6第六章方差分析.ppt_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章 方差分析,1,为什么要进行方差分析?,第五章中我们介绍了如何进行检验来确定两个总体之间是否有显著差异; 实际中还会遇到检验多个总体参数,如检验多个总体均值是否相等的问题; 当然也会遇到检验多个总体的多个变量之间是否相等的问题等等。 这时我们就要用到方差分析!,2,例: 某饮料生产企业研制出一种新型饮料.饮料的颜色共有四种:橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超市上收集了该种饮料的销售情况。,3,什么是方差分析?,该饮料在五家超市的销售情况,4,什么是方差分析?,检验饮料的颜色对销售量是否

2、有影响,也就是检验四种颜色饮料的平均销售量是否相同 这一问题归结为一个检验问题,即:检验饮料颜色对销售量是否有影响? 2. 设1为无色饮料的平均销售量,2粉色饮料的平均销售量,3为橘黄色饮料的平均销售量,4为绿色饮料的平均销售量,也就是检验下面的假设 H0: 1 2 3 4 H1: 1 , 2 , 3 , 4 不全相等 检验上述假设所采用的方法就是方差分析,5,方差分析的原理,从方差分析的目的看,是要检验四种颜色的饮料的销售均值是否相等,我们可用方差比较的方法来判断。 销售的差异的产生来自两个方面: 一方面是由不同颜色的差异造成的,既不同的饮料颜色对销售量产生了影响 另一方面是由于抽选样本的随

3、机性而产生的差异,即各颜色内的随机误差,如相同颜色的饮料在不同的商场销售量也不同。,6,方差分析的原理,这两个方面产生的差异可以用两个方差来计量: 一个称为水平之间(组间)方差(组间平方和除以自由度(r-1),r为组数), 一个称为水平内部(组内)方差(组内平方和除以自由度(n-1),n为样本容量总数)。 水平之间的方差既包括系统性因素,也包括随机性因素; 水平内部方差仅包括随机性因素。,7,8,组内方差 因素的同一水平(同一个总体)下样本数据的方差 比如,无色饮料A1在5家超市销售数量的方差 组内方差只包含随机误差 组间方差 因素的不同水平(不同总体)下各样本之间的方差 比如,A1、A2、A

4、3、A4四种颜色饮料销售量之间的方差 组间方差既包括随机误差,也包括系统误差,方差分析的基本思想和原理,随机误差 在因素的同一水平(同一个总体)下,样本的各观察值之间的差异 比如,同一种颜色的饮料在不同超市上的销售量是不同的 不同超市销售量的差异可以看成是随机因素的影响,或者说是由于抽样的随机性所造成的,称为随机误差 系统误差 在因素的不同水平(不同总体)下,各观察值之间的差异 比如,同一家超市,不同颜色饮料的销售量也是不同的 这种差异可能是由于抽样的随机性所造成的,也可能是由于颜色本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差,9,该饮料在五家超市的销售情况,10,11,首

5、先,四种颜色的销售情况可看作为分为四个组:,方差分析的原理,如果不同的水平(饮料颜色)对结果没有影响,那么在水平之间的方差中,就仅仅有随机因素的差异,而没有系统性差异, 它与水平内部方差就应该近似, 两个方差的比值就会接近于1。,12,方差分析的原理,反之,水平之间的方差就会大于水平内的方差,当这个比值达到某个程度,或者说达到某临界点,就可做出判断,既不同的水平之间存在着显著差异。 因此,方差分析就是通过不同方差的比价,做出拒绝原假设或不能拒绝原假设的判断。,13,方差分析的原理,水平间的方差和水平内方差之比是一个统计量,这个统计量服从F分布:,14,15,自由度为(3,20)和(50,20)

6、的F-分布密度曲线图。,方差分析的种类,单因素的方差分析 分析一个变量时 One-Way ANOVA 多因素的方差分析 Univariate 分析多个变量时,称为多元方差分析 Multivariate,16,应用方差分析的条件,各组的观察数据,要看作是从服从正态分布的总体随机抽取的样本; 各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。,17,一元单因素方差分析,18,单因素方差分析的数据结构,19,20,单因素方差分析的步骤 提出假设 构造检验统计量 统计决策,提出假设,一般提法 H0: m1 = m2 = mk (因素有k个水平) H1: m1 ,m2 , ,mk不全相等 对

7、前面的例子 H0: m1 = m2 = m3 = m4 颜色对销售量没有影响 H0: m1 ,m2 ,m3, m4不全相等 颜色对销售量有影响,21,构造检验的统计量,为检验H0是否成立,需确定检验的统计量 构造统计量需要计算 水平的均值 全部观察值的总均值 离差平方和 均方(MS),22,23,SST = SSE + SSA,构造检验的统计量(计算水平的均值 ),假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数 计算公式为,24,式中: ni为第 i 个总体的样本观察值个数 xij 为第 i 个总体的第 j 个观察值,构造检验的

8、统计量(计算全部观察值的总均值 ),全部观察值的总和除以观察值的总个数 计算公式为,25,构造检验的统计量(前例计算结果 ),26,构造检验的统计量(计算总离差平方和 SST),全部观察值 与总平均值 的离差平方和 反映全部观察值的离散状况 其计算公式为,27,前例的计算结果: SST = (26.5-28.695)2+(28.7-28.695)2+(32.8-28.695)2 =115.9295,构造检验的统计量(计算误差项平方和 SSE),每个水平或组的各样本数据与其组平均值的离差平方和 反映每个样本各观察值的离散状况,又称组内离差平方和 该平方和反映的是随机误差的大小 计算公式为,28,

9、前例的计算结果:SSE = 39.084,构造检验的统计量(计算水平项平方和 SSA),各组平均值 与总平均值 的离差平方和 反映各总体的样本均值之间的差异程度,又称组间平方和 该平方和既包括随机误差,也包括系统误差 计算公式为,29,前例的计算结果:SSA = 76.8455,构造检验的统计量(三个平方和的关系),总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和 (SSA) 之间的关系,30,SST = SSE + SSA,构造检验的统计量(三个平方和的作用),SST反映了全部数据总的误差程度;SSE反映了随机误差的大小;SSA反映了随机误差和系统误差的大小 如果原假设成

10、立,即H1 H2 Hk为真,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差 判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小 为检验这种差异,需要构造一个用于检验的统计量,31,构造检验的统计量(计算均方 MS),各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为方差 计算方法是用离差平方和除以相应的自由度 三个平方和的自由度分别是 SST 的自由度为

11、n-1,其中n为全部观察值的个数 SSA的自由度为k-1,其中k为因素水平(总体)的个数 SSE 的自由度为n-k,32,构造检验的统计量(计算均方 MS),SSA的均方也称组间方差,记为MSA,计算公式为,33,SSE的均方也称组内方差,记为MSE,计算公式为,构造检验的统计量(计算检验的统计量 F ),将MSA和MSE进行对比,即得到所需要的检验统计量F 当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布,即,34,构造检验的统计量(F分布与拒绝域),35,如果均值相等,F=MSA/MSE1,统计决策, 将统计量的值F与给定的显著性水平的临界值F进行比较,作

12、出接受或拒绝原假设H0的决策 根据给定的显著性水平,在F分布表中查找与第一自由度df1k-1、第二自由度df2=n-k 相应的临界值 F 若FF ,则拒绝原假设H0 ,表明均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响 若FF ,则不能拒绝原假设H0 ,表明所检验的因素(A)对观察值没有显著影响,36,单因素方差分析表(基本结构),37,MSE,单因素方差分析(一个例子),38,【例】为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的样本,其中零售业抽取7家,旅游业抽取了6家,航空公司抽取5家、家电制造业抽取了5家,然后记录了一年中

13、消费者对总共23家服务企业投诉的次数,结果如表。试分析这四个行业的服务质量是否有显著差异?(0.05),单因素方差分析(一个例子),39,40,41,2008年8月,关系强度的测量,拒绝原假设表明因子(自变量)与观测值之间有显著关系 组间平方和(SS组间)度量了自变量(超市位置)对因变量(销售额)的影响效应 当组间平方和比组内平方和(SSE)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱,2008年8月,关系强度的测量,变量间关系的强度用自变量平方和(SS组间) 占总平方和(

14、SST)的比例大小来反映 自变量平方和占总平方和的比例记为R2 ,即 其平方根R可以用来测量两个变量之间的关系强度,例题分析:R2=44.74%,R=0.6689。表明超市位置(自变量)对销售额(因变量)的影响效应占总效应的44.74%。尽管并不高,但超市位置对销售额的影响都已经达到了统计上显著的程度。R表明超市位置与销售额之间已达到中等以上的相关,方差分析中的多重比较,44,方差分析中的多重比较(作用),多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异 多重比较方法有多种,这里介绍Fisher提出的最小显著差异方法,简写为LSD,该方法可用于判断到底哪些均值之间有差

15、异 LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的,45,方差分析中的多重比较(步骤),提出假设 H0: mi = mj (第i个总体的均值等于第j个总体的均值) H1: mi mj (第i个总体的均值不等于第j个总体的均值) 检验的统计量为,46,若|t|t,拒绝H0;若|t|t,不能拒绝H0,方差分析中的多重比较(基于统计量xi-xj的LSD方法),通过判断样本均值之差的大小来检验 H0 检验的统计量为 :xi xj 检验的步骤为 提出假设 H0: mi = mj (第i个总体的均值等于第j个总体的均值) H1: mi mj (第i个总体

16、的均值不等于第j个总体的均值) 计算LSD,47,若|xi-xj|LSD,拒绝H0,若|xi-xj|LSD ,不能拒绝H0,方差分析中的多重比较(实例 ),根据前面的计算结果: x1=27.3;x2=29.5; x3=26.4;x4=31.4 提出假设 H0: mi = mj ;H1: mi mj 计算LSD,48,方差分析中的多重比较(实例 ),49,|x1-x2|= |27.3-29.5| =2.22.096 颜色1与颜色2的销售量有显著差异 |x1-x3|= |27.3-26.4| =0.92.096 颜色1与颜色4的销售量有显著差异 |x2-x3|= |29.5-26.4| =3.12

17、.096 颜色2与颜色3的销售量有显著差异 |x2-x4|= |29.5-31.4| =1.92.096 颜色3与颜色4的销售量有显著差异,Spss单因素方差分析的多重比较检验,通过上面的检验,我们只能判断控制变量的不同水平是否对观察变量产生了显著影响。 我们还想进一步了解:究竟是哪一个水平对观察变量产生了显著影响,即那种颜色的饮料对销售量有显著影响。 这就是单因素方差分析的多重比较检验。,50,51,一元多因素方差分析,52,多因素方差分析 (一个例子),53,【例】有四个品牌的彩电在五个地区销售,为分析彩电的品牌(因素A)和销售地区(因素B)对销售量是否有影响,对每个品牌在各地区的销售量取

18、得以下数据,见下表。试分析品牌和销售地区对彩电的销售量是否有显著影响?,一、 不考虑交互作用,第三节 双因子方差分析,2008年8月,双因子方差分析(two-way analysis of variance),分析两个因子(行因子Row和列因子Column)对实验结果的影响 如果两个因子对实验结果的影响是相互独立的,分别判断行因子和列因子对实验数据的影响,这时的双因子方差分析称为无交互作用的双因子方差分析或无重复双因子方差分析(Two-factor without replication) 如果除了行因子和列因子对实验数据的单独影响外,两个因子的搭配还会对结果产生一种新的影响,这时的双因子方差

19、分析称为有交互作用的双因子方差分析或可重复双因子方差分析 (Two-factor with replication ),2008年8月,双因子方差分析的基本假定,每个总体都服从正态分布 对于因子的每一个水平,其观察值是来自正态分布总体的简单随机样本 各个总体的方差必须相同 对于各组观察数据,是从具有相同方差的总体中抽取的 观察值是独立的,2008年8月,双因子方差分析 (例题分析),【例】有4个品牌的彩电在5个地区销售,为分析彩电的品牌(品牌因子)和销售地区(地区因子)对销售量的影响,对每显著个品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响?(=0.05),

20、2008年8月,分析步骤(提出假设),提出假设 对行因子提出的假设为 H0:m1 = m2 = = mi = = mk (mi为第i个水平的均值) H1:mi (i =1,2, , k) 不全相等 对列因子提出的假设为 H0: m1 = m2 = = mj = = mr (mj为第j个水平的均值) H1: mj (j =1,2,r) 不全相等,2008年8月,双因子方差分析(例题分析), 提出假设 对品牌因子提出的假设为 H0:m1=m2=m3=m4 (品牌对销售量无显著影响) H1:mi (i =1,2, , 4) 不全相等 (有显著影响) 对地区因子提出的假设为 H0:m1=m2=m3=m

21、4=m5 (地区对销售量无显著影响) H1:mj (j =1,2,5) 不全相等 (有显著影响),2008年8月,分析步骤(构造检验的统计量),计算平方和(SS) 总误差平方和 行因子误差平方和 列因子误差平方和 随机误差项平方和,2008年8月,分析步骤(构造检验的统计量), 总误差平方和(SST )、行因子平方和 (SS行)、列因子平方和(SS列) 、误差项平方和(SS残差) 之间的关系,SST = SS行 +SS列+SS残差,2008年8月,分析步骤(构造检验的统计量),计算均方(MS) 误差平方和除以相应的自由度 三个平方和的自由度分别是 总误差平方和SST的自由度为 kr-1 行因子

22、平方和SSR的自由度为 k-1 列因子平方和SSC的自由度为 r-1 误差项平方和SSE的自由度为 (k-1)(r-1),2008年8月,分析步骤(构造检验的统计量),计算均方(MS) 行因子的均方,记为MS行,计算公式为 列因子的均方,记为MS列,计算公式为 误差项的均方,记为MS残差 ,计算公式为,2008年8月,分析步骤(构造检验的统计量),计算检验统计量( F ) 检验行因子的统计量 检验列因子的统计量,2008年8月,分析步骤(做出决策), 计算出统计量的P值与给定的显著性水平比较, 若PR ,拒绝原假设H0 ,表明均值之间的差异是显著的,即所检验的行因子对观察值有显著影响 若PC

23、,拒绝原假设H0 ,表明均值之间有显著差异,即所检验的列因子对观察值有显著影响,2008年8月,双因子方差分析(关系强度的测量),行平方和(SS行)度量了品牌这个自变量对因变量(销售量)的影响效应 列平方和(SS列)度量了地区这个自变量对因变量(销售量)的影响效应 这两个平方和加在一起则度量了两个自变量对因变量的联合效应 联合效应与总平方和的比值定义为R2 其平方根R反映了这两个自变量合起来与因变量之间的关系强度,2008年8月,双因子方差分析(关系强度的测量),例题分析 品牌因子和地区因子合起来总共解释了销售量差异的83.94% 其他因子(残差变量)只解释了销售量差异的16.06% R=0.

24、9162,表明品牌和地区两个因子合起来与销售量之间有较强的关系,二、 考虑交互作用,第三节 双因子方差分析,2008年8月,可重复双因子分析(提出假设),提出假设 对行因子提出的假设为 H0:m1 = m2 = = mi = = mk (mi为第i个水平的均值) H1:mi (i =1,2, , k) 不全相等 对列因子提出的假设为 H0: m1 = m2 = = mj = = mr (mj为第j个水平的均值) H1: mj (j =1,2,r) 不全相等 对交互作用的假设为 H0:无交互作用 H1: 有交互作用,2008年8月,可重复双因子分析(平方和的计算),总平方和: 行变量平方和: 列

25、变量平方和: 交互作用平方和: 误差项平方和:,SST=SS行+SS列+SS交互+SS残差,2008年8月,可重复双因子分析(构造检验统计量),检验行因子的统计量 检验列因子的统计量 检验交互作用的统计量,计算出统计量的P值,若P,拒绝原假设,2008年8月,可重复双因子分析(例题分析),【例】检验超市位置、竞争者数量及其交互作用对销售额是否有显著影响(=0.05),一元多因素方差分析,例: 某商家有如下的数据,研究这个问题的主要目的是看销售额是否受到促销方式、售后服务和奖金这三个自变量的影响,以及怎样的影响。 Dependent variable因变量:销售额 Factor因素:促销方式、售

26、后服务 Covariate协变量:奖金 数据文件:Sales.sav,73,74,一元多因素方差分析,当有两个或两个以上因素,进行方差分析时,不仅要考虑每个因素的主效应,往往还要考虑因素与因素之间的交互效应。 主效应就是每个因素对因变量的单独影响, 而交互效应是当两个或更多的因素的某些水平同时出现时除了主效应之外的附加影响。,75,只考虑主效应的方差分析,首先假定自变量受到的仅仅有不同因素的主效应(main effect)而没有交互效应(interaction)和协变量的影响。 即: 因变量=因素A主效应+因素B的主效应 +随机误差项 销售额=促销方式+售后服务+随机误差项,76,只考虑主效应

27、的方差分析,以我们例子来说,当只考虑主效应时,假定主动促销比被动促销可以多产生8万元效益,而有售后服务比没有售后服务多产生9万元效益。那么在没有交互作用时,同时采取主动促销和售后服务会产生8917万元的效益(称为可加的)。 但如果存在交互效应,那么同时采取主动促销和售后服务会产生一个附加的效应即交互效应(一般来说也可能是正面的,也可能是负面的),这时的总效应就不是17万元了。,77,没有交互作用的模型可以从下面点图中直观看出。图中下面一条折线连接了没有售后服务时三种促销状况的销售均值,而上面一条连接了有售后服务时三种促销状况的销售均值。由于模型选择为无交互作用,所以这两条线是平行的。从该图可以看出,两个因子效应综合效应是简单的加法。,78,考虑交互效应的方差分析,考虑交互效应的方差分析为: 因变量=因素A主效应+因素B的主效应 +因素A与B的交互效应+随机误差 即: 销售额=促销方式+售后服务 +促销方式与售后服务的交互效应 + 随机误差项,79,考虑协变量的多因素方差分析,在进行方差分析时,要求控制变量(因素)是可控的, 但实际中,有些因素的不同水平很难人为控制,但他们确确实实对观测变量产生显著的影响。 在方差分析中如果忽略这些因素的存在,而单单去分析其他因素

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论