《应用统计学》第八章_第1页
《应用统计学》第八章_第2页
《应用统计学》第八章_第3页
《应用统计学》第八章_第4页
《应用统计学》第八章_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章方差分析引导案例

哪种促销方式效果最好?某连锁超市为了研究不同促销手段对商品销售额的影响,选择了某类日常生活用品,在其下属的5个门店分别采用某种促销方式各进行了为期4个月的试验。试验前,该类商品在这5个门店的月销售额基本处于同一水平,试验结果如表8-1所示。

其中,“通常销售”是指不采用任何促销手段,“广告宣传”是指没有价格优惠的单纯广告促销,“买一送一”是指买一件商品送另一件小商品。现该公司管理部门希望了解的是:不同的促销方式是否对该类商品销售额的增长有显著影响?若有显著影响,哪种促销方式效果最好?是否任意两种促销方式的效果之间都存在显著差异?要想解决上述问题,可以借助方差分析及多重比较方法。第一节方差分析概述第二节单因素方差分析第三节双因素方差分析第一节方差分析概述第二节单因素方差分析第三节双因素方差分析一、方差分析中的相关术语表面上看,方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型因变量的影响,如变量之间有没有关系、关系的强度如何等。方差分析就是通过检验各总体的均值是否相等,来判断分类型自变量对数值型因变量是否有显著影响。为了更好地理解方差分析,先通过一个例子来说明方差分析的有关概念及方差分析所要解决的问题。在方差分析中,所要检验的对象称为因素或因子;因素的不同表现称为水平或处理;每个因子水平下得到的样本数据称为观测值。例8-1中,“颜色”是要检验的对象,称为因素或因子;黄色、红色、绿色、白色是“颜色”这一因素的具体表现,称为水平或处理;在每个颜色下得到的样本数据(销售量)称为观测值。由于只涉及一个因素,因此称为单因素方差分析。单因素方差分析中,只涉及两个变量:一个是分类型自变量,一个是数值型因变量。例8-1中,“颜色”是分类型自变量,黄色、红色、绿色、白色是“颜色”这个自变量的具体取值;“销售量”是数值型因变量,不同的销售量就是因变量的取值。图形描述(一)怎样判断颜色对运动衫的销售量是否有显著影响?或者说,颜色与运动衫销售量之间是否有显著的关系?我们画出它们的散点图,如图8-1所示,图中的那条折线是由各颜色销售量的均值连接而成的。二、方差分析的基本原理从图8-1可以看出,不同颜色运动衫的销售量是有差异的,而且即使是同一种颜色,在不同超市的销售量也是有差异的。其中,红色运动衫的销售量最多,绿色运动衫的销售量最少。如果颜色对销售量没有影响,那么各种颜色运动衫的销售量的均值应该是差不多相同的,在散点图上也应该比较接近。但通过散点图,我们还是没有足够的证据去证实各种颜色运动衫的销售量的差异是否达到了统计学上的显著水平,所以我们需要一种更精准的方法去推断,也就是方差分析。误差分解(二)方差分析认为观测值之间存在差异,差异产生的来源有两个方面:一个方面是由因素中不同水平造成的,如运动衫的不同颜色带来的不同销售量,我们称之为系统误差;另一个方面是由于抽选样本的随机性而产生的差异,如相同颜色的运动衫在不同商场的销售量也不同,我们称之为随机误差。在计算误差时,我们可以用两个方差来计量,即组间方差和组内方差。组间方差即水平之间的方差,既包括系统误差,又包括随机误差;组内方差即水平内部的方差,仅包括随机误差。如果不同水平对结果没有影响,如运动衫的颜色对销售量不产生影响,那么组间方差就只包括随机误差,而不包括系统误差,它与组内方差应该近似,两个方差的比值会接近1。反之,如果不同水平对结果产生影响,组间方差中就不仅包括系统误差,还包括随机误差。这时,组间方差就比组内方差大,两个方差的比值就会显著地大于1,当这个比值大到某个程度,就可以判断不同水平之间存在着显著的差异。因此,方差分析就是通过不同方差的比较,作出拒绝或不拒绝原假设的判断。第一节方差分析概述第二节单因素方差分析第三节双因素方差分析一、数据结构进行单因素方差分析时,需要得到下面的数据结构,如表8-3所示。在单因素方差分析中,用A表示因素,因素的k个水平分别用表示,每个观测值用(,)表示,即表示第个水平的第个观测值。其中,从不同水平中所抽取的样本量可以相等,也可以不相等。二、分析步骤在方差分析中,尽管不知道个总体的均值是否相等,但可以用样本数据来检验它们是否相等。原假设描述的是不同类别的观测值的均值是相等的,因此,检验因素的个水平的均值是否相等,需要针对总体提出以下原假设和备择假设: 自变量对因变量没有显著影响不全相等 自变量对因变量有显著影响式中,为第个总体的均值。如果不拒绝原假设,则没有证据表明自变量对因变量有显著影响。如果拒绝原假设,意味着自变量对因变量有显著影响;此时,只是表明至少有两个总体均值不相等,并不意味着所有的均值都不相等。提出假设(一)根据例8-1提出的假设如下: 颜色对销售量没有显著影响不全相等 颜色对销售量有显著影响假定从第j个总体中抽取一个容量为的简单随机样本,令为第j个总体的样本均值,则有:

(8-1)式中,为第j个总体的样本量;为第j个总体的第i个观测值。样本均值可以用Excel中的AVERAGE函数计算,将表8-2中的数据输入Excel,如图8-2所示。B8=AVERAGE(B3:B7),可算出。构造检验统计量(二)计算各样本的均值1总均值是全部观测值的总和除以观测值的总个数。令总均值为,则有:

(8-2)式中,。总均值也可用Excel中的AVERAGE函数计算,B10=AVERAGE(B3:E7),即。计算全部观测值的总均值2为构造检验统计量,在方差分析中,需要计算三个误差平方和,即总平方和、组间平方和与组内平方和。总平方和记为SST,它是全部观测值与总平均值的误差平方和,其计算公式为:

(8-3)SST可用Excel中的DEVSQ函数实现,B11=DEVSQ(B3:E7),即可算出总平方和为=464.95,它反映了全部25个观测值与总均值之间的差异。组间平方和记为SSA,它是各组平均值与总均值的误差平方和,反映各样本均值之间的差异程度,又称为回归平方和。其计算公式为:(8-4)计算各种误差平方和3SSA也称为自变量效应或因子效应。SSA可以用Excel计算,具体步骤如下:①B12=B9*(B8-$B10)^2;②选中B12,将鼠标放在右下角,出现“+”时,向右拉至E12处;③F12=SUM(B12:E12),可算出SSA=218.95,它反映了自变量(颜色)对因变量(销售量)的影响,包括了系统误差和随机误差。组内平方和记为SSE,它是每个水平或组的各样本数据与其组平均值误差的平方和,反映了每个样本各观测值的离散状况,因此又称为残差平方和。SSE反映了随机误差的大小,其计算公式为:(8-5)在图8-2中,先求出每个颜色的销售量与其平均数的误差平方和,然后将四种颜色的误差平方和加总,即为组内平方和。SSE也称为残差效应,可用DEVSQ函数实现,具体步骤如下:①B13=DEVSQ(B3:B7)=85.2;②选中B13,鼠标放在右下角,出现“+”时,向右拉至E13处;③F13=SUM(B13:E13),就求出=246。它反映了除了自变量对因变量的影响之外,其他因素对因变量的总影响。上述三个平方和之间的关系为:

(8-6)即总平方和(SST)=组间平方和(SSA)+组内平方和(SSE),从上面的计算结果也可以验证这一点:。可见,SST是全部数据总误差程度的度量,它反映了自变量和残差的共同影响,等于自变量效应加残差效应。由于误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以它们所对应的自由度,这一结果称为方差,也称为均方。三个平方和对应的自由度分别为:SST的自由度为,其中,n为全部观测值的个数;SSA的自由度为,其中,k为因素水平(总体)的个数;SSE的自由度为。由于要比较的是组间方差和组内方差之间的差异,所以通常只计算SSA和SSE的均方,分别计为MSA和MSE,其计算公式为:

(8-7)(8-8)计算统计量4从表8-2可知,,。将上述MSA和MSE进行对比,即得到所需要的检验统计量F。当原假设为真时,二者的比值服从分子自由度为、分母自由度为的F分布,即~(8-9)例如,根据图8-2,。综上所述,根据图8-2中的数据构造的检验统计量如图8-3所示。如果原假设成立,则表明没有系统误差,组间方差MSA和组内方差MSE的比值差异就不会太大;如果组间方差显著大于组内方差,说明各水平(总体)之间的差异不仅仅是随机误差造成的,还有系统误差。可见,判断因素水平是否对其观测值有显著影响,实际上也就是比较组间方差与组内方差之间差异的大小。那么,它们之间的差异大到何种程度,才表明有系统误差存在呢?这就需要用检验统计量进行判断,将统计量的值F与给定的显著性水平a的临界值进行比较,从而作出对原假设的决策。统计决策(三)根据给定的显著性水平a和分子自由度为、分母自由度为,用FINV函数可以求出相应的临界值。若,则拒绝,表明之间的差异是显著的。也就是说,所检验的因素(颜色)对观测值(销售量)有显著影响。若,则不拒绝,表明之间的差异不显著。也就是说,所检验的因素(颜色)对观测值(销售量)没有显著影响。根据上面的计算结果,用FINV函数求出临界值。由于,则拒绝,表明不同颜色的销售量均值是有显著差异的,也就是说,颜色对销售量是有显著影响的。三、方差分析表上面介绍了方差分析的计算步骤和过程,为了使计算过程更加清晰,通常将上述过程的内容列在一张表内,这就是方差分析表。其一般形式如表8-4所示。四、用Excel工具进行方差分析上述列表进行方差分析的过程对于帮助我们理解方差分析的基本原理是很有帮助的,但实际运用中,我们可以直接利用Excel软件中的数据分析工具实现,操作步骤如下:(1)选择“数据”→“数据分析”→“方差分析:单因素方差分析”菜单命令,打开“单因素方差分析”对话框,如图8-4所示。(2)选定输入区域(图8-2中的输入区域为B3:E7);水平采用系统默认值0.05(也可根据需要确定);在“输出选项”中选择“新工作表组”单选按钮,然后单击“确定”按钮,系统即输出运行结果,如图8-5所示。五、关系强度的测量图8-5的方差分析结果显示,不同颜色的运动衫销售量是有显著差异的,这意味着颜色(自变量)与销售量(因变量)之间的关系是显著的。组间平方和度量了自变量对因变量的影响效应,实际上,只要组间平方和不为零,就表明两个变量之间有关系。当组间平方和比组内平方和大,而且大到一定程度,意味着两个变量之间的关系显著,大得越多,表明它们之间的关系越强;反之,当组间平方和比组内平方和小时,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系越弱。所以,我们可以用组间平方和(SSA)占总平方和(SST)的比例大小来反映变量之间的关系强度,这一比例记为,即

(8-10)例如,根据图8-5中的结果计算得

这表明,颜色(自变量)对销售量(因变量)的影响效应占总效应的47.0911%,而残差效应则占了52.9089%。也就是说,颜色对销售量的差异解释比例达到47.0911%,而其他因素(残差变量)所解释的比例为52.9089%。尽管并不高,但颜色对销售量的影响已经达到了统计上的显著程度。的平方根可以用来测量自变量与因变量之间的关系强度。例如,根据上述结果可计算出,这表明颜色与销售量之间有中等以上的相关关系。六、方差分析中的多重比较通过对例8-1的分析,可得出以下结论:不同颜色的运动衫销售量的均值不完全相同。但究竟是哪些颜色的销售量均值之间不相等,还需要进行进一步分析,所使用的方法就是多重比较方法,它是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。多重比较方法有许多种,这里介绍由费希尔提出的最小显著差异方法,缩写为LSD。采用该方法进行检验的具体步骤如下:(1)提出假设:,。(2)计算检验统计量:。(3)计算LSD,其公式为:

(8-11)式中,可以通过TINV函数获得,为其自由度。MSE为组内方差;和分别是第个样本和第个样本的样本量。(4)根据显著性水平a作出决策。如果,则拒绝;如果,则不拒绝。第一节方差分析概述第二节单因素方差分析第三节双因素方差分析一、双因素方差分析的类型在实际问题的研究中,影响因素可能不止一个。例如,分析影响空调销售量的因素时,需要考虑许多因素,包括价格、质量、品牌、销售地区等。当方差分析中涉及两个分类型自变量时,称为双因素方差分析。如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为无交互作用的双因素方差分析或无重复双因素方差分析。如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析。二、无交互作用的双因素方差分析数据结构(一)在无交互作用的双因素方差分析中,由于有两个因素,在获取数据时,需要将一个因素安排在“行”的位置,称为行因素;另一个因素安排在“列”的位置,称为列因素。设行因素有k个水平:行1,行2,…,行k;列因素有r个水平:列1,列2,…,列r。行因素和列因素的每一个水平都可以搭配成一个样本,观察它们对试验数据的影响,共抽取个观察数据,其数据结构如表8-5所示。表8-5中,是行因素的第i个水平下各观察值的平均值,其计算公式为:

(=1,2,…,k)(8-12)是列因素的第j个水平下各观察值的平均值,其计算公式为:

(=1,2,…,r)(8-13)是全部kr个样本数据的总平均值,其计算公式为:

(8-14)检验统计量的构造(二)为了使检验统计量的构造过程更加清晰,将其列成方差分析表,其一般形式如表8-6所示。SST为总平方和,是全部样本观察值(=1,2,…,;=1,2,…,)与总的样本平均值的误差平方和,即

(8-15)其中,分解后的等式右边第一项是行因素所产生的误差平方和,记为SSR,即

(8-16)第二项是列因素所产生的误差平方和,记为SSC,即(8-17)第三项是除行因素和列因素之外的剩余因素影响产生的误差平方和,称为随机误差平方和,记为SSE,即

(8-18)上述平方和的关系为:

(8-19)在误差平方和的基础上,计算方差。也就是将各平方和除以相应的自由度,即为方差或均方。行因素的方差,记为MSR;列因素的方差,记为MSC;随机误差项的方差,记为MSE。其计算公式如下:

其计算公式如下:

(8-20)

(8-21)

(8-22)为检验行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论