第章方差分析(现)课件_第1页
第章方差分析(现)课件_第2页
第章方差分析(现)课件_第3页
第章方差分析(现)课件_第4页
第章方差分析(现)课件_第5页
已阅读5页,还剩173页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章方差分析PowerPoint统计学第9章方差分析PowerPoint统计学1主要内容一、方差分析及其有关术语二、方差分析的基本思想和原理三、单因素方差分析四、双因素方差分析主要内容一、方差分析及其有关术语29.1方差分析概述9.1方差分析概述39.1.1什么是方差分析1.检验多个总体均值是否相等的统计方法,称为方差分析。研究分类型变量与数值型变量之间有无关系、关系的强度。方法:通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著的影响。2.有单因素方差分析和双因素方差分析单因素方差分析:只涉及一个分类型自变量对数值型因变量的影响;双因素方差分析:涉及两个分类型自变量对数值型因变量的影响9.1.1什么是方差分析1.检验多个总体均值是否相等的统4消费者对四个行业的投诉次数行业观测值零售业旅游业航空公司家电制造业12345675766494034534468392945565131492134404451657758【例】为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了不同的企业作为样本。据统计,最近一年中消费者对总共23家企业投诉的次数如下表消费者对四个行业的投诉次数行业观测值零售业旅游业航空公司家5

分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响一般而言,如果它们的均值相等,就意味着它们之间的服务质量没有显著差异;如果均值不全相等,则意味着它们之间的服务质量有显著差异要分析四个行业的服务质量是否有显著差异,可以归结为检验这四个行业被投诉次数的均值是否相等。

分析四个行业之间的服务质量是否有显著差异,也就是要判断“行69.1.2方差分析的有关术语

1.因素或因子在方差分析中,所要检验的对象称为因素或因子;上例中,要分析行业对投诉次数是否有影响,行业是所要检验的对象——因素或因子。2.水平或处理因素的不同表现称为水平或处理;零售业、旅游业、航空公司、家电制造业是“行业”这一因素的具体表现,称为水平或处理。本例有四个水平。9.1.2方差分析的有关术语1.因素或因子73.观测值每个水平下的样本数据称为观测值。本例不同行业的投诉次数就是观测值

。4.总体因素的每一个水平可以看做是一个总体。如零售业、旅游业等。5.样本数据调查得到的数据可以看做从总体中抽取的样本数据。本例各行业的被投诉次数即为样本数据。

3.观测值8本例是只涉及一个分类型自变量——行业和数值型因变量——被投诉次数,故是单因素方差分析;是要研究“行业”对“投诉次数”的影响。零售业、旅游业、航空公司、家电制造业是“行业”这一分类型自变量的具体取值,“投诉次数”是因变量,它是一个数值型变量,不同的投诉次数就是因变量的具体取值。本例是只涉及一个分类型自变量——行业和数值型因变量——被投诉99.1.3方差分析的基本思想和原理9.1.3方差分析的基本思想和原理10图形分析零售业旅游业航空公司家电制造图形分析零售业旅游业11从散点图上可以看出不同行业被投诉的次数是有明显差异的即使是在同一个行业,不同企业被投诉的次数也明显不同家电制造业被投诉的次数较高,航空公司被投诉的次数较低行业与被投诉次数之间有一定的关系如果行业与被投诉次数之间没有关系,那么它们被投诉的次数应该差不多相同,在散点图上所呈现的模式也就应该很接近从散点图上可以看出12仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异,因为这种差异也可能是由于抽样的随机性所造成的。需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析。

因为我们感兴趣的是均值,但在判断均值之间是否有差异时需借助于方差,所以叫方差分析。这个名字也表示:它是通过对数据误差来源的分析,来判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源。

仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数13关于误差随机误差因素的同一水平(总体)下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数是不同的这种差异可以看成是随机因素的影响,称为随机误差

系统误差因素的不同水平(不同总体)下,各观察值之间的差异。比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差关于误差随机误差14

组内方差因素的同一水平(同一个总体)下样本数据的方差比如,零售业被投诉次数的方差组内方差只包含随机误差组间方差因素的不同水平(不同总体)下各样本之间的方差比如,四个行业被投诉次数之间的方差组间方差既包括随机误差,也包括系统误差反映误差的指标——方差

组内方差反映误差的指标——方差15

若不同行业对投诉次数没有影响,则组间方差中只包含随机误差,没有系统误差。这时,组间方差与组内方差的比值就会接近1若不同行业对投诉次数有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时它们之间的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响关于两个方差的比值

若不同行业对投诉次数没有影响,则组间方差中只包含随机误差,16判断行业对被投诉次数是否有显著影响,实际上是检验被投诉次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,则说明不同行业对被投诉次数有显著影响。判断行业对被投诉次数是否有显著影响,实际上是检验被投诉次数的179.1.4方差分析的基本假定1.每个总体都服从正态分布。2.各个总体的方差必须相同。3.观测值是独立的。在上述假定下,要分析自变量对因变量是否有影响,实际上就是要检验自变量的各个水平的均值是否相等。尽管我们不知道4个总体的均值,但可以用样本数据来检验它们是否相等。如果4个总体的均值相等,可以期望4个样本均值也非常接近。9.1.4方差分析的基本假定1.每个总体都服从正态分布189.2单因素方差分析9.2单因素方差分析19要点:一、数据结构二、分析步骤三、关系强度四、Excel的应用要点:一、数据结构209.2.1单因素方差分析的数据结构观察值(j)因素(A

i)

水平A1水平A2

…水平Ak12::n

x11x21…xk1x12x22…xk2::::::::x1n

x2n…xkn9.2.1单因素方差分析的数据结构观察值(j)因素(219.2.2单因素方差分析1.提出假设2.计算均值误差平方和方差3.构造并计算检验统计量4.统计决策

9.2.2单因素方差分析1.提出假设221.提出假设一般提法H0:m1=m2=…=

mk自变量对因变量没有显著影响

H1:m1,m2,…,mk不全相等自变量对因变量有显著影响

注意:拒绝原假设,并不意味着所有的均值都不相等1.提出假设一般提法232.计算均值:各水平的均值、全部观察值的均值误差平方和:总误差平方和SST、水平项平方和SSA、误差项平方和SSE均方(方差):总方差、组间方差、组内方差2.计算均值:各水平的均值、全部观察值的均值24各水平均值的计算公式为

全部观察值的总均值计算均值各水平均值的计算公式为全部观察值的总均值计算均值25计算平方和方差组内SSEMSE组间(水平)SSAMSA总SSTMST计算平方和方差组内SSEMSE组间(水平)SSAMSA总SS26总误差平方和SST全部观察值与总平均值的离差平方和反映全部观察值的离散状况其计算公式为总误差平方和SST全部观察值与总平均值的27水平项平方和SSA各组(水平)平均值与总平均值的离差平方和反映各组的样本均值之间的差异程度,又称组间平方和该平方和既包括随机误差,也包括系统误差计算公式为水平项平方和SSA各组(水平)平均值28误差项平方和SSE各组数据与其组平均值的离差平方和反映样本中观察值的离散状况,又称组内平方和该平方和反映的是随机误差的大小计算公式为误差项平方和SSE各组数据与其组平均值的离差平方和29三个平方和的关系总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和(SSA)之间的关系SST=SSA+SSE三个平方和的关系总离差平方和(SST)、误差项离差平方和(S30方差MS各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差计算方法是用误差平方和除以相应的自由度三个平方和对应的自由度分别是SST

的自由度为n-1,n为全部观察值的个数SSA的自由度为k-1,k为因素水平(总体)的个数SSE的自由度为n-k方差MS各误差平方和的大小与观察值的多少有关,为消除观察值多31计算方差组间方差MSA

:组内方差MSE

:计算方差计算方差组间方差MSA:组内方差MSE:计算方差323.构造检验的统计量将MSA和MSE进行对比,即得到检验统计量F当H0为真时,F服从分子自由度(第一自由度)为k-1、分母自由度(第二自由度)为n-k的F分布。3.构造检验的统计量将MSA和MSE进行对比,即得到检验统计33F分布与拒绝域如果均值相等,F=MSA/MSE1a

F分布F(k-1,n-k)0拒绝H0不拒绝H0FF分布与拒绝域如果均值相等,F=MSA/MSE1aF344.统计决策

根据给定的显著性水平,在F分布表中查找与第一自由度(分子自由度)df1=k-1、第二自由度(分子自由度)df2=n-k

相应的临界值F

若F>F,则拒绝H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响若F<F,则不拒绝H0,不能认为所检验的因素对观察值有显著影响4.统计决策根据给定的显著性水平,在F分布表中查找与第一35例题分析消费者对四个行业的投诉次数行业观测值零售业旅游业航空公司家电制造业12345675766494034534468392945565131492134404451657758【例】为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了不同的企业作为样本。据统计,最近一年中消费者对总共23家企业投诉的次数如下表例题分析消费者对四个行业的投诉次数行业观测值零售业旅游业航361.提出假设:原假设H0:μ1=μ2=μ3=μ4

即:四个行业被投诉的次数相等,行业对被投诉次数没有影响。备择假设H1:μi不完全相等

即:四个行业的被投诉次数不完全相等,行业对被投诉次数有影响。观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值1.提出假设:观测值行业零售业旅游业航空公司家电制造业157372.计算均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值2.计算均值观测值行业零售业旅游业航空公司家电制造业157638计算误差平方和(260-261页)

总误差平方和=4146.608696水平项平方和(组间平方和)

=7*(49-47.869565)2+6*(48-47.869565)2+5*(35-47.869565)2+5*(59-47.869565)2=1456.608695误差项平方和(组内平方和)SSE先求出每个行业被投诉次数与其平均值的误差平方和,然后将其加总,即为SSE:零售业:=(57-49)2+(66-49)2+(49-49)2+……+(44-49)2=700旅游业:=(68-48)2+(39-48)2+(29-48)2+……+(51-48)2=924航空公司:=(31-35)2+(49-35)2+(21-35)2+……+(40-35)2=434家电制造业:=(44-59)2+(51-59)2+(65-59)2+……+(58-59)2=650加总得:=700+924+434+650=2708计算误差平方和(260-261页)总误差平方和39三个平方和的关系

4164.608696=1456.608696+2708SST=SSA+SSE三个平方和的关系SST=SSA+SSE40计算方差(均方)组间方差MSA=

组内方差MSE=计算方差(均方)组间方差组内方差MSE41F=3.构造并计算检验统计量FF=3.构造并计算检验统计量F424.统计决策设显著性水平为0.05,根据分子自由度df1=k-1=4-1=3和分母自由度df2=n-k=23-4=19,查F分布表得到临界值F0.05(3,19)=3.13,由于F=3.406643大于F0.05

=3.13,故拒绝H0,即可以认为行业对投诉次数有显著的影响,不同行业的服务质量有显著差异。4.统计决策设显著性水平为0.05,43

为了使计算过程更加清晰,通常将上述过程的内容列在一张表上,这就是方差分析表,其一般形式如:

为了使计算过程更加清晰,通常将上述过程的内容列在一张表上,44误差来源平方和SS自由度df均方MSF值P值F临界值组间(因素影响)SSAk-1MSAMSA/MSE

组内(误差)SSEn-kMSE

总和SSTn-1

误差来源平方和SS自由度df方差MSF值P值F临界值组间(因素影响)1456.6086963485.5362323.4066430.03876453.1273544组内(误差)270819142.526316

总和4164.60869622

误差来源平方和自由度均方F值P值F临界值组间(因素影响)SS459.2.3关系强度的测量9.2.3关系强度的测量46拒绝原假设表明因素(自变量)与观测值之间有关系组间平方和(SSA)度量了自变量(行业)对因变量(投诉次数)的影响效应当组间平方和比组内平方和(SSE)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明这它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱拒绝原假设表明因素(自变量)与观测值之间有关系47关系强度的测量

变量间关系的强度用组间平方和(SSA)占总平方和(SST)的比例大小来反映自变量平方和占总平方和的比例记为R2,即其平方根R可以用来测量两个变量之间的关系强度关系强度的测量变量间关系的强度用组间平方和(SSA)占总48例题分析

R=0.591404结论:行业(自变量)对投诉次数(因变量)的影响效应占总效应的34.9759%,而残差效应则占65.0241%。即行业对投诉次数差异解释的比例达到近35%,而其他因素(残差变量)所解释的比例近为65%以上

R=0.591404,表明行业与投诉次数之间有中等以上的关系

例题分析499.2.4Excel的应用1.列出数据结构表;2.工具-数据分析-单因素方差分析-确定;3.在“数据区域”中引用数据结构表中的数据(各水平的纵标目和数值)等;4.根据输出结果做出统计决策。9.2.4Excel的应用50Excel输出结果Excel输出结果51用P值做统计决策在统计决策时,可以直接利用方差分析表中的P值做统计决策:若P≺α,则拒绝原假设在本例中,P=0.038765,小于0.05,所以拒绝原假设,即行业对投诉次数的影响是显著的。

用P值做统计决策在统计决策时,可以直接利用方差分析表中的P值529.2.5方差分析中的多重比较比较检验到底哪些均值之间存在差异可采用最小显著差异方法,简写为LSD9.2.5方差分析中的多重比较比较检验到底哪些均值之间存在差53多重比较的步骤1.提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mi

mj(第i个总体的均值不等于第j个总体的均值)2.计算检验的统计量:3.计算LSD4.决策:若,拒绝H0;若

,不拒绝H0多重比较的步骤1.提出假设54多重比较例题分析1.提出假设检验1:检验2:检验3:检验4:检验5:检验6:多重比较例题分析1.提出假设55多重比较例题分析2.计算检验统计量检验1:检验2:检验3:检验4:检验5:检验6:多重比较例题分析2.计算检验统计量56多重比较例题分析3.计算LSD检验1:检验2:检验3:检验4:检验5:检验6:多重比较例题分析3.计算LSD57多重比较例题分析4.作出决策零售业与旅游业均值之间没有显著差异

零售业与航空公司均值之间有显著差异零售业与家电业均值之间没有显著差异旅游业与航空业均值之间没有显著差异旅游业与家电业均值之间没有显著差异航空业与家电业均值有显著差异多重比较例题分析4.作出决策零售业与旅游业均值之间没有显著差589.3

双因素方差分析

双因素方差分析及其类型无交互作用的双因素方差分析有交互作用的双因素方差分析9.3双因素方差分析

双因素方差分析及其类型599.3.1什么是双因素方差分析9.3.1什么是双因素方差分析60什么是双因素方差分析单因素方差分析只考虑一个分类型自变量对一个数值型因变量的影响。研究两个分类型自变量对一个数值型因变量影响的分析就是双因素方差分析。例如,分析彩电销售量与品牌、销售地区或与价格、质量等因素的影响。什么是双因素方差分析单因素方差分析只考虑一个分类型自变量对一61例有四个品牌的电视机在5个地区销售,为了解彩电的品牌和销售地区对销售量是否有影响,对每种品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响。(α=0.05)例有四个品牌的电视机在5个地区销售,为了解彩电的品牌和销售62不同地区各品牌电视机销售量

地区1地区2地区3地区4地区5品牌1365350343340323品牌2345368363330333品牌3358323353343308品牌4288280298260298不同地区各品牌电视机销售量地区1地区2地区3地区4地区5品639.3.2双因素方差分析的类型1.无交互作用的双因素方差分析若两个分类型自变量因素对一个数值型因变量的影响是相互独立的,称为无交互作用的或无重复双因素方差分析;2.有交互作用的双因素方差分析除了两个分类型自变量因素对一个数值型因变量的有影响外,两个因素搭配还会对因变量产生一种新的影响效应,例如,某个地区对某种品牌的彩电有特殊的偏好,这就是两个因素结合后产生的新效应,这时的双因素分析称为有交互作用的或重复双因素方差分析。

9.3.2双因素方差分析的类型1.无交互作用的双因素方649.3.3无交互作用的双因素方差分析9.3.3无交互作用的双因素方差分析65

地区1地区2地区3地区4地区5品牌1365350343340323品牌2345368363330333品牌3358323353343308品牌4288280298260298双因素方差分析的数据结构地区1地区2地区3地区4地区5品牌13653503433466分析步骤

1.提出假设

2.计算误差平方和、方差3.计算检验统计量4.统计决策分析步骤1.提出假设67例题分析1.提出假设:行因素(品牌)H0:μ1=μ2=μ3=μ4……=μn

品牌对销售量没有影响H1:μi不完全相等

品牌对销售量有显著影响列因素(地区)

H0:μ1=μ2=μ3=μ4…=

μn

地区对销售量没有影响

H1:μi不完全相等

地区对销售量有显著影响例题分析1.提出假设:682.计算均值、误差平方和、方差计算机计算结果如下:2.计算均值、误差平方和、方差计算机计算结果如下:69第章方差分析(现)课件703.计算检验统计量行因素的检验统计量

列因素的检验统计量用Excel计算的结果如下:3.计算检验统计量行因素的检验统计量71第章方差分析(现)课件724.统计决策从计算表中看出FR≻Fα,即18.1≻3.4903所以拒绝原假设,说明品牌对销售量有显著的影响

Fc≺Fα,即2.1≺3.259160,所以接受原假设,说明地区对销售量没有显著影响用P值进行分析,结论相同。4.统计决策从计算表中看出73关于强度的测定上面的分析结果表明,品牌对销售量有显著的影响,而地区对销售量之间的关系是不显著的,那么,这两个因素合起来与销售量之间的关系强度如何呢?计算联合效应与总平方和的比值R2,其平方根则反映了这两个自变量和起来与因变量之间的关系强度,即:

关于强度的测定上面的分析结果表明,品牌对销售量有显著的影响,74计算结果表明,品牌和地区因素和起来总共解释了销售量差异的83.94%,其它因素(残差变量)只解释了销售量差异的16.06%。R=0.9162则表明品牌和地区两个因素和起来与销售量之间有较强的关系。

计算结果表明,品牌和地区因素和起来总共解释了销售量差异的83759.3.4有交互作用的双因素方差分析

(可重复双因素分析)9.3.4有交互作用的双因素方差分析

(可重复双因素分析76例题分析

城市道路交通管理部门为研究不同的路段和不同的时间段对行车时间的影响,让一名交通警察分别在两个路段和高峰期与非高峰期亲自驾车进行试验,通过试验共获得20个行车时间(分钟)的数据。试分析路段、时段以及路段和时段的交互作用对行车时间的影响。调查资料和方差分析数据结构表如下:例题分析

城市道路交通管理部门为研究不同的路段和不同的时间段77第章方差分析(现)课件78可重复双因素分析的平方和的计算总平方和:行变量平方和:列变量平方和:交互作用平方和:误差项平方和:可重复双因素分析的平方和的计算总平方和:79Excel计算结果如下:Excel计算结果如下:80第章方差分析(现)课件81统计决策时段(行)因素FR=44.06329>

=4.493998,拒绝原假设路段(列)因素

FC=23.40506>

=4.493998,拒绝原假设两因素的交互作用

FRC=0.012658<

=4.493998,接受原假设

结论:在显著性水平0.05下,时段和路段都对行车时间有显著的影响,但两者的配合对行车时间无显著作用,即时段和路段无交互作用。

统计决策时段(行)因素FR=44.06329>=4.49382用P值决策表中的“样本”(行因素)的P=5.7E-06≺0.05,用于检验行因素“时段”,拒绝原假设,表明不同时段的行车时间之间有显著差异“路段”(行因素)的P=0.000182≺

0.05,同样拒绝原假设,表明不同路段的行车时间之间有显著差异“交互”的P=0.911819

≻0.05,因此接受原假设,表明路段和时段的交互作用对行车时间没有显著的影响。用P值决策表中的“样本”(行因素)的P=5.7E-06≺0.83主要内容及要点一、方差分析的含义及其有关术语

因素或因子、水平或处理、观测值二、方差分析的基本思想和原理随机误差、系统误差;组内方差、组间方差三、单因素方差分析四、双因素方差分析无交互作用、有无交互作用五、Excel计算结果的意义主要内容及要点一、方差分析的含义及其有关术语84课堂练习1.某家电制造公司准备购进一批5号电池,现有A、B、C三个电池生产厂家愿意供货,为比较它们生产的电池的质量,从每个企业各随机抽取5只电池,经过试验得其寿命(小时)如下:试分析三个企业生产的电池的平均寿命之间有无显著差异(取显著性水平=0.05);写出计算机计算结果各数值的意义。

课堂练习85第章方差分析(现)课件862.为研究食品的包装和销售地区对其销售量是否有影响,某周在3个不同地区中用3种不同包装方法进行销售,获得的销售量资料如下。

检验不同的地区和不同的包装方法对该食品的销售量是否有显著的影响(显著性水平0.05);写出计算机相关计算结果的意义。2.为研究食品的包装和销售地区对其销售量是否有影响,某周在387销售地区包装方法B1B2B3A1457530A2505040A3356550销售地区包装方法B1B2B3A1457530A288结束结束89第9章方差分析PowerPoint统计学第9章方差分析PowerPoint统计学90主要内容一、方差分析及其有关术语二、方差分析的基本思想和原理三、单因素方差分析四、双因素方差分析主要内容一、方差分析及其有关术语919.1方差分析概述9.1方差分析概述929.1.1什么是方差分析1.检验多个总体均值是否相等的统计方法,称为方差分析。研究分类型变量与数值型变量之间有无关系、关系的强度。方法:通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著的影响。2.有单因素方差分析和双因素方差分析单因素方差分析:只涉及一个分类型自变量对数值型因变量的影响;双因素方差分析:涉及两个分类型自变量对数值型因变量的影响9.1.1什么是方差分析1.检验多个总体均值是否相等的统93消费者对四个行业的投诉次数行业观测值零售业旅游业航空公司家电制造业12345675766494034534468392945565131492134404451657758【例】为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了不同的企业作为样本。据统计,最近一年中消费者对总共23家企业投诉的次数如下表消费者对四个行业的投诉次数行业观测值零售业旅游业航空公司家94

分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响一般而言,如果它们的均值相等,就意味着它们之间的服务质量没有显著差异;如果均值不全相等,则意味着它们之间的服务质量有显著差异要分析四个行业的服务质量是否有显著差异,可以归结为检验这四个行业被投诉次数的均值是否相等。

分析四个行业之间的服务质量是否有显著差异,也就是要判断“行959.1.2方差分析的有关术语

1.因素或因子在方差分析中,所要检验的对象称为因素或因子;上例中,要分析行业对投诉次数是否有影响,行业是所要检验的对象——因素或因子。2.水平或处理因素的不同表现称为水平或处理;零售业、旅游业、航空公司、家电制造业是“行业”这一因素的具体表现,称为水平或处理。本例有四个水平。9.1.2方差分析的有关术语1.因素或因子963.观测值每个水平下的样本数据称为观测值。本例不同行业的投诉次数就是观测值

。4.总体因素的每一个水平可以看做是一个总体。如零售业、旅游业等。5.样本数据调查得到的数据可以看做从总体中抽取的样本数据。本例各行业的被投诉次数即为样本数据。

3.观测值97本例是只涉及一个分类型自变量——行业和数值型因变量——被投诉次数,故是单因素方差分析;是要研究“行业”对“投诉次数”的影响。零售业、旅游业、航空公司、家电制造业是“行业”这一分类型自变量的具体取值,“投诉次数”是因变量,它是一个数值型变量,不同的投诉次数就是因变量的具体取值。本例是只涉及一个分类型自变量——行业和数值型因变量——被投诉989.1.3方差分析的基本思想和原理9.1.3方差分析的基本思想和原理99图形分析零售业旅游业航空公司家电制造图形分析零售业旅游业100从散点图上可以看出不同行业被投诉的次数是有明显差异的即使是在同一个行业,不同企业被投诉的次数也明显不同家电制造业被投诉的次数较高,航空公司被投诉的次数较低行业与被投诉次数之间有一定的关系如果行业与被投诉次数之间没有关系,那么它们被投诉的次数应该差不多相同,在散点图上所呈现的模式也就应该很接近从散点图上可以看出101仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异,因为这种差异也可能是由于抽样的随机性所造成的。需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析。

因为我们感兴趣的是均值,但在判断均值之间是否有差异时需借助于方差,所以叫方差分析。这个名字也表示:它是通过对数据误差来源的分析,来判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源。

仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数102关于误差随机误差因素的同一水平(总体)下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数是不同的这种差异可以看成是随机因素的影响,称为随机误差

系统误差因素的不同水平(不同总体)下,各观察值之间的差异。比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差关于误差随机误差103

组内方差因素的同一水平(同一个总体)下样本数据的方差比如,零售业被投诉次数的方差组内方差只包含随机误差组间方差因素的不同水平(不同总体)下各样本之间的方差比如,四个行业被投诉次数之间的方差组间方差既包括随机误差,也包括系统误差反映误差的指标——方差

组内方差反映误差的指标——方差104

若不同行业对投诉次数没有影响,则组间方差中只包含随机误差,没有系统误差。这时,组间方差与组内方差的比值就会接近1若不同行业对投诉次数有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时它们之间的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响关于两个方差的比值

若不同行业对投诉次数没有影响,则组间方差中只包含随机误差,105判断行业对被投诉次数是否有显著影响,实际上是检验被投诉次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,则说明不同行业对被投诉次数有显著影响。判断行业对被投诉次数是否有显著影响,实际上是检验被投诉次数的1069.1.4方差分析的基本假定1.每个总体都服从正态分布。2.各个总体的方差必须相同。3.观测值是独立的。在上述假定下,要分析自变量对因变量是否有影响,实际上就是要检验自变量的各个水平的均值是否相等。尽管我们不知道4个总体的均值,但可以用样本数据来检验它们是否相等。如果4个总体的均值相等,可以期望4个样本均值也非常接近。9.1.4方差分析的基本假定1.每个总体都服从正态分布1079.2单因素方差分析9.2单因素方差分析108要点:一、数据结构二、分析步骤三、关系强度四、Excel的应用要点:一、数据结构1099.2.1单因素方差分析的数据结构观察值(j)因素(A

i)

水平A1水平A2

…水平Ak12::n

x11x21…xk1x12x22…xk2::::::::x1n

x2n…xkn9.2.1单因素方差分析的数据结构观察值(j)因素(1109.2.2单因素方差分析1.提出假设2.计算均值误差平方和方差3.构造并计算检验统计量4.统计决策

9.2.2单因素方差分析1.提出假设1111.提出假设一般提法H0:m1=m2=…=

mk自变量对因变量没有显著影响

H1:m1,m2,…,mk不全相等自变量对因变量有显著影响

注意:拒绝原假设,并不意味着所有的均值都不相等1.提出假设一般提法1122.计算均值:各水平的均值、全部观察值的均值误差平方和:总误差平方和SST、水平项平方和SSA、误差项平方和SSE均方(方差):总方差、组间方差、组内方差2.计算均值:各水平的均值、全部观察值的均值113各水平均值的计算公式为

全部观察值的总均值计算均值各水平均值的计算公式为全部观察值的总均值计算均值114计算平方和方差组内SSEMSE组间(水平)SSAMSA总SSTMST计算平方和方差组内SSEMSE组间(水平)SSAMSA总SS115总误差平方和SST全部观察值与总平均值的离差平方和反映全部观察值的离散状况其计算公式为总误差平方和SST全部观察值与总平均值的116水平项平方和SSA各组(水平)平均值与总平均值的离差平方和反映各组的样本均值之间的差异程度,又称组间平方和该平方和既包括随机误差,也包括系统误差计算公式为水平项平方和SSA各组(水平)平均值117误差项平方和SSE各组数据与其组平均值的离差平方和反映样本中观察值的离散状况,又称组内平方和该平方和反映的是随机误差的大小计算公式为误差项平方和SSE各组数据与其组平均值的离差平方和118三个平方和的关系总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和(SSA)之间的关系SST=SSA+SSE三个平方和的关系总离差平方和(SST)、误差项离差平方和(S119方差MS各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差计算方法是用误差平方和除以相应的自由度三个平方和对应的自由度分别是SST

的自由度为n-1,n为全部观察值的个数SSA的自由度为k-1,k为因素水平(总体)的个数SSE的自由度为n-k方差MS各误差平方和的大小与观察值的多少有关,为消除观察值多120计算方差组间方差MSA

:组内方差MSE

:计算方差计算方差组间方差MSA:组内方差MSE:计算方差1213.构造检验的统计量将MSA和MSE进行对比,即得到检验统计量F当H0为真时,F服从分子自由度(第一自由度)为k-1、分母自由度(第二自由度)为n-k的F分布。3.构造检验的统计量将MSA和MSE进行对比,即得到检验统计122F分布与拒绝域如果均值相等,F=MSA/MSE1a

F分布F(k-1,n-k)0拒绝H0不拒绝H0FF分布与拒绝域如果均值相等,F=MSA/MSE1aF1234.统计决策

根据给定的显著性水平,在F分布表中查找与第一自由度(分子自由度)df1=k-1、第二自由度(分子自由度)df2=n-k

相应的临界值F

若F>F,则拒绝H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响若F<F,则不拒绝H0,不能认为所检验的因素对观察值有显著影响4.统计决策根据给定的显著性水平,在F分布表中查找与第一124例题分析消费者对四个行业的投诉次数行业观测值零售业旅游业航空公司家电制造业12345675766494034534468392945565131492134404451657758【例】为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了不同的企业作为样本。据统计,最近一年中消费者对总共23家企业投诉的次数如下表例题分析消费者对四个行业的投诉次数行业观测值零售业旅游业航1251.提出假设:原假设H0:μ1=μ2=μ3=μ4

即:四个行业被投诉的次数相等,行业对被投诉次数没有影响。备择假设H1:μi不完全相等

即:四个行业的被投诉次数不完全相等,行业对被投诉次数有影响。观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值1.提出假设:观测值行业零售业旅游业航空公司家电制造业1571262.计算均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值观测值行业零售业旅游业航空公司家电制造业15768314426639495134929216544045347753456405865351

744

样本均值49483559样本容量7655总均值2.计算均值观测值行业零售业旅游业航空公司家电制造业1576127计算误差平方和(260-261页)

总误差平方和=4146.608696水平项平方和(组间平方和)

=7*(49-47.869565)2+6*(48-47.869565)2+5*(35-47.869565)2+5*(59-47.869565)2=1456.608695误差项平方和(组内平方和)SSE先求出每个行业被投诉次数与其平均值的误差平方和,然后将其加总,即为SSE:零售业:=(57-49)2+(66-49)2+(49-49)2+……+(44-49)2=700旅游业:=(68-48)2+(39-48)2+(29-48)2+……+(51-48)2=924航空公司:=(31-35)2+(49-35)2+(21-35)2+……+(40-35)2=434家电制造业:=(44-59)2+(51-59)2+(65-59)2+……+(58-59)2=650加总得:=700+924+434+650=2708计算误差平方和(260-261页)总误差平方和128三个平方和的关系

4164.608696=1456.608696+2708SST=SSA+SSE三个平方和的关系SST=SSA+SSE129计算方差(均方)组间方差MSA=

组内方差MSE=计算方差(均方)组间方差组内方差MSE130F=3.构造并计算检验统计量FF=3.构造并计算检验统计量F1314.统计决策设显著性水平为0.05,根据分子自由度df1=k-1=4-1=3和分母自由度df2=n-k=23-4=19,查F分布表得到临界值F0.05(3,19)=3.13,由于F=3.406643大于F0.05

=3.13,故拒绝H0,即可以认为行业对投诉次数有显著的影响,不同行业的服务质量有显著差异。4.统计决策设显著性水平为0.05,132

为了使计算过程更加清晰,通常将上述过程的内容列在一张表上,这就是方差分析表,其一般形式如:

为了使计算过程更加清晰,通常将上述过程的内容列在一张表上,133误差来源平方和SS自由度df均方MSF值P值F临界值组间(因素影响)SSAk-1MSAMSA/MSE

组内(误差)SSEn-kMSE

总和SSTn-1

误差来源平方和SS自由度df方差MSF值P值F临界值组间(因素影响)1456.6086963485.5362323.4066430.03876453.1273544组内(误差)270819142.526316

总和4164.60869622

误差来源平方和自由度均方F值P值F临界值组间(因素影响)SS1349.2.3关系强度的测量9.2.3关系强度的测量135拒绝原假设表明因素(自变量)与观测值之间有关系组间平方和(SSA)度量了自变量(行业)对因变量(投诉次数)的影响效应当组间平方和比组内平方和(SSE)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明这它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱拒绝原假设表明因素(自变量)与观测值之间有关系136关系强度的测量

变量间关系的强度用组间平方和(SSA)占总平方和(SST)的比例大小来反映自变量平方和占总平方和的比例记为R2,即其平方根R可以用来测量两个变量之间的关系强度关系强度的测量变量间关系的强度用组间平方和(SSA)占总137例题分析

R=0.591404结论:行业(自变量)对投诉次数(因变量)的影响效应占总效应的34.9759%,而残差效应则占65.0241%。即行业对投诉次数差异解释的比例达到近35%,而其他因素(残差变量)所解释的比例近为65%以上

R=0.591404,表明行业与投诉次数之间有中等以上的关系

例题分析1389.2.4Excel的应用1.列出数据结构表;2.工具-数据分析-单因素方差分析-确定;3.在“数据区域”中引用数据结构表中的数据(各水平的纵标目和数值)等;4.根据输出结果做出统计决策。9.2.4Excel的应用139Excel输出结果Excel输出结果140用P值做统计决策在统计决策时,可以直接利用方差分析表中的P值做统计决策:若P≺α,则拒绝原假设在本例中,P=0.038765,小于0.05,所以拒绝原假设,即行业对投诉次数的影响是显著的。

用P值做统计决策在统计决策时,可以直接利用方差分析表中的P值1419.2.5方差分析中的多重比较比较检验到底哪些均值之间存在差异可采用最小显著差异方法,简写为LSD9.2.5方差分析中的多重比较比较检验到底哪些均值之间存在差142多重比较的步骤1.提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mi

mj(第i个总体的均值不等于第j个总体的均值)2.计算检验的统计量:3.计算LSD4.决策:若,拒绝H0;若

,不拒绝H0多重比较的步骤1.提出假设143多重比较例题分析1.提出假设检验1:检验2:检验3:检验4:检验5:检验6:多重比较例题分析1.提出假设144多重比较例题分析2.计算检验统计量检验1:检验2:检验3:检验4:检验5:检验6:多重比较例题分析2.计算检验统计量145多重比较例题分析3.计算LSD检验1:检验2:检验3:检验4:检验5:检验6:多重比较例题分析3.计算LSD146多重比较例题分析4.作出决策零售业与旅游业均值之间没有显著差异

零售业与航空公司均值之间有显著差异零售业与家电业均值之间没有显著差异旅游业与航空业均值之间没有显著差异旅游业与家电业均值之间没有显著差异航空业与家电业均值有显著差异多重比较例题分析4.作出决策零售业与旅游业均值之间没有显著差1479.3

双因素方差分析

双因素方差分析及其类型无交互作用的双因素方差分析有交互作用的双因素方差分析9.3双因素方差分析

双因素方差分析及其类型1489.3.1什么是双因素方差分析9.3.1什么是双因素方差分析149什么是双因素方差分析单因素方差分析只考虑一个分类型自变量对一个数值型因变量的影响。研究两个分类型自变量对一个数值型因变量影响的分析就是双因素方差分析。例如,分析彩电销售量与品牌、销售地区或与价格、质量等因素的影响。什么是双因素方差分析单因素方差分析只考虑一个分类型自变量对一150例有四个品牌的电视机在5个地区销售,为了解彩电的品牌和销售地区对销售量是否有影响,对每种品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响。(α=0.05)例有四个品牌的电视机在5个地区销售,为了解彩电的品牌和销售151不同地区各品牌电视机销售量

地区1地区2地区3地区4地区5品牌1365350343340323品牌2345368363330333品牌3358323353343308品牌4288280298260298不同地区各品牌电视机销售量地区1地区2地区3地区4地区5品1529.3.2双因素方差分析的类型1.无交互作用的双因素方差分析若两个分类型自变量因素对一个数值型因变量的影响是相互独立的,称为无交互作用的或无重复双因素方差分析;2.有交互作用的双因素方差分析除了两个分类型自变量因素对一个数值型因变量的有影响外,两个因素搭配还会对因变量产生一种新的影响效应,例如,某个地区对某种品牌的彩电有特殊的偏好,这就是两个因素结合后产生的新效应,这时的双因素分析称为有交互作用的或重复双因素方差分析。

9.3.2双因素方差分析的类型1.无交互作用的双因素方153

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论