EXCEL与数据分析5课件_第1页
EXCEL与数据分析5课件_第2页
EXCEL与数据分析5课件_第3页
EXCEL与数据分析5课件_第4页
EXCEL与数据分析5课件_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

授课教师:马银戌第五章数据间的差异性分析1

第一节

数据间的差异性第二节单因素方差分析本章主要教学内容2第一节数据间的差异性一、研究数据间差异性的意义

二、研究数据间差异性的方法

三、方差分析的基础概念

3。

进一步地,如果能够得知如甲品种能更有效地提高产量,那么人们就可以在以后的种植中选用这个品种。同样,如果在得知施肥量是影响亩产量的关键性因素的同时,也得知哪种施肥量水平对亩产量增产更有意义,那么人们就可以采用一个恰当的施肥量,既能够提高产量,也能够降低成本。同时如果再与优良品种进行搭配,就会得到一个较优的种植方案。因此,分析数据间的差异性,从数据的差异性入手寻根溯源是一种很有效的数据分析思路和方法。5二、研究数据间差异性的方法研究数据间差异性的方法主要用方差分析。方差分析是通过对多个总体均值是否相等这一假设进行检验来分析数据间的差异性的。方差分析单因素方差分析双因素方差分析可重复双因素分析无重复双因素分析6

1、方差分析首先将引起数据差异的因素分为控制因素和随机因素两类。随机因素:指人为很难控制的因素,也称为随机变量。如在影响亩产量的因素中,气候、地域差异影响就属于随机变量。三、方差分析的基础概念控制因素:指人为可以控制的因素,也称为控制变量。如将影响亩产量的因素分为两类,其中,农作物品种的选定、施肥量的控制属于控制变量。

2、控制变量、控制变量的水平、观测变量是方差分析中的重要概念。7例如,对亩产量这个观测变量进行分析,可能会得到多组亩产量数据。如果发现甲、乙两个品种所获得的亩产量总体均值相差不显著,可以认为甲、乙两个品种没有对亩产量产生显著影响,今后种植过程中选用哪个品种都可以。同样地,对亩产量数据进行分析,如果发现三种不同水平的施肥量下获得的亩产量数据差异性较大,而且,施肥量20公斤的地块亩产量明显高于施肥量10公斤,但施肥量30公斤的地块亩产量不明显高于施肥量20公斤的地块,那么今后在种植过程中就应选择每亩施肥量20公斤,这样不但提高了产量,也有效降低了生产成本。9方差分析就是要分析控制变量的不同水平是否对观测变量产生了显著影响。如果控制变量的不同水平对实验结果产生了显著影响,那么,它和随机变量的共同作用必然使得观测变量数据有显著变动;相反,如果控制变量的不同水平对试验结果没有产生显著影响,那么,观测变量数据的变动就不会明显表现出来,它的变动可以归结为随机变量影响造成的。根据控制变量的个数可以将方差分析分成单因素方差分析和多因素方差分析。顾名思义,单因素方差分析中的控制变量只有一个,而多因素方差分析中的控制变量有多个。实际中常用单因素方差分析和多因素方差分析中的两因素方差分析。利用Excel可以实现的也是这些。10第二节单因素方差分析一、单因素方差分析的思路二、利用Excel进行单因素方差分析11例如,为考察三种不同的施肥量水平是否给农作物亩产量带来显著影响,实验所获得的三组亩产量数据(见下表5-1)应看做分别来自三个不同施肥量水平下亩产量总体的样本数据。表5-1(a)不同施肥量水平下的亩产量的样本数据10公斤20公斤30公斤50060062050060062050060062013表5-1(b)不同施肥量水平下的亩产量的样本数据10公斤20公斤30公斤501503502502502503503501501表5-1(c)不同施肥量水平下的亩产量的样本数据10公斤20公斤30公斤60851060451060150152152453014由于方差分析是从观测变量的差异入手分析并究其成因的,可以看出表5-1(a)中亩产量的样本数据的差异主要是由于施肥量不同造成的;导致表5-1(b)中的亩产量样本数据差异的主要原因并不是施肥量,而是其他随机因素;对表5-1(c)中亩产量数据的差异性则很难通过直观的观察得到结论。方差分析正是通过分析样本数据,对观测变量各总体分布是否存在显著性差异进行推断。根据统计中假设检验的分析思路,在单因素方差分析中,首先提出原假设:控制变量的不同水平下,观测变量各总体的均值没有显著差异,即控制变量的不同水平对观测变量没有产生显著影响;然后构造检验统计量。单因素方差分析中采用F检验统计量,它的构造体现了方差分析的基本研究思路。15可见,如果控制变量的不同水平对观测变量造成了显著的影响,那么观测变量的总变差中由控制变量引起的比例应较大,于是,F统计量的观测值就比较大。如果F统计量的观测值大于其临界值,或其概率p值小于显著性水平a,则应拒绝原假设,认为控制变量的不同水平下,观测变量各总体的均值存在显著差异,也即控制变量的不同水平对观测变量产生了显著影响;相反,如果控制变量的不同水平没有对观测变量造成显著影响,观测变量的变差归结为随机变量造成的,那么观测变量的总变差中由控制变量引起的比例应较小。如果F统计量的观测值小于其临界值,或其概率p值大于显著性水平a,则不应拒绝原假设,认为控制变量的不同水平下,观测变量各总体的均值不存在显著差异,即控制变量的不同水平没有对观测变量产生显著影响。17二、利用Excel进行单因素方差分析

Excel中的“方差分析是通过“工具”中的“数据分析”命令中的“方差分析:单因素方差分析”来实现的。下面结合【例5.1】来了解该分析工具的具体操作步骤及如何对结果进行分析。例5.1为比较三种不同施肥量方案是否对提高亩产量有显著作用,分别在地质情况相同的不同地块进行了实验,获得三组亩产量样本数据。现利用单因素方差分析,针对已有的数据研究施肥量是否对亩产量产生了显著影响。18

EXCEL中,单因素分析的基本操作步骤如下:

(1)选择“工具”菜单中的“数据分析”命令,出现如下对话框:

(2)选择“方差分析:单因素方差分析”,单击“确定”,出现“方差分析”的复选框:19第二部分是方差分析表。其中:

*“差异源”下的“组间”、“组内”、“总计”行分别表示观测变量的组间差(SSA)、组内差(SSE)和总变差(SST),此例中它们分别是28254.7,5877,34131.7。

*df为自由度。

*MS列下的14127.3和391.8分别为平均的组间差MSA和平均的组内差MSE。

*F列下的36.05为F检验统计量的观测值。

*P-value列下的1.86E-06,是F检验统计量的概率P-值。*Fcrit列下的3.68为F检验统计量在显著性水平a为0.05,自由度为2,15下的临界值。21

在显著性水平a为0.05的情况下,由于F检验统计量的观测值大于其临界值,或者F检验统计量的概率P-值小于显著性水平a,则应拒绝原假设,认为不同施肥方案下各亩产量总体的均值存在显著差异,施肥量的不同水平对亩产量产生了显著影响。由于目前的分析结论是:不同施肥量水平对亩产量产生了影响,于是接下来进一步的分析可以是:哪种施肥量水平下的亩产量最为理想,不同施肥量导致的亩产量差异主要体现在哪个水平上。此时可参考分析结果的第一部分。可以看到,第二种和第三种施肥方案下的亩产量平均值明显高于第一种方案,第二种方案下的平均值高出第一种方案48.5公斤,第三种方案高出第二种方案10.2公斤。显然,不同施肥量导致的亩产量差异主要体现在第一与第二、第三水平上。如果再考虑到投入成本,则选择第二种施肥方案比较理想。22案例分析5.2某企业研制出一种新型饮料,饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色。这四种饮料的营养含量、味道、价格和包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超市收集了上个月该种饮料的销售量数据。试判断饮料的颜色是否对销售量产生了影响。在这个案例中,“颜色”是控制变量,饮料具体的四种颜色“橘黄色、粉色、绿色和无色”是控制变量的四个“水平”(Excel中输出的结果称为“组”),“销售量”是观测变量,不同超市、不同颜色饮料的具体销售量是“观测值”。23从上表中看到,20个数据各不相同。为什么不同呢?可能有两方面的原因。一个是销售地点的影响。从上表看到,即便是颜色相同的饮料,在不同超市的销售量也是不同的。但是,由于这五家超市的地理位置相似,经营规模相仿,因此可以把不同地点销售量的差异看成是随机因素的影响。另一个是饮料颜色的影响。在同一个超市里不同颜色的饮料,即便它们的营养含量、味道、价格和包装等方面的因素全部都相同,但销售量也不同。这种不同,有可能是抽样的随机性造成的,也有可能是消费者对不同颜色有所偏爱造成的。所以,我们可以利用单因素方差分析来检验饮料颜色是否对销售量产生了影响。25分析的基本思路:首先提出原假设和备择假设:原假设:四种颜色饮料的销售量总体的均值相等,即饮料的颜色对销售量没有产生显著影响;备择假设:饮料的颜色对销售量产生了显著影响;然后构造检验统计量:F检验统计量;再对输出的方差分析结果进行分析判断,确定是否接受原假设,即判断颜色对销售量是否有影响;最后根据分析结果进行决策。

Excel中的具体操作:选择“工具”菜单中的“数据分析”命令;选择“方差分析:单因素方差分析”,单击“确定”;

26分析结论:

F检验统计量10.54大于其临界值3.24,而其概率值0.0045小于显著性水平a(0.05),因此,拒绝原假设,接受备择假设,认为:颜色对饮料销售量有显著影响。进一步分析可见,绿色饮料的销售量均值明显大于其他三种颜色饮料的销售量,而无色饮料的销售量明显大于粉色和橘黄色饮料的销售量。因此,应适度增加绿色和无色饮料的生产量,并适当加大无色饮料的促销力度(因其成本更低)。29案例分析5.3

Andorsen化学公司打算通过招标购买一批原材料搅拌机器,有甲、乙、丙三家生产这款机器的工厂投标。这三家工厂生产的机器质量相似,价格相同,Andorsen化学公司决定通过检验三家工厂生产的机器搅拌相同分量原料所需的平均时间是否相同来决定购买那个厂的机器,为此进行了为期一周的实验,得到了关于搅拌原料所需时间的数据。在这个案例中,“工厂”是控制变量,三家具体的工厂“甲、乙、丙”是控制变量的三个“水平”,“搅拌时间”是观测变量,不同工厂机器的具体搅拌时间是“观测值”。30甲乙丙三个工厂机器的搅拌时间单位:分钟实验时间甲厂乙厂丙厂星期一202820星期二262619星期三243123星期四222722星期五253221星期六233020星期日21291931分析的基本思路:首先提出原假设和备择假设:原假设:三个工厂机器混合原料所需的平均时间相同;备择假设:三个工厂机器混合原料所需的平均时间不同;然后构造检验统计量:F检验统计量;再对输出的方差分析结果进行分析判断,确定是否接受原假设,即判断三个工厂搅拌原料所需的平均时间是否相同;最后根据分析结果决定购买哪家工厂的机器。3233方差分析的结果显示:(1)三个工厂机器搅拌原料所需时间的均值不同,分别为23、29和20.57分钟;(2)观测变量的组间差(SSA)、组内差(SSE)和总变差(SST),分别是263.52、69.71、333.24;平均组间差MSA和平均组内差MSE分别为131.76和3.87;(3)F检验统计量为34.02,其概率值为7.68E-07;

(4)在显著性水平a为0.05,自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论