版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第九章第九章 方差分析方差分析 第一节 方差分析概述 第二节 单因素方差分析 第三节 多因素方差分析(略)第一节 方差分析的概念与基本原理一、什么是方差分析?二、方差分析的基本思路三、方差分析的基本假定 方差分析适用范围:定类-定距变量 方差分析分类: 自变量的个数:单因素 多因素 因变量的个数:一元方差分析、二元方差分析以及多元方差分析一、什么是方差分析?从两总体的均值差异比较说起: 两总体的均值差异比较(第七章) 如果均值差异显著,说明? 多个总体均值的差异比较呢?方差分析与均值差异检验n 方差分析是均值差检验的推广,一般可用于检验定类变量与定距变量之间的关系。n 其中,定类变量被看作是“
2、自变量”,或者影响因素变量,而定距变量则被看作“因变量”,或者称为被分析的变量,定类变量的几个取值往往被称为影响因素的几个水平或类别。 n方差分析:定类、序(自变量,x)定距(因变量,y)思考:不同类别的总体均值差异显著,说明定类变量与定距变量之间? 不同类别的总体均值差异不显著,说明?定类与定距变量间的关系举例:地区与平均寿命之间的关系;职业与人际交往频次的关系;学校类型与学生成绩的关系;方差分析就是检验定类变量和定距变量之间的关系。方差分析就是检验定类变量和定距变量之间的关系。表表8-1 该饮料在五家超市的销售情况该饮料在五家超市的销售情况超市超市无色无色粉色粉色橘黄色橘黄色绿色绿色123
3、4526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8二、方差分析的基本思想方差方差总方差分解总方差分解可解释的方差可解释的方差不可解释的方差不可解释的方差不可解释的方差可解释的方差比值定距测量定距测量层次:用层次:用均值预测均值预测所导致的所导致的全部误差全部误差方差F比值的意义 比值愈大,表示可解释掉的误差越多,说明与在总体中愈可能是相关的。 比值究竟大到什么程度可以通过检验,这就需要借助分布表。 因为值满足抽样分布曲线,所以可以直接借助分布,判断与总体中是否相关。 检验饮料的颜色
4、对销售量是否有影响,也就检验饮料的颜色对销售量是否有影响,也就是检验四种颜色饮料的平均销售量是否相同是检验四种颜色饮料的平均销售量是否相同设设 1为无色饮料的平均销售量,为无色饮料的平均销售量, 2粉色饮料粉色饮料的平均销售量,的平均销售量, 3为橘黄色饮料的平均销售为橘黄色饮料的平均销售量,量, 4为绿色饮料的平均销售量,为绿色饮料的平均销售量,也就是检也就是检验下面的假设验下面的假设H0: 1 1 2 2 3 3 4 4 H1: 1 1 , 2 2 , 3 3 , 4 4 不全相等不全相等检验上述假设所采用的方法就是方差分析检验上述假设所采用的方法就是方差分析三、方差分析的基本思想和原理
5、(几个基本概念)1.因素或因子所要检验的对象称为因子在上例中,颜色就是要检验的因素或因子。2.水平因素的具体表现称为水平(也称为类别或处理方案).在上例中四种颜色就是因素的四个水平。3.观察值在第 i 个水平下的 j 个观察值,记为 yij上例中,每种颜色的销售量就是观察值.方差分析的基本思想和原理(几个基本概念)试验每一次随机抽样可看成一次随机试验这里只涉及一个因素,因此称为单因素试验。总体因素的每一个水平可以看作是一个总体;比如上例中四种颜色可以看作是四个总体。样本数据 上面的数据可以看作是从这四个总体中抽取的样本数据观察值的两种误差 设各水平下的观察值表示为:ijiijy 该水平的总体均
6、值该水平的总体均值+ 随机项随机项所有观察值所有观察值 yij 之间的差异,可能来源于之间的差异,可能来源于两个方面:两个方面:观察值的两种误差(续)1.系统误差(条件误差)系统误差(条件误差)各水平的总体均值不同,从而导致了各水平各水平的总体均值不同,从而导致了各水平下的样本观察值也有差异;下的样本观察值也有差异;由于所研究因素改变而产生的试验结果的差由于所研究因素改变而产生的试验结果的差异,即在因素的不同水平(总体)下,各观异,即在因素的不同水平(总体)下,各观察值间的差异;察值间的差异;比如,对任一饮料来说,不同颜色的销量可比如,对任一饮料来说,不同颜色的销量可能都有明显差异,这可能是由
7、于所研究因素能都有明显差异,这可能是由于所研究因素颜色不同而造成的颜色不同而造成的观察值的两种误差(续) 2.随机误差由于偶然因素而产生的差异,或者说是由于抽样的随机性所造成的。即在因素的同一水平(同一个总体)下,样本的各观察值之间的差异;比如,同一种颜色的饮料的销售量是有差异的观察值的两种误差(续)方差分析就是要判断有无系统误差存在。若观察值的差异不仅来源于随机误差,也包含系统误差,则说明存在明显的因素效应(即所研究因素不同水平下的总体均值不全相等)。为此,要对观察值的差异进行分析。方差分析的基本思想和原理(方差的分解)1.总离差平方和全部观察值与总平均数的离差平方和;反映全部观察数据的差异
8、程度。211inkijijSSTyy方差分析的基本思想和原理 (方差的分解续) kinjiijiyySSE112组内平方和组内平方和各水平内部的观察值与该水平均值的离差平方和。各水平内部的观察值与该水平均值的离差平方和。 反映同一水平下样本观察值的差异程度,所以不包反映同一水平下样本观察值的差异程度,所以不包含系统误差,含系统误差,只包含随机误差只包含随机误差。 比如,同种颜色的饮料的销售量差异。比如,同种颜色的饮料的销售量差异。方差分析的基本思想和原理 (方差的分解续)3. 组间平方和各组平均数与总平均数的离差平方和。反映因素的不同水平(不同总体)下各样本均值之间的差异;既包括随机误差,也包
9、括系统误差;如四种颜色的饮料平均销售量之间的差异22111inkkiiiijiSSAyyn yy方差分析的基本思想(方差的比较)如果不同水平(颜色)对结果(销售量)没有影响,那么在组间方差中只包含有随机误差,而没有系统误差。这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近1;反之,如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时组间方差就会显著地大于组内方差,组间方差与组内方差之间的比值就会大于1;当这个比值大到某种程度时,就可以说不同水平的总体均值之间存在显著差异(存在系统误差).第二节第二节 单因素方差分析单因素方差分析一、分析步骤一、分析步
10、骤提出假设提出假设构造检验的统计量构造检验的统计量给定检验的显著性水平给定检验的显著性水平计算检验统计量的值计算检验统计量的值统计决策(结论)统计决策(结论)方差分析中的基本假定方差分析中的基本假定每个总体都应服从正态分布每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本态分布总体的简单随机样本比如,每种颜色饮料的销售量必需服从正态分布比如,每种颜色饮料的销售量必需服从正态分布各个总体的方差必须相同各个总体的方差必须相同对于各组观察数据,是从具有相同方差的总体中对于各组观察数据,是从具有相同方差的总体中抽取的抽取
11、的如四种颜色饮料的销售量的方差都相同如四种颜色饮料的销售量的方差都相同观察值是独立的观察值是独立的如每个超市的销售量都与其他超市的销售量独立如每个超市的销售量都与其他超市的销售量独立方差分析中的基本假定方差分析中的基本假定在上述假定条件下,判断颜色对销售量是否有在上述假定条件下,判断颜色对销售量是否有显著影响,实际上也就是检验具有同方差的四显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等的问题个正态总体的均值是否相等的问题 如果四个总体的均值相等,可以期望四个样本如果四个总体的均值相等,可以期望四个样本的均值也会很接近的均值也会很接近四个样本的均值越接近,我们推断四个总体均值四
12、个样本的均值越接近,我们推断四个总体均值相等的证据也就越充分相等的证据也就越充分样本均值越不同,我们推断总体均值不同的证据样本均值越不同,我们推断总体均值不同的证据就越充分就越充分 三、方差分析中基本假定三、方差分析中基本假定 如果原假设成立,即如果原假设成立,即H0: 1 = 2 = 3 = 4 四种颜色饮料销售的均值都相等四种颜色饮料销售的均值都相等 没有系统误差没有系统误差 这意味着每个样本都来自均值为这意味着每个样本都来自均值为 、方差为、方差为 2的同一正态总体的同一正态总体 方差分析中基本假定方差分析中基本假定如果备择假设成立,即如果备择假设成立,即H1: i (i=1,2,3,4
13、)不全相不全相等等 至少有一个总体的均值是不同的至少有一个总体的均值是不同的 有系统误差有系统误差 这意味着四个样本分别来自均值不同的四个正态总这意味着四个样本分别来自均值不同的四个正态总体体 单因方差分析与单因方差分析与F检验检验 单方差分析中的单方差分析中的F检验检验:通过对各观察数据误差来源的分析来判断通过对各观察数据误差来源的分析来判断多个总体均值是否相等;多个总体均值是否相等;是参数检定法的一种;是参数检定法的一种; 目的:推算在各组总体中的均值是否相等。目的:推算在各组总体中的均值是否相等。构造检验的统计量构造检验的统计量为检验为检验H0是否成立,需确定检验的统计量是否成立,需确定
14、检验的统计量 构造统计量需要计算构造统计量需要计算水平的均值水平的均值全部观察值的总均值全部观察值的总均值SST:总:总离差平方和离差平方和SSR:组内平方和(剩余平方和):各个观:组内平方和(剩余平方和):各个观测值对本组平均值的离差平方和测值对本组平均值的离差平方和SSB:组间平方和:观测值的组平均值对总:组间平方和:观测值的组平均值对总平均值的离差平方和平均值的离差平方和单因方差分析与单因方差分析与F检验检验 基本逻辑:基本逻辑: 将全部方差(以将全部方差(以SST估计,自由度为:估计,自由度为:n-1)分)分解为两个部分解为两个部分:消减方差(以消减方差(以SSB估计,自由度估计,自由
15、度为为k-1)和剩余方差(以)和剩余方差(以SSR估计,自由度为估计,自由度为n-k),然后从相互比较中推论),然后从相互比较中推论X与与Y在总体中是在总体中是否相关。否相关。F=总体的消减误差总体的消减误差/总体的剩余误差总体的剩余误差即即F=(SSB/df1)/(SSR/df2);或或F组间方差组间方差/组内方差组内方差 例例2某工厂实行早、中、晚三班工作制。工厂管理部某工厂实行早、中、晚三班工作制。工厂管理部门想了解不同班次工人劳动效率是否存在明显的差异。门想了解不同班次工人劳动效率是否存在明显的差异。每个班次随机抽出了每个班次随机抽出了7个工人,得工人的劳动效率资料个工人,得工人的劳动
16、效率资料(件(件/人)如人)如表表。分析不同班次工人的劳动效率是否有。分析不同班次工人的劳动效率是否有显著性差异。显著性差异。 序号早班中班晚班1344939237474033551424334839533504163551427365140检验班次对劳动效率是否有影响,也就是检验三种班次的平均劳动效率是否相同;设三种班次的总体平均劳动效率分别为: 1 、 2 、 3 ,也就是检验下面的假设:H0: 1 1 2 2 3 3H1: 1 1 , 2 2 , 3 3 不全相等不全相等检验上述假设就需要采用方差分析。问题的提出1. 提出假设一般提法H0: 1 = 2 = k (因素有k个水平)H1:
17、1 、2 、 、 k 不全相等对上述例子H0: 1 = 2 = 3班次对劳动效率没有影响H1: 1、2 、3 不全相等班次对劳动效率有影响2. 构造检验的统计量将 MSA 和 MSE 进行对比,即得到所需要的检验统计量 F ;当H0为真时,二者的比值服从分子自由度为 k-1、分母自由度为 n-k 的 F 分布,即 :),(knkFMSEMSAF 13. 计算检验的统计量值 (上例的计算过程 )三种班次工人的劳动效率及均值工人 ( j )早班中班晚班1234567343735333335364947514850515139404239414240各水平均值y1 =34.714y2=49.571y
18、3=40.429y =41.571计算过程(续) kinjijiyySST112 = (34-41.571)2+(40-41.571)2=825.1429kiiikinjiyynyySSAi12112= 7(34.71441.571)2 +.+7(40.429 41.571)2 =786.2864. 计算检验的统计量值(续))/()/(knSSEkSSAMSEMSAF 1118.182)321/(857.38)13/(286.786F计算结果常常列为表格计算结果常常列为表格方差分析表方差分析表 kinjiijiyySSE112= (34-34.714)2 + +(49-49.571)2 +.+
19、(40-40.429)2=38.857方方 差差 来来 源源离差平方和离差平方和自由度自由度均方均方F值值 组间组间A 786.29 38.86 825.15 393.15 2.16 182.1 2 18 组内组内E 总和总和 5. 统计决策 将统计量的值F与给定的显著性水平的临界值F(k-1,n-k)进行比较,作出接受或拒绝原假设H0的决策。根据给定的显著性水平,在F分布表中查找与相应的临界值 F ;若FF ,则拒绝原假设H0 ,表明均值间的差异是显著的,所检验因素对观察值有显著影响;若F F ,则不能拒绝原假设H0 ,表明所检验的因素对观察值没有显著影响 。上例中,检验结论为:拒绝原假设,
20、即不同班次的工人的劳动效率有显著性差异。 A、B和C三套测评工具对甲、乙、丙、丁、戊五个管理人员进行成就动机测评,测试后得到如下结果。试分析三种测评方法得分是否有显著性差异。ABC甲473857乙353049丙524559丁554760戊453951 方差分析:单因素方差分析SUMMARY组计数 求和平均方差A523446.859.2B519939.844.7C527655.224.2方差分析差异源SSdfMSFP-valueF crit组间5952 297.2667 6.9617 0.013.885290312组内5121242.7把计算的把计算的F值与临界值比较,值与临界值比较,当当F F
21、 时,拒绝原假设,不同水平下的效应有显著时,拒绝原假设,不同水平下的效应有显著性差异;当性差异;当F F 时,接受原假设。时,接受原假设。kiiiyyn12)(1k1kSSAknSSkSSeA1 kinjiijiyy112)(knknSSe kinjijiyy112)(1n方方 差差 来来 源源离差平方和离差平方和自由度自由度均方均方F值值 组间组间A 组内组内E 总和总和 练习题 1.在0.05的显著性水平下,检验四种教学方法对学生能力是否有不同的影响。教学方法教学方法测试人数测试人数得分和得分和得分平方和得分平方和1644833,7842754242,2703641929,71944347
22、30,203附注各水平下的观察值个数最好相等。当结论为“拒绝原假设”时,只能说明各水平的总体均值不完全相同,但不能说明其中没有相同的,也不能说明哪些有差异。单因方差分析与单因方差分析与F检验检验 例题:例题:20名同学的家庭职业背景对语文水平的影响名同学的家庭职业背景对语文水平的影响语文语文水平水平(得分)(得分)干部干部 工人工人 农民农民7852838259759173829061788580808151836454各组个案数各组个案数785各组均值各组均值84.2961.7579.60各组方差各组方差4.409.642.87单因方差分析与单因方差分析与F检验检验 问题:总体中三组家庭背景
23、的学生是否总体中三组家庭背景的学生是否有不同的语文成绩?有不同的语文成绩? 步骤:步骤: H0:M1=M2=M3; H1:不完全相同;不完全相同; E=0.84, n=20, k=3 F=E2(n-k) / (1-E2)(k-1) = 19.83 在所要求的显著度下查表得在所要求的显著度下查表得Fa。若。若F小于小于Fa ,则拒绝则拒绝H0 ,即总体中三类家庭背景的学生,即总体中三类家庭背景的学生的语文成绩存在差别。的语文成绩存在差别。 例题: 1、研究地域(研究地域(X)与教育年限)与教育年限(Y)的关系的关系,随机抽随机抽取取96个个30岁的青年。结果如下:农村岁的青年。结果如下:农村N=56,Y=11.72,城郊城郊N=27,Y=12.63,城市城市N=13,Y=14.63。全部样本均值为。全部样本均值为12.34,各分类,各分类Y 平方和为平方和为804.24。试对两变量的相关作检验(显。试对两变量的相关作检验(显著度著度0.05)X2检验及其相关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中外技术转让合同模板
- 2024至2030年中国可调式自动捆扎机数据监测研究报告
- 2024至2030年中国防静电架空地板行业投资前景及策略咨询研究报告
- 2024至2030年中国钻石批花刀行业投资前景及策略咨询研究报告
- 2024年焦化甲苯项目成效分析报告
- 2024年石英玻璃纤维套管项目综合评估报告
- 2024年自装卸补给车项目评价分析报告
- 2024至2030年中国紧急锁止三点式安全带行业投资前景及策略咨询研究报告
- 2024至2030年中国盆栽非洲菊数据监测研究报告
- 2024至2030年中国汽油割咀翻边套数据监测研究报告
- 能源审计方案
- 可倾真空均质乳化机说明书
- 石油炼化公司高压加氢装置APC项目技术附件方案
- Proteus软件在电子技术实践教学中的应用
- 国有企业人才培训实施方案
- 休克诊治的误区和教训
- 高速公路改扩建中央分隔带光缆保通实施性方案
- 火电企业11项专业技术监督检查评估标准(送审稿)(12-31原始)
- 用电检查培训
- 西南石油大学 《油藏工程》教学提纲+复习提纲)PPT精品文档
- 莫迪温产品介绍
评论
0/150
提交评论