大学统计学第6章假设检验与方差分析课件_第1页
大学统计学第6章假设检验与方差分析课件_第2页
大学统计学第6章假设检验与方差分析课件_第3页
大学统计学第6章假设检验与方差分析课件_第4页
大学统计学第6章假设检验与方差分析课件_第5页
已阅读5页,还剩121页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学导论3-1第六章 假设检验与方差分析第一节 假设检验的基本原理 第二节 总体均值的假设检验 第三节 总体比例的假设检验 第四节 单因子方差分析第五节 双因子方差分析第六节 Excel在假设检验与方差分析 中的应用2第一节 假设检验的基本原理一、什么是假设检验二、原假设与备择假设三、检验统计量四、显著性水平、P-值与临界值五、双侧检验和单侧检验六、假设检验的两类错误七、关于假设检验结论的理解3一、什么是假设检验【例6-1】假定咖啡的分袋包装生产线的装袋重量服从正态分布N(,2)。生产线按每袋净重150克的技术标准控制操作。现从生产线抽取简单随机样本n=100袋,测得其平均重量为 =149.

2、8克,样本标准差s=0.872克。问该生产线的装袋净重的期望值是否为150克(即问生产线是否处于控制状态)?4 所谓假设检验,就是事先对总体的参数或总体分布形式做出一个假设,然后利用抽取的样本信息来判断这个假设(原假设)是否合理,即判断总体的真实情况与原假设是否存在显著的系统性差异,所以假设检验又被称为显著性检验。5 一个完整的假设检验过程,包括以下几个步骤:(1)提出假设;(2)构造适当的检验统计量,并根据样本计 算统计量的具体数值;(3)规定显著性水平,建立检验规则;(4)做出判断。6二、原假设与备择假设原假设一般用H0表示,通常是设定总体参数等于某值,或服从某个分布函数等备择假设是与原假

3、设互相排斥的假设,原假设与备择假设不可能同时成立。所谓假设检验问题实质上就是要判断H0是否正确,若拒绝原假设H0 ,则意味着接受备择假设H1 。 如在例6-1中,我们可以提出两个假设:假设平均袋装咖啡重量与所要控制的标准没有显著差异,记为 ;假设平均袋装咖啡重量与所要控制的标准有显著差异,记为 。7三、检验统计量所谓检验统计量,就是根据所抽取的样本计算的用于检验原假设是否成立的随机变量。检验统计量中应当含有所要检验的总体参数,以便在“总体参数等于某数值”的假定下研究样本统计量的观测结果。检验统计量还应该在“H0成立”的前提下有已知的分布,从而便于计算出现某种特定的观测结果的概率。 8910四、

4、显著性水平、P-值与临界值1、判断的依据:小概率原理:小概率事件在单独一次的试验中基本上不会发生,可以不予考虑。2、判断的逻辑:如果在原假设正确的前提下,检验统计量的样本观测值的出现属于小概率事件,那么可以认为原假设不可信,从而否定它,转而接受备择假设。11什么是小概率?这要根据实际问题而定。假设检验中,通常取=0.01,=0.05 ,最大到=0.10 。又称为显著性水平。3、判断规则:一是P-值规则;二是临界值规则。121)P-值规则 所谓P-值,实际上是检验统计量超过(大于或小于)具体样本观测值的概率。单侧检验若p-值 ,不拒绝 H0若p-值 /2, 不拒绝 H0若p-值 /2, 拒绝 H

5、013【例6-3】假定,根据例6-2的结果,计算该问题的P-值,并做出判断。 解:查标准正态概率表, 当z=2.29时,(0.9774+0.9786)/2=0.9780, 尾部面积为(10.9780)/2=0.011, 由对称性可知,当z= 2.29时,左侧面积为0.011。 0.011/2=0.025 0.011这个数字意味着,假若我们反复抽取n=100的样本,在100个样本中仅有可能出现一个使检验统计量等于或小于2.29的样本。该事件发生的概率小于给定的显著性水平,所以,可以判断=150的假定是错误的,也就是说,根据观测的样本,有理由表明总体均值与150克的差异是显著存在的。14(二)临界

6、值规则 假设检验中,根据所提出的显著性水平标准(它是概率密度曲线的尾部面积)查表得到相应的检验统计量的数值,称作临界值,直接用检验统计量的观测值与临界值作比较,观测值落在临界值所划定的尾部(称之为拒绝域)内,便拒绝原假设;观测值落在临界值所划定的尾部之外(称之为不能拒绝域)的范围内,则认为拒绝原假设的证据不足。15注意:1)P-值规则和临界值规则是等价的。在做检验的时候,只用其中一个规则即可。2)P-值规则较之临界值规则具有更明显的优点。第一,它更加简捷;第二,在P-值规则的检验结论中,对于犯第一类错误的概率的表述更加精确。推荐使用P-值规则。16【例6-4】假定,根据例6-2的结果,用临界值

7、规则做出判断。 解:查表得到,临界值z0.025= 1.96。由于 z= 2.29 1.96,即,检验统计量的观测值落在临界值所划定的左侧(即落在拒绝域),因而拒绝150克的原假设。上面的检验结果意味着,由样本数据得到的观测值的差异提醒我们:装袋生产线的生产过程已经偏离了控制状态,正在向装袋重量低于技术标准的状态倾斜。17五、双侧检验和单侧检验 图6-1 双侧、单侧检验的拒绝域分配/21 /2Z/2 Z/2 Z 0 0 Z (a)双侧检验(b)左侧检验 (c)右侧检验 18 表6-1 拒绝域的单、双侧与备择假设之间的对应关系拒绝域位置P-值检验的显著性水平判断标准原假设备择假设双侧/2H0:0

8、H1:0左单侧H0:0H1:019六、假设检验的两类错误20212223例;某工厂准备购买一批较便宜的原材料,要是这批原材料的次品率大到5%以上,就拒绝购买。当假设检验后拒绝购买,就会犯第一类错误,失去购买便宜原材料,而出高价购买,增加产品成本;当假设检验后接受购买,就会犯第二类错误,不合格原材料使产品的次品率上升。怎么办?工厂决策者有必要搞清楚哪一类错误造成的损失小,以减少成本。24七、关于假设检验结论的理解在假设检验中,当原假设被拒绝时,我们能够以较大的把握肯定备择假设的成立。而当原假设未被拒绝时,我们并不能认为原假设确实成立。 25第二节 总体均值的假设检验一、单个总体均值的检验二、双总

9、体均值是否相等的检验26一、单个总体均值的检验27282930313233例:某车间生产一种机器零件,已知其直径平均长度为32.05,方差为1.21。现进行工艺改革,如果质量不下降,可以进行全面改革,如果质量下降则暂不改革。现随机抽取6个零件,测得其直径为:32.56,29.66,31.64,30.00,31.87,31.03。试以95%的显著水平检验该改革是否可以实行?34解:假设为:临界值:接受域:否定域:Z1.96或Z-1.96检验统计量:判断:Z值落在否定域内,故拒绝H0。表明工艺改革前后,零件的平均直径有显著的差别,对生产影响是显著。该改革是不可以实行35例:已知总体服从N(90,

10、502 )。从该总体中随机抽取容量为25的样本,得出样本平均值为70。试以95%的显著水平检验原假设 。36解:结论:否定原假设37例:某厂生产一种产品,原月产量服从N(75,14)。设备更新后,为了考察产量是否提高,抽查了六个月产量,得到平均月产量为78。问在显著水平95%下,设备更新后月产量是否有显著的提高?38解:为什么是单侧检验?结论:否定原假设,说明设备更新后,月产量有所提高。39例:已知某种汽油用二某种型号的汽车,每公升油可行驶18公里。现研制出一种添加剂以后,每公升汽油行驶的里程是否有变化?现随机抽取25辆汽车作试验,结果平均行驶里程为18.5公里,方差为2.2。试作出检验。40

11、解:结论:接受原假设,有95%把握预言加入添加剂后每公升汽油行驶的里程无显著变化。双侧41例:已知某种柴油发动机,使用柴油每升运转时间服从正态分布。现测试装配好的6台,它们运转时间分别为28,27,31,29,30,27(分钟)。按设计要求应在30分钟以上。据测试结果,在95%的显著水平时,能否说明这种发动机是否符合设计要求?42解: 接受域:单侧43检验统计量的值:结论:接受原假设,即认为装配的这种发动机符合设计要求。44二、双总体均值是否相等的检验45然后,从总体A和B中各选一个可能样本配成对,计算每一对样本平均数之差两个样本平均数之差的抽样分布就是指来自两个总体成对样本平均数之关的分布。

12、2)性质:总体A: 样本:总体B: 样本:则:为什么是取加号?46假设检验形式:47(1)两个总体是正态分布,且方差已知,则检验统计量为:48(2)两个总体是正态分布,且方差未知但相等,若为小样本(即 ),则检验统计量为:493)两个总体是正态分布,且方差未知但相等,若为大样本(即 ),则检验统计量为:50例:某农业研究所试验磷肥和氮肥能否提高小麦产量,为此做了两种试验:(1)选八块试验田不施磷肥和氮肥;(2)选取十块试验田在播种前施磷肥,播种后分三次加施氮肥,而其它条件相同。成熟后,分别测量了它们的亩产,数据如下:试验1 252,204,234,246,222,210,212,244;试验2

13、 172,158,186,214,224,228,196,190,202,170试以95%的显著水平检验施肥与不施肥的平均产量有没有差异?51解:设两个总体服从正态分布,且方差未知但相等。试验1的数据计算如下:试验2:52提出假设:临界值:接受域:(-2.12,2.12)统计检验量的值为:53结论:t值落在拒绝域,故拒绝H0接受H1。即说明适当施肥对小麦增产有显著的作用。54例:假定有人作一次调查,评判甲、乙两个城市的工人单位时间工资是否相同。资料如下:城市 样本平均 样本 样本 小时的收入 (元) 标准差 容量 甲 6.95 0.40 200 乙 7.10 0.60 175试在95%的显著水

14、平下检验两个城市工人单位时间平均工资是否有差别?55解:假设检验统计量的值为:56临界值:结论:Z值落在否定域中,故拒绝H0,接受H1,说明两个城市工人单位时间工资之间明显的差异。57例:某工厂为了比较两种装配方法的效率,分别组织了两组员工,每组9人,一组采用新的装配方法,另外一组采用旧的装配方法。假设两组员工设备的装配时间均服从正态分布,两总体的方差相等但未知。现有18个员工的设备装配时间见表6-2,根据这些数据,是否有理由认为新的装配方法更节约时间?(显著性水平0.05) 表6-2 两组员工设备的装配时间 单位:小时 新方法(x2)353129253440273231旧方法(x1)3237

15、3538414435313458596061第三节 总体比例的假设检验一、单个总体比例的假设检验二、两个总体的比例是否相等的检验62一、单个总体比例的假设检验6364 【例6-7】一项调查结果声称,某市小学生每月零花钱达到200元的比例为40%,某科研机构为了检验这个调查是否可靠,随机抽选了100名小学生,发现有47人每月零花钱达到200元,调查结果能否证实早先调查40%的看法?( )6566例:某工厂领导认为超过35%的工人满意该厂的工作环境。为了证实该结论,有关部门作了一次调查,随机抽取了150名工人,其中有69人对工作环境满意。试以95%的显著水平检验 的假设。67解:假设:临界值:接受

16、域:检验统计量的值:68结论:Z值落在拒绝域内,故拒绝原假设,接受备择假设,说明该厂工人对工作环境的满意程度确实超过了35%。例:某公司推出一种男女均宜的饮料,认为这种饮料的消费者性别比例各为50%。对消费者抽样调查结果表明:100名接受调查的消费者中,男性饮用者55人,女性有45人。当 时,问该饮料消费者的性别比例相等的看法是否成立?69解:接受域:(-1.96,1.96)P=0.5,则:结论:Z值落在拒绝域内,故拒绝原假设,接受备择假设,说明该饮料消费者的性别比例相等的看法是成立的。(当然用女性资料也可得出相同结论)70二、两个总体的比例是否相等的检验 7172第四节 单因子方差分析一、问

17、题的提出二、方差分析的检验统计量三、关于方差分析的两点说明One-Factor ANOVA73一、问题的提出【例6-8】已知在一组给定的条件下饲养小鸡所增加的体重服从正态分布。某养鸡场欲检验四种饲料配方对小鸡增重的影响是否不相同(假定已经经过检验表明不同饲料配方下的小鸡增重方差相等)。为此,他们对四组初始条件完全相同的小鸡,在完全相同的其他饲养条件下,分别使用四种不同的饲料配方进行喂养。所得到的增重数据如表6-3。 表6-3 四种不同饲料配方下小鸡的增重情况饲料配方 i小鸡序号 j38周后小鸡个体增重yij(克) 123456配方13704204504901730配方2490380400390

18、5004102570配方33303404003804701920配方4410480400420380410250016001620165016801350820872074对于类似本例的问题,一般地,把随机变量分组的数目记作m,我们可建立下列假设:75方差分析Analysis of Variance (ANOVA ) 因素也称为处理因素(factor)(名义分类变量),每一处理因素至少有两个水平(level)(也称“处理组”)。 一个因素(水平间独立) 单因素方差分析 两个因素(水平间独立或相关)双因素方差分析 一个个体多个测量值可重复测量资料的方差分析 ANOVA与回归分析相结合协方差分析

19、目的:用这类资料的样本信息来推断各处理组间多个总体均数的差别有无统计学意义。76 ANOVA 由英国统计学家R.A.Fisher首创,为纪念Fisher,以F命名,故方差分析又称 F 检验 (F test)。用于推断多个总体均数有无差异 77组间变异总变异组内变异二、方差分析的检验统计量所有测量值之间总的变异程度各组均数与总均数的离均差平方和用各组内各测量值Yij与其所在组的均数差值的平方和来表示787980(mean square,MS)818283【例6-9】利用表6-3中的数据进行单因子方差分析(显著水平为=0.05)。84858687 表6-4 方差分析表变异来源离差平方和自由度均方差

20、值P-值临界值组间7112.1432370.7141.012320.4115733.196774组内39811.67172341.863总计46923.812088(一)方差分析中变量的类型 方差分析中的因变量是数量型变量。自变量可以是品质型变量,也可以是数量型变量。当自变量是数量型变量的时候,也要对其作统计分组设计,也就是将它按品质型变量来处理。 (二)总体的正态性和同方差 方差分析适用于多个正态总体Yi(i=1,2,m)均值的比较,且要求它们具有相同的方差。不过在实际应用中,即使对于正态性和同方差性都存在很大背离的数据,方差分析仍不失为一种提供有用的近似信息的技术。 三、关于方差分析的两点

21、说明89第五节 双因子方差分析一、问题的提出二、有交互作用的双因子方差分析90一、问题的提出 方差分析中的“因子”,也称因素。它是一个独立的变量(自变量)。在上一节的例子中,我们要分析饲料是否为影响增重产生差异的原因,所以饲料是因子。该例中所考察的因子只有“饲料”一个,而其他因子如鸡的品种,饲养条件等保持不变,我们称这种方差分析为单因子方差分析。如果要同时考察饲料和鸡的品种两个因子对小鸡的增重是否有影响,则称之为双因子方差分析。919293 在这里要注意,不能把A的r个处理和B的c个处理看成“随机样本”。现在的rc个处理是rc个总体,即Ai和Bj的每一种搭配形成的组格都是一个总体(随机变量Yi

22、j)。对一个组格总体的nij个观测yij1,yij2,yij 才是随机样本。 我们把Ai与Bj的搭配所形成的组格总体即随机变量Yij的期望值记作 ,于是可以写出与表6-5(样本)相应的总体期望值表如表6-6。 949596979899二、有交互作用的双因子方差分析 样本数据的方差分析恒等式。SST=SSA+SSB+SSAB+SSE (6.24) 式中,SST是总离差平方和, SSA 是A因子处理间的离差平方和, SSB 是B因子处理间的离差平方和, SSAB 是AB交互作用处理间的离差平方和, SSE 是组格内离差平方和。 100101102103104105106107108109第六节 Excel在假设检验与方差分析中的应用一、假设检验二、方差分析110一、假设检验 【例6-11】使用例6-1的数据进行假设检验(显著性水平0.05,双侧检验)。 解:操作步骤如下。1.构造工作表,见图6-2。图中方框内为计算所得数据,方框外为原始输入数据。注意,如果给出了具体的样本中每袋咖啡的重量,则样本均值、标准差、样本容量分别可以用AVERAGE函数、STDEV函数和COUNT函数进行计算。2.计算检验统计量Z(由于样本容量较大,所以使用Z统计量)。在B6单元格输入公

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论