统计学基础第九章课件_第1页
统计学基础第九章课件_第2页
统计学基础第九章课件_第3页
统计学基础第九章课件_第4页
统计学基础第九章课件_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章假设检验第一节 假设检验的一般问题第二节 单总体参数的假设检验本章内容第一节假设检验的一般问题 假设检验(hypothesis text)是先对总体参数提出某种假设,然后进行随机抽样,并根据样本的信息来验证该假设是否成立。 假设检验可分为参数检验和非参数检验两种。参数检验是对总体的参数进行检验,可进一步区分为单总体参数检验和多总体参数检验。而非参数检验是对总体的分布形式、随机变量独立性等方面进行检验。 本章只讨论单总体均值、比例、方差等参数的检验。一、假设检验的一般原理 假设检验的依据是小概率原理:在一个已知假设下,如果某个事件发生的概率非常小,我们通常认为,这个假设可能是不成立的。 小

2、概率原理是对人们日常思维习惯的抽象概括。在日常生活中,人们习惯于把概率非常小的事件,当作在一次观察中是不可能出现的事件。当然,如果我们认为某个事件是小概率事件,但在一次观察中却发生了,合理的解释自然是我们原来的看法有问题,也就是说,我们原来认定的事件可能并不是小概率事件。例1:ProCare Industries,Ltd.曾经提供了一种称为“性别选择”的产品,根据广告上的说法,这种产品可以使夫妇“将生一个男孩的概率增加到85,生一个女孩的概率增加到80。”对于想要男孩的夫妇,“性别选择”就装在一个蓝色的包装里,对于想要女孩的夫妇,“性别选择”就装在一个粉色的包装里。假设我们对100对想要女孩的

3、夫妇进行了一项实验,他们都遵照了在“性别选择”粉色包装上描述的“户内方便使用说明”。使用常识和非正规统计学方法来判断,如果100个婴儿中包含以下数量的女孩,我们应该对“性别选择”的有效性得出什么结论? 52个女孩 97个女孩答:在100个婴儿中,正常情况下会有大约50个女孩。52个女孩的结果接近于50,因此我们不应该认为“性别选择”产品是有效的。即使100对夫妇没有使用任何特殊的性别选择方法,52个女孩这个结果也可能很容易地发生。 在100个新生儿中有97个是女孩这个结果在偶然的情况下是非常不可能发生的。我们可以用两种方式来解释出现97个女孩这一现象:要么是极其罕见的事件偶然出现了,要么是“性

4、别选择”产品是有效的。因为出现97个女孩的概率极低,所以更有可能的解释就是这种产品是有效的。 理解了小概率原理,就理解了假设检验的思想:首先对总体参数建立某种假设(称为原假设)H0,然后经过随机抽样取得一组样本数据,如果根据样本数据计算的某个统计量(或多个统计量)在原假设H0成立的条件下发生的概率很小,就拒绝或否定这个原假设并继而接受其对立面备择假设。反之,如果该统计量在原假设H0成立的条件下发生的可能性不是很小,那么就接受原假设。 例2:假设某种饮料的商标上标明的容量为250毫升,标准差为4毫升。如果你从市场上随机抽取50瓶,发现其平均含量为248毫升。据此,可否断定饮料厂商欺骗了消费者?

5、分析:样本平均含量低于厂商声称的平均含量,其原因不外乎有两种:一是由抽样误差引起的。如果样本平均数与总体平均数之差不大,未超出抽样误差范围,则可认为两者之差就是由抽样误差引起的,饮料厂商不存在欺诈行为。二是由饮料厂商短斤少两引起的,即饮料厂商存在欺诈行为。在这种情况下,样本平均数与总体平均数之差就会超出抽样误差范围,因为其差异是厂商的有意行为。 抽样误差范围是与概率保证程度相联系的。对于正态分布总体,若取概率保证程度为99%,则样本平均数与总体平均数之差大于抽样平均误差的2.33倍,即,也就是说,或发生的概率只有1%(见图9-1)。因此,是一个小概率事件,这一事件在100次抽样中只发生一次,而

6、对于一次抽样而言,可认为小概率事件实际上不会发生。图9-1 1%概率示意图(=0.01) 解:在本例中, =248,=4,n=50,假设=250也就是说,对于一次抽样的结果,小概率事件发生了,这是不合常理的,所以可认为总体平均数250这一假设不成立,即该包装饮料的容量不足250毫升,厂商有欺诈故意。 二、假设检验的步骤 1建立假设 2选择检验统计量及其分布 3确定显著性水平、临界值、接受域、拒绝域,计算检验统计量的值,检验原假设是否成立。建立假设应注意的问题检验统计量的选择检验原假设是否成立三、两类错误 假设检验容易犯两类错误: 第一类错误(tape error ),即“弃真的错误”,是指根据

7、小概率原理,当原假设真时拒绝原假设而犯的错误。犯第一类错误的概率为,即显著性水平。 第二类错误(tape error ),即“纳伪的错误”,是指原假设假时没有拒绝原假设所犯的错误 。犯第二类错误的概率记为。 应当注意:只有当原假设被拒绝时,才会犯第一类错误;只有当原假设未被拒绝时,才会犯第二类错误。 决策结果实际情况原假设H0真原假设H0假未拒绝H0正确决策第二类错误拒绝H0第一类错误正确决策 两类错误的概率和存在着一定的关系:增大,则减小;减小,则增大。我们当然希望犯这两类错误的概率都尽可能的小,但实际上很难做到,唯一的办法是扩大样本容量,但扩大样本容量又受到各种因素的限制,因此我们往往是在

8、两类错误之间进行平衡,以使和控制在能够接受的范围内。 例3:某研究机构估计,某地大学生中手机保有率(大学生中拥有手机的比率)超过80。为验证这一估计是否正确,该机构拟在该地大学生中抽取样本进行检验。 建立的假设为: 原假设H0:80 备择假设H1:80 试描述第一类错误和第二类错误的含义。 解:第一类错误意味着:该地大学生中手机实际保有率不到80,但样本结果却拒绝了原假设,认为大学生手机保有率超过了80。 第二类错误意味着:该地大学生手机实际保有率超过了80,但样本结果却接受了原假设,认为大学生手机保有率不到80。四、利用P值进行假设检验 在原假设成立的条件下,检验统计量在某样本中至少达到相应

9、值的概率称为P值(P-value)。双侧检验:H0:0H1:0P值 左侧检验:H0:0H1:0 P值=右侧检验:H0:0H1:0 P值=根据P值进行假设检验: 通过样本观察数据计算检验统计量的值,查表得到该统计量值的概率即P值,然后将P值与所给的显著性水平对比,如果P值小于,则拒绝原假设;如果P值大于,则接受原假设。第二节单总体参数的假设检验一、单总体均值的检验 (一)总体满足正态分布N(,2),且方差2已知, 小样本(n30)时,统计量于是,总体均值的检验方法可 采取Z检验法。原假设:H0:0备择假设:H1:0检验统计量:拒绝域:双侧检验例4:根据长期经验,某厂生产的某产品的抗折能力服从正态

10、分布N(,64 kg2)。现从该厂所生产的一大批产品中随机地抽取10个样品,测得其抗折能力(单位:kg)分别为578,572,570,568,570,572,570,572,596,584。请问:这一批产品的平均抗折能力能否被认为是570kg(0.05)?解:根据题意,可建立假设如下: H0:570 kg H1:570 kg 查标准正态分布表可知,当显著性水平0.05时,双侧检验的临界值为1.96,则拒绝域为(,1.96)(1.96,)。 根据样本数据可知,样本均值 ,故检验统计量的值 即检验统计量的值落入拒绝域之内,所以要拒绝原假设H0:570 kg,接受备择假设,也就是说,不能认为这一批产

11、品的平均抗折能力是570 kg。原假设:H0:0备择假设:H1:0检验统计量:拒绝域:ZZ 右侧检验例5:能否认为这批产品的平均抗折能力超过570 kg (0.05)? 解:根据题意可建立假设如下: H0:570 kg H1:570 kg 显然这是一个右侧检验问题,拒绝域应在抽样分布的右端。查标准正态分布表可知,在显著性水平0.05下,临界值为Z1.65,即拒绝域为(1.65,)。 由于检验统计量的值Z2.0561.65,即落入拒绝域之内,故要拒绝原假设H0:570 kg,接受备择假设H1:570 kg,也就是说,可以认为这一批产品的平均抗折能力超过570 kg。原假设:H0:0备择假设:H1

12、:0检验统计量:拒绝域:ZZ 左侧检验 例6:某食品加工企业的质检部门规定,某种食品每包净重不得少于20 kg。经验表明,该食品的净重近似服从标准差为1.5 kg的正态分布。假定从一个由50 包食品构成的随机样本中得到的平均重量为19.5 kg,问:有无充分证据说明这些食品的平均重量减少了(0.05)? 解:根据题意可建立假设如下: H0:20 kg H1:20 kg 这是一个左侧检验问题,拒绝域应在抽样分布的左端。查标准正态分布表可知,在显著性水平0.05下,临界值为Z1.65,即拒绝域为(,1.65)。 由于样本均值 kg,总体方差2(1.5 kg)2,故检验统计量的值为 即检验统计量落入

13、了拒绝域,所以要拒绝原假设H0:20 kg,转而接受备择假设H1:20 kg,即检验结果充分说明这些食品的平均净重减少了。 Z检验可借助于Excel中的ZTEST函数来进行。步骤是: 打开Excel表,录入样本数据; 点击插入函数按钮“fx”,在出现的函数分类对话框中选择“统计”,并在函数名菜单中选择函数“ZTEST”,然后确定。 在所出现的对话框中,Array一栏输入样本数据所在区域;X一栏输入待检验参数0;Sigma一栏输入已知的总体标准差(若未知,则该栏可不填,系统自动以样本标准差S代替。 对话框中自动显示“计算结果”(或点击对话框中的“确定”按钮,在工作表会显示出计算结果)。 根据“计

14、算结果”计算P值,并与显著性水平比较。如果P值大于,则接受原假设;如果P值小于,则拒绝原假设,选择备择假设。前面双侧检验例子的Excel操作过程: P值=20.019916310.0398小于显著性水平0.05,故拒绝原假设而选择备择假设。 (二)总体满足正态分布N(,2),且方差2未知,小样本(n30)时,统计量于是,对总体均值的检验应采取t检验法。其中,S为样本标准差原假设:H0:0备择假设:H1:0检验统计量:拒绝域:双侧检验 例7:某种板材的厚度要求为5 mm,为了解板材生产设备的状况,随机抽取了18 块板材进行检查,测得其厚度资料如下: 已知板材厚度服从正态分布,试以0.05的显著性

15、水平检验生产设备性能是否良好。4.604.914.894.914.874.915.025.034.994.804.695.034.964.934.865.015.115.05 解:这是一个双侧检验的问题,可建立假设如下: H0:5 mm H1:5 mm 根据已知条件,选择检验统计量 根据样本数据,可计算出样本均值 =4.92 mm,样本标准差S=0.128 mm,则检验统计量的值为t=-2.632。 当显著性水平0.05,自由度n117时,查t分布表可知双侧检验临界值为t/2(17)2.1098。显然检验统计量的值落入拒绝域之内,因此要拒绝原假设,接受备择假设,说明该生产设备的性能不好。原假设

16、:H0:0备择假设:H1:0检验统计量:拒绝域:tt(n1) 右侧检验 例8:从某种蔬菜中随机抽取9件样品检测其农药含量,测得某种农药成分的平均值为0.325 mg/kg,标准差为0.068 mg/kg,国家卫生标准规定,蔬菜中农药残留量应0.3 mg/kg。假定蔬菜中该种农药残留量服从正态分布,问该种蔬菜中农药残留量是否超标(0.05)?解:根据题意可建立假设如下: H0:0.3 mg/kg H1:0.3 mg/kg 由已知条件可知,应进行右侧t检验,检验统计量 根据t分布表可知,当显著性水平0.05时,右侧检验临界值为t(8)1.86,即拒绝域为(1.86,)。 根据样本数据计算得检验统计

17、量的值为1.10291.86,即落入接受域内,故要接受原假设H0:0.3 mg/kg ,即没有充分的证据证明这种蔬菜中农药残留量超标。原假设:H0:0备择假设:H1:0检验统计量:拒绝域:t-t(n1) 左侧检验t检验也可借助于Excel中的TDIST函数计算出P值进行检验: 打开Excel表格,点击“f(x)”命令。 在函数分类中点击“统计”,并在函数名菜单下选择“TDIST”,然后确定。 在出现的对话框中,X一栏填入检验统计量t的绝对值,Deg-freedom一栏填入t分布的自由度,Tails一栏填入“1”或“2”(如果是单侧检验填入“1”,如果是双侧检验则填入“2”)。 在对话框填入相应

18、数据后,在下方会自动显示“计算结果”,此即P值。 将P值与显著性水平对比,如果大于则接受原假设,如果小于则拒绝原假设而选择备择假设。前面例子中对板材厚度进行的t检验借助于TDIST函数计算的结果见上图,P值=0.0174819650.05,故要拒绝原假设。 (三)任意总体,大样本(n30) 此时,根据中心极限定理可知(总体标准差已知)(总体标准差未知,以样本标准差S代替)或这时,均值的检验仍采取Z检验法。二、单总体成数的检验 在二项分布中,当n很大,np和n(1p)都大于5时,可用正态分布来逼近。也就是说,当n充分大时,样本成数p近似服从正态分布。基于此,当n充分大时,总体成数的假设检验可采取

19、Z检验法。 原假设:H0:0备择假设:H1:0检验统计量:拒绝域:双侧检验重复抽样条件下 例9:某杂志声称其读者群中有80%为女性。为验证这一说法是否属实,某研究部门抽取了由200人组成的一个随机样本,发现有146个女性经常阅读该杂志。分别取显著性水平=0.05和=0.01,检验该杂志读者群中女性的比例是否为80%?解:根据题意和已知条件,可建立假设如下: H0:80 H1:80 样本容量n200,其中女性读者n0146,故样本成数p146/20073 于是检验统计量的值为 当显著性水平0.05时,查标准正态分布表可知双侧检验临界值为,即拒绝域为(,1.96)(1.96,)。此时检验统计量的值

20、落入拒绝域,要拒绝原假设而选择备择假设,即认为该杂志的读者中女性比例不是80,该杂志的说法不实。原假设:H0:0备择假设:H1:0检验统计量:拒绝域:ZZ 左侧检验重复抽样条件下 例10:某地环保部门声称该地符合废气排放标准的工业企业至少达 60。但一个关心环境保护的社会团体不相信这个结论。于是从该地工业 企业中随机抽出了60家进行检测,发现有33家企业符合废气排放标准。试 以显著性水平0.05检验环保部门的结论是否属实? 解:根据题意可建立假设如下: H0:60 H1:60 n60,n033,则样本成数p33/6055 计算检验统计量的值Z=0.791 当显著性水平0.05时,查标准正态分布

21、表,可知左侧检验的临界值为Z1.65,即拒绝域为(,1.65)。由于检验统计量的值落入了接受域,所以没有充分的理由拒绝原假设,即必须接受原假设成立,可以认为该地符合废气排放标准的工业企业至少有60,环保部门的结论是可信的。原假设:H0:0备择假设:H1:0检验统计量:拒绝域:ZZ 右侧检验重复抽样条件下在非重复抽样条件下,样本成数p的抽样分布为:这时检验统计量可选择仍然采取Z检验法进行检验。其中N为总体容量。如果满足条件Nn,此时非重复抽样可近似地视作重复抽样,假设检验按重复抽样条件下的方法进行。三、单总体方差的检验(总体服从正态分布)原假设:H0:202 备择假设:H1:202 检验统计量:拒绝域: 或双侧检验 例11:啤酒生产企业采用自动生产线灌装啤酒,每瓶的装填量为640 ml,但由于受某些不可控因素的影响,每瓶的装填量会有差异。此时,不仅每瓶的平均装填量很重要,装填量的方差同样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论