第五章估计与假设检验_第1页
第五章估计与假设检验_第2页
第五章估计与假设检验_第3页
第五章估计与假设检验_第4页
第五章估计与假设检验_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章第五章 估计与假设检验估计与假设检验主要内容主要内容第一节第一节 总体参数估计总体参数估计第二节第二节 总体参数假设检验总体参数假设检验统计应用:多个例子统计应用:多个例子 估计新生儿的平均体重估计新生儿的平均体重 估计废品率估计废品率 估计降雨量估计降雨量 估计湖中鱼数估计湖中鱼数 估计学生月消费支出估计学生月消费支出这都是属于这都是属于估计的问题估计的问题统计应用:多个例子统计应用:多个例子n消费者协会接到消费者投诉,指控某品消费者协会接到消费者投诉,指控某品牌纸包装饮料存在容量不足,有欺骗消费牌纸包装饮料存在容量不足,有欺骗消费者之嫌。包装上标明的容量为者之嫌。包装上标明的容量为2

2、50毫升。毫升。消费者协会从市场上随机抽取消费者协会从市场上随机抽取50盒该品牌盒该品牌纸包装饮品,测试发现平均含量为纸包装饮品,测试发现平均含量为248毫毫升,小于升,小于250毫升。这是生产中正常的波毫升。这是生产中正常的波动,还是厂商的有意行为?动,还是厂商的有意行为?这属于假设检验的问题 参数估计参数估计:用样本统计量去估计总体的参 数。用来估计总体参数的统计量称估计量,根据一个具体样本计算出来的估计量的值为估计值。 估计形式估计形式: 点估计; 区间估计1、具体估计方法、具体估计方法在上一章例子:在上一章例子:2500名中层干部中,假如随机抽取了一个容量为30的样本: 假如假如根据该

3、样本求得的年薪样本平均数年薪样本平均数、标准差标准差及参加过培训计划人数比例参加过培训计划人数比例分别为:一、点估计(一、点估计(Point Estimation) p=19/30=0.63则可用它们分别估计2500名中层干部的平均年薪、年薪的标准差及受训比例。00.5181430/1554420nxxi72.334729325009260) 1(2nxxsi63. 030/19p 上述估计总体参数的过程被称为点估计点估计(point estimation),样本均值称为总体均值的点估计量点估计量(point estimator), 样本均值的具体数值称为总体均值的点估计值点估计值(point

4、 estimate),如此等等。2、点估计的优缺点、点估计的优缺点 优点: 得出总体参数的具体估计值; 缺点:无法得知估计值可靠性的概率情况3、点估计的方法、点估计的方法(1)矩估计(2)极大似然估计4、点估计量的性质:估计量优劣的衡量、点估计量的性质:估计量优劣的衡量 估计总体的某一指标,并非只能用一个样本指标,而可能有多个指标可供选择,即对同一总体参数,可能会有不同的估计量。 然而,作为一个好的点估计量一个好的点估计量,统计量必须具有如下性质: 无偏性(无偏性(Unbiasedness) E(*)= 有效性有效性(Efficiency) D(1)=30),不论总体分布形式如何,均可用上述方

5、法进行总体均值的区间估计,这时,如果总体方差未知,则直接用样本方差代替。 在前面中层干部平均年薪例中中层干部平均年薪例中, 如果假设总体均值及方差未知,一次容量为30的抽样的样本均值及标准差分别为51814与3347.72, 由于是大样本,则可求置信度为95%的置信区间如下:97.1197518143072.334796. 1518142nsZx 某工厂有1500个工人,用重置抽样的方法抽取50个工人作为样本,调查其工作水平如下表:工资水平(元) 124 134 140 150 160 180 200 260 工人数(人) 4 6 9 10 8 6 4 3要求:(1)计算样本平均工资和抽样平均

6、误差。(2)以95.45%的概率保证估计该工厂平均工资的置信区间。例例2 21605800050326042006180816010150914061344124x7763.321503)160260(6)160134(4)160124(1)(2222nfxxsi6352. 40711. 77763.32507763.32nsx解:1、202275. 02 zz6352. 421602nszx2、即(150.7296,169.2704)所以在以95.45%的概率保证下,该工厂平均工资的置信区间为(150.7296,169.2704)。 2、小样本下总体方差未知时,正态分布总体均值、小样本下总体

7、方差未知时,正态分布总体均值的区间估计的区间估计 如果是小样本,但总体为正态分布,在总体方差未知而需用样本方差替代时,则nsx/服从自由度为n-1的t分布。于是在给定置信度为1,可由t分布表查得临界值) 1(2nt,使得1) 1(/|2ntnsxP从而可得置信度为1时总体均值的置信区间:nstx2|或: nstxnstx22注意:注意:如果小样本下总体分布非正态,则无法进行区间估计,唯一的解决方法就是增大样本。 某厂生产的一种塑料口杯的重量某厂生产的一种塑料口杯的重量X被认为服从正态分布,今随机抽取被认为服从正态分布,今随机抽取9个,个,测得其重量为(单位:克):测得其重量为(单位:克):21

8、.1,21.3,21.4,21.5,21.3,21.7,21.4,21.3,21.6。试用试用95%的置信度估计全部口杯的平均重的置信度估计全部口杯的平均重量。量。( )0.025(8)2.306t例例3 3 (二)总体比率的区间估计(二)总体比率的区间估计 在大样本下大样本下,样本比率样本比率的分布趋近于均值为总体比率P、方差为P(1-P)/n的正态分布,则 nPPPp/ )1 ( N(0,1)即服从标准正态分布。 因此,给定置信度1,查标准正态分布表找出临界值2Z,从而可得总体比例(率)的区间估计:ppZpPZp22 1995.4.10今日美国对369名有工作的父母的一项调查表明,他们当中

9、有200名承认由于工作关系而使得与其子女相处时间过少。A、求总体中由于工作关系而使得与其子女相处时间过少父母所占的比率的点估计。B、求总体中由于工作关系而使得与其子女相处时间过少父母所占比率的95置信区间估计。例例4 4 总体均值区间估计程序总体均值区间估计程序n=30?知否?nzx2用s代替nszx2总体是否接近正态分布?知否?nzx2用s代替nstx2增大样本容量至n=30yesNoyesNoyesyesNoNo三、样本容量的确定 样本容量对估计精度有较大的影响,从理论上理论上说,样本容量越大,对总体特征的估计误差越小;但从从实践角度实践角度看,抽样数目过大,则会增大调查及相关的工作量。因

10、此,样本容量的确定是至关重要的。1、 影响必要样本容量的因素 第一, 总体各单位标志变异程度 第二, 允许的极限误差的大小(精度) 第三, 抽样方式 第四, 抽样推断的可靠程度(置信度)2、 计算公式(1)重置抽样必要样本容量的确定(2)不重置抽样必要样本容量的确定22222Pp2222222pQ 得, 进行恒等变换 PQ对 得, 进行恒等变换 对PpxxxxZnnZZZnnZZPQNPQN , )Nn-(1PQNN , )Nn-(12222222Pp2222222222ZZnnZZZZnnZZppxxxx得进行恒等变换对得进行恒等变换对3、计算必要样本容量应注意的问题、计算必要样本容量应注意

11、的问题(1)上面公式计算的样本容量是最低的,也是最必要的样本容量。(2)上面计算公式计算样本容量时,如果总体方差是未知的,需要用前面实验数据、样本资料来代替的话,一般要选择大的方差,如是成数,可以用0.25来代替。(3)如果进行一次抽样调查,同时对总体均值和总体比率进行区间估计,运用上式计算两个样本容量,一般情况下选择大的(4)计算结果如是小数,不能采用四舍五入,而采用取整。 某药厂为了检查瓶装药品数量,从成品库随机抽检100瓶,结果平均每瓶101.5片,标准差为3片。请以99.73%的把握程度推断成品库该种药平均每瓶数量的置信区间,如果允许误差减少到原来12,其他条件不变,问需要抽取多少瓶?

12、解:由已知可得n=100 1- = 99.73 3 5 .101sx之间。量在成品库该药平均每瓶数即:)平均数置信区间为(片片4 .102-6 .1009 . 05 .1019 . 05 .101x,x)(9 . 033 . 0)( 3 . 010032XZnsnxxxxx例例4 4(接上页))(40045. 033sn45. 021222222222瓶根据片,即来的如果允许误差减少到原xZnsZZxxx练习练习5:某冷库对储藏一批禽蛋的变质率进行调查,根据以往的资料,禽蛋的变质率分别为53、49、48,现在允许误差不超过5,推断的概率保证程度为95,问至少要抽取多少禽蛋进行检查?个禽蛋。应抽

13、取因此选择,个值分别计算方差:成数有解:由已知得385006.38405. 051. 049. 096. 1n49. 0P2496. 052. 048. 0 2499. 051. 049. 02491. 047. 053. 0 3 05. 0 1.96 95%122222pp2PPQZZ(一)假设检验(一)假设检验(Hypothesis Testing)问题的提出问题的提出 有许多实际问题,通过部分信息量,对某种看法进行判定或估计。 例例1、某企业生产一种零件,以往的资料显示零件平均长度为4cm,标准差为0.1cm。工艺改革后,抽查100个零件发现其平均长度为3.94cm。问:工艺改革后零件长

14、度是否发生了显著变化? 例例2、某厂有一日共生产了200件产品,按国家标准,次品率不得超过3%才能出厂。现从该批产品中随机抽取10件,发现其中有2件次品,问这批产品能否出厂。 这两个例子中都是要对某种对某种“陈述陈述”做出判断做出判断: 例1要判明判明工艺改革后零件平均长度是否仍为4cm; 例2要判明判明该批产品的次品率是否低于3%。进行这种判断的信息来自所抽取的样本 一、 假设检验的一般问题 所谓假设检验假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是接受还是否定原假设。 假设检验分两类假设检验分两

15、类:(1)参数假设检验;(2)非参数检验或自由分布检验。(二)(二)假设检验的基本思想假设检验的基本思想 1、假设检验采用的逻辑推理方法是反证法。 为了检验某假设是否成立,先假定它正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设; 2、判断结果合理与否,是基于“小概率事件不易发生”这一原理的。 即在一次抽样中,小概率事件不可能发生。如果在原假设下发生了小概率事件,则认为原假设是不合理的;反之,小概率事件没有发生,则认为原假设是合理的。 3、假设检验是基于样本资料来推断总体特征的,而这种推断是在一定概率置信度下进行的,而非严格的逻辑证明。 因此,置信度大小的不同,

16、有可能做出不同的判断。 在例例1中,要判断判断工艺改革后零件平均长度是否仍为4cm,可先假设仍为4cm,根据样本平均数的抽样分布理论,则样本点应以较大的可能性(置信度)落在以4为中心的某一范围内,或者说,在给定置信度 下: 120Znx其中,0为所要检验的假设(这里为4cm) , 为总体标准差(这里为0.1cm) , x为样本均值(这里为3.94cm) , n为样本容量(这里为100) , 2Z为置信度为1下,标准正态分布对应的右尾临界值。如 果 取 置 信 度 为0.99,即 显 著 性 水 平为 0.01, 此时 临 界 值 为58. 22Z,通过样本计算得:58. 25)100/1 .

17、0/(|494. 3|)(|nx,说明小小概概率率事事件件(标准化后的样本均值只有 1%的可能性落在 2.58右边)发发生生了了,这这是是不不合合理理的的,应应拒拒绝绝原原假假设设。 (三)假设检验的步骤(三)假设检验的步骤 1、提出原假设(null hypothesis)和备择假设(alternative hypothesis) 原假设为正待检验的假设:H0;备择假设为可供选择的假设:H1 一般地,假设有三种形式: (1)双侧检验: (2)左侧检验: 或 (3)右侧检验: 或 2、选择适当的统计量,计算检验统计量的观测值 统计量是根据所涉及的问题而定的,如总体均值、比例(率)选取正态分布的Z

18、统计量等。0100:;:HH0100:;:HH0100:;:HH0100:;:HH0100:;:HH 3、选择显著性水平或置信度,确定拒绝域 显著性水平显著性水平为原假设为真时,样本点落在临界值外的概率(即抽样结果远离中心点的概率)为小概率的值。临界值将样本点所落区域分为拒绝域拒绝域与接受域接受域,临界值“外”为拒绝域,“内”为接受域。 4、作出结论 通过样本计算统计量的具体值,与临界值比较,根据落入拒绝域或接受域的情况来拒绝或接受原假设。 /21/2-Z/2 Z/2 Z 0 0 Z双侧检验左侧检验右侧检验 (四)假设检验中的两类错误(四)假设检验中的两类错误 由于假设检验是根据有限的样本信息

19、来推断总体特征,由样本的随机性可能致使判断出错。 1.第一类错误第一类错误 当原假设为真时,而拒绝原假设所犯的错误,称为第称为第I类错类错误误或拒真错误拒真错误。易知犯第I类错误的概率就是显著性水平 : 2.第二类错误第二类错误 当原假设为假时,而接受原假设所犯的错误,称为第称为第II类错类错误误或采伪错误采伪错误。犯第II类错误的概率常用 表示: 假设检验中的四种可能情况假设检验中的四种可能情况 H0为真 H0不真 接受H0 Good Bad/Type II error 拒绝H0 Bad/Type I error Good)|(00trueisHHrejectP)|(00falseisHHr

20、ejectnotP 注意:注意: 1、犯第一类错误与犯第二类错误的概率存在此消彼长的关系; 2、若要同时减少 与 ,须增大样本容量n。 3、通常的作法是通常的作法是,取显著性水平较小,即控制犯第一类错误的概率在较小的范围内; 4、在犯第二类错误的概率不好控制时,将“接受原假设”更倾向于说成“不拒绝原假设”。二、二、 总体均值、比例的假设检验总体均值、比例的假设检验(一)总体均值的假设检验(一)总体均值的假设检验 1、总体方差已知,正态总体,样本大小不限、总体方差已知,正态总体,样本大小不限 注意注意: 如果总体方差未知,且总体分布未知,但如果是大样本(n=30),仍可通过 Z 统计量进行检验,

21、只不过总体方差需用样本方差 s 替代。 如果总体2,NX,在方差已知的情况下,对总体均值进行假设检验。由于),(2nNx,因此,可通过构造 Z 统计量来进行假设检验:) 1 , 0(0NnxZ 例例3:根据以往的资料,某厂生产的产品的使用寿命服从正态分布N(1020, 1002)。现从最近生产的一批产品中随机抽取16件,测得样本平均寿命为1080小时。问问这批产品的使用寿命是否有显著提高(显著性水平:5%)? 提出假设提出假设:H0: ,H1: 检验统计量检验统计量: 0.05 由 ,查表得临界值查表得临界值: 比较比较:计算的Z=2.4 =1.645 判断判断:拒绝H0,接受H1,即这批产品

22、的寿命确有提高。102010204 . 216100102010800nxZ05. 0645. 105. 0 ZZZ1.645这时只能用 t 统计量进行假设检验:注注:如果总体分布也未知,则没有适当的统计量进行假设检验,唯一的解决办法是增大样本,以使样本均值趋向于正态分布,从而再采用Z统计量。 )1(/0ntnsxt2、总体方差未知,正态总体,小样本、总体方差未知,正态总体,小样本 (二)总体比例的假设检验(二)总体比例的假设检验 大样本下,样本比例趋向于正态分布,因此可通过构造Z统计量的方法进行假设检验:注注:1、如果总体比例P未知,可用样本比例p替代。 2、Z统计量只适合大样本情况下的总体比例检验。)1 ,0()1 (0NnPPPpZ三三 、 假设检验中的其他问题假设检验中的其他问题(一)区间估计与假设检验的关系区间估计与假设检验的关系 1、区别:、区别: 区间估计区间估计是依据样本资料估计总体的未知参数的可能范围; 假设检验假设检验是根据样本资料来检验对总体参数的先验假设是否 成立。 区间估计区间估计通常求得的是以样本为中心的双侧置信区间; 假设检验假设检验不仅有双侧检验也有单侧检验。 区间估计区间估计立足于大概率,通常以较大的把握程度(可信度) 1- 去估计总体参数的置信区间; 假设检验假设检验立足于小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论