第六章-参数估计_第1页
第六章-参数估计_第2页
第六章-参数估计_第3页
第六章-参数估计_第4页
第六章-参数估计_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章参数估计1本章主要内容:第一节点估计第二节区间估计第三节样本容量的确定2第一节点估计一、点估计的定义点估计就是根据总体参数与样本统计量之间的内在联系,直接以样本统计量作为相应总体参数的估计量,点估计又称为定值估计。在统计中经常使用的点估计量有:等号表示用样本统计量对应总体参数估计量例6-1点估计的优点—直接给出总体参数的估计值不足:不能提供估计误差的信息因此,需要对用于点估计总体参数的样本统计量进行评价5点估计的评价标准无偏性

有效性

一致性无偏性(unbiasedness)无偏性:总体参数估计量的抽样分布均值等于被估计的总体参数

P(

)BA无偏有偏7证明:样本方差S2是总体方差σ2的无偏估计量,即E(S2)=σ2证:其中:例总体的均值8这就是为什么对总体方差进行估计时,样本方差公式所除的不是样本量n,而是n-1的原因。有效性(efficiency)有效性:对于两个无偏估计量如果则说明估计量AB较小的抽样分布较大的样本量P(

)一致性(consistency)一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数大数定理AB较小的样本容量较大的样本容量P(

)由大数定理我们知道,样本容量越大,该样本中获得的样本平均数更容易符合无偏、有效且一致的要求;因为成数是一个特殊的平均数,该结论对成数估计也成立。第二节区间估计一、区间估计的含义区间估计,是估计总体参数的区间范围,并要求给出区间估计成立的概率值。设和都是两个统计量(),分别作为总体参数区间估计的下限与上限,则要求:区间估计弥补了点估计只给出总体参数的具体估计值而没有说明这个估计值的误差、可靠性的不足区间估计中的α(0<α<1)是区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%;1-α称为置信度或置信水平。因此,总体参数的估计区间也称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。区间估计的图示

x95%的样本

-1.96

x

+1.96

x99%的样本

-2.58

x

+2.58

x90%的样本

-1.65

x

+1.65

x17理解置信区间例如:抽取100个样本,根据每一个样本构造一个置信区间。这样,由100个样本构造的总体参数的100个置信区间中,有95%的区间包含了总体参数的真值,而5%则没包含。这里,95%这个值称为置信度,5%称为显著性水平。4-18样本统计量

(点估计)置信区间置信下限置信上限4-19我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解?通常的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。正确的理解:如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包括真值。真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。20在实际问题中,进行估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平下的置信区间。由于该样本所构造的区间是一个特定的区间,而不再是随机区间,所以无法知道这个样本所产生的区间是否包含总体参数的真值。我们只是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个。实际理解:我们有95%的信心相信该班同学的平均成绩的真值落在(60,80)的区间使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确(较窄)的区间。直观地说,较宽的区间会有更大的可能性包含参数但实际应用中,过宽的区间往往没有实际意义比如,天气预报说“在一年内会下一场雨”,虽然这很有把握,但有什么意义呢?另一方面,要求过于准确(过窄)的区间同样不一定有意义,因为过窄的区间虽然看上去很准确,但把握性就会降低,除非无限制增加样本量,而现实中样本量总是有限的区间估计总是要给结论留点儿余地22区间估计的基本要素包括:样本点估计值、抽样极限误差、估计的置信度样本点估计值抽样极限误差:可允许的误差范围。抽样估计的置信度。23注意:本教材所进行的区间估计仅指对总体平均数或成数的区间估计,并且在际计算过程中使用下面的式子。式中Δ是极限误差。244-25区间估计的内容

2

已知

2未知

均值方差比例置信区间二、平均数的区间估计1、正态总体、总体方差已知4-2728即通过移项转化,可得总体均值μ在1-α置信水平下的置信区间为:临界值也称概率度抽样平均误差极限误差△

注意:如果是非重复抽样,对抽样平均误差的计算还要乘以修正系数置信区间29已知置信区间求置信度30通过临界值去查标准正态分布,可得出上式的置信度是1-α。31极限误差、抽样平均误差与概率度

三者关系:或者:总体均值的区间估计【例6-2】在某天生产的500袋食品中,按不重复抽样方法随机抽取25袋进行检查,测得平均每袋的重量为996g。已知该种袋装食品的重量服从正态分布,且标准差为20g。试1、估计该种食品平均重量的置信区间,置信水平为95%。2、如果要求误差不超过10克,置信度是多少?解:已知X~N(

,202),n=25,1-=95%,z

/2=1.96

总体均值

在1-

置信水平下的置信区间为置信度为99%当总体服从正态分布但方差未知时,可用样本的标准差S代替总体标准差。这时,样本均值经标准化处理后的随机变量服从自由度为n-1的t分布:342.正态总体、总体方差未知(即

2未知)

t分布

t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,一般当n≥30时,t分布的密度函数与标准正态分布非常接近Xt

分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)Z37

当总体服从正态分布且方差(

2)已知,或者总体不是正态分布但为大样本时,样本均值经标准化处理后的随机变量服从标准正态分布:38总体方差已知与未知的区间估计39注意:1、当样本数超过30时,t分布与标准正态分布非常接近,这时候可以直接从标准正态分布表查临界值;2、在总体方差未知时,用样本方差来代替总体方差,这时,样本方差的计算要除以n-1。【例6-3】麦当劳餐馆在7星期内抽查49位顾客的消费额(元)如下,求在置信度90%的保证下,顾客平均消费额的估计区间。15 24 38 26 30 42 1830 25 26 34 44 20 3524 26 34 48 18 28 4619 30 36 42 24 32 4536 21 47 26 28 31 4245 36 24 28 27 32 3647 53 22 24 32 46 264041例6-342

第二步:根据给定的置信度90%,查正态分布概率表得Z=1.64

第三步:计算极限误差据此估计,总体平均消费额下限=总体平均消费额上限=区间估计:以90%的置信水平下,麦当劳餐馆顾客消费额在29.8~34.2元之间。4-43

如果不是正态总体,或分布未知总体方差已知且是大样本总体方差未知且是大样本

此时不考虑小样本情况因此,大样本情况下,直接用标准正态分布求置信区间即可。成数指标是一个特殊的平均数。所以,类似于总体平均数的区间估计,总体成数的区间估计是:式中的成数抽样平均误差在重复抽样条件下是:44(三)成数指标的区间估计在不重复抽样的条件下是:

在实践中,由于总体成数常常未知,这时,抽样平均误差公式中的总成数用样本成数代替。454-46成数的区间估计由于总体的分布是(0,1)分布,只有在大样本的情况下,才服从正态分布。总体成数可以看成是一种特殊的平均数,类似于总体平均数的区间估计,总体成数的区间估计的上下限是:4-47注意:在实践中,由于总体成数常常未知,这时,抽样平均误差公式中的总体成数用样本成数代替。大样本的条件:np≥5且n(1-p)≥5,由于总体成数p通常未知,可以用样本成数来近似判断。48【例6-4】某工厂要估计一批总数5000件的产品的废品率,于是随机抽出400件产品进行检测,发现有32件废品。试给出该批产品的废品率的区间估计(置信度是90%)。49由于np=400×8%=32>5,属于大样本场合,这时候,临界值可查标准正态分布表得到。查标准正态分布表得:解:n=400,N=5000,样本废品率P=32/400=8%。置信度1-α=90%,α=10%,α/2=5%。50因此,这批产品废品率的区间估计是:即这批产品的废品率在5.9%与10.1%之间。51四、样本容量的确定极限误差、概率度与抽样平均误差三者间的数量关系是:当抽样平均误差保持不变时,极限误差与概率度两者间关系是:Δ减小(提高精度),Z(概率度)也减小了。52因此,抽样估计的精度与可靠性之间存在矛盾:(1)要提高精度(Δ减小),需以牺牲概率度(Z减小)为代价;(2)要提高概率度(Z增大),又要以牺牲估计精度(Δ增大)为代价。在不变的情况下,这对矛盾是不可调和的。5354(一)估计总体均值时样本容量的确定55【例6-5】某企业想估计其职工上个月上下班花在路途上的平均时间。经验表明,总体标准差为4.3分钟。以置信度95%的置信区间进行估计,并使估计值处在真正平均值附近1分钟的误差范围之内。该企业应抽取多大的样本?解:已知该企业至少应该抽取72名职工作为样本。例5657(二)估计成数时样本容量的确定58(三)使用上述公式应注意的问题1.计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:一是用历史资料已有的方差与成数代替;二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。592.如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,应取其中最大的结果,同时满足两方面的需要。3.上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,而是取比这个数大的最小整数代替。例如计算得到:n=56.3,那么,样本容量取57,而不是56。【例6-6】对企业产品合格率进行抽样调查,根据历史上进行的二次调查资料,合格率分别是15%和13%,这次调查要求误差不超过5%,概率保证程度为95%,问至少要抽出多少产品作为样本?6061

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论