参数估计与样本容量_第1页
参数估计与样本容量_第2页
参数估计与样本容量_第3页
参数估计与样本容量_第4页
参数估计与样本容量_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4-1第三节总体参数估计本节主要内容:总体参数估计概述总体参数的点估计参数区间估计样本容量的确定2017-6-5大学生每周上网花多少时间?为了解学生每周上网花费的时间,中国人民大学公共管理学院的4名本科生对全校部分本科生做了问卷调查。调查的对象为中国人民大学在校本科生,调查内容包括上网时间、途径、支出、目的、关心的校园网内容,以及学生对收费的态度,包括收费方式、价格等问卷调查由调查员直接到宿舍发放并当场回收。对四个年级中每年级各发60份问卷,其中男、女生各30份。共收回有效问卷共200份。其中有关上网时间方面的数据经整理如下表所示2017-6-5大学生每周上网花多少时间?回答类别人数(人)频率(%)3小时以下32163~6小时3517.56~9小时3316.59~12小时2914.512小时以上7135.5合计200100平均上网时间为8.58小时,标准差为0.69小时。全校学生每周的平均上网时间是多少?每周上网时间在12小时以上的学生比例是多少?你做出估计的理论依据是什么?4-4一、总体参数估计概述设待估计的总体参数是θ,用以估计该参数的统计量是,抽样估计的极限误差是Δ,即:极限误差是根据研究对象的变异程度和分析任务的性质来确定的在一定概率下的允许误差范围。参数估计的两个要求:精度:估计误差的最大范围,通过极限误差来反映。显然,Δ越小,估计的精度要求越高,Δ越大,估计的精度要求越低。极限误差的确定要以实际需要为基本标准。可靠性:估计正确性的一个概率保证,通常称为估计的置信度。2017-6-5参数估计(parameterestimation)就是用样本统计量去估计总体的参数估计量:用于估计总体参数的统计量的名称如样本均值,样本比例,样本方差等例如:样本均值就是总体均值的一个估计量参数用表示,估计量用表示估计值:估计参数时计算出来的统计量的具体值如果样本均值x=80,则80就是的估计值估计量与估计值

(estimator&estimatedvalue)4-6二、总体参数的点估计点估计的含义:直接以样本统计量作为相应总体参数的估计量。4-7优良估计量标准优良估计标准:无偏性:要求样本统计量的平均数等于被估计的总体参数本身。一致性:当样本容量充分大时,样本统计量充分靠近总体参数本身。有效性:总体方差的无偏估计量为样本方差点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围区间估计。2017-6-5无偏性

(unbiasedness)无偏性:估计量抽样分布的数学期望等于被估计的总体参数2017-6-5有效性

(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效

2017-6-5一致性

(consistency)一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数4-11三、参数区间估计参数区间估计的含义:估计总体参数的区间范围,并给出区间估计成立的概率值。其中:1-α(0<α<1)称为置信度;α是区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%。注间对上式的理解:例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区间包含了总体参数的真值,而5%的置信区间则没有包含。这里,95%这个值被称为置信水平(或置信度)。一般地,将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。4-12样本统计量

(点估计)置信区间置信下限置信上限我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解?错误的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。正确的理解:如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包括真值。真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。如果大家还是不能理解,那你们最好这样回答有关区间估计的结果:该班同学平均成绩的置信区间是60-80分,置信度为95%。2017-6-5区间估计的图示2017-6-5置信区间的表述

(95%的置信区间)从均值为185的总体中抽出n=10的20个样本构造出的20个置信区间我没有抓住参数!点估计值2017-6-5使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确(较窄)的区间。直观地说,较宽的区间会有更大的可能性包含参数但实际应用中,过宽的区间往往没有实际意义比如,天气预报说“在一年内会下一场雨”,虽然这很有把握,但有什么意义呢?另一方面,要求过于准确(过窄)的区间同样不一定有意义,因为过窄的区间虽然看上去很准确,但把握性就会降低,除非无限制增加样本量,而现实中样本量总是有限的区间估计总是要给结论留点儿余地置信区间的表述

(confidenceinterval)4-16区间估计的基本要素包括:样本点估计值、抽样极限误差、估计的可靠程度样本点估计值抽样极限误差:可允许的误差范围。抽样估计的可靠程度(置信度、概率保证程度)及概率度注意:本教材所进行的区间估计仅指对总体平均数或比例的区间估计,并且在际计算过程中使用下面的式子。式中Δ是极限误差。4-17区间估计的内容2

已知2未知均值方差比例置信区间4-18平均数的区间估计对总体平均数或成数的区间估计时,使用下面的式子

(式中Δ是极限误差)有两种模式:1、根据置信度1-α,求出极限误差Δ,并指出总体平均数的估计区间。2、给定极限误差,求置信度。2017-6-5总体均值区间的一般表达式总体均值的置信区间是由样本均值加减估计误差得到的估计误差由两部分组成:一是点估计量的标准误差,它取决于样本统计量的抽样分布。二是估计时所要的求置信水平为时,统计量分布两侧面积为的分位数值,它取决于事先所要求的可靠程度总体均值在置信水平下的置信区间可一般性地表达为样本均值±分位数值×样本均值的标准误差4-20当σ已知时,根据相关的抽样分布定理,服从标准正态分布

N(0,1)。查正态分布概率表,

可得(一般记为),则,根据重复抽样与不重复抽样的求法的不同,进一步可得总体平均数的估计区间:重复抽样时,区间的上下限为:不重复抽样时,区间的上下限为:平均数区间估计—第1种模式(求置信区间)4-214-22平均数区间估计—第1种模式(求置信区间)若总体方差未知,则在计算时,使用样本方差代替总体方差,此时

服从自由度为n-1的t分布。查t分布表可得,并记为于是:重复抽样时,区间的上下限为:不重复抽样时,区间的上下限为:大样本时,t分布与标准正态分布非常接近,可直接从标准正态分布表查临界值4-23例:总体平均数的区间估计1对某型号的电子元件进行耐用性能检查,抽查资料分组如下表,要求估计该批电子元件的平均耐用时数的置信区间(置信度95%)。4-2468.27%的样本表示样本均值落在…区间的概率是1-α,例对总体均值区间估计的进一步理解2017-6-5总体均值的区间估计

(大样本的估计)1. 假定条件总体服从正态分布,且方差(2)

已知如果不是正态分布,可由正态分布来近似(n

30)使用正态分布统计量z总体均值在1-置信水平下的置信区间为例5-7某企业加工的产品直径X是一随机变量,且服从方差为0.0025的正态分布。从某日生产的大量产品中随机抽取6个,测得平均直径为16厘米,试在0.95的置信度下,求该产品直径的均值置信区间。解:本例产品数量很多,即总体单位数N很大,故采用放回抽样的有关公式计算。样本平均数样本平均的标准差抽样极限误差所求μ的置信区间为:16-0.04<μ<16+0.04即(15.96,16.04)。2017-6-5总体均值的区间估计

(小样本的估计)1. 假定条件总体服从正态分布,但方差(2)

未知小样本(n<30)使用t

分布统计量总体均值在1-置信水平下的置信区间为例5-8在例5-3中,若总体方差未知,但通过抽取的6个样本测得的样本方差为0.0025,试在0.95的置信度下,求该产品直径的均值置信区间。解: 所求μ的置信区间为:16-0.0525<μ<16+0.0525,即(15.95,16.05)。4-29平均数区间估计—第2种模式(求置信度)给定极限误差,求置信度4-30例:总体平均数的区间估计2例:经抽样调查计算样本亩产粮食600公斤,并求得抽样平均误差为3公斤,现给定允许极限误差为6公斤,求置信区间包含总体平均亩产的概率,即求置信水平。结果表明,如果多次反复抽样,每次都可以由样本值确定一个估计区间,每个区间或者包含总体参数的真值,或者不包含总体参数的真值,包含真值的区间占F(z),即每一万次抽样,就有9545个样本区间包括总体亩产,其余455个样本区间不包括总体平均数,即若接受估计区间的判断要冒4.55%的机会犯错误的风险。4-31例:总体平均数的区间估计3对某型号的电子元件进行耐用性能检查,抽查资料分组如下表,设该厂的产品质量检验标准规定,元件耐用时数达到1000小时以上为合格品。要求估计该批电子元件的合格率,置信水平95%。4-32总体均值区间估计总结总体平均数估计区间的上下限总体方差已知N(0,1)重复抽样不重复抽样总体方差未知t(n-1)大样本时近似服从N(0,1)重复抽样不重复抽样

如果是正态总体4-33

如果不是正态总体,或分布未知总体方差已知且是大样本总体方差未知且是大样本

此时不考虑小样本情况因此,大样本情况下,直接用标准正态分布求置信区间即可。总体均值的区间估计总体分布小样本正态分布未知分布样本容量大样本区间估计(放回)总体方差已知未知未知已知大样本小样本大样本大样本4-35比例的区间估计由于总体的分布是(0,1)分布,只有在大样本的情况下,才服从正态分布。总体比例可以看成是一种特殊的平均数,类似于总体平均数的区间估计,总体比例的区间估计的上下限是:注意:在实践中,由于总体比例常常未知,这时,抽样平均误差公式中的总体成数用样本成数代替。大样本的条件:np≥5且n(1-p)≥5,由于总体比例p通常未知,可以用样本比例来近似判断。4-36总体比例估计区间估计总结总体成数比例估计区间的上下限 只考虑大样本情况(请记住大样本条件)

【例6-6】估计某市居民家庭电脑的普及率,随机抽取900户居民调查,其中675户居民拥有个人电脑。以概率95.45%的保证程度,估计该市居民电脑的普及率的置信区间。

解:样本比例:,

,所以=(72.2%,77.8%)即以概率95.45%的保证程度,此次抽样得该市居民电脑的普及率的区间估计为72.2~78.8%之间。2017-6-5总体方差的区间估计1. 估计一个总体的方差或标准差2. 假设总体服从正态分布总体方差2

的点估计量为s2,且4.总体方差在1-置信水平下的置信区间为2017-6-5总体方差的区间估计

(图示)2017-6-5总体方差的区间估计

(例题分析)【例5-5】一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间

25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.32017-6-5总体方差的区间估计

(例题分析)解:已知n=25,1-=95%,根据样本数据计算得

s2=93.21

2置信度为95%的置信区间为该企业生产的食品总体重量标准差的的置信区间为7.54g~13.43g4-43对总量指标的区间估计在对总体平均数进行区间估计的基础上,可进一步推断相应的总量指标,即用总体单位总数N分别乘以总体平均数的区间下限和区间上限,便得到相应总量(Nμ)的区间范围。4-44例1某厂对一批产品的质量进行抽样检验,采用重复抽样抽取样品200只,样本优质率为85%,试计算当把握程度为90%时优质品率的区间范围。4-45例2某商场从一批食品(共800袋)中随机抽取40袋(假设用重复抽样),测得每袋平均重量为791.1克,标准差为17.136克,要求以95%的把握程度,估计这批食品的平均每袋重量以及这批食品总重量的区间范围。[800*778.84,800*803.36],即[623072,642688]

4-46三、样本容量确定什么是样本容量确定问题?4-47确定样本容量在设计抽样时,先确定允许的误差范围和必要的概率保证程度,然后根据历史资料或试点资料确定总体的标准差,最后来确定样本容量。估计总体均值时样本容量的确定重复抽样不重复抽样估计成数时样本容量的确定重复抽样不重复抽样4-48确定样本容量应注意的问题计算样本容量时,一般总体的方差与比例都是未知的,可用有关资料替代:一是用历史资料已有的方差与比例代替;二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;三是成数方差在完全缺乏资料的情况下,就用比例方差的最大值0.25代替。如果进行一次抽样调查,同时估计总体均值与比例,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:n=56.03,那么,样本容量取57,而不是56。4-49例:确定样本容量1对某批木材进行检验,根据以往经验,木材长度的标准差为0.4米,而合格率为90%。现采用重复抽样方式,要求在95.45%的概率保证程度下,木材平均长度的极限误差不超过0.08米,抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少?4-50例:确定样本容量2对某批木材进行检验,根据以往经验,木材的合格率为90%、92%、95%。现采用重复抽样方式,要求在95.45%的概率保证程度下,抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少?2017-6-5

练习1

一家保险公司收集到由36个投保人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如下表。试建立投保人年龄90%的置信区间

36个投保人年龄的数据2335392736443642464331334253455447243428393644403949383448503439454845322017-6-5总体均值的区间估计

(大样本的估计)解:已知n=36,1-=90%,z/2=1.645。根据样本数据计算得:,

总体均值在1-置信水平下的置信区间为投保人平均年龄的置信区间为37.37岁~41.63岁2017-6-5练习2已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(单位:h)如下。建立该批灯泡平均使用寿命95%的置信区间16灯泡使用寿命的数据15101520148015001450148015101520148014901530151014601460147014702017

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论