区间估计及运算_第1页
区间估计及运算_第2页
区间估计及运算_第3页
区间估计及运算_第4页
区间估计及运算_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

节区间估计的计算与原理2021/6/271一、两种主要的估计方法点估计是指根据抽取到的具体样本数据,代入估计量得到的一个估计值。区间估计是在点估计的基础上估计出总体参数一个可能的范围,同时还给出总体参数以多大的概率落在这个范围之内。2021/6/272二、为什么要区间估计呢?在上述警察逮捕人数的例子中,你计算得出均值为15.6人,你的上司可能会问,这一均值的确是15.6吗?你的回答将是不知道。但是,你的计算告诉你,这一均值的最优估计值是15.6。你的上司可能又会问了,15.6这一估计值到底有多好?也就是说,这一均值估计量包含多大的误差?2021/6/273回答上述问题的一个办法是抽取很多的样本,计算每一个样本的均值,然后向上司展示均值估计量的变化范围。不过,这种办法显得有些笨。如果你想把这一问题处理得更加高明些,你就应该计算所有样本均值的平均误差。均值的标准差有一个专门的名称:均值标准误差。2021/6/274关于区间估计设为总体x的未知参数,为来自总体的容量为n的简单随机样本,对于预先给定的一个充分小的正数,我们构造两个统计量:2021/6/275使得则称区间为总体参数的区间估计或置信区间。称为置信区间的置信度,也称置信概率、置信系数或置信水平,称为置信下限,称为置信上限。2021/6/276三、置信区间的含义若独立地反复多次抽取容量相同的简单随机样本,每一个样本都确定一个随机区间,在这些区间中,包含总体参数真值的约占,或者说有的随机区间会包含总体参数的真值。例如,若,独立地反复抽取容量相同的简单随机样本1000次,在得到的1000个随机区间中,不包含总体参数真值的大约有50个。2021/6/277

四、简单随机抽样和等距抽样的参数估计(一)总体均值的置信区间和参数估计总体均值的区间估计根据已知条件不同,有不同的计算方法。1.从正态总体中抽取样本,且总体方差已知,均值μ的区间估计2021/6/2781.从正态总体中抽取样本,且总体方差已知,均值μ的区间估计(1)重复抽样的条件下设,已知,为来自总体的容量为n的简单随机样本,则的抽样分布为2021/6/279在重复抽样的方式下,总体均值μ的置信度为1-α的置信区间为其中,是标准正态分布α水平的双侧分位数。2021/6/27102021/6/2711例一:假设参加某种寿险投保人的年龄服从正态分布,标准差为σ=7.77岁。从中抽取36人组成一个简单随机样本(重复抽样),其平均年龄为39.5岁,试建立投保人平均年龄μ的90%的置信区间。2021/6/2712解假设用随机变量X表示某种寿险投保人的年龄,则由已知条件有,,n=36。与置信度90%相对应的α=0.10,查表,得到2021/6/2713由公式,得,总体均值μ的置信度为90%的置信区间为于是可以说,我们有90%的把握确信,寿险投保人总体的平均年龄介于37.37到41.63岁之间。2021/6/27141.从正态总体中抽取样本,且总体方差已知,均值μ的区间估计(2)在不重复抽样的条件下,置信区间为2021/6/2715例2一家食品公司,每天大约生产袋装食品若干,总体方差为100。为对产品质量进行检测,该企业质检部门采用抽样技术,每天抽取一定数量的食品,以分析每袋重量是否符合质量要求。现从某一天生产的一批食品8000袋中随机抽取了25袋(不重复抽样),测得它们的重量如下表所示:2021/6/2716已知产品重量服从正态分布,且总体方差为100。试估计该批产品平均重量的置信区间,置信水平为95%。2021/6/2717解已知σ=10;n=25;1-α=59%;=1.96根据样本资料,计算的样本均值为:根据公式得=105.36±1.96××2021/6/2718即105.36±3.914115=(101.4459,109.2741),该批产品平均重量在95%置信水平下的置信区间为:101.4459~109.2741。2021/6/27192.正态总体,大样本,若总体方差未知,可用样本标准差S代替。能够把公式写出来吗?重复抽样:???不重复抽样:???2021/6/2720例三:假设参加某种寿险投保人的年龄服从正态分布。从中抽取36人组成一个简单随机样本(重复抽样,年龄数据见下页表),试建立投保人平均年龄μ的90%的置信区间。2021/6/27212021/6/2722解:已知n=36,

1-α=90%;=1.645,由于总体方差未知,但为大样本,故可用样本方差代替。根据样本资料计算的样本均值和样本标准差为:2021/6/2723则置信区间为:即39.5±2.13=(37.37,41.63),投保人平均年龄在90%的置信水平下的置信区间为37.37岁~41.63岁。2021/6/27243.正态总体、小样本情况下,总体方差未知,总体均值的估计(重复抽样条件下)(不重复抽样条件下)2021/6/2725

如果总体服从正态分布,只要总体方差已知,即使在小样本情况下,也可以计算总体均值的置信区间。如果总体方差未知,需用样本方差代替,在小样本情况下,应用t分布来建立总体均值的置信区间。

t分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。随着自由度的增大,t分布逐渐趋于正态分布。2021/6/27264.非正态总体且大样本时,均值μ的区间估计首先,当总体为非正态分布时,只要样本容量充分大(一般习惯上要求n>=30),的抽样分布近似服从正态分布。当已知时,仍可用上述公式,根据重复抽样与否,近似求出总体均值μ的置信区间;2021/6/2727其次,当σ未知时,只要将上述公式中的总体标准差σ用样本标准差S代替,就可近似得到总体均值μ的置信区间:(重复抽样条件下)(不重复抽样条件下)2021/6/2728例为了解居民用于服装消费的支出情况(非正态分布),随机抽取90户居民组成一个简单随机样本(重复抽样),计算得样本均值为810元,样本标准差为85元,试建立该地区每户居民平均用于服装消费支出的95%的置信区间。2021/6/2729

解假设用随机变量X表示居民的服装消费支出,本题虽然总体分布未知,但由于n=90,是大样本且σ未知,所以可利用公式近似得到总体均值μ的置信区间。根据题意,元,元,n=90,与置信度95%相对应的α=0.05,查表得到:2021/6/2730

将这些数据代入公式,便可得到总体均值μ的置信度为95%的置信区间为于是,我们有95%的把握认为,该地区每户居民平均用于服装消费的支出大约介于792.44元到827.56元之间。2021/6/2731总体分布样本容量σ已知重复抽样σ已知不重复抽样正态分布小样本(<30)大样本(>=30)非正态分布小样本(<30)————大样本(>=30)

总体均值μ的区间估计(置信度为1-α)[简单随机抽样和等距抽样]2021/6/2732

总体均值μ的区间估计(置信度为1-α)[简单随机抽样和等距抽样]总体分布样本容量σ未知重复抽样σ未知不重复抽样正态分布小样本(<30)大样本(>=30)非正态分布小样本(<30)————大样本(>=30)2021/6/2733四、简单随机抽样和等距抽样的参数估计(二)两个总体均值之差的区间估计间1.两正态总体方差已知时,且大样本,的区间估计因此,两个总体均值差的置信度为1-α的置信区间为:2021/6/2734

如果两个总体方差,未知,则可利用,代替两个总体方差即可。下述公式可近似求出两个总体均值差的置信度为1-α的置信区间。2021/6/2735

四、简单随机抽样和等距抽样的参数估计(二)两个总体均值之差的区间估计间2.两正态总体方差未知但相等时,的区间估计(小样本)2021/6/2736当两个正态总体方差未知但相等,即,且未知时,这时两个样本均值之差()的抽样分布为2021/6/2737所以因为未知,则用共同方差的合并估计量2021/6/2738两个总体均值差的置信度为1-α的置信区间为其中,是α水平的自由度为的t分布双侧分位数。2021/6/2739例题:某公司为了解男女推销员的推销能力是否有差别,随机抽取16名男推销员和25名女推销员进行测试。男推销员的平均销售额为30250元,标准差为18400元,女推销员的平均销售额为33750元,标准差为13500元。假设男女推销员的销售额服从正态分布,且方差相等。试建立男女推销员销售额之差的95%的置信区间。

2021/6/2740

解假设用随机变量,分别表示男女推销员的销售额,则由已知条件有元,元,元,元,,。又因两总体方差相等,可以估计出它们的共同方差:2021/6/2741与置信度95%相对应的α=0.05,查t分布表,得到,由公式得男女推销员销售额之差的置信度为95%的置信区间为2021/6/2742

于是,我们有95%的把握认为:男推销员的销售额既有可能比女推销员多6568元,也有可能比女推销员少13568元,所以男女推销员的推销能力没有显著差别。2021/6/2743四、简单随机抽样和等距抽样的参数估计(二)两个总体均值之差的区间估计间3.两正态总体方差未知但不等时,的区间估计(小样本)2021/6/2744

当两正态总体方差未知但不等时,即,未知,且两者不相等时,统计量近似服从于自由度为v的t分布,其中v的计算公式如下2021/6/27452021/6/2746于是,两个总体均值差的置信度为1-α的置信区间为2021/6/2747例题:某公司为了解男女推销员的推销能力是否有差别,随机抽取16名男推销员和25名女推销员进行测试。男推销员的平均销售额为30250元,标准差为18400元,女推销员的平均销售额为33750元,标准差为13500元。假设男女推销员的销售额服从正态分布,且方差不相等。试建立男女推销员销售额之差的95%的置信区间。

2021/6/2748解首先根据公式计算自由度v,

2021/6/2749查t分布表,得到,由公式得男女推销员销售额之差的置信度为95%的置信区间为2021/6/2750于是,我们有95%的把握认为:男推销员的销售额既有可能比女推销员多7434元,也有可能比女推销员少14434元,所以男女推销员的推销能力没有显著差别。

2021/6/2751

四、简单随机抽样和等距抽样的参数估计(二)两个总体均值之差的区间估计间4.两非正态总体且大样本时,的区间估计2021/6/2752

如果两个总体方差,已知,则可利用公式下述公式近似求出两个总体均值差的置信度为1-α的置信区间。2021/6/2753

如果两个总体方差,未知,则可利用,代替两个总体方差即可。下述公式可近似求出两个总体均值差的置信度为1-α的置信区间。2021/6/2754

四、简单随机抽样和等距抽样的参数估计(三)一个总体比例的区间估计2021/6/2755在许多实际应用中,经常会遇到总体比例的估计问题。例如:企业的管理人员想了解一批产品中次品的比例;职工收入中工资外收入所占的比例;某高校学生参加英语四级考试的通过率;某地区绿化荒山新栽树木的成活率等。2021/6/2756在总体中具有某种特征的单位数占总体全部单位的比例称为总体比例,记为p;在样本中具有某种特征的单位数占样本全部单位的比例称为样本比例,记为。在大样本条件下,样本比例的抽样分布近似服从正态分布,其数学期望为2021/6/2757方差为

即2021/6/27581.在大样本情况下,且总体比例已知,重复抽样。则总体比例P的置信度为1-α的置信区间为2021/6/2759

需要说明:在实际应用中,除了要求N>=30以外,还要求和,且,这时近似效果较好。2021/6/27602.在大样本情况下,且总体比例未知,重复抽样。则总体比例P的置信度为1-α的置信区间为2021/6/2761例题:在对某地区1000名下岗工人的调查中发现,女工所占的比例为65%。试建立在下岗工人中,女工所占比例的95%的置信区间。能否作出下岗工人中女性所占比例超过男性的结论?2021/6/2762

解假设用p表示下岗工人中女工所占的比例,则由已知条件可知,样本比例。因为,,,所以的抽样分布近似服从正态分布。2021/6/2763对于α=0.05,查表得。应用公式得到在下岗工人中,女工所占比例的置信度为95%的置信区间为2021/6/2764

于是,我们有95%的把握认为,下岗工人中女工所占比例大约在0.62到0.68之间,超过了0.5,所以可以得出女性所占比例超过男性的结论。2021/6/27653.如果总体为有限总体,采用不重复抽样,且抽样比时,的抽样分布的方差要用修正系数

加以修正,这时总体比例p(未知时)的置信度为1-α的置信区间为2021/6/2766例某地区有20所高等院校,有副教授以上职称的教师7800名。高校的管理部门想了解具有高级职称的教师中有基础研究课题的教师占多大的比例,于是抽取400人组成一个随机样本(不重复抽样)。经调查,其中80人有基础研究课题。试建立在具有副教授以上职称的教师中,有基础研究课题的教师所占比例的95%的置信区间。

2021/6/2767解假设用p表示在具有副教授以上职称的教师中,有基础研究课题的教师所占的比例,则由已知条件可知N=7800,n=400,样本比例=80/400=0.2,α=0.05,。因为

,所以的抽样分布近似服从正态分布。2021/6/2768所以的抽样分布近似服从正态分布。又因为抽样比大于5%,所以要对的抽样分布的方差加以修正。应用公式得到在具有副教授以上职称的教师中,有基础研究课题的教师所占比例的95%的置信区间为

2021/6/2769于是我们有95%的把握认为,该地区20所高校具有副教授以上职称的教师中,有()到()的教师有基础研究课题。2021/6/2770

四、简单随机抽样和等距抽样的参数估计(四)一个正态总体方差的区间估计为来自总体的容量为n的简单随机样本,σ未知,s为样本标准差。

2021/6/2771

总体标准差σ的置信度为1-α的置信区间为2021/6/2772因此,总体方差的置信度为1-α的置信区间为2021/6/2773例假设公司预计的每股收益率服从正态分布,现有8个公司组成一个简单随机样本,样本方差为2.619,试建立总体方差、总体标准差的95%的置信区间。2021/6/27742021/6/27752021/6/2776

五、分层抽样和整群抽样的参数估计

严格地讲,分层抽样与整群抽样的参数估计与简单随机抽样没有本质区别。只不过在计算方差时存在着不同。

2021/6/2777第五节样本容量的确定

我们应该一直有这样的疑问:我们学习了问卷的设计、调查方法的选择、数据的描述、数据的整理以及参数估计的有关问题。但是,如何进行调查呢?或者说选择多少样本呢?或者说需要选择多少个被调查者呢?2021/6/2778第五节样本容量的确定这就涉及到我们今天要学的内容:样本容量的确定。2021/6/2779第五节样本容量的确定这就涉及到我们今天要学的内容:样本容量的确定。2021/6/2780一、影响样本容量的因素(一)置信度,也即总体参数真值落在置信区间内的可靠程度。要求较高的置信度,就需要较大的样本容量,置信度越高,样本容量就越大。2021/6/2781一、影响样本容量的因素(二)估计的精度,也即置信区间的宽度。要求较高的置信度,就会扩大置信区间的宽度,也就是说降低了估计的精度。因此,要想既提高估计的精度,又不降低估计的可靠性程度,必须增加样本容量。2021/6/2782一、影响样本容量的因素(三)建立置信区间的费用。虽然增加样本容量可以提高置信区间的可靠性程度和估计的精度,但也不是样本容量愈大愈好。因为增加样本容量,就会延长调查时间,增大工作量和成本费用,同时还可能增大调查误差。2021/6/2783二、估计总体均值时,样本容量的确定对于正态总体,在重复抽样或抽样比n/N<5%时,总体均值μ的置信度为1-α的置信区间为2021/6/2784二、估计总体均值时,样本容量的确定记,称为允许误差,它表示总体均值μ与样本均值的绝对误差不超过Δ。于是,可以推出样本容量的计算公式为2021/6/27851.样本容量n与置信度所对应的标准正态分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论