统计学之抽样与抽样估计概述_第1页
统计学之抽样与抽样估计概述_第2页
统计学之抽样与抽样估计概述_第3页
统计学之抽样与抽样估计概述_第4页
统计学之抽样与抽样估计概述_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章

抽样与抽样估计第1节抽样与抽样分布

一、有关抽样的基本概念

总体(Population)

研究对象的全体称为总体样本(子样)(Sample)

从总体中抽取一部分个体进行试验或观察,这种从总体中抽取个体的行为称为抽样。而从总体中抽样所得的一部分个体叫样本总体参数(Populationparameter)

描述总体分布特征的数值样本统计量(Samplestatistic)抽样方法

重置抽样(重复抽样)(Samplingwithreplacement)

要从总体N个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,把顺序号登记下来之后,重新放回参加下一次抽选,连续反复抽取n次组成所要求容量的样本。不重置抽样(不重复抽样)(Samplingwithoutreplacement)

要从总体N个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,被抽中的单位不再放回参加下一次抽选,连续进行次便组成样本。不重复抽样所得样本对总体的代表性较大,抽样误差较小,所以实践中通常采用不重复抽样。

抽样的组织方式简单随机抽样:从总体中抽取样本最常用的方法。从容量为N的总体中进行抽样,如果容量为n的每个可能样本被抽到的可能性相等,则称容量为n的样本为简单随机样本。分层抽样:也称分类抽样或类型抽样,它是按某个主要标志对总体各单位进行分类,然后从各层中按随机原则分别抽取一定数目的单位构成样本。整群抽样:也称丛聚抽样或集团抽样。它是将总体分为若干部分(每一部分称为一个群),然后按随机原则从中一群一群地抽选,对抽中群内的所有单位进行全面调查。系统抽样也称机械抽样。它是先将总体单位按一定顺序排队,计算出抽样间隔(或抽样距离),然后按固定的顺序和间隔抽取样本单位。总体分布

(populationdistribution)样本分布

(sampledistribution)一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本二、抽样分布

(Samplingdistribution)

1、抽样分布的意义

对统计量的所有可能取值及其对应概率的描述,就是统计量的抽样分布,即抽样分布。抽样分布反映样本统计量的分布特征,根据抽样分布的规律,可揭示样本统计量与总体参数之间的关系,计算抽样误差,并说明抽样推断的可靠程度。

抽样误差:误差登记性误差代表性误差系统性误差随机性误差登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方法的差错或被调查者提供虚假资料而造成的误差。任何一种统计调查都可能产生登记性误差。代表性误差是指用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。系统性误差是指由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统偏低或偏高。。随机性误差又称偶然性误差,是指遵循随机原则抽样,由于随机因素(偶然性因素)引起的误差。抽样估计中的所谓抽样误差,就是指的这种随机误差。抽样误差登记性误差:存在于一切调查中代表性误差:仅产生于抽样调查,不可避免。代表性误差抽样误差在实际一次调查中是调查不出来的,但其平均值是可以推算的系统性误差:不随样本量增减而变化随机误差(抽样误差):随样本量增大而减小抽样平平均误误差和和抽样样极限限误差差抽样平平均误误差::所有有可能能的样样本指指标与与总体体指标标间的的平均均差异异程度度。抽样极极限误误差样本指指标与与总体体指标标之间间允许许的误误差范范围叫叫抽样样极限限误差差。也也称抽抽样允允许误误差。。它是样样本指指标可可允许许变动动的上上限或或下限限与总总体指指标之差的的绝对对值。。即:落在总总体均均值某某一区区间内内的样样本X95.45%的样本99.73%的样本x-368.27%的样本x-2x-X+3X+2X+x大数定定律及及中心心极限限定理理重复抽抽样::(1)总体体是正正态分分布,,样本本必然然是正正态分分布(2)样本本平均均数的的平均均数等等于总总体平平均数数(3)样本本平均均数的的方差差等于于总体体方差差除以以样本本容量n(4)n越大,样本本平均数越越趋近于正正态分布例:样本均均值的抽样样分布【例】设一个总体体,含有4个元素(个体),即总体单单位数N=4。4个个体分别别为X1=1、X2=2、X3=3、X4=4。总体的均均值、方差差及分布如如下总体分布14230.1.2.3均值和方差差现从总体中中抽取n=2的简单随机机样本,在在重复抽样样条件下,,共有4*4=16个样本。所所有样本的的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)计算出各样样本的均值值,如下表表。并给出出样本均值值的抽样分分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值X样本均值的抽样分布1.00.1.2.3P(X)1.53.04.03.52.02.5样本均值的的分布与总总体分布的的比较=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(X)1.00.1.2.31.53.04.03.52.02.5X大数定律及及中心极限限定理不重复抽样样:(1)总体是正正态分布,,样本必然然是正态分分布(2)样本平均均数的平均均数等于总总体平均数数(3)样本平平均数的的方差等等于总体体方差除除以样本本容量n(4)n越大,样样本平均均数越趋趋近于正正态分布布抽样平均均误差(1)均值重复抽样样:不重复抽抽样:抽样平均均误差(1)比例重复抽样样:不重复抽抽样:影响抽样样误差大大小的因因素是::总体被研研究标志志的变异异程度。。在其他条条件不变变的情况况下,总总体标志志的变异异程度愈愈小,则则抽样误误差也愈愈小;总总体标志志的变异异程度愈愈大,则则抽样误误差也愈愈大。抽样单位位数的多多少。在其他条条件不变变的情况况下,抽抽样单位位数愈多多,抽样样误差愈愈小;抽抽样单位位数愈少少,抽样样误差愈愈大。抽样的方方法。在其他条条件不变变的情况况下,重重复抽样样的抽样样误差大大于不重重复抽样样。抽样的组组织形式式。抽样误差差的大小小与样本本单位数数的平方方根成反反比:如如果抽样样误差要要减少二二分之一一,则样样本单位位数必须须增大到到4倍。例、从某校1000名学生中简单单随机抽取50名学生,称得得平均体重为为50千克,若已知知总体标准差差为10千克,计算重重复抽样及不不重复抽样下下抽样平均误误差。解:重复抽样样条件下,不重复抽样条条件下,在样本量相同同的情况下,,不重复抽样样的平均误差差要小于重复复抽样的平均均误差。第3节总体平均均数和总体比比例的估计抽样估计必须须包括三要素素:1)估计值2)估计值的误误差范围3)概率保证程程度(置信度度)一、点估计(Pointestimate)点估计也称定定值估计,常常用点估计方方法有矩估计计,极大似然然估计。样本均值是总总体均值的点点估计量,样样本方差s2是总体方差σ2的点估计量,,样本比例p是总体比例P的点估计量。。优良估计量的的标准:无无偏性有有效性一一致致性区间估计就是根据样本本求出总体未未知参数的估估计区间,并并使其可靠程程度达到预定定要求。(1)总体方差σ2已知时由于,,所以对对于给定的置置信度1-α,有即可见,极限误误差的计算公公式为则总体均值的的置信区间为为例:从某大学学学生中随机机抽取100名调查体重情情况。经称量量和计算,得得到平均体重重为58千克。根据过过去的资料知知道大学生体体重的标准差差是10千克。在95%的置信水平下下,求该大学学学生平均体体重的置信区区间。解:已知=58,σ=10,zα/2=1.96,n=100=10/10=1(千克)=1.96×1=1.96(千克)置信下限为58-1.96=57.04,置信上限为58+1.96=59.96故所求置信区区间为(57.04,59.96)千克。(2)总体方差σ2未知时由于~~t(n-1),对于给定的的置信度1-α,有置信下限置置信上限在大样本下,,总体均值的的置信区间为为例:某保险公公司投保人年年龄设某保险险公司投保人人年龄呈正态态分布,现从从中抽取10人,其年龄分分别为:32,50,40,24,33,44,45,48,44,47岁。试以95%的置信水平估估计该保险公公司投保人的的平均年龄。。解:当置信度为95%时,=2.26222.6544=6.00(岁)因为40.7-6.00=34.740.7+6.00=46.7所以该保险公公司投保人的的平均年龄的的置信区间为为(34.7,46.7)岁。总体比例的区区间估计在大样本条件件下,若np>5,n(1-p)>5,则样本比例例趋近于正态态分布。对于给定置信信度,有总体比例的置置信区间为小样本条件下下,不作介绍绍。例:总体比例例的区间估计计【例】某城市想要估估计下岗职工工中女性所占占的比例,随随机抽取了100个下岗职工,,其中65人为女性职工工。试以95%的置信水平平估计该城城市下岗职职工中女性性比例的置置信区间解:已知n=100,p=65%,1-=95%,z/2=1.96该城市下岗岗职工中女女性比例的的置信区间间为55.65%~74.35%例:某厂对对一批产品品进行质量量检验,随随机重复抽抽取样品100只,样本合合格品率为为95%,试计算算把握程度度为90%的合格品品率置信区区间。解:已知n=100,p=95%,1-α=90%,查表得zα/2=1.96=0.0218Δp=zα/2=1.96×0.0218=0.0359或3.59%95%-3.59%=91.41%,95%+3.59%=98.59%故该批产品品合格率的的置信区间间为(91.41%,98.59%)第5节样本本容量的确确定在重复抽样样下,所以,必要要抽样单位位数在不重复抽抽样下,必必要抽样单单位数例:某市进进行职工家家庭生活费费抽样调查查,已知职职工家庭平平均每人每每月生活费费收入的标标准差为110元,允许误误差范围10元,概率把把握程度95%,试确定应应抽选的户户数。解解:【例】拥有工商管管理学士学学位的大学学毕业生年年薪的标准准差大约为为2000元,假定想想要估计年年薪95%的置信区间间,希望边边际误差为为400元,应抽取取多大的样样本容量??解:影响必要抽抽样数目的的因素(1)允许误差差范围Δ。当其它条条件不变时时,允许误误差愈小,,必要的抽抽样单位数数就需要愈愈多;反之之,允许误误差愈大,,抽样单位位数就可以以愈少。(2)总体方差差σ2。其他条件件不变的情情况下,总总体方差σ2愈大大,,总总体体单单位位的的差差异异程程度度愈愈大大,,则则样样本本单单位位数数应应愈愈多多;;反反之之,,样样本本单单位位数数可可愈愈少少。。(3)抽抽样样估估计计的的可可靠靠程程度度1-αα。当当其其他他条条件件不不变变时时,,抽抽样样估估计计的的可可靠靠程程度度愈愈高高,,zα/2数值值愈愈大大,,抽抽样样数数目目就就必必须须愈愈多多;;反反之之,,抽抽样样估估计计的的可可靠靠程程度度愈愈低低,,抽抽样样数数目目就就可可以以愈愈少少。。(4)抽抽样样方方法法。。相相同同条条件件下下,,由由于于采采用用重重复复抽抽样样比比不不重重复复抽抽样样的的误误差差大大,,所所以以,,前前者者应应比比后后者者多多抽抽一一些些样样本本单单位位。。除上上述述因因素素之之外外,,抽抽样样组组织织方方式式也也是是影影响响抽抽样样单单位位数数的的一一个个原原因因。。本章章小小结结总体体分分布布、、样样本本分分布布、、抽抽样样分分布布单总总体体参参数数推推断断时时样样本本统统计计量量的的分分布布参数数估估计计的的一一般般问问题题一个个总总体体参参数数的的区区间间估估计计样本本容容量量的的确确定定期末末考考试试大大纲纲第九九章章抽抽样样与与抽抽样样估估计计抽样样调调查查中中的的基基本本概概念念;;总总体体均均值值与与成成数数的的简简单单估估计计;;必必要要样样本本量量的的计计算算不不作作考考试试要要求求。。知识识重重点点::抽样样方方法法重置置抽抽样样不重重置置抽抽样样注意意::不重重复复抽抽样样所所得得样样本本对对总总体体的的代代表表性性较较大大,,抽抽样样误误差差较较小小,,所所以以实实践践中中通通常常采采用用不不重重复复抽抽样样。。抽样样的组组织织方方式式简单单随随机机抽抽样样:分层层抽抽样样::整群群抽抽样样::系统抽样样也称机机械抽样样。误差:误差差登记性误误差代表性误误差系统性误误差随机性误误差抽样平均均误差(1)均值重复抽样样:不重复抽抽样:抽样平均均误差(2)比例重复抽样样:不重复抽抽样:影响抽样样误差大大小的因因素是::总体被研研究标志志的变异异程度。。抽样单位位数的多多少。抽样的方方法。抽样的组组织形式式。(1)总体方差差σ2已知时总体均值值的置信信区间为为区间估计计其中极限限误差为为(2)总体方差差σ2未知时总体均值值的置信信区间为为其中极限限误差为为总体比例例的区间间估计总体比例例的置信信区间为为第5节样样本容量量的确定定在重复抽抽样下,,所以,必必要抽样样单位数数在不重复复抽样下下,必要要抽样单单位数影响必要要抽样数数目的因因素(1)允许误误差范围围Δ。当其它它条件不不变时,,允许误误差愈小小,必要要的抽样样单位数数就需要要愈多;;反之,,允许误误差愈大大,抽样样单位数数就可以以愈少。。(2)总体方方差σ2。其他条条件不变变的情况况下,总总体方差差σ2愈大,总总体单位位的差异异程度愈愈大,则则样本单单位数应应愈多;;反之,,样本单单位数可可愈少。。(3)抽样估估计的可可靠程度度1-α。当其他他条件不不变时,,抽样估估计的可可靠程度度愈高,,zα/2数值愈大大,抽样样数目就就必须愈愈多;反反之,抽抽样估计计的可靠靠程度愈愈低,抽抽样数目目就可以以愈少。。(4)抽样方方法。相相同条件件下,由由于采用用重复抽抽样比不不重复抽抽样的误误差大,,所以,,前者应应比后者者多抽一一些样本本单位。。除上述因因素之外外,抽样样组织方方式也是是影响抽抽样单位位数的一一个原因因。练习:某电子元元件厂生生产A型号的电电子管,,现从10000件产品中中,抽取取100件进行检检验,结结果是60件合格。。计算合合格品率率的抽样样平均误误差。练习:对对一批电电子元件件进行耐耐用性能能的检查查,随机机重置抽抽样方法法选取100件作耐用用测试,,所得结结果的分分组资料料如下::耐用时数(小时)组中值(x)件数(f)900以下

875

1900—950

925

2950—1000

975

61000—10501025

351050—11001075

431100—11501125

91150—12001175

31200以上1225

1合计—100要求::在95.45%的可靠靠程度度下对对该批批电子子元件件的平平均耐耐用时时数作作出估估计。。概率保保证程程度为为95.45%,t值为2。估计区区间的的下限限:1055.5-1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论