版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章抽样与抽样估计第1页,共78页,2023年,2月20日,星期一一、抽样调查的概念和特点1、概念:抽样调查是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。
只抽取部分单位进行调查。§1抽样调查的一般问题第2页,共78页,2023年,2月20日,星期一2、特点(1)抽样调查建立在随机取样的基础上。(2)它是由部分推断整体的一种认识方法。(3)抽样调查的误差可以事先计算并加以控制。第3页,共78页,2023年,2月20日,星期一3、抽样调查的适用范围抽样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。第4页,共78页,2023年,2月20日,星期一1.实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物;2.虽可进行全面调查观察,但比较困难或并不必要;3.对普查或全面调查统计资料的质量进行检查和修正;4.抽样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;5.利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。一般适用于以下范围:第5页,共78页,2023年,2月20日,星期一三、有关抽样的基本概念(一)总体和样本总体:也称全及总体。指所要认识的研究对象全体。总体单位总数用“N”表示。样本:也称抽样总体,是抽出的单位组成的整体。样本单位总数用“n”表示。二、抽样推断的内容参数估计假设检验第6页,共78页,2023年,2月20日,星期一(二)参数和统计量1、针对总体计算的指标叫总体参数,也叫全及指标。2、针对样本计算的指标为统计量,也叫估计量,也叫抽样指标。参数的值是定值常用的参数有:总体平均数、总体成数P、总体标准差σ其值随样本的不同而不同,是个随机变量。抽样估计就是通过统计量的值去估计参数的值。常用的统计量有:样本平均数、样本成数p、样本标准差S第7页,共78页,2023年,2月20日,星期一
若总体单位的某种标志只有两种表现(称为是非标志),总体成数是指具有某种特征和属性的单位在全部总体单位中所占比重,记为p。
以代表N个总体单位中具有某种特征的单位数,代表N个总体单位中不具有某种特征的单位数,N=N1+N0。有第8页,共78页,2023年,2月20日,星期一
从总体中随机抽出容量为的样本,具有某种特征的单位数为,则样本的成数为。例如,某工厂生产某种电子元件,某批产品共10000件,其中不合格品100件,则不合格品所占的成数。若从中按随机的原则抽100件,其中有3件不合格品,则样本的成数为。NEXT第9页,共78页,2023年,2月20日,星期一总体参数样本统计量样本统计量公式总体平均数样本平均数总体成数样本成数总体方差样本方差总体标准差样本标准差第10页,共78页,2023年,2月20日,星期一第11页,共78页,2023年,2月20日,星期一未分组数据:分组数据:未分组数据:分组数据:总体方差公式总体标准差公式第12页,共78页,2023年,2月20日,星期一第13页,共78页,2023年,2月20日,星期一推断统计:利用样本统计量对总体某些性质或数量特征进行推断。随机原则总体样本总体参数统计量推断估计参数估计检验假设检验抽样分布第14页,共78页,2023年,2月20日,星期一(三)样本容量和样本个数1、样本容量:一个样本包含的单位数。用“n”表示。一般要求n≥302、样本个数:从一个全及总体中可能抽取的样本数目。第15页,共78页,2023年,2月20日,星期一(四)重复抽样和不重复抽样1、重复抽样:也叫放回抽样。2、不重复抽样:也叫无放回抽样。一个单位可能中选多次每次抽单位,概率固定,都为1/N。一个单位最多中选一次每次抽单位,概率不同,逐渐增加第16页,共78页,2023年,2月20日,星期一(五)、概率抽样与非概率抽样1、概率抽样:也叫随机抽样,是指按照随机原则抽取样本。概率抽样最基本的组织方式有:简单随机抽样、分层抽样、等距抽样和整群抽样。2、非概率抽样:也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。重点调查、典型调查、配额调查等属于非随机抽样。第17页,共78页,2023年,2月20日,星期一(六)、抽样框1、抽样框是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接影响到抽样调查的随机性和调查的效果。2、抽样框主要有三种形式:⑴名单抽样框,即列出全部总体单位的名录一览表,如职工名单、企业名单等。⑵区域抽样框,即按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。如对某市居民住房情况进行调查,将全市居民户划分为若干街道或片区。第18页,共78页,2023年,2月20日,星期一3、一个理想的抽样框应该与目标总体一致,即应包括全部总体单位,既不重复,也不遗漏(穷尽与互斥)。若有遗漏,易造成系统性误差。在实践中,要取得与目标总体完全一致的抽样框往往很困难,甚至不可能,常常只能采用与目标总体近似的抽样框。⑶时间表抽样框,即将总体全部单位按时间顺序排列,把总体的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。如对流水线上24小时内生产的产品进行质量抽查时,以5分钟为一个抽样单位,可将全部产品分为288个抽样单位并按时间顺序排列。第19页,共78页,2023年,2月20日,星期一(七)、抽样误差统计调查的误差,是指调查所得结果与总体真实值之间的差异。在抽样调查中,误差的来源有登记性误差和代表性误差两大类。第20页,共78页,2023年,2月20日,星期一(1)登记性误差,指在调查和汇总过程中由于测量、登记、计算等方面的差错或被调查者提供虚假资料而造成的误差。它在任何调查中均存在。而且调查范围越大,调查单位越多,产生登记性误差的可能性也越大。(2)代表性误差,指样本推断总体时,由于样本结构与总体结构不一致而产生的误差。又分系统误差与随机误差两种。第21页,共78页,2023年,2月20日,星期一②
随机误差也叫偶然误差。它是由偶然性因素引起的代表性误差。它不可避免,但可计算与控制。抽样估计中的抽样误差,就是指这种随机误差。在计算抽样误差时,常常假设不存在登记性误差和系统误差①系统误差是非随机因素引起的误差,它系统性偏高或偏低,也称偏差。第22页,共78页,2023年,2月20日,星期一§2抽样平均误差一、抽样误差的概念1、抽样误差是指由于抽样的随机性而产生的那一部分代表性误差(随机性误差),不包括登记性误差,也不包括可能发生的偏差。主要有两种:实际抽样误差,抽样平均误差。(1)实际抽样误差:指某一样本指标与总体参数之间的离差例8-2-1:从1、2、3中抽2个(重复),参数取总体平均数(等于2),则实际抽样误差如下:第23页,共78页,2023年,2月20日,星期一样本样本统计量实际抽样误差(-)(1、1)1-1(1、2)1.5-0.5(1、3)20(2、1)1.5-0.5(2、2)20(2、3)2.50.5(3、1)20(3、2)2.50.5(3、3)31第24页,共78页,2023年,2月20日,星期一(2)抽样平均误差:指样本指标的标准差。抽样实际误差是无法知道的,而抽样平均误差可以计算。在讨论抽样误差时,通常指抽样平均误差要计算抽样平均误差,得从抽样分布谈起二、抽样分布及抽样平均误差的计算抽样分布是指样本指标的概率分布,由样本指标的可能取值与之相应的频数或频率组成。第25页,共78页,2023年,2月20日,星期一
对于抽样分布,可计算其均值和方差等来反映该分布的中心和离散趋势。(一)抽样分布的集中趋势与离中趋势的测定A、样本平均数的抽样分布的集中趋势与离中趋势的测定1、把所有可能样本的平均数及其相应的频数或频率排列起来,就是样本平均数的抽样分布。通常计算这一分布的均值和标准差,分别反映样本平均数分布的集中趋势与离中趋势。第26页,共78页,2023年,2月20日,星期一2、例8-2-2:从4、6、8三个数中按重复抽样抽2个,调查其平均数,形成的抽样分布如下:样本样本平均数频数(4、4)41(4、6)(6、4)52(4、8)(6、6)(8、4)63(6、8)(8、6)72(8、8)81第27页,共78页,2023年,2月20日,星期一平均数:计算该分布的平均数和标准差,得标准差:而总体平均数和标准差分别为:第28页,共78页,2023年,2月20日,星期一所以,可得以下两点结论:(重复)①样本平均数的平均数等于总体平均数。②抽样平均数的标准差仅为总体标准差的3、样本平均数的标准差即是平均数的抽样平均误差第29页,共78页,2023年,2月20日,星期一在实际中,不可能一一列举所有可能的样本,从而不能按上述方法计算。可利用上述第②个结论计算,即:重复抽样时:不重复抽样时:第30页,共78页,2023年,2月20日,星期一不知道总体方差时如何计算
有若干个方差可选择时,选方差最大者(注意:对成数而言什么是方差最大?)用同类现象(当前或过去、总体或样本)的方差代替计算用过去(总体或样本)的方差代替计算用样本方差代替计算()第31页,共78页,2023年,2月20日,星期一4、例8-2-3:用简单重复抽样的方法,从660个工厂中抽取33个工厂调查月产值情况,得资料如下,试求月产值的抽样平均误差。月产值(万元)工厂数0-102010-20920-30230-402第32页,共78页,2023年,2月20日,星期一解=10.76
(万元)第33页,共78页,2023年,2月20日,星期一B、样本成数的抽样分布的集中趋势与离中趋势的测定1、把所有可能样本的成数及其相应的频数或频率排列起来,就是样本成数的抽样分布。通常计算这一分布的均值和标准差,分别反映样本成数分布的集中趋势与离中趋势。第34页,共78页,2023年,2月20日,星期一2、例8-2-4:从张(男)、王(男)、田(女)三个人中按重复抽样抽2个,调查其男性比重,形成的抽样分布如下样本样本成数(p)频数(张、张)(张、王)(王、张)(王、王)14(张、田)(王、田)(田、张)(田、王)1/24(田、田)01第35页,共78页,2023年,2月20日,星期一平均数:计算该分布的平均数和标准差,得标准差:而总体成数和标准差分别为:第36页,共78页,2023年,2月20日,星期一所以,可得以下两点结论:(重复)①样本成数的平均数等于总体成数。②抽样成数的标准差仅为总体成数标准差的3、样本成数的标准差即是成数的抽样平均误差在实际中,不可能一一列举所有可能的样本,从而不能按上述方法计算。可利用上述第②个结论计算,即:
第37页,共78页,2023年,2月20日,星期一重复抽样时:不重复抽样时:当总体成数未知时,可用4种方法取得:样本资料、历史资料、小规模调查资料、估计资料4、例6-2-5:一批8瓦的日光灯管80000只,从中抽取400只检验,发现有12只不合格,试求合格率的抽样平均误差。
第38页,共78页,2023年,2月20日,星期一解:样本合格率重复抽样时:不重复抽样时:=0.853%=0.85%第39页,共78页,2023年,2月20日,星期一当总体单位数相对于样本单位很大时(即抽样比例n/N很小)时,修正系数接近于1,重复抽样与不重复抽样的抽样误差相差很小。因此,从无限总体中抽样时,无论采用重复还是不重复抽样方法,都可用重复抽样的抽样平均误差公式来度量抽样误差;对于有限总体,实际中当抽样比例很小时(一般认为小于5%),不重复抽样的抽样误差也常常采用重复抽样的公式来计算。第40页,共78页,2023年,2月20日,星期一(二)影响抽样平均误差的因素1、总体方差或标准差。总体各单位在被研究变量上的差异程度差异越大,误差越大。2、样本容量n的大小。抽取的单位数越多,误差越小。3、抽样方法。重复抽样的误差大于不重复抽样的误差。当一个总体给定后,总体各单位在被研究变量上的差异程度也随之确定。所以在选定抽样方式和方法后,要缩小抽样平均误差,必须保证足够多的样本容量n4、抽样组织的方式第41页,共78页,2023年,2月20日,星期一2、抽样平均数极限误差:抽样成数极限误差:§3总体指标的推断一、抽样极限误差1、样本指标与总体指标之差的绝对值的最大值为抽样极限误差3、一般通过抽样平均误差计算抽样极限误差第42页,共78页,2023年,2月20日,星期一t叫概率度,一个概率度对应一个概率保证程度F(t)可通过查正态分布表得到对应的t与F(t)常用的t值及所对应概率的关系:99.73%395.45%268.27%95%11.96概率F(t)概率度(t)第43页,共78页,2023年,2月20日,星期一4、例8-3-1:设成人身高的达标值为165厘米。从一批成年人中随机抽7人,得身高分别为155、160、165、170、175、180、185(厘米)。要求:⑴以95.45%的概率保证度求平均身高的极限误差;⑵以99.73%的概率保证度求身高达标率的极限误差。第44页,共78页,2023年,2月20日,星期一
解:⑴=170F(t)=95.45%,则t=2所以,(厘米)(厘米)厘米第45页,共78页,2023年,2月20日,星期一⑵=17.07%所以,F(t)=99.73%,则t=3第46页,共78页,2023年,2月20日,星期一二、总体指标的推断方法1、点估计从总体中抽取一个样本,根据该样本的观察值对总体的未知参数作出一个数值点的估计。点估计没有给出估计值与未知总体参数的误差范围,也不能指出估计的把握程度。点估计的方法常用的有矩估计法、最大似然法等。第47页,共78页,2023年,2月20日,星期一
优良估计量的评价准则对于同一总体参数,用不同的估计方法可以得到不同的估计值,哪一个估计量最优?客观上提出一个对估计量进行评价的问题。常用的评价标准:具有“无偏性”、“有效性”、“一致性”的估计量是最优估计量。第48页,共78页,2023年,2月20日,星期一无偏性:抽样分布的均值等于总体均值有效性:如果与其他任何无偏估计量相比,样本均值更接近总体均值,我们就称样本均值是个更有效的估计量。一致性:随着样本容量的增加,样本均值与总体均值之间的差异缩小第49页,共78页,2023年,2月20日,星期一三、区间估计区间估计就是根据样本指标和抽样极限误差以一定把握程度推断总体指标的区间范围。在一定概率保证程度下:≤≤≤≤第50页,共78页,2023年,2月20日,星期一2、区间估计的三要素为:估计值抽样误差范围概率保证程度
应用区间估计时要注意:(1)所求出的区间只是一个可能范围,而不是一个完全肯定的范围。(2)所估计的区间大小(估计的精确度)是与概率保证程度紧密联系的。第51页,共78页,2023年,2月20日,星期一
抽样估计时,我们总是希望估计的误差尽可能小(即估计精度尽可能高)并且估计的置信度也尽可能大。但事实上这两者是相矛盾的。在其它条件不变的情况下,提高估计的置信度,会增大允许误差(使估计精度降低);缩小允许误差(提高估计的精度),则会降低估计的置信度。
“估计精确度”和“估计的概率保证程度”是两个不同的概念,前者表明估计的误差大小,后者表明估计的可信程度。第52页,共78页,2023年,2月20日,星期一(二)实例例8-3-2:某农场进行小麦产量抽样调查,小麦播种总面积为1万亩,采用不重复简单随机抽样,从中抽选了100亩作为样本进行实割实测,测得样本平均亩产400斤,方差144斤。以95.45%的可靠性推断小麦平均亩产的区间解:N=10000n=100(1)计算抽样平均误差第53页,共78页,2023年,2月20日,星期一(2)计算抽样极限误差(3)计算总体平均数的置信区间上限:下限:即:以95.45%的可靠性估计该农场小麦平均亩产量在397.62斤至402.38斤之间.第54页,共78页,2023年,2月20日,星期一例8-3-3:某纱厂某时期内生产了10万个单位的纱,按纯随机抽样方式抽取2000个单位检验,结果合格率为95%,试以95%的把握程度估计全部纱合格品率的区间区间下限:区间上限:解:第55页,共78页,2023年,2月20日,星期一例8-3-4:对一批电子元件进行耐用性能的检查,随机重置抽样方法选取100件作耐用测试,所得结果的分组资料如下:100—合计1855005000以上5045004000—50003035003000—4000225003000以下件数(f)组中值(x)耐用时数(小时)试以95.45%的把握程度估计这批产品的平均耐用时数第56页,共78页,2023年,2月20日,星期一解:(1)、计算样本平均数和样本标准差第57页,共78页,2023年,2月20日,星期一(2)、计算极限误差(3)、估计区间的下限:4340-146.2=4193.8小时估计区间的上限:4340+146.2=4486.2小时所以,这批电子元件的平均耐用时数在4193.8小时至4486.2小时之间,可靠程度为95.45%。区间估计第58页,共78页,2023年,2月20日,星期一例8-3-5:上例中,如果3000小时以下为不合格品(1)以同样的把握程度估计这批产品的合格率;(2)如果共有20000件产品,至少有多少件合格品。解:(1)估计的下限:98%-2.8%=95.2%估计的上限:98%+2.8%=100%所以,这批电子元件的合格品率在95.2%至100%之间,可靠程度为95.45%。(2)至少有20000×95.2%=19040件合格品第59页,共78页,2023年,2月20日,星期一例8-3-6对某广播电台的800名经常听众进行调查,发现有600名是青少年,要求误差范围不超过3%。试估计全部听众中青少年听众所占比重的区间范围。解:已知n=800查表F(t)=95%第60页,共78页,2023年,2月20日,星期一§4、抽样方案的设计一、抽样设计必须掌握两个基本原则:(二)、保证实现最大的抽样效果原则,即在一定的调查费用条件下,选取抽样误差最小的方案;或在给定精确度的要求下,做到调查费用最少。(一)、保证实现抽样的随机性原则第61页,共78页,2023年,2月20日,星期一二、抽样调查的几种常用形式简单随机抽样类型抽样等距抽样整群抽样多阶段抽样第62页,共78页,2023年,2月20日,星期一(一)、简单随机抽样(纯随机抽样)即从总体单位中不加任何分组、排队,完全随机地抽取调查单位。随机抽选可有各种不同的具体做法,如:1.直接抽选法;2.抽签法;3.随机数码表法;第63页,共78页,2023年,2月20日,星期一(二)、类型抽样(分类抽样)先对总体各单位按一定标志加以分类(层),然后再从各类(层)中按随机原则抽取样本,组成一个总的样本。
类型的划分:一是必须有清楚的划类界限;二是必须知道各类中的单位数目和比例;三是分类型的数目不宜太多。第64页,共78页,2023年,2月20日,星期一类型抽样的好处是:
样本代表性高、抽样误差小、抽样调查成本较低。如果抽样误差的要求相同的话则抽样数目可以减少。两种类型:1.等比例类型抽样(类型比例抽样);2.不等比例类型抽样(类型适宜抽样)。第65页,共78页,2023年,2月20日,星期一(三)、机械抽样(等距抽样)
先将全及总体的所有单位按某一标志顺序排队,然后按相等的距离抽取样本单位。排列次序用的标志有两种:1.选择标志与抽样调查所研究内容无关,称无关标志排队。2.选择标志与抽样调查所研究的内容有关,称有关标志排队。研究工人的平均收入水平时,按工号排队。例研究工人的生活水平,按工人月工资额高低排队。例第66页,共78页,2023年,2月20日,星期一机械抽样的好处:
1.可以使抽样过程大大简化,减轻抽样的工作量;2.如果用有关标志排队,还可以缩小抽样误差,提高抽样推断效果。
机械抽样,实际上是一种特殊的类型抽样。因为,如果在类型抽样中,把总体划分为若干相等部分,每个部分只抽一个样本,在这种情况下,则类型抽样就成了机械抽样。第67页,共78页,2023年,2月20日,星期一(四)、整群抽样
整群抽样即从全及总体中成群地抽取样本单位,对抽中的群内的所有单位都进行观察。整群抽样的好处:组织工作比较简单方便,适用于一些特殊的研究对象。其不足之处是,一般比其它抽样方式的抽样误差大。第68页,共78页,2023年,2月20日,星期一(五)、多阶段抽样
即把抽样本单位的过程分为两个或几个阶段来进行。(如果一次就直接抽选出具体样本单位,这叫单阶段抽样)具体讲:①先抽大单位(可以用类型抽样或机械抽样),②再在大单位中抽小单位(可用整群抽样或简单随机抽样),③小单位中再抽更小的单位;而不是一次就直接抽取基层的调查单位。第69页,共78页,2023年,2月20日,星期一三、必要抽样单位数的确定指为了使抽样误差不超过给定的允许范围至少应抽取的样本单位数目。(一)简单随机抽样下必要抽样单位数的确定1、由样本平均数估计总体平均数时重复抽样:n=不重复抽样:n=第70页,共78页,2023年,2月20日,星期一不重复抽样:n=2、由样本成数估计总体成数时重复抽样:n=第71页,共78页,2023年,2月20日,星期一解:=625(户)例8-3-6:根据历史资料,某市职工家庭年收入的标准差为250元现再次调查收入状况,要求在95.45%的把握度下平均年收入的允许误差不超过20元,问应抽多少户家庭调查?第72页,共78页,2023年,2月20日,星期一例8-3-7:调查一批零件的合格率,根据过去的资料,合格率为97%。如果要求误差不超过1%,把握程度为95%,问需抽多少个零件检查?解:=1118(件)第73页,共78页,2023年,2月20日,星期一(二)必要抽样单位数的影响因素1、概率保证程度2、总体各单位在被研究标志上的差异程度4、不同的抽样方法5、不同的抽样组织方式最后,要考虑调查的人力、物力、财力的许可情况3、允许误差范围第74页,共78页,2023年,2月20日,星期一第六章抽样推断一、判断对错1、样本统计量是一个随机变量。()2、抽样极限误差总是大于抽样平均误差。()3、在抽样推断中,作为推断的总体和和为观察对象的样本都是确定的、唯一的。(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论