版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学课件第六章抽样调查统计学课件第六章抽样调查1§1、抽样调查的意义一、抽样调查的概念、特点(一)、概念:抽样调查是按照随机原则从全部研究对象中抽取一部分单位进行观察,并依据所获得的数据对全部研究对象的数量特征做出具有一定可靠性的估计判断,从而达到对全部研究对象的认识的一种统计方法。§1、抽样调查的意义一、抽样调查的概念、特点2(二)、抽样调查的基本特点:根据部分实际资料对全部总体的数量特征做出估计。按随机的原则从全部总体中抽取样本单位。抽样推断的抽样误差可以事先计算并且加以控制。(二)、抽样调查的基本特点:根据部分实际资料对全部总体的数量3二、抽样调查的作用:对某些不可能进行全面调查而又要了解其全面情况的社会经济现象,必须应用抽样调查。对某些社会经济现象虽然可以进行全面调查,但抽样调查可以节约时间、费用,提高调查的时效性。抽样调查和全面调查同时进行,可以发挥相互补充和检查质量的作用。抽样调查可以用于工业生产过程的质量控制。利用抽样调查原理,还可以对某种总体的假设进行检验,来判断这种假设的真伪,以决定行动的取舍。二、抽样调查的作用:对某些不可能进行全面调查而又要了解其全面4§2、抽样调查的基本概念及理论依据一、总体与样本(一)、总体与总体指标总体:是根据研究目的确定的所要研究的同类事物的全体。总体单位数称为总体容量,一般用N表示。总体指标:用来反映总体数量特征的指标。(二)、样本与样本指标样本:从总体中抽取的部分总体单位所构成的整体。样本所包含的总体单位个数称为样本容量,一般用n表示。在实际工作中,人们通常把n≥30的样本称为大样本,而把n﹤30的样本称为小样本。样本指标:是根据样本资料计算的、用于估计和推断相应总体指标的综合指标。§2、抽样调查的基本概念及理论依据一、总体与样本5统计学课件-第六章-抽样调查6二、概率抽样与非概率抽样概率抽样:也叫随机抽样,是指按照随机原则抽取样本。概率抽样最基本的组织方式有:简单随机抽样、分层抽样、等距抽样和整群抽样。非概率抽样:也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。重点调查、典型调查、配额调查等属于非随机抽样。(但由于非随机抽样的效果取决于调查者的经验、主观判断和专业知识,故难免掺杂调查者的主观偏见,出现因人而异的结果,且容易产生倾向性误差;此外,非随机抽样不能计算和控制其抽样误差,无法说明调查结果的可靠程度。)随机原则:就是排除主观意愿的干扰,使总体的每个单位都有一定的概率被抽选为样本单位,每个总体单位能否选入样本是随机的。二、概率抽样与非概率抽样概率抽样:也叫随机抽样,是指按照随机7三、抽样框:是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接影响到抽样的随机性和调查的效果。抽样框的主要形式有三种:1、名单抽样框:即列出全部总体单位的名录一览表,如职工名单、企业名单等。2、区域抽样框:即按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。3、时间表抽样框:即将总体全部单位按时间顺序排列,把总体的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。三、抽样框:是包括全部抽样单位的名单框架。编制抽样框是实施抽8四、抽样误差:误差登记性误差代表性误差系统性误差随机性误差登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方法的差错或被调查者提供虚假资料而造成的误差。任何一种统计调查都可能产生登记性误差。代表性误差是指用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。系统性误差是指由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统偏低或偏高。。随机性误差又称偶然性误差,是指遵循随机原则抽样,由于随机因素(偶然性因素)引起的误差。抽样估计中的所谓抽样误差,就是指的这种随机误差。四、抽样误差:误差登记性误差代表性误差系统性误差随9五、抽样方法和样本可能数目样本的可能数目既和样本的容量有关,也和抽样的方法有关。根据取样方式的不同,抽样方法有重复抽样和不重复抽样两种。1、重复抽样:是指从总体的N个单位中抽取一个容量为n的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。2、不重复抽样:是指抽中单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。五、抽样方法和样本可能数目样本的可能数10重复抽样与不重复抽样的区别:重复抽样:同一总体单位有可能被重复抽中;每个总体单位在每次抽样中被抽中的概率都是相同的。抽样误差较大。不重复抽样:同一总体单位不可能被重复抽中;由于每次抽取是在不同数目的总体单位中进行,每个总体单位在各次抽样中被抽中的概率不相等。抽样误差较小。重复抽样与不重复抽样的区别:重复抽样:不重复抽样:11根据对样本的要求不同,抽样方法又有考虑顺序抽样和不考虑顺序抽样两种:1、考虑顺序的抽样:即从总体N中抽取n个单位构成样本,不但要考虑样本各单位的不同性质,而且还考虑不同性质各单位的中选顺序。相同构成成分的单位,由于顺序不同,也作为不同样本。2、不考虑顺序的抽样:即从总体N个单位抽取n个单位构成样本。只考虑样本各单位的组成成分如何,而不考虑单位的抽样顺序。如果样本的成分相同,不论顺序有多大不同,都作为一种样本。根据对样本的要求不同,抽样方法又有考虑顺序抽样和不考虑顺序抽12以上抽样方法的两种分类还存在交叉情况,即有:考虑顺序的不重复抽样数目考虑顺序的重复抽样数目不考虑顺序的不重复抽样数目不考虑顺序的重复抽样数目以上抽样方法的两种分类还存在交叉情况,即有:考虑顺序的不重复13例如:从4个(N)职工中抽取其中的2个(n)进行调查。考虑顺序的重复抽样数目不考虑顺序的不重复抽样数目例如:从4个(N)职工中抽取其中的2个(n)进行调查。考虑顺14A=40、B=50、C=70、D=80考虑顺序的重复组合:AABACADAABBBCBDBACBCCCDCADBDCDDD不考虑顺序的不重复抽样数目ABBCCDACBDADA=40、B=50、C=70、D=80考虑顺序的重复组合:不15六、抽样调查的理论基础大数法则:关于大量的随机现象具有稳定性质的法则。中心极限定理:如果总体变量存在有限的平均数和方差,那么不论这个总体变量的分布如何,随着抽样单位数n的增加,抽样平均数的分布便趋近于正态分布。六、抽样调查的理论基础大数法则:关于大量的随机现象具有稳定性16(一)、大数法则的意义可以归纳为:现象的某种总体规律只有当具有这些现象足够多数的单位汇总综合在一起的时候,才能显示出来。因此只有从大量现象的总体中,才能研究这些现象的规律性。现象的总体性规律,通常是以平均数的形式表现出来。所研究的现象总体包含的单位愈多,平均数也就越能够正确地反映出这些现象的规律性。各单位的共同倾向(这些表现为主要的、基本的因素)决定着平均数的水平;而单位对平均数的离差(这些表现为次要的、偶然的因素)则由于足够多数单位的汇总综合的结果,而相互抵消,趋于消失。(一)、大数法则的意义可以归纳为:现象的某种总体规律只有当具17联系到抽样推断来看,大数法则证明:
如果随机变量总体存在着有限的平均数和方差,则对于充分大的抽样单位数n,可以几乎趋近于1的概率,来期望抽样平均数与总体平均数的绝对离差为任意小,即对于任意的正数α有:随着抽样单位数n的增加,抽样平均数x有接近总体平均数X的趋势。联系到抽样推断来看,大数法则证明:
如果随机18(二)、大数法则未解决的问题:抽样平均数与总体平均数的离差究竟有多大?离差不超过一定范围的概率究竟有多少?这个离差的分布怎样?要解决这些问题,就要依靠中心极限定理。在现实生活中,一个随机变量服从于正态分布未必很多,但多个随机变量和的分布趋近于正态分布则普遍存在的。抽样平均数也是一种随机变量和的分布,因此在抽样单位数n充分大的条件下,抽样平均数也趋近于正态分布,这为抽样误差的概率估计提供了一个极为有效而且方便的条件。(二)、大数法则未解决的问题:抽样平均数与总体平均数的离差究19§3抽样平均误差一、抽样实际误差:二、抽样平均误差:是抽样平均数(或抽样成数)的标准差。它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。§3抽样平均误差一、抽样实际误差:20三、抽样估计的一般原理(一)、抽样估计的特点:抽样估计是在逻辑上运用归纳推理而不是运用演绎推理。抽样估计是在方法上运用不确定的概率估计法而不是确定的数学分析法。抽样估计的估计结论存在着一定的抽样误差。三、抽样估计的一般原理(一)、抽样估计的特点:21(二)、抽样估计的优良标准无偏性:用抽样指标估计总体指标要求抽样指标的平均数等于被估计的总体指标。一致性:随着样本的单位数n的无限增大,抽样指标和未知的总体指标之间的绝对离差为任意小的可能性也趋于必然性。有效性:用抽样指标估计总体要求作为优良估计量的方差应该比其它估计量的方差小。(二)、抽样估计的优良标准无偏性:用抽样指标估计总体指标要求22
举例说明抽样平均误差的意义:设有4个工人,各人的工资水平分别是40、50、70、80元,现采用重复抽样方法随机从中抽取2人。
序号样本变量(x)样本平均数平均数离差离差平方1(A、A)40、4040-204002(A、B)40、5045-152253(A、C)40、7055-5254(A、D)40、8060005(B、A)50、4045-152256(B、B)50、5050-101007(B、C)50、7060008(B、D)50、80655259(C、A)70、4055-52510(C、B)70、50600011(C、C)70、70701010012(C、D)70、80751522513(D、A)80、40600014(D、B)80、506552515(D、C)80、70751522516(D、D)80、808020400合计—960—2000举例说明抽样平均误差的意义:设有4个工人,各人的工资水平分23统计学课件-第六章-抽样调查24
举例说明抽样平均误差的意义:设有4个工人,各人的工资水平分别是40、50、70、80元,现采用不重复抽样方法随机从中抽取2人。序号样本变量(x)样本平均数平均数离差离差平方1(A、B)40、5045-152252(A、C)40、7055-5253(A、D)40、8060004(B、A)50、4045-152255(B、C)50、7060006(B、D)50、80655257(C、A)70、4055-5258(C、B)70、5060009(C、D)70、80751522510(D、A)80、40600011(D、B)80、506552512(D、C)80、707515225合计—720—1000举例说明抽样平均误差的意义:设有4个工人,各人的工资水平分25统计学课件-第六章-抽样调查26四、抽样平均误差的计算公式:变量总体属性总体当N很大时,重复抽样与不重复抽样的差别不大!四、抽样平均误差的计算公式:变量属性当N很大时,重复抽样与27统计学课件-第六章-抽样调查28五、影响抽样误差大小的因素是:总体被研究标志的变异程度。在其他条件不变的情况下,总体标志的变异程度愈小,则抽样误差也愈小;总体标志的变异程度愈大,则抽样误差也愈大。抽样单位数的多少。在其他条件不变的情况下,抽样单位数愈多,抽样误差愈小;抽样单位数愈少,抽样误差愈大。抽样的方法。在其他条件不变的情况下,重复抽样的抽样误差大于不重复抽样。抽样的组织形式。抽样误差的大小与样本单位数的平方根成反比:如果抽样误差要减少二分之一,则样本单位数必须增大到4倍。五、影响抽样误差大小的因素是:总体被研究标志的变异程度。29例:某电子元件厂生产A型号的电子管,现从10000件产品中,抽取100件进行检验,结果是60件合格。计算合格品率的抽样平均误差。例:某电子元件厂生产A型号的电子管,现从10000件产品中,30六、抽样极限误差:是抽样指标和总体指标之间抽样误差的可能范围。六、抽样极限误差:是抽样指标和总体指标之间抽样误差的可能范围31例1、要估计一批优良水稻品种种子的平均千粒重,现在随机从该批种子抽取1市斤,计数12500粒,折合平均每千粒重x=40克,如果确定极限误差范围为8克,这就要求该批种子的平均千粒重落在40±8克,即在32克到48克之间。例2、要估计某农作物幼苗的成活率,从播种这一品种的秧苗地中随机抽取秧苗1000株,其中死苗80株,则秧苗成活率p=1-(80÷1000)=92%。如果确定极限误差范围为5%,这就要求该农作物成活率p落在92%±5%,即在87%至97%之间。例1、要估计一批优良水稻品种种子的平均千粒重,现在随机从该批32
基于理论上的要求,抽样极限误差通常需要以抽样平均误差为标准单位来衡量,把极限误差除以抽样平均误差,得出相对数t,表示极限误差范围为抽样平均误差的若干倍。t称为概率度。这一变换称为概率的标准化过程。基于理论上的要求,抽样极限误差通常需要以抽样33例1、已知种子平均每千粒重量的抽样平均误差为4克,那么就以概率度t=8÷4=2来表示误差的可能范围。即以来规定误差范围的大小。这时就要求该批种子的平均千粒重落在克之间。例2、已知幼苗成活率的抽样平均误差为3%,那么就以概率度t=5%÷3%=1.67来表示误差的可能范围,即以来规定误差范围的大小,这时就要求该农作物的成活率p落在之间。例1、已知种子平均每千粒重量的抽样平均误差为4克,那么就以概34抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。因为既然抽样误差是一个随机变量,就不要期望抽样平均数(成数)落在一定区间是一个必然事件,而只是给予一定的概率保证而已。所以在进行抽样估计时,不但要考虑抽样误差的可能范围有多大,而且还必须考虑落在这一范围的概率有多大。前者是估计的准确度问题,后者是估计的可靠性问题,两者密不可分。抽样极限误差的估计总是要和一定的概率保证程度35常用的t值及所对应概率的关系:概率度(t)概率F(t)168.27%295.45%399.73%0-1-2-312368.37%95.45%99.73%常用的t值及所对应概率的关系:概率度(t)概率F(t)36§4、全及指标的推断
用抽样指标来估计总体指标有三项要素:
一是:估计值;
二是:估计值的误差范围;
三是:概率保证程度。
一、估计的方法有两种:点估计与区间估计点估计:也称定值估计,即以实际抽样资料得到的抽样指标值作为总体指标的估计值。区间估计:根据估计可靠程度的要求,选定概率度,以及极限误差,再利用抽样调查取得的抽样平均数,定出估计的上、下限。区间称为置信区间,估计可靠程度称为置信度。§4、全及指标的推断
用抽样指标来估计总体指标37二、举例说明估计的两种方法:(一)、总体平均数的估计对一批电子元件进行耐用性能的检查,随机重置抽样方法选取100件作耐用测试,所得结果的分组资料如下:耐用时数(小时)组中值(x)件数(f)900以下8751900—9509252950—100097561000—10501025351050—11001075431100—1150112591150—1200117531200以上12251合计—100二、举例说明估计的两种方法:(一)、总体平均数的估计耐用时数38要求:在95%的可靠程度下对该批电子元件的平均耐用时数作出估计。概率保证程度为95%,查概率表得t值为1.96。要求:在95%的可靠程度下对该批电子元件的平均耐用时数作出估391、定值估计:
这批电子元件的平均耐用时间为1055.5小时,误差不超过10.17小时的可靠程度为95%。
或:这批电子元件的平均耐用时间为1055.5小时精确度为99%,可靠度为95%。2、区间估计:估计区间的下限:1055.5-10.17=1045.33小时估计区间的上限:1055.5+10.17=1065.67小时所以,这批电子元件的平均耐用时数在1045.33小时至1065.67小时之间,可靠程度为95%。1、定值估计:
这批电子元件的平均耐用时间为40(二)、总体成数的估计:
以上例的资料,设电子元件的耐用时间在1000小时及以上为合格品,以95.45%的概率估计该批电子元件的合格率。(二)、总体成数的估计:
以上例的资料,设电子411、定值估计:
这批电子元件的合格品率为91%,误差不超过5.72%的可靠程度为95.45%。
或:这批电子元件的合格品率为91%,精确度为93.7%,可靠程度为95.45%2、区间估计:估计的下限:91%-5.72%=85.28%估计的上限:91%+5.72%=96.72%所以,这批电子元件的合格品率在85.28%至96.72%之间,可靠程度为95.45%。1、定值估计:
这批电子元件的合格品率为91%42§5、必要抽样单位数的确定一、抽样设计必须掌握两个基本原则:(一)、保证实现抽样的随机性原则(二)、保证实现最大的抽样效果原则,即在一定的调查费用条件下,选取抽样误差最小的方案;或在给定精确度的要求下,做到调查费用最少。§5、必要抽样单位数的确定一、抽样设计必须掌握两个基本原则:43二、抽样调查的几种常用形式简单随机抽样类型抽样等距抽样整群抽样多阶段抽样二、抽样调查的几种常用形式简单随机抽样44(一)、简单随机抽样:它是按随机原则直接从总体N个单位中抽取n个单位作为样本。是抽样中最基本也是最单纯的方式,它适用于均匀总体。重置抽样不重置抽样(一)、简单随机抽样:它是按随机原则直接从总体N个单位中抽取45统计学课件-第六章-抽样调查46在确定抽样单位数时,应注意的问题:(一)、抽样单位数受允许误差的制约,允许误差愈小,抽样单位数就愈多。所以在抽样方案设计中,对抽样误差的可能范围要十分慎重地进行思考。(二)、为了防止由于抽样单位数不足而扩大抽样误差,在实际工作中往往根据比单位数大的一个数目进行抽样,以满足共同的需要。(三)、在未知总体标准差或成数时,往往选择最大值或50%,只有这样才能抽取足够多的样本单位数,以保证抽样后的极限误差在预先设定的允许误差范围之内。在确定抽样单位数时,应注意的问题:(一)、抽样单位数受允许误47例:对生产某型号电池进行电流强度检验,根据以往正常生产的经验,电流强度的标准差=0.4安培,而合格率为90%。用重置抽样的方式,要求在95.45%的概率保证下,抽样平均电流强度的极限误差不超过0.08安培,抽样合格率的极限误差不超过5%,问必要的抽样单位数应该为多少?两个抽样指标所要求的单位数不同,应抽取其中比较多的单位数,即144个电池。在实际工作中,只要条件允许,一般应抽取150—200个电池。以保证抽样调查后,计算的极限误差能够在预先设定的允许误差范围内,使抽样调查的任务顺利完成。例:对生产某型号电池进行电流强度检验,根据以往正常生产的经验48(二)、类型抽样:它的特点是先对总体各单位按主要标志加以分组,然后再从各组中按随机的原则抽取一定单位构成样本。通过分类,可以把总体中比较接近的单位归为一组,使各组的分布比较均匀,而且保证各组都有中选的机会,这样计算的抽样平均指标变异程度也就比较小,所以在总体各单位标志值大小悬殊的情况下,运用类型抽样比简单随机抽样可以得到更加准确的结果。在类型抽样中,组内:进行的是抽样调查,存在抽样误差。组间:进行的是全面调查,不存在抽样误差。(二)、类型抽样:它的特点是先对总体各单位按主要标志加以分组49由于总体进行了分组,总体标准差就分解为两个部分:平均组内方差和组间方差。由于在类型抽样中,组间是全面调查,总体标准差就只剩下平均组内方差。2由于总体进行了分组,总体标准差就分解为两个部分50例:某地区全部粮食耕地5000亩,按平原和山区面积比例抽取样本容量630亩,计算相应指标如下表。以95%的概率估计该地区平均亩产量的区间。按地形分组全部面积(亩)Ni抽样面积(亩)ni抽样平均亩产(斤)xi亩产标准差(斤)σi平原4000504960200山区1000126750400合计5000630918253例:某地区全部粮食耕地5000亩,按平原和山区面积比例抽取样51统计学课件-第六章-抽样调查52(三)、等距抽样:它的特点是事先将全及总体各单位按某一标志排列,然后依固定顺序和间隔来抽选调查单位的一种抽样组织形式。设全及总体有N个单位,现在需要抽取一个容量为n的样本,可以将总体单位N按一定标志(包括按有关标志或无关标志)排队,然后将N划分n个单位相等的部分,每个部分都包含k个单位,即N÷n=k。并在第一部分顺序为1、2、3、…i…k个单位中随机抽取一个单位,而在第二部分中抽取第i+k单位,…在第n个部分抽取第i+(n-1)k单位,共n个单位组成一个样本,而且每个样本的间隔均为k,这种抽样方法称为等距抽样。等距抽样的随机性体现在抽取第一个样本单位,当第一个单位确定后,其余的各个单位也就确定了。(三)、等距抽样:它的特点是事先将全及总体各单位按某一标志排53例:某块麦地长720尺,宽200尺,包括100条垅,这块麦地面积为200×720=144000平方尺,
折合144000÷6000=24亩。
现在等距抽取25个10尺长垅为样本进行实割实测。
样本距离=总垅长÷样本数=(720×100)÷25=2880尺。从地角一边样本距离之半处抽取第一个样本,即从1440尺点前后各5尺为第一个样本,以后每隔2880尺抽取一个样本,一直抽足25个样本为止,并测得各样本的产量如下:样本产量(斤)0.60.81.01.21.41.61单位数351042125例:某块麦地长720尺,宽200尺,包括100条垅,这块麦地54统计学课件-第六章-抽样调查55(四)、整群抽样:整群抽样是将总体各单位划分成若干群,然后以群为单位从其中随机抽取一些群,对中选群的所有单位进行全面调查的抽样组织形式。在整群抽样中,群间:进行的是抽样调查,存在抽样误差;群内:进行的是全面调查,不存在抽样误差。(四)、整群抽样:整群抽样是将总体各单位划分成若干群,然后以56例:某工厂大量连续生产,为了掌握某月份某种产品的一级品比率,确定抽出5%的产品,即在全月连续生产的720小时中,按每隔20小时抽取1小时的全部产品,进行检查。根据抽样资料计算结果,一级品率为85%,各群(组)间的方差为6%,则整群抽样的误差计算如下:R=720小时,r=720×5%=36小时,为了保证所抽取的36小时能在720小时中均匀分配,故每隔20小时(720÷36=20)抽取1小时。则:例:某工厂大量连续生产,为了掌握某月份某种产品的一级品比率,57谢谢!谢谢!58统计学课件第六章抽样调查统计学课件第六章抽样调查59§1、抽样调查的意义一、抽样调查的概念、特点(一)、概念:抽样调查是按照随机原则从全部研究对象中抽取一部分单位进行观察,并依据所获得的数据对全部研究对象的数量特征做出具有一定可靠性的估计判断,从而达到对全部研究对象的认识的一种统计方法。§1、抽样调查的意义一、抽样调查的概念、特点60(二)、抽样调查的基本特点:根据部分实际资料对全部总体的数量特征做出估计。按随机的原则从全部总体中抽取样本单位。抽样推断的抽样误差可以事先计算并且加以控制。(二)、抽样调查的基本特点:根据部分实际资料对全部总体的数量61二、抽样调查的作用:对某些不可能进行全面调查而又要了解其全面情况的社会经济现象,必须应用抽样调查。对某些社会经济现象虽然可以进行全面调查,但抽样调查可以节约时间、费用,提高调查的时效性。抽样调查和全面调查同时进行,可以发挥相互补充和检查质量的作用。抽样调查可以用于工业生产过程的质量控制。利用抽样调查原理,还可以对某种总体的假设进行检验,来判断这种假设的真伪,以决定行动的取舍。二、抽样调查的作用:对某些不可能进行全面调查而又要了解其全面62§2、抽样调查的基本概念及理论依据一、总体与样本(一)、总体与总体指标总体:是根据研究目的确定的所要研究的同类事物的全体。总体单位数称为总体容量,一般用N表示。总体指标:用来反映总体数量特征的指标。(二)、样本与样本指标样本:从总体中抽取的部分总体单位所构成的整体。样本所包含的总体单位个数称为样本容量,一般用n表示。在实际工作中,人们通常把n≥30的样本称为大样本,而把n﹤30的样本称为小样本。样本指标:是根据样本资料计算的、用于估计和推断相应总体指标的综合指标。§2、抽样调查的基本概念及理论依据一、总体与样本63统计学课件-第六章-抽样调查64二、概率抽样与非概率抽样概率抽样:也叫随机抽样,是指按照随机原则抽取样本。概率抽样最基本的组织方式有:简单随机抽样、分层抽样、等距抽样和整群抽样。非概率抽样:也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。重点调查、典型调查、配额调查等属于非随机抽样。(但由于非随机抽样的效果取决于调查者的经验、主观判断和专业知识,故难免掺杂调查者的主观偏见,出现因人而异的结果,且容易产生倾向性误差;此外,非随机抽样不能计算和控制其抽样误差,无法说明调查结果的可靠程度。)随机原则:就是排除主观意愿的干扰,使总体的每个单位都有一定的概率被抽选为样本单位,每个总体单位能否选入样本是随机的。二、概率抽样与非概率抽样概率抽样:也叫随机抽样,是指按照随机65三、抽样框:是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接影响到抽样的随机性和调查的效果。抽样框的主要形式有三种:1、名单抽样框:即列出全部总体单位的名录一览表,如职工名单、企业名单等。2、区域抽样框:即按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。3、时间表抽样框:即将总体全部单位按时间顺序排列,把总体的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。三、抽样框:是包括全部抽样单位的名单框架。编制抽样框是实施抽66四、抽样误差:误差登记性误差代表性误差系统性误差随机性误差登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方法的差错或被调查者提供虚假资料而造成的误差。任何一种统计调查都可能产生登记性误差。代表性误差是指用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。系统性误差是指由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统偏低或偏高。。随机性误差又称偶然性误差,是指遵循随机原则抽样,由于随机因素(偶然性因素)引起的误差。抽样估计中的所谓抽样误差,就是指的这种随机误差。四、抽样误差:误差登记性误差代表性误差系统性误差随67五、抽样方法和样本可能数目样本的可能数目既和样本的容量有关,也和抽样的方法有关。根据取样方式的不同,抽样方法有重复抽样和不重复抽样两种。1、重复抽样:是指从总体的N个单位中抽取一个容量为n的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。2、不重复抽样:是指抽中单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。五、抽样方法和样本可能数目样本的可能数68重复抽样与不重复抽样的区别:重复抽样:同一总体单位有可能被重复抽中;每个总体单位在每次抽样中被抽中的概率都是相同的。抽样误差较大。不重复抽样:同一总体单位不可能被重复抽中;由于每次抽取是在不同数目的总体单位中进行,每个总体单位在各次抽样中被抽中的概率不相等。抽样误差较小。重复抽样与不重复抽样的区别:重复抽样:不重复抽样:69根据对样本的要求不同,抽样方法又有考虑顺序抽样和不考虑顺序抽样两种:1、考虑顺序的抽样:即从总体N中抽取n个单位构成样本,不但要考虑样本各单位的不同性质,而且还考虑不同性质各单位的中选顺序。相同构成成分的单位,由于顺序不同,也作为不同样本。2、不考虑顺序的抽样:即从总体N个单位抽取n个单位构成样本。只考虑样本各单位的组成成分如何,而不考虑单位的抽样顺序。如果样本的成分相同,不论顺序有多大不同,都作为一种样本。根据对样本的要求不同,抽样方法又有考虑顺序抽样和不考虑顺序抽70以上抽样方法的两种分类还存在交叉情况,即有:考虑顺序的不重复抽样数目考虑顺序的重复抽样数目不考虑顺序的不重复抽样数目不考虑顺序的重复抽样数目以上抽样方法的两种分类还存在交叉情况,即有:考虑顺序的不重复71例如:从4个(N)职工中抽取其中的2个(n)进行调查。考虑顺序的重复抽样数目不考虑顺序的不重复抽样数目例如:从4个(N)职工中抽取其中的2个(n)进行调查。考虑顺72A=40、B=50、C=70、D=80考虑顺序的重复组合:AABACADAABBBCBDBACBCCCDCADBDCDDD不考虑顺序的不重复抽样数目ABBCCDACBDADA=40、B=50、C=70、D=80考虑顺序的重复组合:不73六、抽样调查的理论基础大数法则:关于大量的随机现象具有稳定性质的法则。中心极限定理:如果总体变量存在有限的平均数和方差,那么不论这个总体变量的分布如何,随着抽样单位数n的增加,抽样平均数的分布便趋近于正态分布。六、抽样调查的理论基础大数法则:关于大量的随机现象具有稳定性74(一)、大数法则的意义可以归纳为:现象的某种总体规律只有当具有这些现象足够多数的单位汇总综合在一起的时候,才能显示出来。因此只有从大量现象的总体中,才能研究这些现象的规律性。现象的总体性规律,通常是以平均数的形式表现出来。所研究的现象总体包含的单位愈多,平均数也就越能够正确地反映出这些现象的规律性。各单位的共同倾向(这些表现为主要的、基本的因素)决定着平均数的水平;而单位对平均数的离差(这些表现为次要的、偶然的因素)则由于足够多数单位的汇总综合的结果,而相互抵消,趋于消失。(一)、大数法则的意义可以归纳为:现象的某种总体规律只有当具75联系到抽样推断来看,大数法则证明:
如果随机变量总体存在着有限的平均数和方差,则对于充分大的抽样单位数n,可以几乎趋近于1的概率,来期望抽样平均数与总体平均数的绝对离差为任意小,即对于任意的正数α有:随着抽样单位数n的增加,抽样平均数x有接近总体平均数X的趋势。联系到抽样推断来看,大数法则证明:
如果随机76(二)、大数法则未解决的问题:抽样平均数与总体平均数的离差究竟有多大?离差不超过一定范围的概率究竟有多少?这个离差的分布怎样?要解决这些问题,就要依靠中心极限定理。在现实生活中,一个随机变量服从于正态分布未必很多,但多个随机变量和的分布趋近于正态分布则普遍存在的。抽样平均数也是一种随机变量和的分布,因此在抽样单位数n充分大的条件下,抽样平均数也趋近于正态分布,这为抽样误差的概率估计提供了一个极为有效而且方便的条件。(二)、大数法则未解决的问题:抽样平均数与总体平均数的离差究77§3抽样平均误差一、抽样实际误差:二、抽样平均误差:是抽样平均数(或抽样成数)的标准差。它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。§3抽样平均误差一、抽样实际误差:78三、抽样估计的一般原理(一)、抽样估计的特点:抽样估计是在逻辑上运用归纳推理而不是运用演绎推理。抽样估计是在方法上运用不确定的概率估计法而不是确定的数学分析法。抽样估计的估计结论存在着一定的抽样误差。三、抽样估计的一般原理(一)、抽样估计的特点:79(二)、抽样估计的优良标准无偏性:用抽样指标估计总体指标要求抽样指标的平均数等于被估计的总体指标。一致性:随着样本的单位数n的无限增大,抽样指标和未知的总体指标之间的绝对离差为任意小的可能性也趋于必然性。有效性:用抽样指标估计总体要求作为优良估计量的方差应该比其它估计量的方差小。(二)、抽样估计的优良标准无偏性:用抽样指标估计总体指标要求80
举例说明抽样平均误差的意义:设有4个工人,各人的工资水平分别是40、50、70、80元,现采用重复抽样方法随机从中抽取2人。
序号样本变量(x)样本平均数平均数离差离差平方1(A、A)40、4040-204002(A、B)40、5045-152253(A、C)40、7055-5254(A、D)40、8060005(B、A)50、4045-152256(B、B)50、5050-101007(B、C)50、7060008(B、D)50、80655259(C、A)70、4055-52510(C、B)70、50600011(C、C)70、70701010012(C、D)70、80751522513(D、A)80、40600014(D、B)80、506552515(D、C)80、70751522516(D、D)80、808020400合计—960—2000举例说明抽样平均误差的意义:设有4个工人,各人的工资水平分81统计学课件-第六章-抽样调查82
举例说明抽样平均误差的意义:设有4个工人,各人的工资水平分别是40、50、70、80元,现采用不重复抽样方法随机从中抽取2人。序号样本变量(x)样本平均数平均数离差离差平方1(A、B)40、5045-152252(A、C)40、7055-5253(A、D)40、8060004(B、A)50、4045-152255(B、C)50、7060006(B、D)50、80655257(C、A)70、4055-5258(C、B)70、5060009(C、D)70、80751522510(D、A)80、40600011(D、B)80、506552512(D、C)80、707515225合计—720—1000举例说明抽样平均误差的意义:设有4个工人,各人的工资水平分83统计学课件-第六章-抽样调查84四、抽样平均误差的计算公式:变量总体属性总体当N很大时,重复抽样与不重复抽样的差别不大!四、抽样平均误差的计算公式:变量属性当N很大时,重复抽样与85统计学课件-第六章-抽样调查86五、影响抽样误差大小的因素是:总体被研究标志的变异程度。在其他条件不变的情况下,总体标志的变异程度愈小,则抽样误差也愈小;总体标志的变异程度愈大,则抽样误差也愈大。抽样单位数的多少。在其他条件不变的情况下,抽样单位数愈多,抽样误差愈小;抽样单位数愈少,抽样误差愈大。抽样的方法。在其他条件不变的情况下,重复抽样的抽样误差大于不重复抽样。抽样的组织形式。抽样误差的大小与样本单位数的平方根成反比:如果抽样误差要减少二分之一,则样本单位数必须增大到4倍。五、影响抽样误差大小的因素是:总体被研究标志的变异程度。87例:某电子元件厂生产A型号的电子管,现从10000件产品中,抽取100件进行检验,结果是60件合格。计算合格品率的抽样平均误差。例:某电子元件厂生产A型号的电子管,现从10000件产品中,88六、抽样极限误差:是抽样指标和总体指标之间抽样误差的可能范围。六、抽样极限误差:是抽样指标和总体指标之间抽样误差的可能范围89例1、要估计一批优良水稻品种种子的平均千粒重,现在随机从该批种子抽取1市斤,计数12500粒,折合平均每千粒重x=40克,如果确定极限误差范围为8克,这就要求该批种子的平均千粒重落在40±8克,即在32克到48克之间。例2、要估计某农作物幼苗的成活率,从播种这一品种的秧苗地中随机抽取秧苗1000株,其中死苗80株,则秧苗成活率p=1-(80÷1000)=92%。如果确定极限误差范围为5%,这就要求该农作物成活率p落在92%±5%,即在87%至97%之间。例1、要估计一批优良水稻品种种子的平均千粒重,现在随机从该批90
基于理论上的要求,抽样极限误差通常需要以抽样平均误差为标准单位来衡量,把极限误差除以抽样平均误差,得出相对数t,表示极限误差范围为抽样平均误差的若干倍。t称为概率度。这一变换称为概率的标准化过程。基于理论上的要求,抽样极限误差通常需要以抽样91例1、已知种子平均每千粒重量的抽样平均误差为4克,那么就以概率度t=8÷4=2来表示误差的可能范围。即以来规定误差范围的大小。这时就要求该批种子的平均千粒重落在克之间。例2、已知幼苗成活率的抽样平均误差为3%,那么就以概率度t=5%÷3%=1.67来表示误差的可能范围,即以来规定误差范围的大小,这时就要求该农作物的成活率p落在之间。例1、已知种子平均每千粒重量的抽样平均误差为4克,那么就以概92抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。因为既然抽样误差是一个随机变量,就不要期望抽样平均数(成数)落在一定区间是一个必然事件,而只是给予一定的概率保证而已。所以在进行抽样估计时,不但要考虑抽样误差的可能范围有多大,而且还必须考虑落在这一范围的概率有多大。前者是估计的准确度问题,后者是估计的可靠性问题,两者密不可分。抽样极限误差的估计总是要和一定的概率保证程度93常用的t值及所对应概率的关系:概率度(t)概率F(t)168.27%295.45%399.73%0-1-2-312368.37%95.45%99.73%常用的t值及所对应概率的关系:概率度(t)概率F(t)94§4、全及指标的推断
用抽样指标来估计总体指标有三项要素:
一是:估计值;
二是:估计值的误差范围;
三是:概率保证程度。
一、估计的方法有两种:点估计与区间估计点估计:也称定值估计,即以实际抽样资料得到的抽样指标值作为总体指标的估计值。区间估计:根据估计可靠程度的要求,选定概率度,以及极限误差,再利用抽样调查取得的抽样平均数,定出估计的上、下限。区间称为置信区间,估计可靠程度称为置信度。§4、全及指标的推断
用抽样指标来估计总体指标95二、举例说明估计的两种方法:(一)、总体平均数的估计对一批电子元件进行耐用性能的检查,随机重置抽样方法选取100件作耐用测试,所得结果的分组资料如下:耐用时数(小时)组中值(x)件数(f)900以下8751900—9509252950—100097561000—10501025351050—11001075431100—1150112591150—1200117531200以上12251合计—100二、举例说明估计的两种方法:(一)、总体平均数的估计耐用时数96要求:在95%的可靠程度下对该批电子元件的平均耐用时数作出估计。概率保证程度为95%,查概率表得t值为1.96。要求:在95%的可靠程度下对该批电子元件的平均耐用时数作出估971、定值估计:
这批电子元件的平均耐用时间为1055.5小时,误差不超过10.17小时的可靠程度为95%。
或:这批电子元件的平均耐用时间为1055.5小时精确度为99%,可靠度为95%。2、区间估计:估计区间的下限:1055.5-10.17=1045.33小时估计区间的上限:1055.5+10.17=1065.67小时所以,这批电子元件的平均耐用时数在1045.33小时至1065.67小时之间,可靠程度为95%。1、定值估计:
这批电子元件的平均耐用时间为98(二)、总体成数的估计:
以上例的资料,设电子元件的耐用时间在1000小时及以上为合格品,以95.45%的概率估计该批电子元件的合格率。(二)、总体成数的估计:
以上例的资料,设电子991、定值估计:
这批电子元件的合格品率为91%,误差不超过5.72%的可靠程度为95.45%。
或:这批电子元件的合格品率为91%,精确度为93.7%,可靠程度为95.45%2、区间估计:估计的下限:91%-5.72%=85.28%估计的上限:91%+5.72%=96.72%所以,这批电子元件的合格品率在85.28%至96.72%之间,可靠程度为95.45%。1、定值估计:
这批电子元件的合格品率为91%100§5、必要抽样单位数的确定一、抽样设计必须掌握两个基本原则:(一)、保证实现抽样的随机性原则(二)、保证实现最大的抽样效果原则,即在一定的调查费用条件下,选取抽样误差最小的方案;或在给定精确度的要求下,做到调查费用最少。§5、必要抽样单位数的确定一、抽样设计必须掌握两个基本原则:101二、抽样调查的几种常用形式简单随机抽样类型抽样等距抽样整群抽样多阶段抽样二、抽样调查的几种常用形式简单随机抽样102(一)、简单随机抽样:它是按随机原则直接从总体N个单位中抽取n个单位作为样本。是抽样中最基本也是最单纯的方式,它适用于均匀总体。重置抽样不重置抽样(一)、简单随机抽样:它是按随机原则直接从总体N个单位中抽取103统计学课件-第六章-抽样调查104在确定抽样单位数时,应注意的问题:(一)、抽样单位数受允许误差的制约,允许误差愈小,抽样单位数就愈多。所以在抽样方案设计中,对抽样误差的可能范围要十分慎重地进行思考。(二)、为了防止由于抽样单位数不足而扩大抽样误差,在实际工作中往往根据比单位数大的一个数目进行抽样,以满足共同的需要。(三)、在未知总体标准差或成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民事案件风险收费委托代理合同
- 惠山区九年级上学期期中考试语文试题(图片版含答案)
- 第十三中学八年级上学期10 月阶段性学情调研语文试卷(图片版含答案)
- 《土地利用现状表》课件
- 《瓦愣纸箱讲座》课件
- 2024年度影视制作合同具体描述6篇
- 2024年度网络安全防护合同:某互联网公司与某网络安全公司2篇
- 《图搜索基础》课件
- 2024年度钢筋工程变更与索赔管理合同2篇
- 消费及其类型课件
- 从局部到整体:5G系统观-完整版
- 热力施工安全培训课件
- 工程创优监理方案
- 国家开放大学毕业生登记表
- 管道阀门更换施工方案
- DB34-T 4700-2024 智慧中药房建设与验收规范
- 物流行业人员培训:仓储与库存管理
- 物流管理职业生涯规划
- 师范类专业职业规划
- 《拼多多运营方案》课件
- 《道路客运输驾驶员两客一危安全警示教育培训》心理健康课件
评论
0/150
提交评论