多阶段抽样完整版本_第1页
多阶段抽样完整版本_第2页
多阶段抽样完整版本_第3页
多阶段抽样完整版本_第4页
多阶段抽样完整版本_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章多阶段抽样第一节引言第二节初级单元大小相等的二阶抽样第三节初级单元大小不相等的二阶抽样第四节其他问题1精选可编辑ppt第一节概述一、概述二、多阶段抽样的定义及其与其他抽样的关系二、多阶段抽样的特点和作用三、抽选方法与推断原理2精选可编辑ppt一、引言采用整群抽样的主要理由是整群样本比较集中,实施便利,每个基本单元的调查费用较低。它的最大缺点是由于群内小单元存在一定程度的相似性(群内相关系数大于0),其抽样误差高于同样样本量的简单随机抽样。事实上,在多数情形,特别是当群的规模比较大时,确实没有必要对群内所有次级单元都进行调查。因此很自然地想到可以对每个被抽到的群中的次级单元再次进行抽样。3精选可编辑ppt二、多阶段抽样的定义及其与其他抽样的关系(一)二阶段抽样设总体由N个初级单元组成,每个初级单元又由若干二级(次级)单元组成,若在总体中按一定方法抽取n个初级单元,对每个被抽中的初级单元再抽取若干二级单元进行调查,则这种抽样称为二阶抽样,或二级抽样(two-stagesampling)在二阶抽样中,全部抽样是分两步实施的:第一步是从总体中抽初级单元,称为第一阶抽样;第二步是从每个被抽中的初级单元中抽二级单元,称为第二阶抽样。4精选可编辑ppt如果每个二级单元又由更小的三级单元组成,那么第二阶抽样后,若对每个被抽中的二级单元中的三级单元再进行抽样,则是三阶抽样。如果对每个被抽中的二级单元不再抽样,调查其中每个三级单元,则称为二阶整群抽样。以此类推,可定义更高阶的多阶抽样(multi-stagesampling)或多阶整群抽样(multi-stageclustersampling)。5精选可编辑ppt(二)多阶段抽样与其他抽样的关系整群抽样可以看作是多阶段抽样的一种特殊情形,即最后一阶抽样是100%的抽样。分层抽样也可看作是多阶抽样的特例:此时每个初级单元即是层,第一阶抽样是100%抽样,而层内抽样是第二阶抽样。当然,层内抽样本身也可能是多阶的。在多阶段抽样中,各阶抽样的方法可以采用简单随机抽样,也可以采用放回或不放回的不等概抽样,或者用系统抽样。6精选可编辑ppt三、多阶段抽样的特点及作用1、实施方便,节省费用保持了整群抽样的优点,即由于样本比较集中,便于调查、节省费用;.2、对抽中的次级单元进行再抽样,提高了效率多阶段抽样能充分发挥抽样的效率,克服了整群抽样的缺点,即避免了对小单元过多调查造成的浪费。3、抽样框编制得以简化多阶段抽样是分阶段实施的,因此抽样框也可以分级进行准备:在第一阶抽样中,仅需准备总体中关于初级单元的抽样框;在第二阶抽样中,仅需对那些被抽中的初级单元准备二级单元的抽样框。更高阶的也是如此,每次只需要对被抽中的单元准备下一级抽样单元抽样框。7精选可编辑ppt在社会经济调查中,多阶抽样常用于抽样单元为各级行政单位的情况。例如,在一项全国性调查中,往往将省、地市、县、街道(乡、镇)、居(村)民委员会、居(村)民小组及住户作为各级南样单元。在此,采用多阶段抽样显然十分方便。再如,在一个城市中,可以将区作为其中一级单元,也可直接将街道作为一级单元;可以将居委会作为街道下一级的单元,也可以将居民小组作为街道下一级的单元。8精选可编辑ppt4、多阶段抽样可用于散料的抽样.所谓散料是指连续松散的不易区分为个体或抽样单元的材料.如:矿石、煤、粮食、水泥、化肥等等。例如:对贮藏在仓库中的小麦中农药残留量的监测.首先,从仓库中抽若干麻袋然后,再从每个抽中的麻袋中的不同部位抽取一定数量的小麦样品(称为份样)进行测试。9精选可编辑ppt三、抽选方法与推断原理

多阶段抽样每一阶段的抽样可以相同,也可以不同,它通常与整群抽样、分层抽样、系统抽样结合使用.实际工作中,多阶段抽样通常与整群抽样结合使用,即前几阶是多阶段抽样,最后一阶为整群抽样。10精选可编辑ppt多阶段抽样时,抽样是分步进行的,因此,讨论估计量的均值及方差时需要分阶段进行,则用到下面的性质:性质1对于两阶段抽样,有式中,E2、V2为在固定初级单元时对第二阶抽样求均值和方差;E1

、V1为对第一阶抽样求均值和方差.11精选可编辑ppt上述1式是显然的。2式证明如下:12精选可编辑ppt性质1可推广到多阶段抽样的情形,如三阶段抽样:13精选可编辑ppt第二节初级单元大小相等的二阶抽样

一、符号二、总体均值的估计量及其性质三、关于总体比例的估计14精选可编辑ppt引:本节先讨论初级单元大小(即所包含的次级单元数目)相等情形的二阶抽样。此时两阶抽样中的每一阶都可采用简单随机抽样:第一阶抽样从总体N个初级单元中抽取n个初级单元,第二阶抽样则是从每个被抽中的初级单元(设每个包含M个次级单元)中抽取m个次级单元。假定:在抽中的若干初级单元中作第二阶抽样是相互独立地进行的。15精选可编辑ppt一、符号说明初级单元的个数:N二级单元的个数:M第一阶段和第二阶段的样本量:n,m;第i个初级单元中第j个二级单元的观测值:Yij(i=1,2,…N;j=1,2,…M)样本中第i个初级单元中的第j个二级单元的观测值:yij(i=1,2,…n;j=1,2,…m)第一阶段和第二阶段的抽样比:16精选可编辑ppt总体和样本中第i个初级单元按二级单元的平均值:总体和样本按二级单元的平均值:17精选可编辑ppt总体和样本初级单元间的方差:初级单元内的方差:18精选可编辑ppt若记则有同理19精选可编辑ppt二、总体均值的估计量及其性质性质2如果二阶抽样中的每一阶抽样都是简单随机的,且对每个初级单元,第二阶抽样是相互独立的,则对总体均值的无偏估计为:其方差为:方差的无偏估计为:20精选可编辑ppt估计量的方差由两个分量组成:其中源由第一阶抽样的第一项主要取决于第一阶抽样的样本量n与初级单元间的方差S12源由第二阶抽样的第二项主要取决于第二阶抽样的总样本量mn与初级单元内的方差S22在通常情况下,第一项占总方差的绝大部分,因此在固定次级单元样本量mn的条件下,n愈大(m愈小),则方差就愈小。21精选可编辑ppt【例8.1】

欲调查4月份100家企业的某项指标,首先从100家企业中抽取了一个含有5家样本企业的简单随机样本,由于填报一个月的数据需要每天填写流水帐,为了减轻样本企业的负担,调查人员对这5家企业分别在调查月内随机抽取3天作为调查日,要求样本企业只填写这3天的流水帐.调查的结果如下,要求根据这些数据推算100家企业该指标的总量,并给出估计的95%置信区间.22精选可编辑ppt5家企业的调查结果样本企业第一日第二日第三日1575964238415035160634485349562555423精选可编辑ppt解:已知N=100,M=30,n=5,m=3f1=n/N=5/100=0.05,f2=m/M=3/30=0.10首先计算样本初级单元的均值和方差:样本企业16013243393583945075571924精选可编辑ppt25精选可编辑ppt置信区间:26精选可编辑ppt三、对总体的比例的估计总体中具有所研究特征的二级单元占全体二级单元数的比例为:式中:Ai为第i个初级单元中具有所研究特征的二级单元数。对总体比例P的估计是:式中:ai为第i个样本初级单元中具有所研究特征的二级单元数。27精选可编辑ppt性质3:对于二阶抽样,如果两个阶段都是简单随机抽样,则有估计量p的方差为:V(p)的无偏估计为:28精选可编辑ppt类似于前面总体方差的表达形式,有:29精选可编辑ppt【例8.2】欲调查某个新小区居民户家庭装潢聘请专业装潢公司的比例。在15个单元中随机抽取了5个单元,在这5个单元中分别随机抽取了4户居民并进行了调查,对这20户调查结果如下:样本单元第一户第二户第三户第四户一栋A座是是否否二栋C座否是否否三栋C座否否否是四栋C座否否否否五栋B座是否否否要求:根据这些数据推算居民家庭装潢聘请专业装潢公司的比例。30精选可编辑ppt解:聘请专业装潢公司的居民户为“1”,否则记为“0”

N=15M=12n=5m=431精选可编辑ppt标准差为s(p)=0.081若以95%的概率估计居民户装潢聘请专业公司的比例在:32精选可编辑ppt第三节初级单元大小不等的二阶抽样一、一般说明及符号二、估计量及其性质三、估计量是自加权的条件及对初级单元的PPS抽样33精选可编辑ppt一、一般说明及记号与整群抽样类似,当初级单元大小不相等时的二阶抽样有两种处理方法:一种是将初级单元按大小分层,使层内的初级单元大小大致相同,从而可用上一节的方法处理。另一种方法是考虑用不等概率抽样抽取初级单元。34精选可编辑ppt符号说明:总体中初级单元的个数以及第一阶抽取的样本量:N,n第i个初级单元中二级单元的个数Mi第i个初级单元中第二阶抽样的样本量mi第i个初级单元中第j个二级单元的观测值:Yij样本中第i个初级单元中的第j个二级单元的观测值:yij第一阶和第二阶的抽样比:35精选可编辑ppt总体及样本二级单元数:总体及样本指标总和:总体及样本第i个初级单元指标总和:总体及样本第i个初级单元按二级单元的平均值36精选可编辑ppt总体及样本二级单元的平均值:初级单元间的方差:第i个初级单元二级单元间的方差:37精选可编辑ppt二、估计量及其性质

(一)对初级单元进行简单随机抽样

如果二阶抽样中每个阶段都采用简单随机抽样,并且每个初级单元中二级单元的抽样是相互独立的,则对总体总和的估计可以采用简单估计,也可以采用比率估计。1.简单估计量这个估计量是无偏的。并且当f2i=mi/Mi对所有的二级单元都相等时,是自加权的。38精选可编辑ppt其方差为:其无偏估计为:其中:39精选可编辑ppt简单估计尽管无偏,但效果一般并不好。其原因是当Mi不相等时,Yi的差异很大,从而中的第一项的数值比较大,估计量的方差也就大。40精选可编辑ppt2.比率估计量为了减小方差,可以考虑将初级单元的大小Mi作为辅助变量,采用比率估计量对总体总和进行估计。对总体总和的比率估计量:这个比率估计量是有偏的,但随着样本量的增加,其偏倚将趋于0。41精选可编辑ppt其近似均方误差为:因为的差异一般不会很大,因此,当Mi相差很大时,

要比无偏估计量的方差小得多。其样本估计为:式中:42精选可编辑ppt(二)对初级单元进行放回不等概抽样对初级单元进行放回不等概抽样时,对每个初级单元,设定一个概率Zi(),进行n次独立放回抽样,每次抽到第i个初级单元的概率为Zi,i=1,2,…N。第二阶抽样则是在每个被抽到的初级单元中以某种形式抽取mi个次级单元。若某个初级单元被重复抽中,则原来在第二阶抽样抽到的这些次级单元都被放回,然后重新抽取mi个次级单元。43精选可编辑ppt对于二阶抽样中总体总和Y的估计,一般是先对每个被抽中的初级单元i,利用第二阶抽样抽到的样本,估计初级单元的总和Yi,然后再利用单阶抽样的结果进一步估计Y。具体地说,是先给出Yi的一个无偏估计,再利用Hansen-Hurwitz估计量对总体总和Y进行估计:由于是Yi的无偏估计,可以证明,是Y的无偏估计。44精选可编辑ppt的方差为:的无偏估计为:注:上面的讨论中并没有规定第二阶的抽样方式,且上式的方差估计量的形式与第二阶抽样的方式无关。45精选可编辑ppt如果希望是自加权的,由则要求:f0为总体中任意一个二级单元被抽中的概率如果f0事先确定,则:即第二阶抽样的抽样比与zi成反比。46精选可编辑ppt当估计量是自加权时,它的方差估计也有以下简单的形式:其中:47精选可编辑ppt在实际应用中,最重要也是最常用的情形是第一阶抽样对初级单元进行PPS抽样,即令:若第二阶抽样是简单随机的,则此时总体总和Y的估计量简化为:若进一步令mi=m,i=1,2…n,则估计量是自加权的,此时:其中:是对的无偏估计。48精选可编辑ppt此时的一个无偏估计为:49精选可编辑ppt采用二阶抽样方法抽10个楼层进行调查,第一阶抽样为放回的、按与每座建筑拥有的楼层数成比例的不等概抽样抽取5座建筑,第二阶按简单随机抽样对每座建筑抽取两个楼层。对10个楼层居民人数的调查如下:高层建筑ABCDEFGHIJ楼层12121615101610181620【例8.3】某小区有10座高层建筑,每座高层建筑有的楼层数如下:50精选可编辑ppt一阶样本序号12345居民数12,1815,1819,1316,1016,11要求:对小区总居民数进行估计,并给出估计的精度。解:n=5m=2M0=14551精选可编辑ppt估计量的方差:估计量的标准差:s=98.88

小区居民数为2146人,在置信度为95%时,估计的相对误差为:52精选可编辑ppt(三)对初级单元进行不放回不等概抽样

适用:初级单元进行不放回不等概抽样,二级单元按简单随机抽样总体总量Y的估计为霍维茨—汤普森估计:其方差估计为:53精选可编辑ppt如果n固定,V的估计也可以用:54精选可编辑ppt第四节其他问题

总样本量nm可有两种方法(二阶抽样):(1).根据调查费用确定(2).根据设计效应确定:即用简单随机抽样的样本量乘以设计效应deff.(1.3<deff<3之间)对于初级单元大小相等的二阶抽样,如何设计两个阶段落样本量,即如何确定n和m是需要考虑的问题。由于影响精度的主要原因是初级单元之间的差异,因此多抽一些初级单元,少抽一些二级单元,但往往初级单元的调查费用比二级单元费用高。一般好的设计可以在调查总的费用一定的情况下,使估计的精度最高;或在一定的精度条件下,使调查费用最省,这就是最优样本量的配置或最优抽样比f1和f2的确定问题。55精选可编辑ppt考虑费用函数为最简单的一种情形:C=c0+c1n+c2nmC0:为固定费用,如场租费等;

c1:每调查一个初级单元的费用

c2:每调查一个二级单元的费用另一方面,当各初级单元大小都相等时,可写为:

因此,在固定C下极小化,或固定V条件下极小化C,即可推导出m的最优值mopt56精选可编辑ppt实际应用中,m应为整数,但mopt往往不是整数,令为mopt

的整数部分,则m的取值规则为:(1)当,则取(2)当,则取(3)当或,则取m=M。求出m后,根据总费用函数,就可以确定n,从而确定最优抽样比f1和f2.m的最优值为:其中:57精选可编辑ppt【例8.4】p184若c1/c2=10,试确定最优m、n。解:首先计算mopt由例8.1知:由本章附录2知:58精选可编辑ppt由因此因为所以m=2其次计算nopt整理得nopt≈3.449,因而可取n=4.59精选可编辑ppt

二、三阶及多阶段抽样(一)各级单元大小相等时的多阶段抽样1.三阶抽样总体初级单元

二级单元

三级

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论