抽样技术7不等概率抽样_第1页
抽样技术7不等概率抽样_第2页
抽样技术7不等概率抽样_第3页
抽样技术7不等概率抽样_第4页
抽样技术7不等概率抽样_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第七章第七章 不等概抽样不等概抽样放回不等概率抽样放回不等概率抽样不放回不等概率抽样不放回不等概率抽样利用软件进行抽样和计算利用软件进行抽样和计算案例分析案例分析第一节 不等概率抽样概述一、不等概率抽样的必要性一、不等概率抽样的必要性 1、在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。等概率抽样的特点是总体中的每个单元在该总体中的地位(或重要性)相同,在抽样时对每个单元采取的是“不偏不倚”的态度 。等概率抽样不仅实施简单,而且相应的数据处理公式也简单。但是在许多实际问题中,我们还需要使用不等概率抽样(sampling with unequal probabilities)。2、

2、抽样单元在总体中所占的地位不一致:例如:要反映某小麦品种的优良情况,以村作为抽样单位,但各村的种植面积不同,一些种植面积大的村庄在抽样中是否被抽中对推断总体的结果有很大影响 ,所以让“大单元”被抽到的概率大,“小单元”被抽到的概率小,这样能够大大提高样本的代表性,减少抽样误差。 不等概率抽样概述 不等概率抽样的特点 2、不等概率抽样的主要优点优点是由于使用了辅助信息,提高了抽样策略的统计效率, 能显著地减少抽样误差。1、凡需使用不等概率抽样的场合,必须提供总体单元的某种辅助信息。例如:例如:每个单元的“大小”度量Mi。注意:注意:比估计和回归估计是估计方法用到了辅助信息,本章是抽样方法用到辅助

3、信息.不等概率抽样的特点3 3、抽样框的创建比简单随机抽样和系统抽样成本、抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要存储总体中每一个单元高,更复杂,因为需要存储总体中每一个单元的度量大小的度量大小;4 4、并非在任何情况下都能使用,因为并不是每一、并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关个总体都有稳定且与主要调查变量相关的有关大小或规模的度量大小或规模的度量;5 5、抽样及估计(特别对不放回抽样)相当复杂、抽样及估计(特别对不放回抽样)相当复杂; 6 6、 当单元大小度量不准确或不稳定时不适用当单元大小度量不准确或不稳定时不适用。6不等

4、概率抽样的分类放回不等概抽样放回不等概抽样:按照总体单元的规模大小来确定在每次抽中的概率。抽取后放回总体,再进行下一次抽样,每次抽样都是独立的。这种抽样称为放回不等概抽样(sampling with p probabilities p proportional to s sizes,简称PPS抽样) 不放回的不等概抽样不放回的不等概抽样:每次在总体中对每个单元按入样概率进行抽样,抽出的样本不再放回总体,因此,在抽取了第一个单元后,余下的单元再以什么概率被抽取就较复杂。 这种抽样不是独立的,无论是抽样方法还是方差估计,都要比放回抽样繁复得多。不放回抽样通常称为PS抽样。抽样。放回不等概抽样 PP

5、S PPS抽样:有放回的不等概抽样抽样:有放回的不等概抽样01100,11NiiNiiiiiNMiiNinMMMZMnZ抽设总体包含 个单元,是第 个单元的大小或规模的度量, , ,总体的总规模度量为:则第 个单元的抽选概率为:即,一次抽完后再,进行下一次抽取。独立地进行这样的抽样 次样概率正比于规模度量放回有可能重复,只调查一次,但计算时按,共抽到 个重复数单元(计算)。0N1N1jj1N1jj1N1jjN2111211iMMM2M1MMNMM2M1MM2M21M1Mi ,代代码码单单元元大大小小单单元元在PPS抽样中,赋予每个单元与Mi相等的代码数,将代码数累加得到M0,每次抽样都等概等概

6、产生一个1,M0之间的随机数,设为m,代码m所对应的单元被抽中。放回不等概率抽样实施方法放回不等概率抽样实施方法1.代码法代码法累计累计代码代码10.66616214.5145151715131.515166152166413.713730316730357.87838130438161515053138253171010063153263183.6366676326679660727668727101.11173872873873.8738 例例5.1 设某个总体有设某个总体有10个单元,相应的单元大小及其代码个单元,相应的单元大小及其代码数如下表,在其中产生一个数如下表,在其中产生一个n=

7、3的样本。的样本。 iMi假设在假设在1,7381,738 中中等概等概产生第一个随机数为产生第一个随机数为354354,再在,再在1,7381,738中产生第二中产生第二个随机数为个随机数为553553,最后在,最后在1,7381,738中产生第三个随机数为中产生第三个随机数为493493,则它们所,则它们所对应的第对应的第5 5,7 7,6 6号单元被抽中。号单元被抽中。 Mi*10例:假设有例:假设有10个乡,每个乡的村庄数不同,按个乡,每个乡的村庄数不同,按pps抽抽3个乡个乡乡村庄数Mi累计代码155152283363332659345941473607351083748363812

8、1841217712812212885017812917892180179180108188181188结合一下整群抽样、结合一下整群抽样、多阶段抽样多阶段抽样2.2.拉希里法拉希里法( (二次抽取法二次抽取法) )(统计学家(统计学家LahiriLahiri最先提出):最先提出):1max 11M ,MM1M M.Mii NaaiiiiiMNMapN M Mi令每次从 ,中简单随机地抽取一随机数a,同时再独立从 ,中抽取一随机数b。若b则第 个单元入样,若b则重抽。第i个单元被抽中的概率:z =pa=i,b=pa=ib=显然地,z简单随机设设 M1, M2,MN为单元的规模为单元的规模放回不

9、等概率抽样实施方法放回不等概率抽样实施方法拉希里法抽样举例:拉希里法抽样举例:例例5.1中,中,M=150,N=10.在在1,10,1,150 中分别产中分别产生(生( i,m)如下)如下:第一次第一次 (3,121) , M3=15121, 舍弃,重抽舍弃,重抽 ;第二次(第二次(8,50),),M8=3677, 第第7号单元入样;号单元入样;第四次(第四次(5,127),),M5=7877, 第第4号单元入样;号单元入样;第六次第六次(9,60),M9=6060, 第第9号单元入样;号单元入样;因此第因此第4,7,9号单元被抽中。号单元被抽中。三、三、Hansen-HurwitzHanse

10、n-Hurwitz(汉森汉森- -郝维茨郝维茨)估计量及其性质:)估计量及其性质:112121,1(1) ()1(2) ()()1(3) ()()()(1)nniHHiiHHNiHHiiiniHHHHHHiizzyYnzE YYYV YZYnZyYYV Yn nvz样本单元被抽中的概率 , ,则对总体总量Y的估计是是的无偏估计。 因为是放回抽样,所以是独立样本,数理统计的结因为是放回抽样,所以是独立样本,数理统计的结论可以在这里应用。论可以在这里应用。放回不等概率抽样对总体特征的估计放回不等概率抽样对总体特征的估计对上述结论加以说明:对上述结论加以说明: 独立同分布样本y1y2yn抽中概率z1

11、z2zn新变量 ty1/ z1y2 /z2yn/zn22111222111111v()=v(1V T()(1)1()11niniiHHinitHHiHHHHnnitiHHiiiiitytYnnzV tV YYtnnnysttysYnzYnnz样本均值 ()即 ()的无偏估计量为:)()()汉森汉森-赫维茨估计量估计给出总体总量的估计赫维茨估计量估计给出总体总量的估计, 如果对总体均值估计可按下公式:如果对总体均值估计可按下公式:0100221011()()(1)nHHiHHiiniHHHHiiMyYYMM nzyv YYM n nz假设是总体规模大小的度量例:例:某县农业局要调查全县养猪专业户

12、今年生猪的出栏头某县农业局要调查全县养猪专业户今年生猪的出栏头数,现有全县数,现有全县365365个养猪专业户个养猪专业户去年的生猪存栏数去年的生猪存栏数,各专业,各专业户的规模相差较大,决定以放回方式按与各养猪专业户上户的规模相差较大,决定以放回方式按与各养猪专业户上年末生猪存栏头数成比例的年末生猪存栏头数成比例的PPS抽样 从中抽取从中抽取3030户进行调户进行调查,结果如下,已知全县养猪专业户上年末生猪存栏头数查,结果如下,已知全县养猪专业户上年末生猪存栏头数为为95429542头,头,试估计该县养猪专业户生猪今年出栏总头数和试估计该县养猪专业户生猪今年出栏总头数和抽样标准误。抽样标准误

13、。(摘自:(摘自:“应用抽样技术应用抽样技术”李金昌)李金昌)imiyiimiyiimiyi11575114025821191242 2232313413412321862226160393713176923372154291521426156242110458451511492574963118516362212643336724133172514527189682917318533283017791374191938382882881019872042304其中第其中第2、19号被抽中两次号被抽中两次解:根据题中所给资料,解:根据题中所给资料,n=30,M0=9542,01119542 7

14、5134177(2.)56163()30152330nniiHHiiyMyYnznm 头2220112222M1()() =()(1)(1)954275561631345616317756163()()2.() 30 291595422395423095422806070()1675nniiHHHHHHiiiiHHyyYYYn nzvvn nmY(头)利用汉森利用汉森-郝维茨估计量,则有:郝维茨估计量,则有:例例5.25.2:某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用抽样

15、调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本。 iimiyiimiyiimiy1*38.2310926105.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301315.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600245.00311710.80290

16、1615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640275.20510niiiHHmynMY102 . 651070.13102423.381092623.381092630367622121211()()=45%=20%SSnnSSrttrttHHHHHHHHHHHHYY,YYYY773861.0595%t=1.96()1741181.9645%757087srtHHHHHH在置信度为时,对应的,YY 的相对误差为:Y相对误差达到相对误差达到20时所需样本量:时所需样本量:220.45301520.2n2220

17、11M1()() =()(1)(1)=30317005145.8(1741)8=1nniiHHHHHHiiiiHHyyv YYYn nzn nmv Y解:解:有放回不等概整群抽样有放回不等概整群抽样 群规模不等的整群抽样中,可采用群规模不等的整群抽样中,可采用等概和不等概等概和不等概抽样;抽样;如果群规模如果群规模差异不大差异不大,可采用,可采用等概等概抽样;如果群规模差异抽样;如果群规模差异较大较大,各个群对总体的影响不同,此时采用,各个群对总体的影响不同,此时采用不等概不等概抽样。抽样。把群规模作为辅助信息,能提高估计精度,而且方差估计把群规模作为辅助信息,能提高估计精度,而且方差估计形式

18、简单。但在抽样时要掌握辅助信息,比简单随机复杂。形式简单。但在抽样时要掌握辅助信息,比简单随机复杂。 假设群的抽取是按与假设群的抽取是按与 MMi i成比例的成比例的ppspps抽样,每次按抽样,每次按 Z Zi i=M=Mi i/M/M0 0(i=1,2i=1,2,NN)的概率抽取第)的概率抽取第i i个群。个群。由汉森由汉森- -赫维茨估计量,赫维茨估计量, ppspps整群抽样总体总值估计量为整群抽样总体总值估计量为01212011()(1 )(),niiniiYvYyMyYnZynnZyM估计量方差的估计为:v ( Y ) =Yv () = 例例 某企业欲估计上季度每位职工的平均病假天

19、数。该企业共8个分厂,现用不等概整群抽样拟抽取3个分厂,并以置信度95%计算其置信区间。分厂编号 职工人数 Mi 累积区间123456781200450210086028401910390320011200120116501651375037514610461174507451936093619750975112950有放回不等概整群抽样有放回不等概整群抽样解:n3,采用PPS抽样,随机抽取的3个数为02011,07972,10281。调查结果如下:01232110100243204160579011()(1)11 43205790()2.023 210032( )00( )0.0356nni

20、iiiniiiyyyyyYnZn nZMyYyyMM nMnv yv YM,v(Y)=Y=有放回不等概整群抽样有放回不等概整群抽样注:注:1、对于群规模不等的整群抽样,采用不等概对于群规模不等的整群抽样,采用不等概PPS抽抽样,可以得到总体目标量的无偏估计,样,可以得到总体目标量的无偏估计, 2、估计量和估计量的方差都有比较简明的形式,估估计量和估计量的方差都有比较简明的形式,估计的效率也比较高,是值得优先考虑采用的方法,计的效率也比较高,是值得优先考虑采用的方法, 3、使用条件:在抽取样本前,要掌握各群规模的信使用条件:在抽取样本前,要掌握各群规模的信息。息。多阶段有放回不等概抽样多阶段有放

21、回不等概抽样 当初级单元规模不等时,常采用不等概抽样。对初级单当初级单元规模不等时,常采用不等概抽样。对初级单元进行元进行PPS抽样时,事先规定每个初级单元被抽中的概率抽样时,事先规定每个初级单元被抽中的概率 Z Zi i=M=Mi i/M/M0 0 (i=1N),(i=1N),可利用代码法,可利用代码法,对抽中的对抽中的初级初级单元再单元再抽抽取取m mi i个二级单元;个二级单元;如果对第二阶段实行简单随机抽样,且如果对第二阶段实行简单随机抽样,且抽相同的样本数(抽相同的样本数(第一阶段抽出来的一般是单元的规模较第一阶段抽出来的一般是单元的规模较大,而且彼此差别不大大,而且彼此差别不大),

22、此时估计形式较简单,且是自),此时估计形式较简单,且是自加权的。加权的。这是实际中经常采用的多阶段不等概抽样法。这是实际中经常采用的多阶段不等概抽样法。 111100011222011210i111/1()=()()(1)(1)(), ( )(1)mijnnnijiiiHHiiiiiinmijijnniHHHHiiiiniHHiyM yMYYnznznMMMyMynMYv YYyyn nzn nyyYyv yMn nmm HHY二阶抽样的自加权形式:多阶段有放回不等概抽样多阶段有放回不等概抽样实际工作中,如果初级单元大小不等,实际工作中,如果初级单元大小不等,人们喜欢:人们喜欢:1 1、第一阶

23、段抽样时按放回的与二级单元成比例的第一阶段抽样时按放回的与二级单元成比例的PPSPPS抽抽样;样;2 2、第二阶抽样进行简单随机抽样,且抽的样本量相同,第二阶抽样进行简单随机抽样,且抽的样本量相同,这样得到的样本是自加权的,估计量的形式也非常简单。这样得到的样本是自加权的,估计量的形式也非常简单。 例:例:某县农村共有某县农村共有1414个乡个乡509509个村,在实现小康的进程中个村,在实现小康的进程中欲计算该县农村的恩格尔系数,欲计算该县农村的恩格尔系数,即居民户的食品支出占即居民户的食品支出占总支出的比例。首先要调查全县的食品总支出,现采用总支出的比例。首先要调查全县的食品总支出,现采用

24、了二阶段抽样,第一阶段先在了二阶段抽样,第一阶段先在1414个乡中,按村的数目多个乡中,按村的数目多少进行少进行PPSPPS抽样,共抽了抽样,共抽了5 5个乡,第二阶段在抽中的乡中个乡,第二阶段在抽中的乡中随机地抽选随机地抽选6 6个村,然后对抽中的村做全面调查,取得的个村,然后对抽中的村做全面调查,取得的数据如下,数据如下,估计全县的食品支出总额及其标准误。估计全县的食品支出总额及其标准误。样本乡序号村数样本村数样本村平均食品支出(万元)119648241617537261084546905366100多阶段有放回不等概抽样例题分析多阶段有放回不等概抽样例题分析多阶段有放回不等概抽样例题分析

25、多阶段有放回不等概抽样例题分析011001222011M =509509=511=1()=()()(1)(1)=nnniiiHHiiiiiinniHHHHiiiiiM yMYYynznznMYv YYyyznMMn nni解:已知村,可按照各单位的入样概率z =采用公式:(48+175+108+90+100)53037.8(万元)故全县农村的食品支出总额为:53037.8万元,其方差估计为:(1)1040834876199.4HHv Y 误差有点偏大,要想提高估计精度,必须误差有点偏大,要想提高估计精度,必须 增加第增加第一阶段的样本量一阶段的样本量 例;某小区有例;某小区有10座高层建筑,每

26、座高层建筑座高层建筑,每座高层建筑 拥有的楼层数如下表,拥有的楼层数如下表, 高层建筑ABCDEFGHIJ楼层12121615101610181620 用二阶段抽样方法抽出用二阶段抽样方法抽出1010个搂层进行调查,第一阶段个搂层进行调查,第一阶段PPSPPS抽出抽出5 5座建筑座建筑,第二阶段按简单随机抽样对每座建筑,第二阶段按简单随机抽样对每座建筑抽取抽取两个两个楼层,具体数据如下表所示,对小区总居民进楼层,具体数据如下表所示,对小区总居民进行估计,并给出估计的误差。行估计,并给出估计的误差。初级样本序号12345居民数18,1215,1819,13 16,1016,11多阶段有放回不等概

27、抽样例题分析多阶段有放回不等概抽样例题分析解:已知解:已知n=5,m=2,M0=145,11148nmijy 01102201222145148214625214614.8145()()(1)145=(1514.8)(16.514.8).549776.62()98.88()9%/595%nmijniMYynmYyMMv Yyyn nv Yv YY 在 置 信 度 为, 估 计 的 相 对 误 差 为r=1.96这时,多阶抽样的总样本量可以这样确定:这时,多阶抽样的总样本量可以这样确定: 1.1.根据简单随机抽样时应抽样本量根据简单随机抽样时应抽样本量 2.2.再乘以设计效应再乘以设计效应def

28、fdeff获得。获得。 多阶抽样与简单随机抽样相比其效率比较低,多阶抽样与简单随机抽样相比其效率比较低,deffdeff应该大于应该大于1 1。实际工作中,可取。实际工作中,可取deffdeff的经验数据。不同项的经验数据。不同项目的目的deffdeff不同。不同。 下面是一案例分析下面是一案例分析多阶有放回不等概抽样多阶有放回不等概抽样例例: : 某调查公司接受了一项关于某调查公司接受了一项关于全国城市成年居全国城市成年居民民人均奶制品每天至少喝一杯奶的人数的比例人均奶制品每天至少喝一杯奶的人数的比例情况的调查。确定抽样范围为全国地级及以上情况的调查。确定抽样范围为全国地级及以上城市中的成年

29、居民。成年居民指年满城市中的成年居民。成年居民指年满1818周岁以周岁以上的居民。上的居民。第一步:确定抽样方法。第一步:确定抽样方法。 调查公司决定采用多阶抽样方法进行方案调查公司决定采用多阶抽样方法进行方案设计,调查的最小单元为成年居民。确定调查设计,调查的最小单元为成年居民。确定调查的各个阶段为城市、街道、居委会、居民户,的各个阶段为城市、街道、居委会、居民户,在居民户中利用在居民户中利用 简单随机法抽取成年居民。简单随机法抽取成年居民。第二步:确定样本量及各阶样本量的配置。第二步:确定样本量及各阶样本量的配置。 按简单随机抽样时,在按简单随机抽样时,在9595置信度下,绝置信度下,绝对

30、误差为对误差为5 5,取使方差达到最大时的消费奶,取使方差达到最大时的消费奶制品的居民比例为制品的居民比例为5050,则全国样本量应为:,则全国样本量应为: 40005. 05 . 05 . 02dPQtn22220 根据以往调查的经验,估计回答率根据以往调查的经验,估计回答率b=80b=80,因此调整样,因此调整样本量为:本量为:多阶抽样的效率比简单随机抽样的效率低,这里取设计多阶抽样的效率比简单随机抽样的效率低,这里取设计效应效应deff=3.2deff=3.2,则在全国范围内应调查的样本居民为:,则在全国范围内应调查的样本居民为:各阶的样本量配置为:各阶的样本量配置为:初级单元:初级单元

31、:2020个样本城市;个样本城市;二级单元:二级单元:每个样本市内抽每个样本市内抽4 4个街道,共个街道,共8080个街道;个街道;三级单元:三级单元:每个样本街道内抽每个样本街道内抽2 2个居委会,共个居委会,共160160个居委会;个居委会;四级单元:四级单元:每个样本居委会内抽每个样本居委会内抽1010个居民户,个居民户,16001600个居民户。个居民户。 在样本居民户内,利用随机表抽在样本居民户内,利用随机表抽1 1名成年居民。名成年居民。5008 . 0400bnn01 )(16002 . 3500deffnn12人人 第三步:确定抽样方法。第三步:确定抽样方法。 第第1 1阶,阶

32、,在全国城市中按与人口数成比例的放回的不等在全国城市中按与人口数成比例的放回的不等概抽样,即概抽样,即PPSPPS抽样抽样(probability propotional to size)(probability propotional to size)。 第第2 2阶和第阶和第3 3阶分别按与人口数成比例的不等概等距抽阶分别按与人口数成比例的不等概等距抽样。样。 以第以第2 2阶为例,阶为例,在某个被抽中的样本城市中,将其所属在某个被抽中的样本城市中,将其所属的街道编号,搜集各街道的人口数,赋予每个街道与其人口的街道编号,搜集各街道的人口数,赋予每个街道与其人口相同的代码数相同的代码数;根据

33、该市总人口数除以样本量根据该市总人口数除以样本量4 4,确定抽样间,确定抽样间距;然后对代码进行随机起点的等距抽样,则被抽中代码所距;然后对代码进行随机起点的等距抽样,则被抽中代码所在的街道为样本街道。在的街道为样本街道。 第第4 4阶,分别在每个样本居委会中,按等距抽样抽出阶,分别在每个样本居委会中,按等距抽样抽出1010个个民户。民户。 即根据居委会拥有的居民户数除以样本量即根据居委会拥有的居民户数除以样本量1010得到抽样距,得到抽样距,然后随机起点等距抽样。然后随机起点等距抽样。 在每个样本居民户中,调查员按在每个样本居民户中,调查员按 随机表抽取随机表抽取1名成年居民名成年居民,1,

34、.,80iiapin1niiaa2042101111120 4 2 101600ijklapa 20211( )()(1)iiv pppn np第四步:推算方法。第四步:推算方法。 记各样本城市的记各样本城市的80位样本居民中,每天至少喝一杯奶位样本居民中,每天至少喝一杯奶的人数为的人数为ai,全国,全国1600名居民组成的样本中,每天至少名居民组成的样本中,每天至少喝一杯鲜奶的人数为喝一杯鲜奶的人数为样本是自加权的,故成年居民每天至少喝一杯鲜奶所占比例为样本是自加权的,故成年居民每天至少喝一杯鲜奶所占比例为: 的方差的估计为的方差的估计为: 其中其中pi是各样本城市每天至少喝一杯鲜奶的人数所

35、占比例是各样本城市每天至少喝一杯鲜奶的人数所占比例:2 2 不放回的不等概率抽样不放回的不等概率抽样 1 1、有放回不等概率抽样,无论从实施上还是从估计计算、有放回不等概率抽样,无论从实施上还是从估计计算以及精度估计都显得十分方便。但是,一个单元被抽中两次以及精度估计都显得十分方便。但是,一个单元被抽中两次以上总会使样本的代表性打折扣,从而引起抽样误差的增加。以上总会使样本的代表性打折扣,从而引起抽样误差的增加。 2 2、不放回不等概率抽样,是指在抽样的过程中被抽到的单、不放回不等概率抽样,是指在抽样的过程中被抽到的单元不能再被抽中,这种抽样要求元不能再被抽中,这种抽样要求 总体中第总体中第i

36、 i个单元的个单元的入样概率入样概率为为i ,这就是所谓的,这就是所谓的 抽样。抽样。 3 3、因为在抽取了第一个单元后,余下的因为在抽取了第一个单元后,余下的 ( N-1 ) ( N-1 ) 个单元以个单元以什么样的概率参与第二次抽样就很复杂;再在抽第三个样本什么样的概率参与第二次抽样就很复杂;再在抽第三个样本时又面临新问题,如此下去,时又面临新问题,如此下去,一是抽样实施的复杂,二是估一是抽样实施的复杂,二是估计量及其方差计算的复杂计量及其方差计算的复杂。因此,在本节仅讨论因此,在本节仅讨论 n n固定,尤其是固定,尤其是n=2n=2时的情形时的情形。 ps 不放回不等概率抽样一、一、 P

37、SPS抽样与包含概率抽样与包含概率包含概率:包含概率:在不放回抽样中,每个单元被包含到样本的概率也即入样概率i及任意两个单元都被包含到样本中的概率ijij1ij1=(n-1)1(1)2NNiiiijNNijjnnn n 对固定的 ,包含概率满足:, 特别的,如果每个单元入样概率与单元大小成比例的概率抽样称这种情形为严格的称这种情形为严格的 抽样抽样ps实施起来复杂,实施起来复杂, 也不易求得,方差的估算很困难,也不易求得,方差的估算很困难,只有在只有在n=2时有简单的算法;当时有简单的算法;当n2时可以通过分层,时可以通过分层,每层中进行严格的每层中进行严格的n=2 抽样抽样ijps010,N

38、iiiiiMnZnMMM 不放回不等概率抽样不放回不等概率抽样2、HorvitzThompson(霍维茨(霍维茨汤普森)估计量汤普森)估计量1niHTiiyy HT估计量与估计量与HH估计量是估计量是 极其相似的。极其相似的。因为因为 ,它们在形式上似乎完全一样,但是它们在形式上似乎完全一样,但是HH估估计量中的计量中的 yi 可以互相重复,可以互相重复,而而HT中的中的yi 却是绝对地互不相同。却是绝对地互不相同。iinZ 21()()NNjiHTijijiijijYYVar y 当当 n 固定时,固定时,HT估计量的方差为:估计量的方差为:例例5.3 假设有假设有5个居委会,每个居委会的住

39、户数个居委会,每个居委会的住户数X已知已知但常住居民未知,我们从但常住居民未知,我们从5个居委会抽出个居委会抽出2个来估计常个来估计常住居民的总人数。如下表:住居民的总人数。如下表: iX(住户数) Y(常住居民人数) zi140011000.80.422506000.50.2532005000.40.241002400.20.1550800.10.05总和1000252021i10种不同的样本分别利用种不同的样本分别利用霍维茨霍维茨汤普森估计量和简单汤普森估计量和简单随机抽样简单估计随机抽样简单估计计算对总量的估计如下表:计算对总量的估计如下表:样本1,2257542501,32625400

40、01,4257533501,5217529502,3245027502,4240021002,520001700 3,4, 245018503,5205014504,52000800平均25202520p sYs r sY1、从均值上来看,它们都是无偏估计,均值都是、从均值上来看,它们都是无偏估计,均值都是2520.2、为比较估计量的优劣,需计算估计量的方差,为比较估计量的优劣,需计算估计量的方差,这用到这用到每个样本被抽出的概率。每个样本被抽出的概率。 3、不放回不等概率样本,每个样本被抽出的概率计算很、不放回不等概率样本,每个样本被抽出的概率计算很复杂。复杂。 不过从直观上来看,例子用不过

41、从直观上来看,例子用霍维茨霍维茨汤普森估计量比汤普森估计量比简简单随机抽样单随机抽样简单估计要精确简单估计要精确结果分析:结果分析:(1)Brewer(布鲁尔)方法(布鲁尔)方法(1963) 假设对所有假设对所有 ,均有,均有 ,现抽取,现抽取两个两个单元单元,最通常的,最通常的方法是逐个选取。方法是逐个选取。i12iZ 几种严格的不放回不等概抽样几种严格的不放回不等概抽样iiPSinZ 这里提到的严格的抽样,是指n固定、严格不放回、包含概率与单元大小严格成比例,即(1) 12iiiZZZN1ij按与成比例从 个单元中抽取第 个单元,假设抽中第 个单位,不放回,在剩下的单元中,再按与M 成比例

42、抽第二个单元,假设抽中第j个单元。(1)(1 2 )1.iiiizzpz DiN其中其中11(1)1112212NNiiiiiiiZZZDZZ 第一次第第一次第i个单元被抽中的概率为:个单元被抽中的概率为:取出第一个不放回,假设第一次抽取了第取出第一个不放回,假设第一次抽取了第i个单元,个单元,第二次单元第二次单元j被抽中的概率为:被抽中的概率为:(| )1jizpjiz这种抽样方法可以保证每个单元入样概率为:这种抽样方法可以保证每个单元入样概率为:2(1,2,)iiZiN 而而(12)(12)ijijijjiZ ZZ ZDZDZ 14(1)(12)(12)(1)12ijijNiijiiZ Z

43、ZZZZZZ 其中其中11(1)1112212NNiiiiiiiZZZDZZ 1211=+(+)2()(HTnjjiiiHTiijijNHTijijijjjijTiHiyyyyyyyYzzE YYvYY 对总值和方差的估计如下:对总值和方差的估计如下:采用霍维茨采用霍维茨汤普森估计量汤普森估计量例例5.4 对于例对于例5.3,如果抽样是按布鲁尔法的,则,如果抽样是按布鲁尔法的,则其所有可能样本的其所有可能样本的 如下表:如下表:i j样本1,225750.348791,326250.265741,425750.124571,521750.06092,324500.091352,424000.0

44、40482,520000.019383,424500.029073,520500.013844,520000.00588psYi jBrewer 抽样方法举例:抽样方法举例:乡种植面积(千亩)总产量(单位:千公斤) 110100220220330285440360合计100965例:某县有四个乡,粮食总产量和种植面积如下表:例:某县有四个乡,粮食总产量和种植面积如下表:用布鲁尔方法抽取两个乡作样本估计本县的总产量,用布鲁尔方法抽取两个乡作样本估计本县的总产量,验证抽选结果符合验证抽选结果符合PS的要求,并计算估计量方差。的要求,并计算估计量方差。 Brewer法第一个单元的被抽中概率法第一个单

45、元的被抽中概率乡种植面积规模比例第1次被抽中概率1100.10.11250.053462200.20.26670.126753300.30.5250.249504400.41.20.57029合计2.10421(1)12iiizzz(1)(1)12=12iiiiiizzzzzDzD,第一次被抽中的概率本题计算过程:本题计算过程:,(1)(1)100001 21 2121042ijzzzziiiiMizziiPPS第一个单元的抽选办法可采用方法中的代码法相当于,将乘以化为整数,在中随机等概抽选一个数,该数落入哪第二个单元在余下的单元中抽选,按规模大小成比例,假定第一次抽到了第四单元,第二次对余下

46、的三个单元利用个单元的代码区间,该单元即为第代码法进行抽样。一个抽中的单元。下面是如何计算 Brewer法法2个单元的抽选办法:个单元的抽选办法:第二次抽中第第二次抽中第j个单元(第一次抽中第个单元(第一次抽中第i个单元)的概率为个单元)的概率为(| )1jizpjiz第一次抽中第第一次抽中第i个单元,第二次抽中第个单元,第二次抽中第j个单元的联合概率为个单元的联合概率为( ) ( | )( )1jijizpp i p j ip iz假定第一次抽中第假定第一次抽中第1个单元,第二次抽中第个单元,第二次抽中第2个单元,个单元,其联合概率为:其联合概率为:120.2(1) (2|1)0.05346

47、0.011880.9ppp第一次抽中第第一次抽中第1个单元,第二次抽中第个单元,第二次抽中第4个单元的联合概率为个单元的联合概率为第一次抽中第第一次抽中第1个单元,第二次抽中第个单元,第二次抽中第3个单元的联合概率为个单元的联合概率为130.3(1) (3|1)0.053460.017820.9ppp140.4(1) (4|1)0.053460.023760.9ppp第一次抽中第第一次抽中第2个单元,第二次抽中第个单元,第二次抽中第1个单元的联合概率为个单元的联合概率为210.1(2) (1|2)0.126750.015641 0.2ppp第一次抽中第第一次抽中第2个单元,第二次抽中第个单元,

48、第二次抽中第3个单元的联合概率为个单元的联合概率为230.3(2) (3|2)0.126750.0475310.2ppp依次可得各种可能被抽中的概率如下表依次可得各种可能被抽中的概率如下表单元第二次抽中 1 2 3 4合计1234第一次抽第一次抽中中00.011880.017820.023760.053640.0156400.047530.063380.126750.035640.0712900.142570.249500.095060.190090.2851500.57030合计0.146540.273260.35050.22971110.053460.146540.22Z1同理可验证同理可

49、验证20.126750.273260.42Z230.24950.35050.62Z340.57030.229710.82Z4所以抽选结果符合所以抽选结果符合ps要求要求样本单元1,2100/0.2220/0.410500.027721,3100/0.2285/0.69750.053461,4100/0.2360/0.89500.118822,3220/0.4285/0.610250.118822,4220/0.4360/0.810000.253473,4285/0.6360/0.89250.42772iiyjjy1niHtiyYijijijjipp说明:说明:本题是总体信息已知,对书中的结果做

50、了验证。本题是总体信息已知,对书中的结果做了验证。我们在实际工作中只抽到了一个我们在实际工作中只抽到了一个PS样本,比如说,样本,比如说,抽到了第抽到了第3、4个单元,个单元,只用计算只用计算p34,p43,算出算出34,其,其余不用计算。余不用计算。然后代入公式进行计算即可然后代入公式进行计算即可123434341=+(+)2()()=285=360=0.6=0.8=0.4227njjiiiHTiijijijijjipsijijyyyyyYzzyyv Yyy 其 中,(2)Durbin(德宾)方法(德宾)方法(1967)的概率抽取第二个样本。此时的概率抽取第二个样本。此时以概率以概率 在总体中进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论