抽样调查:不等概率抽样_第1页
抽样调查:不等概率抽样_第2页
抽样调查:不等概率抽样_第3页
抽样调查:不等概率抽样_第4页
抽样调查:不等概率抽样_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、简单随机抽样的特点简单随机抽样的特点:总体中每个个体被抽中入样的概率都相同。对总体中每个个体被抽中入样的概率都相同。对于各单元所处地位几乎于各单元所处地位几乎 “ “平等平等” ” 的总体,这种抽样原则既公正又方便的总体,这种抽样原则既公正又方便。不等概率抽样不等概率抽样:但在许多社会经济活动中并非所有单元地位相同。但在许多社会经济活动中并非所有单元地位相同。使得使得“大大”单元入样概率大,单元入样概率大,“小小”单元入样概率小,这里的单元入样概率小,这里的“大大”、“小小”与我们所关心的调查指标有着密切的关系。与我们所关心的调查指标有着密切的关系。第三章第三章 不等概抽样不等概抽样 例如,要

2、了解上海地区钢铁企业的景气状况,总体有上钢一厂、三例如,要了解上海地区钢铁企业的景气状况,总体有上钢一厂、三厂、五厂厂、五厂等等,再加上宝钢。由于宝钢规模极大,它是否景气对整等等,再加上宝钢。由于宝钢规模极大,它是否景气对整个上海地区钢铁工业起着至关重要的作用。而在抽样中将它与其它规模个上海地区钢铁工业起着至关重要的作用。而在抽样中将它与其它规模较小的单位处于同等地位就会既不公正又使抽样推断结果有较大可能发较小的单位处于同等地位就会既不公正又使抽样推断结果有较大可能发生大的偏差。生大的偏差。3.1 PPS 3.1 PPS 抽抽 样样 PPSPPS抽样抽样:抽取概率正比于规模测度。:抽取概率正比

3、于规模测度。Sampling with Probability Proportional to Size.M.iii0MY于于单单元元被被抽抽取取的的概概率率正正比比在在抽抽取取样样本本单单元元时时,各各规规模模测测度度总总体体单单元元 。中中的的单单元元再再作作下下次次抽抽取取一一次次抽抽取取后后,放放回回被被抽抽,正正比比于于被被抽抽中中的的概概率率单单元元取取,第第概概率率抽抽样样方方案案。每每次次抽抽抽抽样样是是常常见见的的一一种种不不等等有有放放回回M M p i PPS1iNjjiiiiiMMMpY 不等概率不等概率 抽样抽样有放回不等概率抽样有放回不等概率抽样 (PPS)ps 无

4、放回不等概率抽样无放回不等概率抽样 ( )PS 一、实现方法一、实现方法(1)累积和法)累积和法 或或 代码法代码法 它适合于它适合于 N N 不太大的情形。假定所有的不太大的情形。假定所有的 为整数,倘为整数,倘若在实际中存在若在实际中存在 不是整数的话,则可以乘以一个倍数使其不是整数的话,则可以乘以一个倍数使其为整数。见下表。为整数。见下表。iMiM单元单元i单元大小单元大小iM代码数代码数12N 12NMMM 11101111,2,NNNiiiNiiiMMMMM 11 , 2 , M11121,2,MMMM 表表3 31 1 ppspps 抽样时各单元的代码数抽样时各单元的代码数每次抽样

5、前,先在整数每次抽样前,先在整数 里面随机等可能的选里面随机等可能的选取一个整数,设为取一个整数,设为m ,m ,若代码若代码 m m 属于第属于第 j j个单元拥有的代码个单元拥有的代码数,则第数,则第 j j个单元入样。整个过程重复个单元入样。整个过程重复 n n次,得到次,得到 n n个单元个单元入样(当然存在重复的可能性)构成入样(当然存在重复的可能性)构成 ppspps 样本。样本。01, 2 , M例例3.13.1 设某总体共有设某总体共有N=8N=8个单元,相应个单元,相应 及代码如表所示及代码如表所示iM1 12 23 34 45 56 67 78 8iiM2/52/51/21

6、/22/32/34/34/38/58/53/53/52/32/3 1 130iM 12121515202040404848181820203030累计累计1212272747478787135135153153173173203203代码代码1 1121213132727282847474848878788881351351361361531531541541731731741742032030203M 假设第假设第 个单元在个单元在 n n次抽样中被抽中次抽样中被抽中 次,则次,则是一个随机向量,其联合分布为:是一个随机向量,其联合分布为:iit12( , ,)Nt tt这是我们熟悉的这是我

7、们熟悉的多项分布多项分布,多项抽样多项抽样其名正出于此。其名正出于此。121212!NtttNNnZ ZZttt1Niitn ( (3.1)3.1) 多项分布多项分布( (3.1)3.1)具有如下性质:具有如下性质:( )( )(1)1,2,( ,)iiiiiijijE tnZVar tnZZiNCov t tnZ Zij 倘若单元有一个数值度量其大小,诸如职工人数、工厂产值倘若单元有一个数值度量其大小,诸如职工人数、工厂产值商店销售额等,或者感兴趣的调查指标在上一次普查时的数商店销售额等,或者感兴趣的调查指标在上一次普查时的数据也可以作为其单元大小的一种度量。记据也可以作为其单元大小的一种度

8、量。记 为第为第 个单元的个单元的“大小大小”,并记,并记iMi01NMiiM 若取若取 n=3n=3,在在1 1203203中随机有放回地产生中随机有放回地产生3 3个随机整数,不个随机整数,不妨设为妨设为4545、8989、101101,则第,则第 3 3 个单元入样一次,第个单元入样一次,第 5 5 个单个单元入样元入样 2 2 次。次。(2 2)最大规模法)最大规模法 或或 LahiriLahiri( (拉希里拉希里) )方法方法 当当 N N 相当大时,累计的相当大时,累计的 将很大,给代码法的实施带将很大,给代码法的实施带来很多不方便。来很多不方便。LahiriLahiri提出下列

9、方法:令提出下列方法:令每次抽取每次抽取 1 1N N 中一个随机整数中一个随机整数 及及 1 1 内一个随机整数内一个随机整数 ,如果,如果 ,则第,则第 个单元入样;若个单元入样;若 ,则按前面,则按前面步骤重抽步骤重抽 ,显然,第,显然,第 个单元的入样与否受到个单元的入样与否受到 的影的影响,只有响,只有 时它才入样,因此第时它才入样,因此第 个单元入样的概率与个单元入样的概率与 的大小成正比,此时的大小成正比,此时*1maxiiNMM iiii( ,)i m*MmiMm iMm iMm iM0iiZMM 0Mmn定理定理3.1.1 在有放回在有放回PPS抽样下,抽样下,二、估二、估

10、值值 法法PPS抽样法的估值法的理论依据抽样法的估值法的理论依据 niiipy1PPSn1Y.i YY N1i的无偏估计的无偏估计是总体总数是总体总数 .)p(ii单元对应的抽取概率单元对应的抽取概率总体中第总体中第时的抽取概率,而不是时的抽取概率,而不是个样本单元个样本单元为第为第iyi估计的均方偏差为:估计的均方偏差为:.)Ypy(p)niiii21PPSn1YV( n证明证明 考虑随机变量考虑随机变量Z, P ,ppYZiii 212111n12n111E111E1E)YpY(pnp)z(pY(n)zvar(n)zvar(n)zvar()Y(V,Y)z(n)Y(E,YppY)z(Niii

11、iiNiiiiiPPSiiPPSiNiiii的的独独立立同同分分布布样样本本,故故是是随随机机变变量量则则ZyiipZ n定理定理3.1.2 在有放回在有放回PPS抽样下,抽样下, Yn)py()n(n)Ypy()n(n)Y(vPPSniiiPPSniiiPPS2212111 11).Yv(N1)Yv(;YYN1YYPPS2PPSPPSPPS)(;和和为为其均方误差的估计分别其均方误差的估计分别估计总体平均值估计总体平均值用用估计总体总数估计总体总数可用可用注:注:果园序号果园序号12345678规模测度规模测度X503065801404420100例例 一村庄有一村庄有8个果园,分别由果树个

12、果园,分别由果树50, 30, 65, 80, 140, 44, 20, 100棵,要调查该村庄水果产量,以正比于果树棵树的概率取棵,要调查该村庄水果产量,以正比于果树棵树的概率取3个果园作样本个果园作样本. 如果实地调查得第如果实地调查得第5、第、第8、第、第3号三个果园的产量分别为号三个果园的产量分别为15,12,7,求该村八个果园的总产量估计,求该村八个果园的总产量估计.解:解:. 59.04 )52965(7)529100(12)529140(1531 n1Y1PPS niiipy这一估计的均方偏差的估计为这一估计的均方偏差的估计为 9341121.)Ypy()n(n)Y(vPPSni

13、iiPPS2 2、Hansen-Hurwitz Hansen-Hurwitz (汉森(汉森赫维茨)估计量赫维茨)估计量 若若 是按是按 为入样概率的多项抽样而得的样为入样概率的多项抽样而得的样本数据,它们相应的本数据,它们相应的 值自然记为值自然记为 ,则对总,则对总体总和,体总和, Hansen-Hurwitz Hansen-Hurwitz 给出了如下的估计量:给出了如下的估计量:12,nyyy12,nz zziZiZ11niH Hiiyynz 且且 ,即,即 是是总体总和总体总和 的无偏估计。的无偏估计。()HHE yY HHy Y 211()()NiHHiiiYVar yZYnZ ()H

14、HVar y 的无偏估计为的无偏估计为211()()(1)niHHHHiiyv yyn nz 有放回不等概率抽样有放回不等概率抽样:从实施上还是从估计计算以及精度估计都显得从实施上还是从估计计算以及精度估计都显得十分方便。但一个单元被抽中两次以上总会使样本的代表性打折扣,从十分方便。但一个单元被抽中两次以上总会使样本的代表性打折扣,从而引起抽样误差的增加。而引起抽样误差的增加。实际调查工作者一般倾向于使用实际调查工作者一般倾向于使用不放回形式不放回形式。问题问题:最简单的最简单的不放回不等概率抽样不放回不等概率抽样方式自然会想到逐一抽样这在第方式自然会想到逐一抽样这在第一次抽样时不会发生问题,

15、但在抽第二个样本时面临的情况与有放回时一次抽样时不会发生问题,但在抽第二个样本时面临的情况与有放回时大不相同,余下的大不相同,余下的 ( ( N-1 ) N-1 ) 个单元以什么样的概率参与第二次抽样就个单元以什么样的概率参与第二次抽样就是个问题;再在抽第三个样本时又面临新问题。是个问题;再在抽第三个样本时又面临新问题。一是抽样实施的复杂;一是抽样实施的复杂;二是估计量及其方差计算的复杂。二是估计量及其方差计算的复杂。在本节讨论在本节讨论: :(1)(1) n n 固定,尤其是固定,尤其是n=2n=2时的情形。时的情形。(2)(2)总体中每个单元的入样概率严格地与其总体中每个单元的入样概率严格

16、地与其“大小大小”成比例,即成比例,即 抽抽样。样。ps 3.2 3.2 不等概不等概 抽样抽样 PS 几种严格的不放回几种严格的不放回 抽样方法抽样方法ps (1)Brewer(布鲁尔)抽样方法(布鲁尔)抽样方法(1963)个样本单元。个样本单元。抽取第抽取第第二步:以概率第二步:以概率放回;放回;个单元入样,取出后不个单元入样,取出后不设第设第单元,单元,的概率抽取第一个样本的概率抽取第一个样本第一步:以正比于第一步:以正比于且记且记其中其中令令2-p1pippp21p1ppXpjN1iiii1)ji ()(;X,XXiiiiNiiii 前面已经指出,所谓前面已经指出,所谓“严格不放回严格

17、不放回 ”是指样本容量是指样本容量n 固定,严格不放回、固定,严格不放回、 的抽样。仅介绍的抽样。仅介绍n=2的情形。的情形。ps inpi 1. 对这种抽样,总体中个体单元对这种抽样,总体中个体单元i 的入样概率为的入样概率为2. 设计好第一次抽取的概率,第二次抽取的概率与设计好第一次抽取的概率,第二次抽取的概率与 成成正比,使总的入样概率正比于正比,使总的入样概率正比于 .)p)(p()pp(Dpp,pjijijiijii2121122 ipiX特点特点:(2)Durbin(德宾)方法(德宾)方法(1967).)(2Dp211p211pp2pippjiiiiii 个个样样本本单单元元。抽抽

18、取取第第第第二二步步:以以概概率率放放回回;个个单单元元入入样样,取取出出后后不不设设第第单单元元,的的概概率率抽抽取取第第一一个个样样本本第第一一步步:以以1. 对这种抽样,总体中个体单元对这种抽样,总体中个体单元i 的入样概率为的入样概率为.)p)(p()pp(Dpp,pjijijiijii2121122 2. 第一次抽取的概率与第一次抽取的概率与 成正比,第二次抽取的概率使成正比,第二次抽取的概率使总的入样概率正比于总的入样概率正比于 .ipiX特点特点:Durbin方法中的方法中的 与与Brewer方法中的方法中的 完全一样完全一样这表明两种不等概率抽样方法其实是等价的。这表明两种不等

19、概率抽样方法其实是等价的。,iij ,iij (3)Sen-Midzuno抽样方法抽样方法.个个单单元元的的样样本本本本单单元元,组组成成个个样样无无放放回回抽抽取取个个单单元元中中,以以简简单单随随机机第第二二步步:从从剩剩下下的的元元,取取出出后后不不放放回回;概概率率抽抽取取第第一一个个样样本本单单第第一一步步:以以n1n1-Npi .pNf),N)pp(N(Nn,NnpNnijii近似正比于近似正比于很小时,很小时,当抽样比当抽样比分别为分别为和同时入样概率和同时入样概率对应的入样概率对应的入样概率iijiijin22-n22-n11 111-N (4) HorvitzThompson

20、(霍维茨霍维茨汤普森汤普森)HT估计量估计量对于不放回不等概率抽样对于不放回不等概率抽样, 常用常用HT估计。估计。总体总数总体总数Y的无偏估计量为:的无偏估计量为: niiiHTyY1 该估计量的均方偏差为:该估计量的均方偏差为:.YY)(Y)()Y(VjiNiNijjijiijNiiiiHT 11j121 HT估计的均方偏差的两个无偏估计量为估计的均方偏差的两个无偏估计量为.)yy()()Y(v,yy)(y)()Y(vjjiiNinijijijjiHTjiNinijijjijiijiniiiHT2121212121 注注:两估计量均有可能取负值,通过模拟比较,两估计量均有可能取负值,通过模拟比较,v2较稳定且较稳定且 较少取负值。较少取负值。3.3 3.3 RaoRao-Hartley-Cochran-Hartley-Coc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论