第五章不等概抽样_第1页
第五章不等概抽样_第2页
第五章不等概抽样_第3页
第五章不等概抽样_第4页
第五章不等概抽样_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样调查课抽样调查课-不等概抽样不等概抽样单位: 浙江财经学院数统学院课程: 抽样调查课教师: 张锐一、不等概抽样简介二、放回不等概抽样三、不放回不等概抽样目录目录一、不等概抽样简介一、不等概抽样简介1、等概率抽样回顾2、不等概率抽样介绍3、不等概抽样的应用4、不等概率抽样的优点和条件5、放回抽样和不放回抽样 迄今为止,我们所讨论的两种抽样方法简单随机抽样和分层抽样具有一个共同的特点:总体或层中每个单元入样的可能性(概率)相等等概率抽样等概率抽样(sampling with equal (sampling with equal probabilities)probabilities) 。等概率

2、抽样的基本出发点是:将总体或层中每一个单元看作是平等的,不“偏向”也不“疏远”某些特定的单元如果总体单元的差异不大,这种处理方法既公正又方便。但在许多社会经济活动中并非所有单元的地位都相同或相近,即总体单元相差较大,也即总体方差大,这时等概率抽样的效果就不一定好。1、等概率抽样回顾、等概率抽样回顾 例如,为了估计一个城市的商业销售总额,对各商业网点进行调查。由于商业网点的规模差异极大,个别超大型商场年销售额可以超过亿元,甚至达到十几亿,它们是否景气对这个城市的商业销售总额起着至关重要的作用;而为数较多的大中型商场与商店年销售额是在几十万到几千万之间;至于数量更多的小型商店与摊位的年销售额仅数万

3、元甚至不到一万元。在这种情况下,将特大型、大型商场与一般中小型市场或商店平等对待既不公允,又使抽样推断结果有较大可能发生大的偏倚。因此,在调查中,对大型商场应该处于更重要的位置。 这个例子启示我们:当总体单元相差较大,用等概率抽样的方法不合理时,可在抽样中将总体中每个单元的入样概率与其规模大小联系起来:“大”单元入样的概率大,“小”单元入样的概率小,这就是不等概率抽样不等概率抽样(sampling with unequal probabilities)(sampling with unequal probabilities)。 出现总体单元差异特别大时,往往是牺牲“简单”来提高抽样效率,一种做

4、法是将总体按规模分层一种做法是将总体按规模分层,然后,对较大单元的层取的抽样比高些,抽样比可以是100%,而较小单元的层抽样比定的小些。另一种就是赋予每个单元与其规模(或辅助变量)成比例的入样概入样概率率,这样,大单元入样概率大,小概率入样概率小。2、不等概率抽样介绍、不等概率抽样介绍 不等概抽样中,总体中某类单元比其他单元出现在样本的机会大,这给人感觉这部分单元对推算影响大,使得推算偏向某一方。例如,大商场抽的多了,会不会造成推算的销售额偏大呢? 实际上 ,某些单元的入样概率大,推算时,则赋予它较小的权,反之,入样概率小,推算时,就赋予它较大的权,这样就可以使推算结果仍然是公平的。 3、不等

5、概抽样的应用不等概抽样的应用1、抽样单元在总体中所占的地位不一致,如商场等调查等。2、调查的总体单元和抽样总体的单元不一致,比如调查者希望等概率的调查一单位职工的家庭情况,但由于有双职工的情况。因此,将双职工家庭的一个成员从调查框中拿掉或按每个职工的家庭成员在该单位的工作人数,然后对每名职工按与人数成反比的概率进行抽样。3、改善估计量。4、不等概抽样的优点和条件、不等概抽样的优点和条件 优点:主要是大大提高估计精度,减少抽样误差。 条件:必须要有说明每个单元的规模大小的辅助变量来确定每个单元的入样规模。这在抽样及推算中是必须的。有时比较容易获得。比如,管理部门在车船登记时,车船名和载重吨位是同

6、时登记的,因此,载重吨位作为辅助变量,计算入样概率。 不等概率抽样分为放回与不放回两种情况,我们最关心也是最重要的情形是抽样容量n固定时,单元的入样概率(不放回抽样)或每次抽样的概率(放回抽样)与单元的“大小”严格成比例情形。这种情形下的放回抽样称为pps抽样,不放回抽样称为 抽样。l 放回不等概抽样:每次抽样过程都是从同一个总体中独立进行的,因此实施及推算过程相对简单一些。l 不放回不等概抽样:在抽取时效率要高些。ps5 5、放回抽样和不放回抽样、放回抽样和不放回抽样二、二、 放回的不等概率抽样放回的不等概率抽样1、多项抽样2、pps抽样及实施方法代码法拉希里法3、 Hansen-Hurwi

7、tz估计量及其性质 多项抽样多项抽样既然是不等概率抽样,那么在抽取之前就应当给总体中每一单元赋予一定的抽取概率。设总体包含N个单元,对其进行放回抽样,在每次抽样中,抽到第i个单元的概率为 且 按此规定,独立地抽取n次,共抽到n个单元(有可能重复),则称这种不等概率抽样为多项抽样多项抽样(multinomial sampling)。), 2 , 1, 10(NiZZii, 11NiiZ 若记 为总体中第i单元在n次抽样中被抽中的次数,显然对每个i都有: 且 则 是一个随机向量(r.v.),其联合分布为: it,0nti.1ntNii),(21Nttt.,!1212121ntZZZtttnNiit

8、NttNN(6.1) 这正是我们熟悉的多项分布,“多项抽样”其名正出于此。(6.3) 2 2、 ppspps抽样及实施方法抽样及实施方法倘若每个单元有一个数值度量其大小或规模,诸如职工人数、工厂产值、商店销售额等,我们记Mi为第i个单元的“大小”,并记 是总体中所有单元的“大小”之和,则可取:NiiMM100MMZii 此时,每个单元在每次抽样中的入样概率与单元的大小成正比例,称这种特殊的多项抽样为(放回的)与大(放回的)与大小成比例的概率抽样小成比例的概率抽样(sampling with probability (sampling with probability proportional

9、to size)proportional to size),简称ppspps抽样抽样。 多项抽样是最简单的不等概率抽样,它的实施方法通常有两种,以pps抽样为例。注意:注意:抽样是放回的,因此某个单元出现在样本的次数有可能多次,在调查时,只需要调查一次,这样节省经费。但在计算的时候,按抽中几次计算几次的原则。 它适合于N不太大的情形。假定所有Mi为整数(若不然也可以乘以一个倍数M0,使一切Mi= M0Zi成为整数),对于具有整数Mi的第i个单元赋予一个与Mi相等的代码数。每次抽样前,先在整数1,2,M0里面随机等可能地选取一个整数,设为m,若代码m属于第j个单元拥有的代码数,则第j个单元入样。

10、这个过程重复n次,得到n个单元入样(当然存在重复的可能),构成了pps样本。表表5.1.1 pps抽样时各单元的代码数(设抽样时各单元的代码数(设Mi皆为整数)皆为整数), 211NiiM011MMMNNii, 111NiiM单元单元i单元大小单元大小Mi代码数代码数12NM1M2MN1,2, M1M1+1, M1+2, M1+M2 , 例例1 设某个总体有N=10个单元,欲用多项抽样从中抽取n=5个单元,给定的入样概Zi如下表所示。iZiMi累计Mi代码123456789100.080.100.170.060.240.090.050.070.040.108101762495741081835

11、416574798690100189181935364142656674757980868790911001.00M0=100 在1,100范围内产生5个随机数,设分别为04,73,25,49,82,则第1,第6,第3,第5及第8个单元入样。如再增加一个样本单元,产生的随机数为58,则又对应第5个单元,这个单元即为抽中两次。由于单元愈大,被赋予的代码数就愈多,因此每个单元入样的概率与其大小Mi成正比。(2)拉希里)拉希里(Lahiri)法法也称为二次抽取法也称为二次抽取法 当N相当大时,累计的 将很大,给代码法的实施带来不便。Lahiri提出下列方法:对上述的Mi,令 即所有Mi中的最大值,每

12、次抽取一个1,N范围内的随机数i及1,M*范围内的随机数m,若 则第i个单元入样;否则重抽一组(i,m)。NiiMM10*1max,ii NMM ,iMmiZiMi累计Mi代码123456789100.080.100.170.060.240.090.050.070.040.108101762495741081835416574798690100189181935364142656674757980868790911001.00M0=100 例如,在例1中,N=10,M*=24。设1,10中的一个随机数为4,1,24 中的一个随机数为9,由于M4=68,故第二个单元入样。如此重复,直到抽到n个单

13、元(允许重复)为止。 拉希里法适用于N很大的情况,因为它不需要列出如上表这样的表。 显然,第i个单元的入样与否受到m的影响,只有时它才入样,因此第i个单元入样的可能性与Mi的大小成正比.事实上:imMP(第i个单元入样)=(,)iPiMm() (|)iPi P Mmi*1iMN M3 3、汉森、汉森赫维茨赫维茨 (Hansen-Hurwitz)(Hansen-Hurwitz)估计量估计量 若y1,y2,yn是按Zi为入样概率的多项抽样而得的样本数据,它们相应的Zi值自然地记为小写的z1,z2,zn,则对总体总和,Hansen-Hurwitz给出了如下估计量:11niHHiiyYnz 以盒子模型

14、来描述,我们的盒子里有N张签,分别标上 但如何去实施每个单元的不同概率抽取呢?我们适当地将盒子进行扩充。具体方法如下:不失一般性,设Zi=Mi / M0,i=1,2,N,其中 且各Mi均为整数。扩充了的盒子使原盒内标有Yi / Zi的一张签增加到Mi张签.1212,NNYYYZZZ01,NiiMM11ZY22ZYNNZY01MM02MM0MMN11ZY01M11ZY1M01M22ZY22ZY2MNNZYNNZYNM01M01M01M01M12120121NNNYYYMMMMZZZ12NYYYYE(Y)HH因此, 恰为 的无偏估计。 HHYYHHy 这样从新盒中随机地抽取Yi / Zi就相当于原

15、盒中Yi / Zi以Zi=Mi / M0的概率被抽取。因此样本均值 的期望就相当于新盒子的均值: 由于n次抽取是独立进行的(放回抽样的特点),根据概率论的基本知识, 的方差就等于新盒子的方差的1/n倍,即:HHY21011()NiiiiYMYn MZ211()NiiiiYZYnZVar()HHY因为 为新盒子的方差,利用数理统计基本知识,样本方差 为该方差的无偏估计,于是我们得到了 的无偏估计:21()NiiiiYZYZ211()1niHHiiyYnzVar()HHY()HHv Y211()(1)niHHiiyYn nz211Var()niiiynz汉森汉森赫维茨赫维茨 (Hansen-Hur

16、witz)估计量(总量估计)估计量(总量估计)11niHHiiyYnzVar()HHY211()NiiiiYZYnZ()HHv Y211()(1)niHHiiyYn nz22010()(1)niHHiiMyYn nmM例子例子 某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份上年各企业完成产量的报告,将其汇总得到所属企业上年完成的产量为3676万吨。考虑时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性很强,且企业的特点是规模和管理水平的差异比较大,通常大企业的管理水平较高,因此采用与上年产量成比例的pps抽样,从所属企业中抽出一个样本量为30的

17、样本,调查结果如下表: 请根据以上调查结果估计该部门所属企业的当月完成利润。并给出95%的置信度下的相对误差。如果相同条件下相对误差达到20%,所需的样本容量应该是多少?1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.009

18、40269.9784298.8199218*21.00640276.20510iiMiy解:解:,所以,由上述条件知3676M300n8 . 53031700514)MYM() 1(M)Y() 1(1)Y(20HH122HH1HH0niiiniiiynnzynnv757087MM1Y101HHniiiniiiynzyn174118)Y()Y(HHHHvs补充:在实际工作中,可以依照过去对同类问题的经验调查来估计,比如,对同类问题已经获得过一个样本量为n_o的简单样本,并且已知在一定置信度下,该调查对总体均值或总量的估计的相对误差为r_o,在同样置信度下,如果希望本次调查的相对误差达到r,则在抽样比可以忽略的的情况下,可以近似的计算本次调查所需的样本量:0220nrrn %45Y)Y(96. 1HHH

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论