抽样调查-第5章不等概抽样_第1页
抽样调查-第5章不等概抽样_第2页
抽样调查-第5章不等概抽样_第3页
抽样调查-第5章不等概抽样_第4页
抽样调查-第5章不等概抽样_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

11三月2024抽样调查-第5章不等概抽样

什么时候使用不等概抽样?实际工作中,如果遇到下面几种情况,则可以考虑使用不等概抽样:1、抽样单元在总体中所占的地位不一致2、调查的总体单元与抽样总体的单元不一致3、改善估计量

不等概抽样的优点:提高估计精度,减少抽样误差。二、不等概抽样的种类1、放回不等概抽样首先给整体的每一个单元赋予一个确定的入样概率(通常是不相等的),然后在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元记录后又放回总体,再进行下一次的抽样,很显然每次抽样都是独立的。放回不等概抽样中,最常用的是按照整体单元的规模大小来确定单元在每次抽样时的入样概率,假设总体中第i个单元的规模度量为,总体的总规模为每次抽样中,第i个单元被抽中的概率用表示,其中

这种不等概抽样称作放回的与规模大小成比例的概率抽样(probabilityproportionaltosize),简称PPS抽样。实际问题中,总体单元大小的度量往往不止一个,比如企业员工数量、产值、销售量、利润等都可以度量企业规模的大小。PPS抽样的实施主要有两种方法:代码法和拉希里(Lahiri)法,下面我们用一个实例分别介绍这两种方法。代码数,将代码数累加得到每次抽样都产生一个[1,]之间的随机数,设为m则代码m所对应的单元被抽中。(如果不是整数,则乘以某个倍数。)(1)代码法

在PPS抽样中,赋予每个单元与相等的×10累计×10代码123456789100.614.51.513.77.815103.661.16145151377815010036601161511663033815316316677277381~67~151152~166167~303304~381382~531532~631632~667668~727728~73873.8738____【例5.1】设某个总体有N=10个单元,相应的单元大小及其代码数如下表,我们要在其中产生一个n=3的样本.先在[1,738]中产生一个随机数为354,再在[1,738]中产生第二个随机数为553,最后产生第三个随机493。则它们所对应的第5,7,6号单元被抽中。(2)拉希里法令每次抽样都分别产生一个[1,N]之间的随机数i及[1,]之间的随机数m如果则第i个单元被抽中;否则,重抽一组(i,m).在例5.1中,在[1,10]和[1,150]中分别产生(i,m):(3,121),=15<121,舍弃,重抽;(8,50),=36<50,舍弃,重抽;(7,77),=100≥77,第7号单元入样;(5,127),=78<127,舍弃,重抽;(4,77),=137≥77,第4号单元入样;(9,60),=60≥60,第9号单元入样。因此,第4,7,9号单元被抽中。2、不放回不等概抽样每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元不放回总体,对总体中剩下的单元进行下一次抽样。不放回不等概抽样的效率比放回时的效率高,但是样本不独立会加大抽样实施、参数估计及精度计算的难度。对于不放回不等概抽样,样本的抽取可以有以下几种方法:(1)逐个抽取法。每次从总体未被抽中的单元中以一定的概率取一个样本单元。(2)重抽法。以一定的概率逐个进行放回抽样,如果抽到重复单元,则放弃所有抽到的单元,重新抽取。(3)全样本抽取法。对总体每个单元分别按一定概率决定其是否入样。这种方法的样本量是随机的,事先不能确定。(4)系统抽样法。将总体单元按某种顺序排列,根据样本量确定抽样间距k,在[1,k]中产生一个随机数。§5.2放回不等概抽样一、只抽取一个样本单元(n=1)的不等概抽样

为了便于了解不等概抽样的基本思想,我们先看一个总体已知,只抽取一个样本单元的例子。【例】一个城市有四个超市营业面积从100平方米到1000平方米不等(见下表),我们的目标是通过抽取一家超市来估计这四个超市上个月的总营销量。通常超市面积越大则销售量越大,因此,我们选择的入样概率与超市的营业面积成正比。超市营业面积(平方米)(万元)A1001/1611B2002/1620C3003/1624D100010/16245总计16001300四个超市的背景数据:第i个超市的包含概率,:第i个超市的销售量

如果超市的营业面积近似正比于超市的销售额,那么超市A的销售额就占所有超市销售额的1/16,因此超市A的销售额乘以权重16(包含概率的倒数)可以近似地估计所有超市的销售额。因此,样本量为1的不等概抽样的总体总值估计量为:式中样本[A]1/161117615375[B]2/162016019600[C]3/162412829584[D]10/162453928464四个n=1可能的不等概样本及其估计量从上表可以算出:可见不等概抽样的总体总值估计量是无偏的

我们用同一个例题将不等概抽样与简单随机抽样作一比较,以此认识不等概抽样的意义。与n=1的简单随机抽样相比,简单随机抽样的样本所有可能的样本见下表样本[A]1/4114465536[B]1/4208048400[C]1/4249641616[D]1/4245980462400四个可能的简单随机样本的数据及其估计量我们来计算简单随机抽样的估计量方差

前面按不等概抽样的估计量方差为14248,是无偏估计,期望为300万元,但是其方差大于不等概抽样,这是因为不等概抽样利用了辅助信息,即与销售额相关的超市面积。二、一般有放回不等概抽样

对于放回不等概抽取样本容量为n的样本,总体总值的估计量为样本中所有的平均,我们得到汉森—赫维慈(Hansen-Hurwitz)估计:上式是总体总值的无偏估计如果采用的是PPS抽样,即,则

上面估计量是n个独立观测的平均,因此每个单元的总值估计量方差是:【例5.2】某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份上年各企业完成产量的报告,将其汇总得到所属企业上年完成产量为3676万吨.考虑到时间紧,准备采用抽样调查来推算当月完成的利润.根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高,因此采用与上年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本,调查结果如下表.不等概抽样例题imiyiimiyiimiyi138.2310926106.501900191.510213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.001045229.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784298.819921821.00640276.20510样本单元的有关数据红色数字表示被两次抽到,mi为企业上年完成的产量,yi为企业当月完成的产量。

要根据以上调查结果估计该部门所属企业当月完成的利润,并给出95%置信度下的相对误差.如果要求在相同条件下相对误差达到20%,所需的样本量应该是多少?解:由上述条件知估计当月完成的利润为:方差及标准差的估计在置信度为95%时,对应的t=1.96,的相对误差

因此,在置信度仍为95%、相对误差时,所需样本量为:三、有放回不等概整群抽样

在群规模不等的整群抽样中,如果群的规模差异较大,各个群对总体的影响会产生很大差别。这时可以采用不等概方式抽取群。其好处是把群的规模作为抽取样本的辅助信息,提高了估计的精度,而且方差估计有比较简单的形式。下面主要讨论以PPS抽样抽取群的情况。

每次按的概率抽取第i个群,由于群内的单元全部参与调查,第i个群的总值为:根据上节讲到的汉森—赫维茨估计量,PPS整群抽样的总体总值估计量为:我们知道,这是一个无偏估计。估计量的方差是:估计量方差的估计为:【例5.3】

某企业欲估计上季度每位职工的平均病假天数。该企业共有8个分厂(工人数资料见下表),现用不等概整群抽样拟抽取三个分厂为样本,并以95%的置信度计算其置信区间。有关数据及抽样过程如下:分厂编号职工人数累积区间112001~120024501201~1650321001651~375048603751~4610528404611~7450619107451~936073909361~9750832009751~129508个分厂的职工人数资料【解】

采用PPS抽样,利用随机数表在数字1~12950之间随机抽取3个数,分别是02011,07972和10281,于是3分厂、6分厂和8分厂入选样本。用分别表示三个分厂职工的病假天数,调查结果为:同样可求得估计量方差的估计值为:其95%的置信区间为:【评价】对于群规模不等的整群抽样,采用不等概PPS抽样,可以得到总体目标量的无偏估计,估计量和估计量方差都有比较简明的形式,估计的效率也比较高,确实是值得优先采用的方法。但是此方法使用的条件是:在抽取样本前,要了解有关群规模大小的信息。此外,抽样过程比等概整群抽样更为复杂。§5.3多阶段有放回不等概抽样一、两阶段有放回不等概抽样

抽样方法:对初级单元进行抽样时,先确定每个初级单元的入样概率。对被抽中的初级单元,再抽取个二级单元。如果某个初级单元被抽中多次,则将这个二级单元放回,重新抽取个二级单元。当然,这两个样本中的二级单元可能会有重复。在实际调查时,对重复的二级单元只调查一次,但计算的时候,应该按照被抽中的次数进行重复计算。总体总值的估计:先构造初级单元总值的无偏估计然后利用汉森-赫魏茨估计量对总体总值Y进行估计:特别地记总体中所有二级单元数为,如果抽样时每个初级单元被抽中的概率与其拥有的二级单元数成比例,即初级单元被抽中的概率为第二阶段对二级单元进行简单随机抽样,则,样本是自加权的,对总体总值的估计为:

在实际调查中,如果初级单元大小不相等,人们通常喜欢在第一阶段时按放回的与二级单元成比例的PPS抽样,第二阶段抽样则进行简单随机抽样,且每个初级单元的二级单元样本都相同,这样得到的样本是自加权的,估计量的形式非常简单。【例5.4】某小区拥有10座高层建筑,每座高层建筑拥有的楼层数如下表高层建筑ABCDEFGHIJ楼层1212161510161018162010座高层建筑的层数

我们用两阶段抽样方法抽出10个楼层进行调查,第一阶段抽样为放回的按与每层建筑拥有的楼层成比例的不等概抽取5座建筑,第二阶段按简单随机抽样对每座建筑抽取两个楼层。对10个楼层居民人数的调查结果如下,试对小区总居民数进行估计,并给出估计的误差。初级样本序号12345居民数18,1215,1819,1316,1016,11被选中的高层建筑序号及10个楼层的居民数【解】已知二、多阶段有放回不等概抽样(略)参看教材P174§5.3不放回不等概抽样一、πPS抽样不放回不等概抽样:

我们知道,若采用放回抽样,对总体参数的估计及其方差估计比较简单,但样本单元中可能有单元被抽中多次.因此,放回抽样得到的样本其代表性比不放回抽样差.在相同样本量的条件下,放回抽样的估计精度较低.

不放回不等概抽样是指不放回的与单元大小成比例的概率抽样.包含概率:在不放回不等概抽样中,每个单元入样的概率及任意两个单元同时入样的概率统称为包含概率.对固定的n,包含概率满足下面等式:如果每个单元入样概率与其大小严格成比例则对于固定的n,有

这时,我们简称这种情形的抽样为严格的抽样。求得,只有在n=2时才有一些实用的方法。严格的抽样实施起来非常复杂,不易二、赫魏慈—汤普森估计量对于不放回不等概抽样,其总体总量Y的估计是:赫魏慈—汤普森估计:为第i个单元的包含概率.其中如果则的无偏估计,它的方差为:如果n固定,则【例5.3】假设有5个居委会,每个居委会的住户数X已知,但常住居民人数未知,我们从这5个居委会抽出两个来估计常住居民的总人数,调查数据如下表.i住户数(X)常住人数(Y)包含概率()140011000.822506000.532005000.441002400.2550800.110002520--上面表中的包含概率为:从5个居委会中不放回地抽出2个居委会,无论是不放回不等概抽样还是简单随机抽样,共有10种不同的样本,我们用这些样本分别利用霍维茨—汤普森估计计算及简单随机抽样简单估计计算对总量的估计,计算结果列于下表.样本1,2257542501,3262540001,4257533501,5217529502,3245027502,4240021002,5200017003,4245018503,5205014504,52000800不同估计量的估计结果

从理论上来说,和都是无偏的,它们的均值是2520.本例题的结果表明:不放回不等概赫魏慈—汤普森估计量比简单随机抽样简单估计更精确,其原因是X和Y之间有较强的相关关系。三、n不同情况下的严格抽样我们在上面提到的严格抽样,就是指n固定、严格不放回、包含概率与单元大小成比例。即下面分别介绍一种适合于n=2和n>2情形的严格的抽样。1、的情形在总体中只抽两个单元,通常用逐个抽取法来保证抽样是不放回的。我们可以采用几种不同的抽样方法。对总体所有的单元,如果有就可以采用布鲁尔方法。布鲁尔抽样方法:按与成比例的概率抽取第一个单元,记为j,按与成比例的概率抽取剩下的N-1个单元中抽取第二个单元.布鲁尔方法的包含概率为:对于总体总量估计可采用赫魏慈—汤普森估计量:【例5.7】对于例5.6,如果抽样是按布鲁尔方法的,则其所有可能样本的包含概率如下表:样本1,225750.348791,326250.265741,425750.124571,521750.060902,324500.091352,424000.040482,520000.019383,424500.029073,520500.013844,520000.00588我们可以按下述公式总体均值的估计及其方差:2.n>2的情形一般采用水野法,也是一种逐个抽取方法,它以概率i=1,2,…,N抽取第一个样本单元,在剩下的N-1个单元中,不放回等概地抽出n-1个样本单元。为了保证每个要求每个单元的大小满足:四、几种非严格抽样1.耶茨—格隆迪逐个抽取法:每次都以与未入样的单元的成比例的概率抽样,即以抽取第一个单元,不妨记被抽中的单元为第1个;以在剩下的N-1个单元中抽取第二个样本单元;不妨记被抽中的单元为第2个;以在剩下的N-2个单元中抽取第二个样本单元;依此类推,直到抽出n个样本单元。这种方法显然不是与单元大小严格成比例的,但它在不放回不等概抽样中操作最简单、想法最自然,因而在实际中人们常常使用。

耶茨—格隆迪方法的不易计算,因而不能用赫魏慈—汤普森估计量,我们采用拉奇估计量。

设为按抽中顺序排列的样本单元的指标值,相应的Z值为,令则拉奇估计量为:【例5.8】总体由N=10个单元组成,要在总体中按不等概逐

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论