抽样调查-第6章整群抽样ppt课件_第1页
抽样调查-第6章整群抽样ppt课件_第2页
抽样调查-第6章整群抽样ppt课件_第3页
抽样调查-第6章整群抽样ppt课件_第4页
抽样调查-第6章整群抽样ppt课件_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、4.1 整群抽样一、整群抽样的定义与特点 1.整群抽样的定义整群抽样是将整体划分为假设干群,然后 以群为抽样单元,从总体中随机抽取一部分群,对抽中的群中的一切根本单元进展调查的一种抽样技术。 2.整群抽样的优点1抽样框编制得以简化2实施调查便利,节约费用 3.整群抽样的缺陷:抽样误差较大。.二、群的划分 整群抽样中的群大致可分为两类:一类是根据行政或地域构成的群体,如学校企业和街道,对此采用整群调查是为了方便调查,节约费用。另一类群那么是调查人员人为确定的,如将一大块面积划分假设干块较小面积的群,这时就需求思索如何划分群,以使在一样调查费用下调查误差最小。. 群划分的普通原那么 为了提高精度,

2、划分群时应力争使同一群内各单元之间的差别尽能够大,以防止同一群内各单元提供反复信息.这个原那么与分层抽样中划分层的原那么恰好相反.由此看来,整群抽样和分层抽样是针对不同总体构造而提出的两种不同抽样方法.三、群的规模群的规模是指组成群的单元的数量。群的规模大,估计的精度差,但费用省;群的规模小,估计的精度可以提高但费用增大。实际中,确定群的规模涉及多种因数,如群的具体 构造、精度、费用、调查实施的组织管理等。群的规模又有两种情况:一种是总体中的各个群规模相等;另一种是总体中各个群的规模不相等。.四、附号阐明总体第 i 群中第 j个单元的目的值:样本第 i 群中第 j个单元的观测值:总体群PSU)

3、数:N 样本群数:n第i个群中的单元SSU)数量:总体中单元总数:.总体中第i群的群总值:样本中第i群的群总值:总体中第i群的个体均值:样本中第i群的群均值:总体中的群均值:样本中的群均值:.总体中的个体均值:总体方差:样本方差:.总体群间方差:样本群间方差:.总体中第i个群群内方差:样本第i个群群内方差:.群规模相等时整群抽样样本群内方差:群规模相等时整群抽样总体群内方差:.4.2 等概率整群抽样 在N个初级抽样单元中,第i个初级单元含个二级抽样单元。对于整群抽样而言,被抽中的群中一切二级单元全部入样。 我们先思索最简单的情形:每个群所包含的单元数M相等,称为群规模相等。实践问题中只需群规模

4、接近,也可视为群规模相等。 在群规模相等的情况下,整群抽样普通采用简单随机抽样方法抽取群,这时对总体均值的估计非常简单。.一、群规模相等时的估计1、均值估计量 及其方差 假设按简单随机抽样,且群的大小相等,都等于 M ,那么对总体 均值的估计为:.定理4.1 是 的无偏估计,即 这样的结果是显然的,由于是按简单随机方法抽取群,所以样本群均值 是总体群均值 的无偏估计,因此.证明:由于 所以定理4.2 的方差为:.的样本估计为:定理4.3由于的无偏估计,因此的无偏估计。总体总值 的估计量为:.总体总值 的估计量的方差为:下面我们看一个整群抽样的例题.【例4.11】 在一次对某中学在校生零花钱的调

5、查中,以宿舍作为群进展整群抽样,每个宿舍都有M=6名学生。用简单随机抽样在全部N=315间宿舍中抽取n=8间宿舍。全部48个学生上周每人的零花钱 及相关计算数据如下表。试估计该学校学生平均每周的零花钱 ,并给出其95%置信区间。.158837482668775.0125.629183791111016989.0233.631238994109798095.67299.074991059810712990104.67177.875110991328799124108.50287.50611110011699107105106.3342.27712011511799106120112.8372.5

6、789580631301058693.33527.878个宿舍48名学生每周零花钱支出额.解:知故.下面计算估计量方差的估计值:于是置信度为95%的置信区间为98.171.964.34,也即89.66元,106.68元】.2、整群抽样效率分析 在整群抽样中,由于 估计量的方差主要依赖群间的变异性。因此整群抽样中 较大,那么整群抽样就会损失精度。下面我们用方差分析表来讨论这一问题。.群规模相等时的整群抽样 总体方差分析表来源自由度平方和均方群间群内总计. 我们将整群抽样与简单随机抽样的效率进展比较,假设直接从总体中抽取一个样本容量为nM的简单随机样本,那么样本均值的方差为: 但假设该整体被等分为

7、N个规模为M的群,定义 为群内相关系数,描画同一群内成对个体单元之间的相关程度,其表达式为:.根据组合及平均值的计算, 又可表示为:.现实上,前面提到的 可以用群内相关系数近似表示:.假设采用简单随机抽样,直接从总体中抽取个个体单元,那么的方差公式为:由此,可以计算等群抽样的设计效应:这阐明,整群抽样的方差约为简单随机抽样方差的 倍.整群抽样估计效应与群内相关系数 关系亲密,假设群内各单元的值都相等,那么群内方差此时,为最大值,即整群抽样的估计量方差是简单随机抽样估计量方差的倍。假设群内方差与整体方差相等,即整群抽样与简单随机抽样估计的效应相当。.假设群内方差大于总体方差时,的取值为负,此时,

8、整群抽样的效率高于简单随机抽样。因此,要提高整群抽样的效率,就要经过分群尽能够降低 值。这一点是经过增大群内单元之间的差别实现的。 对于自然构成的群而言,无法经过调整群内单元而控制的 取值。这时,要想减少抽样误差,就只能增大样本容量。. 另外,群内相关系数 也可以用群内方差 和群间方差 表示,并由样本统计量 估计:.【例 4.2】 估计例4.1中以宿舍为群的群内相关系数与设计效应.解:由例4.1已计算出样本群间方差而样本群内方差为:.由相关系数的估计式有 设计效应2.741阐明,在这项调查中,为到达同样的估计精度,整群随机抽样的样本量大约为简单随机抽样样本量的2.74倍而此时简单随机抽样的样本

9、量为:.采用整群抽样,假设各群规模不等,情况会复杂一些.此时,有多种不同的抽样方法.1、等概抽样,简单估计此时,不思索群规模不等的影响,抽样方法与前节群规模相等时一样,估计方法也一样,即采用简单随机抽样。对总体均值 的估计为:二、群规模不等时的估计.由于群规模不等,估计时又未思索权数,所以估计量 是有偏的。的方差估计为:.2、等概抽样,加权估计根本思绪:以群规模 为权数,乘以各群均值,得到群察看总值,再将样本中n个群的群总和平均。估计公式为:. 假设总体群平均规模 未知,可以用样本群平均规模替代.因此得到总体总值 Y的估计:式中,为总体中的个体单元总数.总体总值估计量 的方差:.它的无偏估计为

10、:对均值估计 而言:与简单估计相比,加权估计的方法思索了群规模,所以估计量 分别是 的无偏估计.3、等概抽样,比率估计总体均值采用比率估计的方式为:与第三章比率估计的区别在于,这里的辅助变量可知,它是一个有偏的.当样本群数 n 很大时,其不是 ,而是群的规模 .从比率估计量的性质可偏倚很小,可以忽略。总体总值 Y 的比率估计为:.根据比率估计量的方差公式,估计量 的方差分别为: 与前一种方法相比,在大样本量情况下,比率估计的精度更高些。.的样本估计为:的样本估计为:.4、例题和方法比较【例4.3】某县有33个乡,共726个村,某一年度某作物总种植面积为30 525亩。现采用等概抽样随机抽取十个

11、乡进展该种作物的产量调查调查数据如下表。要求利用无偏估计量和比率估计量分别估计全县总产量,并计算估计量的规范差。.样本乡编号村庄数Mi农作物总产量yi(万公斤)种植面积xi(亩)123456789101518261420282119311722.022.830.221.725.331.226.020.533.823.68007801000700880110085080012008301.46671.26671.16151.551.2651.11431.23811.0791.09031.3882 合计209257.18940-10个乡调查数据.1无偏估计等概抽样,简单估计计算平均每个村的产量为:

12、因此,=966.19,评价:此种方法的估计过程虽不复杂,但却是有偏估计.2无偏估计等概抽样,加权估计评价:此种方法虽可获得无偏估计,但与前种方法相比,估计量的估计方差没有改观,反而有所增大.这种方法适宜于 之间差别不大的整群抽样.3以群规模为辅助变量的比率估计评价:比率估计将群规模作为辅助变量引入估计,其估计方差取决于群均值 的差别. 的差别比 的差别要稳定,所以比率估计比前两种方法获得更好的估计效果.4种植面积为辅助变量的比率估计 知全县该作物的种植面积总共有X=30525亩,采用种植面积为辅助变量的估计结果为:评价:与前面几种方法相比,估计量的估计误差最小,估计效果最好.究其缘由,作物的乡

13、产量 不仅与该乡规模 有关,更与该乡的种植面积 有关.【补充】 总体比例的估计一、群规模相等的估计 与群规模相等时均值估计的方法一样,由于比例也是均值。即由 P118 的6.1式,用表示第群中具有某种特征的单元数。是总体比例P的无偏估计。.为样本中第 i群具有某特征单元数的比例;M 为每群中的单元数。 估计量的方差为:的无偏估计为:.二、群规模不等的估计 假设群规模 不等,仍采用简单随机抽样抽取群,那么总体比例的估计量为: 根据比例估计的性质,其估计量的方差为:.的估计式为:.【例6.5】某居民小区有415个居民小组,现采用整群等概抽样,随机抽取25个小组为样本,调查中的一项内容为估计男、女性

14、别比例,下表资料为样本中女性的分布。试用95%的置信度估计该小区女性比例的致信区间,并用简单随机抽样方法进展比较。总体比例估计例题.群(i)居民数(Mi)女性人数(Ai)群(i)居民数(Mi)女性人数(Ai)184141052127159434116314531764563185266419537742041852216398322831032237411212430126325831352合计1517225个居民小组人数及女性人口数.解:这是群规模不等的比例估计总体比例的估计为:由于总体的 未知,用样本 替代得.故置信区间为: 假设采用简单随机抽样方法,从该小区中抽取151人,假定调查结果与

15、上表一样,即其中女性人数为72人,抽样比f也假定一样,那么估计量的估计方差为:.于是可以计算设计效应 这阐明,在次项内容的调查中,整群抽样的估计效果明显地好于简单随机抽样。.4.3 等概率两阶段抽样一、多阶段抽样 前面提到的整群抽样虽然有很多优点,但是由于群内单元通常具有类似性表现为群内相关系数大于零。尤其是当群比较大时,人们自然会想到没有必要对群内一切单元都进展调查,而只需对群内单元进展再抽样,对被抽中的单元进展调查,这就是两阶段抽样。同样的道理,还可以有三阶段抽样、四阶段抽样等,我们统称为多阶段抽样。.多阶段抽样的优点(1)多阶段抽样坚持了整群抽样的样本比较集中、 便于调查、节约费用等优点

16、。同时又防止了对 小单元过多调查呵斥的浪费。(2)多阶段抽样不需求编制一切小单元的样本框。 抽取初级单元时,只需求编制初级单元的抽样 框,对被抽中的初级单元,再去编制二级单元 的抽样框,依此类推。. 二、抽样方法与推断原理 多阶段抽样时,每一个阶段的抽样可以一样,也可以不同。它通常与分层抽样、整群抽样、系统抽样结合运用。多阶段抽样时,抽样是分步进展的,因此,讨论估计量的均值及其方差时,需求分阶段进展,这要用到下面的性质。. 对于两阶段抽样,有 式中, 为在固定初级单元时对第二阶抽样求均值和方差; 为对第一阶抽样求均值和方差。证明见教材P148. 上述性质可以推行到多阶段抽样的情形,例如对于三阶

17、段抽样,有.三、等概率两阶段抽样的符号阐明初级单元和初级单元拥有的二级单元个数:N,M第一阶段和第二阶段抽样的样本量:n ,m 第i个初级单元中的第j个二级单元的观测值:样本中第i个初级单元中的第j个二级单元的观测值:.第一阶段和第二阶段的抽样比:第i个初 级 单 元 按二级单元的平均 值:按二级单元的平均值:初级单元间的方差:.初级单元内的方差:由 的表达式可知,假设记那么有即 是 的平均值。同理有.四、初级单元大小相等的二阶抽样第一阶段在总体N个初级单元中,以简单随机抽样抽取n个初级单元,第二阶段在被抽中的初级单元包含的M个二级单元中,以简单随机抽样抽取m个二级单元,即最终接受调查的单元。

18、例如:某个新开发的小区拥有一样户型的15个单元的楼盘,居民曾经陆续搬入新居,每个单元住有12户居民,为调查居民家庭装修情况,预备从180户居民户中抽取20户进展调查。如下表:.编号单 元 房 号123456789101112131415一栋A座一栋B座一栋C座二栋A座二栋B座二栋C座三栋A座三栋B座三栋C座四栋A座四栋B座四栋C座五栋A座五栋B座五栋C座 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7

19、 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 . 表中红字为抽中的房号 . 在

20、这里,初级单元楼盘有15个,每个初级单元拥有二级单元居民户12个。首先将初级单元从1到15编号,在15初级单元中随机抽取5个单元,分别是1,6,9,12,13号;然后在被抽中的初级单元中,进展第二次抽样,即分别在抽取的5个楼盘中随机抽取4户。这就是初级单元规模相等的两阶段抽样。.规模相等两阶段抽样的估计量及其性质 1总体均值的估计定理4.5 对于初级单元大小相等的二阶抽样, 假设两个阶段都是简单随机抽样,且对每个 初级单元,第二阶抽样是相互独立进展的, 那么对总体均值 的无偏估计为:.总体均值估计量方差为: 的无偏估计为:式中.【例4.4】欲调查4月份100家企业的某项目的,首先从100家企业

21、中抽取了一个有板有5家样本企业的简单随机样本,调查人员对5家企业分别在调查月内随机抽取3天作为调查日,要求样本企业只填写这3天的流水帐。调查的结果如下。样 本 企 业第一日第二日第三日12345573851486259416053556450634954要求根据这些数据推算不100家企业该目的的总量,并给出估计的95%置信区间。.解 将企业作为初级单元,将每一天看着二级单元。调查月内拥有30天即拥有30个二级单元。 首先在初级单元中抽取一个n=5的简单随机样本再对每个样本的二级单元分别独立抽取一个m=3的简单随机样本由题意,N=100,M=30,n=5, m=3首先计算样本初级单元的均值 、方

22、差 :.样 本 企 业123456043585057133939719于是得到:. 置信度为95%的置信区间为:1608001.969216在上面的方差估计式中,第一项为哪一项主要的,第二项要小得多!.五、初级单元规模不等的二阶抽样 普通而言,初级单元的大小是不相等的,假设按初级单元的大小分层后,层内初级单元的大小差别仍很大,那么需用本节引见的方法来处置二阶抽样的问题。当初级单元大小不等时,普通采用不等概抽样。1、符号阐明总体中初级单元个数及第一阶抽取的样本量:N,n第i个初级单元中二级单元数:第i个初级单元中第二阶抽样的样本量:第i个初级单元中第j个二级单元的观测值:样本中第i个初级单元中第j个二级单元的观测值:.第一阶和第二阶的抽样比:二级单元个数:目的总和:第i个初级单元目的总和:第i个初级单元按二级单元的平均值:.按二级单元的平均值:初级单元间的方差:第i个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论