整群抽样很重要的一_第1页
整群抽样很重要的一_第2页
整群抽样很重要的一_第3页
整群抽样很重要的一_第4页
整群抽样很重要的一_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于整群抽样很重要的一第1页,讲稿共79页,2023年5月2日,星期三第四章整群抽样[教学目的]

通过本章的教学,使学生明确整群抽样的定义与特点;掌握群规模相等时的估计与群规模不等时的估计方法;了解总体比例的估计。[重点与难点]

本章的重点是群规模相等时的估计与群规模不等时的估计方法;难点是群规模相等时的估计与群规模不等时的估计方法。第2页,讲稿共79页,2023年5月2日,星期三本章结构§4.1引言§4.2群规模相等时的估计3.§4.3群规模不等时的估计§4.4总体比例的估计第3页,讲稿共79页,2023年5月2日,星期三

假设省教育厅想了解西安中学生的体质状况,抽样调查是既省钱又省时的办法,显然西安地区的中学生均是总体的单元,从全体学生中随机无放回地抽取若干样本是理想的概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦事,况且一个合理的有代表性的样本一般应该遍布全市,在对如此分散的中学生样本逐个进行访问,其工作量之大可想而知。一个方便的方法是在西安地区按学校抽样,在抽得的几所学校中对该校所有中学生进行普遍调查。这就是本章要讲述的整群抽样。第4页,讲稿共79页,2023年5月2日,星期三

若总体可分为N个群(也称为初级抽样单元,用PSU表示),每个初级单元包含若干个次级单元(也称二级抽样单元,用SSU表示)。按照某种方式从总体中抽取n个初级单元,对这些单元中的所有二级单元全部进行调查。这种抽样方法称为整群抽样。第5页,讲稿共79页,2023年5月2日,星期三黄色为总体蓝色为样本红色为群白点为基本单元整群抽样事例:第6页,讲稿共79页,2023年5月2日,星期三§4.1引言一、整群抽样的定义与特点(一)定义整群抽样(clustersampling)是将总体划分为若干群,然后以群(cluster)为抽样单元,从总体中随机抽取一部分群,对中选群中的所有基本单元进行调查的一种抽样技术。第7页,讲稿共79页,2023年5月2日,星期三例如,对某城市居民进行生活水平调查,如果不是从全部城市住户中直接抽选住户进行调查,而是从城市全部居民委员会中随机抽选若干居委会,对被抽中的居委会所有住户都进行调查,这就是整群抽样。该城市的每一居委会就是一群。第8页,讲稿共79页,2023年5月2日,星期三再如,对连续生产的企业,每小时都抽选10分钟生产的全部产品进行调查。那么,每10分钟生产的全部产品就是一群。如果一天24小时连续生产,生产的全部产品构成总体,则总体有144群,样本有24群。第9页,讲稿共79页,2023年5月2日,星期三抽样过程可以分为以下几个步骤:总体……R4R3R2R1R130分群R1R4R33R98R110抽样样本第10页,讲稿共79页,2023年5月2日,星期三

在实际工作中,整群抽样方法被广泛采用。例如,在社会经济调查中的人口调查、家计调查、农林牧业调查以及工业产品质量检验等等都经常采用整群抽样调查。第11页,讲稿共79页,2023年5月2日,星期三采用整群抽样调查的原因有二:

其一是在某些情况下,往往由于不适合采用一个个地抽取样本单位,不得不采用整群抽样。例如,某些工业产品的质量检验,事实上不能逐个抽取样本单位来进行,只能在某一时间内,成批地抽取产品来检验。第12页,讲稿共79页,2023年5月2日,星期三

其二,即使抽样调查能够一个个地取样,但由于经济的考虑也会选择整群抽样。例如,职工家庭生活水平调查中,如果不是以居委会为群进行整群抽样调查,而是以居民户为单位抽样,这些被抽到的居民户一般分散地居住,必然增加交通费、延长调查时间等。所以出于对工作时间、经费等客观条件的考虑,也得采用整群抽样调查。采用整群抽样调查的原因有二:第13页,讲稿共79页,2023年5月2日,星期三(二)整群抽样的特点1、调查单位比较集中,进行调查比较方便,可以减少调查人员来往于调查单位之间的时间和费用。例如,在进行农村居民户收入情况调查时,在一个县抽千分之五的村庄,对其所有居民户进行调查,明显地比从全县直接抽千分之五的农户进行调查,更便于组织,节省人力、旅途往返时间及费用。第14页,讲稿共79页,2023年5月2日,星期三(二)整群抽样的特点2、设计和组织抽样比较方便。例如,调查农村居民住户,不必列出农村所有居民住户的抽样框,可以利用现成的行政区域,如县、乡、村,将农村划分为若干群,这给抽样设计方案带来很大方便。尤其是对那些无法事先掌握总体单位情况的总体,采用整群抽样更为合适。第15页,讲稿共79页,2023年5月2日,星期三

然而,整群抽样由于调查单位只能集中在若干群上,而不能均匀分布在总体的各个部分,因此,它的精度比起简单随机抽样来要低一些。第16页,讲稿共79页,2023年5月2日,星期三

例如,在一个有500个村庄、100000个农户的县,抽取1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也许抽到的5个村庄农户多于1000,但由于样本单位只集中在5个村庄,显然不如在全县范围内简单随机抽取1000户分布均匀,代表性一般要差一些,抽样误差较大。第17页,讲稿共79页,2023年5月2日,星期三

当然我们可以通过多抽几个群来弥补这一缺陷,但最关键的一条还是在于总体内群的划分。为了使整群抽样的样本具有一定的代表性,应当使群与群之间尽可能地差异小,而群内单元之间的差异应当大(注意:这一点与分层抽样中总体内层的划分有着极大的差别),这意味着每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处,那么少量群的抽取足以提供良好的精度。一个总体划分成多少个群,每个群的规模大小如何又是一个新问题,通常我们面临的总体会有自然的初级单元,例如本章开头所说的各所中学它们互相之间关于学生的体质很相似,但在一个学校里每个学生之间有一定的差异。第18页,讲稿共79页,2023年5月2日,星期三二、群的划分(一)群的划分

一类是根据行政或者是地域形成的群体,如学校、社区、企业等;另一类就是调查人员人为的确定的。第19页,讲稿共79页,2023年5月2日,星期三(二)分群的原则:群内差异尽可能大,群间差异尽可能小

当总体划分为若干个群以后,总体方差可以分为群间方差和群内方差两个部分,这两个部分是此消彼长的关系。群间方差大,则群内方差小;反之,群间方差小则群内方差大。由于整群抽样是对抽中群内所有单元都进行调查,因此影响整群抽样误差大小的主要是群间方差。可见,整群抽样是和分层抽样是针对不同总体结构而提出的两种不同的抽样方式。

第20页,讲稿共79页,2023年5月2日,星期三三、群的规模群的规模是指组成群的单元的数量。在整群抽样中,群的规模具有相当的灵活性。群的规模大,估计的精度差但费用省;群的规模小,估计的精度比较高但费用大。在实践中,群的规模大小,涉及很多因素:结构、精度、费用、调查组织实施、管理等问题。群的规模又有两种情况:一是总体中的各个群规模相等;二是总体中各个群的规模不等。第21页,讲稿共79页,2023年5月2日,星期三一、符号说明

N:总体群数(PSU数)

n:样本群数

Yij:总体第i群的第j单元数值

yij:样本中第i群的第j单元数值

Mi:第i群规模(单元个数,即SSU数量)本节中,M1=M2

=……=MN

=M

§4.2群规模大小相等时的估计第22页,讲稿共79页,2023年5月2日,星期三

§4.2群规模大小相等时的估计M0:总体单位总数Yi:总体中第i群的总值yi:样本中第i群的总值Y

:总体总值第23页,讲稿共79页,2023年5月2日,星期三

:总体中第i群的个体均值

:样本中第i群的个体均值

:总体中的群总值的均值

:样本中的群总值的均值§4.2群规模大小相等时的估计第24页,讲稿共79页,2023年5月2日,星期三

:总体中的个体均值(各群Mi

=M

:样本中的个体均值(总体均值的估计)

§4.2群规模大小相等时的估计第25页,讲稿共79页,2023年5月2日,星期三

:总体方差

:总体群间方差

:总体群内方差

§4.2群规模大小相等时的估计第26页,讲稿共79页,2023年5月2日,星期三

:样本方差

:样本群间方差

:样本群内方差

§4.2群规模大小相等时的估计第27页,讲稿共79页,2023年5月2日,星期三二、估计量1.均值估计量SRS,群规模相同,均为M,则的估计为:总值估计量

§4.2群规模大小相等时的估计第28页,讲稿共79页,2023年5月2日,星期三

§4.2群规模大小相等时的估计2.估计量的性质

性质1:是的无偏估计,即因为是按简单随机方法抽取群,所以样本群均值是总体群均值的无偏估计,因而第29页,讲稿共79页,2023年5月2日,星期三性质2:的方差为

§4.2群规模大小相等时的估计第30页,讲稿共79页,2023年5月2日,星期三已知,又故

§4.2群规模大小相等时的估计第31页,讲稿共79页,2023年5月2日,星期三性质3:的样本估计为因为是的无偏估计,所以是的无偏估计

§4.2群规模大小相等时的估计第32页,讲稿共79页,2023年5月2日,星期三总体总值据此,可直接推出其估计量及相应的方差

§4.2群规模大小相等时的估计第33页,讲稿共79页,2023年5月2日,星期三三、整群抽样效率分析群内相关系数表达式为:上式中的分子为(P119)

§4.2群规模大小相等时的估计第34页,讲稿共79页,2023年5月2日,星期三上式中的分母为:故又可写为:§4.2群规模大小相等时的估计第35页,讲稿共79页,2023年5月2日,星期三事实上,的方差可用群内相关系数近似表示

§4.2群规模大小相等时的估计第36页,讲稿共79页,2023年5月2日,星期三简单随机抽样的方差公式为由此可计算出等群抽样的设计效应为

§4.2群规模大小相等时的估计第37页,讲稿共79页,2023年5月2日,星期三整群抽样的估计效率,与群内相关系数的关系密切当=1时,deff=M

当=0时,deff=1

当为负时,deff<1

的取值范围是群内方差为0群内方差与总体方差相等群间方差为0

§4.2群规模大小相等时的估计第38页,讲稿共79页,2023年5月2日,星期三群内相关系数也可由样本统计量估计例一

§4.2群规模大小相等时的估计第39页,讲稿共79页,2023年5月2日,星期三当N很大,而M相对于NM很小时,第40页,讲稿共79页,2023年5月2日,星期三i240,187,162,185,206,197,154,173188.0027.19210,192,184,148,186,175,169,180180.5017.98149,168,145,130,170,144,125,167149.7517.32202,187,166,232,205,263,198,210207.8829.17210,285,308,198,264,275,183,231244.2545.20394,256,192,280,267,334,216,289278.5063.87192,121,172,165,152,224,195,241182.7538.77230,205,187,176,212,253,189,240211.5027.48274,208,195,307,264,258,210,309253.1344.52232,187,150,182,175,212,169,222191.1328.29342,294,267,309,258,198,244,286274.7543.70228,294,182,312,267,254,232,298258.3843.52

第41页,讲稿共79页,2023年5月2日,星期三解:已知N=510,n=12,M=8,f=n/N=0.0235故

§4.2群规模大小相等时的估计第42页,讲稿共79页,2023年5月2日,星期三

§4.2群规模大小相等时的估计于是的置信度为95%的置信区间为也即第43页,讲稿共79页,2023年5月2日,星期三例2由例1数据,计算群内相关系数与设计效应解:由前已算出样本群间方差而群内方差为

§4.2群规模大小相等时的估计第44页,讲稿共79页,2023年5月2日,星期三

§4.2群规模大小相等时的估计第45页,讲稿共79页,2023年5月2日,星期三若令为简单随机抽样的样本量则即可达到整群抽样96户样本量相同的估计精度

§4.2群规模大小相等时的估计第46页,讲稿共79页,2023年5月2日,星期三

§4.3群规模不等时的估计当群Mi规模不等时,有不同的抽取方法和估计方法一、等概抽样,简单估计对总体均值的估计为可以看出,此公式与上节(1)式同的方差估计为第47页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计此法特点估计量是有偏的操作简便,易于掌握和使用适用条件,群之间的规模差异不大时

第48页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计二、等概抽样,加权估计思路:以群规模Mi为权数,得到群总和yi,进而求得群总和均值,再除以群平均规模第49页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计估计公式为:若未知,可用样本群平均规模代替第50页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计总体总量Y的估计为总量估计的另一公式为第51页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计估计量的方差为它的无偏估计为均值估计的方差为第52页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计三、等概抽样,比率估计总体均值估计为这里辅助变量不是Xi而是群规模Mi总体总量估计为第53页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计估计量的方差分别是第54页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计

与的样本估计分别是第55页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计

第56页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计四、与群规模成比例不等概率抽样估计按与Mi成比例的PPS抽样每次第i群入选概率为根据汉森-赫维茨估计量和是和的无偏估计第57页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计

估计量的方差为第58页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计五、案例分析背景:某县有33个乡,726个村,该年度某种作物总种植面积30525亩,现采用等概抽样随机抽出10个乡,要求估计全县总产量,计算抽样误差。调查资料如下:第59页,讲稿共79页,2023年5月2日,星期三样本乡编号村庄数

Mi作物总产量(乡)

yi(万公斤)种植面积(乡)

xi(亩)123456789101518261420282119311722.022.830.221.725.331.226.020.533.823.68007801000700880110085080012008301.46671.26671.16151.551.2651.11431.23811.0791.09031.3882合计209257.18940——第60页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计分别采用几种方法估计1.等概抽样,简单估计第61页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计评价:方法虽简单,却是有偏估计。第62页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计2.等概抽样,加权估计第63页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计评价:虽是无偏估计量,但方差估计没有改观。第64页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计3.等概抽样,比率估计评价:有偏,n较大时比较理想。第65页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计4.其它辅助变量的估计已知:种植面积X=30525(亩)用种植面积为辅助变量评价:和相比,更小,因而有更好的估计效果。选择关系密切的辅助变量。第66页,讲稿共79页,2023年5月2日,星期三例2有下列资料分厂编号职工人数Mi

累积区间12345678120045021008602840191039032001-12001201-16501651-37503751-46104611-74507451-93609361-97509751-12950第67页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计n=3,采用PPS抽样,随机抽取的3个数为02011,07972,10281。调查结果如下:第68页,讲稿共79页,2023年5月2日,星期三§4.3群规模不等时的估计故置信区间为估计总量

第69页,讲稿共79页,2023年5月2日,星期三§4.4总体比例的估计令ai为第i群中具有某特征的单位数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论