整群抽样PPT精品文档_第1页
整群抽样PPT精品文档_第2页
整群抽样PPT精品文档_第3页
整群抽样PPT精品文档_第4页
整群抽样PPT精品文档_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 设想国家教育部想了解上海中学生的体质状况,抽样调设想国家教育部想了解上海中学生的体质状况,抽样调查是既省钱又省时的办法,显然上海地区的中学生均是总体查是既省钱又省时的办法,显然上海地区的中学生均是总体的单元,从全体学生中随机无放回地抽取若干样本是理想的的单元,从全体学生中随机无放回地抽取若干样本是理想的概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦事,况且一个合理的有代表性的样本一般应该遍布全市,在事,况且一个合理的有代表性的样本一般应该遍布全市,在对如此分散的中学生样本逐个进行访问,其工作量之大可想对如此分散的中学生样本逐个进行访

2、问,其工作量之大可想而知。一个方便的方法是在上海地区按学校抽样,在抽得的而知。一个方便的方法是在上海地区按学校抽样,在抽得的几所学校中对该校所有中学生进行普遍调查。这就是本章要几所学校中对该校所有中学生进行普遍调查。这就是本章要讲述的整群抽样。讲述的整群抽样。第八章第八章 整群抽样整群抽样 若总体可分为若总体可分为 N N个个初级单元初级单元(称为(称为群群),每个初级单元),每个初级单元包含若干次级单元。按照某种方式从总体中抽取包含若干次级单元。按照某种方式从总体中抽取 n n个初级单个初级单元,对这些单元中的所有次级单元全部进行调查。这种抽样元,对这些单元中的所有次级单元全部进行调查。这种

3、抽样方法称为方法称为整群抽样整群抽样。2 在实际工作中,整群抽样方法被广泛采用。例如,在社在实际工作中,整群抽样方法被广泛采用。例如,在社会经济调查中的人口调查、家计调查、农林牧业调查以及工会经济调查中的人口调查、家计调查、农林牧业调查以及工业产品质量检验等等都经常采用整群抽样调查。业产品质量检验等等都经常采用整群抽样调查。 采用整群抽样调查的原因有二。其一是在某些情况下,采用整群抽样调查的原因有二。其一是在某些情况下,往往由于不适合采用一个个地抽取样本单位,不得不采用整往往由于不适合采用一个个地抽取样本单位,不得不采用整群抽样。例如,某些工业产品的质量检验,事实上不能逐个群抽样。例如,某些工

4、业产品的质量检验,事实上不能逐个抽取样本单位来进行,只能在某一时间内,成批地抽取产品抽取样本单位来进行,只能在某一时间内,成批地抽取产品来检验。来检验。 其二,即使抽样调查能够一个个地取样,但由于经济的其二,即使抽样调查能够一个个地取样,但由于经济的考虑也会选择整群抽样。例如,职工家庭生活水平调查中,考虑也会选择整群抽样。例如,职工家庭生活水平调查中,如果不是以居委会为群进行整群抽样调查,而是以居民户为如果不是以居委会为群进行整群抽样调查,而是以居民户为单位抽样,这些被抽到的居民户一般分散地居住,必然增加单位抽样,这些被抽到的居民户一般分散地居住,必然增加交通费、延长调查时间等。所以出于对工作

5、时间、经费等客交通费、延长调查时间等。所以出于对工作时间、经费等客观条件的考虑,也得采用整群抽样调查。观条件的考虑,也得采用整群抽样调查。3 整群抽样作为一种抽样组织形式,具有以下的整群抽样作为一种抽样组织形式,具有以下的优点优点: 1 1、调查单位比较集中,进行调查比较方便,可以减少、调查单位比较集中,进行调查比较方便,可以减少调查人员来往于调查单位之间的时间和费用。例如,在进行调查人员来往于调查单位之间的时间和费用。例如,在进行农村居民户收入情况调查时,在一个县抽千分之五的村庄,农村居民户收入情况调查时,在一个县抽千分之五的村庄,对其所有居民户进行调查,明显地比从全县直接抽千分之五对其所有

6、居民户进行调查,明显地比从全县直接抽千分之五的农户进行调查,更便于组织,节省人力、旅途往返时间及的农户进行调查,更便于组织,节省人力、旅途往返时间及费用。费用。 2 2、设计和组织抽样比较方便。例如,调查农村居民住、设计和组织抽样比较方便。例如,调查农村居民住户,不必列出农村所有居民住户的抽样框,可以利用现成的户,不必列出农村所有居民住户的抽样框,可以利用现成的行政区域,如县、乡、村,将农村划分为若干群,这给抽样行政区域,如县、乡、村,将农村划分为若干群,这给抽样设计方案带来很大方便。尤其是对那些无法事先掌握总体单设计方案带来很大方便。尤其是对那些无法事先掌握总体单位情况的总体,采用整群抽样更

7、为合适。位情况的总体,采用整群抽样更为合适。 然而,然而,整群抽样整群抽样由于调查单位只能集中在若干群上,而由于调查单位只能集中在若干群上,而不能均匀分布在总体的各个部分,因此,它不能均匀分布在总体的各个部分,因此,它的精度比起简单的精度比起简单随机抽样来要低一些随机抽样来要低一些。4 当然我们可以通过多抽几个群来弥补这一缺陷,但最关当然我们可以通过多抽几个群来弥补这一缺陷,但最关键的一条还是在于总体内群的划分。键的一条还是在于总体内群的划分。为了使整群抽样的样本为了使整群抽样的样本具有一定的代表性,应当使群与群之间尽可能地差异小,而具有一定的代表性,应当使群与群之间尽可能地差异小,而群内单元

8、之间的差异应当大群内单元之间的差异应当大(注意:这一点与分层抽样中总注意:这一点与分层抽样中总体内层的划分有着极大的差别体内层的划分有着极大的差别),这意味着每个群均具有足),这意味着每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处,那么少够的代表性。如果划分的群相互之间颇多相似之处,那么少量群的抽取足以提供良好的精度。一个总体划分成多少个群量群的抽取足以提供良好的精度。一个总体划分成多少个群,每个群的规模大小如何又是一个新问题,通常我们面临的,每个群的规模大小如何又是一个新问题,通常我们面临的总体会有自然的初级单元,例如本章开头所说的各所中学它总体会有自然的初级单元,例如本章开头所

9、说的各所中学它们互相之间们互相之间关于学生的体质关于学生的体质很相似,但在一个学校里每个学很相似,但在一个学校里每个学生之间有一定的差异。生之间有一定的差异。 例如,在一个有例如,在一个有500个村庄、个村庄、100000个农户的县,抽取个农户的县,抽取1的农户就是的农户就是1000户,而抽户,而抽1的村庄则只有的村庄则只有5个村庄,也个村庄,也许抽到的许抽到的5个村庄农户多于个村庄农户多于1000,但由于样本单位只集中在,但由于样本单位只集中在5个村庄,显然不如在全县范围内简单随机抽取个村庄,显然不如在全县范围内简单随机抽取1000户分布户分布均匀,代表性一般要差一些,抽样误差较大。均匀,代

10、表性一般要差一些,抽样误差较大。5 倘若需要我们自行划分群,一般还要考虑到组织管理上倘若需要我们自行划分群,一般还要考虑到组织管理上的方便、精度上的要求以及费用的多少等等因素。的方便、精度上的要求以及费用的多少等等因素。1 1 群大小相等的整群抽样群大小相等的整群抽样 首先讨论群大小相等时的简单情况。所谓群的大小相等首先讨论群大小相等时的简单情况。所谓群的大小相等主要指群内次级单元的个数相等,假定关于群的抽取是随机主要指群内次级单元的个数相等,假定关于群的抽取是随机无放回的。无放回的。首先引进一些必要的记号:首先引进一些必要的记号:ijY表示第表示第 群中第群中第 个次级单元个次级单元1,2,

11、;1,2,iN jM ijijy表示样本中第表示样本中第 群中第群中第 个次级单元的观测值个次级单元的观测值1,2, ;1,2,in jM ij61MiijjYY 第第 群总和群总和iiiYYM 第第 群平均值群平均值i111NMijijYYNM 总体平均值总体平均值22111()1NMijijSYYNM 总体差异平方和总体差异平方和221()1NbiiMSYYN 群间差异平方和群间差异平方和22111()(1)NMwijiijSYYN M 群内差异平方和群内差异平方和将将 改为改为 ,则为相应的样本指标值,则为相应的样本指标值Yy7它们之间的关系为:它们之间的关系为:2221(1)(1)1b

12、wSNSN MSNM (8.1)将将 改为改为 , 代替代替 ,由于是整群抽样,由于是整群抽样, 仍为仍为 ,不难,不难得到样本方差平方和的关系式:得到样本方差平方和的关系式:YynNMM2221(1)(1)1bwsnsn MsnM (8.2) 可作为可作为 的估计,但不是无偏估计。这是因为次级单元是的估计,但不是无偏估计。这是因为次级单元是在抽到的群内普查,此时样本不是简单随机的。在抽到的群内普查,此时样本不是简单随机的。2s2S由于群的选取是简单随机的,因此由于群的选取是简单随机的,因此 与与 分别是分别是 与与 的的无偏估计,于是得到无偏估计,于是得到 的无偏估计为:的无偏估计为:2bs

13、2ws2bS2wS2S2221(1)(1)1bwSNsN MsNM (8.3)8222(1)bwsMsSM (8.4)当当 相当大时,该估计可近似写为:相当大时,该估计可近似写为:N从从(8.2)式可知,若式可知,若 n 也足够大的话,也足够大的话, 也可写成也可写成(8.4)形式,形式,此时,此时, 就可以看作是就可以看作是 的近似无偏估计了。的近似无偏估计了。2s2S2s 再引进一个群内相关的记号再引进一个群内相关的记号 ,这个概念的重要性在于,这个概念的重要性在于它可以度量群内次级单元的差异程度,因为我们已经知道群它可以度量群内次级单元的差异程度,因为我们已经知道群内单元的差异大就可能保

14、证样本的代表性,如何划分群实质内单元的差异大就可能保证样本的代表性,如何划分群实质上是一个抽样方案的设计问题。易见设计的效应好还是差在上是一个抽样方案的设计问题。易见设计的效应好还是差在相当程度上与这个相当程度上与这个 有关。有关。 的定义为:的定义为:c c c 2()()()ijikcijE YYYYE YY (8.5)9具体计算得具体计算得122()()(1)(1)MMijikij kcYYYYMNMS (8.6)2222()2()ababab计算可得计算可得 , 在一定程度上反映了群内单元的在一定程度上反映了群内单元的差异,当然这种差异一般是相对于群间差异而言的。它可以差异,当然这种差

15、异一般是相对于群间差异而言的。它可以用群内方差用群内方差 与群间方差与群间方差 来表示:来表示:11c c 2bS2wS22(1)1(1)(1)bcM NSMNMS (8.7)当当N足够大时,近似有足够大时,近似有222() (1)cbSSMS (8.8)10当当N足够大时,近似有足够大时,近似有又又22(1)(1)cwNMSSMN (8.9)221wcSS (8.10)由由(8.8)以及以及(8.10)可得可得 的估计的估计c 2222(1)bwcbwsssMs (8.11)由由(8.11)也可以发现,考虑也可以发现,考虑N相当大时,当相当大时,当 , 与与 几乎相等,也就是说群间方差几乎与

16、群内方差一样,实际上几乎相等,也就是说群间方差几乎与群内方差一样,实际上指出了我们对群的划分完全是随机进行的。如果指出了我们对群的划分完全是随机进行的。如果 ,那,那么群间的方差远远大于群内方差,群内单元差异相对不显著么群间的方差远远大于群内方差,群内单元差异相对不显著将引起样本的代表性差,从而精度一定会差!将引起样本的代表性差,从而精度一定会差!0c 2bS2wS0c 110c ,表明群内单元的差异远比群间差异大。,表明群内单元的差异远比群间差异大。由由(8.11)可知,可知, 的情况最多只能到的情况最多只能到 ,此时,此时群间毫无诧异,任意抽取几个群都可以作为总体的真实写照群间毫无诧异,任

17、意抽取几个群都可以作为总体的真实写照因此,因此, 的取值范围应当在的取值范围应当在 之间。之间。0c 1 (1)M c 1 (1),1M1、估计量及其方差、估计量及其方差 总体平均数总体平均数 的无偏估计是的无偏估计是Y111nMijijyynM 其方差为:其方差为:2211( )1(1)(1)cfNMVar ySMnMN (8.12)当当N足够大时,近似有足够大时,近似有21( )1(1)cfVar ySMnM (8.13)fn N 12另外,我们还可以提供一个关于另外,我们还可以提供一个关于 的无偏估计:的无偏估计:( )Var y2111( )()1niifv yyynn (8.16)总

18、体总和总体总和 的无偏估计为:的无偏估计为:11NMijijYYNM Y111111nMnMijijijijyNMyNMyNynMn 222222( )()( )11()1(1)(1)111(1)(1)ccVar yNMVar yfNMNMSMnMNfNMNSMnN 其方差为:其方差为:13 在实际问题中,具有某种特征的(次级)单元在总体中在实际问题中,具有某种特征的(次级)单元在总体中的比例的比例 的估计常用整群抽样,不仅方便而且效率也高,在的估计常用整群抽样,不仅方便而且效率也高,在各群大小相等的情况下,利用前面各群大小相等的情况下,利用前面 的讨论立即可得的讨论立即可得 的估的估计量及其

19、方差。计量及其方差。ppY11NiippN 总体百分数总体百分数ip第第 群百分数群百分数i总体百分数的无偏估计为:总体百分数的无偏估计为:11nciippn 样本百分数样本百分数2111()()1ncicifv pppnn 方差方差 的无偏估计为:的无偏估计为:()cVar pcp14例题:例题:试根据下表所得的某林场抽取的试根据下表所得的某林场抽取的 5个样本群的林木蓄个样本群的林木蓄积量资料,对该林场每块积量资料,对该林场每块 0.04公顷的林地上的平均蓄积量及公顷的林地上的平均蓄积量及该林场的每公顷蓄积量进行估计,并给出估计误差。如果一该林场的每公顷蓄积量进行估计,并给出估计误差。如果

20、一棵林木能够出材棵林木能够出材 3 立方米以上就为成材林木,求该林场林木立方米以上就为成材林木,求该林场林木的成材率估计及其误差。(假设共分为的成材率估计及其误差。(假设共分为N=100个群)个群)群号群号 i单元号单元号 j1iy2iy3iy4iy5iy51ijjy ip123453.45.96.313.23.30.12.511.811.42.21.81.72.92.94.604.97.615.52.43.12.518.96.90.58.417.547.549.9130.40.40.80.80.415解:解:N=100,n=5,M=5该林场每块该林场每块 0.04公顷的林地上的平均蓄积量的无

21、偏估计是公顷的林地上的平均蓄积量的无偏估计是5511111155nMijijijijyyynM 18.417.547.549.9135.4525 5 3米米2111( )()1niifv yyynn 方差为方差为0.05nfN2222210.051(1.685.452)(3.55.452)551(9.55.452)(9.985.452)(2.65.452) 2.9954 由表可得由表可得 分别为:分别为:1.68,3.5,9.5,9.98,2.6iy16标准差为标准差为( )1.7307v y 3米米该林场每公顷的林地上的平均蓄积量估计为该林场每公顷的林地上的平均蓄积量估计为5.452/0.0

22、4136.3 3米米标准差为标准差为11( )1.730743.26750.040.04v y3米米1110.40.40.80.80.40.565nciippn 故该林场林木的成材率估计为:故该林场林木的成材率估计为:562111()()1ncicifv pppnn 方差为方差为172222210.051(0.40.56)(0.40.56)551(0.80.56)(0.80.56)(0.40.56) 0.0091 标准差为标准差为()0.0954cv p 即即9.54182、设计效应、设计效应 已经指出在整群抽样中,如何划分群、群的大小规模如已经指出在整群抽样中,如何划分群、群的大小规模如何控

23、制对于估计的精度颇有影响,这就涉及到设计效应的讨何控制对于估计的精度颇有影响,这就涉及到设计效应的讨论。根据设计效应的定义,我们必须考虑与整群抽样同等规论。根据设计效应的定义,我们必须考虑与整群抽样同等规模的简单随机抽样,由于整群抽样调查的对象是次级单元,模的简单随机抽样,由于整群抽样调查的对象是次级单元,因此考虑在拥有因此考虑在拥有NM个次级单元的总体中抽取容量为个次级单元的总体中抽取容量为nM的简的简单随机样本,计算所得的平均数(为统一且方便起见,记为单随机样本,计算所得的平均数(为统一且方便起见,记为 )的方差为:)的方差为:ry21()rfVar ySnM 群大小相等的整群抽样的设计效

24、应为:群大小相等的整群抽样的设计效应为:()()1(1)rcdeffVar yVar yM (8.17)19(8.17)式右端式右端 是显然的,否则就不是整群抽样。实是显然的,否则就不是整群抽样。实际问题中,很难做得划分的群互相之间很少差异,因此一际问题中,很难做得划分的群互相之间很少差异,因此一般有般有 ,这就是说,整群抽样的精度在大多数情形下,这就是说,整群抽样的精度在大多数情形下要比抽同样数量的次级单元的简单随机抽样的精度低。倘要比抽同样数量的次级单元的简单随机抽样的精度低。倘若要想获得相同的精度,那么整群抽样的样本量必须是简若要想获得相同的精度,那么整群抽样的样本量必须是简单随机抽样样

25、本量的单随机抽样样本量的 倍。这个事实提供倍。这个事实提供给我们确定整群抽样的样本量的方法。给我们确定整群抽样的样本量的方法。1M 0c 1(1)cM 例例8.1 对全国成年人人体尺寸测量,若以工作单位为现成的对全国成年人人体尺寸测量,若以工作单位为现成的群划分,这些单位一般不是等规模的,以平均大小群划分,这些单位一般不是等规模的,以平均大小 人人计算,通过少量样本的预测,若单位内同性别人的群内相关计算,通过少量样本的预测,若单位内同性别人的群内相关估计估计 。根据精度要求,简单随机抽样需要样。根据精度要求,简单随机抽样需要样本量为本量为6147人,那么整群抽样需要多少人才能达到同样的估人,那

26、么整群抽样需要多少人才能达到同样的估计精度?计精度?80M 0.00775c 201(1)1(801) 0.007751.61225cdeffM 整群抽样需要人数整群抽样需要人数 人人1.61225 61479911n 约等于约等于 个群个群9911 80124 2 2 群大小不等的整群抽样群大小不等的整群抽样 在实际操作中,很少有各群在实际操作中,很少有各群M相等的情况,那些相等的情况,那些 相差相差不大的情况就常常作为群大小相等进行处理,通常的手法是不大的情况就常常作为群大小相等进行处理,通常的手法是以群的平均大小以群的平均大小 代替公式中的代替公式中的M 。iMM 如果各群大小差异甚大,

27、那么它们在总体中所占的地位如果各群大小差异甚大,那么它们在总体中所占的地位也各有不同,对群采取用简单随机抽样明显地效果欠佳,这也各有不同,对群采取用简单随机抽样明显地效果欠佳,这种场合一般我们采用不等概率抽样。种场合一般我们采用不等概率抽样。21同样先引进一些记号:同样先引进一些记号:ijY表示第表示第 群中第群中第 个次级单元个次级单元1,2,;1,2,iiN jM ijijy表示样本中第表示样本中第 群中第群中第 个次级单元的观测值个次级单元的观测值1,2, ;1,2,iin jM ij1iMiijjYY 第第 群总和群总和iiiiYYM 第第 群平均值群平均值i1101iMNijijYY

28、M 总体平均值总体平均值01NiiMM 表示总体中次级单元总数表示总体中次级单元总数11NiiYYN 各群平均值的平均值各群平均值的平均值iM表示第表示第 群含有的次级单元数群含有的次级单元数i221、对群实施、对群实施 pps 抽样抽样 独立有放回地从独立有放回地从 N 个群中抽取个群中抽取 n 个群,每次抽取一个个群,每次抽取一个群,第群,第 个群被抽到的概率为个群被抽到的概率为 相应抽到的群的群内总和记为相应抽到的群的群内总和记为 ,群大小记为,群大小记为i0(1,)iiZMMiN jy (1, )jm jn 11iMNijijYY 则总体总和则总体总和 的估计量为:的估计量为:0011

29、11nniiHHiiiiyyyMMynznm (8.18)211()()niHHiiiYVar yZYnZ (8.19)根据第七章关于根据第七章关于HH统计量的讨论,统计量的讨论, 是是 的无偏估计,的无偏估计,其方差为:其方差为:HHy Y23它的一个无偏估计为:它的一个无偏估计为:211()()(1)niHHHHiiyv yyn nz (8.20) 在实际问题中,如果产生的自然群(例如现成的工厂、在实际问题中,如果产生的自然群(例如现成的工厂、学校、居委会等)内次级单元比较均匀,则采用学校、居委会等)内次级单元比较均匀,则采用 pps 抽样效抽样效果较好一些。果较好一些。2、对群实施严格的、对群实施严格的 抽样抽样ps ps 与上一章的与上一章的 抽样情况完全一样,若设第抽样情况完全一样,若设第 个群的个群的入样概率为入样概率为 ,采用,采用 HorvitzThompson 估计:估计:ii 1niHTiiyy Y也是也是 的无偏估计。的无偏估计。24本章习题解本章

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论