




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于等概率整群抽样第1页,讲稿共74页,2023年5月2日,星期三
一、概述及符号说明二、单阶段抽样三、两阶段抽样四、抽样设计五、系统抽样六、基于模型推理第2页,讲稿共74页,2023年5月2日,星期三调查目的:调查含10000家住户的社区中住户拥有自行车数目;策略一:样本容量为400个住户的简单随机抽样;策略二:整群抽样。整群抽样步骤:1、将社区分为500个组(每个组20家住户)从500个组中随机抽取20个组(组:初级抽样单元PSU)2、从随机抽取20组中普查组内的每一家住户(住户:二级抽样单元SSU)500个街区称为初级抽样单位(PSU),街区中的住户称为次级抽样单位(SSU)第3页,讲稿共74页,2023年5月2日,星期三注意:1、抽样单元(PSU)不同于观测单元(SSU);2、同容量的整群抽样观测单元提供的信息少于SRS;3、花费而言,整群抽样更物超所值;4、分群的原则是:群内差异尽可能大,群间差异尽可能小。p第4页,讲稿共74页,2023年5月2日,星期三
社区里一些组的住户主要是由家庭构成,他们拥有更多的自行车;而社区里另外一些组的居民主要是退休人员,他们的自行车较少。同一组里的20家住户不如随机选择的20户更能反映出社区的多样性。因此这种情况下,整群抽样比同样规模的简单随机抽样的每次观测所获得的信息可能更少。访问组中的20家住户比随机选择20家住户更节省经费,也更容易,所以整群抽样的单位美元花费可能产生更多的信息。第5页,讲稿共74页,2023年5月2日,星期三
同一群中元素比整个总体中SRS选择的元素更趋于同质性——同一品种的鱼在同一湖里更容易具有相同的汞浓度;同一疗养院的居民容易对护理质量具有相同意见。
由于同质性存在,在一个群里调查所有成员,在一定程度上会造成信息重复,将导致对总体的估计不足,精度下降。为了使精度提高,分群的原则是:群内差异尽可能大,群间差异尽可能小。第6页,讲稿共74页,2023年5月2日,星期三(一)定义(What)将总体划分为若干群(psus),然后以群为抽样单元,从总体中随机抽取一部分群,对被选群内的所有或部分单元(ssus)进行调查的一种抽样技术。
一、概述及符号说明第7页,讲稿共74页,2023年5月2日,星期三(二)特点(Why)优点:1、抽样框编制得以简化。2、实施调查便利、节省费用。不足:
抽样误差较大。
第8页,讲稿共74页,2023年5月2日,星期三(三)整群抽样与分层抽样第9页,讲稿共74页,2023年5月2日,星期三第10页,讲稿共74页,2023年5月2日,星期三1、根据行政或者地域;2、调查人员人为确定。1、与总体各群规模相等;2、与总体各群规模不等。(四)群的划分(五)群的规模第11页,讲稿共74页,2023年5月2日,星期三(六)符号说明
psus:初级抽样单元
ssus:次级抽样单元:含有N个psu的总体
S:N个psu的总体中入样的psus
:psu中代表第i个入样的ssus
:第i个psu中的第j个元素值第12页,讲稿共74页,2023年5月2日,星期三
总体总值psu间的方差(总值)psu-总体指标总体中psus的个数总体中第i个psu中ssus的个数总体ssus的个数第i个psu的总值
第13页,讲稿共74页,2023年5月2日,星期三ssu-总体指标
总体均值第i个psu的总体均值总体方差总体第i个psu内ssu间方差
第14页,讲稿共74页,2023年5月2日,星期三样本指标样本中psus的个数样本中第i个psu中ssus的个数第i个psu中的样本均值第i个psu总值的估计量总体总值的无偏估计量样本psu间的方差第i个psu内ssu间的样本方差第i个psu中第j个ssu样本权重第15页,讲稿共74页,2023年5月2日,星期三
单阶段整群抽样只能选择群中的所有元素入样,或者群中的所有元素均不入样。跟二阶段抽样相比,抽取SSU的成本相对于抽取PSU的成本可忽略不计,通常会将选中群的所有SSU全部调查。在N个psu的总体,第i个psu中包含个ssus。在单阶段整群抽样中,被选中的群psus中所有ssus全都入样,即。二、单阶段抽样第16页,讲稿共74页,2023年5月2日,星期三(一)群规模相等时的估计
总体N个群中,每个群中的元素数量都相等,即有,则称群规模相等。将群的总值看成是观测值,可得到一个含有n个观测值的简单随机样本,此时全体群群总值的均值。运用简单随机抽样样本估计总体的方法,求出总体的总值。在单阶段整群抽样中没有引入新的内容,我们利用了简单随机抽样的结果,从N个单位的总体中抽取n个单位的简单随机样本。这里我们把群总值看成是简单随机抽样中的观测值。第17页,讲稿共74页,2023年5月2日,星期三
在住户调查中估计两口之家的收入,则个体观测值为家庭i中第j个人的收入,而代表第i个家庭的总收入(是已知的,因为入样家庭的两个成员均已被调查),代表总体中每个家庭的平均收入,表示总体中每个人的平均收入。求总收入。
P170第18页,讲稿共74页,2023年5月2日,星期三
方差为:(5.2)标准误为:(5.3)其中和分别代表总体psu间的方差和样本psu间的方差。
1、估计总收入t(总体总值):
(5.1)第19页,讲稿共74页,2023年5月2日,星期三
(5.4)(5.5)(5.6)2、估计总体中每个人的平均收入第20页,讲稿共74页,2023年5月2日,星期三P171例5.2
一个学生想估计他所在宿舍楼里同学的绩点(GPA)的平均值。没有列出宿舍楼所有学生的名单再进行随机抽样,他发现宿舍区共有100间套房,每间有4名学生;他从中随机抽取了5间套房,询问了其中每个人的GPA。
PSU就是套房,N=100,n=5,M=4。总体总值估计就是整个宿舍楼所有学生的绩点。第21页,讲稿共74页,2023年5月2日,星期三总体总值估计(估计所有学生的绩点):
总体均值估计(估计所有学生的平均绩点):
=1130.4/400=2.826
样本方差:=2.256
总体均值估计的标准误:
=0.164第22页,讲稿共74页,2023年5月2日,星期三在这里也可以使用权重进行估计,其中:
=频率的倒数=1/{P(i)*P(j|i)}
则可以的总体总值与均值的估计值分别为:
第23页,讲稿共74页,2023年5月2日,星期三(二)群规模相等时的理论
表5.1整群抽样的总体ANOVA(方差分析)表
由上式可以看出,整群抽样总值的总体方差完全依赖群间均方。第24页,讲稿共74页,2023年5月2日,星期三将上式带入(5.2)
可得,1阶整群抽样中,群规模相等时,总体总值t的无偏估计量的变异完全依赖于群间变异。
由于MSB度量的是群之间的变化程度,当MSB相对较大说明群间差异大(不同群中的元素比相同群中的元素变化程度大)。如果MSB/MSW较大,则整群抽样就会损失精度。(5.7)第25页,讲稿共74页,2023年5月2日,星期三
对比整群抽样与SRS,我们发现:如果
,整群抽样比简单随机抽样效率要低。
上式为n个群(群中含M个元素)的单阶段整群抽样的总体总值无偏估计量的方差,下式为样本容量nM的简单随机抽样总体总值的估计量的方差第26页,讲稿共74页,2023年5月2日,星期三
对同一群内元素之间相似性的测量,它提供了一种对群内同质性的测度方法。ICC是皮尔逊相关系数的扩展,利用5.1的总体方差分析表知
因为,从(5.8)式得
如果群内元素完全相同,则SSW=0,于是ICC=1。(5.8)群内相关系数(ICC)第27页,讲稿共74页,2023年5月2日,星期三
式子(5.8)也可写成
采取整群抽样,我们将失去多少精度?
如果N足够大,则NM-1≈M(N-1),于是(5.10)式中方差之比近似为1+(M-1)ICC,所以,简单随机抽样中1个观测单元与单阶段整群抽样1+(M-1)ICC个观测单元具有近似相同量的信息。(5.10)(5.9)第28页,讲稿共74页,2023年5月2日,星期三
简单随机抽样中1个观测单元与单阶段整群抽样1+(M-1)ICC个观测单元具有近似相同量的信息。当M=5,ICC=0.5,得到1+(M-1)ICC=3,也就是我们需要利用整群样本测量300个元素以获得含100个元素的简单随机样本相同的精度。第29页,讲稿共74页,2023年5月2日,星期三30ICC何时取正、取负?ICC为群内元素的相似性提供了度量。如果群内元素相似,ICC为正,同时SSW将相对于SSTO较小且ICC相对较大。当ICC为正时,整群抽样与简单随机抽样效率低。如果总体中的群是自然产生的,则ICC通常为正。同一群内的元素处于相同的环境——具有同等水平的农药量、同一程度的发病率、同样的政治观点。3.如果群内的元素比简单随机抽样的元素更分散,则ICC是负值。这就使得群均值近似相等——因为SSTO=SSW+SSB,若SSTO一定且SSW很大,则SSB必定很小。如果ICC<0,整群抽样比简单随机抽样更有效。第30页,讲稿共74页,2023年5月2日,星期三
ICC仅仅被用于群规模相等的情形。我们可以用调整的来度量一般总体中群内元素的相似性,定义如下:
这时有:
我们发现近似于ICC。是对同质性的合理测度量,因为它以线性回归的方式予以解释:它是以群均值解释总体中变异的相对量,并以自由度进行调整。如果群内元素是同质的,则群间的均值变化大,即较大。(5.11)第31页,讲稿共74页,2023年5月2日,星期三P176中的例5.3
考虑两个假设的总体,每一个总体都有三个群,每一个群都有三个元素。两个总体中的元素都是相同的,因此具有相同的均值和方差。在总体A中大部分的变异性都发生在群内;在总体B中,大部分的变异性都发生在群间。第32页,讲稿共74页,2023年5月2日,星期三
通过总体A、B的方差分析表,求得各自的调整的R方和群内相关系数(ICC)。总体A在ICC和调整R方表现为负值:同一群里的元素实际上比整个总体中随机抽取的元素之间相似性更小。这种情况下,整群抽样更有效。总体B在ICC和调整R方非常接近于1:大部分变异性发生在群间,群内具有很强的同质性。在群中多调查1个元素只能增加很少的信息。此时,整群抽样效率很低。第33页,讲稿共74页,2023年5月2日,星期三(三)群规模不等的单阶整群抽样
在实际的社会调查中,群规模不等的情况更为常见。在一个早期的概率样本中,选择了2%的邮路被作为样本,问卷被发放给每条样本邮路上的所有家庭以用来估计失业率。因为每条邮路上的家庭数目不同,因此群的大小也不相等。群规模不等的单阶整群抽样,估计总体总值和总体均值的两种方法:无偏估计和比率估计。第34页,讲稿共74页,2023年5月2日,星期三1、无偏估计
总体总值t的无偏估计可由(5.1)式算出:
(5.12)由式(5.3),得(5.13)
规模不等的群与规模相等的群的区别在于:当群规模不等时,每个群的总值之间的变化程度大。第35页,讲稿共74页,2023年5月2日,星期三
我们可以利用(5.12)和(5.13)式导出的无偏估计和标准误。定义那么求均值的无偏估计量和标准误,我们必须知道的值,但是我们通常只知道入样的群的单元个数。第36页,讲稿共74页,2023年5月2日,星期三
2、比率估计
我们通常预期与是相关的,以为辅助变量,总体均值的比率估计量为:式子中的估计量为第4章中的量,分母取决于被选入样本的PSU,因此分子和分母都会因样本而异。(5.15)第37页,讲稿共74页,2023年5月2日,星期三
从(4.10)式可以得到:
如果总体的平均群规模未知,则可以用样本中PSU规模的平均值来代替。(5.17)第38页,讲稿共74页,2023年5月2日,星期三三、两阶段整群抽样
P183图5.2说明了一阶和二阶的区别。第二个阶段的符号与估计量更加复杂化。t和的点估计和单阶段整群抽样一样,但其方差公式变得复杂。抽样步骤1、从包含N个群的总体中以简单随机抽样抽取n个群,构成一个简单随机样本S。2、从每个入样群中再随机抽取样本容量为
的样本。第39页,讲稿共74页,2023年5月2日,星期三
在两阶段整群抽样中,我们并不能观测到入样的psu中的每个ssu,因而我们需要估计每个入样的psu的总值:总体总值t的无偏估计为:(5.18)无偏估计第40页,讲稿共74页,2023年5月2日,星期三
在2阶段整群抽样中,是随机变量。因此,的方差由两部分构成:(1)psus之间的差异(2)psus中ssus之间的差异。在一阶整群抽样不需要考虑成份(2)。的方差等于1阶整群抽样中的方差再加上由于用估计群总值而导致的额外项。其中是总体psu间的方差,指总体第i个psu内ssu间的方差。
(5.21)第41页,讲稿共74页,2023年5月2日,星期三为了估计,利用得如果我们知道了总体中元素的个数,则我们能得到总体均值的估计量:相应的标准误为:(5.22)(5.23)(5.24)第42页,讲稿共74页,2023年5月2日,星期三比率估计用比率估计量来估计总体均值。以为辅助变量,总体均值的比率估计量为:其中,在(5.23)中被定义,而(5.26)(5.29)(5.28)第43页,讲稿共74页,2023年5月2日,星期三见书P190例5.8。估计城市中小狗收容所健康小狗的平均腿数。城市中有2个小狗收容所“小狗宫殿”(30只小狗)和“狗的生活”(10只小狗)。现在要选1个小狗收容所,再从中随机选择2只小狗,来估计每条小狗的平均腿数。
已知N=2,n=1。假定选择“小狗宫殿”即i=1时,=120,=240,=6。求得无偏估计的每条小狗的平均腿数为6。第44页,讲稿共74页,2023年5月2日,星期三
假定选择“狗的生活”即i=2时,=40,=80,=2。估计每条小狗的平均腿数为2。
=6400
当群的规模不等时,则总体总值的无偏估计量非常低效。这一估计的非常大的方差也表明了此估计量性质的低劣。第45页,讲稿共74页,2023年5月2日,星期三
估计城市中小狗收容所健康小狗的平均腿数。城市中有2个小狗收容所“小狗宫殿”(30只小狗)和“狗的生活”(10只小狗)。现在要选1个小狗收容所,再从中随机选择2只小狗,来估计每条小狗的平均腿数。
用比率估计更符合目标:若假定选择“小狗宫殿”,=4。假定选择“狗的生活”,=4。由于所有可能样本得到的估计相同,故=0。第46页,讲稿共74页,2023年5月2日,星期三
第3章比率估计利用了总体中响应变量与辅助变量相关关系,当相关程度越高,比率估计越有效。小狗收容所中总的小狗腿数()精确地等于收容所中小狗总数()的4倍。所以比率估计的方差为0。此例题中响应变量与辅助变量成一定比例,比例估计量的表现优越。当群的规模不等时,而和成比例,总体总值的无偏估计量低效,而估计量的表现优秀。
,
第47页,讲稿共74页,2023年5月2日,星期三1、为了估计整群样本中所有的均值和总值,大多数调查统计员使用样本权重。在整群抽样中,
因而,权重为(5.19)
整群抽样中权重的使用第48页,讲稿共74页,2023年5月2日,星期三3、样本权重仅仅为估计量的计算提供了便利;它们并不能避免估计量本身的缺陷,如大的方差。样本权重也不能为怎样寻找标准误提供任何有用的信息。2、若psus是街道,ssus是家庭,则在街道i的第j个家庭代表总体中个家庭,于是,(5.20)第49页,讲稿共74页,2023年5月2日,星期三50四、整群抽样设计
在设计一个整群样本时,需要解决四个主要问题: 大体需要多高的精度? psus的规模应该有多大? 在每个入样的psu中应该抽取多少个ssus? 应该抽取多少个psu?问题1是在任何调查设计中都要面临的。要回答问题2到4,则需要知道抽取一个可能规模的PSU成本、抽取一个SSU的成本以及对PSU可能规模的同质性测度值。第50页,讲稿共74页,2023年5月2日,星期三(一)选择PSU的规模Mpsu的规模通常是一个自然单元。如班级或者农场。在其他的调查中,调查者对于psu规模上的确定有更多的选择。在对某地区的长耳鹿进行调查,psu被设计为区域,ssu是那片区域中的鹿。但是psu的大小该是1平方千米,2平方千米,还是100平方米呢?区域调查一般原理是psu规模越大,群内变异性越大。在大的psu中ICC和的值小于小的PSU中的值。但是如果psu太大,那么在整群抽样中会花费很多的钱。第51页,讲稿共74页,2023年5月2日,星期三Bellhouse对于抽样设计提供了有效的指引。
方法一:拟定(调整的R方)与M(规模)或MSW(群内均方)与M之间的一个关系模型,并且使用以前研究中的数据或者信息来拟合这个模型,然后用和M的不同组合来比较成本。
方法二:做一个实验来收集不同psu规模的相关成本和方差。第52页,讲稿共74页,2023年5月2日,星期三......见P155例5.9。啃食马铃薯的害虫叫薯虫。Z研究了在不同群规模条件下对薯虫数目的估计以及发生的时间成本。从10片农田中的每一片都随机抽选了10个地点。研究人员在每一地点上,都对邻近的m株马铃薯茎干的所有叶子上的幼虫进行目测。他们考虑了不同的PSU规模,从每个地点1株(M=1)到每个地点5株(M=5)。在某一农田中行走时间都是30分钟,抽取以及观测一株的时间为10秒。1210...AJBm株植物m株植物m株植物10片农田10个地点观测株数第53页,讲稿共74页,2023年5月2日,星期三
对10片农田中每一片农田随机抽取10个地点,目测这些地点周围五株马铃薯植物上幼虫数目。第一步:计算每i片田10个地点的平均幼虫数目,i∈1,2,...,10。计算第一株马铃薯植物的平均幼虫数目yi1;计算第一株和第二株马铃薯植物的平均幼虫数目yi2;...计算全部五株马铃薯植物的平均幼虫数目yi5;第二步:再消除农田的影响:第一株马铃薯植物的平均幼虫数目....全部五株马铃薯植物的平均幼虫数目第54页,讲稿共74页,2023年5月2日,星期三
已知在某一农田中行走时间都是30分钟,抽取以及观测一株的时间为10秒。
表格中第四行计算:每片田地的抽样时间成本=每片农田10个地点行走时间+每个地点抽取N株马铃薯植物=30+10*N*10/60这里的相对标准误=标准误*1000/观测花费时间。在一个地点额外再多抽取一株的时间成本相对于在田地里穿行花费的时间成本是非常小的,并且株数越多误差越小。所以研究方案中每个地点抽取5株的设计方案是最有效的。第55页,讲稿共74页,2023年5月2日,星期三
设计样本的目的是以最小的费用和广泛调查不便利情况下得到大部分信息。在这节中我们集中设计一个群规模数M相同的两阶段整群抽样,当费用一定时来使(5.21)式中的方差最小。如果对于所有的psus来说,如果和
,可以写为:(二)选择子样本的规模m(5.30)(5.21)第56页,讲稿共74页,2023年5月2日,星期三
如果MSW=0,=1,那么在群内的所有元素具有相同的群均值。在这种情况下,最好取m=1,每群里检测超过一个元素,只能浪费精力和时间没有增加精度。对于其他的值,最优分配取决于抽样的psus和ssus的相关费用。考虑最简单的费用函数其中表示每调查一个psu的费用,表示每调查一个ssu的费用。(5.31)第57页,讲稿共74页,2023年5月2日,星期三
其中,可以从总体方差分析表中得到。但在实际计算中,我们用去估计。当N很大时,接近于1,因此得到
(5.32)由(5.31)式可得:第58页,讲稿共74页,2023年5月2日,星期三59(三)选择样本群个数n设计一个整群抽样是一个迭代过程:(1)确定一个需要精度e(2)选择psu和子样本的规模(3)推测该设计方案所获得的方差(4)设定满足精度的n(5)重复直到调查花费在你的预算内。第59页,讲稿共74页,2023年5月2日,星期三如果群规模相等,我们忽视psu水平的有限总体修正系数,即有:一个近似100(1-a)%的置信区间为:为了达到一个期望的置信区间的半宽度e,使第60页,讲稿共74页,2023年5月2日,星期三61五、系统抽样
定义:将总体中的所有元素按一定顺序排列,在规定范围内随机抽取一个元素作为初始单元,然后按事先规定好的规则确定其他样本单元,这种抽样方法称为系统抽样。系统抽样是一种特殊的且群规模相等的整群抽样。第61页,讲稿共74页,2023年5月2日,星期三
假设要抽取规模为3的样本,总体中含12个元素:123456789101112。要抽取系统样本,就可以在1到4之间随机选择一个数。抽取该元素,并在其之后每隔3个元素再抽取1个。因此总体包含了了4个psu(尽管各元素不连续,但可以看作是群):{1,5,9}{2,6,10}{3,7,11}{4,8,12}现在从中抽取由1个psu构成的简单随机样本即可。第62页,讲稿共74页,2023年5月2日,星期三
在包含NM个元素的总体中,容量为M的系统样本共有N种可能的选择。我们仅仅观测了包含系统样本的那个群的均值:群规模相等的1阶整群抽样产生了无偏估计,即有:对于一个简单的系统样本,在N个群中选取了n=1个群,于是得到理论方差为(5.33)第63页,讲稿共74页,2023年5月2日,星期三
忽略有限总体校正系数,如果ICC为负,则系统抽样比容量为M的SRS更有效。不过由于n=1,无法获得的无偏估计。要估计方差需要对总体结构有所了解。三种不同总体结构:(1)随机次序列表:与SRS相似(2)增序或降序样本框:比SRS更有效
(3)周期性模式样本框:比SRS效果差(5.33)第64页,讲稿共74页,2023年5月2日,星期三
随机次序列表:总体的排列次序与感兴趣的特征无关,比如人口抽样框中名单按姓氏字母排列。预计ICC近似0。此时,SRS与系统抽样会产生相同的结果。增序或降序样本框:比如财务记录的排列可能是最大金额开始、最小金额在最后。这样的总体被称为具有正的自相关性:邻近的元素比间隔远的元素更为类似。有效性:分层抽样>系统抽样>SRS。第65页,讲稿共74页,2023年5月2日
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纸浆筛选与净化设备的运行与维护考核试卷
- 海洋油气开采中的海洋生物多样性保护考核试卷
- 纸板容器生命周期分析考核试卷
- 终端设备在水下通信技术考核试卷
- 林业与地方特色农产品的区域品牌营销考核试卷
- 纤维素纤维在声学材料中的应用考核试卷
- 种子种苗在气候变化适应中的作用考核试卷
- 玻璃纤维增强型塑料水处理设备的制备考核试卷
- 畜禽智能养殖环境监测与调控系统考核试卷
- 南京旅游职业学院《交通运输工程前沿讲座》2023-2024学年第二学期期末试卷
- 2024-2025学年七年级数学北师大版(2024)下学期期中考试模拟卷A卷(含解析)
- 附件6工贸高风险企业高危领域较大以上安全风险管控清单
- 关于台球的课件
- 2025年武汉二调数学试题及答案
- 2025年保安证考试答题技巧与试题答案
- 2025年食品安全员试题及答案
- 中级宏观经济学知到课后答案智慧树章节测试答案2025年春浙江大学
- 第19课《十里长街送总理》 统编版语文(五四学制)六年级上册
- 2025 ACC-AHA急性冠脉综合征患者管理指南解读课件
- 《强化危险化学品“一件事”全链条安全管理措施》知识培训
- 智慧树知到《形势与政策(北京大学)》2025春期末答案
评论
0/150
提交评论