第十章-其它抽样方法技术课件_第1页
第十章-其它抽样方法技术课件_第2页
第十章-其它抽样方法技术课件_第3页
第十章-其它抽样方法技术课件_第4页
第十章-其它抽样方法技术课件_第5页
已阅读5页,还剩131页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章其它抽样方法技术第十章其它抽样方法技术1本章要点本章主要对样本轮换、双重抽样、随机化装置、交叉子样本等抽样技术原理、方法、特点及应用条件进行了较为全面的介绍。具体要求:掌握本章所介绍的几种抽样技术的特点及应用条件,在抽样实际工作中能够正确运用该种技术,提高估计的精度与效果。本章要点本章主要对样本轮换、双重抽样、随机2第一节样本轮换

第二节双重抽样

第三节随机化装置

第四节交叉子样本第一节样本轮换

第二节双重抽样

第三节随机化装置3问题提出

时间序列数据以及随后出现的面板数据都是经济统计分析和计量分析中非常重要的数据类型。当我们在研究应该应用什么统计和计量的方法去分析既定的时间序列数据时,是否考虑过以下几个问题?

时间序列数据是如何产生的?

所产生的时间序列数据是否准确?

如何让时间序列数据更加准确?问题提出时间序列数4

随着社会经济现象的不断变化和发展,很多调查对象的总体也在不断变化和发展。为了能够及时反映调查总体的这种变化和发展,调查部门就需要对同一总体在不同时间上进行连续性抽样调查(SuccessiveSamplingSurvey),并定期公布调查结果,形成一系列时序统计数据。因此,社会经济抽样调查一般都应该是连续性的定期调查。

一次性抽样调查与截面数据

连续性抽样调查与时间序列数据及面板数据随着社会经济现象的不断变化和发展,很5

抽样调查除了对总体的一次性抽样以外,很多重要的调查是隔一段时间重复进行的,对于这种经常性的抽样问题,就必须重视其样本轮换问题的研究。对于样本轮换问题,我们至少应考虑以下问题:每次调查的样本如何组成?是采用固定样本还是采用全新的样本,或者是部分保留部分替换,即样本轮换;在估计后期的总量或均值时,是否需要利用前期的信息来改进现期的估计,以及如何利用;如果采用样本轮换的方法,如何确定最优的保留比例或替换比例。第一节

样本轮换

抽样调查除了对总体的一次性抽样以外,很多重要的调查是6连续性抽样设计方法按抽取样本的不同划分轮换样本重复样本固定样本单水平轮换不完全的单水平轮换多水平轮换连续性抽样设计方法按抽取样本的不同划分轮换样本重复样本固定样7轮换模式应用举例加拿大劳动力调查(LFS)使用6~0单水平轮换模式美国现时人口调查(CPS)使用4~8~4不完全单水平轮换模式美国消费者支出的季度调查(CEQ)便采用4~0三水平轮换模式中国城市住户抽样调查中国规模以下工业企业抽样调查中国农产量抽样调查轮换模式应用举例加拿大劳动力调查(LFS)使用6~0单8一、样本轮换的原因如果是单纯地估计现值的情况,当然最好每次重新抽取新样本,这样必然会增加费用;如果要逐期地与上期比较,则采用固定样本的方法为好,固定样本可以消除样本的因素而只观察动态的变化。然而,样本长期不变,随着时间的推移,固定样本会显露它的弊端,既难以反映总体的变化,而且受访者也会产生厌烦心理,出现不合作或回答质量下降等问题,从而影响调查质量。另外,无论是采用固定样本还是全新样本都难以正确地反映总体在各个不同时间上的水平及变化,因此,一种广泛采用的方法是样本轮换,即每隔一定时间(一个月、一季或一年)更换一定比例的单元,保留其余单元。第一节

样本轮换

一、样本轮换的原因第一节样本轮换9与传统的一次性抽样调查相比,轮换的抽样调查具有以下特有的优势:

节省调查费用和调查资源

在一定程度上减轻被调查者回答负担

利用前后各期之间的相关关系提高估计精度与传统的一次性抽样调查相比,轮换的抽样10我国1996年新修订的《统计法》第十条明确规定:“统计调查应当以周期性普查为基础,以经常性抽样调查为主体,以必要的统计报表、重点调查、综合分析等为补充,搜集、整理基本统计资料。”因此,在今后我国政府统计部门开展的统计调查制度与方法改革的过程中,最重要的就是围绕如何更好地发挥经常性抽样调查的主体作用,研究并应用更加符合我国国情的经常性抽样调查方法,以此得出更加准确的统计数据,为我国政府部门、研究机构以及各类企事业单位等社会各界服务。我国抽样调查制度与方法改革的方向我国1996年新修订的《统计法》第十条明确规定:“统计调查应11二、样本轮换的最优比例第一个时期采用有放回简单随机抽样方式抽出样本量为n的样本;在第二个时期采用有放回简单随机抽样方式选出样本量为nq的旧有样本点以便替换掉,即保留的样本量为np,保留样本的比例为p,同时独立地依有放回简单随机样本方式补充新的nq个新样本点,这里p+q=1,这样第二个时期的样本量仍旧为n。设:第一节

样本轮换

二、样本轮换的最优比例第一节样本轮换12为第一个时期与第二个时期相同的np个单元在第一个时期的均值。为第一个时期nq个单元在第一个时期的均值。为np个单元在第二个时期的样本均值。为nq个补充单元在第二个时期的样本均值。ρ为和之间的相关系数。如果希望估计第二个时期的样本均值并充分利用第一个时期的信息,令该估计量为,那么它应该是充分利用前后期中保留样本、不保留样本和后期新补充样本的加权平均数。

第一节

样本轮换

为第一个时期与第二个时期相同的np个单元在第一13设我们希望得到的估计量是两期估计量的线性函数,即

=a+b+c+d(10.1)要求估计其参数a,b,c,d。因为E()=E()=,E()=E()=,所以E()=(a+b)+(c+d)。要使成为的无偏估计量,需a+b=0,c+d=1,也即b=-a,d=1-c。代入(10.1),有=a(-)+c+(1-c)

第一节

样本轮换

设我们希望得到的估计量是两期估计量的线性函14第一节

样本轮换

该估计量的方差可以求得为:其中是第一个时期的方差,是第二个时期的方差。我们要求出a和c,使得达到最小,就要以上公式分别对a和c求偏微分并使之等于0,即可求出a和c的最优值分别为:第一节样本轮换该估计量的方差可以求得为:其15第一节

样本轮换

该估计量的方差可以求得为:第一节样本轮换该估计量的方差可以求得为:16第一节

样本轮换

将其代入公式(10.1),就得到该估计量的方差为:第一节样本轮换将其代入公式(10.1),就得到该估17第一节

样本轮换

如果不利用前期信息,只根据第二期的结果来估计均值,那么:其方差为:第一节样本轮换如果不利用前期信息,只根据第二期的结果18第一节

样本轮换

故利用前期信息后的设计效果为:从上式可以看出,当ρ的值比较大时,利用上期信息可以较大地提高的效率。表10.1给出了不同的q,ρ值时的值。第一节样本轮换故利用前期信息后的设计效果为:19第一节

样本轮换

表10.1不同的q,ρ值时的值第一节样本轮换表10.1不同的q,20若对上式关于q求偏导,并使之等于0,那么便可得到最优轮换比:若对上式关于q求偏导,并使之等于0,那么便可得到最优21第一节

样本轮换

三、样本轮换方法(一)

随机轮换法

在进行轮换时按确定的轮换单位数目或比例,从原有样本中随机抽出若干单位不再调查,而从其余未包括在样本中的总体单位中抽取同样数目的单位来代替。第一节样本轮换三、样本轮换方法22第一节

样本轮换

(二)

等距轮换法

在总体抽样框中确定出各个等距抽样的样本,在各次的调查中,按相应位置的等距样本单位进行轮换。我国农村住户调查就是采用这种轮换方式。(三)

子样本轮换法从总体中抽出若干套子样本,每次调查一定数量的子样本,逐次轮换其中的部分子样本。

第一节样本轮换(二)

等23第一节

样本轮换

子样本轮换实际上就是每次采用交叉子样本,而交叉子样本不仅能有效地减少和控制估计偏差,而且由于每个交叉子样本都能代表总体,即使有的子样本资料搜集不到,我们也可以用其他的子样本甚至一个子样本来观察和推断总体。此外,用交叉子样本还可以考察非抽样误差发生的程度。因此,一般来说,子样本轮换方法是以上三种样本轮换方法中最好的。第一节样本轮换子样本轮换实际上就是每次采用交24第一节

样本轮换

五、案例介绍美国人口现状调查(currentpopulationsurvey,CPS)是国际上最著名的抽样调查项目之一,已经成为美国以及许多国家进行居民调查的参考模型,其实施是在每个月包含19号的那一周进行,调查的问题涉及受访者此前一周内的活动。调查氛围覆盖全美50个州和哥伦比亚地区。CPS采用的就是样本轮换的方法,即每位受访者连续4个月接受访问,然后退出样本,8个月后再进入样本,连续4个月接受访问,最后永久地退出样本。第一节样本轮换五、案例介绍25第一节

样本轮换

CPS在1995年7月的抽样设计方案中样本轮换的特征:

1.在任意一个月内,都有1/8的住户单元第一次接受调查,1/8的住户单元第二次接受调查,依次类推。2.每个月都由新的样本组代替从样本中永久退出的老样本组。3.每个月都有一个样本组在闲置8个月后重新接受调查,以此代替刚刚进入闲置期的样本组。4.通过轮换设计,保证每个样本单元在2个年份的4个相同月份里接受调查。5.在连续的2个月内,有3/4/的样本点是相同的;在连续的2年内,有1/2的样本点是相同的。

第一节样本轮换CPS在1995年7月的抽样设计方案26

二维平衡单水平轮换模式的轮换过程

27

二维平衡单水平轮换模式的轮换过程

28第二节

双重抽样

我们可以先从总体中抽取一个大的初始样本,从而获得总体的辅助信息,然后再从初始样本或从总体中再抽一个子样本,这种方法就是双重抽样。

第二节双重抽样我们可以先从总体中抽取一个大的29第二节

双重抽样

一、定义双重抽样,也称二相抽样或二重抽样(two-phasesampling),是指在抽样时分两步抽取样本。一般情况下,先从总体N中抽取一个较大的样本,称为第一重(相)样本(thefirstphasesample),对之进行调查以获取总体的某些辅助信息,为下一步的抽样估计提供条件;然后进行第二重抽样(thesecondphasesampling)。第二重抽样所抽的样本n相对较小,但是第二重抽样调查才是主调查。第二节双重抽样一、定义30第二节

双重抽样

二、双重抽样与两阶段抽样的区别(一)两阶段抽样(two-stagesampling)是先从总体N个单元(初级单元)中抽出n个样本单元,却并不对这n个样本单元中的所有小单元(二级单元)都进行调查,而是在其中再抽出若干个二级单元进行调查;双重抽样则不同,要对第一重(相)样本进行调查以获取总体的某些辅助信息,并且要利用这些辅助信息进行排序、分层、抽样或估计等。第二节双重抽样二、双重抽样与两阶段抽样的区别31第二节

双重抽样

(二)两阶段抽样的第二阶段抽样单元和第一阶段抽样单元往往是不同的;双重抽样要有一份最终单元的完整名册(总体所有单元的抽样框),而两阶段抽样只是需要第一阶段单元(初级单元)名册,然后在中选的初级单元中构造第二阶段抽样的抽样框。第二节双重抽样(二)两阶段抽样的第二阶段抽样单元和32第二节

双重抽样

三、双重抽样的作用(一)有助于筛选主调查对象(二)节约调查费用(三)提高抽样效率(四)可用于研究样本轮换中的某些问题(五)降低无回答偏倚第二节双重抽样三、双重抽样的作用33第二节

双重抽样

四、双重抽样的应用

(一)为分层的双重抽样分层抽样如果事先无法知道总体的层权,可以采用双重抽样。具体实施过程如下:第一步:利用简单随机抽样,从总体的N个单元中随机抽取第一重样本,样本单元数为;根据已知的分层标志将第一重样本分层,令,则是总体层权的无偏估计。第二节双重抽样四、双重抽样的应用34第二节

双重抽样

第二步:利用分层随机抽样,从第一重样本中抽取出第二重样本,样本单元数为n,第h层样本单元数为,。采用双重分层抽样,对总体均值的估计量为:的方差为:第二节双重抽样第二步:利用分层随机抽样,从第一重样35第二节

双重抽样

上式可简化为:的样本估计量为:第二节双重抽样上式可简化为:的样本36第二节

双重抽样

第一步:从总体的N个单元中随机抽取第一重样本,样本单元数为;对于第一重样本,仅观测辅助变量信息,用辅助变量的样本均值估计总体均值。(二)为比率估计的双重抽样在实际工作中,如果辅助变量的信息未知,可以利用双重抽样进行比率估计。具体实施过程如下:第二节双重抽样第一步:从总体的N个单元中随机抽取第37第二节

双重抽样

双重抽样对总体均值的比率估计:第二步:从第一重样本中随机抽取出第二重样本,样本单元数为n;对于第二重样本,观测目标变量与辅助变量,并用获得的和,计算,构造比率估计。双重抽样比率估计的方差为:第二节双重抽样双重抽样对总体均值的比率估计:38第二节

双重抽样

双重抽样比率估计方差的样本估计:

第二节双重抽样双重抽样比率估计方差的样本估计:39第二节

双重抽样

(三)为回归估计的二重抽样与比率估计相似,在辅助信息未知时可以采用二重抽样进行回归估计。具体实施过程如下:第一步:从总体的N个单元中随机抽取第一重样本,样本单元数为;对于第一重样本,仅观测辅助变量信息,用辅助变量的样本均值估计其总体均值。第二节双重抽样(三)为回归估计的二重抽样40第二节

双重抽样

第二步:从第一重样本中随机抽取出第二重样本,样本单元数为n;对于第二重样本,观测目标变量与辅助变量,并计算、和回归系数b,构造回归估计。双重抽样对总体均值的回归估计:双重抽样回归估计的方差为:第二节双重抽样第二步:从第一重样本中随机抽取出第41第二节

双重抽样

式中:为第一重样本残差方差,其均值近似等于总体残差方差:因此双重抽样回归估计方差的样本估计:第二节双重抽样式中:为第一重样本残差方差,其均值近42第三节随机化装置一、敏感性问题调查所谓敏感性问题(sensitivequestion)是指所调查的内容涉及私人机密,受访者不愿或不便于向外界透露的问题。对于这类敏感性问题,必须采取经过特别设计的装置与方法,以消除受访者的顾虑,能够如实回答问题,避免调查出现严重偏误。这种为敏感性问题调查特别设计的技术,称随机化回答技术(RandomizedResponseTechnique)。第三节随机化装置一、敏感性问题调查43第三节随机化装置

敏感性问题按总体的特征可分为属性特征和数量特征问题两类。属性特征的敏感性问题是指受访者是否具有敏感性问题的特征,一般是估计具有敏感性特征的单位在总体中所占的比例,因此又可称作敏感性比例问题。数量特征的敏感性问题是指受访者具有敏感性问题数额的多少的特征,一般是估计敏感性数额的均值或总和,也可称作敏感性均值问题。第三节随机化装置敏感性问题按总体的特征可分为44二、沃纳随机化回答模型使用随机化回答技术的第一个模型是由沃纳(S.L.Warner)首先提出的。例如,某大学欲调查学生考试的作弊问题,随机抽取n个学生进行调查,对每位学生显示两个相反的问题,问题可以写在外形完全相同的m张卡片上,其中m1个卡片写上“我曾在考试中作过弊”,另外m-m1个卡片写上“我不曾在考试中作过弊”。然后把这m个卡片折叠好,放在一个盒子里。其中:A问题:我曾在考试中作过弊。B问题:我不曾在考试中作过弊。第三节随机化装置二、沃纳随机化回答模型第三节随机化装置45调查时将m种外形完全一致的卡片像洗牌一样充分混合后,由受访者依简单随机抽样中的抽签方式随机抽取一张卡片,对照自己的情况回答“是”或“否”,然后放回盒子中。设卡片A的比例是P,则卡片B的比例就是1-P。由古典概率可知,在大规模的调查中,抽中卡片的概率为P(A)=P,抽中卡片的概率为P(B)=1-P。若样本量为n,回答“是”的人数为m,则(是)的估计值为m/n。我们知道,回答“是”的人有两种情况:一种是抽中了卡片A,而这些人作过弊;另一种是抽中了卡片B,而这些人没有作过弊。利用全概公式,得:(是)=P(A)·(是|A)+P(B)·(是|B)第三节随机化装置调查时将m种外形完全一致的卡片像洗牌一样充分混合后,46不管是抽到卡片A还是抽到卡片B,作过弊的概率是相等的,假设这一比例为,即(是|A)=,则抽到卡片B,回答“是”的概率为1-,即P(是|B)=1-。代入上述公式,得的一个估计满足:第三节随机化装置因此当时,有:其方差为:不管是抽到卡片A还是抽到卡片B,作过弊的概率是相等的47的一个无偏估计为:第三节随机化装置当n很大时,的一个无偏估计为:第三节随机化装置当n很大48三、西蒙斯(Simmons)随机化回答模型西蒙斯在沃纳模型基础上作了改进,他将其中一张卡片上的问题改为与所调查的敏感性问题完全无关的另一个非敏感性问题。因此西蒙斯模型也称为无关问题的随机化回答模型。

仍假设敏感性问题的卡片比例为P,无关问题的卡片比例为1-P。对于敏感性问题回答“是”的比例为,是我们所要调查的比例,对无关问题回答“是”的比例要求是已知的,则根据全概率公式,得:(是)=P+(1-P)第三节随机化装置三、西蒙斯(Simmons)随机化回答模型第三节随机化49当样本量为n,回答“是”的人数为m,则(是)的估计值为m/n,因此的估计值满足:第三节随机化装置解此方程得:它的方差为(若忽略fpc):V()的一个无偏估计为:当样本量为n,回答“是”的人数为m,则(是)的估计值50【例10.1】某大学对本校大学生考风情况进行调查。利用西蒙斯模型,对每个受访者准备了一套同样的(40张)卡片,卡片A和卡片B各20张,比例各占1/2。卡片上A的问题是:最近学期期末考试你有过作弊行为吗?卡片上B的问题是:你的阳历生日日期为奇数吗?第三节随机化装置【例10.1】某大学对本校大学生考风情况进行调查。利用51【例10.1】某大学对本校大学生考风情况进行调查。利用西蒙斯模型,对每个受访者准备了一套同样的(40张)卡片,卡片A和卡片B各20张,比例各占1/2。卡片上A的问题是:最近学期期末考试你有过作弊行为吗?卡片上B的问题是:你的阳历生日日期为奇数吗?假如对依简单随机抽样方式抽出的400个人进行调查,在n=400人中总共有m=115人的答案为“是”,试估计该校大学生考试作弊的比例并给出90%的置信区间。第三节随机化装置【例10.1】某大学对本校大学生考风情况进行调查。利用52解:n=800,m=135,P=0.5,为生日日期为奇数的人数比例。在大规模调查的情况下,可以看作生日为奇数和偶数的各占一半,因此=0.5。根据公式得:第三节随机化装置

=

故的90%置信区间约为:(0.0751.640.0453),即:=0.002054

解:n=800,m=135,P=0.5,为生日日期53四、随机截尾模型现实中我们也经常需要调查定量的敏感性问题,例如调查银行存款数额,学生考试作弊的平均次数,在职人员的工资外收入等。Greenberg等人针对这类问题提出了几种随机化调查方法,但是,这些方法都要求受访者根据自己的实际情况回答敏感性问题或非敏感性问题的具体数值,给受访者/受查者造成了一定的困扰。近年来提出了所谓随机截尾模型,把对于具体数值的调查转化为对于属性的调查,避免了直接回答,使得受访者心理上比较容易接受。第三节随机化装置四、随机截尾模型第三节随机化装置54设反映敏感性问题的特征量为X,取值范围是,密度函数为,X的数学期望为,即我们所要估计的值。又设Y是一个服从上的均匀分布的随机变量。第三节随机化装置设样本容量为n,得到的调查数据是,I=1,2,…n,即:=

,因此设反映敏感性问题的特征量为X,取值范围是,55以样本均值=代替,得到的一个无偏估计为:第三节随机化装置估计量的方差为:的一个估计为:以样本均值=代替,得到56五、采用随机化回答技术应注意的问题第三节随机化装置(一)注意在受访者正式抽取并回答问题前,清楚介绍这种做法的原理,让受访者充分理解这种方法的特点,以彻底消除受访者的顾虑,明白自己究竟回答哪个问题别人是不知道的,使其相信这种设计是建立在科学的基础上,不是哄骗人的。(二)所提问题必须简单明了,防止因有歧义而出现理解不同。对涉及问题的解释必须在抽卡片以前进行,否则就暴露了抽到的是哪类卡片,也就失去了随机化回答的意义。五、采用随机化回答技术应注意的问题第三节随机化装置(一57第三节随机化装置(三)在应用西蒙斯模型时,无关问题的选择特别重要,一定要隐蔽性强的,使受访者在回答无关问题时不会暴露正在回答哪个问题。例如“你是男生吗?”这类问题就很不妥,因为采用随机化回答技术需要当面解释,受访者的性别不可能保密,这样也就失去了无关问题本来应具有的保护作用。(四)做好调查者的培训工作,使他们能够正确理解随机化回答技术的实质并加以运用,这样才能更好地向受访者解释清楚,消除受访者的顾虑,以对调查的问题给予正确回答。第三节随机化装置(三)在应用西蒙斯模型时,无关问题58第四节交叉子样本交叉子样本(Interpenetratingsub-samples)方法最初是由印度著名统计学家马哈拉诺比斯于30年代提出来的用于大规模的抽样调查,后来由美国统计学家戴明推广和发展,他称之谓重复抽样。它的主要优点是便于计算抽样标准误差,即使是复杂的抽样设计和复杂的估计量,也可以很快得到方差的估计量。它还可以用于发现偏差,核对调查员的调查质量等。第四节交叉子样本交叉子样本(Interpen59第四节交叉子样本一、独立的交叉子样本设总体为N,现欲抽取样本容量为n的样本。那么可以利用交叉子样本的方法,

假设抽取K个子样本,使每个样本的容量为m(n=Km),每个交叉子样本可以得到总体参数θ的一个无偏估计量那么交叉子样本的估计量及其方差为:(不重复抽样)第四节交叉子样本一、独立的交叉子样本(不重复抽样)60【例10.2】假设有一小城镇,现欲估计这一城镇的房屋数。该城镇共有50个居委会,由于居委会作为抽样单位太大,将每个居委会划分为8个地段,这样共有400个地段,拟抽取20%的地段做样本,所以n=80,现采用K=5独立交叉子样本,每个交叉子样本的容量为16。抽样的方法可用系统抽样的方法,将总体分成16段(层),每段有25个地段。抽选时先在1—25之间用不重复抽样方法抽取5个随机数作为随机起点。如表(10.2)中的第一行,它们分别是:18,1,8,23,11。第四节交叉子样本【例10.2】假设有一小城镇,现欲估计这一城镇的房屋数。61第四节交叉子样本第四节交叉子样本62第四节交叉子样本方差的估计量为:95%的置信区间为第四节交叉子样本方差的估计量为:95%的置信区间为63第四节交叉子样本交叉字样本的估计量也适用于复杂的估计量,例如比率估计量。如果每个子样本的估计量为,则总体的分别比率估计量为:1959年莫蒂和南加玛还证明了交叉子样本的合并比率估计量,其方差也是近似的。第四节交叉子样本交叉字样本的估计量也适用于复杂的64第四节交叉子样本二、交叉子样本的其他应用四十年代马哈拉诺比斯曾将交叉子样本方法用于农产量调查中,用来发现不同调查员的偏差。其方法是抽取一对相联系(或邻近)的子样本。如在田块中设置哑铃型的测框,哑铃的两端组成两个子样本。分别由两组调查人员各调查一个子样本,然后将两个子样本的结果相比较,采用t检验,如果两个子样之间有显著差别,则说明调查中有不同方向和不同程度的偏差存在,如果没有显著差异,则不能说明没有偏差,只能所没有发现偏差。第四节交叉子样本二、交叉子样本的其他应用65第四节交叉子样本这种方法也可用于某一调查中,研究调查人员是否需要进行培训。可将两组相联系的子样本分别由经过培训的调查人员和未经培训的调查人员进行调查,然后把两组的结果加以比较,如果有显著差别,说明培训是需要的,如果无显著差别,说明培训的作用不大。交叉子样本还可以在不同的操作方法中进行检验,如果各子样的差别不大,说明各种操作方法都是可行的,如果其中有一种操作方法与其它方法有较大差别,那么对这种操作方法应仔细检查。第四节交叉子样本这种方法也可用于某一调查中,研66编号为奇数的习题答案10.1(略)10.3(1)双重抽样中最优的,

双重分层抽样方差估计为:(2)不分层的简单随机抽样方差,故双重抽样效率高。(3)

10.5的双重回归估计量的标准差为1.05

编号为奇数的习题答案10.1(略)10.5的双重回归6710.7,,,为生日日期为奇数的人数比例在大规模调查的情况下,可以看作生日为奇数和偶数的各占一半,因此。根据公式得:即估计有70%的已婚男子存私房钱,由公式得:故的95%置信区间约为:即:(60.4%,79.6%)因此不能认为已婚男子存私房钱的比例约为60%。

10.7,68

第十章其它抽样方法技术第十章其它抽样方法技术69本章要点本章主要对样本轮换、双重抽样、随机化装置、交叉子样本等抽样技术原理、方法、特点及应用条件进行了较为全面的介绍。具体要求:掌握本章所介绍的几种抽样技术的特点及应用条件,在抽样实际工作中能够正确运用该种技术,提高估计的精度与效果。本章要点本章主要对样本轮换、双重抽样、随机70第一节样本轮换

第二节双重抽样

第三节随机化装置

第四节交叉子样本第一节样本轮换

第二节双重抽样

第三节随机化装置71问题提出

时间序列数据以及随后出现的面板数据都是经济统计分析和计量分析中非常重要的数据类型。当我们在研究应该应用什么统计和计量的方法去分析既定的时间序列数据时,是否考虑过以下几个问题?

时间序列数据是如何产生的?

所产生的时间序列数据是否准确?

如何让时间序列数据更加准确?问题提出时间序列数72

随着社会经济现象的不断变化和发展,很多调查对象的总体也在不断变化和发展。为了能够及时反映调查总体的这种变化和发展,调查部门就需要对同一总体在不同时间上进行连续性抽样调查(SuccessiveSamplingSurvey),并定期公布调查结果,形成一系列时序统计数据。因此,社会经济抽样调查一般都应该是连续性的定期调查。

一次性抽样调查与截面数据

连续性抽样调查与时间序列数据及面板数据随着社会经济现象的不断变化和发展,很73

抽样调查除了对总体的一次性抽样以外,很多重要的调查是隔一段时间重复进行的,对于这种经常性的抽样问题,就必须重视其样本轮换问题的研究。对于样本轮换问题,我们至少应考虑以下问题:每次调查的样本如何组成?是采用固定样本还是采用全新的样本,或者是部分保留部分替换,即样本轮换;在估计后期的总量或均值时,是否需要利用前期的信息来改进现期的估计,以及如何利用;如果采用样本轮换的方法,如何确定最优的保留比例或替换比例。第一节

样本轮换

抽样调查除了对总体的一次性抽样以外,很多重要的调查是74连续性抽样设计方法按抽取样本的不同划分轮换样本重复样本固定样本单水平轮换不完全的单水平轮换多水平轮换连续性抽样设计方法按抽取样本的不同划分轮换样本重复样本固定样75轮换模式应用举例加拿大劳动力调查(LFS)使用6~0单水平轮换模式美国现时人口调查(CPS)使用4~8~4不完全单水平轮换模式美国消费者支出的季度调查(CEQ)便采用4~0三水平轮换模式中国城市住户抽样调查中国规模以下工业企业抽样调查中国农产量抽样调查轮换模式应用举例加拿大劳动力调查(LFS)使用6~0单76一、样本轮换的原因如果是单纯地估计现值的情况,当然最好每次重新抽取新样本,这样必然会增加费用;如果要逐期地与上期比较,则采用固定样本的方法为好,固定样本可以消除样本的因素而只观察动态的变化。然而,样本长期不变,随着时间的推移,固定样本会显露它的弊端,既难以反映总体的变化,而且受访者也会产生厌烦心理,出现不合作或回答质量下降等问题,从而影响调查质量。另外,无论是采用固定样本还是全新样本都难以正确地反映总体在各个不同时间上的水平及变化,因此,一种广泛采用的方法是样本轮换,即每隔一定时间(一个月、一季或一年)更换一定比例的单元,保留其余单元。第一节

样本轮换

一、样本轮换的原因第一节样本轮换77与传统的一次性抽样调查相比,轮换的抽样调查具有以下特有的优势:

节省调查费用和调查资源

在一定程度上减轻被调查者回答负担

利用前后各期之间的相关关系提高估计精度与传统的一次性抽样调查相比,轮换的抽样78我国1996年新修订的《统计法》第十条明确规定:“统计调查应当以周期性普查为基础,以经常性抽样调查为主体,以必要的统计报表、重点调查、综合分析等为补充,搜集、整理基本统计资料。”因此,在今后我国政府统计部门开展的统计调查制度与方法改革的过程中,最重要的就是围绕如何更好地发挥经常性抽样调查的主体作用,研究并应用更加符合我国国情的经常性抽样调查方法,以此得出更加准确的统计数据,为我国政府部门、研究机构以及各类企事业单位等社会各界服务。我国抽样调查制度与方法改革的方向我国1996年新修订的《统计法》第十条明确规定:“统计调查应79二、样本轮换的最优比例第一个时期采用有放回简单随机抽样方式抽出样本量为n的样本;在第二个时期采用有放回简单随机抽样方式选出样本量为nq的旧有样本点以便替换掉,即保留的样本量为np,保留样本的比例为p,同时独立地依有放回简单随机样本方式补充新的nq个新样本点,这里p+q=1,这样第二个时期的样本量仍旧为n。设:第一节

样本轮换

二、样本轮换的最优比例第一节样本轮换80为第一个时期与第二个时期相同的np个单元在第一个时期的均值。为第一个时期nq个单元在第一个时期的均值。为np个单元在第二个时期的样本均值。为nq个补充单元在第二个时期的样本均值。ρ为和之间的相关系数。如果希望估计第二个时期的样本均值并充分利用第一个时期的信息,令该估计量为,那么它应该是充分利用前后期中保留样本、不保留样本和后期新补充样本的加权平均数。

第一节

样本轮换

为第一个时期与第二个时期相同的np个单元在第一81设我们希望得到的估计量是两期估计量的线性函数,即

=a+b+c+d(10.1)要求估计其参数a,b,c,d。因为E()=E()=,E()=E()=,所以E()=(a+b)+(c+d)。要使成为的无偏估计量,需a+b=0,c+d=1,也即b=-a,d=1-c。代入(10.1),有=a(-)+c+(1-c)

第一节

样本轮换

设我们希望得到的估计量是两期估计量的线性函82第一节

样本轮换

该估计量的方差可以求得为:其中是第一个时期的方差,是第二个时期的方差。我们要求出a和c,使得达到最小,就要以上公式分别对a和c求偏微分并使之等于0,即可求出a和c的最优值分别为:第一节样本轮换该估计量的方差可以求得为:其83第一节

样本轮换

该估计量的方差可以求得为:第一节样本轮换该估计量的方差可以求得为:84第一节

样本轮换

将其代入公式(10.1),就得到该估计量的方差为:第一节样本轮换将其代入公式(10.1),就得到该估85第一节

样本轮换

如果不利用前期信息,只根据第二期的结果来估计均值,那么:其方差为:第一节样本轮换如果不利用前期信息,只根据第二期的结果86第一节

样本轮换

故利用前期信息后的设计效果为:从上式可以看出,当ρ的值比较大时,利用上期信息可以较大地提高的效率。表10.1给出了不同的q,ρ值时的值。第一节样本轮换故利用前期信息后的设计效果为:87第一节

样本轮换

表10.1不同的q,ρ值时的值第一节样本轮换表10.1不同的q,88若对上式关于q求偏导,并使之等于0,那么便可得到最优轮换比:若对上式关于q求偏导,并使之等于0,那么便可得到最优89第一节

样本轮换

三、样本轮换方法(一)

随机轮换法

在进行轮换时按确定的轮换单位数目或比例,从原有样本中随机抽出若干单位不再调查,而从其余未包括在样本中的总体单位中抽取同样数目的单位来代替。第一节样本轮换三、样本轮换方法90第一节

样本轮换

(二)

等距轮换法

在总体抽样框中确定出各个等距抽样的样本,在各次的调查中,按相应位置的等距样本单位进行轮换。我国农村住户调查就是采用这种轮换方式。(三)

子样本轮换法从总体中抽出若干套子样本,每次调查一定数量的子样本,逐次轮换其中的部分子样本。

第一节样本轮换(二)

等91第一节

样本轮换

子样本轮换实际上就是每次采用交叉子样本,而交叉子样本不仅能有效地减少和控制估计偏差,而且由于每个交叉子样本都能代表总体,即使有的子样本资料搜集不到,我们也可以用其他的子样本甚至一个子样本来观察和推断总体。此外,用交叉子样本还可以考察非抽样误差发生的程度。因此,一般来说,子样本轮换方法是以上三种样本轮换方法中最好的。第一节样本轮换子样本轮换实际上就是每次采用交92第一节

样本轮换

五、案例介绍美国人口现状调查(currentpopulationsurvey,CPS)是国际上最著名的抽样调查项目之一,已经成为美国以及许多国家进行居民调查的参考模型,其实施是在每个月包含19号的那一周进行,调查的问题涉及受访者此前一周内的活动。调查氛围覆盖全美50个州和哥伦比亚地区。CPS采用的就是样本轮换的方法,即每位受访者连续4个月接受访问,然后退出样本,8个月后再进入样本,连续4个月接受访问,最后永久地退出样本。第一节样本轮换五、案例介绍93第一节

样本轮换

CPS在1995年7月的抽样设计方案中样本轮换的特征:

1.在任意一个月内,都有1/8的住户单元第一次接受调查,1/8的住户单元第二次接受调查,依次类推。2.每个月都由新的样本组代替从样本中永久退出的老样本组。3.每个月都有一个样本组在闲置8个月后重新接受调查,以此代替刚刚进入闲置期的样本组。4.通过轮换设计,保证每个样本单元在2个年份的4个相同月份里接受调查。5.在连续的2个月内,有3/4/的样本点是相同的;在连续的2年内,有1/2的样本点是相同的。

第一节样本轮换CPS在1995年7月的抽样设计方案94

二维平衡单水平轮换模式的轮换过程

95

二维平衡单水平轮换模式的轮换过程

96第二节

双重抽样

我们可以先从总体中抽取一个大的初始样本,从而获得总体的辅助信息,然后再从初始样本或从总体中再抽一个子样本,这种方法就是双重抽样。

第二节双重抽样我们可以先从总体中抽取一个大的97第二节

双重抽样

一、定义双重抽样,也称二相抽样或二重抽样(two-phasesampling),是指在抽样时分两步抽取样本。一般情况下,先从总体N中抽取一个较大的样本,称为第一重(相)样本(thefirstphasesample),对之进行调查以获取总体的某些辅助信息,为下一步的抽样估计提供条件;然后进行第二重抽样(thesecondphasesampling)。第二重抽样所抽的样本n相对较小,但是第二重抽样调查才是主调查。第二节双重抽样一、定义98第二节

双重抽样

二、双重抽样与两阶段抽样的区别(一)两阶段抽样(two-stagesampling)是先从总体N个单元(初级单元)中抽出n个样本单元,却并不对这n个样本单元中的所有小单元(二级单元)都进行调查,而是在其中再抽出若干个二级单元进行调查;双重抽样则不同,要对第一重(相)样本进行调查以获取总体的某些辅助信息,并且要利用这些辅助信息进行排序、分层、抽样或估计等。第二节双重抽样二、双重抽样与两阶段抽样的区别99第二节

双重抽样

(二)两阶段抽样的第二阶段抽样单元和第一阶段抽样单元往往是不同的;双重抽样要有一份最终单元的完整名册(总体所有单元的抽样框),而两阶段抽样只是需要第一阶段单元(初级单元)名册,然后在中选的初级单元中构造第二阶段抽样的抽样框。第二节双重抽样(二)两阶段抽样的第二阶段抽样单元和100第二节

双重抽样

三、双重抽样的作用(一)有助于筛选主调查对象(二)节约调查费用(三)提高抽样效率(四)可用于研究样本轮换中的某些问题(五)降低无回答偏倚第二节双重抽样三、双重抽样的作用101第二节

双重抽样

四、双重抽样的应用

(一)为分层的双重抽样分层抽样如果事先无法知道总体的层权,可以采用双重抽样。具体实施过程如下:第一步:利用简单随机抽样,从总体的N个单元中随机抽取第一重样本,样本单元数为;根据已知的分层标志将第一重样本分层,令,则是总体层权的无偏估计。第二节双重抽样四、双重抽样的应用102第二节

双重抽样

第二步:利用分层随机抽样,从第一重样本中抽取出第二重样本,样本单元数为n,第h层样本单元数为,。采用双重分层抽样,对总体均值的估计量为:的方差为:第二节双重抽样第二步:利用分层随机抽样,从第一重样103第二节

双重抽样

上式可简化为:的样本估计量为:第二节双重抽样上式可简化为:的样本104第二节

双重抽样

第一步:从总体的N个单元中随机抽取第一重样本,样本单元数为;对于第一重样本,仅观测辅助变量信息,用辅助变量的样本均值估计总体均值。(二)为比率估计的双重抽样在实际工作中,如果辅助变量的信息未知,可以利用双重抽样进行比率估计。具体实施过程如下:第二节双重抽样第一步:从总体的N个单元中随机抽取第105第二节

双重抽样

双重抽样对总体均值的比率估计:第二步:从第一重样本中随机抽取出第二重样本,样本单元数为n;对于第二重样本,观测目标变量与辅助变量,并用获得的和,计算,构造比率估计。双重抽样比率估计的方差为:第二节双重抽样双重抽样对总体均值的比率估计:106第二节

双重抽样

双重抽样比率估计方差的样本估计:

第二节双重抽样双重抽样比率估计方差的样本估计:107第二节

双重抽样

(三)为回归估计的二重抽样与比率估计相似,在辅助信息未知时可以采用二重抽样进行回归估计。具体实施过程如下:第一步:从总体的N个单元中随机抽取第一重样本,样本单元数为;对于第一重样本,仅观测辅助变量信息,用辅助变量的样本均值估计其总体均值。第二节双重抽样(三)为回归估计的二重抽样108第二节

双重抽样

第二步:从第一重样本中随机抽取出第二重样本,样本单元数为n;对于第二重样本,观测目标变量与辅助变量,并计算、和回归系数b,构造回归估计。双重抽样对总体均值的回归估计:双重抽样回归估计的方差为:第二节双重抽样第二步:从第一重样本中随机抽取出第109第二节

双重抽样

式中:为第一重样本残差方差,其均值近似等于总体残差方差:因此双重抽样回归估计方差的样本估计:第二节双重抽样式中:为第一重样本残差方差,其均值近110第三节随机化装置一、敏感性问题调查所谓敏感性问题(sensitivequestion)是指所调查的内容涉及私人机密,受访者不愿或不便于向外界透露的问题。对于这类敏感性问题,必须采取经过特别设计的装置与方法,以消除受访者的顾虑,能够如实回答问题,避免调查出现严重偏误。这种为敏感性问题调查特别设计的技术,称随机化回答技术(RandomizedResponseTechnique)。第三节随机化装置一、敏感性问题调查111第三节随机化装置

敏感性问题按总体的特征可分为属性特征和数量特征问题两类。属性特征的敏感性问题是指受访者是否具有敏感性问题的特征,一般是估计具有敏感性特征的单位在总体中所占的比例,因此又可称作敏感性比例问题。数量特征的敏感性问题是指受访者具有敏感性问题数额的多少的特征,一般是估计敏感性数额的均值或总和,也可称作敏感性均值问题。第三节随机化装置敏感性问题按总体的特征可分为112二、沃纳随机化回答模型使用随机化回答技术的第一个模型是由沃纳(S.L.Warner)首先提出的。例如,某大学欲调查学生考试的作弊问题,随机抽取n个学生进行调查,对每位学生显示两个相反的问题,问题可以写在外形完全相同的m张卡片上,其中m1个卡片写上“我曾在考试中作过弊”,另外m-m1个卡片写上“我不曾在考试中作过弊”。然后把这m个卡片折叠好,放在一个盒子里。其中:A问题:我曾在考试中作过弊。B问题:我不曾在考试中作过弊。第三节随机化装置二、沃纳随机化回答模型第三节随机化装置113调查时将m种外形完全一致的卡片像洗牌一样充分混合后,由受访者依简单随机抽样中的抽签方式随机抽取一张卡片,对照自己的情况回答“是”或“否”,然后放回盒子中。设卡片A的比例是P,则卡片B的比例就是1-P。由古典概率可知,在大规模的调查中,抽中卡片的概率为P(A)=P,抽中卡片的概率为P(B)=1-P。若样本量为n,回答“是”的人数为m,则(是)的估计值为m/n。我们知道,回答“是”的人有两种情况:一种是抽中了卡片A,而这些人作过弊;另一种是抽中了卡片B,而这些人没有作过弊。利用全概公式,得:(是)=P(A)·(是|A)+P(B)·(是|B)第三节随机化装置调查时将m种外形完全一致的卡片像洗牌一样充分混合后,114不管是抽到卡片A还是抽到卡片B,作过弊的概率是相等的,假设这一比例为,即(是|A)=,则抽到卡片B,回答“是”的概率为1-,即P(是|B)=1-。代入上述公式,得的一个估计满足:第三节随机化装置因此当时,有:其方差为:不管是抽到卡片A还是抽到卡片B,作过弊的概率是相等的115的一个无偏估计为:第三节随机化装置当n很大时,的一个无偏估计为:第三节随机化装置当n很大116三、西蒙斯(Simmons)随机化回答模型西蒙斯在沃纳模型基础上作了改进,他将其中一张卡片上的问题改为与所调查的敏感性问题完全无关的另一个非敏感性问题。因此西蒙斯模型也称为无关问题的随机化回答模型。

仍假设敏感性问题的卡片比例为P,无关问题的卡片比例为1-P。对于敏感性问题回答“是”的比例为,是我们所要调查的比例,对无关问题回答“是”的比例要求是已知的,则根据全概率公式,得:(是)=P+(1-P)第三节随机化装置三、西蒙斯(Simmons)随机化回答模型第三节随机化117当样本量为n,回答“是”的人数为m,则(是)的估计值为m/n,因此的估计值满足:第三节随机化装置解此方程得:它的方差为(若忽略fpc):V()的一个无偏估计为:当样本量为n,回答“是”的人数为m,则(是)的估计值118【例10.1】某大学对本校大学生考风情况进行调查。利用西蒙斯模型,对每个受访者准备了一套同样的(40张)卡片,卡片A和卡片B各20张,比例各占1/2。卡片上A的问题是:最近学期期末考试你有过作弊行为吗?卡片上B的问题是:你的阳历生日日期为奇数吗?第三节随机化装置【例10.1】某大学对本校大学生考风情况进行调查。利用119【例10.1】某大学对本校大学生考风情况进行调查。利用西蒙斯模型,对每个受访者准备了一套同样的(40张)卡片,卡片A和卡片B各20张,比例各占1/2。卡片上A的问题是:最近学期期末考试你有过作弊行为吗?卡片上B的问题是:你的阳历生日日期为奇数吗?假如对依简单随机抽样方式抽出的400个人进行调查,在n=400人中总共有m=115人的答案为“是”,试估计该校大学生考试作弊的比例并给出90%的置信区间。第三节随机化装置【例10.1】某大学对本校大学生考风情况进行调查。利用120解:n=800,m=135,P=0.5,为生日日期为奇数的人数比例。在大规模调查的情况下,可以看作生日为奇数和偶数的各占一半,因此=0.5。根据公式得:第三节随机化装置

=

故的90%置信区间约为:(0.0751.640.0453),即:=0.002054

解:n=800,m=135,P=0.5,为生日日期121四、随机截尾模型现实中我们也经常需要调查定量的敏感性问题,例如调查银行存款数额,学生考试作弊的平均次数,在职人员的工资外收入等。Greenberg等人针对这类问题提出了几种随机化调查方法,但是,这些方法都要求受访者根据自己的实际情况回答敏感性问题或非敏感性问题的具体数值,给受访者/受查者造成了一定的困扰。近年来提出了所谓随机截尾模型,把对于具体数值的调查转化为对于属性的调查,避免了直接回答,使得受访者心理上比较容易接受。第三节随机化装置四、随机截尾模型第三节随机化装置122设反映敏感性问题的特征量为X,取值范围是,密度函数为,X的数学期望为,即我们所要估计的值。又设Y是一个服从上的均匀分布的随机变量。第三节随机化装置设样本容量为n,得到的调查数据是,I=1,2,…n,即:=

,因此设反映敏感性问题的特征量为X,取值范围是,123以样本均值=代替,得到的一个无偏估计为:第三节随机化装置估计量的方差为:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论