第十章其它抽样方法技术1_第1页
第十章其它抽样方法技术1_第2页
第十章其它抽样方法技术1_第3页
第十章其它抽样方法技术1_第4页
第十章其它抽样方法技术1_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第十章第十章 其它抽样方法技术其它抽样方法技术本章要点本章要点 本章主要对样本轮换、双重抽样、随机化本章主要对样本轮换、双重抽样、随机化装置、交叉子样本等抽样技术原理、方法、装置、交叉子样本等抽样技术原理、方法、特点及应用条件进行了较为全面的介绍。具特点及应用条件进行了较为全面的介绍。具体要求体要求: 掌握本章所介绍的几种抽样技术的特点及掌握本章所介绍的几种抽样技术的特点及应用条件,在抽样实际工作中能够正确运用应用条件,在抽样实际工作中能够正确运用该种技术,提高估计的精度与效果。该种技术,提高估计的精度与效果。第一节第一节 样本轮换样本轮换第二节第二节 双重抽样双重抽样第三节第三节 随机化装

2、置随机化装置 第四节第四节 交叉子样本交叉子样本 抽样调查除了对总体的一次性抽样以外,很多重要的抽样调查除了对总体的一次性抽样以外,很多重要的调查是隔一段时间重复进行的调查是隔一段时间重复进行的, ,对于这种经常性的抽样问对于这种经常性的抽样问题,就必须重视其样本轮换问题的研究。题,就必须重视其样本轮换问题的研究。 对于样本轮换问题,我们至少应考虑以下问题:每次对于样本轮换问题,我们至少应考虑以下问题:每次调查的样本如何组成?是采用固定样本还是采用全新的调查的样本如何组成?是采用固定样本还是采用全新的样本,或者是部分保留部分替换,即样本轮换;在估计样本,或者是部分保留部分替换,即样本轮换;在估

3、计后期的总量或均值时,是否需要利用前期的信息来改进后期的总量或均值时,是否需要利用前期的信息来改进现期的估计,以及如何利用;如果采用样本轮换的方法,现期的估计,以及如何利用;如果采用样本轮换的方法,如何确定最优的保留比例或替换比例。如何确定最优的保留比例或替换比例。 第一节第一节 样本轮换样本轮换 一、样本轮换的原因一、样本轮换的原因 如果是单纯地估计现值的情况,当然最好每次重新抽取新如果是单纯地估计现值的情况,当然最好每次重新抽取新样本,这样必然会增加费用;如果要逐期地与上期比较,则采样本,这样必然会增加费用;如果要逐期地与上期比较,则采用固定样本的方法为好,固定样本可以消除样本的因素而只观

4、用固定样本的方法为好,固定样本可以消除样本的因素而只观察动态的变化。然而,样本长期不变,随着时间的推移,固定察动态的变化。然而,样本长期不变,随着时间的推移,固定样本会显露它的弊端,既难以反映总体的变化,而且受访者也样本会显露它的弊端,既难以反映总体的变化,而且受访者也会产生厌烦心理,出现不合作或回答质量下降等问题,从而影会产生厌烦心理,出现不合作或回答质量下降等问题,从而影响调查质响调查质量。另外,无论是采用固定样本还是全新样本都难以量。另外,无论是采用固定样本还是全新样本都难以正确地反映总体在各个不同时间上的水平及变化,因此,一种正确地反映总体在各个不同时间上的水平及变化,因此,一种广泛采

5、用的方法是样本轮换,即每隔一定时间(一个月、一季广泛采用的方法是样本轮换,即每隔一定时间(一个月、一季或一年)更换一定比例的单元,保留其余单元。或一年)更换一定比例的单元,保留其余单元。第一节第一节 样本轮换样本轮换 二、样本轮换的最优比例二、样本轮换的最优比例第一个时期采用有放回简单随机抽样方式抽出样本量为第一个时期采用有放回简单随机抽样方式抽出样本量为n n的样本;在第二个时期采用有放回简单随机抽样方式选的样本;在第二个时期采用有放回简单随机抽样方式选出样本量为出样本量为nqnq的旧有样本点以便替换掉,即保留的样本的旧有样本点以便替换掉,即保留的样本量为量为npnp,保留样本的比例为,保留

6、样本的比例为p p,同时独立地依有放回简单,同时独立地依有放回简单随机样本方式补充新的随机样本方式补充新的nqnq个新样本点,这里个新样本点,这里p+q=1p+q=1,这样,这样第二个时期的样本量仍旧为第二个时期的样本量仍旧为n n。设。设: 第一节第一节 样本轮换样本轮换 为第一个时期与第二个时期相同的为第一个时期与第二个时期相同的npnp个单元在第一个时期个单元在第一个时期的均值。的均值。 为第一个时期为第一个时期nq个单元在第一个时期的均值。个单元在第一个时期的均值。 为为np个单元在第二个时期的样本均值。个单元在第二个时期的样本均值。 为为nq个补充单元在第二个时期的样本均值。个补充单

7、元在第二个时期的样本均值。为为 和和 之间的相关系数。之间的相关系数。 如果希望估计第二个时期的样本均值并充分利用第一个时如果希望估计第二个时期的样本均值并充分利用第一个时期的信息,令该估计量为期的信息,令该估计量为 ,那么它应该是充分利用前后期,那么它应该是充分利用前后期中保留样本、不保留样本和后期新补充样本的加权平均数。中保留样本、不保留样本和后期新补充样本的加权平均数。 第一节第一节 样本轮换样本轮换 xxxxyyxxywy 设我们希望得到的估计量设我们希望得到的估计量 是两期估计量的线性函数,即是两期估计量的线性函数,即 = a +b +c + d (10.1) 要求估计其参数要求估计

8、其参数a,b,c,d。 因为因为E( )=E( )= ,E( )=E( )= , 所所以以E( )=(a+b) +(c+d) 。要使。要使 成为成为 的无偏估计的无偏估计量,需量,需a+b=0,c+d=1,也即,也即b=-a,d=1-c。代入(。代入(10.1),有),有 =a=a( - - )+c +c +(1-c1-c) 第一节第一节 样本轮换样本轮换 xxxxyyxxywywyxywywyXXYYYwyxxyy第一节第一节 样本轮换样本轮换 xxx该估计量的方差可以求得为:该估计量的方差可以求得为: 22222211(1)2()().yyxyxwccacV yaqp npnqnpn 其中

9、其中 是第一个时期的方差,是第一个时期的方差, 是第二个时期的方差。我是第二个时期的方差。我们要求出们要求出a a和和c c,使得,使得 达到最小,就要以上公式分别对达到最小,就要以上公式分别对a a和和c c求偏微分并使之等于求偏微分并使之等于0 0,即可求出,即可求出a a和和c c的最优值分别为:的最优值分别为: 2x2y()wV y第一节第一节 样本轮换样本轮换 xxx该估计量的方差可以求得为:该估计量的方差可以求得为: 22.1yxpqaq221paq第一节第一节 样本轮换样本轮换 xxx将其代入公式(将其代入公式(10.110.1),就得到),就得到 2222222(1)()111

10、ywxpqpqqyxxyyqqq该估计量的方差为该估计量的方差为 :22221()1ywqV ynq第一节第一节 样本轮换样本轮换 xxx如果不利用前期信息,只根据第二期的结果来估如果不利用前期信息,只根据第二期的结果来估计均值,那么计均值,那么 :其方差为其方差为 :ypyqy2()yV yn第一节第一节 样本轮换样本轮换 xxx故利用前期信息后的设计效果为故利用前期信息后的设计效果为 : 从上式可以看出,当从上式可以看出,当的值比较大时,利用上期信息的值比较大时,利用上期信息可以较大地提高可以较大地提高 的效率。表的效率。表10.110.1给出了不同的给出了不同的q q,值值时时 的值。的

11、值。222()1()1wV yqV yqwy()( )wV yV y第一节第一节 样本轮换样本轮换 xxx 表表10.1 10.1 不同的不同的q q,值时值时 的值的值 ()( )wV yV y第一节第一节 样本轮换样本轮换 xxx三、样本轮换方法三、样本轮换方法 (一)(一) 随机轮换法随机轮换法 在进行轮换时按确定的轮换单位数目或比例,从原有样本在进行轮换时按确定的轮换单位数目或比例,从原有样本中随机抽出若干单位不再调查,而从其余未包括在样本中的总中随机抽出若干单位不再调查,而从其余未包括在样本中的总体单位中抽取同样数目的单位来代替。体单位中抽取同样数目的单位来代替。第一节第一节 样本轮

12、换样本轮换 xxx (二)(二) 等距轮换法等距轮换法 在总体抽样框中确定出各个等距抽样的样本,在各次的调在总体抽样框中确定出各个等距抽样的样本,在各次的调查中,按相应位置的等距样本单位进行轮换。我国农村住户调查中,按相应位置的等距样本单位进行轮换。我国农村住户调查就是采用这种轮换方式。查就是采用这种轮换方式。 (三)(三) 子样本轮换法子样本轮换法 从总体中抽出若干套子样本,每次调查一定数量的子样本,从总体中抽出若干套子样本,每次调查一定数量的子样本,逐次轮换其中的部分子样本。逐次轮换其中的部分子样本。 第一节第一节 样本轮换样本轮换 xxx 子样本轮换实际上就是每次采用交叉子样本,而交叉子

13、子样本轮换实际上就是每次采用交叉子样本,而交叉子样本不仅能有效地减少和控制估计偏差,而且由于每个交叉样本不仅能有效地减少和控制估计偏差,而且由于每个交叉子样本都能代表总体,即使有的子样本资料搜集不到,我们子样本都能代表总体,即使有的子样本资料搜集不到,我们也可以用其他的子样本甚至一个子样本来观察和推断总体。也可以用其他的子样本甚至一个子样本来观察和推断总体。此外,用交叉子样本还可以考察非抽样误差发生的程度。因此外,用交叉子样本还可以考察非抽样误差发生的程度。因此,一般来说,子样本轮换方法是以上三种样本轮换方法中此,一般来说,子样本轮换方法是以上三种样本轮换方法中最好的。最好的。 第一节第一节

14、样本轮换样本轮换 xxx四、样本轮换应遵循的原则四、样本轮换应遵循的原则(一)代表性。一是指轮换后的新样本必须具有代表性,二是(一)代表性。一是指轮换后的新样本必须具有代表性,二是指新选取的样本原则上必须满足与被轮换掉的原样本同类型,指新选取的样本原则上必须满足与被轮换掉的原样本同类型,有代表性。有代表性。(二)连续性。指样本轮换后进行抽样调查取得的资料应与样(二)连续性。指样本轮换后进行抽样调查取得的资料应与样本轮换前进行调查所取得的资料连续并可比。本轮换前进行调查所取得的资料连续并可比。第一节第一节 样本轮换样本轮换 xxx (三)保证必选样本点。所谓必选样本点,就是指进行(三)保证必选样

15、本点。所谓必选样本点,就是指进行抽样调查时必须作为样本点的总体单元。保证必选样本点抽样调查时必须作为样本点的总体单元。保证必选样本点,就是指必选样本点不参加轮换,仅对非必选样本点进行,就是指必选样本点不参加轮换,仅对非必选样本点进行轮换。轮换。 (四)遵循抽样原理。指进行样本轮换时,要按照抽样(四)遵循抽样原理。指进行样本轮换时,要按照抽样调查的原理来选取被轮换掉的样本点和补入的新样本点。调查的原理来选取被轮换掉的样本点和补入的新样本点。第一节第一节 样本轮换样本轮换 xxx五、案例介绍五、案例介绍 美国人口现状调查(美国人口现状调查(current population surveycurr

16、ent population survey,CPSCPS)是国际上最著名的抽样调查项目之一,已经成为美国以及许多是国际上最著名的抽样调查项目之一,已经成为美国以及许多国家进行居民调查的参考模型,其实施是在每个月包含国家进行居民调查的参考模型,其实施是在每个月包含1919号的号的那一周进行,调查的问题涉及受访者此前一周内的活动。调查那一周进行,调查的问题涉及受访者此前一周内的活动。调查氛围覆盖全美氛围覆盖全美5050个州和哥伦比亚地区。个州和哥伦比亚地区。CPSCPS采用的就是样本轮换采用的就是样本轮换的方法,即每位受访者连续的方法,即每位受访者连续4 4个月接受访问,然后退出样本,个月接受访问

17、,然后退出样本,8 8个月后再进入样本,连续个月后再进入样本,连续4 4个月接受访问,最后永久地退出样本个月接受访问,最后永久地退出样本。第一节第一节 样本轮换样本轮换 xxxCPS 在在1995年年7月的抽样设计方案中样本轮换的特征:月的抽样设计方案中样本轮换的特征: 1 在任意一个月内,都有在任意一个月内,都有1/8 的住户单元第一次接受调查,的住户单元第一次接受调查,1/8的住户单元第二次接受调查,依次类推。的住户单元第二次接受调查,依次类推。 2每个月都由新的样本组代替从样本中永久退出的老样本每个月都由新的样本组代替从样本中永久退出的老样本组。组。 3 每个月都有一个样本组在闲置每个月

18、都有一个样本组在闲置8个月后重新接受调查,以个月后重新接受调查,以此代替刚刚进入闲置期的样本组。此代替刚刚进入闲置期的样本组。 4通过轮换设计,保证每个样本单元在通过轮换设计,保证每个样本单元在2个年份的个年份的4个相同个相同 月份里接受调查。月份里接受调查。 5. 5. 在连续的在连续的2个月内,有个月内,有3/4/的样本点是相同的;在连续的的样本点是相同的;在连续的2年内,有年内,有1/2的样本点是相同的。的样本点是相同的。 第二节第二节 双重抽样双重抽样 xxx 我们可以先从总体中抽取一个大的初始样本,从我们可以先从总体中抽取一个大的初始样本,从而获得总体的辅助信息,然后再从初始样本或从

19、总体而获得总体的辅助信息,然后再从初始样本或从总体中再抽一个子样本,这种方法就是中再抽一个子样本,这种方法就是双重抽样双重抽样。 第二节第二节 双重抽样双重抽样 xxx一、定义一、定义 双重抽样,也称二相抽样或二重抽样双重抽样,也称二相抽样或二重抽样(two-phase (two-phase sampling)sampling),是指在抽样时分两步抽取样本。一般情况下,先从,是指在抽样时分两步抽取样本。一般情况下,先从总体总体N N中抽取一个较大的样本,称为第一重中抽取一个较大的样本,称为第一重( (相相) )样本样本(the first (the first phase sample)pha

20、se sample),对之进行调查以获取总体的某些辅助信息,为,对之进行调查以获取总体的某些辅助信息,为下一步的抽样估计提供条件;然后进行第二重抽样下一步的抽样估计提供条件;然后进行第二重抽样(the second (the second phase sampling)phase sampling)。第二重抽样所抽的样本。第二重抽样所抽的样本n n相对较小,但是第相对较小,但是第二重抽样调查才是主调查。二重抽样调查才是主调查。 第二节第二节 双重抽样双重抽样 xxx 二、双重抽样与两阶段抽样的区别二、双重抽样与两阶段抽样的区别(一)两阶段抽样(一)两阶段抽样(two-stage samplin

21、gtwo-stage sampling)是先从总体)是先从总体N N个单个单元元( (初级单元初级单元) )中抽出中抽出n n个样本单元,却并不对这个样本单元,却并不对这n n个样本单元中个样本单元中的所有小单元的所有小单元( (二级单元二级单元) )都进行调查,而是在其中再抽出若干都进行调查,而是在其中再抽出若干个二级单元进行调查;双重抽样则不同,要对第一重个二级单元进行调查;双重抽样则不同,要对第一重( (相相) )样本样本进行调查以获取总体的某些辅助信息,并且要利用这些辅助信进行调查以获取总体的某些辅助信息,并且要利用这些辅助信息进行排序、分层、抽样或估计等。息进行排序、分层、抽样或估计

22、等。 第二节第二节 双重抽样双重抽样 xxx (二)两阶段抽样的第二阶段抽样单元和第一阶段抽(二)两阶段抽样的第二阶段抽样单元和第一阶段抽样单元往往是不同的;双重抽样要有一份最终单元的样单元往往是不同的;双重抽样要有一份最终单元的完整名册完整名册( (总体所有单元的抽样框总体所有单元的抽样框) ),而两阶段抽样只,而两阶段抽样只是需要第一阶段单元是需要第一阶段单元( (初级单元初级单元) )名册,然后在中选的名册,然后在中选的初级单元中构造第二阶段抽样的抽样框初级单元中构造第二阶段抽样的抽样框。 第二节第二节 双重抽样双重抽样 xxx三、双重抽样的作用三、双重抽样的作用(一)有助于筛选主调查对

23、象(一)有助于筛选主调查对象 (二)节约调查费用二)节约调查费用(三)提高抽样效率(三)提高抽样效率 (四)可用于研究样本轮换中的某些问题(四)可用于研究样本轮换中的某些问题 (五)降低无回答偏倚(五)降低无回答偏倚 第二节第二节 双重抽样双重抽样 xxx四、双重抽样的应用四、双重抽样的应用 (一)为分层的双重抽样(一)为分层的双重抽样 分层抽样如果事先无法知道总体的层权,可以采用双重抽分层抽样如果事先无法知道总体的层权,可以采用双重抽样。具体实施过程如下:样。具体实施过程如下:第一步:利用简单随机抽样,从总体的第一步:利用简单随机抽样,从总体的N N个单元中随机抽取第一个单元中随机抽取第一重

24、样本,样本单元数为重样本,样本单元数为 ;根据已知的分层标志将第一重样本;根据已知的分层标志将第一重样本分层,令分层,令 ,则,则 是总体层权是总体层权 的无偏估的无偏估计。计。 n(1,2, )hhnwhLnhwhW第二节第二节 双重抽样双重抽样 xxx 第二步:利用分层随机抽样,从第一重样本中抽取出第二重样第二步:利用分层随机抽样,从第一重样本中抽取出第二重样本,样本单元数为本,样本单元数为n n,第,第h h层样本单元数为层样本单元数为 , 。 hn1lhhnn采用双重分层抽样,对总体均值采用双重分层抽样,对总体均值 的估计量为:的估计量为: Y1LstDhhhyw y 的方差为:的方差

25、为: stDy21)111()()(1)LhhstDhhDW SV ySnNnf第二节第二节 双重抽样双重抽样 xxx上式可简化为上式可简化为 : 的样本估计量为:的样本估计量为: ()stDV y222111111()()()()LLstDhhhhstDhhhhv yw swyynnnN222111()()LLhhstDhhstDhhhw sv yw yynn第二节第二节 双重抽样双重抽样 xxx 第一步:从总体的第一步:从总体的N N个单元中随机抽取第一重样本,样本单个单元中随机抽取第一重样本,样本单元数为元数为 ;对于第一重样本,仅观测辅助变量信息,用辅助;对于第一重样本,仅观测辅助变量

26、信息,用辅助变量的样本均值变量的样本均值 估计总体均值估计总体均值 。 (二)为比率估计的双重抽样(二)为比率估计的双重抽样 在实际工作中,如果辅助变量的信息未知,可以利用双重抽在实际工作中,如果辅助变量的信息未知,可以利用双重抽样进行比例估计。具体实施过程如下:样进行比例估计。具体实施过程如下: n11niixxn X第二节第二节 双重抽样双重抽样 xxx双重抽样对总体均值双重抽样对总体均值 的比率估计:的比率估计: 第二步:从第一重样本中随机抽取出第二重样本,样本单元第二步:从第一重样本中随机抽取出第二重样本,样本单元数为数为n n;对于第二重样本,观测目标变量与辅助变量,并用获;对于第二

27、重样本,观测目标变量与辅助变量,并用获得的得的 和和 ,计算,计算 ,构造比率估计。,构造比率估计。XYyRxYRDyyxx双重抽样比率估计的方差为:双重抽样比率估计的方差为: 222111()(2)RDyxyxV ySR SRSnnn)第二节第二节 双重抽样双重抽样 xxx双重抽样比率估计方差的样本估计:双重抽样比率估计方差的样本估计: 22 2111()()(2)RDyxyxv ysR sRsnnn第二节第二节 双重抽样双重抽样 xxx(三)为回归估计的二重抽样(三)为回归估计的二重抽样 与比率估计相似,在辅助信息未知时可以采用二重抽样进与比率估计相似,在辅助信息未知时可以采用二重抽样进行

28、回归估计。具体实施过程如下:行回归估计。具体实施过程如下: 第一步:从总体的第一步:从总体的N N个单元中随机抽取第一重样本,样本单元个单元中随机抽取第一重样本,样本单元数为数为 ;对于第一重样本,仅观测辅助变量信息;对于第一重样本,仅观测辅助变量信息 ,用辅助,用辅助变量的样本均值变量的样本均值 估计其总体均值估计其总体均值 。 nix11niixxnX第二节第二节 双重抽样双重抽样 xxx 第二步:从第一重样本中随机抽取出第二重样本,样本单元第二步:从第一重样本中随机抽取出第二重样本,样本单元数为数为n n;对于第二重样本,观测目标变量;对于第二重样本,观测目标变量 与辅助变量与辅助变量

29、,并,并计算计算 、 和回归系数和回归系数b b,构造回归估计。,构造回归估计。 iyixXY双重抽样对总体均值的回归估计:双重抽样对总体均值的回归估计: ()lrDyyb xx双重抽样回归估计的方差为:双重抽样回归估计的方差为: 1212()()lrDlrDlrDV yV EyE Vy)第二节第二节 双重抽样双重抽样 xxx式中式中 :为第一重样本残差方差,其均值近似等于总体残差方差为第一重样本残差方差,其均值近似等于总体残差方差 :因此双重抽样回归估计因此双重抽样回归估计方差的样本估计:方差的样本估计:22222221111()()(1),(1)lrDeyeyV yssssnnnn)222

30、(1)eySS22211()ylrDySv yr snnn)=第三节第三节 随机化装随机化装置置 xxx一、敏感性问题调查一、敏感性问题调查 所谓敏感性问题所谓敏感性问题(sensitive question)(sensitive question)是指所调查的内容是指所调查的内容涉及私人机密,受访者不愿或不便于向外界透露的问题。涉及私人机密,受访者不愿或不便于向外界透露的问题。 对于这类敏感性问题,必须采取经过特别设计的装置与方对于这类敏感性问题,必须采取经过特别设计的装置与方法,以消除受访者的顾虑,能够如实回答问题,避免调查出现法,以消除受访者的顾虑,能够如实回答问题,避免调查出现严重偏误

31、。这种为敏感性问题调查特别设计的技术,称随机化严重偏误。这种为敏感性问题调查特别设计的技术,称随机化回答技术回答技术(Randomized Response Technique)(Randomized Response Technique)。 第三节第三节 随机化装随机化装置置 xxx 敏感性问题按总体的特征可分为属性特征和数量敏感性问题按总体的特征可分为属性特征和数量特征问题两类。属性特征的敏感性问题是指受访者是特征问题两类。属性特征的敏感性问题是指受访者是否具有敏感性问题的特征,一般是估计具有敏感性特否具有敏感性问题的特征,一般是估计具有敏感性特征的单位在总体中所占的比例,因此又可称作敏感

32、性征的单位在总体中所占的比例,因此又可称作敏感性比例问题。数量特征的敏感性问题是指受访者具有敏比例问题。数量特征的敏感性问题是指受访者具有敏感性问题数额的多少的特征,一般是估计敏感性数额感性问题数额的多少的特征,一般是估计敏感性数额的均值或总和,也可称作敏感性均值问题。的均值或总和,也可称作敏感性均值问题。二、沃纳随机化回答模型二、沃纳随机化回答模型 使用随机化回答技术的第一个模型是由沃纳使用随机化回答技术的第一个模型是由沃纳(S.L. Warner)(S.L. Warner)首先提出的首先提出的 。 例如,某大学欲调查学生考试的作弊问题,随机抽取例如,某大学欲调查学生考试的作弊问题,随机抽取

33、n n个个学生进行调查,对每位学生显示两个相反的问题,问题可以写学生进行调查,对每位学生显示两个相反的问题,问题可以写在外形完全相同的在外形完全相同的m m张卡片上,其中张卡片上,其中m m1 1个卡片写上个卡片写上“我曾在考我曾在考试中作过弊试中作过弊”,另外,另外m-mm-m1 1个卡片写上个卡片写上“我不曾在考试中作过我不曾在考试中作过弊弊”。然后把这。然后把这m m个卡片折叠好,放在一个盒子里。其中:个卡片折叠好,放在一个盒子里。其中: A问题:我曾在考试中作过弊。问题:我曾在考试中作过弊。 B B问题:我不曾在考试中作过弊。问题:我不曾在考试中作过弊。 第三节第三节 随机化装随机化装

34、置置wywyx xy y 调查时将调查时将m m种外形完全一致的卡片像洗牌一样充分混合后,种外形完全一致的卡片像洗牌一样充分混合后,由受访者依简单随机抽样中的抽签方式随机抽取一张卡片,对由受访者依简单随机抽样中的抽签方式随机抽取一张卡片,对照自己的情况回答照自己的情况回答“是是”或或“否否”,然后放回盒子中。,然后放回盒子中。 设卡片设卡片A A的比例是的比例是P P,则卡片,则卡片B B的比例就是的比例就是1-P1-P。由古典概率。由古典概率可知,在大规模的调查中,抽中卡片的概率为可知,在大规模的调查中,抽中卡片的概率为P P(A A)=P=P,抽中,抽中卡片的概率为卡片的概率为P P(B

35、B)=1-P=1-P 。若样本量为。若样本量为n n,回答,回答“是是”的人数的人数为为m m,则,则( (是是) )的估计值为的估计值为m/nm/n。我们知道,回答。我们知道,回答“是是”的人有两的人有两种情况:一种是抽中了卡片种情况:一种是抽中了卡片A,A,而这些人作过弊;另一种是抽中而这些人作过弊;另一种是抽中了卡片了卡片B B,而这些人没有作过弊。利用全概公式,得:,而这些人没有作过弊。利用全概公式,得: ( (是是)=P(A)=P(A) ( (是是|A)+P(B)|A)+P(B) ( (是是|B) |B) 第三节第三节 随机化装随机化装置置wywyx xy yrPrPrP 不管是抽到

36、卡片不管是抽到卡片A A还是抽到卡片还是抽到卡片B B,作过弊的概率是相等的,作过弊的概率是相等的,假设这一比例为假设这一比例为 ,即,即 ( (是是|A)= ,|A)= ,则抽到卡片则抽到卡片B B,回答,回答“是是”的概率为的概率为1- 1- ,即,即P(P(是是|B)=1- |B)=1- 。代入上述公式,得代入上述公式,得 的一个估计的一个估计 满足满足 :第三节第三节 随机化装随机化装置置wywyx xy yrP(1)(1)mPPn因此当因此当 时,有时,有 :12P 1(1)21mPPn其方差为:其方差为: 2(1)(1)( )(21)PPVnnP 的一个无偏估计为:的一个无偏估计为

37、: 第三节第三节 随机化装随机化装置置wywyx xy y当当n n很大时,很大时, ( )V2(1)(1)(1)( )11(1)(21)mmPPnnvnnnP32(1)(1)(1)( )(21)mmPPvnnnP三、西蒙斯三、西蒙斯(Simmons)(Simmons)随机化回答模型随机化回答模型 西蒙斯在沃纳模型基础上作了改进,他将其中一张卡片上西蒙斯在沃纳模型基础上作了改进,他将其中一张卡片上的问题改为与所调查的敏感性问题完全无关的另一个非敏感性的问题改为与所调查的敏感性问题完全无关的另一个非敏感性问题。因此西蒙斯模型也称为无关问题的随机化回答模型。问题。因此西蒙斯模型也称为无关问题的随机

38、化回答模型。 仍假设敏感性问题的卡片比例为仍假设敏感性问题的卡片比例为P P,无关问题的卡片比例为,无关问题的卡片比例为1-P1-P。对于敏感性问题回答。对于敏感性问题回答“是是”的比例为的比例为 ,是我们所要调,是我们所要调查的比例,对无关问题回答查的比例,对无关问题回答“是是”的比例的比例 要求是已知的,要求是已知的,则根据全概率公式,得则根据全概率公式,得 : ( (是是)=P +(1)=P +(1-P-P) ) 第三节第三节 随机化装随机化装置置wywyx xy yABrPAB 当样本量为当样本量为n n,回答,回答“是是”的人数为的人数为m m,则,则 ( (是是) )的估计值为的估

39、计值为m/nm/n,因此,因此 的估计值的估计值 满足:满足:第三节第三节 随机化装随机化装置置wywyx xy y解此方程得解此方程得 :它的方差为(若忽略它的方差为(若忽略fpcfpc):): rPAA(1)ABmPPn1(1)ABmPPn222(1)(1)(1)(1)(2)()(10.27)AABBABABAPPPVnnPnP V V( )的一个无偏估计为:的一个无偏估计为: A21()()(1)(1)Ammvnpnn 【例例10.110.1】 某大学对本校大学生考风情况进行调查。利用某大学对本校大学生考风情况进行调查。利用西蒙斯模型,对每个受访者准备了一套同样的西蒙斯模型,对每个受访者

40、准备了一套同样的(40(40张张) )卡片,卡卡片,卡片片A A和卡片和卡片B B各各2020张,比例各占张,比例各占1/21/2。卡片上卡片上A A的问题是:最近学期期末考试你有过作弊行为吗?的问题是:最近学期期末考试你有过作弊行为吗?卡片上卡片上B B的问题是:你的阳历生日日期为奇数吗的问题是:你的阳历生日日期为奇数吗? ?第三节第三节 随机化装随机化装置置wywyx xy y 【例例10.110.1】 某大学对本校大学生考风情况进行调查。利用某大学对本校大学生考风情况进行调查。利用西蒙斯模型,对每个受访者准备了一套同样的西蒙斯模型,对每个受访者准备了一套同样的(40(40张张) )卡片,

41、卡卡片,卡片片A A和卡片和卡片B B各各2020张,比例各占张,比例各占1/21/2。卡片上卡片上A A的问题是:最近学期期末考试你有过作弊行为吗?的问题是:最近学期期末考试你有过作弊行为吗?卡片上卡片上B B的问题是:你的阳历生日日期为奇数吗的问题是:你的阳历生日日期为奇数吗? ? 假如对依简单随机抽样方式抽出的假如对依简单随机抽样方式抽出的400400个人进行调查,在个人进行调查,在n=400n=400人中总共有人中总共有m=115m=115人的答案为人的答案为“是是”,试估计该校大学生,试估计该校大学生考试作弊的比例考试作弊的比例 并给出并给出90%90%的置信区间。的置信区间。 第三

42、节第三节 随机化装随机化装置置wywyx xy yA 解:解:n=800n=800,m=135m=135,P=0.5P=0.5, 为生日日期为奇数的人数比为生日日期为奇数的人数比例。在大规模调查的情况下,可以看作生日为奇数和偶数的各例。在大规模调查的情况下,可以看作生日为奇数和偶数的各占一半,因此占一半,因此 =0.5=0.5。根据公式得:。根据公式得: 第三节第三节 随机化装随机化装置置wywyx xy y = = BB1(1)ABmPPn11520.5 0.50.07540021()()(1)(1)Ammvnpnn()0.0453Av故故 的的90%90%置信区间约为:(置信区间约为:(0

43、.0751.640.0751.640.04530.0453),即),即 : A0.07%,14.93%= =0.0020540.002054 四、随机截尾模型四、随机截尾模型 现实中我们也经常需要调查定量的敏感性问题,例如调查现实中我们也经常需要调查定量的敏感性问题,例如调查银行存款数额,学生考试作弊的平均次数,在职人员的工资外银行存款数额,学生考试作弊的平均次数,在职人员的工资外收入等。收入等。GreenbergGreenberg等人针对这类问题提出了几种随机化调查等人针对这类问题提出了几种随机化调查方法,但是,这些方法都要求受访者根据自己的实际情况回答方法,但是,这些方法都要求受访者根据自

44、己的实际情况回答敏感性问题或非敏感性问题的具体数值,给受访者敏感性问题或非敏感性问题的具体数值,给受访者/ /受查者造受查者造成了一定的困扰。成了一定的困扰。 近年来提出了所谓随机截尾模型,把对于具体数值的调查近年来提出了所谓随机截尾模型,把对于具体数值的调查转化为对于属性的调查,避免了直接回答,使得受访者心理上转化为对于属性的调查,避免了直接回答,使得受访者心理上比较容易接受。比较容易接受。 第三节第三节 随机化装随机化装置置wywyx xy y 设反映敏感性问题的特征量为设反映敏感性问题的特征量为X X,取值范围是,取值范围是 ,密度,密度函数为函数为 ,X X的数学期望为的数学期望为 ,

45、即我们所要估计的值。又设,即我们所要估计的值。又设Y Y是一个服从是一个服从 上的均匀分布的随机变量。上的均匀分布的随机变量。 第三节第三节 随机化装随机化装置置wywyx xy y 设样本容量为设样本容量为n n,得到的调查数据是,得到的调查数据是 ,I=1I=1,2 2, n n,即:,即: = = , a at( )f xx, a ati1,0,iiiiXYXYi,因此,因此( )()(1)()a t a txiiiiayaf xEPP XYdxdytt 以样本均值以样本均值 = = 代替代替 ,得到,得到 的一个无偏估计的一个无偏估计为:为: 第三节第三节 随机化装随机化装置置wywy

46、x xy y估计量的方差为:估计量的方差为: 的一个估计为:的一个估计为: 11niin()iExXta2()()()( )xxxa taVt Vn()xV2()()(1)()11xxxa tatvnn五、采用随机化回答技术应注意的问题五、采用随机化回答技术应注意的问题第三节第三节 随机化装随机化装置置wywyx xy y( (一一) ) 注意在受访者正式抽取并回答问题前,清楚介绍这种做法注意在受访者正式抽取并回答问题前,清楚介绍这种做法的原理,让受访者充分理解这种方法的特点,以彻底消除受访的原理,让受访者充分理解这种方法的特点,以彻底消除受访者的顾虑,明白自己究竟回答哪个问题别人是不知道的,

47、使其者的顾虑,明白自己究竟回答哪个问题别人是不知道的,使其相信这种设计是建立在科学的基础上,不是哄骗人的。相信这种设计是建立在科学的基础上,不是哄骗人的。( (二二) ) 所提问题必须简单明了,防止因有歧义而出现理解不同。所提问题必须简单明了,防止因有歧义而出现理解不同。对涉及问题的解释必须在抽卡片以前进行,否则就暴露了抽到对涉及问题的解释必须在抽卡片以前进行,否则就暴露了抽到的是哪类卡片,也就失去了随机化回答的意义。的是哪类卡片,也就失去了随机化回答的意义。第三节第三节 随机化装随机化装置置wywyx xy y ( (三三) ) 在应用西蒙斯模型时,无关问题的选择特别重要,一定在应用西蒙斯模

48、型时,无关问题的选择特别重要,一定要隐蔽性强的,使受访者在回答无关问题时不会暴露正在回答要隐蔽性强的,使受访者在回答无关问题时不会暴露正在回答哪个问题。例如哪个问题。例如“你是男生吗你是男生吗? ?”这类问题就很不妥,因为采用这类问题就很不妥,因为采用随机化回答技术需要当面解释,受访者的性别不可能保密,这随机化回答技术需要当面解释,受访者的性别不可能保密,这样也就失去了无关问题本来应具有的保护作用。样也就失去了无关问题本来应具有的保护作用。 ( (四四) ) 做好调查者的培训工作,使他们能够正确理解随机化回做好调查者的培训工作,使他们能够正确理解随机化回答技术的实质并加以运用,这样才能更好地向

49、受访者解释清楚答技术的实质并加以运用,这样才能更好地向受访者解释清楚,消除受访者的顾虑,以对调查的问题给予正确回答。,消除受访者的顾虑,以对调查的问题给予正确回答。 第四节第四节 交叉子样交叉子样本本 wywyx xy y 交叉子样本(交叉子样本(Interpenetrating sub-samplesInterpenetrating sub-samples)方法最初)方法最初是由印度著名统计学家马哈拉诺比斯于是由印度著名统计学家马哈拉诺比斯于3030年代提出来的用于大年代提出来的用于大规模的抽样调查,后来由美国统计学家戴明推广和发展,他称规模的抽样调查,后来由美国统计学家戴明推广和发展,他称

50、之谓重复抽样。它的主要优点是便于计算抽样标准误差,即使之谓重复抽样。它的主要优点是便于计算抽样标准误差,即使是复杂的抽样设计和复杂的估计量,也可以很快得到方差的估是复杂的抽样设计和复杂的估计量,也可以很快得到方差的估计量。它还可以用于发现偏差,核对调查员的调查质量等。计量。它还可以用于发现偏差,核对调查员的调查质量等。 第四节第四节 交叉子样交叉子样本本 wy一、独立的交叉子样本一、独立的交叉子样本 设总体为设总体为N N,现欲抽取样本容量为,现欲抽取样本容量为n n的样本。那么可以利用的样本。那么可以利用交叉子样本的方法,交叉子样本的方法, 假设抽取假设抽取K K个子样本,使每个样本的容量个

51、子样本,使每个样本的容量为为m(n=Km)m(n=Km),每个交叉子样本可以得到总体参数,每个交叉子样本可以得到总体参数的一个无偏估的一个无偏估计量计量 那么交叉子样本的估计量及其方差为:那么交叉子样本的估计量及其方差为:12,ky yy11kiiyyk2211( )()(1)kiiSyyyk k2211( )()(1)kiifSyyyk k(不重复抽样(不重复抽样 ) 【例例10.210.2】假设有一小城镇,现欲估计这一城镇的房屋数。假设有一小城镇,现欲估计这一城镇的房屋数。该城镇共有该城镇共有5050个居委会,由于居委会作为抽样单位太大,将每个居委会,由于居委会作为抽样单位太大,将每个居委

52、会划分为个居委会划分为8 8个地段,这样共有个地段,这样共有400400个地段,拟抽取个地段,拟抽取20%20%的的地段做样本,所以地段做样本,所以n=80n=80,现采用,现采用K=5K=5独立交叉子样本,每个交独立交叉子样本,每个交叉子样本的容量为叉子样本的容量为1616。抽样的方法可用系统抽样的方法,将总。抽样的方法可用系统抽样的方法,将总体分成体分成1616段(层),每段有段(层),每段有2525个地段。抽选时先在个地段。抽选时先在1 12525之间之间用不重复抽样方法抽取用不重复抽样方法抽取5 5个随机数作为随机起点。如表(个随机数作为随机起点。如表(10. 210. 2)中的第一行,它们分别是:中的第一行,它们分别是:1818,1 1,8 8,2323,1111。 第四节第四节 交叉子样交叉子样本本wywyx xy y第四节第四节 交叉子样交叉子样本本wywyx xy y第四节第四节 交叉子样交叉子样本本wywyx xy ykiiykY11875.11)1619216188161851619516190(514750875.11400YNY22222211(1)(1)( )()()(1)(1)kkiiiiNfNfSYyYyKYK KK K方差的估计量为:方差的估计量为: 220.8400705.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论