抽样调查中的无应答替换与应答率_第1页
抽样调查中的无应答替换与应答率_第2页
抽样调查中的无应答替换与应答率_第3页
抽样调查中的无应答替换与应答率_第4页
抽样调查中的无应答替换与应答率_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样调查中的无应答替换与应答率郝大海2012-8-28 15:24:17来源:统计与决策(武汉)2008年11期第710页【作者简介】郝大海,中国人民大学 社会与人口学院。(北京 100872)【内容提要】 文章旨在澄清抽样调查中无应答替换对应答率计算的影响。首先在调查中若对无应答单位进行“替换”处理,应对替换前后的样本单位做出区分,计算相应的“初始应答率”,并在应答率不变的假设下,用初始应答率来代替调查应答率。如果在调查执行中,未能全面保留相关执行资料,可以利用实际接触的住户数和访谈成功数,对应答率进行事后估算。可以证明如果样本替换中应答率保持不变,则按事后估算公式计算出的应答率估算值,在数

2、值上与初始应答率是相等的。无应答替换方法包括明显替换、补充抽样和二重抽样等,其中前两种方法由于是独立抽样,存在着用应答单位替换无应答单位的困境。 【关 键 词】无应答替换/初始应答率/应答率不变假设中图分类号:O212文献标识码:A文章编号:10026487(2008)11000703在抽样调查中,“应答率是评估收集的资料有效性的基本参数,即接受访谈(或应答单位)的人数除以样本的人数(或单元数)。分母包括了从总体中抽取的所有人,即包括那些虽被抽中但因拒绝、语言问题、疾病或者缺乏易得性而没有应答的人”(福勒,20042003,第41页)。在调查执行中,对于无应答现象 通常有两种处理方法, 一种是

3、对无应答单位不做替换,另一种则是用替换样本进行无应答替换。一定程度上,无应答替换增加了应答率计算的难度。本文将具体分析无应答替换对应答率计算的影响,然后在此基础上给出应答率的事后估算方法和无应答替换方法,最后讨论无应答替换的意义。1无应答替换的影响在调查执行中,如果对无应答单位不做替换,则应答率的计算相对简单,即用接受访谈的人数(或应答单位数)除以总样本人数(或样本规模)。设样本规模为n,应答单位数为,无应答单位数为,则调查应答率为:kn。但是,在调查执行中,如果用替换样本进行无应答替换,就会使应答率的计算相对复杂,因为这时需要将应答单位和无应答单位区分为初始和替换两种类型。设样本规模为n,初

4、始应答单位数为a,初始无应答单位数为b,则初始调查应答率为:kan。不难看出,在用替换样本进行无应答替换的调查中,如果调查执行者保留了对初始应答单位的记录,则初始应答率的计算与对无应答单位不替换时的应答率计算并无差异。不过,与对无应答单位不做替换相比,在无应答替换的情况下,由于调查执行者在完成了初始调查后,要用替换样本进行无应答替换,将会出现一些不替换无应答单位时所没有的问题。第一,无应答替换的替换率问题。在进行无应答替换时,既可以替换一部分无应答单位,也可以替换所有无应答单位。从目前国内调查实践看,经常是100全部替换,也就是说,如果初始应答单位数为a,初始无应答单位数是b,最终完成的总应答

5、单位数应该是ab;第二,无应答反复出现及多轮替换问题。既然在初始样本中有无应答发生,那么在用替换样本进行无应答替换时,也有可能产生新的无应答,于是就会出现多轮替换,最终使无应答单位数大于b。设用替换样本进行无应答替换时新的无应答单位数为d,则最终总的无应答单位数应为bd。第三,初始样本与替换样本应答率的一致性问题。除非替换样本特征与初始样本特征基本保持一致,否则两者的应答率可能在数值上存在差异。因此,只有假设用替换样本进行无应答替换时应答率保持不变,才可以用初始应答率来代表调查应答率。从目前国内调查实践看,相当多的调查对无应答单位采用了替换处理,但是,在这些对无应答单位进行替换处理的调查中,有

6、一些并未全面保留有关初始应答单位的替换记录。许多调查在公布执行参数时,只是给出了样本规模和回收的有效个案(问卷)数。一般说来,所谓回收的有效个案(问卷)数是指剔除了那些填答不全或明显乱填的废卷后所剩下的个案(问卷)数,通常是在实地抽样及访谈结束后的数据清理阶段,通过清理和分析问卷得出的;因为,如果在调查执行中,发现有不合格的问卷,会及时纠正或进行替换补充,不会影响样本替换。因此,在100无应答替换的前提下,仅从数值上看,最终应答单位数通常等于样本规模;而且,如果调查执行过程中比较严格地执行了问卷审查程序,有效个案(问卷)数也会很接近样本规模。另外,如果缺少全面的替换记录,也可能无法确定废卷究竟

7、属于初始样本还是替换样本。也就是说,样本规模、最终应答单位数和有效个案(问卷)数三者虽然数值比较接近,但概念上是不同的,是不能相互混淆的。2应答率的事后估算方法如上所述,在没有保留全部替换资料的情况下,无法获得相应的初始应答单位数a(或初始无应答单位数b),这时仅凭样本规模、最终应答单位数和有效个案(问卷)数是无法计算初始应答率的。但是,从当前调查实践看,如果保留了实际接触的住户数和访谈成功数,可以尝试采用事后估算方法来计算应答率。 下面通过一个调查执行的实际例子来说明如何事后估算应答率。表1是一项当面访谈调查执行过程中,要求调查员现场填写的访谈不成功情况记录表。通过分析访谈不成功情况记录表的

8、内容,发现根据抽样地址是否是居民住户,以及抽样地址状态是否明确,可以将9种访谈不成功类型进一步归并为3种类型:(1)抽样地址为“非住户”(1号);(2)抽样地址为“住户状况未知”(2、3、4号);(3)抽样地址为“住户”(5、6、7、8号)。其中“住户”不成功情况,又可进一步分为拒访、无法联系和问题户(语言、听力、疾病等问题)等三种情况。从调查执行的过程看,所谓“非住户”是指抽样中抽到的是非居民户、空户,即此时不存在“应答”之人。由于“应答”关注的是调查员与被调查者的应答过程,是以确有被调查者存在为前提的,所以“非住户”自然也就不应再记入应答率的计算之中,而是应将其记入抽样误差的计算之中。相反

9、,“住户状况未知”、“拒访”、“无法联系”和“问题户”则是被调查者存在或可能存在的情况,因此在计算应答率时是需要考虑的。如果将应答率界定为已经完成的合格调查样本单位数(简记为“访谈数”)除以住户数,那么由于调查执行中存在着“住户状况未知”的情况,因此,应答率实际上存在着一个值域区间(扎如,布莱尔,20072005,第216页)。应答率值域区间的上、下限计算公式分别为:应答率区间上限访谈数住户数下限访谈数(访谈数拒访数无联系数问题户数)(1)应答率区间下限访谈数住户数上限访谈数(住户数下限住户状况未知中的住户数)访谈数(住户数下限住户状况未知数住户比例)访谈数住户数下限住户状况未知数住户数下限(

10、住户数下限非住户)(2)基于同样的考虑,如果将公式(1)、(2)中的访谈数换成拒访数、无联系数或问题户数,就可以相应地获得拒访率、无联系率、问题户率值域区间的上、下限。除了应答率,在调查执行中,合作率也是需要报告的质量评估指标,它是接受调查的样本单位数与接受调查样本单位数和拒绝调查的样本单位数之和的百分比,表示调查在那些实际已经联系上了,且户内有合格的被调查人的户中完成的好坏(扎如,布莱尔,20072005,第166,216页)。在操作层次上,它与应答率区间上限值的区别在于分母不包括问题户。合作率的计算公式为:合作率访谈数符合调查要求的住户数访谈数(访谈拒访无联系)(3)可以证明在无应答替换中

11、,如果应答率保持不变的假设条件成立,那么按事后估算公式计算出的应答率估算值,在数值上与初始应答率是相等的。下面具体给出证明过程:设样本规模为n,初始应答单位数为a,初始无应答单位数为b。假设无应答单位全都被替换,即100替换,则最终应答单位数为ab;进一步假设无应答单位由多轮替换完成,最终发生的无应答替换单位数为c,则实际发生的访谈数为ac,按事后估算公式,应答率的估算值为。如果假设在无应答替换中,应答率保持不变,即在每轮替换中,应答率都等于初始应答率an,则ac实际上是一个无穷递减等比级数之和,其数值为,代入估算公式后,可得:由此可见,如果假设每一轮替换时的应答率都保持初始应答率不变,按事后

12、估算公式计算出的估算值,在数值上等于初始应答率。综上所述,在进行无应答替换的调查中,原则上应在全面保留替换记录的基础上,计算出初始应答率,并在确保替换样本与初始样本相似,或应答率保持不变的前提下,以初始应答率代表调查应答率。另外,也可以利用实际发生的访谈数量和最终应答单位数计算出的估算值,对替换样本与初始样本间的相似性做出检验;如果估算值与初始应答率相差不大,说明替换样本与初始样本间相差不大,反之亦然。但如果没有全面保留替换记录,则在使用估算值来代表调查应答率时,就需要特别谨慎地进行无应答替换,以确保替换样本与初始样本间的相似性。不难看出,在用替换样本进行无应答替换的调查中,选取适当的样本替换

13、方法也是计算调查应答率需要特别关注的一环。3无应答替换方法在抽样调查中,常用的单位无应答替换方法包括一下几类:明显替换、补充抽样和二重抽样等。首先,“明显替换”是采用总体中的其他单位(元素)来替换样本中的无应答单位,目的是使最终的应答数量不低于样本规模,即抽样设计要求的样本的个数。这种替换方法的一个明显特征就是要求替换样本单位不属于初始抽样单位,故也称之为“冷”替换。替换样本的抽取既可以用随机方法,也可用非随机方法。随机方法就是按概率抽样方法,从初始样本以外的总体的其他单位中随机抽取替换样本。在随机抽取替换样本时,应特别注意分层原则,即尽可能地在那些与无应答单位同属一个层的总体单位中抽取替换样

14、本。这样做的一个重要原因是希望尽可能降低有意识无应答单位数量,进而降低产生估计偏倚的可能性。与随机方法不同,非随机方法是按照一些预先制定的规则,从总体中初始样本以外的其他单位中选取替换样本。在入户调查访问中,无应答住户的替换单位经常被规定为该住户的前(或后)一个住户;而在电话调查中,经常将无应答单位的电话号码尾数加1后作为替换单位的电话号码。与非随机方法相比,随机方法由于能够估计抽样误差,故具有能够对统计值进行统计评价的优点。其次,“补充抽样”是在对应答率进行估计的基础上,采用与抽取初始样本同样的方法独立地抽取数组替换样本,在执行调查过程中,不断地补充加入,直到最终应答单位数量达到样本规模为止

15、。第三,“二重抽样”是指对初始无应答单位再进行一次随机抽样,然后对被抽中的无应答单位的第二重样本再次进行调查,最终利用第一重样本和第二重样本的应答数据来估计总体参数。这种方法与前两种方法不同,它并不对无应答单位进行100的替换,而是进行部分替换。同时用来替换的替换样本也不是出自总体中第一重样本以外的单位,而是对那些初始无应答单位再进行一次随机抽样,获得一个第二重样本。该方法的操作步骤如下:首先,从总体中抽取一个规模较大的第一重样本,采用费用较低的调查方法(通常为邮寄问卷调查)对其进行调查,获得初步数据,这时一般会出现较高的无应答率。接下来,对这些无应答单位再进行一次随机抽样,获得一个规模较小的

16、第二重样本,并采用当面调查的方式,派调查员对这个较小的第二重样本进行细致的调查,力求在较高应答率的情况下获得应答数据。最后将第一重样本的应答数据和第二重样本的应答数据结合起来,对总体参数做出估计。需要说明是“二重抽样”方法产生了一种事后分层效果。通过第一重抽样得到了样本规模为的样本,而通过费用较低的调查方法(如邮寄问卷),则将样本分成“应答”和“无应答”两个层,同时一方面得到了两个层的权重估计值,另一方面也得到了应答层的观测值。接着再通过第二重抽样和当面调查方式,进一步获得了无应答层的观测值。由于进行了分层处理,故能够对总体参数做出比较精确的估计。采用“二重抽样”方法还要考虑二重抽样的最优配置

17、,即在调查经费一定的前提下,合理配置第一重抽样规模和第二重抽样的抽样比,具体计算公式如下:其中,最终要求出的三个量分别是:总的调查经费C;第一重抽样的样本规模n;从无应答单位中进行二重抽样的抽样比f(K1fm称为扩张系数,m为二重抽样的样本规模)。另外,是第一重样本每个单元的调查费用(如邮寄一份问卷的费用),是处理第一重样本每个回答单元的费用(如每份回答问卷的数据处理费用),是无应答单元第二重样本每个单元的调查和数据处理费用(如每份当面访问问卷的调查与数据处理费用),计算时这些费用都是事先给定的。、分别是第一重抽样的应答和无应答单位数量,、分别是应答率和无应答率,计算时(或)是预先给定的。是假

18、设所抽取的第一重样本如果得到全部回答时其均值的方差,为该假设状态下的样本规模,计算时是预先给定的,为总体方差。例如,欲进行一次北京城8区范围的抽样调查,在没有无应答的假设条件下,按研究精度要求需要抽取1000人,为计算方便,这里采用简单随机抽样方法。由于实际调查中存在着大约30的无应答率(),故希望采用“二重抽样”方法来处理无应答样本单位。设邮寄一份问卷的费用为2元(包括邮寄费和问卷印刷费),一份完成的邮寄问卷的数据处理费用为20元;当面访问中完成一份问卷时的调查员劳务和数据处理费用合计为100元。这时假设无应答层方差和总体方差相等,可按上述公式进行如下计算:即需要事先寄出n1328份问卷,预

19、计会有13280.3398名被访者无应答,需要从中抽出190名,派出调查员进行当面访问。邮寄问卷和当面访问总的调查费用为:4结语通过以上分析不难看出,在对无应答单位进行替换的调查中。计算应答率时必须考虑无应答替换的影响,而实现这一点的条件是全面保留无应答替换的相关资料。从目前国内由研究者自行主持的调查实践看,一些调查并未做到全面保留无应答替换的相关资料,以至于无法准确计算出调查应答率。希望此番有关应答率计算的讨论,能使众人对无应答替换现象引起足够的重视,在今后的调查中,制定出保留调查执行资料的程序,严格执行之。其次,有关无应答替换的讨论,还提示我们关注无应答现象产生偏差的可能性。在目前大多数调查中,“明显替换”是经常被采用的替换方法。由于替换无应答单位的替换样本是从总体中独立抽取来的,因此,在每一轮无应答替换中,总是用那些“应答单位”来代替那些“无应答单位”。此时,如果调查中的“应答单位”和“无应答单位”在样本特征上存在着实质性的差异,那我们极有可能漏掉那些特征不同的“无应答单位”的答案,使参数估计出现偏差,特别是当无应答单位比例较高时更是如此。如何走出用“应答单位”替换“无应答单位”的困境,降低偏差出现的可能性,则是“二重抽样”和其他缺失值处理方案的努力方向。最后,任何讨论抽样的文章都应该强调:社会调查应答率是由多种因素决定的,其中有宏观社

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论