抽样调查第章调查中的非抽样误差_第1页
抽样调查第章调查中的非抽样误差_第2页
抽样调查第章调查中的非抽样误差_第3页
抽样调查第章调查中的非抽样误差_第4页
抽样调查第章调查中的非抽样误差_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章调查中的非抽样误差§11.1引言

非抽样误差是指除抽样误差以外的,由于各种原因引起的误差。在概率抽样、非概率抽样、其他全面调查和非全面调查已及普查中,非抽样误差都有可能存在。同抽样误差相比,非抽样误差有如下特点:1、非抽样误差不是由于抽样的随机性带来的,所以在抽样调查中,它不可能随着样本量的增大而减小;2、在抽样调查中,由于非抽样误差的影响,往往造成估计量的有偏;3、有些非抽样误差难以识别和测定。如抽样框是不完善的,而调查设计人员并没有意识到;4、有些非抽样误差成因复杂,对其研究不够,因此,在很多时候非抽样误差比抽样误差造成的影响更严重,对此必须引起高度重视。根据非抽样误差的来源、性质

可分为以下三类:(1)抽样框误差,即由不完善的抽样框引起的误差;(2)无回答误差,即由于种种原因没有从被调查单元获得调查结果,造成调查数据的缺失;(3)计量误差,即所获得的调查数据与其真值之间不一致造成的误差。一、概念抽样调查中的总体有两个:目标总体—调查研究对象的全体。抽样总体—从中抽取样本的总体。(即抽样框)理想抽样框的标志是目标总体和抽样总体完全重合。否则抽样框就是不完善的。§11.2抽样框误差二、抽样框误差的类型及影响(1)抽样框误差的类型●丢失目标总体单元。●包含非目标总体单元。●抽样框中的单元与目标总体单元不一一对应。(存在一对多或多对一的情况)●不正确的辅助信息。(如分层抽样、不等概抽样、比率估计和回归估计等所需的辅助信息)(2)对抽样框误差的基本认识●有些误差来自构成抽样框资料本身,而不是由于抽样设计的问题。●抽样框存在的问题,有些是不容易解决的。因此抽样框的维护、抽样框使用情况的不断总结与研讨,对于经常性的调查项目来说是十分必要的。●抽样框的不完善并不是不能使用。可以进行修补、调整。(3)抽样框误差的影响设目标总体单元:N抽样框中单元:N1抽样框中丢失的单元:N0

N=N1+N0

■总体总量的估计总体总量的真值是:现从抽样框中的N1个单元中采用简单随机抽样抽出容量为n的一个样本,由于n取自于N1对总体总量的估计为:显然此时的估计是有偏的,偏倚为:这表明估计量低估了总体总量,令Y的相对偏倚可以写为由上式可知,总体总和的相对偏倚取决于

和■总体均值的估计在抽样框存在丢失单元情况下,均值估计量为:此时估计量的偏倚为:的相对偏倚可以写为:由上上式式可可以以看看出出,,如如果果丢丢失失单单元元的的均均值值与与抽抽样样单单元元的的均均值值相相同同,,即即,,则则估估计计量量是是目目标标变变量量的的无无偏偏估估计计。。反之之,,如如果果,,偏偏倚倚状状况况则则随随着着的的变变化化而而变变化化。。三、、不不完完善善抽抽样样框框的的使使用用抽样样框框不不完完善善并并不不是是不不能能使使用用,,因因为为构构造造一一个个完完善善的的抽抽样样框框有有时时是是非非常常困困难难的的。。使使用用不不完完善善抽抽样样框框时时若若能能采采用用一一些些补补救救措措施施,,有有助助于于减减小小抽抽样样框框误误差差。。主主要要采采用用以以下下三三项项补补救救措措施施::●利用核查查,掌握握误差情情况,对对不完善善抽样框框进行调整整;●事先制定定一些规规则,对对发现的的抽样框框问题进进行现场处处理;●使用多个个抽样框框进行抽抽样。§11.3无无回回答误误差一、概概念无回答答误差差是指指在调调查中中由于于各种种原因因,调调查人人员没没能够够从入入选样样本的的单元元处获获得所所需要要的信信息,,由于于数据据缺失失造成成估计计量的的偏差差。无回答答误差差是一一种重重要的的非抽抽样误误差,,这种种现象象十分分普遍遍,对对估计计量的的危害害也比比较大大,所所以国国际上上对这这方面面的讨讨论一一直比比较热热烈,,目前前这种种讨论论还在在继续续。从无回答的的内容来看看可分为::单元无回答答(被调查单单元没有参参入或拒绝绝受调查,,他们交的的是一份白白卷)项目无回答答(被调查单单元虽然接接受了调查查,但对其其中的一些些项目没有有回答)从无回答的的性质来看看可分为::有意无回答答(有意无回回答常常与与调查内容容有关,如如对调查内内容反感,,或涉及个个人隐私不不愿意回答答)无意意无无回回答答(无无意意无无回回答答常常常常与与调调查查内内容容无无关关,,之之所所以以无无回回答答是是因因为为被被调调查查者者生生病病或或很很忙忙,,无无法法接接受受调调查查))有意无无回答答对数据据质量量的影影响很很大,,回答答者和和不回回答者者之间间往往往存在在系统统性差差异。。这种种不回回答不不仅减减少了了有效效样本本量,,造成成估计计量方方差增增大,,而且且会带带来估估计偏偏倚。。无意无无回答答可以看看成是是随机机的,,这种种不回回答虽虽然会会造成成估计计量方方差增增大,,但通通常认认为不不会带带来估估计偏偏倚。。二、无无回答答产生生的原原因及及影响响如果把把采集集数据据的过过程划划分为为查找找、接接触和和采访访三个个阶段段,三三个阶阶段都都有可可能出出现无无回答答。1、查找阶阶段调查人人员无无法找找到被被调查查者,,主要原原因有有地址址不详详、被被调查查者搬搬迁、、调查查人员不熟熟悉地地址;;2、接触阶阶段被调查查生病病、对对调查查不感感兴趣趣或别的的原因因拒访访;3、采访阶阶段调查开开始后后被调调查者者对某某些问问题不愿提提供答答案、、调查查员由由于粗粗心遗遗漏某某些项项目等等无回答答的影影响::回答层层(N1)总体((N))无回答答层((N0)则总体体均值值为::回答层层样本本(n1)总体样样本(n))无回答答层样样本(n0)根据回回答层层单元元计算算出的的样本本均值值为用作作为总总体真真值得得估计计量,,其偏偏倚为为:偏倚相对偏偏倚由上式式可以以看出出:无无回答答偏倚倚主要要来自自两个方面面:一一个是是回答答层与与无回回答层层之间间的数数量差异;;一个个是无无回答答率。。三、降降低无无回答答的措措施主要措措施是是预防防,预预防措措施有有:●问卷设设计得得具有有吸引引力;;●注意意适适当当的的长长度度;;●充分分利利用用调调查查组组织织单单位位的的权权威威性性和和影影响响力力;;●注意意调调查查员员的的挑挑选选;;●做好好调调查查员员的的培培训训;;●注意意调调查查过过程程的的监监控控;;●奖励励措措施施;;●再次调查查。四、对存存在无回回答数据据的调整整调查中无回回答的情况况总是难以以避免,由由于无回答答造成数据据不全,如如果不加处处理,就有有可能造成成估计量偏偏倚。下面面介绍几种种数据调整整的方法::1、再抽样样调整在第一次无无回答的单单元中随机机抽取一个个子样本,,通过更细细致、更充充分的工作作,获得该该子样本的的数据,作作为整个无无回答层的的代表值。。2、加权调调整对存在无回回答数据进进行补救的的另一种方方法是采用用加权调整整。加权调调整法是通通过对调查查中所获得得的回答数数据使用加加权因子,,达到对数数据的调整整,减小由由于无回答答造成的估估计偏倚。。3、相关推推估法相关推估法法主要用于于调查中的的项目无回回答,即调调查单元不不是完全拒拒绝调查,,而是拒绝绝其中某些些项目的调调查。这时时可以利用用回答项目目的信息对对无回答数数据进行推推估。4、插补调调整在数据整理理阶段,利利用调查结结果,采用用一定的方方式,为无无回答的缺缺失值确定定一个合理理的估计值值,插补到到原缺失数数据的位置置上。实际使用时时,用得较较多的是均均值插补,,其方法是是:首先根根据辅助信信息将样本本分为若干干组,是组组内各单元元的主要特特征相似。。然后分别别计算各组组目标变量量Y的均值值,将各组组均值作为为组内所有有缺失项的的替补值§11.4计量量误差计量误差是是指由于种种种原因,,调查中所所获得的数数据与真值值不一致。。计量误差差主要成因因来自于以以下几个方方面:●设计误差((设计方面面原因造成成计量误差差)●被调查者误误差(被调调查者提供供的数据失失真)●调查者误差差(现场调调查人员造造成的误差差)●其他误差((由于测量量工具、编编码、录入入)减少计量误误差的措施施减少计量误误差需要对对调查全过过程进行质质量监控::(1)调查设计方面面调查问卷设计计出来后,应应组织有关人人员对问卷进进行讨论。如如果是大型调调查活动,还还要在正式调调查之前进行行预调查,在在实践中对问问卷进行检验验。(2))现场准准备方方面在收集集数据据之前前,需需要做做好准准备工工作::招聘聘调查查员;;培训训访问问员;;编写写调查查手册册。(3))调查结结果审审核方方面审核是是对调调查质质量进进行控控制的的一道道重要要的工工序,,也是是减少少计量量误差差的有有效方方法。。审核核的目目的是是要保保证调调查所所得数数据的的完整整性、、一致致性和和有效效性。。审核核可可以以在在调调查查过过程程中中的的任任何何阶阶段段进进行行::收据据数数据据时时进进行行审审核核(调调查查员员在在调调查查进进行行过过程程中中根根据据常常识识和和经经验验,,可可以以判判断断出出一一些些问问题题的的答答案案是是否否属属于于““可可接接受受””范范围围))数据据收收集集完完毕毕后后的的审审核核(审核核的的重重点点是是数数据据的的一一致致性性审审核核和和离离群群值值的的检检测测)§11.5离离群群值值的的检检测测和和处处理理一、、离离群群值值的的概概念念离群值是是指调查查数据集集中的极极端值,,是指与与其他数数据明显显不一致致的观测测值。离离群值的出现可可能有以以下两个个原因::由于数据据本身具具有的差差异性。。看起来来值得怀怀疑的东东西也许许是真实实的;由于被调调查者回回答数据据有错误误或调查查人员记记录数据据有错误误。二、离群群值的确确认通常离群群值的检检测是通通过测量量它们与与数据中中心的相相对距离离来辨认认的。例如,若若是是要观观测的样样本数据据,m和和s分别别是侧度度数据集集中趋势势和离散散趋势的的指标,,那么,,离离数据中中心的相相对距离离可以定定义为如果越越过过了预先确确定的偏离离值,那么么该观测值值就被认为为是离群的的。另外,离群群值也可以以通过下面面的置信区区间进行确确认:式中和和分分别别为根据预预先确定的的置信度得得到的标准准正态分布布的上限和和下限值。。落在这个个区间之外外的观测值值被认为是是离群值。。三、离群值值的处理如果在调查查进行中发发现离群值值,就要及及时处理,,例如进行行回访核实实,对错误误进行更正正。如果在调查查完毕后的的审核中发发现离群值值,通常对对离群值采采用插补处处理,即将将离群值剔剔除,然后后使用插补补法调整。。如果在审核核时没有进进行处理的的离群值可可以在估计计的时候处处理。估计计时有以下下三种方法法处理离群群值:●改变数值这种方法首首先要将样样本数据按按从大到小小依次排序序,然后再再按下面的的步骤计算算:在简单随机机抽样中,,总体总量量Y的的无偏估估计公式为为:式中,i表表示样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论