




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十一章 调查中的非抽样误差11.1 引言 非抽样误差是指除抽样误差以外的,由于各种原因引起的误差。 在概率抽样、非概率抽样、其他全面调查和非全面调查已及普查中,非抽样误差都有可能存在。同抽样误误差相比比,非抽抽样误差差有如下下特点:1、非抽抽样误差差不是由由于抽样样的随机机性带来来的,所所以在抽抽样调查查中,它它不可能能随着样样本量的的增大而而减小;2、在抽抽样调查查中,由由于非抽抽样误差差的影响响,往往往造成估估计量的的有偏;3、有些些非抽样样误差难难以识别别和测定定。如抽抽样框是是不完善善的,而而调查设设计人员员并没有有意识到到;4、有些些非抽样样误差成成因复杂杂,对其其研究不不够,因因
2、此,在在很多时时候非抽抽样误差差比抽样样误差造造成的影影响更严严重,对对此必须须引起高高度重视视。根据非抽抽样误差差的来源源、性质质可分分为以下下三类:(1)抽样样框误差差,即由由不完善善的抽样样框引起起的误误差;(2)无无回答误误差,即即由于种种种原因因没有从从被调查查单元元获得调调查结果果,造成成调查数数据的缺缺失;(3)计计量误差差,即所所获得的的调查数数据与其其真值之之间不一一致造成成的误差差。一、概念念抽样调查查中的总总体有两两个:目标总体体调查查研究对对象的全全体。抽样总体体从中中抽取样样本的总总体。(即抽样样框)理想抽样样框的标标志是目目标总体体和抽样样总体完完全重合合。否则则抽
3、样框框就是不不完善的的。11.2抽抽样框误误差二、抽样样框误差差的类型型及影响响(1)抽抽样框框误差的的类型 丢失失目标总总体单元元。 包含含非目标标总体单单元。 抽样样框中的的单元与与目标总总体单元元不一一一对应。(存存在一对对多或多多对一的的情况)不正确确的辅助助信息。(如分分层抽样样、不等等概概抽样样、比率率估计和和回归估估计等所所需的辅辅助信信息)(2)对对抽样框框误差的的基本认认识有些误误差来自自构成抽抽样框资资料本身身,而不不是是由于于抽样设设计的问问题。抽样框框存在的的问题,有些是是不容易易解决的的。因此此抽样框框的维护护、抽样样框使用用情况的的不断总总结与研研讨,对对于经常常性
4、的调调查项目目来说是是十分必必要的。抽样框框的不完完善并不不是不能能使用。可以进进行修补补、调整整。(3)抽抽样框误误差的影影响设目标总总体单元元:N抽样框中中单元:N1抽样框中中丢失的的单元:N0N=N1+N0总体总量量的估计计总体总量量的真值值是:现从抽样样框中的的N1个单元中中采用简简单随机机抽样抽抽出容量量为n的一个样样本,由由于n取自于N1对总体总总量的估估计为:显然此时时的估计计是有偏偏的,偏偏倚为:这表明估估计量低低估了总总体总量量,令Y的相对对偏倚可可以写为为由上式可可知,总总体总和和的相对对偏倚取取决于 和总体均值值的估计计在抽样框框存在丢丢失单元元情况下下,均值值估计量量为
5、:此时估计计量的偏偏倚为:的相对偏偏倚可以以写为:由上式可可以看出出,如果果丢失单单元的均均值与抽抽样单元元的均值值相同,即,则估估计量是是目标变变量的的无无偏估计计。反之,如如果,偏倚倚状况则则随着的的变变化而变变化。三、不完完善抽样样框的使使用抽样框不不完善并并不是不不能使用用,因为为构造一一个完善善的抽样样框有时时是非常常困难的的。使用用不完善善抽样框框时若能能采用一一些补救救措施,有助于于减小抽抽样框误误差。主主要采用用以下三三项补救救措施:利用核查查,掌握握误差情情况,对对不完善善抽样框框进行调整整;事先制定定一些规规则,对对发现的的抽样框框问题进进行现场处处理;使用多个个抽样框框进
6、行抽抽样。11.3无回答误误差一、概念念无回答误误差是指指在调查查中由于于各种原原因,调调查人员员没能够够从入选选样本的的单元处处获得所所需要的的信息,由于数数据缺失失造成估估计量的的偏差。无回答误误差是一一种重要要的非抽抽样误差差,这种种现象十十分普遍遍,对估估计量的的危害也也比较大大,所以以国际上上对这方方面的讨讨论一直直比较热热烈,目目前这种种讨论还还在继续续。从无回答答的内容容来看可可分为:单元无回回答(被调查查单元没没有参入入或拒绝绝受调查查,他们们交的是是一份白白卷)项目无回回答(被调查查单元虽虽然接受受了调查查,但对对其中的的一些项项目没有有回答)从无回答答的性质质来看可可分为:
7、有意无回回答(有意无无回答常常常与调调查内容容有关,如对调调查内容容反感,或涉及及个人隐隐私不愿愿意回答答)无意无回回答(无意无无回答常常常与调调查内容容无关,之所以以无回答答是因为为被调查查者生病病或很忙忙,无法法接受调调查)有意无回回答对数据质质量的影影响很大大,回答答者和不不回答者者之间往往往存在在系统性性差异。这种不不回答不不仅减少少了有效效样本量量,造成成估计量量方差增增大,而而且会带带来估计计偏倚。无意无回回答可以看成成是随机机的,这这种不回回答虽然然会造成成估计量量方差增增大,但但通常认认为不会会带来估估计偏倚倚。二、无回回答产生生的原因因及影响响如果把采采集数据据的过程程划分为
8、为查找、接触和和采访三三个阶段段,三个个阶段都都有可能能出现无无回答。1、查找阶段段调查人员员无法找找到被调调查者,主要原因因有地址址不详、被调查查者搬迁迁、调查查人员不熟悉悉地址;2、接触阶段段被调查生生病、对对调查不不感兴趣趣或别的原原因拒访访;3、采访阶段段调查开始始后被调调查者对对某些问问题不愿提供供答案、调查员员由于粗粗心遗漏漏某些项项目等无回答的的影响:回答层(N1)总体(N)无回答层层(N0)则总体均均值为:回答层样样本(n1)总体样本本(n)无回答层层样本(n0)根据回答答层单元元计算出出的样本本均值为为用作作为总体体真值得得估计量量,其偏偏倚为:偏倚相对偏倚倚由上式可可以看出
9、出:无回回答偏倚倚主要来来自两个方面:一个是是回答层层与无回回答层之之间的数数量差异;一个个是无回回答率。三、降低低无回答答的措施施主要措施施是预防防,预防防措施有有:问卷设计计得具有有吸引力力;注意适当当的长度度;充分利用用调查组组织单位位的权威威性和影影响力;注意调查查员的挑挑选;做好调查查员的培培训;注意调查查过程的的监控;奖励措施施;再次调查查。四、对存存在无回回答数据据的调整整调查中无无回答的的情况总总是难以以避免,由于无无回答造造成数据据不全,如果不不加处理理,就有有可能造造成估计计量偏倚倚。下面面介绍几几种数据据调整的的方法:1、再抽样样调整在第一次次无回答答的单元元中随机机抽取
10、一一个子样样本,通通过更细细致、更更充分的的工作,获得该该子样本本的数据据,作为为整个无无回答层层的代表表值。2、加权调调整对存在无无回答数数据进行行补救的的另一种种方法是是采用加加权调整整。加权权调整法法是通过过对调查查中所获获得的回回答数据据使用加加权因子子,达到到对数据据的调整整,减小小由于无无回答造造成的估估计偏倚倚。3、相关推推估法相关推估估法主要要用于调调查中的的项目无无回答,即调查查单元不不是完全全拒绝调调查,而而是拒绝绝其中某某些项目目的调查查。这时时可以利利用回答答项目的的信息对对无回答答数据进进行推估估。4、插补调调整在数据整整理阶段段,利用用调查结结果,采采用一定定的方式
11、式,为无无回答的的缺失值值确定一一个合理理的估计计值,插插补到原原缺失数数据的位位置上。实际使用用时,用用得较多多的是均均值插补补,其方方法是:首先根根据辅助助信息将将样本分分为若干干组,是是组内各各单元的的主要特特征相似似。然后后分别计计算各组组目标变变量Y的均值,将各组组均值作作为组内内所有缺缺失项的的替补值值11.4计量误差差计量误差差是指由由于种种种原因,调查中中所获得得的数据据与真值值不一致致。计量量误差主主要成因因来自于于以下几几个方面面:设计误差差(设计计方面原原因造成成计量误误差)被调查者者误差(被调查查者提供供的数据据失真)调查者误误差(现现场调查查人员造造成的误误差)其他误
12、差差(由于于测量工工具、编编码、录录入)减少计量量误差的的措施减少计量量误差需需要对调调查全过过程进行行质量监监控:(1)调查设计计方面调查问卷卷设计出出来后,应组织织有关人人员对问问卷进行行讨论。如果是是大型调调查活动动,还要要在正式式调查之之前进行行预调查查,在实实践中对对问卷进进行检验验。(2)现场准备备方面在收集数数据之前前,需要要做好准准备工作作:招聘聘调查员员;培训训访问员员;编写写调查手手册。(3)调查结果果审核方方面审核是对对调查质质量进行行控制的的一道重重要的工工序,也也是减少少计量误误差的有有效方法法。审核核的目的的是要保保证调查查所得数数据的完完整性、一致性性和有效效性。
13、审核可以以在调查查过程中中的任何何阶段进进行:收据数据据时进行行审核(调查员员在调查查进行过过程中根根据常识识和经验验,可以以判断出出一些问问题的答答案是否否属于“可接受受”范围围)数据收集集完毕后后的审核核(审核的重重点是数数据的一一致性审审核和离离群值的的检测)11.5离群值的的检测和和处理一、离群群值的概概念离群值是是指调查查数据集集中的极极端值,是指与与其他数数据明显显不一致致的观测测值。离离群值的出现可可能有以以下两个个原因:由于数据据本身具具有的差差异性。看起来来值得怀怀疑的东东西也许许是真实实的;由于被调调查者回回答数据据有错误误或调查查人员记记录数据据有错误误。二、离群群值的确
14、确认通常离群群值的检检测是通通过测量量它们与与数据中中心的相相对距离离来辨认认的。例如,若若是是要观观测的样样本数据据,m和和s 分别别是侧度度数据集集中趋势势和离散散趋势的的指标,那么,离离数据中中心的相相对距离离可以定定义为如果越越过了了预先确确定的偏偏离值,那么该该观测值值就被认认为是离离群的。另外,离离群值也也可以通通过下面面的置信信区间进进行确认认:式中和和分分别别为根据据预先确确定的置置信度得得到的标标准正态态分布的的上限和和下限值值。落在在这个区区间之外外的观测测值被认认为是离离群值。 三、离群群值的处处理如果在调调查进行行中发现现离群值值,就要要及时处处理,例例如进行行回访核核
15、实,对对错误进进行更正正。如果在调调查完毕毕后的审审核中发发现离群群值,通通常对离离群值采采用插补补处理,即将离离群值剔剔除,然然后使用用插补法法调整。如果在审审核时没没有进行行处理的的离群值值可以在在估计的的时候处处理。估估计时有有以下三三种方法法处理离离群值:改变数值值这种方法法首先要要将样本本数据按按从大到到小依次次排序,然后再再按下面面的步骤骤计算:在简单随随机抽样样中,总总体总量量 Y的的无无偏估计计公式为为:式中,i表示样本本中第i个单元,s为所有样样本的集合.若样本数数据中第第k个最最大值kth被认为是是离群值值,单侧侧k次缩缩尾估计计量就可可以通过过第n-k个最最大值yn-k代替这些些离群值值,即调整权重重处理离群群值的另另一种方方法是降
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《商务英语口译》课件-Business Interpreting
- 脑病临床病案分析
- 2025年医保异地就医结算流程规范考试题库
- 肿瘤科介入术后的护理
- 2025年小学英语毕业考试模拟卷(听力专项)听力技巧与听力材料练习与评估试题
- 2025年小学英语毕业考试模拟卷:英语阅读理解技巧解析与实战练习
- 2025年中学教师资格考试《综合素质》教育教学能力提升模拟试卷三十(含答案)
- 2025年小学英语毕业考试模拟试卷:英语翻译技巧专项训练与解析试题
- 大班数学活动:神奇的纸圈
- 浩渺太阳系模板
- 眼镜学智慧树知到答案2024年温州医科大学
- 精神科病例标准化病人
- 提高人工气道气囊管理正确率品管圈汇报书模板课件
- 齐鲁医学快速康复理念在外科患者围术期应用
- 江苏省宿迁市各县区乡镇行政村村庄村名居民村民委员会明细
- 日本宗教文化课件
- 赤潮绿潮生态模型
- 医院临床护理教学质量督查表
- 唐诗里的中国(朗诵)
- Q∕SY 01128-2020 录井资料采集处理解释规范
- 中考满分作文-难忘的风景(6篇)
评论
0/150
提交评论