版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Chap10
nonsamplingerror一、非抽样误差的来源
非抽样误差就是由抽样误差以外因素引起的,因样本观察数据非同质、或残缺、或不真实而产生的误差。为了使非抽样误差问题简单化,我们可以按照抽样调查的过程来考察其来源。◆抽样方案设计阶段
◆数据收集阶段
◆数据处理阶段
抽样误差与非抽样误差非抽样误差的特点不随样本量增加而减少造成估计偏差难以测定与识别理论相对薄弱◆在抽样方案设计阶段,非抽样误差的来源:
(1)抽样框的编制与准备不够充分完善;
(2)问卷设计不够科学合理。
◆在数据收集阶段,非抽样误差的来源:
(1)调查数据的残缺(无回答);
(2)调查数据的错误。◆在数据处理阶段,非抽样误差存在于对调查资料的整理、分组、计算、编码和计算机录入等过程中,是一种工作上的差错。
◆把上述三个阶段的各种非抽样误差加以归纳,可以概括为框误差、无回答误差和计量误差三类。
其中计量误差包括抽样方案设计阶段有缺陷的问卷设计、数据收集阶段有错误的调查数据和数据处理阶段工作上的差错所带来的误差,也就是调查性误差。
二、非抽样误差的特点非特有性:为非抽样调查所特有;
非一致性:使抽样估计结果产生偏差,并且样本越大产生偏差的可能性越大;难测定性:难以对其进行描述和测定,具有很强的隐蔽性;难评价性:非抽样误差的存在使得对抽样效果的评价与衡量复杂化;全过程性:存在于抽样调查的所有阶段。第一节无回答误差
一、无回答误差的成因
(一)无回答的含义
无回答(Nonresponse)是指未能取得所要搜集资料的一种现象,它包括两种情况:个体无回答和项目无回答。个体无回答也称全无回答,是指被调查者没有接受调查、造成整张问卷出现空白的现象;项目无回答也称部分无回答,是指被调查者回答了问卷中的部分调查项目未能回答其它调查项目的现象。不论是个体无回答还是项目无回答,都将导致调查数据残缺不全,从而最终影响估计结果,降低估计精度或可靠程度。因无回答而造成的估计误差,就称为无回答误差。
(二)无回答的成因1、遗漏了被调查者;2、被调查者地址不详;3、调查内容未达被调查者;4、被调查者拒绝回答;5、回答不准确或不知如何回答;6、忘记回答。以上各种原因,有的属于客观性,有的则属于主观性;有的属于有意识,有的则属于无意识;有的属于调查人员方,有的则属于被调查者方。样本单位回答状况分类(2)明确单位(3)其它(不明确单位)(1)全部单位(4)合格单位(5)不合格单位(3A)估计的合格单位(3B)估计的不合格单位(6)回答单位(7)无回答单位(8)不存在的单位(9)暂时不合格单位(10)永久性不合格单位(12)其他回答者(11)拒答转变者(13)拒答者(14)未征寻者(15)其它无回答者回答率的计算回答单位数/全部样本数回答单位数/明确样本数回答单位数/合格样本数回答单位数/(合格样本数-拒答数)二、无回答误差的统计影响
为了测定无回答对抽样的影响,先把总体分为两层:回答层与无回答层。
就调查项目而言,如果无回答不是故意造成的(即与调查内容无直接关系),且无回答现象不集中于某类特殊单位组成的群体,那么就可以认为这种无回答是由随机因素引起的,这时无回答对抽样的影响是因实际有效的样本容量减少而使估计量方差增大,但却不会造成估计量偏差。估计量方差增大的程度取决于无回答率。如果无回答是故意造成的(即与调查内容直接有关),或无回答现象集中于某类特殊的群体,那么无回答层与回答层之间就存在明显的非随机性差异,这时,无回答对抽样效果的影响,除了会增加估计量方差外,还会带来较严重的估计量偏差。二、无回答误差的统计影响导致估计量估计偏差若无回答者与回答者在调查项目的数量特征上存在差异,这种无回答就会导致无回答偏差
降低估计效率无回答减少了实际调查的样本数量,因而扩大估计量的方差,导致估计效率降低
完全数据统计方法无法使用一般统计方法都适用于完整的矩阵数据,无回答造成数据缺失,可能导致一些标准的完全数据统计方法不能直接用于数据分析。
如果在调查中出现个无回答、个有回答(+=),那么当总体无回答层与回答层之间无差异时,估计量方差就变为:
=
从而估计量方差增大的量为:
===
其中==1-为样本无回答率。
估计量方差增大的程度则为:
-1=
在这种情况下,为了达到抽样方案所规定的抽样估计效果,就需要增加样本容量。如果总体无回答率为=,那么样本容量应该确定为=。
如果令=为总体回答率,+=1,总体中回答层与无回答层的均值分别为和,样本中回答层的均值为,那么当以来估计总体均值时,就会有偏差为:E()-=-
=-(+)
=(-)
偏差率为:
=其中=为回答层均值与无回答层均值之比。不难发现,越接近于1(即无回答率越高),越远离于1(即回答层与无回答层之间的均值差异越大),那么估计量的偏差就会越大,偏差率就会越高,估计结果就越不准确、越不可信。
还要注意的一个问题是,虽然从理论上讲无回答会使估计量方差增大(即>),但在实际上却难以得到客观的反映,因为我们所能计算的只是(此处的是总体中的回答层方差,未知时要以样本方差估计)。这样,与相比,当>时就会高估,当<时就会低估。与相比,则还有一个回答率的问题,因为
=
所以当>时估计量方差高估,当<时低估。如果>,那么当=1时,必然会有=,估计量方差低估或高估的现象也就自然会消除。可见,提高回答率是消除无回答影响的关键所在。例Thomsen和Siring(1983)的报告展示了挪威统计局于1969年进行的有关投票行为调查的结果。这次调查主要采取邮寄调查方式,并辅助以三次电话访问,最终获得9.9%的无回答率,这个数字通常被认为是比较小的。那么无回答者与回答者是否存在差异呢?无回答者与选中样本之间在投票率上的差异在年轻的年龄群体中体现得较为显著。无回答原因不同投票率也不同。拒绝参与调查的人群的投票率为81%,由于不在家而没能参与调查的人群的投票率为65%,因病未参与的人群则为55%。小于10%的无回答率就导致了对挪威投票率的高估。总体20-24岁25-29岁30-49岁50-69岁70-79岁无回答者715956727874选中样本888184909184投票率(%)HoltandElliot(1991)讨论了英国关于无回答的一系列研究结果,并指出“较低的回答率与以下特征有关:伦敦居民;无车家庭;单身;没有子女的夫妇;老年人;离婚或鳏寡者;新英联邦血统;教育程度低;个体经营者”。三、无回答误差的控制
(一)事前准备充分,争取尽量高的首
次回答率;(二)搞清无回答的原因,有针对性地
进行复调查;
(三)必要时,对无回答者进行替换;(四)对于一些敏感性问题,可以采用随
机化回答技术(沃纳模型,西蒙斯模型,格林伯格模型等);(五)当无回答不可避免时,可采用一些专门技术来调整估计结果,以减少估计偏差。四、无回答的补救措施替代法汉森与赫维茨(HansenandHurwitz,1946)方法复制估算法加权调整法插补法1.替代法访员可以在实际调查现场选择一个替代单位或使用事先准备的指定替代单位1975年密歇根州进行的物品滥用情况调查(MichiganSurveyofSubstanceAbuse)就是为了估计在前一年内使用过16类物品的人数。根据抽样设计,该调查采用分层多阶段抽样对2100个住户进行了访问。对每一个住处都重复访问3次,若仍没有人则尝试其右侧的住户,接下来再尝试左侧住户。2.汉森与赫维茨(HansenandHurwitz,1946)方法。
这种方法是先对抽中的被调查者进行邮寄(问卷)调查,然后从那些无回答者中抽选出一个子样本进行访问调查并尽量取得完整资料,最后把邮寄调查结果与子样本访问调查结果综合起来得出总体指标的估计值。
这种方法的优点是比多次复调查法节省费用,且估计量无偏、估计精度容易掌握和控制,因此当子样本的个体资料能全部取得时比较适用。但所花的时间较长,且要保证取得子样本的完整资料也不容易。3.复制估算法
这种方法是当无回答出现时,用其它已有的数据来顶替无回答的缺失数据,进而对总体作出估计。用来顶替的数据可以从同次调查的回答者数据中抽选,也可以从以前的同类调查数据中选取或推算而得。在实践中最常用的是从同次调查已取得的数据中随机抽取。复制估算法的特点是,当顶替数据与无回答缺失数据充分接近时(这就要求与这两者数据相对应的单位来自于同一类别,具有相似的特征),能有效减少估计偏差,但却会增大估计量方差(均方误差)。因此,如果我们能对总体进行分层且适当增大样本容量,那么复制估算法就能很好地解决无回答偏差问题,且保证有较高的估计精度。这种方法尤其适用于“项目无回答”。4.加权调整法
这种方法是通过一定的权数对调查中的回答数据进行加权来达到对数据进行调整、减少因无回答造成的估计偏差的目的。权数由调查中的回答概率来确定,一般是该概率的倒数。即回答概率大的赋予较小的权,回答概率小的赋予较大的权,从而使估计量的偏差得到一些纠正。具体的加权调整法又有PolitzSimmons调整法、加权组调整法和事后分层调整法等。加权法(weighting):
主要用于单位无回答这种方法假定无回答与受访者/受查者在家的概率有关。设在调查时间中受访者/受查者在家的频率为,则在估计变量的总体均值时,以作为回答概率的估计值,并使用其倒数来加权。关于加权的一些注意事项要求很高:即假定每一个加权单元中,回答者和无回答者是相似的,也就是说不管同一加权组中各单位的回答值是否相等,它们回答的可能性都相等。加权法可能会改进估计量,但它并不能消除所有的无回答偏差。常用于处理单位无回答,而非项目无回答5.插补法(imputationmethod)适用于解决项目无回答问题对每个缺失值都寻找一个或多个尽可能与其类似的插补值。一般的插补模型可以表示为:
Z=f(X)+e式中,Z是插补值,X是无回答单位的辅助变量向量,f()是辅助数据的某一函数,e是残差。插补法的效率如何,取决于插补值与原无回答数据的相似程度。
插补法根据插补值是否包括残差,插补法可分为确定性插补和随机性插补。根据确定插补值时是否使用辅助变量,将插补法分为使用辅助变量插补法和不使用辅助变量插补法。使用辅助信息的插补法又可根据信息来源分为热卡法和冷卡法。热卡法(Hot-Deck)中的辅助信息来自当前调查,冷卡法(Cold-Deck)中的辅助信息来自以前的同类调查或其它已有的关于无回答单位的相关资料。根据对每个缺失值的插补值的数,插补法又可分为单一插补法(singleimputation)和多重插补法(multipleimputation)。演绎插补法(Deductiveimputation,DI)通过辅助资料的演绎,找出插补值,也是一种使用辅助变量的插补法。该辅助资料可能就来自本次调查,也可能来自其余调查或其他资料。冷卡法应用较多。该方法对辅助信息的要求比较高,使用时要注意演绎方法的正确性。例如:没有受到过任何犯罪侵害,因此暴力犯罪受害者一项也应为0。在纵向调查中,如果一个女人在第1年和第3年访问时都有2个孩子,而第2年的数据是缺失的,那么逻辑上的插补值就应该是2。均值插补法(Meanimputation,MI)利用回答单位的项目均值作为无回答项目的插补值。总均值差补法(Meanimputationoverall,MO)分层均值差补法(Meanimputationwithinclasses,MC)方便实施,但会破坏分布,低估方差。适于点估计为了避免尖峰的出现,可以采用随机单元均值插补法。假设条件为:各单元中的缺失项目为完全随机缺失(MCAR)。热卡法(Hot-deckimputation)辅助信息来自同一样本的插补方法按照辅助变量,将回答单位分成为若干的“插补层”,然后,对每一个无回答单位,依据其辅助变量值,从相对应的“插补层”中寻找一个回答单位,以其变量值对无回答数据集进行插补。顺序性热卡插补法、最近距离热卡插补、以及组内随机替代法等回归法通过建立y与辅助变量间的回归方程来补入缺失的y值。优点:方法简单,对无回答的估计效果好,对每个被插补变量,可以利用不同的预测变量缺点:如果没有随机误差项,可能导致高估;可能造成多重共线性;可能降低方差。第二节
抽样框误差抽样框误差:目标总体与抽样总体不一致目标总体,即作为调查研究对象的全体抽样总体,即从中抽选样本的总体抽样框误差类型:
1.丢失目标总体单元,威胁性较大。
2.包含非目标总体单元。
3.复合联接。这是指抽样框中的单元与目标总体单元不完全是一一对应关系。例如一个门牌号内居住两户或多户家庭,一户拥有两处或多处住房。
4.不正确的辅助信息。二、抽样框误差的影响
(一)丢失单位的影响在假定不存在其他原因的抽样框误差时,丢失单位对抽样效果的影响主要取决于两个方面:丢失单位的分布特征和丢失单位数所占的比重。其中,对总体均值的估计只与前者有关,而对总体总值的估计则与两者都有关。
(1)丢失单位是目标总体中的一个随机样本,具有与目标总体相同的期望与方差,则其对总体均值的估计影响不大,但对总体总值的估计会低估。(2)丢失的单位是特殊群体,不具有与目标总体相同的期望与方差,那么对目标总体总值、均值的估计会产生偏差。(二)包含异质单位的影响
如果是目标总体总值的估计,则其估计量偏差和偏差率分别为:很显然,这时的偏差或偏差率都是正的,即若抽样框中包含了异质单位必定会使目标总体总值的估计偏高。
均值估计量方差会被高估或低估,总值估计量方差则一定是高估,即:
如果在调查中异质单位可以被识别并被予以剔除的,可以把目标总体看成抽样框中的一个子总体或域。异质单位的标志值就取0。
在调查中剔除异质单位会增加估计量的方差,原因在于它使实际的样本容量变小了。三、抽样框误差的控制重在预防积极补救心理准备
第三节计量误差范围广,分类:设计误差:问卷设计,抽样过程被调查者误差:无意识误差和有意识误差调查者误差其它误差:测量工具,编码,录入等一、计量误差的成因
计量误差(ErrorsofMeasurement)是指样本结果(如样本均值,样本方差)与实际情况(真实的样本均值,样本方差)不一致而产生的误差。这种误差可能存在于调查过程中,也可能存在于整理和计算过程中,主要就是任何调查都可能产生的调查性误差。这种误差是由人有意或无意所造成的,且会随调查范围的增大而增加产生的可能性。具体原因如下:
(一)因设计不完善引起的计量误差;(二)调查员原因引起的计量误差;
(三)被调查者原因引起的计量误差;
(四)其他原因引起的计量误差。
(一)因设计不完善引起的计量误差
一是问卷设计不完善,包括用词不准确;问句具有诱导性或倾向性;问句排列顺序欠妥;调查内容不完整(尤其是缺了重要的项目);调查变量选择有误;问句的切入点不准确;问句给被调查者预备的回答空间不合理;问句的语气太软或太强;问卷的长度太冗长等原因。二是设计的抽样程序有偏,使样本结构非随机地与总体结构不符。三是估计量的构造有问题,主要是该加权的未加权,不该加权的却加权,从而产生偏差。(二)调查员原因引起的计量误差
一是调查员责任心不强、工作粗心,使观察结果不准或登记、填写、计算发生差错。二是调查员在调查时偷工减料,不按规定操作,用其他数据来代替调查数据。三是调查员本身弄虚作假,由自己来伪造填写调查表。四是调查员业务水平不够高,在观察或测量时难以搞准数据。这些误差成因,有的是无意识的,有的则是故意的。(三)被调查者原因引起的计量误差
一是被调查者对调查内容的理解(包括问句的含义等)有误。二是被调查者对于需要回忆才能回答的问题,可能存在记忆差错。三是被调查者对于调查中的一些相似或者相近内容无法准确区分而出现回答差错。四是被调查者接受调查时心境不佳、身体不适、家中很忙或有急事和意外,使调查质量受到影响。五是被调查者对调查不感兴趣而敷衍了事。六是被调查者为了不让他人知道实情而故意提供不真实的数据(有的夸大,如文化程度、高雅文化消费支出、公益捐款及工作业绩等;有的缩小,如收入、烟酒消费量及工作过程等)。七是被调查者为了保持同一调查内容在不同时间上的一致性或家庭成员回答口径的一致性而提供相同但不真实的数据。
(四)其他原因引起的计量误差如计量工具不准确、计算机编码及输入错误、资料整理中的归类错误等。
二、计量误差的影响
计量误差存在于调查单位之中。如果设为被观测单位的真实值,为其观测值,那么当时,就存在计量误差,若以表示之,可得计量误差模型为:
=+其中>0或<0。1、如果调查单位的计量误差是随机出现的,那么总正差与总负差大致相等,即E()=E(),也即E()=0
。这时,计量误差的存在不会改变估计量的偏差性,但会改变估计量方差的大小。设为总体均值,E()=,那么有:
=+=+2
()+E=E+E()+2E[
()]
由于E()=0,E()=E=V(),故
MSE()=V()+V()+2E[
()]其中E[
()]为调查单位计量误差与真实离差之间的协方差。
当样本容量为时,无计量误差的总体均值估计量方差为:()=
有计量误差的估计量方差(均方误差)为:MSE()=(1
)即:MSE()=(
)+〔V()+2E[
()]
〕
若2E[()]+V()<0,那么MSE()<V(),MSE()<(),即估计量方差被低估了。如果2E[()]+V()>0,那么MSE()>V(),MSE()>(),即估计量方差被高估了。不论是高估还是低估,估计效果都不能得到真实的反映。2、如果调查单位的计量误差不是随机出现、而是存在一定的系统性,那么就会正差大于负差,这时计量误差就变成为估计量的计量偏差,即E
()E()=,从而计量误差的存在既改变了估计量的偏差性,也改变了估计量方差的大小。在这种情况下,我们可以得到:
=E()+E()-uE=E+MSE()=V()+
其中V()为有计量误差时的观测值的估计量方差。注意到E()0,E()V(),可得:
()=V()+〔E()+2E[()]〕
如果>〔E()+2E[()]〕,则V()<(),估计量方差低估。如果相反,则估计量方差高估。非随机性的计量误差越严重,估计量方差低估或高估的程度就越强。三、计量误差的控制(一)精心设计;(二)对调查员要严格要求,精心挑选,加强培训;(三)在每次调查中,都要对被调查者作耐心的宣传说服工作;(四)加强统计执法,规范统计调查活动;(五)要合理确定调查时间、调查方式和调查周期;(六)必要的检查和调整;(七)控制计量工具或技术设备原因的误差;(八
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重庆市房屋购买协议
- 班车租赁服务合同
- 短期兼职翻译合作协议
- 迁移户口的庄严保证
- 广场石材供应协议
- 合法化材料采购合同
- 冷冻食品购销协议
- 运动场草皮采购单
- 石头安装购销合同
- 保洁员岗位安全承诺
- 2024年医师定期考核题库(人文医学测评) 含答案
- 一年级10以内加减法口算题(1000道)(A4直接打印)
- 心律失常介入治疗
- 数字营销课程课程大纲
- DZ∕T 0287-2015 矿山地质环境监测技术规程(正式版)
- 医学图像处理 知到智慧树网课答案
- 2024年浙江省宁波市科技局下属事业单位招聘4人历年公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- 《食品生物化学》课件-脂溶性维生素
- 人工智能训练师(中级数据标注员)理论考试题库大全(含答案)
- 领导干部心理健康与调适培训课件
- 地铁事故案例
评论
0/150
提交评论