版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
周期性普查数据质量评估方法研究
一、普查数据质量控制在美国,自1790年的人口普查开始于220多年前。世界上许多国家建立了自己的定期研究和研究体系。尽管各国的周期性普查制度不尽相同,但人口、农业和经济是多数国家共有的普查项目。中国1994年正式确立周期性普查制度至今仅有20年,2003年普查项目调整后需要每10年开展包括经济普查、农业普查和人口普查在内的三项4次普查,以此确立了周期性普查在政府统计调查体系中的基础地位1。普查数据质量不仅关系到我国政府统计部门的公信力,还涉及到众多政府管理决策制定的科学性和合理性。自1895年抽样调查作为一种与普查相对应的统计调查方式被正式提出以来,有关抽样调查误差的研究进展深化了人们对统计调查误差的全面认识,特别是如何通过控制调查误差提高普查数据质量。世界各国将普查数据质量评估研究的重心放在普查数据的准确性上。2013年底,中国第三次经济普查拉开了现行普查制度的又一周期序幕,相关普查方案明确规定将以事后质量抽查为基础,结合相关历史数据、部门行政记录评估普查数据的真实性、一致性和可靠性1。本文基于对国内外有关周期性普查数据误差测量研究技术思路的梳理和认识,尝试对有关数据质量评估方法进行归纳分类,研究这些评估方法的特点及其适用性,对于深化我国周期性普查数据质量评估的理论研究和实践应用、提高普查数据质量有着重要的意义。二、样误差来源研究兴起的原因20世纪40年代起,随着概率抽样地位的确立和统计调查中各种非抽样误差来源研究的兴起,人们意识到全面调查并不是尽善尽美的。美国普查局的研究人员首先尝试各种方法对普查数据准确性进行检查,开创了普查数据质量评估研究的多项技术思路,并逐渐被其他国家借鉴和完善。1.人口普查:5岁以下儿童的热价评估Myers提出了采用人口普查实际年龄分布与期望年龄分布的差异评估人口普查年龄数据的准确性,即玛叶指数,该方法能够克服惠普尔指数中假设各年龄人口数相等的不足,但没有考虑人口的出生与死亡等自然变动因素,也没有考虑性别的差异化影响。Whelpton在考虑出生死亡记录及人口迁移的基础上,采用人口流入流出量测定法评估美国人口普查中5岁以下儿童的低估数。Jaffe(1951)依据出生和死亡率,采用群体存活法检验两次普查间不同年龄组的数据准确性。此后,Coale和Zelnick(1963)、Siegel(1974)结合人口的出生、死亡和迁移数据,根据性别、种族和年龄分布特点发展完善了研究人口普查数据误差测量的体系化方法,在将人口学原理与统计学方法结合的基础上,形成了一系列用来测量人口普查数据质量的评估方法,统称为人口统计分析法。U.S.CensusBureau(2004)2、NationalResearchCouncil(2009)的研究表明人口统计分析法至今仍被作为美国人口普查数据准确性评价的两种方法之一,同时这类方法也被世界各国广泛采用。2.外部来源数据的整合检验Zarkovich(1963)提出如果将普查数据与普查对象某些特征或关系加以比较,能够通过一致性检验实现评价普查的数据质量。第一种思路正是上述人口统计分析法所用,即从纵向比较的角度将本次普查收集到的数据与上次普查数据依据某种特征变化或假设得出的期望值进行一致性对比或检验。第二种思路采用内部一致性,将在逻辑上有相互关系的不同数据用来检验数据间的内部一致性。例如经济普查中,企业的当年收入加上使用节余和负债是其年度开支数额的上限;农业普查中,农作物播种面积与耕地面积关系是否符合当地复种指数设定范围。这一思路经过发展,逐步演变为当前用于普查登记审核的逻辑规则检验法。第三种思路将普查数据与外部独立来源数据进行一致性对比,前提是外部来源数据与普查描述的是同一总体,且对比的概念和定义范围相对接近。例如美国义务兵役法案规定美国公民或国外移民中的成年男性必须在相应机构登记个人信息以备可能的征兵信息,Price将1940年美国人口普查中21~35岁的男性数据与当年义务兵役登记数据进行对比,用以评估人口普查中21~35岁男性数据的准确性。从时空关系上看,第一种思路通过纵向历史数据进行一致性检验,第二种思路通过横向截面数据进行一致性检验,均是同一普查项目内部的对比,统称为内部一致性检验;第三种思路由于采用外部数据,被Biemer和Lyberg称为外部验证法(2003),需要外部来源数据具有更高的准确性,才能用于普查数据质量评估。3.基于逆记录检查法的降维评估外部验证法主要从宏观层面考察普查总体的一致性问题,不考虑外部数据的微观匹配能力。随着普查数据误差来源研究的深入,普查数据汇总过程中个体误差以及综合误差测量成为普查数据质量研究的重点。因此,在具有完善行政记录的国家,当行政记录能够实现由个体到总体的信息汇总过程时,可通过普查个体数据与相关行政记录的匹配检查实现对普查数据准确性的微观和宏观层面审核。由于行政记录是独立于政府统计部门,由其他部门依据其行政职能所登记搜集整理的信息资料,利用其对普查数据质量开展评估时,行政记录审核的评估能力通常高于一般外部数据验证。Eckler和Pritzker提出采用逆记录检查法(ReverseRecordCheck)对总体单元普查记录逐个匹配检查,用以评估普查个体单元记录的准确性,即从现有的行政记录中抽取一个样本,将样本的行政记录与普查记录进行核对,验证普查总体单元是否被登记以及登记的计量误差。例如美国人口普查中采用新生儿出生记录和社会保障记录分别对普查中的婴儿记录和个人工资收入记录的登记准确性开展评估,加拿大统计局在1961年至今的历次人口普查中均采用了逆记录检查法评估普查数据的准确性1。与逆记录相反,如果首先从普查总体中抽取一个样本,将样本普查记录与其行政记录进行核对用以衡量普查质量,Biemer和Lyberg称其为向前记录检查法(ForwardRecordCheck)。逆记录检查法和向前记录检查法统称为行政记录审核法,该方法需要具有良好的外部行政记录数据进行对比。相比而言,逆记录检查法适用于对普查中易遗漏对象的审核检查,完善的行政记录能够相对容易地调查到这些具有遗漏特征的调查对象,但他们在普查中往往由于被遗漏而没有登记。4.普查对象的事后查Eckler和Pritzker提出记录匹配检查的另一方法是采用抽样的方式从普查总体中抽取一个样本通过重复调查与原有普查记录对比,用以测量普查的涵盖误差和内容误差,这一方法被称为事后质量调查。重复调查技术源于美国和印度对统计调查中计量误差的测量研究,Forsman和Schreiner(1991)概括了重复调查的两大主要目的,一是评价调查的实施质量,二是估计调查的误差构成。因此,事后质量抽查能够实现对原有普查数据误差的测量。Marks、Mauldin和Nisselson(1953)在研究中提及1945年美国农业普查的质量检查首次采用了事后抽查,随后的1947年制造业普查、1948年商业普查中也采用了事后抽样调查,这些实践为1950年美国人口普查通过事后抽查测量普查对象的涵盖误差以及登记内容误差奠定了基础。Zarkovich将普查中调查单元的遗漏、重复称为清单误差,研究了事后抽查中采用严密整群设计用于清单误差的测量。1960、1970年代有关调查中回答误差、访问员误差等计量误差的测量研究中,完全建立在抽样设计推断基础上的事后抽查被更多的国家用来评估普查数据质量,逐步形成了基于设计推断的事后质量抽查。20世纪80年代以来,随着普查事后抽查实践的丰富,Marks(1978)将用于野生动物总量估计的“捕获再捕获”模型原理引入普查事后抽查研究中,称为双系统估计。美国普查局将1980年4月的现时人口抽查(CPS)样本与当年普查样本进行匹配,采用双系统估计法评估普查计数的完整性,是对以往事后抽查仅建立在抽样推断基础上的一种突破。Wolter(1983)证明了普查计数结果涵盖误差测量的双系统估计模型及其估计性质,为基于模型推断的事后质量抽查奠定了理论基础。Abbate等人(2004)将双系统估计模型应用于意大利2001年工业普查事后抽查与商业行政记录的匹配,评估普查对象的涵盖完整性。Hogan(2003)以美国2000年人口普查事后准确性评价为例,阐述了采用双系统估计模型的理论与设计。美国从1987年的农业普查开始采用双系统模型评估普查涵盖误差,并明确提出2010年人口普查采用基于模型推断的事后抽查目的由修正普查结果转变为对普查开展过程评估与质量控制,以持续改进普查的数据质量。三、现行人口普查制度的质量评估国内关于周期性普查数据质量的研究始于改革开放以来我国普查制度的逐步形成与确立过程中,研究内容主要遵循了国外的技术思路。从普查过程和质量审核角度,李成瑞(1984)论述了1982年人口普查方案设计、普查登记以及数据处理的质量控制,在登记环节主要采用了逻辑规则检查和事后抽查等两种数据质量评估方式。陈振裕(1988)针对1985年工业普查的质量控制进行了研究,在省、市、县三级分别对普查填报质量进行了事后抽查审核。程晞(1993)采用行政记录统计的1990年社会劳动者人数评价了第四次人口普查在业人口数据的准确性,并将1990年人口普查在业人口地区分布与年龄、性别构成与1982年人口普查结果进行了一致性检验。随着1994年我国周期性普查制度的建立,政府统计部门和国内学者对我国三大普查数据质量评估问题开展了广泛的研究。卢依吉.法布里斯等(2002)1利用1996年农业普查的事后质量抽查数据,对普查的回答误差、普查员登记误差等数据的可靠性进行了估计。武洁(2001)2论述了2000年人口普查采用事后抽查评估的抽样设计与估计方法。徐晓海(2008)3从普查的组织机制出发评价了经济普查误差的三大来源。陶然等(2009)4提出了在事后抽查中采用双系统估计完善经济普查单位名录准确性评估的方法。2010年中国第六次人口普查的顺利完成标志着现行普查制度首个周期的完整实施,针对人口普查质量评估理论研究,胡桂华(2011)以美国人口普查评估为例,比较了基于双系统估计模型的两种总体实际人口数的估计方法。陶然(2012,2014)从非抽样误差角度系统阐述了普查涵盖误差理论,提出用于测量由个体误差汇总为总量误差的普查涵盖误差模型;通过完善理论假设和证明普查记录与事后抽查记录的匹配性质,提出了用于普查总量估计的扩展双系统估计模型的理论形式。围绕人口普查数据质量应用研究,崔红艳等(2013)5利用人口统计分析法和外部行政记录数据对普查代表性指标的准确性进行了评估。胡耀玲等(2013)6基于出生人口队列,结合最近四次人口普查历史数据从一致性角度分析了普查的数据质量;王金营(2013)7采用年龄移算方法对普查的分年龄漏报或重报进行了评估。总体上,国内普查数据质量评估的应用研究侧重人口普查,理论研究相对薄弱,整体处于探索阶段。四、周期性数据的质量分析方法和适用性1.外部数据的整合根据系统理论,任何现实系统的演化都可以从外部条件和内在要素两个方面考虑。如果将普查数据生成过程视为一个完整的系统,根据用于评估的依据与普查系统的关系不同,可将上述国内外有关普查数据质量评估方法归纳为三种途径。第一种途径是通过内部渠道获取评估依据,这里“内部渠道”是相对于所要评估的普查系统而言。例如通过两次人口普查间的死亡率和出生率推算本次人口普查的准确性,通过经济普查数据内部指标间的逻辑规则检查数据的一致性。内部途径获取的评估依据依附于普查系统,是一定能够获取的,但由于评估依据与原有普查系统并不独立,即便用于一致性分析的方法和规则正确无误,也可能无法检查出整体的系统性误差。第二种途径是通过外部渠道获取评估依据。例如加拿大统计局在人口普查逆记录检查中采用的独立于普查的外部行政记录数据。采用外部数据对普查数据质量开展客观评价,能够保证评估依据的独立性,但仍将面临两个问题,一是评估不仅要求外部数据所对应的总体与普查相一致,而且在定义和概念范围上也需要具有可比性,我们能否得到这种用于评估普查数据质量的外部数据;二是即便得到了,外部数据的生产并不依附于普查系统,还需要判断外部数据的准确性和有效性,才能保证评估结果的可靠性。相对前两种途径而言,第三种途径即事后抽查,在普查结束后从普查总体中抽出一个样本进行一次重复调查,通过对两次调查数据关系做出假定,用来评估普查数据质量。这一途径获取的评估依据在一定程度上依附于普查系统,事后抽查所推断的总体与普查总体相一致,所测量的个体应当属于普查总体,是一定能够获取的;这一途径采用重复调查获取的评估依据却又是相对独立的,在一定程度上能够避免系统性误差的影响。事后抽查途径需要解决的问题只是采用必要的技术手段保证评估方法的有效性。2.通过事后筛查使数据具有更强的可扩张性按照归纳出的三种评估途径,本文将国内外研究中采用的普查数据质量评估方法分类,并归纳出各自的方法特点,见表1。通过表1的对比,内部评估途径不需要考虑外部信息的来源与准确性,在评估结果上主要通过数据内部的一致性反映。人口统计分析通过总体一致性检验判断总体分布误差,不能针对个体误差做出检验,分析结果只能作为人口普查事后评估的结论,评价人口普查数据的准确性,无法用于普查过程的质量控制。内部一致性检验如果通过逻辑规则判断普查登记个体和总体数据的误差倾向,可以开展相应普查工作环节的事中评估,作为普查过程质量控制的依据;如果考虑普查历史数据的纵向比较,则能够从事后评估角度考察普查历史数据的一致性。外部评估途径需要建立在外部数据准确有效的前提下,由于外部数据验证法仅从总体上评价普查数据的一致性,无法实现精确的误差测量结果,仅能对普查数据进行宏观的事后评估;如果具备完善可靠的行政记录,行政记录审核可实现对普查个体和总体误差的精确测量,以此做为普查过程质量控制的依据,因而在各普查项目中具有越来越广泛的应用1。行政记录相比普查登记能够以较低成本获取及时的统计数据,在大数据技术日趋成熟的条件下,高质量的行政记录不仅能作为获取普查数据的一种重要补充手段,还能够用于评估普查数据质量。事后抽查是建立在抽样调查基础上的重复调查,相比普查,抽样调查费用低、时效性强;特别地,当无法提供完善的行政记录,又需要对普查数据进行精确误差测量时具有良好的适用性。基于设计推断以事后抽查得到的重复调查数据为准评估普查数据,可对普查个体和总体两个层次的数据误差进行测量,评估结果能够用于普查过程质量控制,也能够用于普查数据总误差的测量;基于模型推断通过双系统模型建立普查记录与事后抽查记录的有效联系,在模型推断的基础上实现各类型普查总体涵盖误差的有效测量,虽不能作为过程质量控制的依据,但可以评价普查数据汇总的总误差。3.未来普查数据质量评估的模式与依据普查作为一种全面调查,不存在抽样误差,在由微观个体数据汇总为宏观总量数据的过程中,普查数据的准确性表现为普查数据的汇总误差。无论是内部评估、外部评估,还是事后抽查途径,从数据误差角度研究普查数据汇总的准确性是当前世界各国普查数据质量评估研究的主要方向。普查作为对总体单元的全部观测,准确性可以表现为个体单元计数和普查指标登记的涵盖完整性,普查数据汇总的涵盖误差成为普查数据准确性测量理论研究与实践的重点。从数据生产过程考虑,普查数据质量评估不仅要从汇总结果是否准确这一层面考虑,还要针对具体的普查实施过程开展系统研究。由于内部评估和外部评估途径的各自特点,传统上这两种途径所采用的评估方法均没有考虑普查数据的生成过程,但结合内部一致性检验和行政记录审核的适用性特点,这两种方法可以在普查数据生产过程的某些环节开展事中评估,例如普查对象底册名录编制的质量评估、普查对象登记内容填报的质量审核等,其评估结果可作为事中控制的依据,及时纠正普查过程中发现的质量问题,可为后续工作环节的开展奠定良好的工作基础。事后抽查途径由于建立在重复调查基础上,可在普查数据汇总过程的不同环节和层面实施,因此事后抽查成为各国周期性普查不可或缺的一种数据质量评估途径。国内外相关研究表明现有事后质量抽查通常在普查登记工作结束后开展,主要用于测量普查登记数据的准确性,属于事后评估。因此世界各国事后质量抽查评估的目的并非为了修正普查数据,而主要用来评价普查数据质量与普查工作的质量,为持续改进下次普查工作质量提供可靠的依据。但如果在普查数据生产过程中的某一环节开展事后质量抽查,理论上评估结果可以作为该环节过程质量控制的依据,及时纠正本环节的数据质量问题,发挥必要的事中控制目的。五、本文对中国周期性数据质量评价的研究1.未来研究重点集中在实际业务部门,缺乏对未来未来普查的理论研究国外针对普查数据质量的评估研究主要建立在各自国家的政府统计基础上,结论适用于其特定的普查制度。例如一些国家的周期性普查采用邮寄调查为主,入户访问为辅;行政记录统计完善的国家,将行政记录资料用于普查数据质量评估。这些尚不能直接适用于我国当前的政府统计实践。改革开放以来,随着我国统计调查制度的完善,抽样调查受到政府统计部门的重视,现行普查制度下的三项普查均已建立了事后质量抽查,这为建立统一的事后抽查评估体系奠定了实践基础。但相比国外,我国有关普查数据误差的理论研究明显滞后。一方面,国内有关研究多由实际业务部门开展,偏重于从普查制度和组织管理过程进行研究,缺乏对这一问题理论层面的研究;另一方面,国内近年来相关研究范围主要限于人口普查,更多是对国外实践的解读和分析,将评估方法与普查数据生产过程相结合的理论研究不足。2013年2月,联合国统计委员会第44届会议上,《澳大利亚统计局关于拟定统计地理空间框架的报告》1提出各国政府统计部门应建立将社会经济信息联系到空间位置要素的能力,以增强统计信息的价值,而通过普查信息提供更多地理资料是其中一个重要驱动力。如果将数据汇总模式下的普查涵盖误差理论作为描述数据生产全过程对个体单元及其登记信息的时间和空间涵盖准确性的评判依据,与报告中提出的政府统计技术创新应用的发展趋势相吻合,表明未来有关普查涵盖误差的研究在政府统计部门将有着广阔的应用前景。而国外事后抽查作为一种普查数据质量评估途径的理论发展趋势表明,该途径需进一步结合普查数据汇总的涵盖误差机制创新评估理论。我国三大周期性普查的对象主要包括自然人和基本单位,调查实施均可被划分为清查和登记两大阶段2。根据调查对象的不同,事后抽查评估研究需要区分自然人和基本单位的涵盖误差机制特点;根据实施环节的不同,事后抽查评估除了对普查登记开展事后评估与质量控制外,还可以用于清查阶段的事中评估与质量控制的作用。因此,在我国现行的周期性普查制度下,可以以事后抽查为途径研究自然人和基本单位在普查数据汇总过程中的涵盖误差测量方法,为建立我国统一的普查事后抽查评估体系奠定理论基础。从理论上统一有关事后质量抽查的研究,有利于从普查数据生产全过程开展质量评估,更有利于寻找不同普查项目间影响数据质量的共性问题,制定相应的质量控制策略。2.扩大数据采集和处理人口数据从国外普查发展趋势看,政府统计基础较
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物业合同补充协议范本
- 石英手表定制采购合约
- 环境监测与评估服务
- 2024建筑工程联合承包合同范本
- 灰土预购合同模板
- 化学纤维的吸湿性与快干性研究考核试卷
- 样算正规租房合同范例
- 深圳零星装修合同范例
- 正规三方借款合同范例
- 活动房制作与安装合同范例
- 人教小学语文6上 单元易错读音词语归类
- 【苏泊尔企业存货管理问题及对策13000字(案例论文)】
- 计算机新技术学术讲座
- 《基于核心素养高中物理实验教学实施素质教育的研究》结题总结报告
- 《选煤厂安全规程》全文
- 统编版高中语文选择性必修下册《蜀相》课件整理
- 《婴幼儿行为观察、记录与评价》习题库 (项目三) 0 ~ 3 岁婴幼儿语言发展观察、记录与评价
- 工程伦理学知到章节答案智慧树2023年广东工业大学
- 2023年芒果TV春季校园招聘笔试参考题库附带答案详解
- 共享中国知到章节答案智慧树2023年上海工程技术大学
- 中国十大传世名画课件
评论
0/150
提交评论