美国人口普查后独立组织一次调查估计覆盖误差率的估计_第1页
美国人口普查后独立组织一次调查估计覆盖误差率的估计_第2页
美国人口普查后独立组织一次调查估计覆盖误差率的估计_第3页
美国人口普查后独立组织一次调查估计覆盖误差率的估计_第4页
美国人口普查后独立组织一次调查估计覆盖误差率的估计_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

美国人口普查后独立组织一次调查估计覆盖误差率的估计

0全国真实人口数字与全国普查数字的差分离为了评估人类普查的质量,人们通常应在进行人口普查后,注意进行目的是评估人类普查质量的调查。根据本研究的结果,计算人类普查数据的误差率,即国家的实际人口数字与国家的实际人口数字之间的差异,以及该国的实际人口数字。那么怎样得到“真实人口数”呢?目前的做法是,在人口普查的事后质量检查中抽取样本,在样本中追溯人口普查时点的人口数并将其与每一样本单位在人口普查时登记的人口数两套资料结合在一起来构造全国“真实人口数”的估计量,称之为“双系统估计量”。本文将解读美国2000年人口普查以及即将到来的2010年人口普查中应用“双系统估计量”进行普查质量评估的做法,以期对我国这方面的工作提供参考。1“恢复和恢复”模型的应用于人口研究的基本概念1.1多次捕捞的样品的估计“双系统估计量”是依据“捕获-再捕获”模型构造的。“捕获-再捕获”模型叙述的是:我们想要知道一个封闭的鱼塘中有多少条鱼,为此,先做一次随机的捕捞,把捕到的每一条鱼都做上记号,然后把它们放回鱼塘,充分混匀后,再做一次随机捕捞,清点此次所捕的鱼中有多少条是做上记号的,用这些数据便可得到对鱼塘中鱼的数目的估计。假若两次捕捞的结果如表1:用上面的数据得到鱼的数目N的估计为280-288由式(1)给出的估计量是多项分布未知参数的一个极大似然估计量。在这里,未知参数是样本量N,所依据的多项分布样本数据是一个不完备四格表(缺少x22)。既然“捕获-再捕获”问题引用了多项分布的估计量,那么,“捕获-再捕获”的实际行为就应当符合多项分布的试验背景。这主要包括以下要点:第一,每一次捕捞,必须要保证鱼塘里所有的鱼都有可能被捕到,并且有相等的被捕到的概率。第二,鱼塘中的每条鱼进入表1同一个格子的概率相等,进入不同格子的概率不一定相同。第三,鱼塘封闭。即鱼塘中的鱼不会增加也不会减少。第四,两次捕捞相互独立。1.2做到根据一个国家的人口中有小数构造全国人口数字的双系统估计量的基本思路是,把人口普查时对人口的登记看作第一次捕捞,把事后质量检查时对人口普查时点上人口的追溯登记看作第二次捕捞,把在两次登记中都出现的人口看作第二次捕到的做上记号的鱼,把总体真实人口数看作鱼塘中鱼的数目。然而,一个国家的人口与一个鱼塘中的鱼是显然有不小的差别的。怎样使人口调查满足“捕获-再捕获”模型的理论要求呢?1.2.1ccm方法“捕获-再捕获”模型要求所有的鱼具有相同的被捕到的概率。然而,不同的人口在人口普查中(以及事后质量检查中)被登记的概率并不相同,例如,老人和儿童被登记的概率与劳动年龄的人口被登记的概率就不相同,前者要比后者大。这样,“捕获-再捕获”模型的理论要求便不能得到满足。怎样解决这个问题呢?美国2000年人口普查事后质量检查中是这样做的:把人口总体按照每个人被登记概率的不同来分层,划分成若干个“子总体”,分别在一个个“子总体”中应用“捕获-再捕获”模型。在实际操作中,这件分层的事情是在事后质量检查的样本被抽出后,在样本中进行的,所以叫做“事后分层”。在美国2000年人口普查事后质量检查实施方案中选择了7个与被登记概率有关的标志,用这7个标志做交叉分层,形成了416个事后层。对样本做事后分层,实际上相当于对总体进行了相应的分层。由于调查工作是在各州分别进行的,所以,实际上是在每一个州,把全州人口总体划分为416个层(后面把其中的某一层记做v层)。美国2000年人口普查事后质量检查实施方案命名为ACE方案。ACE的英文全文是AccuracyandCoverageEvaluation。在这里,“Coverage”的本意是“覆盖”。将其用于人口统计的时候,意思是什么呢?文献中指出,在人口统计中,“Coverage”是当人们谈到对“人头”计数的准确性方面存在的诸如计数不足、额外计数以及人口成员缺失等等错误的时候所使用的一个人口统计学的一般术语。所以,笔者认为,把它翻译成“计数覆盖正确性”可能比较合适。事后分层方法在实际应用中有明显的局限性:由于每增加一个分层标志就会将每一个事后层的样本量减少一半,因而,分层标志不能选得太多,否则,在一定的样本量下,可能会导致有的事后层样本量过少甚至没有样本单位。在此种限制下,一些重要的分层标志不得不被舍弃(例如,地方政府对待人口普查的态度无疑会影响居民被登记的概率,ACE方案不得已把它舍掉了)。针对这个缺点,美国2010年人口普查事后质量检查实施方案(命名为CCM方案,CCM的英文全文是CensusCoverageMeasurement)设计了用罗吉斯蒂回归模型来实现事后分层目标的方法:把我们选择的事后分层标志全部设置为罗吉斯蒂回归模型的自变量,该多元自变量的一个值等同于这些变量交叉分层体系下的一个组格(一个事后层)。罗吉斯蒂回归方法与直接进行事后分层相比,优越性在于:它可以不受样本量的限制选择较多的变量;它可以直接使用连续型变量(而不必要将其降级为分类变量)。1.2.2考虑未来克氏原螯虾人口密度与普查时正确登记的人数的双系统估计量模型人口普查的事后质量检查工作是抽取样本来进行的。现在,为便于说明问题,我们暂时先假定人口普查的事后质量检查工作是重新对全国所有的普查小区作调查,调查内容是追溯它们在普查时点上的人口数。现在,(拿美国2000年ACE调查来说)州的某一个事后层相当于一个鱼塘。文献(7.1-7.2)中给出了与“捕获-再捕获”模型式(1)相对应的(州的)v事后层真实人口数目估计量的概念性结构式为式(2)中,“普查时正确登记人数”不同于“普查登记人数”。从后者中剔除了错误登记人数之后才是前者。所谓错误登记人数是指,重复登记人数,本不应登记却进行了登记的人数(如,在普查时点以后出生却被登记为普查时点人口的人数),等等。之所以在式(2)中不使用“普查登记人数”而使用“普查时正确登记人数”,是因为,在“铺获-再捕获”模型中只有遗漏(未被捕到)问题,而不会出现错误登记问题。美国2010年CCM方案所构造的仍然是基于“捕获-再捕获”模型的双系统估计量。在该方案所用的罗吉斯蒂回归方法中,首先分别以每一个个人在普查中被正确登记的概率以及在事后质量检查中被观察到并且同时在普查中被正确登记的概率(称之为匹配概率)为因变量建立两个罗吉斯蒂回归模型(自变量是我们选出的影响登记概率的若干个因素)。现在我们暂时假定建立模型所依据的样本是全国人口的每一个人(实际操作中当然只能使用从中抽出的一个概率样本,不过,那是后话)。依据样本,可以获得这两个模型参数的估计。这样,就得到了两个预测模型。把某人的诸自变量取值代入预测模型,可计算出在普查中正确登记的概率的模型预测值(记作πce(j))以及匹配概率(记作πm(j))的模型预测值。模型预测值是诸自变量取该种值条件下所论概率的数学期望值。由文献(89-90),写出CCM方案下全国真实人口数目估计量的概念性结构式如下:式(3)中,CDD是普查中所有符合普查数据定义者人数。所谓“符合普查数据定义的人”指的是至少填写了人口普查表所有调查项目(姓名、性别、种族、年龄、拉美血统、与户主的关系)中的两个的人。式(3)中πce(j)和πm(j)的下标ce是CorrectEnumeration的缩写,翻译为“正确计数”,下标m是Match的缩写,翻译为“匹配”,下标j表示“第j人”。现在来解读式(3)与式(2)的联系。πce(j)和πm(j)是两个个人行为概率的期望值,它们也就是j人所应该归属的事后层(层标记作v)的层概率。用整个人口总体来估计这两个概率,写出(我们略去估计量的记号)于是,式(3)可以写做式(6)∑υ内是v层的真实人口数的估计量,它和式(2)是一致的。2利用错误进行人口普查的事后质量检查是从总体的街区群中抽取概率样本来进行的。为解读后面的计算公式,必须要了解ACE和CCM中的抽样设计,因为,公式中要用到的样本单位进入样本的概率是同它被抽取的过程紧密联系在一起的。2.12样本设计1000年4月美国有50个州,外加哥伦比亚特区,相当于共有51个州。在每一个州,分别独立抽取样本。各自都是实行三步抽样。2.1.1采用独立的安于基层街区群的街区群对州内的全体街区群,按其规模(大、中、小)分层(另外单列“由美洲印第安人居留地街区群组成的层”)。在每一个抽样层,分别使用等概率等距(视作简单随机)抽样方式以街区群为单位抽取样本。2.1.2街区群层的划分在第一步抽样所得到的样本的各层中,分别作不同的进一步分层:在中型街区群层、大型街区群层中进一步将街区群划分为6个层;在小型街区群层中进一步将街区群划分为9个层;在“由美洲印第安人居留地街区群组成的层”中不再进一步分层。在经过细分后的每一个抽样层,分别使用等概率等距(视作简单随机)抽样方式以街区群为单位抽取样本。2.1.3研究样本的获取在进行第三步抽样的操作之前,先在州的范围内将第二步样本中的街区群划分为7个层。另外,每一个街区群都有一份在普查时登记的居住单位地址目录,将其称作E样本;与此平行地,在ACE第一、二步样本抽出后,要对每个街区群中的居住地址进行调查,调查内容是对普查时在该地址居住的居住单位进行回溯性登记(若居住单位现在已经迁移,则由邻居代为登记),最后形成一份与E样本独立的居住单位ACE地址目录,称之为P样本。第三步抽样视街区群规模大小做不同的处理。判定街区群规模大小,以ACE调查编制的居住单位地址目录(即P样本)为准。2.1.3.1个居住区组的单位数不超过80个,p样本区单位数量不足80个此时不再进行第三步抽样。2.1.3.2号区组的单位数超过80个单位此时,先从P样本中抽取子样本,然后,再产生E样本的子样本。(1)小区群内片划分的数和精密度为实施抽取P样本子样本的操作,先在P样本居住单位名单的单位数目均超过80的街区群(今后简称为“大街区群”)内将居住单位划分为“片”。“片”由大街区群内邻近的若干居住单位组成,片的划分分别在各个大街区群内单独进行。划分片的时候,首先分别在各个大街区群内计算需要划分的片的数目(在某个大街区群内计算这个数目的方法是:把中型街区群的居住单位通过各个抽样步骤以后的总抽样比率作为大街区群的总抽样比率的标准,用以推算在该大街区群第三步抽样应当抽取的居住单位数目,再将所得结果除以该街区群P样本居住单位名单的单位数目得到该大街区群第三步抽样需要的抽样比率,如果它小于0.5那末它的倒数,如果它大于0.5那末用1减去它之后的倒数,便是在该大街区群内需要划分的片的数目);然后分别将各个大街区群P样本居住单位名单的单位数目除以该街区群内需要划分的片的数目,得到各街区群各自需要划分的片应包含的居住单位数目。最后,分别在各街区群内用图上作业与现场勘查相结合的方法具体进行片的划分。显然,各街区群中,片的大小是不一样的。以州为范围,分别在事先划分的7个抽样层中,分层独立以片为单位,等概率等距抽取样本(注意,抽样操作是在整个层中而不是在街区群中进行)。这样,便得到了全州的大街区群P样本的子样本。(2)是否与ad名单有连接的普登记居住单位的片当州内各个大街区群完成了划分片的操作之后,每个街区群中E样本的居住单位(也就是普查登记的居住单位)应当相应地分别纳入适当的片。用图上作业与现场勘查相结合的方法将普查登记的居住单位名单与ACE登记的居住单位名单相比对,会发现普查登记的居住单位名单中的居住单位有两种情形。一种情形是:有些居住单位在ACE登记的居住单位名单中也可以找到它们,称这些居住单位与ACE名单有连接;另一种情形是:有些居住单位在ACE名单中找不到它们,称这些居住单位与ACE名单无连接。显然,与ACE名单有连接的那些普查登记居住单位,顺理成章地进入与之相连接的ACE居住单位所在的片。至于与ACE名单无连接的那些普查登记居住单位,为了将它们各自纳入适当的片,首先对所有的普查登记居住单位(包括与ACE有连接的单位)按普查区代号、街道名称、房屋号码(或普查区代号、地理位置)分类,于是,无连接单位便随同本类中的有连接单位进入其所在的片。大街区群P样本的子样本抽出之后,所抽中的片中已被纳入的普查登记居住单位便成为E样本的子样本。偶尔会有这样的情况,在一个街区群中被选的片(一个或多个)里面的与ACE名单无连接的普查登记居住单位的数目超过了80,此时,进一步从中(用等概率等距方式)抽取40个居住单位作为E样本的最终的子样本。这里,用40作为进一步的次级抽样所用样本量的前提是:这个进一步的次级抽样的抽样比率大于25%。为了避免抽样权数的过大变化,规定这个进一步的次级抽样的抽样比率不得低于25%。如果在某一个街区群,按照这个规定算出的需要抽取的进一步的次级样本的样本量大于40,那么,就把这个街区群中所有的(不只是被抽出的片的)与ACE名单有连接的普查登记居住单位作为由该街区群所产生的E样本的子样本,同时删去在该街区群中被选的片里面的与ACE名单无连接的普查登记居住单位。2.1.4e样本的界定今后称样本中ACE居住单位为P样本居住单位,称样本中普查登记居住单位为E样本居住单位。严格地说,P样本指的是整个有限总体的ACE调查(假定进行了全面调查)居住单位,E样本指的是整个有限总体的普查登记居住单位,它们是无限超总体的随机样本。现在这里所说的样本是有限总体的概率样本,应该叫做P样本、E样本的子样本(有限总体概率抽样中第二步、第三步抽样所得到的次级样本则应叫做次级子样本)。我们为了便于叙述,把有限总体概率样本简单地叫做“P样本”、“E样本”。式中在各步抽样中的概率的计算,须根据所论各个居住单位被施行的不尽相同的具体抽样操作来具体考虑。2.22各州的测算、分配和抽样美国2010年CCM方案采用与2000年ACE方案基本相同的抽样设计,在样本量的测算、样本量在各州之间的分配、样本的抽取过程等这几个方面各自与2000年方案都仅仅有一些微小的差别。其中,关于样本的抽取过程,2010年CCM方案中对大型和中型街区群取消了第二个抽样步骤,对小型街区群则保留了第二个抽样步骤。3采用有限概率模型进行估计3.1限系统的估计美国2000年ACE方案所作的设计是:在经过事后分层的有限总体概率样本的每一个事后层构造双系统估计量;再将每一个事后层合成来估计整个州(或州中的县、普查制表区、街区)的真实人口数;在此基础上估计人口普查净遗漏率(或净重复率)。3.1.1在“创普”的基础上增加了“普式(2)给出了(州的)v事后层真实人口数数字的双系统估计量的概念性结构式。下面用普查以及ACE调查的有关统计指标把式(2)进一步具体化。一个普查小区在普查时点与进行事后质量检查时这段时间内人口状态可能会有变化:一些人在这个期间内从外部移入本小区(称作向内移动者);另外一些人在这个期间内从本小区移出(称作向外移动者);还有一些人始终属于本小区(称作无移动者)。显然,式(2)中分式的分子“事后质量检查时追溯的普查时点人数”应当是“无移动者人数+向外移动者人数”。但是,向外移动者的信息若由他所在原居住地的邻居来提供,难免会有偏差,到他的迁入地去核实又不方便,因此,一个普查小区的向外移动者人数往往不准确。为了回避这个缺陷,美国ACE方案规定用“向内移动者人数”代替“向外移动者人数”。这种代替在全国范围内来看是合理的,因为,若把“出国”这类向外移动者忽略不计,那末,全国总计的“向内移动者人数”与“向外移动者人数”是相等的。与分子相对应,分母自然应该是“无移动者中与普查登记匹配的人数+向内移动者中与普查登记匹配的人数”。但是,这里的第二项其实没有数据,因为,在进行普查登记时,向内移动者们还没有来到本小区。为解决这个问题,美国方案规定用“向外移动者的匹配率”来推算这里所需要的数字。即,“向内移动者中与普查登记匹配的人数”等于“向外移动者中与普查登记匹配的人数”与“向外移动者人数”的比值乘以“向内移动者人数”。于是,式(2)就变成了下面的式(9)。式(9)等号右边的各项,是人口有限总体的总体值,它们其实都是不知道的。现在抽取了有限总体的一个概率样本,那么,就用概率样本来估计式(9)中有限总体的各个总体值。首先构造“v层人口总体普查时正确登记的人数”的比估计量。即其次,式(9)等号右边的其他各项也都改为用有限总体概率样本构造的估计量。于是,式(9)改变为下面的式(11)。式(11)中包含有7个估计量,它们都是总体总值估计量,有共同的构造形式。假若把h层的一个街区群在其中被划分的事后层v观察到的标志值记为yvhi(对于大型街区群,进行了以居住单位“片”为抽样单位的第三步抽样,那么,这里的yvhi表示用本街区群第三步样本构造的本街区群总值的估计量),ACE方案给出了事后层v的总体总值(指双系统估计量中7个组成部分中的某一个)的下列线性估计量:式(12)中,v表示某一个事后层;h表示在抽取第一步样本时以街区群为单位事先划分的抽样层;g表示在总体的每一个h层内以街区群为单位进一步划分的抽样层(划分的方法如第二步抽样时的分层设计);i是街区群的代号;nh是第一步抽样时在h层抽出的样本街区群数;xhg指示nh样本中被分入g层的那些街区群(称之为“示性因子”,单位属于所指示的情况取1,否则取0);Ihgi也是示性因子,它指示nh样本中被分入g层的街区群中进一步被抽入第二步样本的那些街区群;αhgi是抽样权,它的表达式为式(13)中第一个因子Whi是层h的街区群i被抽入第一步样本的概率的倒数,第二个因子的分子是层h的街区群被抽入第一步样本的数目总体值的估计量,第二个因子的分母是层h的街区群被抽入第二步样本的数目总体值的估计量,分子与分母之比是层h的街区群i在被抽入第一步样本的条件下被抽入第二步样本的概率的倒数,两个因子的乘积是层h的街区i被抽入第二步样本的总概率的倒数;总之,式(12)等号右边的第一项是依照街区群被观察到的标志值yvhi计算的事后层v的某种(双系统估计量中7个组成部分中的某一个)总体总值的估计量。在ACE方案中规定,假若在人口普查时把属于本街区群的一个居住单位错误地登记在相邻的另外街区群,或是把属于相邻街区群的一个居住单位错误地登记在本街区群,都不算作普查错误。为此,在完成了第二步抽样之后,要抽选样本中的一些街区群,在这些街区群的相邻区域寻找是否有上述情况。这种工作被称之为“目标延伸搜索”。在ACE方案中,把全国进入第二步样本的11303个街区群划分成三个部分(子群),用c表示。其中,c=1子群不进行目标延伸搜索;c=3子群全体进行目标延伸搜索;c=2子群抽取一部分街区群进行目标延伸搜索(这三个子群已经打破了h层、g层的界限,不是它们的次级层)。式(12)等号右边第二项中,Δvhi是h层的一个街区群在其中被划分的事后层v进行了目标延伸搜索以后的校正量;shic是nh样本中i街区群是否属于c=2子群(或c=3子群)的示性因子,αhic是nh样本中i街区群能否被选为进行目标延伸搜索的示性因子,通过这两个示性因子,使得式(12)等号右边第二项仅仅是对整个总体(某一个州)第二步样本中进入目标延伸搜索的街区群标志值求和;是i街区群在进入第二步样本且属于c子群条件下进入目标延伸搜索的概率的倒数,它的表达式为式(14)的分子是总体(某一个州)中进入第二步样本且属于某一个c子群的街区群的数目,分母是总体(某一个州)中进入第二步样本属于某一个c子群的街区群中被选进行目标延伸搜索的街区群的数目;总之,式(12)等号右边第二项是进行目标延伸搜索工作之后事后层v的某种总体总值校正量的估计量。利用式(12)分别算出事后层v的双系统估计量中7个组成部分的估计值,将它们代入式(11),便得到(州的)v事后层真实人口数的双系统估计值。在ACE方案中,式(11)方差的近似估计是用大折刀方法给出的。“大折刀”方法的一般程序是:将计算估计量所用的样本随机地划分成单位数目相同的K个组,轮流地从样本中切掉一个组k(k=1,2,…,K),用剩余的样本单位依照与相同的计算公式计算估计量,全部操作完成之后用下面的公式计算方差的估计量:其中的定义为ACE方案中,第一级样本的样本量29136个街区群,在使用“大折刀”方法时将样本划分了K=29136个组,每组1个街区群。每一次切除一个组(第一步样本的1个街区群)之后,用余下的K-1个街区群计算(复制)式(12)得到式(11)中所需要的7个估计量,然后将复制结果代入式(11),算出(复制出)在该次切除条件下的式(11)的值,就是式(16)中的。关于计算的更详细的问题,可阅读文献(7.14-7.16)。3.1.2合成法修正估计值的计算ACE方案设计的把事后层的估计合成为某一级别区域(州、县、普查制表区、街区)估计量的方法如下:首先,用式(11)所给出的“真实人口数字”估计量计算事后层v的州一级的“人口普查数字修正因子”。它是:ACE方案在进行区域人口数字估计的时候,假定同一个事后层的各个街区“人口普查数字修正因子”相同。在此假定下,事后层v的州、各个县、各个普查制表区、各个街区的“人口普查数字修正因子”统一都是由式(17)计算出来的同一个值,今后统称为“事后层v的人口普查数字修正因子”。然后,用事后层v的上述“人口普查数字修正因子”估计值推出该事后层州、各个县、各个普查制表区、各个街区的“真实人口数字”的估计值(称之为“合成法修正估计值”)。计算公式为:最后,把用式(18)得出的州的、某县的、某普查制表区的、某街区的所有事后层的计算结果相加汇总,便得出“整个州、州中某县、州中某普查制表区、州中某街区真实人口数字的合成法修正估计值”。关于“整个州、州中某县、州中某普查制表区、州中某街区真实人口数字的合成法修正估计量”的方差的估计方法,可阅读文献(8.1-8.5)。3.1.3域的人口普查净编码中心把整个州、州中某县、州中某普查制表区、州中某街区统一记做g区域。g区域的人口普查净遗漏率用下面的式(19)定义(当计算结果为负数时,其绝对值表示净重复率)。由于“真实人口数”使用的是估计量,所以式(19)是所定义的“率”的估计量。把式(19)的分母看作常量,求该式的方差,得到3.2美国2010年的ccm方案3.2.1罗吉斯蒂回归模型的建立及模型拟合美国2010年CCM方案是通过罗吉斯蒂回归方法来达到事后分层的要求并完成基于“捕获-再捕获”模型的双系统估计量的构造。基本步骤是:首先分别以个人在普查中正确登记的概率和匹配概率为因变量,以2000年ACE方案中所用的事后分层标志为自变量建立两个罗吉斯蒂回归模型;然后依据样本数据获得这两个模型参数的估计,从而得到两个预测模型;再后把样本中某人的诸自变量取值代入预测模型,计算出样本中每个人在普查中正确登记的概率的模型预测值πcе(j)和匹配概率的模型预测值πm(j);最后用这两个模型预测值的样本所有人的数据构造总体真实人口数目的估计量。3.2.2分组标志的设置假若选用2000年ACE方案事后分层标志中的“种族/拉美血统与居留地的交叉”、“年龄与性别的交叉”,“房屋所有权”这3个项目作为罗吉斯蒂回归模型的自变量(这是CCM方案所使用的诸种自变量设置计划中的一种)。在ACE方案中,第一个分组标志下设置了7个组,具体是:(1)居留地上的美洲印第安人或阿拉斯加土著居民,(2)非居留地上的美洲印第安人或阿拉斯加土著居民,(3)拉美血统居民,(4)非拉美血统黑人,(5)土著夏威夷人或太平洋岛居民,(6)非拉美血统亚裔人,(7)非拉美血统白人或其他人;第二个分组标志下设置了7个组,具体是:(1)18岁以下男性和女性,(2)18-29岁男性,(3)18-29岁女性,(4)30-49岁男性,(5)30-49岁女性,(6)50岁以上男性,(7)50岁以上女性;第三个分组标志下设置了2个组,具体是:(1)房屋所有者,(2)非房屋所有者。将三个分组标志交叉组合,形成98个组,从中略去一个,在罗吉斯蒂回归模型中设置97个哑变量形式的自变量如果单位是第111组,取值1,否则取值0;X2-如果单位是第112组,取值1,否则取值0,等等)。3.2.3基于采样区设置的匹配概率关于这个问题,文献中做了概略的交代,我们在这里进行解读。记Pcе,j∈E为E样本中的某人j正确计数(CorrectEnumeration,作下标时缩写为ce)的概率,记Pm,j∈P为P样本中的某人j匹配的(Match,作下标时缩写为m)概率。由于所谓“正确计数”指的是一个人在普查中是否正确地在他应该进行被登记的地点进行了登记,所以,这应该是对E样本中的人进行的观察,正确计数概率中的j要属于E样本;所谓“匹配”指的是察看在事后质量检查中被登记的一个人是否在普查中也进行了相应的登记,所以,这应该是对P样本中的人进行的观察,匹配概率中的j要属于P样本。Pcе,j∈E和Pm,j∈P的取值规则如下:前面说过,罗吉斯蒂回归模型的参数估计应当用整个的人口有限总体充当样本,然而,现在我们所观察到的是人口有限总体的概率样本。为满足罗吉斯蒂回归模型参数估计用整个人口有限总体充当样本的要求,需要对观察到的有限总体概率样本数据进行加权,使其“上升到”有限总体层次。为此,首先计算j人所在街区群(BlockCluster)的用抽样权数加权的加权平均概率。它们是:式(23)中,我们把cell译做“集区”,这个术语来自ACE方案的下列工作环节:完成第二步抽样之后,要在各个街区群的普查登记的居住单位名单(E样本名单)与ACE调查登记的居住单位名单(P样本名单)之间进行“居住单位初始比较”(通过计算机操作以及案头手工操作),一是仔细地把两个名单中都有(称之为匹配)的居住单位挑出来,二是发现在同一个名单中的重复居住单位名称,三是把各种可疑而又无法由计算机或手工操作落实的问题送到现场去以便通过后续调查加以确认。在居住单位初始比较的基础上,把居住单位(相应地连同居住单位内的人)划分到7个互斥的并且涵盖了整个总体的称之为“初始比较编码群”的集区(cell)中去,这7个集区是:1=匹配但需要后续调查;2=可能匹配;3=家庭中有一部分人没有匹配需要后续调查;4=整个家庭没有匹配需要后续调查,家庭名称不重复;5=不匹配,来自名称重复的家庭;6=在后续调查之前状态已能确定;7=比较信息不足。这就是“集区”的来源。式(23)中其他记号继续说明如下:cell(j∈E)表示E样本中的某人j所在的集区;Pce,cell(j∈E)表示E样本中的某人j所在集区平均的正确计数概率(称之为E样本中的某人j修正的正确计数概率);∑j∈cell表示在集区范围内对人(j)求和;ωE,i(j∈E)叫做抽样权数,它是E样本中的某人j人所在的居住单位i进入E样本的概率的倒数,居住单位i进入E样本的概率用式(8)根据它本身经历的抽样过程计算。式(24)有关记号的含义与上面相仿,不再赘述。式(23)给出了一个集区中属于E样本的人的平均正确计数概率,在估计罗吉斯蒂回归模型参数的时候,把它当作该集区每个人的正确计数概率(称之为每个人“修正的”正确计数概率)来使用。把式(23)应用到所有的集区后得到样本中所有属于E样本的人每个人修正的正确计数概率。同理,把式(24)应用到所有的集区后得到样本中所有属于P样本的人每个人修正的匹配概率。分别记Pce,cеll(j∈E)的罗吉斯蒂变换和Pm,cеll(j∈P)的罗吉斯蒂变换为ycе,j∈E和ym,j∈P。即用ycе,j∈E和ym,j∈P的总体估计量的加权数值作因变量,分别写出E样本的正确计数概率罗吉斯蒂回归模型式(27)和P样本的匹配概率罗吉斯蒂回归模型式(28)。依据样本资料用加权最小平方法来估计模型中的参数,得到罗吉斯蒂回归函数的估计式在上述过程中,用经过加权的值估计模型中的参数,所得到的估计量可以视为用有限总体所有人的资料构造的估计量,这样就满足了罗吉斯蒂回归模型参数估计用整个人口有限总体充当样本的要求。3.2.4计算模型预测值将样本中某一个j∈E的X1、X2、…、X97的值代入式(29),算出相应的,将其代入式(25),求得j∈E人正确计数概率的模型预测值,记作;同样,将样本中某一个j∈P的X1、X2、…、X97的值代入式(30),算出相应的,将其代入式(26),求得j∈P人匹配概率的模型预测值,记作。3.2.5降阶模型的确定文献中给出了CCM方案中区域(州、县,等等)真实人口数的五个估计量。第一个估计量式(31)是式(3)所给出的估计量的估计式。在那里,分式的分子和分母是用人口有限总体资料估计罗吉斯蒂回归模型后算出,而这里是用人口有限总体的概率样本估计罗吉斯蒂回归模型后算出。在那里已经论证过式(3)的实质是基于“捕获-再捕获”模型的双系统估计量,现在,式(31)自然具有相同的实质。式(31)中,是普查中所有数据定义者人数,式中的含义是,其中的指的是将普查总体中所有数据定义的人的X1、X2、…、X97的值代入式(29)或式(30)所算出的与整个有限总体中每个人相应的值。第二个估计量显然,式(32)是式(31)的线性估计量。在那里,是将普查总体中所有数据定义的人的X1、X2、…、X97的值代入式(29)或式(30)算出与该有限总体每个人相应的值,而这里的是仅仅将有限总体概率样本中的人员的值代入式(29)或式(30)算出来的;这里的加权和是用有限总体概率样本中的E样本构造的关于式(31)的线性估计量。第三个估计量文献中对这个估计量作了如下说明:“第三个估计量类似于第二个估计量,因为它也是只是使用样本数据。在这个估计量中用E样本每个人的正确计数概率代替了(第二个估计量中的)来自模型的预测值。另外,这里的匹配状态预测概率是用E样本的每个人来估计的。如果只使用样本数据,这个估计量优于第二个估计量,因为样本中的错误计数被指定为正确计数的0概率。在这里,wE,i(j∈e)是E样本中j人的抽样权,Pce,j∈E是E样本中j人的正确计数概率,是匹配概率的模型预测值。”笔者考虑,罗吉斯蒂回归模型旨在完成相当于ACE方案中事后分层的工作,这个估计量中的Pce,j∈E没有经过罗吉斯蒂回归模型的“加工”,那么,估计量就是对一个未经过事后分层的总体构造的,这显然有悖于“捕获-再捕获”模型的基本要求。第四个估计量文献中指出,若在的基础上构造比率估计量,将会减小偏斜、降低方差,并对比率估计量作了文字描述,这就是第四和第五两个估计量。文献中未给出表达式,笔者通过对文献的解读,在这里写出它们的表达式。第四个估计量为第五个估计量式(34)和式(35)中,CDD是人口普查总体的数据定义者人数,CDD(i)是第i街区群的数据定义者人数,∑i∈Esample是在E样本中对各个街区群i求和,是在街区群i中对各个有数据定义的人j求和。关于上述5个估计量的方差,CCM方案规定都使用“大折刀”方法来估计。在使用“大折刀”方法时,该方案把样本划分成K=100个随机组,而形成100个随机组的方法是,把样本单位编号最后二位数字相同者分入同一组。3.2.6人口有限总体模型的估计量与匹配概率罗吉斯蒂回归模型中的自变量是那些会影响被正确计数概率(以及匹配概率)的变量。事实上,2000年ACE方案中用于事后分层的各个分组标志就是这些变量。现在的问题是,即将在2010年实施的CCM方案中所使用的罗吉斯蒂回归模型是否有必要把那里的所有的事后分层标志都设置为模型的自变量?可否删去一些变量以便使模型变得精简些?当然,前提是这种精简不能影响模型的预测功能。为了回答这个问题,目前已完成的CCM方案设计初始研究中安排了这样一个环节:罗吉斯蒂回归模型选择的探索性研究。在这个环节中,研究人员设计了6个罗吉斯蒂回归模型(本文3.2.2小节选用的是其中的一个),其中有一个包含了ACE方案中用于事后分层的全部分组变量,另外的5个是删去了这些或那些变量以后的不同的精简模型。他们用2000年数据资料分别对6个模型进行试算,然后根据试算结果使用判别性统计量对6个模型的预测功能进行了评估。下面对CCM方案选择罗吉斯蒂回归模型时所使用的判别性统计量进行解读。前面说过,应用罗吉斯蒂回归模型构造总体真实人口数目估计量的过程:用样本资料估计模型的参数得到回归方程估计式;把样本中j人的自变量值代入方程估计式,得到j人正确计数概率和匹配概率的模型预测值;用样本所有人的模型预测值构造总体真实人口数目估计量。j人正确计数概率(和匹配概率)的模型预测结果是随机变量。一个罗吉斯蒂回归模型的预测功能如何,所要看的是,用该模型得到的第j人正确计数概率(和匹配概率)的模型预测结果不确定性的大小,当然,它们其实也就是第j人“是否正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论