版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于多重抽样框的连续性抽样估计方法研究
一、问题的提出在抽样实践中,随着社会经济现象的不断变化和发展,很多调查对象的总体也在不断变化和发展。为了能够及时反映调查总体的这种变化和发展,调查部门就需要对同一总体在不同时间上进行连续性抽样调查(SuccessiveSamplingSurvey),并定期公布调查结果,形成一系列时间序列统计数据。但是,在抽样调查理论及应用研究中,不管是理论研究者还是调查部门的实际工作者,往往更多地关注如何从调查总体中抽取一套有代表性的样本,然后进行合理的抽样估计,这就是所谓的一次性抽样调查(onetimesamplingsurvey)。对于实际价值更高的连续性抽样调查很少深入研究,国外学者一般就连续性抽样调查中出现的实际问题进行了有针对性的研究,实际部门中也开展了连续性抽样调查,如美国现时人口调查(TheCurrentPopulationSurvey)、加拿大劳动力与收入变化调查(CanadianSurveyofLaborandIncomeDynamics)等,代表性的有Patterson(1950)[1]提出了单水平轮换模式下的最小方差线性无偏估计量,Eckler(1955)[2]进一步研究了两水平及多水平轮换模式下的最小方差线性无偏估计量,并对比了不同轮换模式下的不同估计结果,Hansen,etal.(1955)[3]最早提出了K组合估计量,GurneyandDaly(1965)提出TAK组合估计量,Fuller(1990)[4]运用校准估计的方法,对原有的组合估计方法进行了修正,进一步提出AKC组合估计量等。国内学者对这一领域的系统研究很少见,仅有少数学者对某些抽样设计下的连续性估计方法问题进行了一些零散的研究,比如孙山泽和姜涛(2002)[5]研究了PPS抽样下的连续性抽样估计问题,张荷观(2006)[6]研究了整群抽样下的连续性抽样估计问题。传统估计方法都是针对轮换样本调查展开的一系列研究,陈光慧(2009)在其博士论文中对连续性抽样调查进行了全面研究。但在针对连续性抽样调查开展研究的文献中,基本上都是基于单一抽样框平台开展研究的,对于多重框情形下的连续性抽样调查问题很少涉及。基于多重抽样框进行抽样,可以解决单一样框覆盖不全的缺陷,从而不必花大力气构建十分完善的单一抽样框,可以达到节省抽样框编制成本,提高抽样调查效率的效果。国外对多重抽样框的估计理论研究已经有几十年的历史。Hartley(1962)[7]先对多重抽样框估计方法进行理论研究,提出了H估计量,Lund(1968)。对H估计量进行了改进,提出了方差更小的L估计量,FullerandBurmeister(1972)[9]在H估计量基础上提出了有效性更高的FB估计量,Bankier(1986),KaltonandAnderson(1986),Skinner(1991)等人分则提出了SF估计量。SkinnerandRao(1996)[10]给出了PML估计量。国内对于多重抽样框调查的理论研究十分少见。其中,金勇进博士(1996)[11]对双重抽样框的概念进行了简略的介绍,雷钦礼(2000)介绍了双重抽样框的抽样方法及筛选估计量的形式,贺建风、刘建平(2011a)[12]究了双重抽样框下的二阶段抽样估计方法,贺建风(2011b)[13]对双重抽样框估计方法进行了系统研究。但没有学者开展基于多重抽样框下的连续性抽样估计方法的研究。本文为了填补在这一领域理论研究的空白,对多重抽样框下的连续性估计方法进行系统研究。第二节给出了本文有关概念的基本记号并对连续性调查下总体结构表进行设计,第三节构建多项式分布的似然函数,并利用14种参数缩减方法,给出轮换样本下的估计方法及估计量计算的迭代过程,第四节则对全文的研究进行了总结与展望。二、记号及总体结构变动表设计(一)记号(二)总体结构变动表设计在连续性抽样调查中,随着时间的推移,总体的特征会不断地变化,而一般的估计量主要是用来研究总体在不同时期的这些变化情况。总体特征在时间上的变化,可以分为特征的变化与结构的变动。其中,总体结构变动估计可以应用于很多实际情况,如,在宏观经济分析中,研究人口在地区之间的流动,或劳动者就业状态的变动等都属于对总体结构变动的估计。对于总体结构变动的估计已有的研究基本上仅限于单一抽样框的视角,对于多重的情形还未涉及。本文将已有的总体结构变动估计方法推广到双重框抽样的情形,对于抽样框重数更高(大于2)的多重情形,可以在此基础上类推。为了表述的简单,下文中,我们将总体结构变动简称为总体变动。本文假定对每个抽样框均采取简单随机抽样方式,并且取样过程相互独立。在连续性抽样调查中,根据抽取样本的不同方式,可以将连续性抽样方式分为重复样本调查、固定样本调查、轮换样本调查和分列样本调查四种类型。其中,重复样本调查指样本选取在时间上相互独立,估计方法与一次性抽样调查下的情形一致。而固定样本调查的特征表现为在双重框的每个域中可以得到两期完全一致的被调查单位,且所有被调查单位的抽样权重系数相同,因此可以采用一次性调查的横截面估计方法。此外,分裂样本调查是固定样本调查与轮换样本调查的组合,解决了固定样本调查与轮换样本调查的估计方法问题,分裂样本调查情形下的抽样估计就容易实现。因此,下文主要分析轮换样本调查情形下的抽样估计方法。三、轮换样本调查的估计方法轮换样本调查(Rotatingpanelsurvey)是指样本单元在经过连续几轮的调查之后,将会退出调查,同时新的样本单元将会产生并开始接受调查。很多连续性调查均采用轮换样本调查的方式实施,如我国城市住户调查即采用轮换样本调查的方式,由城市住户构成的轮换样本连续调查三年,每年将轮换1/3的样本单元;美国现时人口调查也采用的是轮换样本的模式,每月的总样本由8个轮换组样本构成,每个轮换样本连续调查4个月,在接下来的8个月中退出调查,然后又连续调查4个月,最后永远退出调查。对轮换样本的估计较一般的一次性调查估计或上面介绍的固定样本估计更为复杂,其难点主要是有些被调查单位在不同调查期可能出现调查期无回答(WaveNon-response),即样本单位在某些调查期接受了调查,而在其他某些调查期又没有接受调查。由于调查期无回答的存在,连续性抽样调查中就必然出现某些样本单位只含有部分信息,也可以认为缺失部分信息。因此,需要组合具有完整信息的样本与具有部分信息的样本对连续时间下总体变动的情况进行估计。建立似然函数ChenandFienberg(1974)[14]提出获取总体变动数据的观测结果是一个两阶段过程,这里,我们沿用这一思想,将分析过程推广到双重框抽样的具体情形。在第一阶段,所有单位还未被观测,可以假定没有出现信息缺失的情况,在每个子域中,样本单位通过多项式抽样过程被分配到总体变动表的4个单元格中,其多项式概率如表3所示。对于抽样框B而言,可以得到类似的似然函数。在上文中,我们已经假定在抽样过程中,针对两个抽样框选取样本是相互独立的,所以将两个抽样框各自的似然函数直接相乘,即可得到双重框抽样情形下的总似然函数,其形式如下:显然上式的参数个数大于我们可以观测到的变量个数(表2的单元格数),这将使我们无法估计全部的未知参数。为了对未知参数进行有效估计,可以对待估参数个数进行缩减,以使样本信息满足参数估计的需求。(二)对参数进行缩减ChenandFienberg(1974)[14]提出了两种缩减待估参数的模型(如模型1、2),ElizabethA.Stasny(1986)[15]在此基础上,提出了另一种缩减待估参数的模型(如模型3)。根据抽样实践中实际情况出现的可能,我们具体考虑如下7个缩减待估参数的模型,后四个则是我们通过对前三个模型进行不同组合而得到的。模型1表示,在给定的调查期,个体的信息缺失概率取决于既定的调查期本身与在调查期内个体的类别;模型2表示,在给定的调查期,个体的信息缺失概率仅取决于既定的调查期;模型3表示,在给定的调查期,个体的信息缺失概率仅取决于调查期内个体的类别;模型4表示,在调查期t-1,个体的信息缺失概率取决于调查期本身与在调查期内个体的类别,在调查期t,个体的信息缺失概率仅取决于既定的调查期t;模型5表示,在调查期t-1,个体的信息缺失概率仅取决于既定的调查期t-1,在调查期t,个体的信息缺失概率取决于调查期本身与在调查期内个体的类别;模型6表示,在调查期t-1,个体的信息缺失概率取决于调查期本身与在调查期内个体的类别,在调查期t,个体的信息缺失概率仅取决于在调查期内个体的类别;模型7表示,在调查期t-1,个体的信息缺失概率仅取决于在调查期内个体的类别,在调查期t,取决于调查期本身与在调查期内个体的类别。对于双重抽样框的情形,我们还可以考虑采用如下两种常见的模式对未知参数实施更进一步的缩减,以求能够利用极大似然估计法求出极大似然估计量(MLE)。模式一,假定同一抽样框中不同域内的各分类的行信息缺失概率与列信息缺失概率分别相等。那么,在抽样框A中,有下列等式成立;这种模式常适用于对不同抽样框采用不同的数据采集方式的情况。例如,在名录框和电话框构成的两个抽样框系统中,进行数据搜集时,对前者实施邮寄问卷调查,对后者采取电话访问,那么所得的两套样本可能就会出现不一样的数据缺失概率。如果在同一抽样框中,由于数据搜集形式确定,则可以认为各子域的样本数据缺失概率一致。模式二,假定在同一域内,来自不同抽样框的各分类的行信息缺失概率与列信息缺失概率分别相等。在域ab内,有以下等式成立:从以上缩减参数总数量的模型可以看出,一般情况下,我们无法获得封闭形式的参数估计量。但是,如果我们利用对似然函数求偏导,并令其为0,再通过迭代过程可以获得参数的极大似然估计量。(三)求解极大似然估计量2.参数λ的MLE。对于参数λ而言,由于各模型的似然函数中仅包含参数λ的因式均不一致,所以对其估计相对前面两类参数较复杂,需要对不同的模型分别进行讨论。ChenandFienberg[14]通过迭代计算就前两种模型的单重抽样框调查情形给出了λ的MLE。本文将其迭代的方法拓展到双重框的情形,对于多重框同样适用,为了简化考虑,这里只分析双重框的情况。基于双重抽样框的情形,上一小节已提出了两种对未知参数进行缩减的常见模式。在模式一的情形下,对参数λ的估计在各抽样框分别进行。因此,对于来自于抽样框A的λ估计量而言,记:在模式二的情形下,对参数λ的估计在各子域分别进行。因此,对于来自于子域a的λ估计量而言,记:下面,针对各模型,分别给出λ的极大似然估计量的迭代过程。在模型1的情形下:显然,上式是一个封闭的形式,无需实施迭代计算,即可获得估计量的简单表达式。在模型3的情形下,为了求得参数λ的MLE,ElizabethA.Stasny(1986)[15]提出了如下迭代计算过程:在模型7的情形下,我们提出的迭代过程如下:四、结语及研究展望本文将多重抽样框方法引入连续性抽样调查领域,利用连续性抽样调查中传统的总体结构变动估计方法,对多重抽样框下的连续性抽样估计方法进行研究。文中假定对于所有抽样框均实施简单随机抽样,重点针对轮换样本调查,利用参数缩减模型给出了极大似然估计量,本文不仅将3种已有的参数缩减模型扩展到双重抽样框调查的情形,还创新性地增加了另外4种参数缩减模型,并结合双重抽样框的两个假定模式,合计14种情况,分别给出了有关参数的极大似然估计量。值得注意的是,对于连续性抽样的另外三类调查,即重复样本调查、固定样本调查和分裂样本调查并未展开分析,这主要是由于重复样本调查的估计方法与一次性抽样调查下的情形一致,固定样本调查可采用一次性调查的横截面估计方法,而分裂样本调查是固定样本调查与轮换样本调查的组合,故可以在本文的分析基础上进行类推。本文的研究内容主要是针对双重抽样框的情形,而且假定对所有的抽样框均实行简单随机抽
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 艺术创作材料供货合同
- 50MWp渔光互补光伏电站项目施工质量保证体系质量保证措施
- 吉安幼儿师范高等专科学校《工科大学化学-无机与结构化学基础B》2023-2024学年第一学期期末试卷
- 惠州卫生职业技术学院《数据结构与C语言》2023-2024学年第一学期期末试卷
- 城市地下管网施工总承包合同
- 体育机构与学校合作发展协议书
- 预防艾滋病教育工作计划
- 新房油漆装修合同范本
- 施工图设计管理流程
- 校本课程手工折纸教学计划
- 食品中副溶血性弧菌检验原始记录
- 山东中医药大学中医学(专升本)学士学位考试复习题
- 安全生产和交通安全学习记录
- 湘教版三年级科学上册期末复习题
- (精心整理)have与has练习题
- 海关廉政规定
- 高血压中医临床路径
- 关于审理保险合同纠纷案件若干问题的解答(二)
- 第四章 残积物及风化壳
- 《体验民主》
- 分布式光伏发电项目现场踏勘信息表
评论
0/150
提交评论