![分层抽样下样本替换理论模型研究_第1页](http://file4.renrendoc.com/view/a13becfead539915285eb00764aade2a/a13becfead539915285eb00764aade2a1.gif)
![分层抽样下样本替换理论模型研究_第2页](http://file4.renrendoc.com/view/a13becfead539915285eb00764aade2a/a13becfead539915285eb00764aade2a2.gif)
![分层抽样下样本替换理论模型研究_第3页](http://file4.renrendoc.com/view/a13becfead539915285eb00764aade2a/a13becfead539915285eb00764aade2a3.gif)
![分层抽样下样本替换理论模型研究_第4页](http://file4.renrendoc.com/view/a13becfead539915285eb00764aade2a/a13becfead539915285eb00764aade2a4.gif)
![分层抽样下样本替换理论模型研究_第5页](http://file4.renrendoc.com/view/a13becfead539915285eb00764aade2a/a13becfead539915285eb00764aade2a5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分层抽样下样本替换理论模型研究
一、固定点连续调查制度的弊端在实践社会经济活动中,为了了解中国国情的国力,研究随着时间的推移而动态发展的社会经济现象,传统的具体调查(也称联合调查)不能满足人们对统计信息的及时需求。相反,连续抽样日益普遍,以获得具有特定周期间隔的数据,如中国当前的城市人口调查和农村人口调查。样本轮换制度是伴随着固定点连续抽样调查制度发展而来的。固定点连续调查制度是我国定期抽样调查发展初期采用的方法,这种制度有其客观需要,但同时也存在不少弊端,首先,固定点调查制度往往导致住户调查中基期样本资料到报告期时,已经失去了对总体的代表性。其次,对同一类型资料长期反复调查也会使被调查者受到调查时所得到的信息的影响,改变行为方式,使提供的数据缺乏真实性和代表性。最后,随着固定点调查时间的延长,这种样本对总体的代表性下降即“样本老化”现象会日益严重。我国的城市住户调查和农村住户调查在开始调查的前几年都采取的是固定点调查制度,后来慢慢发展为样本轮换制度,即根据样本的老化程度,在被调查期剔除掉老化样本的同时注入新鲜有活力的新样本,以获取报告期的准确资料。随着社会经济的发展,样本轮换的应用领域越来越广,几乎可适用于所有的长期性连续性抽样调查。这是因为样本轮换既可以在一定程度上保证资料的动态可比性,又可以保证资料的及时性、有效性和准确性,同时还能节省人力、财力、物力。所以,样本轮换已成为现实社会经济统计中普遍采用的方法。二、关于研究(一)样本轮农研究样本轮换的构想,最早是在1942年由美国统计学家杰森(R.J.Jessen)提出,其后帕特森(H.D.Patterson,1950)、埃克勒(A.R.Eckler,1955)、格雷厄姆和拉奥(J.E.Graham,J.N.K.Rao,1964)、科克伦(W.G.Cochran)、蒂克沃尔(B.D.Tik,kiwal,1979),和沃尔泰(K.M.Wolter,1979)等相继在这方面进行了研究,其中绝大多数研究成果被浓缩在科克伦《抽样技术》一书中。科克伦在前人研究成果的基础上,讨论了不考虑样本轮换率的一些影响因素(如人的心理行为等不可量化因素)的三种情况,即对同一总体的连续抽样、在两个不同时间的抽样和两个以上不同时间的抽样,分别对考虑调查费用和不考虑调查费用的简单随机抽样的样本轮换率进行了研究。E.E.GburandR.L.Sielken,Jr.(1982)也探讨了样本轮换设计,在文章中他们先介绍了样本轮换的原因,接着拓宽了样本轮换设计在不同领域的应用,然后引入了方差分析模型并分析了该模型参数的最优估计,最后进一步讨论了最优二阶段和三阶段样本轮换设计。RajS.Chhikara(1991)讨论了在考虑连续性抽样调查样本轮换的情况下基于方差分析模型的多年份估计方法。他发现由于前后期调查中有重复样本,利用这些重复样本在不同年份的数据比仅利用现期调查数据可增加样本调查信息,等价于增加了样本容量,从而将减少抽样估计方差。主要针对USDA(美国农业部)在估计大豆产量时仅利用当年的调查数据而忽略了每年进行了20%的样本轮换中保留样本的多年份数据提出了该方法。最后证明了这种估计方法对模型参数的误设具有很好的稳健性。(二)样本轮换率确定方法随着连续性抽样调查越来越普遍,国内一些学者也开始对样本轮换进行研究,但是关于样本轮换的理论研究还不够多,主要停留在实证分析阶段。冯士雍,邹国华(1996)通过改进Sen,A.R(1972和1973)的两篇文章中仅仅利用了前期和后期样本拼配部分的辅助信息的方法,引入了拼配样本辅助信息以外的样本单位其他方面的辅助信息,并通过构建合适的估计量达到了Sen没有得到的结论。马树才,杨旭东(1997)对分层抽样方式下的样本轮换抽样的估计及其精度问题进行了探讨,并给出了在充分利用前期和现期拼配样本信息的基础上,如何进行最优混合估计,最后讨论了怎样利用前后期样本相关系数来确定样本轮换率。王涛,贾淑萍(1999)分析了影响样本老化的因素并通过定量方法测定出了样本老化程度,由样本老化系数与样本轮换中拼配样本的相关系数来确定样本轮换率,最后在前述样本老化理论的基础上对某市的城市住户调查中的300户试点轮换样本和300户固定现行样本进行实证分析。卢宗辉,陈仁恩(2005)在讨论了样本轮换率和轮换时间的确定方法后,接着又对样本轮换方法和样本轮换模式进行了研究,介绍了三种样本轮换的方法,即子样本轮换、随机轮换和等距轮换,同时也介绍了三种样本轮换模式,即多水平样本轮换、不完全的单水平样本轮换和单水平样本轮换。侯志强,李勇(2008)通过借鉴台湾地区每月进行一次的人力资源调查和日本的劳动力调查都采用的两层次样本轮换方法,结合我国劳动力季度调查的三阶段抽样特点,设计了与该抽样方法相适应的三级单元调查四次时的三层次样本轮换方法。侯志强(2008)针对我国季度调查采用的三阶段抽样设计方法的特点,在之前构建的三层次样本模式基础上,引入了一种新的平衡三层次样本轮换模式。本文主要是在前人研究的基础上,讨论分层抽样下的最优样本轮换率、样本轮换时间和轮换效果问题,并进一步采用该理论方法对上海市城镇房屋空置率抽样调查进行实证分析。三、分层抽样在连续性抽样中的应用问题所谓分层抽样是将研究总体按照某个特征分成若干个组,每个组为一层,在每个层中按照简单随机抽样原则进行独立抽样。由于分层随机抽样保证了样本结构和总体结构的一致性,提高了样本对总体的代表性和估计精度,因此也被应用到连续性抽样调查中,在连续性抽样调查中使用分层抽样就会涉及到样本轮换的问题。包括分层抽样样本轮换估计量的构建和最优样本轮换率的确定等。由分层抽样的定义知,抽取样本的过程在各层是相互独立的,从而在考虑样本轮换时也应在各层独立进行。(一)样本数的计算和无偏估计要对分层抽样样本轮换下的总体参数构建估计量,首先要构建出样本轮换下各层子总体的估计量,再将各层子总体的估计量进行综合。而各层子总体在样本轮换下的估计量是由前期样本的保留样本和新换入样本一起估计的。对每一层的具体样本轮换过程可见下图1:为方便理解,先对符号定义如下:设前期指标为X,总体均值为x-,总体方差为SX2。总体单位数为N,总体共有q层,第i层的子总体单位数为Ni,i=1,2,…q,第i层子总体的均值为珔Xi,该层的子总体前期标准差设为SXi。设前期从总体中抽取的样本单元数为n,第i层的样本量为ni,i=1,2,…q,则有,用Xij来表示第i层子总体的第j个单位的前期观察指标值,其中i=1,2,…q,j=1,2,…ni。用Y表示调查总体的现期观察指标,总体均值和总体方差分别用珔Y和SY2表示,同上,第i层的子总体均值和方差分别用Yi和S2Yi表示,为了保持前期和后期调查资料的衔接性和可比性,现期样本量也定为n,用yij来表示第i层子总体的第j个单位的观察指标值,mi为第i层的拼配样本数,即前期第i层样本中保留下来与新换入样本拼配成现期样本的部分,拼配样本mi是从第i层的原样本ni中按照随机原则抽取得到的,ui=ni-mi为第i层的未拼配样本数,即新换入的用来和拼配样本一起构成现期样本的部分,其抽取方法是按随机原则从前期第i层子总体中未抽中的剩余部分Ni-ni抽取得到的。以上抽样过程为样本轮换下的类型抽样。具体过程可由下图2表示。第一相样本和第二相样本的定义分别见图2,其中分别表示拼配样本在前期和现期的样本均值。表示新换入样本的均值。由于保留样本是按随机原则从前期原样本中抽取的,因此前期原样本相当于现期抽样中保留样本的相对总体,又由于新换入样本也是按随机原则从第i层子总体中前期未抽中部分抽取的,因此前期未抽中部分Ni-ni也可看作是新换入样本的相对总体,则根据随机抽样调查理论均可作为珔的无偏估计。由于第一相样本为前期调查样本,故第一相样本的观察指标的样本均值为一般而言,同一调查对象的同一指标值在前后两次调查中具有较强的相关性,因此可用保留样本在前期调查的指标值作为后期调查指标值回归估计的辅助信息,对每一层i都是按照简单随机原则抽取样本的,则可根据简单随机不重复抽样的二相抽样理论来获得第i层子总体均值珔Yi的回归估计量:则由保留样本前后期调查指标值得到mi对数据,即:已知,由最小二乘法可估计出回归系数为:以E1、E2分别表示对第一相样本求期望和当第一相样本固定时的第二相抽样求期望,D1、D2则分别表示对第一相样本求方差和当第一相样本固定时的第二相抽样求方差。对式(1)的第二相样本求期望有:因为分别可作为的无偏估计。其中为前期样本观察指标的样本均值,为现期样本(由前期保留样本mi和后期新换入样本ui构成)观察指标的样本均值。E(y珋lri)=E1E2(y珋lri)=E1(y珋i)=珔Yi对于固定的S2Yi、SYXi和S2Xi,D2()主要取决于βi。因此可用数学分析求极值的方法获得使方差达到最小时的βi。因此有:,代入式(3)得:根据E(X)=E(E(X/Y))和D(X)=E(D(X/Y))+D(E(X/Y))有:ρi为第i层子总体前期和后期观察指标的相关系数。由珔的表达式(1)可知,它只利用了前期样本均值和保留样本前期均值及其后期均值的信息,而没有融入新换入的样本信息,因此,在样本轮换下,为估计第i层子总体调查指标的现期均值,需要将现期样本中新换入的样本均值与前面回归估计均值加权平均后可得第i层子总体现期观察指标的均值。即:最优的αi应是使得的方差达到最小。我们可直接根据定理1得出最优αi的表达式。定理1:使D()达到最小的αi的最优值为:对应的第i层子总体均值的估计值为:最小方差值为:定理1的证明过程略。通过定理1可以估计出每层的子总体均值,则总体均值又可通过各层子总体均值加权平均得到,权数取为各层子总体单位数占总体单位总数的比重,也称层权,即Wi=Ni/N,其中i=1,2,…q,因此现期总体均值的估计表达式为:将以上定理中的最优αi带入上式即可得总体均值的最优估计。由于都是第i层子总体均值珔的无偏估计,则以上也是总体均值的无偏估计。由于分层抽样过程中,各层是相互独立进行抽样的,因此总体均值估计量的方差表达式为:(二)在层析采样中,样本交换的最佳交换率由以上定理得出的第i层子总体均值最优估计量的表达式可发现以下两种极端情况:四、示范分析(一)定期连续性调查房屋空置率作为反映房地产市场供需状态的重要指标具有两面性,空置住房主要可用于二手房交易和出租,空置率太低,易导致房地产市场供需紧张,房价上涨;空置率太高则易导致房价下降。上海作为我国房地产市场发展最成熟的城市之一,对房地产市场空置率进行定期连续性的抽样调查具有重要的意义。上海市城镇住宅空置情况抽样调查针对的是全市城镇住宅(不包括农民住宅)中的空置情况。调查的最终目标是考察上海市所有城镇住房(不包括农村住房)中空置量的绝对数量、空置比例,并计划通过每半年进行一次的周期性调查反映其变化趋势。由于空置率是反映在某个时点上房地产市场空置状态的数据,要想动态反映总体在不同时间点的状态及其变化趋势就必须进行经常性的重复调查,而随着时间的推移会存在着样本老化现象,即样本代表性和时效性较差,这就要求必须进行样本轮换,及时剔除老化、死亡样本是提高样本可比性和代表性的良好途径。由于该调查根据抽样单元的房屋类型可分为商品房、公房和售后房三种类型进而采取分层抽样的方式,因此在对抽样调查数据进行实证分析时,也分别针对各种房屋类型采用分层抽样的样本轮换模型。(二)样本交换的实证分析1.总体抽样框的更新和完善本次调查的抽样框是由上海市住房保障和房屋管理局提供的全市统计在册的存量住房。但由于上海市是一个高速发展的城市,市政建设规模大,房地产投资开发项目多,前者将造成大量的政府强制性拆迁,从而使原抽样框中的部分样本单元消亡。后者将导致原总体抽样框没有包括新生的样本单元。这两方面的影响将严重降低总体抽样框的稳定性。为了保证总体抽样框的及时性、有效性、准确性和全面性,需在样本轮换之前进行抽样框的更新和完善工作,具体包括从原抽样框中将由于动拆迁而消亡的建筑小区剔除掉,同时补入新建的且产权已发生变更的房屋。在以上准备工作的基础上,才能进行样本轮换相关内容的设计。2.总体抽样单元消失,总体调查指标出现空置率波动样本轮换时间主要取决于以下三个因素:总体随时间推移发生变化的快慢、调查员或被调查者对连续调查的调查时间和调查次数的反感程度以及调查的成本费用限制。首先分析第一个因素的影响程度,调查总体是上海市所有城镇住宅小区,首先由于上海市是个高速发展的城市,其市政工程建设项目多,可能会引起很多住宅小区的拆迁,这就导致总体抽样框中的抽样单元消失。其次,上海市房地产市场发展很成熟,由于房屋价格水平高,利润空间大,吸引了许多大型房地产开发公司前来投资建房,这又将造成总体抽样框有新的单元纳入。因此,为了能准确地反映总体就必须及时做好总体抽样框的整理和完善工作。第三由于上海是个国际大都市,每年都吸引了来自全国各地甚至全世界的刚毕业的优秀人才前来就业,因此人员流动大,特别是高收入者居多,这些人都是房屋购买或出租的潜在需求者,将会影响总体调查指标(空置率)的变化。由于一般商品房建设周期为1年左右且刚毕业学生的流动周期也为1年,另外,在上海房屋中介公司的出租房屋的合同时间至少为半年,因此一般由出租房屋引起得房屋空置率波动时间至少为半年以上。综上分析将样本轮换时间间隔定为1年比较合理。3.分层抽样下的最优样本轮上海市是我国首个进行住宅空置率大规模抽样调查的城市,该调查为上海市统计局在城镇房屋空置率抽样调查方面的探索研究,目前已经调查过两次,称第一次调查为前期调查,第二次调查为现期调查。由前面样本轮换的相关理论知识可知,前后两期调查中相同样本单位的指标值(即空置率)一般具有较强的正相关关系,因此可以充分利用前期样本中保留样本的信息作为后期调查的辅助信息来对现期调查做回归估计,从而来确定样本轮换率。前后两期调查时间间隔为半年,为了保持结果的可比性,两次调查样本数相同,都为1155个,其中前期调查中保留样本数为1080个,现期样本中新换入的样本数为75个。三种不同类型的房屋具有不同的特征,因此样本老化程度也不一样,特别是公房的老化现象最严重,因为公房是由国家以及国有企业、事业单位投资兴建、销售的住宅,在住宅未出售之前,住宅的产权(拥有权、占有权、处分权、收益权)归国家所有,因此此类公房一般不能用于二手房交易,而只能用于出租或自住,这就决定了公房类型子总体的空置套数比较稳定,其前后期调查的空置房总套数相关性较大,若用这样的样本来进行长期的连续性抽样调查是很不合理的,因为这些样本观测值之间的同步性或强相关性掩盖了总体中其他不同单位间发展不平衡的非同步性。因此应根据不同类型房屋来确定相应的合适的样本轮换率,以提高样本对现期总体的代表性,本文结合上海市城镇房屋空置率抽样调查的分层抽样方法采用分层抽样下的最优样本轮换率公式来计算。用xij来表示第i层子总体的第j个单位的前期观察指标值,其中i=1,2,3,j=1,2,…ni。第i层的保留样本用mi表示,其中m1=186,m2=493,m3=401,则由前面介绍的分层抽样下最优样本轮换率表达式可知:由式(4)可知,当前期保留样本的前后期观察指标存在正相关关系时,最优样本轮换比率的范围在(50%,100%),即至少要大于50%。将三层子总体在前后两期的保留样本观测指标值分别代入式(4),则可得:可见公房子总体的样本老化程度最严重,其样本轮换率相应也最大,商品房子总体由于市场发展变化速度较快,前后样本间的相关性不强,样本老化程度不深,因此对应的样本轮换率最低,结果与实际情况是相符的。根据各层的样本轮换率代入式(5)可求出总体的样本轮换率如下:4.以市场信息为导向的样本轮比例估计根据定理2,可计算出各层最优样本轮换率对应的子总体现期均值估计的最小方差,为了分析样本轮换的效果,可将进行样本轮换与不进行样本轮换的方差进行比较,来分析样本轮换提高的估计精度。定理2的内容为:当且仅当取得最小值,进而有也得到最小值,即此时为总体均值的最优估计。而如果不采用样本轮换或全部样本轮换的话,对应的方差为因此方差精度提高程度可用下式表示:分别将各层子总体的样本相关系数、最优样本轮换率和样本容量代入式(6)即可得到样本轮换后的方差和相应的不进行样本轮换或全部样本轮换的精度提高百分比,由表1可知,公房进行样本轮换的效果最好,其精度比不进行样本轮换或进行全部样本轮换的情况提高了36.28%,这与公房本身的“公有”特征是有关的,公房一般由国家以及国有企业或事业单位投资兴建,居住者一般只有使用权,没有处置权和收益权,因此公房不能进行二手房的交易,这就决定了公房类型的房屋空置情况比较稳定,随时间推移其发展变化速度比较慢,正是由于其稳定性,被抽中样本之间的一致性很难反映总体其他单位之间的波动性,一旦进行样本轮换,可为现期总体均值的估计带来很多新的信息。而商品房的精度提高程度比公房和售后房都低,这也与商品房自身的特点相关,商品房是房地产市场上最活跃的部分,其市场化程度最高,市场信息瞬息万变的特征决定了商品房的空置情况随时间推移发展变化速度很快,现有的样本本来就吸取了市场上很多的信息,其变动与总体其他单位的变动具有同步性,因此需要轮换的比例要小些,即使是轮换了,其精度提高也不会很明显。售后房则是指房改以后,购买的公有住房,其本质是私有住房,但是由于附有单位的优惠政策,承担着特殊的社会化义务,其最大的特点在于面积小、总价低,一般总价控制在45万元以内,这就意味着售后房房主虽然拥有对房屋的处置权和收益权,但是由于其面积太小而在二手房市场或房屋出租市场没有竞争力,在房地产市场上不活跃,说明其空置状态也比较稳定,样本老化较严重,需要注入新的信息来提高总体现期均值的估计精度。以上是对上海市城镇房屋空置率抽样调查样本轮换效果的实证分析结果,与表2柯克伦等人研究的理论值是相符的,说明各层子总体进行样本轮换后的效果显著。总之,对连续型抽样调查进行部分样本轮换,一方面由于前期的部分样本被保留下来,降低了调查成本,使前后期调查资料能更好地
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 兄弟间买房合同范本
- 企业园区修饰合同范例
- 1997施工合同范本
- 公司投资协议合同范本
- 保健品类合同范例
- 代理合同劳动合同范例
- 2025年度工业节能技术改造项目合同范本
- 2025年公司销售业务员合同试用期管理与考核协议
- 供货合同范例范文
- 健身会员收费合同范例
- (新版)中国动态血压监测基层应用指南(2024年)
- 2024托盘行业市场趋势分析报告
- GB/T 44892-2024保险业车型识别编码规则
- 四新技术培训
- 人教版一年级数学2024版上册期末测评(提优卷一)(含答案)
- 2024年同等学力申硕英语考试真题
- 浙江省杭州市2024年中考语文试卷(含答案)
- 种植二期手种植义齿II期手术护理配合流程
- 安全隐患举报奖励制度
- 牛津书虫系列1-6级 双语 4B-03.金银岛中英对照
- 2024-2025学年深圳市南山区六年级数学第一学期期末学业水平测试试题含解析
评论
0/150
提交评论