等距抽样课件_第1页
等距抽样课件_第2页
等距抽样课件_第3页
等距抽样课件_第4页
等距抽样课件_第5页
已阅读5页,还剩143页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章

等距抽样第七章等距抽样1第一节

等距抽样概述

第二节等距抽样的实施方法第三节

总体参数的估计第四节

其它形式的等距抽样第一节等距抽样概述2第一节

等距抽样概述一、等距抽样的概念等距抽样也称系统抽样或机械抽样。它是将总体各抽样单元按一定的标志和顺序排列以后,每隔一定的距离(间隔)抽取一个单元组成样本进行调查。二、排序标志等距抽样需要有作为排序依据的辅助标志。排序标志各式各样,可自由选择,但归纳起来,可分为两类,即无关标志和有关标志,它们对等距抽样的作用和相应的估计精度各有不同的影响。第一节等距抽样概述一、等距抽样的概念31、按无关标志排序所谓无关标志排序,即用来对总体单元进行排序的标志,与所要调查研究的标志是不同性质的,二者没有任何必然的关系。如研究人口的收入状况时,按身份证号码、按门牌号码排序非常方便,一般说来,这些号码与调查项目没有关系,因此可以认为总体单元的次序排列是随机的,所以也有人直接称无关标志排序的等距抽样为无序等距抽样。1、按无关标志排序42、按有关标志排序所谓有关标志排序,即用来对总体单元规定排列次序的辅助标志,与调查标志具有共同性质或密切关系。这种排序标志,在我国抽样调查实践中有广泛应用,如农产量调查,以本年平均亩产为调查变量,以往年已知平均亩产作为排序标志。利用这些辅助标志排序,有利于提高等距抽样的抽样效果。2、按有关标志排序5三、等距抽样的特点(1)将总体各单元按一定的顺序排列后再抽样,使得样本单元的分布更加均匀,因而样本也就更具代表性,比简单随机抽样更精确,在某些场合下甚至可以不用抽样框。并且如果能够利用好样本的相应顺序在总体中均匀分布这一特点,则容易形成一个按比例样本。三、等距抽样的特点6(2)等距抽样简单明了,快速经济,操作灵活方便,使用面广,是单阶段抽样中变化最多的一种抽样技术。等距抽样最初用于森林和土地使用情况的调查,后来经过汉森、麦多、科克伦等学者的努力,使其成为当今家计调查、记录抽样、空间抽样、工业抽样和为普查取得附加信息及估计非抽样误差的一种常用方法。在我国,等距抽样已成了最主要、最基本的抽样方式,一些大规模的抽样调查,如农产量抽样调查、城乡住户调查、产品质量抽样检查中都普遍采用了等距抽样。(2)等距抽样简单明了,快速经济,操作灵活方便,使用面广,是7(3)当N=nK时,等距抽样就等同于每层只抽一个单元的分层抽样或群的大小相等时只抽一个群的整群抽样。因为,这时,总体各单元可排列成如下方式:y11

y21…yi1

yk1y12y22…yi2yk2┋

┋┋┋

y1ny2n…yinykn(3)当N=nK时,等距抽样就等同于每层只抽一个单元的分层抽8(4)等距抽样的样本常被视为一个集体单元,一般不计算样本调查变量的方差,所以它只能抽象地进行理论分析,而不能对抽样方差进行估计。(5)若总体中的单元呈周期性的变化,等距抽样的精度可能很高也可能很差。这时要慎重地选择K。(4)等距抽样的样本常被视为一个集体单元,一般不计算样本调查9第二节等距抽样的实施方法一、随机起点等距抽样二、循环等距抽样三、中点等距抽样四、对称等距抽样法五、两端修正法六、总体有周期性变化时的等距抽样七、累计和等距抽样第二节等距抽样的实施方法一、随机起点等距抽样10一、随机起点等距抽样随机起点等距抽样就是前面概念所描述的方法。具体地说,它是在总体单元排序后的第1至K单元之间(第一个抽样间隔之内)随机抽取一个整数i,以它作为起始单元的编号,以后按固定的顺序和间隔依次在每个间隔之内各抽取一个单元组成等距样本,则整个样本是由以下编号的单元所组成的。一、随机起点等距抽样11i+(j-1)K

(j=1,2,…,n)由于N不一定恰好是K的整数倍,所以按上述方法得到的等距样本的样本量可能为为避免这种样本量不能确定的情况,确保样本量为n,1952年拉希里提出了循环等距抽样的方法。i+(j-1)K(j=1,2,…,n)12二、循环等距抽样在N≠nK时,把总体中的N个单元按一定顺序排列成一个首尾相接的环(圆形图),取最接近于N/n的整数为抽样间隔K,然后在1到N的单元中,随机抽取一个单元(设为第i单元)作为起点,再沿着圆圈按一定方向每间隔K抽取一个单元,直到抽够n个单元为止。按此方法,可以保证样本量n不变。不过此时首尾两个样本单元的间隔不一定恰好为K,它可能小于K,也可能大于K。二、循环等距抽样13中,中,14循环等距抽样从本质上看仍然是随机起点等距抽样。我们注意到,当N=nK时,在上述两种抽样实施方法中,无论按哪一种方法,总体中每个单元的入样概率都相等,从而是一种严格的等概率抽样。但当N≠nK时,按第一种方法每一个单元的入样概率依赖于初始值i,对不同的i,稍有不同。以下为了处理方便,我们假定N总是n的整数倍。在实际工作中,若n充分大,则由于N/n非整数而带来的影响就充分小,可以忽略不计。循环等距抽样从本质上看仍然是随机起点等距抽样。15三、中点等距抽样1953年麦多为克服随机起点等距抽样容易产生系统性偏差的缺点,提出中点等距抽样(即抽取中心位置的样本)法:计算出抽样间隔K后,以第一组的组中点为起点,等距抽取单元组成样本。如果K为奇数,以(K+1)/2为起点,K为偶数,以K/2或(K+2)/2为起点。三、中点等距抽样16四、对称等距抽样法对称等距抽样也是针对有序等距抽样所提出的,其基本思想是使低标志值的单元与高标志值的单元在样本中对等出现。从而使样本的偏差缩小,代表性增强。由于具体的方法不同,对称等距抽样又有几种类型。四、对称等距抽样法171.塞蒂的方法——两两对称等距抽样1965年塞蒂提出了一种新的等距抽样方法——对称等距抽样法,以克服总体的线性趋势对估计效率的影响。设N=nK,n为偶数。抽样时,先把总体单元分成n/2个抽样间隔,使每一抽样间隔含有2K个单元。然后,在每一抽样间隔内,抽取分别与两端距离相等的两个单元,这样共抽取n个单元组成等距样本。1.塞蒂的方法——两两对称等距抽样18即:如果随机起点为i,则在第一个抽样间隔所抽两个样本单元的号码分别为i及2K-i+1;在第二个抽样间隔所抽两个样本单元号码为i+2K及2(2K)-i+1;如此,最后在第n/2个抽样间隔所抽两个样本单元号码分别为i+(n-2)K及nK-i+1。一般,若随机起为i,则抽中的n/2对样本单元的号码可以表示为i+2jK,2(j+1)K-i+1]

[j=0,1,…,(n/2)-1]]当n为奇数时,式中的j由0变到(n-1)/2-1为止,并且,要加上接近末端的第i+(n-1)K个单元。即:如果随机起点为i,则在第一个抽样间隔所抽两个样本单元的号19实际中,为便于对称等距抽样的实施,当N=nK时,可以将原来由小到大(或由大到小)顺序排列的单元按照顺逆交替的次序排列在一个表中,这样,按随机起点等距抽样所抽取的样本即为对称等距样本。所谓顺逆交替是指在单元的排序中,若第一间隔由小到大排序,则第二间隔按由大到小排序,以此类推。实际中,为便于对称等距抽样的实施,当N=nK时,可以将原来由202、辛的修正方法——中心对称等距抽样1968年,辛等人提出另一种对称等距抽样法——中心对称等距抽样法。即在有序排列的总体单元中,从两端划分抽样间隔。并从两端的抽样间隔开始,成对地抽取到两端距离相等的单元组成等距样本。2、辛的修正方法——中心对称等距抽样21这里,仍假定N=nK。当n为偶数时,若随机起点为i,则与之对称的样本单元号为倒数第一个抽样间隔中的N-i+1;与第二个抽样间隔中i+K对称的是倒数第二个抽样间隔的(N-K)-i+1;如此,一直抽到中间两个抽样间隔为止。一般,以i(i=1,2,…,K)为随机起点的n/2对对称等距样本单元的号码可以表示为:这里,仍假定N=nK。当n为偶数时,若随机起点为i,则与之对22[i+jK,(N-jK)-i+1],[j=0,1,…,(n/2)-1]当n为奇数时,式中的j由0变到[(n-1)/2]-1为止。然后,再加上中间一个抽样间隔中的第i+(n-1)K/2个单元。(我国抽样调查工作者提出在中间一个抽样间隔抽取中点处的一个单元。)

[i+jK,(N-jK)-i+1],[j=0,1,…,(n23五、两端修正法抽样方法同随机起点等距抽样时的情形。但在计算总体均值的估计量时,对第一个和最后一个样本单元加权,其余单元的权数仍为1(在除以n以前),以矫正由于起点不在中心位置而引起的系统偏差。五、两端修正法241、耶茨的方法:设N=nK,i为1~K中的随机数,则两端的样本单元的权数分别为:其中“+”号用于第一个样本单元,“-”号用于第n个样本单元(下同)。当总体单元具有严格的线性趋势时,加权的样本均值就是总体均值。1、耶茨的方法:252、具尔豪斯与拉奥的方法适用于N≠nK的情况,并采用循环等距抽样法,设i为1~N中的随机数。(1)若i+(n-1)K≤N,这时n个样本单元不经过yN,则第1个样本单元和第n个样本单元的权数分别为:

2、具尔豪斯与拉奥的方法26(2)若i+(n-1)K>N,设yN以后的样本单元有n2个,则第1个样本单元和第n个样本单元的权数分别为:(2)若i+(n-1)K>N,设yN以后的样本单元有n2个,27六、总体有周期性变化时的等距抽样有一些总体,其单元的标志值在随时间的自然排列顺序中,会呈现某种明显或不明显的周期变化趋势。如季节性消费商品的销售量,随一年四季的变化而呈现出周期变化。还有些总体,反映出不明显的周期影响。对有周期变化趋势的总体进行等距抽样时,抽样间隔K的选择,对估计效率的影响是极为重要的。为了说明问题,我们不妨假定总体单元标志值的变化为一正弦曲线。六、总体有周期性变化时的等距抽样28七、累计和等距抽样以上所讨论的等距抽样都是以各单元大小相同为前提的,是等概率抽样。如果抽样单元的大小不同,且单元的大小又与调查变量相关时,用上述方法就不大合适了,此时,应采用不等概率抽样。七、累计和等距抽样29其基本思路是:在总体各单元按某一标志排序后,累计各单元的大小Mi(当各抽样单元的大小用所含下一阶单元的数目表示时,也可直接累计其下一阶单元数)并进行编码,以总的累计数除以n作为抽样间隔,用K表示,然后在最初的1到K个数中随机确定一个数j(1≤j≤K),j所对应的单元即为第一个被抽中单元,以后每间隔K抽取一个随机数,并按同样的方法确定出对应的单元作为样本单元,组成等距样本。累计和等距抽样的原理同上一章所讨论的群大小不等时群的代码法,此法在实际工作中经常用到。其基本思路是:在总体各单元按某一标志排序后,累计各单元的大小30例:某街道50家企业,要调查企业生产经营状况。在按工商登记注册资金排序后,下表列出了企业的职工人数及累计人数:例:某街道50家企业,要调查企业生产经营状况。在按工商登记注31第七章等距抽样课件32

第三节

总体参数的估计一、等概率抽样的情形为讨论方便,仍假设N=nK,则在如下的排列形式中,有:

(i=1,2,…,K)第三节总体参数的估计一、等概率抽样的情形33第七章等距抽样课件34(一)估计量设等距样本为表中第i列单元,且i是随机决定的,总体均值的估计量用表示,则:是的无偏估计。若N≠nK,则上述估计量是有偏的,但当n充分大时,其偏倚可以充分小。(一)估计量35(二)估计量的方差如前所述,如果总体单元是按无关标志排列的,则其方差可按简单随机抽样去做。若总体单元是按有关标志排列的,则此时的等距抽样可以看作是整群抽样或分层抽样的特例,因此,等距抽样估计量的方差可以比照整群抽样或分层抽样的方法构造,有几种表示方法。(二)估计量的方差361、用等距样本内(群内)方差表示设等距样本为表中第i列单元,且i是随机决定的,则:其中:为等距样本(群)内方差;S2为总体方差。1、用等距样本内(群内)方差表示37这表明,当等距样本内部的方差大于整个总体方差时,等距抽样比简单随机抽样有更高的精度。因此,为了提高等距抽样的精度,只要有可能就在对总体单元排序时尽可能扩大各等距样本内的差异。当且仅当时,等距抽样比简单随机抽样精度高。这表明,当等距样本内部的方差大于整个总体方差时,等距抽样比简382、用等距样本内(群内)相关系数表示其中:2、用等距样本内(群内)相关系数表示39为同一等距样本内(群内)成对的单元之间的相关系数。当的值大于0时,方差的值就会变大。3、用同一等距样本内单元对关于层平均值的相关系数表示其中为层内方差;为同一等距样本内(群内)成对的单元之间的相关系数。当的40

恰为比例分配分层随机抽样的方差;是第h层即第h间隔的平均值;

恰为比例分配分层随机41

是等距样本内单位对关于层平均值的相关系数。当=0时,等距样本与每层取一个单元的分层随机样本精度相同;当>0时,等距抽样的精度低于分层随机抽样;当<0时,等距抽样的精度高于分层随机抽样。是等距样本内单位对关于层平均值的相关系数。42(三)线性趋势总体

线性趋势总体是指总体各单位标志值呈现直线变动的趋势。在我国社会经济抽样调查实践中,如农产量调查、职工家计调查、农村住户调查等,总体抽样框有类似线型趋势的情况。设线性趋势总体N的各单位i的标志值为,,将总体分成n层,每层含有K个单位,当随机起点为r时,等距样本各单位标志值为:

(三)线性趋势总体43那么,等距样本平均数为:而总体平均数为:

那么,等距样本平均数为:44可以证明,样本平均数是总体平均数的无偏估计量可以证明,样本平均数是总体平均数的无偏估计量45线性趋势总体下等距抽样方差与简单随机抽样方差、分层抽样方差的比较:等距抽样方差:

线性趋势总体下等距抽样方差与简单随机抽样方差、分层抽样方差的46第七章等距抽样课件47简单随机抽样方差:分层抽样方差:由总体分成层,每层含个单位,在线性总体各层方差是相同的,因而

简单随机抽样方差:48所以有:

所以有:49(四)方差估计量前已指出,等距抽样相当于群的大小相等时的整群抽样,但抽中的是一个群,这就使这个受人欢迎的抽样方法有了一些遗憾:等距抽样没有无偏的方差估计量。这里只介绍两种方差估计方法。而在冯士雍、施锡铨著的《抽样调查—理论、方法与实践》一书中,列举了八种不同的方差估计量,并进行了比较分析。(四)方差估计量501、总体单元无序排列(即按无关标志排列)时可把等距样本看成是简单随机样本,因此,其方差估计量可表示为:其中1、总体单元无序排列(即按无关标志排列)时512、总体单元有序排列(按相关标志排列)时前已指出,等距抽样可看成是从每层抽取1个单元的分层抽样。但凭一个单元的标志值无法估计层内方差,于是把相邻两行(层)的2K个单元组成一层,从中抽取2个单元作为样本,这样总体就被合成了n/2层(假设n为偶数)。2、总体单元有序排列(按相关标志排列)时52第h层的层内方差

h=1,2,…,n/2

将诸代入比例分配的分层随机抽样的有关公式,则(这里)将上式中的下标h改为j就得到

(1)第h层的层内方差53式中:是相邻两个标志值的一阶差分,它们间互不重叠,中利用了n/2个这样的一阶差分,这就要求n必须是偶数。为摆脱这个限制,增加平方和的自由度,以每相邻两个标志值的一阶差分(它们是重叠的,共n-1个)代替n/2个不相重叠的一阶差分,得:

(2)

式中:是相邻两个标志值的一阶差分,它们间互不54研究表明:(1)式和(2)式对大多数模型的总体都具有一定的优良性,即使对总体的性质知道得很少,它们也是一个好的方差估计量。但(1)式受到n必为偶数的限制,因而(2)式更值得推荐。此外,也有人建议采用交叉子样本法来估计等距抽样的方差,但这种方法在实际操作中有诸多的不便,且当各子样本不大时,效果也一般。对此感兴趣的读者可参阅有关文献。

研究表明:(1)式和(2)式对大多数模型的总体都具有一定的优55二、不等概率抽样的情形等距抽样中每个单元的入样概率也可以是不相等的。一般的不等概率等距抽样定义如下:令{πi}是一组入样概率,i=1,2,…,N,且,r是[0,1]区间内的一个随机数,则当:(k=0,1,…,n-1)二、不等概率抽样的情形56时,总体中的第i0,i1,…,in-1个单元即为抽中的样本单元。当每个πi≤1时,抽样是严格不放回的。最常用的也是最简单的不等概率等距抽样是πPS等距抽样,即令πi与单元大小Mi成比例:其中等于是总体所有单元大小的总和。

时,总体中的第i0,i1,…,in-1个单元即为抽57不等概率等距抽样的实施方法一般是累计和等距抽样法,这在第二节中已作了介绍。与其他不放回的不等概率抽样一样,不等概率等距抽样对总体总和Y的估计也是采用霍维茨—汤普森估计不等概率等距抽样的实施方法一般是累计和等距抽样法,这在第二节58对于πPS等距抽样,又有是无偏的,其方差可表示为(此时,n是固定的)

对于πPS等距抽样,又有59由于对一般的n,的形式极为复杂,且有可能为零,因此,关于的估计可按如下思路进行:一种考虑是将不放回的πPS等距样本作为放回的PPS样本处理可得到如下的方差估计形式由于对一般的n,的形式极为复杂,且有可能为零,因此,关于60因为实际抽样是不放回的,为此,应考虑乘上有限总体修正系数(fpc)1-f,由于这里的单元实际上是不平等的,因此,f不是简单的等于n/N。我们使用f的以下估计:则可以得到方差估计量的另一种形式:对于随机排列的总体,的效果很好。

因为实际抽样是不放回的,为此,应考虑乘上有限总体修正系数(f61若考虑用相邻样本观测值(但这里需用代替等概率情形的)差值的平方和来表示方差,则得到或对于具有线性趋势的总体,这两个方差估计量特别适用。若考虑用相邻样本观测值(但这里需用62第四节

其它形式的等距抽样一、分层等距抽样分层等距抽样,是对总体分层后在各层独立地选取起点进行等距抽样。由此看来,若按某种标准分层,把等距抽样的若干抽样间隔分为一层,则一般的等距抽样实际上就是一种特殊的比例分配分层抽样。所谓特殊,是指在各层中起点的选取不是相互独立的,而是由第一层起点所决定的。第四节其它形式的等距抽样一、分层等距抽样63分层等距抽样可以集中发挥分层抽样和等距抽样的优点。实际中,如果需要知道各层的估计资料,或者需要在各层安排不同的抽样比,或者在各层内等距抽样比简单随机抽样更精确更方便,显然应该采用分层等距抽样方法。分层等距抽样可以集中发挥分层抽样和等距抽样的优点。实际中,如64分层等距抽样时,总体平均数的估计量应该是:将各层等距抽样的估计量加权平均。即若为第h层等距样本的平均数,则总体平均数的估计量为:其中,为第h层的权数,为第h层抽中的样本单元数,为第h层的总体单元数。

分层等距抽样时,总体平均数的估计量应该是:将各层等距抽样的估65估计量的方差为其中为第h层估计量的方差,在相应的条件下,可由前面所介绍的方差估计量进行估计。估计量的方差为66二、二维等距抽样二维等距抽样,是对分布在平面上的总体单元直接进行的等距抽样。如农产量调查和森林木材积蓄量调查中,从抽中地块抽取样本点,即属这种情况。实际上,我们所研究的总体单元绝大多数分布在平面上,以前是通过对总体单元的编号,排队等方法,将它化为“一维等距抽样”。但在一些情况下,还需直接在平面上抽取样本。二维等距抽样的方法很多,下面仅介绍几种最简单、实用的方法。二、二维等距抽样671、方格法是将总体所在的平面区域G,按照需要抽取的样本单元数划分为若干大小相同的方格,然后以等距方式在每个方格抽取一个样本单元组成样本。即抽样间隔之长等于方格的边长,可按下述公式计算:其中,K=抽样间隔;G=总体区域的面积;n=样本单元数1、方格法68这里,为方便讨论,假定地块的图形是长为a,宽为b的长方形,置于平面直角坐标系的第一象限。且a=Kp,b=Kq,p、q为整数,pq=n。当然,实际中的地块常常是不规则的,并不满足上述条件,但可通过割补法化成比较规则的几何图形,近似按上述方法处理。从方格中抽取样本点有多种方法。①若取随机起点,并且它的坐标为(i,j),则所有样本点的坐标可表示为:这里,为方便讨论,假定地块的图形是长为a,宽为b的长方形,置69

s=0,1,2,…,p-1;(i+Ks,j+Kt)t=0,1,2,…,q-1②另一种方法是,把样本点放在每一方格的中心处,称为中心方格法。其样本的坐标为:

(K/2)+Ks,(K/2)+Kt).(s=0,1,2,…,p-1;t=1,2,…,q-1)s=0,1,270这种方法在农产量调查中多用于平播、撒播、窄垄和株行距较小的作物,如麦、水稻等。实际中,每个样本点是用测规或测框划出的园形或方形小地块,称为面积样本。每个样本点的面积常为10平方市尺,这样,便于计算。这种方法也称为框测法。这种方法在农产量调查中多用于平播、撒播、窄垄和株行距较小的作712、垄测法对于宽垄和株行距较大的作物,如玉米、薯类等,常采用垄测法。垄测法需先计算地块所有垄的总垄长,依地块情况,可按下述方法计算:总垄长=平均垄长×垄数=地块总面积/平均垄宽其中:平均垄宽=地块两端宽度之和/地块两端垄数之和2、垄测法72抽样间隔K=总垄长/样本单元数抽取时,从地块的一角开始,即从第一垄开始,按等距抽样方法依次向各垄抽取,每个样本点是长度为10市尺的垄段,这种样本也称为长度样本。实用中,还有许多方法,如将地块划分为正三角形小块,形成三角形网,使样本点散布于正三角形的顶点上。也还可以利用试验设计的方法安排样本。抽样间隔K=总垄长/样本单元数73关于二维等距抽样的应用可参看后面的农产量调查一节。此外,在实际工作中当总体各单元标志值的变化比较均匀,且层界不明显时,也常采用等距分层抽样的方法。其基本思想是,先对总体按有关标志排序,然后等分成L个间隔。将每个间隔视为一层,在各层内分别独立进行简单随机抽样。它与一般分层抽样的区别在于,将不同大小的层(用各层所含单元数表示)调整为同大小的层;它与一般等距抽样的区别在于,改每层按固定位置抽取一个单元为每层独立抽取若干个单元。在等距分层抽样中,其估计量及方差仍按一般分层随机抽样方式去构造。

关于二维等距抽样的应用可参看后面的农产量调查一节。此外,在实74第七章

等距抽样第七章等距抽样75第一节

等距抽样概述

第二节等距抽样的实施方法第三节

总体参数的估计第四节

其它形式的等距抽样第一节等距抽样概述76第一节

等距抽样概述一、等距抽样的概念等距抽样也称系统抽样或机械抽样。它是将总体各抽样单元按一定的标志和顺序排列以后,每隔一定的距离(间隔)抽取一个单元组成样本进行调查。二、排序标志等距抽样需要有作为排序依据的辅助标志。排序标志各式各样,可自由选择,但归纳起来,可分为两类,即无关标志和有关标志,它们对等距抽样的作用和相应的估计精度各有不同的影响。第一节等距抽样概述一、等距抽样的概念771、按无关标志排序所谓无关标志排序,即用来对总体单元进行排序的标志,与所要调查研究的标志是不同性质的,二者没有任何必然的关系。如研究人口的收入状况时,按身份证号码、按门牌号码排序非常方便,一般说来,这些号码与调查项目没有关系,因此可以认为总体单元的次序排列是随机的,所以也有人直接称无关标志排序的等距抽样为无序等距抽样。1、按无关标志排序782、按有关标志排序所谓有关标志排序,即用来对总体单元规定排列次序的辅助标志,与调查标志具有共同性质或密切关系。这种排序标志,在我国抽样调查实践中有广泛应用,如农产量调查,以本年平均亩产为调查变量,以往年已知平均亩产作为排序标志。利用这些辅助标志排序,有利于提高等距抽样的抽样效果。2、按有关标志排序79三、等距抽样的特点(1)将总体各单元按一定的顺序排列后再抽样,使得样本单元的分布更加均匀,因而样本也就更具代表性,比简单随机抽样更精确,在某些场合下甚至可以不用抽样框。并且如果能够利用好样本的相应顺序在总体中均匀分布这一特点,则容易形成一个按比例样本。三、等距抽样的特点80(2)等距抽样简单明了,快速经济,操作灵活方便,使用面广,是单阶段抽样中变化最多的一种抽样技术。等距抽样最初用于森林和土地使用情况的调查,后来经过汉森、麦多、科克伦等学者的努力,使其成为当今家计调查、记录抽样、空间抽样、工业抽样和为普查取得附加信息及估计非抽样误差的一种常用方法。在我国,等距抽样已成了最主要、最基本的抽样方式,一些大规模的抽样调查,如农产量抽样调查、城乡住户调查、产品质量抽样检查中都普遍采用了等距抽样。(2)等距抽样简单明了,快速经济,操作灵活方便,使用面广,是81(3)当N=nK时,等距抽样就等同于每层只抽一个单元的分层抽样或群的大小相等时只抽一个群的整群抽样。因为,这时,总体各单元可排列成如下方式:y11

y21…yi1

yk1y12y22…yi2yk2┋

┋┋┋

y1ny2n…yinykn(3)当N=nK时,等距抽样就等同于每层只抽一个单元的分层抽82(4)等距抽样的样本常被视为一个集体单元,一般不计算样本调查变量的方差,所以它只能抽象地进行理论分析,而不能对抽样方差进行估计。(5)若总体中的单元呈周期性的变化,等距抽样的精度可能很高也可能很差。这时要慎重地选择K。(4)等距抽样的样本常被视为一个集体单元,一般不计算样本调查83第二节等距抽样的实施方法一、随机起点等距抽样二、循环等距抽样三、中点等距抽样四、对称等距抽样法五、两端修正法六、总体有周期性变化时的等距抽样七、累计和等距抽样第二节等距抽样的实施方法一、随机起点等距抽样84一、随机起点等距抽样随机起点等距抽样就是前面概念所描述的方法。具体地说,它是在总体单元排序后的第1至K单元之间(第一个抽样间隔之内)随机抽取一个整数i,以它作为起始单元的编号,以后按固定的顺序和间隔依次在每个间隔之内各抽取一个单元组成等距样本,则整个样本是由以下编号的单元所组成的。一、随机起点等距抽样85i+(j-1)K

(j=1,2,…,n)由于N不一定恰好是K的整数倍,所以按上述方法得到的等距样本的样本量可能为为避免这种样本量不能确定的情况,确保样本量为n,1952年拉希里提出了循环等距抽样的方法。i+(j-1)K(j=1,2,…,n)86二、循环等距抽样在N≠nK时,把总体中的N个单元按一定顺序排列成一个首尾相接的环(圆形图),取最接近于N/n的整数为抽样间隔K,然后在1到N的单元中,随机抽取一个单元(设为第i单元)作为起点,再沿着圆圈按一定方向每间隔K抽取一个单元,直到抽够n个单元为止。按此方法,可以保证样本量n不变。不过此时首尾两个样本单元的间隔不一定恰好为K,它可能小于K,也可能大于K。二、循环等距抽样87中,中,88循环等距抽样从本质上看仍然是随机起点等距抽样。我们注意到,当N=nK时,在上述两种抽样实施方法中,无论按哪一种方法,总体中每个单元的入样概率都相等,从而是一种严格的等概率抽样。但当N≠nK时,按第一种方法每一个单元的入样概率依赖于初始值i,对不同的i,稍有不同。以下为了处理方便,我们假定N总是n的整数倍。在实际工作中,若n充分大,则由于N/n非整数而带来的影响就充分小,可以忽略不计。循环等距抽样从本质上看仍然是随机起点等距抽样。89三、中点等距抽样1953年麦多为克服随机起点等距抽样容易产生系统性偏差的缺点,提出中点等距抽样(即抽取中心位置的样本)法:计算出抽样间隔K后,以第一组的组中点为起点,等距抽取单元组成样本。如果K为奇数,以(K+1)/2为起点,K为偶数,以K/2或(K+2)/2为起点。三、中点等距抽样90四、对称等距抽样法对称等距抽样也是针对有序等距抽样所提出的,其基本思想是使低标志值的单元与高标志值的单元在样本中对等出现。从而使样本的偏差缩小,代表性增强。由于具体的方法不同,对称等距抽样又有几种类型。四、对称等距抽样法911.塞蒂的方法——两两对称等距抽样1965年塞蒂提出了一种新的等距抽样方法——对称等距抽样法,以克服总体的线性趋势对估计效率的影响。设N=nK,n为偶数。抽样时,先把总体单元分成n/2个抽样间隔,使每一抽样间隔含有2K个单元。然后,在每一抽样间隔内,抽取分别与两端距离相等的两个单元,这样共抽取n个单元组成等距样本。1.塞蒂的方法——两两对称等距抽样92即:如果随机起点为i,则在第一个抽样间隔所抽两个样本单元的号码分别为i及2K-i+1;在第二个抽样间隔所抽两个样本单元号码为i+2K及2(2K)-i+1;如此,最后在第n/2个抽样间隔所抽两个样本单元号码分别为i+(n-2)K及nK-i+1。一般,若随机起为i,则抽中的n/2对样本单元的号码可以表示为i+2jK,2(j+1)K-i+1]

[j=0,1,…,(n/2)-1]]当n为奇数时,式中的j由0变到(n-1)/2-1为止,并且,要加上接近末端的第i+(n-1)K个单元。即:如果随机起点为i,则在第一个抽样间隔所抽两个样本单元的号93实际中,为便于对称等距抽样的实施,当N=nK时,可以将原来由小到大(或由大到小)顺序排列的单元按照顺逆交替的次序排列在一个表中,这样,按随机起点等距抽样所抽取的样本即为对称等距样本。所谓顺逆交替是指在单元的排序中,若第一间隔由小到大排序,则第二间隔按由大到小排序,以此类推。实际中,为便于对称等距抽样的实施,当N=nK时,可以将原来由942、辛的修正方法——中心对称等距抽样1968年,辛等人提出另一种对称等距抽样法——中心对称等距抽样法。即在有序排列的总体单元中,从两端划分抽样间隔。并从两端的抽样间隔开始,成对地抽取到两端距离相等的单元组成等距样本。2、辛的修正方法——中心对称等距抽样95这里,仍假定N=nK。当n为偶数时,若随机起点为i,则与之对称的样本单元号为倒数第一个抽样间隔中的N-i+1;与第二个抽样间隔中i+K对称的是倒数第二个抽样间隔的(N-K)-i+1;如此,一直抽到中间两个抽样间隔为止。一般,以i(i=1,2,…,K)为随机起点的n/2对对称等距样本单元的号码可以表示为:这里,仍假定N=nK。当n为偶数时,若随机起点为i,则与之对96[i+jK,(N-jK)-i+1],[j=0,1,…,(n/2)-1]当n为奇数时,式中的j由0变到[(n-1)/2]-1为止。然后,再加上中间一个抽样间隔中的第i+(n-1)K/2个单元。(我国抽样调查工作者提出在中间一个抽样间隔抽取中点处的一个单元。)

[i+jK,(N-jK)-i+1],[j=0,1,…,(n97五、两端修正法抽样方法同随机起点等距抽样时的情形。但在计算总体均值的估计量时,对第一个和最后一个样本单元加权,其余单元的权数仍为1(在除以n以前),以矫正由于起点不在中心位置而引起的系统偏差。五、两端修正法981、耶茨的方法:设N=nK,i为1~K中的随机数,则两端的样本单元的权数分别为:其中“+”号用于第一个样本单元,“-”号用于第n个样本单元(下同)。当总体单元具有严格的线性趋势时,加权的样本均值就是总体均值。1、耶茨的方法:992、具尔豪斯与拉奥的方法适用于N≠nK的情况,并采用循环等距抽样法,设i为1~N中的随机数。(1)若i+(n-1)K≤N,这时n个样本单元不经过yN,则第1个样本单元和第n个样本单元的权数分别为:

2、具尔豪斯与拉奥的方法100(2)若i+(n-1)K>N,设yN以后的样本单元有n2个,则第1个样本单元和第n个样本单元的权数分别为:(2)若i+(n-1)K>N,设yN以后的样本单元有n2个,101六、总体有周期性变化时的等距抽样有一些总体,其单元的标志值在随时间的自然排列顺序中,会呈现某种明显或不明显的周期变化趋势。如季节性消费商品的销售量,随一年四季的变化而呈现出周期变化。还有些总体,反映出不明显的周期影响。对有周期变化趋势的总体进行等距抽样时,抽样间隔K的选择,对估计效率的影响是极为重要的。为了说明问题,我们不妨假定总体单元标志值的变化为一正弦曲线。六、总体有周期性变化时的等距抽样102七、累计和等距抽样以上所讨论的等距抽样都是以各单元大小相同为前提的,是等概率抽样。如果抽样单元的大小不同,且单元的大小又与调查变量相关时,用上述方法就不大合适了,此时,应采用不等概率抽样。七、累计和等距抽样103其基本思路是:在总体各单元按某一标志排序后,累计各单元的大小Mi(当各抽样单元的大小用所含下一阶单元的数目表示时,也可直接累计其下一阶单元数)并进行编码,以总的累计数除以n作为抽样间隔,用K表示,然后在最初的1到K个数中随机确定一个数j(1≤j≤K),j所对应的单元即为第一个被抽中单元,以后每间隔K抽取一个随机数,并按同样的方法确定出对应的单元作为样本单元,组成等距样本。累计和等距抽样的原理同上一章所讨论的群大小不等时群的代码法,此法在实际工作中经常用到。其基本思路是:在总体各单元按某一标志排序后,累计各单元的大小104例:某街道50家企业,要调查企业生产经营状况。在按工商登记注册资金排序后,下表列出了企业的职工人数及累计人数:例:某街道50家企业,要调查企业生产经营状况。在按工商登记注105第七章等距抽样课件106

第三节

总体参数的估计一、等概率抽样的情形为讨论方便,仍假设N=nK,则在如下的排列形式中,有:

(i=1,2,…,K)第三节总体参数的估计一、等概率抽样的情形107第七章等距抽样课件108(一)估计量设等距样本为表中第i列单元,且i是随机决定的,总体均值的估计量用表示,则:是的无偏估计。若N≠nK,则上述估计量是有偏的,但当n充分大时,其偏倚可以充分小。(一)估计量109(二)估计量的方差如前所述,如果总体单元是按无关标志排列的,则其方差可按简单随机抽样去做。若总体单元是按有关标志排列的,则此时的等距抽样可以看作是整群抽样或分层抽样的特例,因此,等距抽样估计量的方差可以比照整群抽样或分层抽样的方法构造,有几种表示方法。(二)估计量的方差1101、用等距样本内(群内)方差表示设等距样本为表中第i列单元,且i是随机决定的,则:其中:为等距样本(群)内方差;S2为总体方差。1、用等距样本内(群内)方差表示111这表明,当等距样本内部的方差大于整个总体方差时,等距抽样比简单随机抽样有更高的精度。因此,为了提高等距抽样的精度,只要有可能就在对总体单元排序时尽可能扩大各等距样本内的差异。当且仅当时,等距抽样比简单随机抽样精度高。这表明,当等距样本内部的方差大于整个总体方差时,等距抽样比简1122、用等距样本内(群内)相关系数表示其中:2、用等距样本内(群内)相关系数表示113为同一等距样本内(群内)成对的单元之间的相关系数。当的值大于0时,方差的值就会变大。3、用同一等距样本内单元对关于层平均值的相关系数表示其中为层内方差;为同一等距样本内(群内)成对的单元之间的相关系数。当的114

恰为比例分配分层随机抽样的方差;是第h层即第h间隔的平均值;

恰为比例分配分层随机115

是等距样本内单位对关于层平均值的相关系数。当=0时,等距样本与每层取一个单元的分层随机样本精度相同;当>0时,等距抽样的精度低于分层随机抽样;当<0时,等距抽样的精度高于分层随机抽样。是等距样本内单位对关于层平均值的相关系数。116(三)线性趋势总体

线性趋势总体是指总体各单位标志值呈现直线变动的趋势。在我国社会经济抽样调查实践中,如农产量调查、职工家计调查、农村住户调查等,总体抽样框有类似线型趋势的情况。设线性趋势总体N的各单位i的标志值为,,将总体分成n层,每层含有K个单位,当随机起点为r时,等距样本各单位标志值为:

(三)线性趋势总体117那么,等距样本平均数为:而总体平均数为:

那么,等距样本平均数为:118可以证明,样本平均数是总体平均数的无偏估计量可以证明,样本平均数是总体平均数的无偏估计量119线性趋势总体下等距抽样方差与简单随机抽样方差、分层抽样方差的比较:等距抽样方差:

线性趋势总体下等距抽样方差与简单随机抽样方差、分层抽样方差的120第七章等距抽样课件121简单随机抽样方差:分层抽样方差:由总体分成层,每层含个单位,在线性总体各层方差是相同的,因而

简单随机抽样方差:122所以有:

所以有:123(四)方差估计量前已指出,等距抽样相当于群的大小相等时的整群抽样,但抽中的是一个群,这就使这个受人欢迎的抽样方法有了一些遗憾:等距抽样没有无偏的方差估计量。这里只介绍两种方差估计方法。而在冯士雍、施锡铨著的《抽样调查—理论、方法与实践》一书中,列举了八种不同的方差估计量,并进行了比较分析。(四)方差估计量1241、总体单元无序排列(即按无关标志排列)时可把等距样本看成是简单随机样本,因此,其方差估计量可表示为:其中1、总体单元无序排列(即按无关标志排列)时1252、总体单元有序排列(按相关标志排列)时前已指出,等距抽样可看成是从每层抽取1个单元的分层抽样。但凭一个单元的标志值无法估计层内方差,于是把相邻两行(层)的2K个单元组成一层,从中抽取2个单元作为样本,这样总体就被合成了n/2层(假设n为偶数)。2、总体单元有序排列(按相关标志排列)时126第h层的层内方差

h=1,2,…,n/2

将诸代入比例分配的分层随机抽样的有关公式,则(这里)将上式中的下标h改为j就得到

(1)第h层的层内方差127式中:是相邻两个标志值的一阶差分,它们间互不重叠,中利用了n/2个这样的一阶差分,这就要求n必须是偶数。为摆脱这个限制,增加平方和的自由度,以每相邻两个标志值的一阶差分(它们是重叠的,共n-1个)代替n/2个不相重叠的一阶差分,得:

(2)

式中:是相邻两个标志值的一阶差分,它们间互不128研究表明:(1)式和(2)式对大多数模型的总体都具有一定的优良性,即使对总体的性质知道得很少,它们也是一个好的方差估计量。但(1)式受到n必为偶数的限制,因而(2)式更值得推荐。此外,也有人建议采用交叉子样本法来估计等距抽样的方差,但这种方法在实际操作中有诸多的不便,且当各子样本不大时,效果也一般。对此感兴趣的读者可参阅有关文献。

研究表明:(1)式和(2)式对大多数模型的总体都具有一定的优129二、不等概率抽样的情形等距抽样中每个单元的入样概率也可以是不相等的。一般的不等概率等距抽样定义如下:令{πi}是一组入样概率,i=1,2,…,N,且,r是[0,1]区间内的一个随机数,则当:(k=0,1,…,n-1)二、不等概率抽样的情形130时,总体中的第i0,i1,…,in-1个单元即为抽中的样本单元。当每个πi≤1时,抽样是严格不放回的。最常用的也是最简单的不等概率等距抽样是πPS等距抽样,即令πi与单元大小Mi成比例:其中等于是总体所有单元大小的总和。

时,总体中的第i0,i1,…,in-1个单元即为抽131不等概率等距抽样的实施方法一般是累计和等距抽样法,这在第二节中已作了介绍。与其他不放回的不等概率抽样一样,不等概率等距抽样对总体总和Y的估计也是采用霍维茨—汤普森估计不等概率等距抽样的实施方法一般是累计和等距抽样法,这在第二节132对于πPS等距抽样,又有是无偏的,其方差可表示为(此时,n是固定的)

对于πPS等距抽样,又有133由于对一般的n,的形式极为复杂,且有可能为零,因此,关于的估计可按如下思路进行:一种考虑是将不放回的πPS等距样本作为放回的PPS样本处理可得到如下的方差估计形式由于对一般的n,的形式极为复杂,且有可能为零,因此,关于134因为实际抽样是不放回的,为此,应考虑乘上有限总体修正系数(fpc)1-f,由于这里的单元实际上是不平等的,因此,f不是简单的等于n/N。我们使用f的以下估计:则可以得到方差估计量的另一种形式:对于随机排列的总体,的效果很好。

因为实际抽样是不放回的,为此,应考虑乘上有限总体修正系数(f135若考虑用相邻样本观测值(但这里需用代

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论