第九章 二阶与多阶抽样(抽样调查理论与方法-北京商学院 李平)_第1页
第九章 二阶与多阶抽样(抽样调查理论与方法-北京商学院 李平)_第2页
第九章 二阶与多阶抽样(抽样调查理论与方法-北京商学院 李平)_第3页
第九章 二阶与多阶抽样(抽样调查理论与方法-北京商学院 李平)_第4页
第九章 二阶与多阶抽样(抽样调查理论与方法-北京商学院 李平)_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章第九章 二阶与多阶抽样二阶与多阶抽样 二阶抽样与分层抽样、整群抽样二阶抽样与分层抽样、整群抽样的一个的一个共同特点共同特点是:是:将将总体分为若干个群总体分为若干个群;所;所不同的不同的是是:分层抽样是每个群内都进分层抽样是每个群内都进行抽样,整群抽样是抽若干个群再在群内普查,而二阶抽样行抽样,整群抽样是抽若干个群再在群内普查,而二阶抽样则是抽若干个群再在群内抽样则是抽若干个群再在群内抽样。因此,可将分层抽样与整群。因此,可将分层抽样与整群抽样看作是二阶抽样的特殊情况。抽样看作是二阶抽样的特殊情况。 在整群抽样中,如果抽中的群内所含的次级单元个数相在整群抽样中,如果抽中的群内所含的次级单

2、元个数相当地多,此时对该群作普查会感到当地多,此时对该群作普查会感到“心有余而力不足心有余而力不足”。特。特别当群内的次级单元差异不大,即别当群内的次级单元差异不大,即 比较大,这种情形下比较大,这种情形下对群内所有的次级单元一一访问似乎完全没有必要,一个省对群内所有的次级单元一一访问似乎完全没有必要,一个省时省钱又省力的念头会在调查者的头脑中油然而生,何不在时省钱又省力的念头会在调查者的头脑中油然而生,何不在抽到的群内再作一定方式的抽样呢?这种在选中的初级单元抽到的群内再作一定方式的抽样呢?这种在选中的初级单元中再进行抽样的方法称为中再进行抽样的方法称为二阶抽样二阶抽样。倘若在抽取的次级单元

3、。倘若在抽取的次级单元中又包含许多更次一级的单元,在这些单元中继续抽样就自中又包含许多更次一级的单元,在这些单元中继续抽样就自然地称为然地称为三阶抽样三阶抽样。c 抽样形式抽样形式第一阶段第一阶段第二阶段第二阶段分层抽样分层抽样整群抽样整群抽样二阶抽样二阶抽样抽全部抽全部抽部分抽部分抽全部抽全部抽部分抽部分抽部分抽部分抽部分抽部分二阶与多阶抽样的二阶与多阶抽样的优点优点:1、它具有实施上的方便,比如在编制抽样框时那些没有被、它具有实施上的方便,比如在编制抽样框时那些没有被抽到的群或次一级群内的单元就没有必要也去编制抽样框。抽到的群或次一级群内的单元就没有必要也去编制抽样框。仅需对那些已抽中的单

4、元才去准备下一级单元的抽样框,而仅需对那些已抽中的单元才去准备下一级单元的抽样框,而且许多抽样调查常常采用行政系统及隶属单元,这给多阶抽且许多抽样调查常常采用行政系统及隶属单元,这给多阶抽样本身创造了有利的条件。样本身创造了有利的条件。 另外,多阶抽样方法可以用到关于散料的抽样。所谓散另外,多阶抽样方法可以用到关于散料的抽样。所谓散料是指连续松散的不易区分为个体或抽样单元的材料。例如料是指连续松散的不易区分为个体或抽样单元的材料。例如,煤、粮食、水泥、化肥等原料的质量检测,此时抽样单元,煤、粮食、水泥、化肥等原料的质量检测,此时抽样单元常常需要人为划分,一般取自然单位,诸如一公斤、一杯子常常需

5、要人为划分,一般取自然单位,诸如一公斤、一杯子等;而初级单元则为包装袋、一卡车、一个车皮等。这种数等;而初级单元则为包装袋、一卡车、一个车皮等。这种数量众多的散料的质量检测采用二阶或多阶抽样也许是最有效量众多的散料的质量检测采用二阶或多阶抽样也许是最有效的手段。为方便,本章主要讨论二阶抽样。的手段。为方便,本章主要讨论二阶抽样。2、能够满足各级政府部门对抽样调查资料的需求。因为各、能够满足各级政府部门对抽样调查资料的需求。因为各级政府领导都关心全国和本地区、本部门的社会经济发展状级政府领导都关心全国和本地区、本部门的社会经济发展状况,希望抽样调查能同时满足全国性和地方性的需要。因而况,希望抽样

6、调查能同时满足全国性和地方性的需要。因而采用二阶或多阶抽样,在一定程度上能够满足各级政府、部采用二阶或多阶抽样,在一定程度上能够满足各级政府、部门对调查资料的需求。门对调查资料的需求。3、有利于减少抽样误差、提高抽样估计精度。这种抽样调查、有利于减少抽样误差、提高抽样估计精度。这种抽样调查方法,可以使每个一阶样本单位分布比较均匀,具有很好的方法,可以使每个一阶样本单位分布比较均匀,具有很好的代表性;对于方差大的阶段多抽些样本单位以提高精度。代表性;对于方差大的阶段多抽些样本单位以提高精度。 先作一些基本假设:先作一些基本假设: (1 1)初级单元中包含的次级单元个数同为初级单元中包含的次级单元

7、个数同为 M M,因此在因此在抽中的初级单元中再抽取的次级单元个数也相等,记为抽中的初级单元中再抽取的次级单元个数也相等,记为 m m。1 1 初级单元大小相等的二阶抽样初级单元大小相等的二阶抽样 (2 2)两个阶段的抽样方法都是简单随机抽样两个阶段的抽样方法都是简单随机抽样。 (3 3)在抽中的若干初级单元中作第二阶抽样是相互独在抽中的若干初级单元中作第二阶抽样是相互独立进行的立进行的。 再引进一些必要的记号:再引进一些必要的记号:ijY表示第表示第 初级单元中第初级单元中第 个次级单元个次级单元1,2,;1,2,iNjM ijijy表示样本中第表示样本中第 初级单元中第初级单元中第 个次级

8、单元的观测值个次级单元的观测值1,2, ;1,2,in jm ij1MiijjYY 第第 初级单元总和初级单元总和iiiYYM 第第 初级单元平均值初级单元平均值i11111NMNijiijiYYYNMN 总体平均值总体平均值222111()(1)NMijiijSYYN M 初级单元初级单元(群群)内的方差内的方差22111()1NiiSYYN 总体中初级单元总体中初级单元(群群)间方差间方差将将 改为改为 ,N改为改为n,M改为改为m,则为相应的样本指标值则为相应的样本指标值Yy第第 i 群内次级单元间的方差记为:群内次级单元间的方差记为:22211()1MiijijSYYM 显然有显然有

9、所有所有 的平均数。的平均数。222211NiiSSN 22iS1、估计量及其方差、估计量及其方差 总体平均数总体平均数 的估计是用样本平均数进行估计的的估计是用样本平均数进行估计的Y11111nnmiijiijyyynnm 容易证明,这个估计量容易证明,这个估计量 是是 的无偏估计。的无偏估计。yY其方差为:其方差为:22121211( )ffVar ySSnnm(9.1)其中其中 ,1nfN 2mfM 方差的无偏估计为:方差的无偏估计为:22112121(1)( )fffv yssnnm (9.2)总体总数总体总数 的估计为:的估计为:Y yNM y 方差的无偏估计为:方差的无偏估计为:2

10、( )()( )v yNMv y 总体平均数总体平均数95的置信区间为的置信区间为(1.96( ) ,1.96( )yv yyv y总体总数总体总数95的置信区间为的置信区间为(1.96( ) ,1.96( )yv yyv y例例9.1:新华书店某柜台上月共用去发票新华书店某柜台上月共用去发票70本,每本本,每本100张,张,现随机从中抽出现随机从中抽出10本,每本随机抽出本,每本随机抽出15张发票,得到数据张发票,得到数据如下表:给出上月柜台营业总额的估计及其方差。如下表:给出上月柜台营业总额的估计及其方差。i151ijjy 12345678910375.25408.30323.40502.

11、50234.00387.75284.20256.60314.10280.501521ijjy 11280.2512115.998752.7617833.753953.0011302.506573.044822.366921.015827.2525.0227.2221.5633.5015.6025.8518.9517.1120.9418.70135.0271.58127.1671.4321.6197.3784.7530.7924.5541.56iy22is解:解:N=70,n=10,M=100,m=15101511111110 15nmijijijijyyynm 1375.25280.5022.

12、44410 15 117f 20.15f 70 100 22.444157108yNM y 故上月柜台营业总额的估计为故上月柜台营业总额的估计为157108.00元元22111()29.761niisyyn 22221170.58niissn 22112121(1)( )2.61fffv yssnnm 标准差为标准差为 元元( )70 1002.6111308.85v y 营业总额营业总额95的置信区间为的置信区间为22( )()( )(70100)2.61v yNMv y (1.96( ) ,1.96( )yv yyv y(134942.65 ,179273.35) 2、最优抽样比、最优抽样

13、比 如果初级单元(或群)之间的旅行费用不占重要地位的如果初级单元(或群)之间的旅行费用不占重要地位的话,常采用简单线性费用函数:话,常采用简单线性费用函数: 二阶抽样存在两次概率抽样,因而存在两个抽样比二阶抽样存在两次概率抽样,因而存在两个抽样比 因此我们面临的问题是:因此我们面临的问题是:(1)在总费用给定的条件下,如何在总费用给定的条件下,如何确定确定 与与 而使而使 的方差达到最小;的方差达到最小;(2)在给定估计量的精在给定估计量的精度度 条件下,如何确定条件下,如何确定 与与 以使总费用最小。以使总费用最小。y12,ff1f2f1f2f( )Var y0c12,cc其中其中 是基本费

14、用,是基本费用, 是每调查一个初级单元与次级单元是每调查一个初级单元与次级单元所花费的费用。所花费的费用。012Ccc nc nm (9.3)将方差表达成:将方差表达成:222222111( )()SSSVar ySnMnmN(9.4) 于是,在固定于是,在固定C下极小化下极小化 或在固定或在固定 下极小化下极小化C均等价于使下式极小化:均等价于使下式极小化:( )Var y( )Var y222201SSSM其中:其中: 。但这里要求。但这里要求 。2222010SSSM2222010SSSM假如假如 ,表明群内差异明显地大于群间的差异,表明群内差异明显地大于群间的差异,因此对于抽到的群来说

15、,最好作全面调查才能保证样本的代因此对于抽到的群来说,最好作全面调查才能保证样本的代表性,此时总使表性,此时总使mM。2222010SSSM现考虑现考虑222222101122220121( )()()()()()SSVar ySCcScc mNMmSScc mm(9.5)在在(9.5)式中,由于式中,由于 都是常数,为使都是常数,为使(9.5)达到最达到最小,只要小,只要220212,SSc c222102S cQS c mm(9.6)达到最小,这两个加项的乘积恰好为常数达到最小,这两个加项的乘积恰好为常数 ,因此,因此只要这两项相等就可使只要这两项相等就可使Q达到最小,此时应取达到最小,此

16、时应取220212S S c c1202cSSmc m 或者或者m的最优取值为:的最优取值为:2102optScmSc (9.7)一般地,一般地, 不是整数,记不是整数,记 为为 的最小整数部分,那的最小整数部分,那么么 ( 为为 的小数部分,且的小数部分,且 )。)。optmoptmoptmoptoptmmaoptma0a 2(12 )optaa m如果如果 ,则取,则取 1optmm如果如果 ,则取,则取2(12 )optaa moptmm 易见,对于易见,对于 的小数部分大于或等于的小数部分大于或等于0.5的情况,我们总取的情况,我们总取 ,这符合通常的,这符合通常的“五入五入”规则,是

17、否规则,是否“四舍四舍”?当当 时,就要看时,就要看 的最小整数部分的大小了。的最小整数部分的大小了。optm 1optmmoptm0.5a 由由 m 的选取,代入的选取,代入(9.3)或或(9.4)立即可以得到立即可以得到 n 的数值。的数值。3、分层二阶抽样、分层二阶抽样 所谓分层二阶抽样就是将总体分为所谓分层二阶抽样就是将总体分为 k 个层,在每层内进个层,在每层内进行二阶抽样。比如,一所大学有行二阶抽样。比如,一所大学有 8 个系,每个系有若干个班个系,每个系有若干个班级,每班大约人数为级,每班大约人数为40人,为了解学生的情况需要作一次抽人,为了解学生的情况需要作一次抽样调查,在每个

18、系都随机抽几个班,再在抽中的班级里抽取样调查,在每个系都随机抽几个班,再在抽中的班级里抽取若干人的简单随机抽样,这就构成二阶分层抽样。若干人的简单随机抽样,这就构成二阶分层抽样。 本节讨论的二阶分层抽样,假设在同一层内初级单元大本节讨论的二阶分层抽样,假设在同一层内初级单元大小相等,但不同层可以不相等。设第小相等,但不同层可以不相等。设第 h 层含层含 个初级单元,个初级单元,每个初级单元包含每个初级单元包含 个次级单元,于是总体中共含有个次级单元,于是总体中共含有个次级单元。又假设在第个次级单元。又假设在第 h 层按照简单随机抽样方法抽取层按照简单随机抽样方法抽取个初级单元,在每个被抽中的初

19、级单元中再抽取容量为个初级单元,在每个被抽中的初级单元中再抽取容量为 的的简单随机抽样。简单随机抽样。hNhM1khhhN M hnhmhy 设第设第 h 层中样本的层中样本的(二阶抽样二阶抽样)平均数为平均数为 ,因此按照分,因此按照分层估计的技巧,总体的层估计的技巧,总体的(按次级单元按次级单元)平均数平均数 的分层二阶估的分层二阶估计量为:计量为:Y111khhhkhsthhkhhhhN M yyW yN M (9.8)其中其中 为第为第 h 层层(按次级单元按次级单元)的层权:的层权:hW1hhhkhhhN MWN M (9.9)(9.10)而而11hhnmhijijhhhyyn m

20、由于各层的抽样相互独立,而由二阶抽样的有关讨论,由于各层的抽样相互独立,而由二阶抽样的有关讨论, 的的方差及其方差估计是已知的,因此:方差及其方差估计是已知的,因此:hy2221212111()()khhsthhhhhhhffVar yWSSnn m (9.11)2221121211(1)()()khhhsthhhhhhhfffv yWssnn m (9.12)其中其中 分别为第分别为第 h 层中的两个抽样比。层中的两个抽样比。12hhhhhhnmffNM、 和和 是第是第 h 层中的群间和群内方差,层中的群间和群内方差, 与与 是第是第 h 层中层中样本的群间和群内方差。样本的群间和群内方差

21、。21hS22hS21hs22hs显然,总体总和的分层二阶抽样估计为:显然,总体总和的分层二阶抽样估计为:1ksthhhhyN M y (9.13)其方差及其方差估计为:其方差及其方差估计为:22221212111()()khhsthhhhhhhhffVar yN MSSnn m 22221121211(1)()()khhhsthhhhhhhhfffv yN Mssnn m 在分层二阶抽样中当然也存在最优抽样比的问题,不过此在分层二阶抽样中当然也存在最优抽样比的问题,不过此时假定费用函数一般应当与时假定费用函数一般应当与“层层”有关系:有关系:0112211kkhhhhhhhCcc ncn m

22、 (9.14)固定费用固定费用C而使方差达到最小或方差有一定精度要求下使而使方差达到最小或方差有一定精度要求下使费用达到最小,此时费用达到最小,此时 的最优选择为:的最优选择为:hm2122212hhhhhhhScmcSSM (9.15)其中总假设对所有的其中总假设对所有的 h ,都有都有 。22120hhhSSM2 2 初级单元大小不等的二阶抽样初级单元大小不等的二阶抽样 在实践中,除少数情况外,初级单元的大小不一定相等在实践中,除少数情况外,初级单元的大小不一定相等当然理想一些的情况,我们在分群时就注意到先将单元按照当然理想一些的情况,我们在分群时就注意到先将单元按照大小分层,使得同一层中

23、初级单元大小相等,然后利用上面大小分层,使得同一层中初级单元大小相等,然后利用上面所讲的分层二阶抽样的办法来做。只可惜在实际操作中,分所讲的分层二阶抽样的办法来做。只可惜在实际操作中,分层分群常常有一些层分群常常有一些“自然自然”形式,例如从行政系统划分等。形式,例如从行政系统划分等。因此,我们只能面对初级单元大小不等的情形,由于初级单因此,我们只能面对初级单元大小不等的情形,由于初级单元大小不一样,合理的手段是对初级单元采用不等概率抽样元大小不一样,合理的手段是对初级单元采用不等概率抽样。 先给出一些相关的记号:先给出一些相关的记号:ijY表示第表示第 初级单元中第初级单元中第 个次级单元个

24、次级单元1,2,;1,2,iiNjM ij1iMiijjYY 第第 初级单元总和初级单元总和iiiiYYM 第第 初级单元平均值初级单元平均值i111iMNNiijiijYYY总体总和总体总和01NiiMM 0YY M 总体平均数总体平均数(按次级单元按次级单元)YY N 总体平均数总体平均数(按初级单元按初级单元)22211()1iMiijijiSYYM 第第 i 初级单元内方差初级单元内方差1、只抽取一个初级单元情形(只抽取一个初级单元情形(n=1) 先考虑从先考虑从 N N 个初级单元中随机选取个初级单元中随机选取 1 1 个以推断总体个以推断总体. .这种情形看起来似乎很特殊,但在生活

25、中也不少见,例如在这种情形看起来似乎很特殊,但在生活中也不少见,例如在随机地选的一个班级中抽取几个人进行考试以测试全年级的随机地选的一个班级中抽取几个人进行考试以测试全年级的教育质量。只选取教育质量。只选取 1 1 个单元,仍有等概率与不等概率之分个单元,仍有等概率与不等概率之分. .(1)等概率抽取初级单元等概率抽取初级单元 考虑对总体平均数考虑对总体平均数 的估计的估计. .Y首先使用抽中的初级单元中的样本平均数首先使用抽中的初级单元中的样本平均数 对对 进行估计进行估计IyY11imIiijjiyyym (9.16)对第对第 i 初级单元来讲初级单元来讲,由盒子模型可知,由盒子模型可知,

26、 是是 的无偏估计。的无偏估计。由于第由于第 i 个抽样单元是等概率抽取,相当于从盒子个抽样单元是等概率抽取,相当于从盒子中等可能抽取一次,那么所得之数一定是这个盒子平均数的中等可能抽取一次,那么所得之数一定是这个盒子平均数的无偏估计,即无偏估计,即iyiY1(,)NYY11()NIiiE yYYN YY 而而 ,那么,那么 不是不是 的无偏估计,而是有偏估计!的无偏估计,而是有偏估计!YIyY因此,对因此,对 只能求均方误差:只能求均方误差:22221111()()()NNiiIiiiiiiMmMSE yYYYYSNNM m 作为作为 的有偏估计,的有偏估计, 的均方误差由三部分构成:一是由

27、偏的均方误差由三部分构成:一是由偏倚引起的平方和,这就是倚引起的平方和,这就是(9.17)式右边的第一项;二是按初级式右边的第一项;二是按初级单元单元(此时初级单元的特征指标当然只能是其平均数此时初级单元的特征指标当然只能是其平均数)而计算的而计算的总体方差,总体方差, (9.17)式右边的第二项恰好体现出这一点;最后一式右边的第二项恰好体现出这一点;最后一部分是初级单元中次级单元的方差平方和,这恰好是部分是初级单元中次级单元的方差平方和,这恰好是(9.17)式式右边的第三项。右边的第三项。YIy()IMSE y 从从 的表达式可以看出,其第一项和第二项都与的表达式可以看出,其第一项和第二项都

28、与 的选择没有任何关系,倘若要尽力减少误差,目标自然注意的选择没有任何关系,倘若要尽力减少误差,目标自然注意到第三项,然而第三部分是无法知道且也是无法估计的,因为到第三项,然而第三部分是无法知道且也是无法估计的,因为既然我们只选取一个初级单元,又如何能估计所有的既然我们只选取一个初级单元,又如何能估计所有的 呢?呢?22iSim 由于是二阶抽样,也不可能取由于是二阶抽样,也不可能取 。在一般情况下,。在一般情况下,为了方便起见,常采用选取为了方便起见,常采用选取 常数,不管取到哪常数,不管取到哪一个初级单元,总抽预先指定好的样本容量,要不,取一个初级单元,总抽预先指定好的样本容量,要不,取 与

29、与 成一定的比例比较合理一些。成一定的比例比较合理一些。iimM imm imiMIy 不是不是 的无偏估计这一缺陷是由的无偏估计这一缺陷是由“等可能等可能”抽取而引抽取而引起的,这时候每一个起的,这时候每一个 有着同等重要的地位有着同等重要的地位而由于初级单元大小不同,在而由于初级单元大小不同,在 的构造中显然的构造中显然 不是有着不是有着同等地位的,这个事实使我们找到了一个弥补同等地位的,这个事实使我们找到了一个弥补“等可能等可能”所引所引起缺陷的办法,那就是在构造估计量时考虑被抽到的初级单起缺陷的办法,那就是在构造估计量时考虑被抽到的初级单元的大小作为元的大小作为“权权”:Y(1,2,)

30、iY iN YiY0IIiiiiMN MyyyMM (9.18)其中其中 表示所有初级单元的平均大小。这个估计的表示所有初级单元的平均大小。这个估计的意义很清楚,它的意义很清楚,它的 乘以乘以 成为第成为第 i 个初级单元内总和的个初级单元内总和的估计,再乘以估计,再乘以 N 成为总体总和的估计,这个估计除以成为总体总和的估计,这个估计除以 作作为为 的估计量是合理的。的估计量是合理的。0MM N iMiy0MY“权权” 的作用是使初级单元的指标化为次级单元的有关的作用是使初级单元的指标化为次级单元的有关指标。既然指标。既然 是第是第 i 个初级单元的总和的无偏估计,由于个初级单元的总和的无偏

31、估计,由于第一阶抽样的第一阶抽样的“等可能性等可能性”, 应当是总体总和的无偏估应当是总体总和的无偏估计,于是有:计,于是有: iMMiiM yiiNM y()IIEyY (9.19)222211()11()IINNiiiiiiiiiMM MmVar yYYSNMNMm (9.20)IIy的方差为:的方差为: 应当指出,应当指出, 对对 弥补的只是弥补的只是“期望期望”或或“平均平均”上的偏上的偏倚,至于在精度上是否获益则很难定。例如,倘若各个初级倚,至于在精度上是否获益则很难定。例如,倘若各个初级单元的平均数单元的平均数 比较稳定,而比较稳定,而 相距较大,引起相距较大,引起 前的系前的系数

32、数 的差异较大,这种场合下的差异较大,这种场合下 比起比起 来变化范围来变化范围显然大得多,效果就比较差。显然大得多,效果就比较差。IIyIyiYiMiyiMMIIyIy(2)不等概率抽取初级单元不等概率抽取初级单元 用等概率方法抽取初级单元对于大小不等的初级单元情用等概率方法抽取初级单元对于大小不等的初级单元情形显然不太合理,精度较差是可想而知的。一般地,我们采形显然不太合理,精度较差是可想而知的。一般地,我们采用的不等概率抽取法有如下几种:用的不等概率抽取法有如下几种: 按概率按概率 抽取到第抽取到第 i 个初级单元,此时构造的估计个初级单元,此时构造的估计量为:量为:0iMMIIIiyy

33、 (9.21)IIIyIy 与与 表面上形式相同,只不过表面上形式相同,只不过 取取 的概率为的概率为Iyiy1N而而 取取 的概率为的概率为IIIyiy0iMM111001()iMNNiIIIiijiijME yyYYMM (9.22)IIIy即即 是是 的无偏估计量。的无偏估计量。Y222110011()()()NNiiIIIiiiiiiMMVar yYYSMMmM 222110()1()NNiiiiiiiiMmM YYSMm (9.23)抽取概率抽取概率按预先指定的一组概率按预先指定的一组概率 来实施,来实施,构造估计量为:构造估计量为:1,1NiiiZZ 0iiIViMyyMz(9.2

34、4)1100()NNiiiIViiiiiMYME yZYYMZM (9.25)IVy即即 是是 的无偏估计量。的无偏估计量。Y2222221100111()()()NNiiiIViiiiiiiiiM YMVar yZYZSM ZMZmM 220221101()NNiiiiiiiiiiiiM YMMmZM YSMZZm (9.26)显然,若取显然,若取 ,则,则 。若取若取 ,则,则 。0iiZMM IVIIIyy 1iZN IVIIyy 抽取方式与抽取方式与相同,但构造的关于相同,但构造的关于 的估计量为:的估计量为:YViyy (9.27)此时,每个此时,每个 具有权具有权 ,因此,因此iY

35、iZ1()NViiZiE yZ YY (9.28)一般地一般地 ,因此,因此 是有偏估计。其均方误差为:是有偏估计。其均方误差为:ZYY Vy222211()()()()NNiiiVZiiZiiiiiZ MmMSE yYYZ YYSM m (9.29) Cochran构造了一个虚拟总体构造了一个虚拟总体(N3)进行抽样以对上述进行抽样以对上述五种方法进行比较:五种方法进行比较:例例9.2 Cochran(1977)N=3 初级单元初级单元(大小不等大小不等)的虚拟总体的虚拟总体iijYiMiY22iSiY1230,11,2,2,33,3,4,4,5,524618240.5000.6670.80

36、00.52.04.0012M 33Y 0332.7512YYM1(0.52.04.0)2.1673Y 方方法法抽取各单元的概率抽取各单元的概率 的的估计量估计量Y是否是否无偏无偏MSE2()偏偏倚倚单元间单元间 单元内单元内 总计总计11 1 1( , )3 3 3N0iiNMyM无偏无偏0 5.792 0.256 6.0480(0.17,0.33,0.50)iMMiy无偏无偏0 1.813 0.189 2.002(0.2,0.4,0.4)iZ0iiiMyMz无偏无偏0 3.583 0.213 3.796(0.2,0.4,0.4)iZiy有偏有偏0.062 1.800 0.173 2.035a

37、b11 1 1( , )3 3 3N11 1 1( , )3 3 3Niy 有偏有偏0.340 2.056 0.144 2.5410.340 2.056 0.183 2.579取取2im b唯唯 取取2iimM 上表中最后一列的上表中最后一列的MSE是比较优劣的关键,是比较优劣的关键, 尽管是尽管是无偏估计,但是效果最差。同样是无偏估计,无偏估计,但是效果最差。同样是无偏估计, 的效果最的效果最好。好。IIyIIIy 这两个事实也表明了这两个事实也表明了“无偏性无偏性”对于估计量的误差判断并对于估计量的误差判断并非是决定性的,有时为了使均方误差小一些,人们宁可放弃非是决定性的,有时为了使均方误

38、差小一些,人们宁可放弃无偏性,无偏性, 作为有偏估计其效果几乎不亚于作为有偏估计其效果几乎不亚于 。注意到。注意到、三种方法都是不等概率抽样,三种方法都是不等概率抽样,与与除了除了 不同不同外其余均相同,由于外其余均相同,由于 与与 差异不大,因此差异不大,因此的效果相的效果相对也就比较好。而对于对也就比较好。而对于 ,尽管,尽管 与与 相同,但对其估计相同,但对其估计量量“刻意刻意”要求无偏却引起了均方误差的很不理想!要求无偏却引起了均方误差的很不理想!VyIIIyiZiZ0iMMVyiZIVy2、抽取、抽取 个初级单元情形个初级单元情形1n 两个以上的初级单元里进行第二阶抽样,合理的基本假

39、两个以上的初级单元里进行第二阶抽样,合理的基本假定是在不同的初级单元内的抽样过程相互之间独立。为方便定是在不同的初级单元内的抽样过程相互之间独立。为方便起见,仍像以前一样假定第二阶抽样为简单随机抽样,在这起见,仍像以前一样假定第二阶抽样为简单随机抽样,在这一小段讨论中,我们主要考虑总体总和的估计。一小段讨论中,我们主要考虑总体总和的估计。(1)初级单元按多项抽样方法抽取)初级单元按多项抽样方法抽取 设初级单元以给定的一组概率设初级单元以给定的一组概率 逐个放回地逐个放回地1(,1)NiiiZZ imim抽取抽取 n 次,在每个被抽中的初级单元里实施容量为次,在每个被抽中的初级单元里实施容量为

40、的简的简单随机抽样:假若第单随机抽样:假若第 i 个初级单元在第一阶抽样中被抽中二个初级单元在第一阶抽样中被抽中二次或二次以上,那么在第次或二次以上,那么在第 i 个初级单元中将独立地对全体次个初级单元中将独立地对全体次级单元进行二次或二次以上的容量为级单元进行二次或二次以上的容量为 的简单随机抽样。的简单随机抽样。 显然,对第显然,对第 i 个初级单元的总和个初级单元的总和 可自然地找到无偏估可自然地找到无偏估计计 ,以这些,以这些 代替代替 的话,那么整群抽样中的的话,那么整群抽样中的HansenHurwitz型估计无疑为型估计无疑为 提供了无偏估计:提供了无偏估计:iYiYYiy iii

41、yM y 1111nniiiHHiiiiyM yynznz (9.30)其方差为:其方差为:2222211(1)11()NNiiiHHiiiiiiiYMfVar yZYSnZnm Z (9.31)其中其中2(1,2,)iiimfiNM(2)初级单元按简单随机抽取方式抽取)初级单元按简单随机抽取方式抽取 由于二阶抽样都是采用简单随机抽样形式,于是可对总由于二阶抽样都是采用简单随机抽样形式,于是可对总体总和采用一个最为简单的估计形式:体总和采用一个最为简单的估计形式:11nnuiiiiiNNyM yynn(9.32)由于由于 与与 是是 与与 的无偏估计,因此的无偏估计,因此 也是也是 的无的无偏

42、估计。偏估计。iyiy iYiYYuy 其方差为:其方差为: 2212221111()111NuiiNiiiiiVar yNYYnNNNMSnmM (9.33)方差方差 的无偏估计为:的无偏估计为:()uVar y 2212221111()111Nuiuiniiiiiv yNyynNnNMsnmM (9.34)其中其中11nuiiyyn 22211()1imiijijisyym 这类简单估计虽然形式简单,而且结构也容易为人们接这类简单估计虽然形式简单,而且结构也容易为人们接受,同时又是总体的无偏估计,但是它的效果并不理想,方受,同时又是总体的无偏估计,但是它的效果并不理想,方差显得较大。差显得

43、较大。(3)按不放回不等概率抽取初级单元)按不放回不等概率抽取初级单元 如果抽取到的第如果抽取到的第 i 个初级单元的总和估计为个初级单元的总和估计为 (简单简单随机抽样下的无偏估计随机抽样下的无偏估计),那么由第六章第二节易知,总体,那么由第六章第二节易知,总体总和的二阶估计可采用如下形式的总和的二阶估计可采用如下形式的HorvitzThompson估计估计量。量。iiM y 现在考虑初级单元是按不放回不等概率抽取,而第二阶现在考虑初级单元是按不放回不等概率抽取,而第二阶抽取仍为在抽取的初级单元中实行简单随机抽样。那么在第抽取仍为在抽取的初级单元中实行简单随机抽样。那么在第一阶抽样中就存在包

44、含概率一阶抽样中就存在包含概率 。,iij 11nniiiHTiiiiM yyy(9.35)由于由于 或或 是是 的无偏估计,又的无偏估计,又 是是 的无偏估的无偏估计,所以计,所以 是是 的无偏估计。的无偏估计。iiM yiy iYY1niiiy YHTy 其方差为:其方差为:22211()()NNNjiiHTijijij iiijiYYVar y (9.38)其中其中 222211111iMiiijijiiiMYYnMM 方差方差 的无偏估计为:的无偏估计为:()HTVar y 22211()()nnNjiiHTijijij iiijiyyv y (9.39)其中其中 222211111i

45、niiijijiiiMyynMn 3 3 三阶及多阶抽样三阶及多阶抽样 将有关二阶抽样的一些公式与估计推广到三阶乃至更高将有关二阶抽样的一些公式与估计推广到三阶乃至更高阶的情况是很现实的,其实基本上是依样画葫芦,只不过在阶的情况是很现实的,其实基本上是依样画葫芦,只不过在符号与计算方面更为复杂些,尤其是对于各级单元大小都相符号与计算方面更为复杂些,尤其是对于各级单元大小都相等时更是如此,下面以三阶为例。等时更是如此,下面以三阶为例。1、各级单元大小均相等时的三阶抽样、各级单元大小均相等时的三阶抽样 设总体中含有设总体中含有N个初级单元,每个初级单元包含个初级单元,每个初级单元包含M个次个次级单元,而每一个次级单元均包含级单元,而每一个次级单元均包含K个三级单元。各阶的抽个三级单元。各阶的抽样容量分别为样容量分别为 n、m、k,引进一些必要的记号:,引进一些必要的记号:ijtY表示第表示第 初

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论