09-第九章多段抽样_第1页
09-第九章多段抽样_第2页
09-第九章多段抽样_第3页
09-第九章多段抽样_第4页
09-第九章多段抽样_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、02468101214161850-6070-8090-1000%5%10%15%20%25%30%35%第九章第九章 多阶段抽样多阶段抽样 2本章要点本章要点 本章介绍多阶段抽样的方式、优点和初本章介绍多阶段抽样的方式、优点和初级单位大小相等或不等时的两阶段抽样的估级单位大小相等或不等时的两阶段抽样的估计量及其性质,并对相关一些问题进行讨论。计量及其性质,并对相关一些问题进行讨论。具体要求:具体要求: 正确理解多阶段抽样的科学涵义,对正确理解多阶段抽样的科学涵义,对多阶段抽样的性质及优点有初步的认识;多阶段抽样的性质及优点有初步的认识; 掌握初级单位大小相等时两阶段抽样掌握初级单位大小相等时

2、两阶段抽样的估计量及其性质和初级单位大小不等时两的估计量及其性质和初级单位大小不等时两阶段抽样的估计量及其性质;阶段抽样的估计量及其性质; 了解有关多阶段抽样的其它相关问题。了解有关多阶段抽样的其它相关问题。 3第一节第一节 抽样方式抽样方式4一、多阶段抽样的概念一、多阶段抽样的概念 分多个阶段抽到最终接受调查的样本。 初级单元(psu)-primary sampling unit 二级单元 (ssu)-second-stage sampling unit 三级单元(tsu)-third-stage sampling unit 最终单元 (usu)-ultimate sampling unit

3、5 假设总体中的每个单位本身就很大,我假设总体中的每个单位本身就很大,我们可以们可以先在总体各单位(初级单位)中抽取先在总体各单位(初级单位)中抽取样本单位,在抽中的初级单位中再抽取若干样本单位,在抽中的初级单位中再抽取若干个第二级单位(个第二级单位(secondary sampling units),在抽中的第二级单位中再抽取若),在抽中的第二级单位中再抽取若干个第三级单位(干个第三级单位(tertiary sampling units),直至从最后一级单位中抽取,直至从最后一级单位中抽取所要调查的基本单位的抽样组织形式,就叫所要调查的基本单位的抽样组织形式,就叫做多阶段抽样。因此,对于一个

4、阶段数为做多阶段抽样。因此,对于一个阶段数为l l(l l1,2,3 3)的多阶段抽样,最终可)的多阶段抽样,最终可以抽出以抽出l l级样本单位,实际调查也是落在这级样本单位,实际调查也是落在这第第l l阶段也即最末阶段的抽样单位上。阶段也即最末阶段的抽样单位上。一、多阶段抽样的概念一、多阶段抽样的概念6n思考:思考: 二阶抽样与分层抽样和整群抽样的联系与二阶抽样与分层抽样和整群抽样的联系与区别?区别? 如果第一阶段抽样采用全面调查,二如果第一阶段抽样采用全面调查,二阶抽样就成了分层抽样;阶抽样就成了分层抽样; 如果第二阶段抽样采用全面调查,二如果第二阶段抽样采用全面调查,二阶抽样就成了整群抽

5、样。阶抽样就成了整群抽样。7n多阶段抽样中最简单的是两阶段抽样,即在整群抽多阶段抽样中最简单的是两阶段抽样,即在整群抽样的基础上,对抽中的群不是全面调查,而是只抽样的基础上,对抽中的群不是全面调查,而是只抽取部分单位进行调查。也即总体抽群,群抽单位。取部分单位进行调查。也即总体抽群,群抽单位。较复杂些的则是三阶段抽样、四阶段抽样甚至五阶较复杂些的则是三阶段抽样、四阶段抽样甚至五阶段抽样、六阶段抽样等。段抽样、六阶段抽样等。n例如,我国例如,我国1984年不颁发的农产量抽样调查方案实年不颁发的农产量抽样调查方案实行的是五阶段抽样方式,即为:省抽县,县抽乡,行的是五阶段抽样方式,即为:省抽县,县抽

6、乡,乡抽村,村抽地块,地块中抽实测样本,即定义全乡抽村,村抽地块,地块中抽实测样本,即定义全国的省为初级单位,县为二阶单位,乡镇为三级单国的省为初级单位,县为二阶单位,乡镇为三级单位,自然村为四级单位,地块为五级单位。位,自然村为四级单位,地块为五级单位。8二、多阶段抽样的优点二、多阶段抽样的优点n(一)构造抽样框较容易,便于组织抽样。(一)构造抽样框较容易,便于组织抽样。 n(二)可以使抽样方式更加灵活和多样化。(二)可以使抽样方式更加灵活和多样化。 n(三)能够提高估计精度。(三)能够提高估计精度。 n(四)可以提高抽样的经济效益。(四)可以提高抽样的经济效益。 n(五)可以为各级机构提供

7、相应的信息。(五)可以为各级机构提供相应的信息。 两阶段抽样的研究,是多阶段抽样研究的基础和两阶段抽样的研究,是多阶段抽样研究的基础和出发点。多阶段抽样的性质和特点,在二阶段抽样中出发点。多阶段抽样的性质和特点,在二阶段抽样中都已经体现出来。本书中主要研究二阶段抽样问题,都已经体现出来。本书中主要研究二阶段抽样问题,对于三阶段以上的多阶段抽样,只做一般的介绍。对于三阶段以上的多阶段抽样,只做一般的介绍。9第二节第二节 初级单位大小相初级单位大小相等等的两阶段抽样的两阶段抽样10设总体划分为设总体划分为a a个初级单位,每个初级单位含有个初级单位,每个初级单位含有m m个二阶单位。个二阶单位。

8、为总体第为总体第i i个初级单位中第个初级单位中第j j个二阶单位的标志值。个二阶单位的标志值。 1miijjyy为总体为总体i i个初级单位中各二阶单位的标志总量。个初级单位中各二阶单位的标志总量。11miijjyym为总体第为总体第i i个初级单位中各二阶单位的均值。个初级单位中各二阶单位的均值。 11111aamiijiijyyyaam为总体均值。为总体均值。 ijy一、问题的基本提法一、问题的基本提法 11 从从a a个初级单位中等概率地抽取个初级单位中等概率地抽取a a个初级单位,称为初级个初级单位,称为初级样本单位,并由每个初级样本单位中抽取样本单位,并由每个初级样本单位中抽取m

9、m个二阶单位(称为个二阶单位(称为二阶样本单位)组成样本。二阶样本单位)组成样本。 第第i i个初级样本单位中的第个初级样本单位中的第j j个二阶样本单位的标志值。个二阶样本单位的标志值。ijy1miijjyy为第为第i i个初级样本单位中各二阶样本单位的标志总量。个初级样本单位中各二阶样本单位的标志总量。 11miijjyym为第为第i i个初级样本单位中各二阶样本单位的均值。个初级样本单位中各二阶样本单位的均值。11111namiijiijyyyaam为二阶段抽样的样本均值。为二阶段抽样的样本均值。 12二、估计量及其性质二、估计量及其性质n(一)总体均值的估计(一)总体均值的估计 在初级

10、单位大小相等的两阶段抽样中,总体均在初级单位大小相等的两阶段抽样中,总体均值的无偏估计量就是二级段抽样的样本均值,即:值的无偏估计量就是二级段抽样的样本均值,即: 111/()aamiijiijyyy ayam 13n证明二阶样本估计量的无偏性证明二阶样本估计量的无偏性121111212111111( )( )1()()11()()ammijijaijjimmijijaajjiie yeeyyyeeeeamamyyeyamam14(二)样本均值的方差(二)样本均值的方差2211() /(1)aiisyya为初级单位间的方差。为初级单位间的方差。22211() /(1)amijiijsyya m

11、为初级单位内的方差。 根据方差的性质和两阶段抽样的特点,有:2212( )()()v ye y ye e y y其中 2222222()( )( ) 2( )e y ye yv yye yy所以221212( )( )( )v ye e yye v y又因为 12( )eeyy1212( )( )v e ye v y15在二阶抽样下,有以下结果在二阶抽样下,有以下结果 22112121111121212121211222121111( )()()1111111 aaiiiimiijaaiiiiaiifa av e yv eyvyssaaaaayyfe vye vyeaammffesamaam2

12、22211aiimmssaamm16式中:2122( )mmevysamm2121()aaveysaa故2212()aammvyssaaamm如果令 1afa2mfm则22121211( )ffv yssaam17(三)估计量方差的样本估计(三)估计量方差的样本估计 两阶段抽样条件下样本均值方差的样本估计量为:两阶段抽样条件下样本均值方差的样本估计量为:22112121(1)( )fffv yssaam可以证明:可以证明: 是是 的无偏估计。的无偏估计。 ()v y( )v y由此可得两阶段抽样的抽样标准误的估计为:由此可得两阶段抽样的抽样标准误的估计为: 22112121(1)( )fffs

13、e yssaam18n方差估计式中,第一项是主要的,第二方差估计式中,第一项是主要的,第二项要小得多,这是因为第二项的分母是项要小得多,这是因为第二项的分母是第一项的第一项的m m倍,而且它还要乘以小于倍,而且它还要乘以小于1 1的的f1f1。n请思考,这意味着在实施多阶抽样时要请思考,这意味着在实施多阶抽样时要想提高估计精度,应该如何操作?想提高估计精度,应该如何操作?19【例【例9.1】欲调查】欲调查4月份月份100家企业的某项指标,首先从家企业的某项指标,首先从100家家企业中抽取了一个含有企业中抽取了一个含有5家样本企业的简单随机样本,由于填家样本企业的简单随机样本,由于填报一个月的数

14、据需要每月填写流水帐,为了减轻样本企业的负报一个月的数据需要每月填写流水帐,为了减轻样本企业的负担,调查人员对这担,调查人员对这5家企业分别在调查月内随机抽取家企业分别在调查月内随机抽取3 天作为天作为调查日,要求样本企业只填写这调查日,要求样本企业只填写这3天的流水帐。调查的结果如天的流水帐。调查的结果如表表9.1所示。所示。表表9.1 对对5家企业的调查结果家企业的调查结果54556254953484636051350413826459571 第三日第三日第二日第二日第一日第一日样本企业样本企业要求根据这些数据推算要求根据这些数据推算100家企业该指标的总量,并给出估计家企业该指标的总量,

15、并给出估计的的95置信区间。置信区间。20 解:对这个问题,我们可以利用两阶段的思路解决。首先将企解:对这个问题,我们可以利用两阶段的思路解决。首先将企业作为初级单位,将每一天看作二级单位,每个企业在调查月内都业作为初级单位,将每一天看作二级单位,每个企业在调查月内都拥有拥有30天(即拥有天(即拥有30个二级单位)。个二级单位)。 在这个问题中,调查人员首先在初级单位中抽取了一个在这个问题中,调查人员首先在初级单位中抽取了一个n5的的简单随机样本,然后对每个样本的二级单位分别独立抽取了一个简单随机样本,然后对每个样本的二级单位分别独立抽取了一个m3的简单随机样本,这就是初级单位大小相等的两阶段

16、问题。的简单随机样本,这就是初级单位大小相等的两阶段问题。 由题意,由题意,a100,m30,a5,m3150.05100afa230.1030mfm1153.6aiiyya2211149.31aiisyya2122221123.4aiissa12221121( )9.34721fffv yssaam100 30 53.6 160800yamy2222( )( )100309.437284934800v ya m v y( )( )849348009216.0078se yv y 在置信度在置信度9595的条件下,对应的的条件下,对应的t t1.961.96,因此,置信区间为:,因此,置信区间

17、为:60800608009216.00789216.0078,或者说在,或者说在142736.6142736.6178863.4178863.4之间。之间。22三、三、总体比例及其估计量方差总体比例及其估计量方差 初级单位大小相等的两阶段抽样的总体比例及其方差问题初级单位大小相等的两阶段抽样的总体比例及其方差问题在均值在均值估计的基础上是比较容易理解的。估计的基础上是比较容易理解的。 1mijjy为总体第i个初级单位中具有某种属性的二级单位数 11miijjpym为总体第i个初级单位中各二级单位的比例 则总体比例为: 11111amaijiijpypama而二阶段抽样的样本比例为: 11111

18、amaijiijpypama显然,样本比例p是总体比例 p的无偏估计。 23样本比例的方差为:22121211( )ffv pssaam其中: 2211() /(1)aisppa2222122/(1)/(1)aiiiissasmppm同理,样本比例方差的样本估计为 :222112112122111(1)1(1)( )()(1)(1)(1)aaiiiffffffv pssppppaama aa m21122111(1)( )()(1)(1)(1)aaiiifffse pppppa aa m样本比例的抽样标准误的估计为:24第三节第三节 初级单位大小不初级单位大小不等的两阶段抽样等的两阶段抽样25

19、 在两阶段抽样中,总体各初级单位所包含的二阶段单位在两阶段抽样中,总体各初级单位所包含的二阶段单位数,有相等和不相等这两种情况。严格地说,前者在实际抽数,有相等和不相等这两种情况。严格地说,前者在实际抽样调查中一般是不存在的,因而它主要具有理论上的意义。样调查中一般是不存在的,因而它主要具有理论上的意义。这里本书来讨论其具有普遍意义的后者。这里本书来讨论其具有普遍意义的后者。 初级单位大小不等的两阶段抽样估计,较之与初级单位初级单位大小不等的两阶段抽样估计,较之与初级单位大小相等的两阶段抽样估计要复杂得多。大小相等的两阶段抽样估计要复杂得多。首先首先,在抽样时就,在抽样时就要考虑采用等概率还是

20、不等概率抽样;要考虑采用等概率还是不等概率抽样;其次其次,在抽取初级样,在抽取初级样本单位内时各二阶样本时,要考虑各二阶样本得样本容量的本单位内时各二阶样本时,要考虑各二阶样本得样本容量的分配问题;分配问题;最后最后,在等概率抽样条件下,样本指标和抽样方,在等概率抽样条件下,样本指标和抽样方差的估计,又有简单估计、加权估算等方法的不同。这样就差的估计,又有简单估计、加权估算等方法的不同。这样就构成了许多种不同得抽样估计方法。在这些方法中,有些是构成了许多种不同得抽样估计方法。在这些方法中,有些是有偏的估计,有些是无偏的估计。有偏的估计,有些是无偏的估计。26一、等概率抽样的加权估计方法一、等概

21、率抽样的加权估计方法 设总体划分为设总体划分为a个初级单位,各初级单位中所包含得二阶段个初级单位,各初级单位中所包含得二阶段单位数为单位数为:(i1,2,a)。 im01aiimm为总体所包含得二阶段单位总数为总体所包含得二阶段单位总数 。aoamm为各初级单位中所包含的二阶单位数的均值。为各初级单位中所包含的二阶单位数的均值。 0011111/imaaaiiji iiijamyy mmy myam为二阶段抽样的总体均值。为二阶段抽样的总体均值。 类似于不等群体等概率整群抽样的加权估计,二阶段抽样的类似于不等群体等概率整群抽样的加权估计,二阶段抽样的样本均值为:样本均值为:11111imaai

22、iiijijaaimmyyyamamm27可以证明可以证明 ,这个估计是无偏的,即,这个估计是无偏的,即 :12( )( )e ye e yy估计量 y的方差为: 22221211(1)11( )()()(1)aaiiiiiaaimmffv yyysa amaamm估计量方差的样本估计为: 222212211(1)11( )()()(1)aaiiiiiaaimmffv yyysa amamm28对于初级单位大小不等的两阶段抽样,其总体比例为对于初级单位大小不等的两阶段抽样,其总体比例为 :0011111/imaaaiijiiiijampymm pmpam初级单位大小不等的两阶段抽样的样本比例为

23、:初级单位大小不等的两阶段抽样的样本比例为: 11111imaaiiiijijaaimmppyamamm可以证明:可以证明: 12( )( )e pe epp29估计量估计量p的方差为:的方差为:222111(1)11( )()()(1)(1)aaiiiiiiaaimmffv pppppa amaamm估计量方差的样本估计为估计量方差的样本估计为 :2221211(1)11( )()()(1)(1)aaiiiiiiaaimmffv pppppaamamm30二、不等概率抽样的加权估计方法二、不等概率抽样的加权估计方法 不等概率的两阶段抽样方法在用不等概率方法不等概率的两阶段抽样方法在用不等概率

24、方法抽取初级样本单位时,与整群抽样完全相同,但两抽取初级样本单位时,与整群抽样完全相同,但两阶段抽样在被抽中的那些初级单位即初级样本单位阶段抽样在被抽中的那些初级单位即初级样本单位中,还要抽取二阶样本。对此,按所选择的确定不中,还要抽取二阶样本。对此,按所选择的确定不等概率的标志不同,其抽样估计方法有所差异,关等概率的标志不同,其抽样估计方法有所差异,关于用以确定不等概率的标志不同,最常用且较为简于用以确定不等概率的标志不同,最常用且较为简单的是以各初级单位所包含的二阶单位数在总体全单的是以各初级单位所包含的二阶单位数在总体全部二阶单位数中所占的比重来确定的。部二阶单位数中所占的比重来确定的。

25、 31全部二级单位的总体均值的无偏估计量为:全部二级单位的总体均值的无偏估计量为: 101aiiimyya m该估计量的方差为该估计量的方差为 : 2222221100(1)11( )()aai iiiiiiiimymfv yysamam m估计量方差的无偏样本估计为:估计量方差的无偏样本估计为: 2101( )()(1)aiiim yv yya am32第四节第四节 进一步讨论的问题进一步讨论的问题33 三阶段抽样估计的原理和两阶段抽样估计相同,只是第三阶三阶段抽样估计的原理和两阶段抽样估计相同,只是第三阶段的抽样是对被抽中的二级单位中的三阶单位再抽样,从中抽出段的抽样是对被抽中的二级单位中

26、的三阶单位再抽样,从中抽出样本三阶段(接受调查的最终单位)。三阶段的估计量的方差样本三阶段(接受调查的最终单位)。三阶段的估计量的方差可由两阶段抽样估计直接推广。可由两阶段抽样估计直接推广。 (其余的多阶段抽样均可类推)(其余的多阶段抽样均可类推) 设总体可划分为设总体可划分为a个初级单位,并作第一阶段抽样,采用重个初级单位,并作第一阶段抽样,采用重复或不重复、等概率或不等概率的方法,抽取其中的复或不重复、等概率或不等概率的方法,抽取其中的a个初级单个初级单位或称初级样本单位;在第二阶段抽样中,本文将个初级单位可位或称初级样本单位;在第二阶段抽样中,本文将个初级单位可划分为划分为m个二阶单位,

27、并从第初级段所抽取的各初级单位中,采个二阶单位,并从第初级段所抽取的各初级单位中,采用重复或不重复、等概率或不等概率的方法,抽取其中的用重复或不重复、等概率或不等概率的方法,抽取其中的m个二个二阶单位或称二阶样本单位;再设各二阶单位可继续划分为阶单位或称二阶样本单位;再设各二阶单位可继续划分为g个三个三阶单位,并进行第三阶段的抽样,即采用重复或不重复、等概率阶单位,并进行第三阶段的抽样,即采用重复或不重复、等概率或不等概率的方法,分别从各三阶样本单位中,抽取其中的或不等概率的方法,分别从各三阶样本单位中,抽取其中的g个个单位作为三阶样本单位。单位作为三阶样本单位。 一、三阶段抽样一、三阶段抽样

28、34ijuy为从总体第为从总体第i个初级单位第个初级单位第j个二阶单位内所抽出的第个二阶单位内所抽出的第u个个三阶段单位三阶段单位 。1/gijijuuyyg为二级单位内的均值为二级单位内的均值 。111/()/mgmiijuijjuiyymgym 为初级单位内的均值为初级单位内的均值 。 1111/()/amgaijuiijuyyamgya为总体均值为总体均值 。 在简单随机抽样下,单位大小相同的三阶段抽样的总体均值在简单随机抽样下,单位大小相同的三阶段抽样的总体均值的无偏估计量为:的无偏估计量为:ayamyamgyyaimjaiijaimjguiju/)/()/(11111135三阶段抽样

29、的总体均值估计量的方差公式为三阶段抽样的总体均值估计量的方差公式为 :222312123111( )fffv ysssaamamg估计量方差的无偏样本估计为估计量方差的无偏样本估计为 :222123112123111( )f fffffv ysssaamamg()()36二、多阶段抽样中各级样本量的分配二、多阶段抽样中各级样本量的分配 在设计二阶段抽样方案时,第一、第二阶段的抽样数目在设计二阶段抽样方案时,第一、第二阶段的抽样数目n、m应如何确定,才能使抽样误差最小,这就是二阶段抽样法应如何确定,才能使抽样误差最小,这就是二阶段抽样法的最佳分配问题。的最佳分配问题。 设全部费用为设全部费用为c

30、,如各单位之间的旅费忽略不计,已被,如各单位之间的旅费忽略不计,已被证明较为合适的一种费用函数为证明较为合适的一种费用函数为 :12aacccm利用拉格朗日求极值的方法可以求得:利用拉格朗日求极值的方法可以求得:22122212/smccssm37当当m确定后,由于总费用确定后,由于总费用c已先确定,可通过解费用方程求得:已先确定,可通过解费用方程求得:222121212/(/)accsc cssm在估计量方差在估计量方差v既定的情况下既定的情况下,可得:可得: 222212122122112(/)/(/ )/ssm c csssmav sa c c38实际中,多阶抽样的总样本量可按照以下简单

31、方法确定:1.根据简单随机抽样时应抽样本量2.再乘以设计效应deff获得。 多阶抽样与简单随机抽样相比其效率比较低,deff应该大于1。实际工作中,可取deff的经验数据。不同项目的deff不同。39例: 某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查。确定抽样范围为全国地级及以上城市中的成年居民。成年居民指年满18周岁以上的居民。第一步:确定抽样方法 调查公司决定采用多阶抽样方法进行方案设计,调查的最小单元为成年居民。确定调查的各个阶为城市、街道、居委会、居民户,在居民户中利用随机表抽取成年居民。第二步:确定样本量及各阶样本量的配置。 按简单随机抽样时,在95置信度下,绝对误差为5,取使方差达到最大时的消费奶制品的居民比例为50,则全国样本量应为: 40005. 05 . 05 . 02dpqtn22220 40根据以往调查的经验,估计回答率b=80,因此调整样本量为:多阶抽样的效率比简单随机抽样的效率低,这里取设计效应deff=3.2,则在全国范围内应调查的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论