抽样调查-分层随机抽样培训课件(共98页).ppt_第1页
抽样调查-分层随机抽样培训课件(共98页).ppt_第2页
抽样调查-分层随机抽样培训课件(共98页).ppt_第3页
抽样调查-分层随机抽样培训课件(共98页).ppt_第4页
抽样调查-分层随机抽样培训课件(共98页).ppt_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、返回3.1 引 言一、定义先将总体 N 个单元划分成 L 个互不重复的子总体,每个子总体称为层,它们的大小分别为LNNN,21)(1LhhNN 然后,在每个层中独立地进行抽样,称为分层抽样.返回二、作用分层抽样在实际工作中应用的非常广泛,主要是因为它具有其它抽样方法所没有的特点:1.分层抽样的抽样效率较高,也就是说,分层抽样的估计精度较高。2.分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。3.层内抽样方法可以不同,而且便于抽样工作的组织。返回三、使用场合在对分层进行具体划分时,通常考虑如下原则:1.层内单元具有相同性质,通常按调查对象的不同类型进行划分。2.尽可能使层内单元的标志

2、值相近,层间单元的差异尽可能大。3.既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。4.抽样组织实施的方便,通常按行政管理机构设置进行分层。返回四、符号说明我们用下标h表示层号(h=1,2,,L)。关于第h层的记号如下:单元总数:hN样本单元数:hn第 i个单元标志值(观察值):hiy返回单元权数:NNWhhhY总体均值:hNihihYN11第L层总体方差:hNihhihhYYNS122)(11返回抽样比:hhhNnf 样本均值:hyhnihihyn11第L层样本方差:hnihhihhyyns122)(11返回3.2 简单估计量及其性质一、总体均值

3、的估计1.估计量的定义 总体均值Y的估计:hYLh 1stYhW=LhhhYNN11如果得到的是分层随机样本,则总体均值Y的简单估计为:LhhhLhhhstyNNyWy111返回2.估计量的性质性质一 对于一般的一般的分层抽样,如果hY是hY的无偏估计( h=1,2, ,L),则stY是Y的无偏估计。stY的方差为:V(stY)=)(12LhhhYVW值得注意的是:只要对各层估计是无偏的,则对总体的估计也是无偏的。 因此,各层可以采用不同的抽样方法,只要相应因此,各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对整体的推算也是无偏的的估计量是无偏的,则对整体的推算也是无偏的。返回性质一

4、的证明:由于对每一层有hhYYE)(YNYYNYNNYWYEWYWEYELhhhLhhhLhhhLhhhLhhst1111111)()()(因此返回性质二 对于分层简单随机抽样,Ysty是的无偏估计,sty的方差为:LhhhhhLhhhstSnfWyVWyV122121)()(返回性质二的证明:若各层独立进行简单随机抽样,对每一层有LhhhststhhyVWyVYyEYyE12)()(,)(,)(21)(hhhhSnfyV由第二章性质二得212121)()(hhhLhhhLhhstSnfWyVWyV因此返回LhhhhhLhhhstsnfWyvWyv122121)()(性质三 对于分层随机抽样,

5、的无偏估计为:)(styV返回性质三的证明:对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质三,得21)(hhhhsnfyv212121)()(hhhLhhhLnhstsnfWyvWyv因此,)(styV的一个无偏估计为:返回二、总体总量的估计1.估计量的定义 总体总量 Y 的估计为:LhhstYYNY1如果得到的是分层随机样本,则总体总量 Y 的简单估计为:styNY 2.估计量的性质Y由于Ysty与只差一个常数,因此,sty与具有相同的性质。返回性质一 对于一般的分层随机抽样,如果Y是sty)()()(12LhhstYVYVNYV的无偏估计,则Y是的无偏估计,Y的方差为:)()(1

6、2122LhhhLhhhYVNYVWN性质二 对于分层随机抽样,Y的方差为:)(YV)(12LhhhYVNLhhhhhSnfN1221=返回)(Yv)(12LhhhYvNLhhhhhsnfN1221=性质三 对于分层随机抽样,)(YV的无偏估计为:【例3.1】 调查某地区的居民奶制品年消费支出,以居民户为调查单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽出10户,调查获得如下数据(单位:元)估计该地区居民奶制品年消费总支出及估计的标准差。(数据见下表)返回 样本户奶制品年消费支出样本户奶制品年消费支出层居民户总数样本户奶制品年消费支出(元)123456789101200104

7、0011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025返回05. 020010,07018. 0285020011111NnfNNW025. 040010,14035. 0285040022222NnfNNW由上表,N=2850,各层的层权及抽样比为:0133. 075010,26316. 0285075033333NnfNNW0067. 0150010,52632. 02850150044444NnfNNW),4 , 3 , 2 , 1( ,10h

8、nh返回各层样本均值及样本方差为:5.39111111niiyny722.1624)(1121111211yynsnii同理有333.193,24556.8205,165667.2166,105244233222sysysy返回因此,估计奶制品年消费总支出为:2096502415001657501054005 .3920041hhhyNY8241241221039. 51)()(hhhhhhhhsnfNyvWNYv估计量方差及标准差的样本估计23208)()(YvYs返回三、总体比例的估计1.估计量的定义总体比例 P 的估计为:LhhhstpWp12.估计量的性质 如果定义, 0, 1iY第

9、i个单元具有所考虑的特征;其他。(i=1,2, ,N)则对总体比例的估计类似对总体均值的估计,这时,stpsty与具有同样的性质。返回的无偏估计(h=1,2, ,L),则性质一 对于一般的分层随机抽样,如果hhPp 是stp是 P 的无偏估计。stp的方差为:LhhhstpVWpV12)()(性质二 对于分层随机抽样,stp是 P 的无偏估计。证明:注意到hhhhhhhnQPNnNpV1)(及hhNN1因而stp的方差为:返回LhhhhhhhhLhhhstnQPNnNNNpVWpV121221)(1)()(LhhhhhhhhnQPNnNNN122)(1LhhhhhhnQPfW12)1 (性质三

10、 对于分层随机抽样,stp的无偏估计为V()LhhhhhhhhLhhhstnqpNnNNNpvWpv1212211)(1)()(LhhhhhhnqpfW121)1 (返回【例3.2】 在例3.1的调查中,同时调查了居民拥有家庭电脑的情况,获得如下数据(单位:台),如表3.2。估计该地区居民拥有家庭电脑的比例及估计的标准差。(数据见下表)返回 样本户拥有家庭电脑情况样本户拥有家庭电脑情况层居民户总数样本户拥有家庭电脑情况12345678910120000010001002400010000001037501100001010415001000000000表3.2返回1 . 0, 4 . 0, 2

11、 . 0, 2 . 04321pppp2 . 0) 1 . 015004 . 07502 . 04002 . 0200(2850114141hhhhhhstpNNpWp005. 0)0099. 015004 . 07500173. 04000169. 0200(28501)(1)(222224122hhhhpvNNpv解:由上表可得该地区居民拥有家庭电脑比例的估计为:估计量的方差为:返回3.3 比率估计量及其性质 将比率估计的思想和技术用于分层随机样本时,对将比率估计的思想和技术用于分层随机样本时,对总体参数的估计有两种途径:总体参数的估计有两种途径: 一种是对每层样本分别考虑比估计量,然后对

12、各层一种是对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均的比估计量进行加权平均, ,此时所得的估计量称为此时所得的估计量称为分别分别估计估计(separate ratio estimator);separate ratio estimator); 另一种是对比率的分子、分母分别加权计算出分层另一种是对比率的分子、分母分别加权计算出分层估计量,然后用对应的估计量来构造比估计,这样所得估计量,然后用对应的估计量来构造比估计,这样所得的估计量称为的估计量称为联合比估计联合比估计(combined ratioestimator).combined ratioestimator).返回1.

13、分别比率估计总体均值Y总体总量Y的分层比率估计为:hLhhhhLhRhhRsXxyWyWy11总体均值:总体总量:LhRhhLhhhRsRsYXxyyNY11:hW层权L: 层数hy的简单估计为hY:hx的简单估计为hX:Rhy为hY的比率估计,RhY为hY比率估计返回比率估计量的方差:)2()1 ()(22212xhyhhhxhhyhLhhhRsSSRSRSnfWyV)2()1 ()(22212xhyhhhxhhyhLhhhRsSSRSRSnfNYV式中,hxhyhhhhSSNnf;22分别为第 i层指标Y,X的方差及相关系数. 分别比率估计量要求每一层的样本量分别比率估计量要求每一层的样本

14、量都比较大都比较大, ,否则否则, ,偏倚可能比较大偏倚可能比较大. .返回2.联合比率估计(combined ratio estimator)总体均值:XRXxyycststRc总体总量:XRXxyYcststRc式中:sty表示Y的无偏估计;stx表示X的无偏估计.均方误差为:)2()1 ()()(22222yxhxhyhhhRcRcRSSRSnNfNyVyMSE)2()1 ()()(2222yxhxhyhhhRcRcRSSRSnfNYVYMSE返回3.分别比率估计量与联合比率估计量的比较一般而言,分别比率估计量的方差小于联合比一般而言,分别比率估计量的方差小于联合比率估计量的方差。但当每

15、层的样本量不太大时,还率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。率估计量的偏倚很大,从而使总的均方误差增大。实际使用时,如果各层的样本量都较大,且有实际使用时,如果各层的样本量都较大,且有理由认为各层的比率理由认为各层的比率Rh差异较大,则分别比率估计差异较大,则分别比率估计优于联合比率估计。当各层的样本量不大,或各层优于联合比率估计。当各层的样本量不大,或各层比率比率Rh差异很小,则联合比率估计更好些。差异很小,则联合比率估计更好些。返回【例4.4】 某市某市

16、19961996年对年对950950家港口生产单位完成的家港口生产单位完成的吞吐量进行了调查,吞吐量进行了调查,19971997年欲对全市港口生产单位完年欲对全市港口生产单位完成的吞吐量进行调查。对港口生产单位按非国有成的吞吐量进行调查。对港口生产单位按非国有(h=1)(h=1)和国有(和国有(h=2)h=2)分为两层,单位数分别为分为两层,单位数分别为800800家和家和150150家,家,分别在两层中调查了分别在两层中调查了1010家和家和1515家港口生产单位,家港口生产单位,调查数据如下表,试计算调查数据如下表,试计算19971997年全市港口生产单位完年全市港口生产单位完成的吞吐量。

17、成的吞吐量。19971997年国有和年国有和非国有企业调非国有企业调查数据如下页查数据如下页返回ixiyiixiyi19580149553022202102210320335938433604964120117423040051771805600651625325861000880730234977005608332286811001230927221597208231013797103103901147846512817650139191160141160107015735698返回(将上述数据计算的中间结果列于P77的表中)1.1.按分别比率估计量估计按分别比率估计量估计68.919389

18、25)2()1 ()(5 .2725362221221yxhhxhhyhLhhhhRShhhRSsRsRsnfNYvXRY返回2.2.按联合比率估计量估计按联合比率估计量估计84.86293698)2()1 ()(1 .271956274300279700277310222212yxhxhyhLhhhhRCststRCsRsRsnfNYvXXYY 按联合比率估计量按联合比率估计量估计比按分别比率估计估计比按分别比率估计量估计要好一些量估计要好一些!返回三、分别比率估计与联合比率估计的比较)(2)()1 ()()(22212xhyhhhxhhLhhhhRSRCSSRRSRRnfWyVyV)(2)

19、()1 (22212xhhxhyhhhxhhLhhhhSRSSRRSRRnfW)(2)()1 (2212xhhxhyhhxhhhLhhhhSRSSSRRRRnfW具体情况分析参看教材P87返回3.4 回归估计量及其性质 与比估计相似,将回归估计的思想和技术用于与比估计相似,将回归估计的思想和技术用于分层随机抽样时,同样有两种方法:分层随机抽样时,同样有两种方法: 一种是对每层样本分别求取回归估计量,然后一种是对每层样本分别求取回归估计量,然后对各层的回归估计量进行加权平均,此时所得的对各层的回归估计量进行加权平均,此时所得的估计量称为估计量称为分别回归估计分别回归估计(separate reg

20、ression separate regression estimator);estimator); 另一种是对两个变量先分别计算出分层简单估另一种是对两个变量先分别计算出分层简单估计量然后再对它们的分层简单估计量来构造回归估计量然后再对它们的分层简单估计量来构造回归估计,这时所得的估计量称为计,这时所得的估计量称为联合回归估计联合回归估计 (combined regression estimator).combined regression estimator).返回1.分别回归估计(separate regression estimator)总体均值Y的估计:LhLhhhhhhlrhhlr

21、sxXyWyWy11)(总体总量Y的估计:LhhhhhhlrslrsxXyNyNY1)(返回 当各层的回归系数为事先给定的常数时当各层的回归系数为事先给定的常数时, ,分别回归估计量是无偏的。分别回归估计量是无偏的。其方差为其方差为: :)2()1 ()(2222yxhhxhhyhhhhhlrsSSSnfWyV其中 是第h层的回归系数h返回并且当LhSSxhyxhh, 2 , 1,2时,)(lrsyV达到最小,即)1 ()1 ()(2212minhyhLhhhhlrsSnfWyVhnihhihnihhihhihxxxxyyb121)()(通常未知,可用回归系数作为的估计:hhbh返回注 意 (

22、1)分别回归估计量是有偏的,但当每一层的样本量 都很大时,估计的偏倚可以忽略,其方差近似为:hn)1 ()1 ()(2212hyhLhhhhlrsSnfWyV(2)这里 是子总体的回归系数, 是子总体样本的回归系数,前者是未知的,后者是可知的。hbh返回方差)(lrsyV的样本估计值为:212)1 ()(ehLhhhhlrssnfWyv式中,hnihhihhhihehxxbyyns122)()(21 分别回归估计量要求每一层的样本量都较大分别回归估计量要求每一层的样本量都较大, ,如如果这个条件得不到满足果这个条件得不到满足, ,则分别回归估计量的偏倚则分别回归估计量的偏倚可能很大可能很大,

23、,这时这时, ,采用联合回归估计量更好些。采用联合回归估计量更好些。返回2.联合回归估计(combined regression estimator)总体均值Y的估计:)(ststlrcxXyy总体总量Y的估计:)(ststlrclrcXXYyNY式中,ststxy 和分别为XY和的分层估计。lrclrcYy及是无偏的,其方差为:)2()1 ()(22222yxhxhyhhhhhlrcSSSnNfNyV)2()1 ()(2222yxhxhyhhhhhlrcSSSnfNYV返回并且,只要取LhhxhhhLhyxhhhcnSfWnSfWB12212)1 ()1 (时,)(lrcyV达到最小。当回归

24、系数未知时,取为cB的样本估计:LhhxhhhLhyxhhhcnsfWnsfWb12212)1 ()1 (这时,联合回归估计量是有偏的,但当样本量n较大时,估计的偏倚可以忽略,其方差近似为:返回)2()1 ()(2222yxhcxhcyhhhhhlrcSBSBSnfWyV方差)(lrcyV的样本估计为:)2()1 ()(2222yxhcxhcyhhhhhlrcsbsbsnfWyv返回 分别回归估计与联合回归估计的比较 当回归系数设定时当回归系数设定时, ,分别回归估计优于分别回归估计优于联合回归估计;联合回归估计; 当回归系数由样本估计时当回归系数由样本估计时, ,如果各层的样如果各层的样本量

25、不太小本量不太小, ,采用采用分别回归估计为宜分别回归估计为宜. . 否则,否则,采用联合回归估计为好!采用联合回归估计为好! 返回【例4.6】(续例4.4)利用回归估计量估计该市港口生产单位1997年完成的吞吐量。解:样本回归系数:h=1,非国有h=2,国有1.070170.856402hb则按分别回归估计量估计:(见P85)30.270556lrsY22.89872469)(lrsYv11.9480)()(lrslrsYvYs返回按联合回归估计量估计:(见教材P86)4 .271753,0290. 1lrccYb,17.85358332)(lrcYv96.9238)()(lrclrcYvY

26、s 从本题看从本题看, ,联合回归联合回归估计量比分别回归估计估计量比分别回归估计量要优一些量要优一些! !返回 分别比率估计、联合比率估计、分别回归分别比率估计、联合比率估计、分别回归估计和联合回归估计的比较估计和联合回归估计的比较 (参看教材P96. 【例3.3】)返回比率估计与回归估计总结:比率估计与回归估计总结: 在分层随机抽样中,当有辅助变量信息可以利在分层随机抽样中,当有辅助变量信息可以利用时,我们可以采用分别比率估计、联合比率估计、用时,我们可以采用分别比率估计、联合比率估计、分别回归估计以及联合回归估计方法。在选用这些分别回归估计以及联合回归估计方法。在选用这些估计量时,要注意

27、以下几个问题:估计量时,要注意以下几个问题: 1 1、比估计是有偏估计量,当各层样本量都较大时、比估计是有偏估计量,当各层样本量都较大时两种比估计都近似无偏;当某些层的样本量不够大,两种比估计都近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比率估计近似无偏。而总样本量较大时,联合比率估计近似无偏。返回 2 2、在回归估计中,若事先设定回归系数,其估计量、在回归估计中,若事先设定回归系数,其估计量无偏;若用样本回归系数作为回归估计系数,其估计无偏;若用样本回归系数作为回归估计系数,其估计量有偏,但在大样本情况下近似无偏。量有偏,但在大样本情况下近似无偏。 3 3、当主要变量、当主要变量

28、Y Y和辅助变量和辅助变量X X高度相关时,比率估高度相关时,比率估计和回归估计都是有效的,且能大幅度地提高估计计和回归估计都是有效的,且能大幅度地提高估计精度。精度。返回3.3 样本量在各层的分配对于分层抽样,当总的样本量一定时,还需研究各层应该分配多少样本量的问题,因为对总体推算时,估计量的方差与各层的方差有关,还与各层所分配的样本量有关。一、比例分配这里的比例分配指的是按各层单元数占总体单元数的比例,也就是按各层的层权进行分配,这时fNnNnfWNNnnhhhhhh或对于分层抽样,这时总体均值Y的估计是:返回hnihihLhhhLhLhhhhpropynnnynnyWy11111yyny

29、nniiLhnihih11111总体比例 P 的估计是:Lhhproppnpp11 这是因为总体中的人一单元,不管它在哪一层,以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。返回的方差为propy21121)()(hhhLhLhhhhhpropSnfnnWyVWyVLhhhSWnf121的方差为proppLhhhhLhhhhhPROPQPWnfNQPNNnfPV112111)(返回二、最优分配1.最优分配如果我们考虑简单线性费用函数,总费用LhhhnccC10则最优分配是:LhcSNcSNcSWcSWnnLhhhhhhhLhhhhhhhh, 2

30、 , 1,11返回)()11()()(1021210hLhhhhLhhhLhhhstncccSNnWcnccyVLLhcSWnnLhhhhh, 2 , 1, 01222证明:作拉格朗日函数,求条件极值:返回., 2 , 1,/11LhcSNcSNcSWcSWnnLhhhhhhhLhhhhhhhhLhhhhLhhhhhhcSWnncSWn122122,解得:由此得出下面的准则: 如果某一层单元数较多,内部差异较大,费用比较省,则对这一层的样本量要多分配些,返回2. Neyman(内曼)分配对于分层随机样本,作为特例,如果每一层的费用相同,即cch时,最优分配可简化为:LhSNsNnSWSWnnL

31、hhhhhLhhhhhh, 2 , 1,11这种分配称为Neyman分配.这时,)(styV达到最小。返回【例3.3】续例3.1如果样本量仍为 n=40 ,则按比例分配和Neyman分配时,各层的样本量应为多少?(见17)解:按比例分配时,各层的样本量为:05.214052632. 053.104026316. 061. 54014035. 081. 24007018. 044332211nWnnWnnWnnWn即各层的样本量分别为 3,6,11,20.返回对于Neyman分配,根据前面计算所得的各层权数和方差,得到:8286. 2722.162407018. 011sW5330. 6667.

32、216614035. 022sW8380.23556.820526316. 033sW3181. 7333.19352632. 044sW51775.403181. 78380.235330. 68286. 241hhhsW返回因此,按Neyman分配时,各层应分配的样本量为:.23. 753.2345. 679. 251775.408286. 24043241111nnnsWsWnnhhh即各层的样本量分别为 3,,.返回【例例3.53.5】某市有甲、乙两个地区,现进行家庭收入某市有甲、乙两个地区,现进行家庭收入的调查。令的调查。令n=500,n=500,已知甲地区共有已知甲地区共有2000

33、020000户居民,乙地户居民,乙地区共有区共有5000050000户居民;甲地区居民和乙地区居民年收入户居民;甲地区居民和乙地区居民年收入标准差估计分别为标准差估计分别为 ;同时对甲地和;同时对甲地和乙地每户的平均抽样费用之比为乙地每户的平均抽样费用之比为2 2:3 3,请分别计算出,请分别计算出甲地和乙地进行比例分配、一般最优分配(考虑费用甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量。因素)以及内曼分配(不考虑费用因素)的样本量。2000,250021SS【解解】根据已知的数据,通过计算整理可根据已知的数据,通过计算整理可得下表:得下表:返回h

34、1200000.285725002713.2857505.07632500000.7143200031428.5714823.7861总计700001.0000-2141.85711328.8624关于样本量分配的计算关于样本量分配的计算hNhWhShchhSWhhhcSW/(1) 比例分配。35714.3577143. 050014386.1422857. 05002211nWnnWn返回(2 2)一般最优分配)一般最优分配31086.132879.824500/19086.132808.505500/21222222211111hhhhhhcSWcSWnncSWcSWnn返回(3 3)内曼

35、分配)内曼分配334857.2141571.1428500167857.2141286.714500212222221111hhhhSWSWnnSWSWnn返回结果比较结果比较 , 对比上面三组结果可以发现对比上面三组结果可以发现: 一般最优分配在乙地所抽取的样本量是最小的。一般最优分配在乙地所抽取的样本量是最小的。这是因为一般最优分配考虑了费用问题,在乙地抽样这是因为一般最优分配考虑了费用问题,在乙地抽样的单位平均费用较高,所以最优的原则应是适当增加的单位平均费用较高,所以最优的原则应是适当增加甲地的样本量,减少乙地的样本量。甲地的样本量,减少乙地的样本量。 一般最优分配和内曼分配在甲地的样

36、本量都比比一般最优分配和内曼分配在甲地的样本量都比比例分配大,这是因为甲地总体的方差较大。为了保证例分配大,这是因为甲地总体的方差较大。为了保证估计量方差小,子总体方差大的就要多抽些样本,否估计量方差小,子总体方差大的就要多抽些样本,否则就要少抽样本。则就要少抽样本。返回3.某些层要求大于100%抽样时的修正hS又比较大,则可能按最优分配计算的这个层的样按最优分配时,可能抽样比Nnf 较大,某个层的本量hn超过hN的情况.若出现这种情况,则对该层进行不100%的抽样,hhNn 即返回3.4 样本量的确定(1)一般公式令hhnwn 其中hw已经选定,于是当方差 V给定时,有2122122121h

37、LhhhhLhhhhLhhhhSNWSnWSnfWVlhhhhLhhhhSWWNSwWn12212211返回NSWVwSWnhhhhh2222得到确定样本量的一般公式为:得到确定样本量的一般公式为:LhhhhhLhhSWNVnnwSWVn12021011)/(1令则返回(2 2)若按比例分配)若按比例分配:将将 代入上式可得代入上式可得hhWwhhWwNnnnSWVnhLhh/1100210返回()内曼分配:()内曼分配:将代入上面两式可得:将代入上面两式可得:hLhhhhhSWSWw1/LhhhhLhhSWNVnnSWVn12021011)(1返回()最优分配:()最优分配:将代入上式可得:

38、将代入上式可得:LhhhhhhhhcSWcSWw1/LhhhLhLhhhhhhhSWNcSWcSWn121111)/()(返回即即22)()(tYrtdVd: d: 绝对误差;绝对误差; r r:相对误差;:相对误差;t: : 标准正态分布的双侧标准正态分布的双侧分位数分位数; ;这时,样本量的一般形式可以表示为:这时,样本量的一般形式可以表示为:如果估计精度是以误差限的形式给出如果估计精度是以误差限的形式给出返回NSWtYrwSWnhhhhh22222)( 下面将分别给出比例分配、内曼分配和最优分配时的样本量分配形式:返回(1 1)若按比例分配)若按比例分配:将将 代入上式可得代入上式可得h

39、hWwhhWwNSWtYrSWnLhhhLhhh12212)(返回(2)当按Neyman分配时,LhhhhhhSWSWw12NSWtYrSWnLhhhLhhh12212)()(返回(3)最优分配时:)最优分配时:将代入上式可得:将代入上式可得:LhhhhhhhhcSWcSWw1/LhhhLhLhhhhhhhSWNtYrcSWcSWn122111)()/()(返回 例例3.43.4(续例3.1)如果要求在95%置信度下,相对误差不超过10%,则按比例分配和Neyman分配时,总样本量分别为多少?解:当按比例分配时:由前面的计算结果,可以得到各层的Whs2h。016.114722.16242850

40、200211211sNNsW096.304667.21662850400221222sNNsW36.2159556.82052850750233233sNNsW754.101333.19328501500244244sNNsW返回22.26792hhsW在95%置信度时,对应的 t =1.96,又5614.732850209650NYyst因此得到086.14)96. 15614.731 . 0()(22tyrVst由此可以得到2 .1900n对0n进行修正,得到修正后的 n 17928502 .19012 .190100Nnnn返回2.最优分配需要考虑费用时的情形在最优分配时,如果考虑费用为

41、简单线性函数LhhhnccC10则由式(3.21)有:LhhhhhhhhcSWcSWw1Lh, 2 , 1当方差 V 给定时,代入式(3.24)得到样本量为:NSWVcSWcSWnhhhhhhhh)/()(返回3.5 分层时的若干问题1.抽样效果分析对于固定样本量的情况,如果hN1相对于1可以忽略,则srspropoptVVV式中,srspropoptVVV,分别为分层随机抽样最优分配、分层随机抽样按比例分配以及简单随机抽样简单估计的方差。返回二、层的划分 既然分层抽样比简单随机抽样效率高,那么如何既然分层抽样比简单随机抽样效率高,那么如何构造层,构造多少层,才能使分层抽样发挥其效率高构造层,

42、构造多少层,才能使分层抽样发挥其效率高的特点呢?的特点呢? 这就涉及最优分层和确定层数的问题。这就涉及最优分层和确定层数的问题。返回(一)最优分层iY为了提高抽样效率,按调查目标量进行分层当然是最好的,但我们在调查前并不知道 的值,因此分层只能通过与高度相关的辅助指标 来进行.(见P56)iYiX返回(二) 层的确定 当分层是按自然层或单元类型划分时,层数是自然的,但当遇到上述运用累积平方根法进行分层时,就存在层数问题。 在实际工作中,层数一般不超过六层。虽然增加层数可以提高估计精度,但在总费用一定的条件下增加层数必然导致降低样本量,这时就要考虑增加层数而降低样本量在精度上是否合算。返回三、事

43、后分层 我们一般在抽样之前将总体中的所有单元分好层,但在实际工作中,有时没有层的抽样框,或总体特别大来不及事先分层等原因.这时我们又想采用分层抽样,就可以采用事后分层.返回 事后分层要注意的问题事后分层要注意的问题(1)(1)要求我们可以通过某种途径知道各要求我们可以通过某种途径知道各层的层大小或层权层的层大小或层权; ;(2)(2)层权与实际情况不能相差太大层权与实际情况不能相差太大, ,否则否则不可能提高精度不可能提高精度; ;(3)(3)事后分层的层数不宜太多事后分层的层数不宜太多. .返回 事后分层的具体实施办法事后分层的具体实施办法 先采用简单随机抽样的方法从总体中抽取一先采用简单随

44、机抽样的方法从总体中抽取一个样本量为个样本量为n n的样本,然后对样本中的单元按某的样本,然后对样本中的单元按某种特征进行分层。种特征进行分层。 假设在容量为假设在容量为n n的样本中,落入第的样本中,落入第h h层的样本层的样本单元数为单元数为 ,有,有 , 则此时对总体均值的事后分层估计为:则此时对总体均值的事后分层估计为:hmnmLhh1返回21221122111)(111)()1(hNihihhhLhhLhhhhpstmihihLhhhLhhpstYYNSSWNmSWyVymWyWyhh这里,这里, 下标下标“pst”pst”表示事后分层;表示事后分层; 代表落入第代表落入第h h层的第层的第i i个个 样本单元的指标值。样本单元的指标值。hiy返回 理论上理论上, ,只要只要n n充分大,事后分层估计量是充分大,事后分层估计量是无偏的。且它的方差有如下性质:无偏的。且它的方差有如下性质:LhhhprophLhhhLhhpstpstSWnVSWnSWnfyVEYyE12221221)1 (1)1 (11)()(返回LhhhproppstSWnVyVE122)1 (1)( 由上式可以看出,第一项

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论