第三章分层随机抽样_第1页
第三章分层随机抽样_第2页
第三章分层随机抽样_第3页
第三章分层随机抽样_第4页
第三章分层随机抽样_第5页
已阅读5页,还剩143页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/2/61第三章分层随机抽样3.1概述

3.2简单估计量及其性质

3.3样本量在各层的分配

3.4回归估计量及其性质

3.5各层样本量的分配

3.6总样本量的确定2023/2/62简单随机抽样只适合小型的抽样调查:1.抽样框

2.代表性如:了解中国各民族的情况:(鄂伦春族)2023/2/63第一节概述

一.定义与作用

(一)分层抽样和分层随机抽样先将总体N个单元划分成L个互不重复的子总体,每个子

总体称为层,它们的大小分为别,这L个层合起来就是整个总体(N=)。

然后,在每个层中分别独立进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本。不重不漏2023/2/64

各层中的抽样是独立进行的,因此,在各层中所采取的抽样手段完全可以不相同,在一个层进行简单随机抽样,在另一层则可采用更复杂一些的抽样,完全视各层的情况不同而定,这种因地制宜的手段将使样本尽可能反映总体的特性以及子总体的特性。分层抽样有时也称为类型抽样或分类抽样。2023/2/65

分层随机抽样三原则:(1)每层都抽样;(2)各层都独立地抽样;(3)各层的抽样都是简单随机抽样。2023/2/66

(二)特点:1.分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。

注意:分层抽样估计量的方差只和层内方差有关,和层间方差无关。2.分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。如:消费物价指数(全国和各省)

3.层内抽样方法可以不同,而且便于抽样工作的组织。2023/2/67(三)作用可以对各层的参数进行估计,

有助于提高估计精度。2023/2/68二.使用场合

应用条件:适合于各层差异较大,有进行分层的辅助信息。

层的划分原则:1.层内单元具有相同性质,通常按调查对象的不同类型进行划分,这时,分层抽样能够对每一类的目标量进行估计。2.尽可能使层内单元的标志值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。3.既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。4.为了抽样组织实施的方便,通常按行政管理机构设置进行分层。2023/2/69如:对全国汽车货运量调查,目的是不仅要了解全国货运量,而且推算不同经济成分货运量。首先为组织方便,按省分层;各省再按经济成分分层;为提高抽样效率,再按吨位分层。2023/2/610三.符号说明层号:h(h=1,2…,L)第h层的记号如下:单元总数:样本单位数:第i个单元标志值为:

从该层中抽取的样本的单元值为:层权:抽样比:总体均值:样本均值:2023/2/611

层内方差:样本方差:2023/2/612第二节简单估计量及其性质

一.总体均值的估计

(一)简单估计量的定义对于分层样本,对总体均值的估计是通过对各层的的估计,按层权加权平均得到的。公式为:

2023/2/613

如果得到的是分层随机样本,则总体均值的简单估计为:(二)估计量的性质性质1对于一般的分层随机抽样,如果是的无偏估计(h=1,2,…L),则是的无偏估计。即对各层估计是无偏的,则对总体的估计也是无偏的。的方差为:

由于各层的抽样是相互独立的2023/2/614证明:因各层抽样是相互独立,则也相互独立,则有2023/2/615性质2对于分层随机抽样

,

是的无偏估计,

的方差为:

2023/2/616

性质3对于分层随机抽样,的一个无偏估计为:2023/2/617注:

当适当的大,各层样本平均数均可适用正态近似,因此一般地也适用于正态近似其置信区间。2023/2/618二.总体总量的估计

(一)简单估计量的定义

总体总量Y的估计为:

分层随机样本:

(二)估计量的性质性质4对于一般的分层抽样,如果是偏估计,则是Y的无偏估计。的方差为:2023/2/6192023/2/620

性质5对于分层随机抽样,的方差为:性质6对于分层随机抽样,的一个无偏估计为:2023/2/621【例3.1】调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),估计该地区居民奶制品年消费总支出及估计的标准差。2023/2/622样本户奶制品年消费支出层居民户总数样本户奶制品年消费支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252023/2/623解:N=200+400+750+1500=2850=10(h=1,2,3,4)各层的层权及抽样比为:

2023/2/624各层样本均值及样本方差为:2023/2/625该地区居民奶制品年消费总支出:估计量方差及标准差的样本估计为:2023/2/626

在95%的概率保证下该地区居民

奶制品年消费总支出区间为:2023/2/627【例3.2】某市进行家庭收入调查,分城镇居民和农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果是城镇年平均户收入为15180元,标准差为2972元;农村年平均收入为9856元,标准差为2546元。求全市年平均户收入的估计及其90%的置信区间。2023/2/628解:2023/2/6292023/2/630全市年户均收入的置信区间:10585.391.645142.287,即

10351.33—10819.45(元)注:由于城镇居民与农村居民收入水平,抽样比不同(前者大于后者)。如果不分层,计算样本平均数作为全市户均年收入是不合理的:2023/2/631三.总体比例的估计(一)简单估计量的定义总体比例P的估计为:(二)估计量的性质如果定义

1,第i个单元具有所考虑的特征

0,其他i=1,2…N

2023/2/632性质7对于一般的分层抽样,如果是的无偏估计(h=1,2,…L),则是P的无偏估计.

的方差为:

性质8对于分层随机抽样,是P的一个无偏估计,的方差为:

因为:及

2023/2/633

2023/2/634

性质9对于分层随机抽样,的一个无偏估计为:

2023/2/635【例3.3】了解某地区居民户拥有家庭电脑的情况如下,估计该地区家庭拥有电脑的比例及估计的标准差。样本户拥有家庭电脑情况层居民户总数样本户拥有家庭电脑情况1234567891012000001000100240001000000103750110000101041500100000000

02023/2/636解:2023/2/637

该地区家庭拥有电脑的比例的估计、估计量的方差、估计的标准差为:2023/2/638(三)总体具有所考虑特征单元总数A的估计它的方差及方差估计分别是:2023/2/639【例3.4】为调查某个高血压高发病地区青少年与成年人高血压的患病率,对14岁以上的人分四个年龄组进行分层随机抽样,调查结果如下,求总体高血压的患病率P的估计及其标准差的估计。

高血压患病率调查数据年龄组(岁)层权层样本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.5362023/2/640解:P的估计量为:

为求的方差估计,取2023/2/6413.3比率估计及其性质(一)分别比率估计条件:各层的样本量都比较大的情况下方法:各层分别进行比率估计,将各层加权汇总得到总体指标的估计。(先比后加权)总体均值和总体总量Y的分别比率估计量:已知各层的均值和总量2023/2/642对分别比估计,若各层样本量都比较大,则有:为第h层X与Y的相关系数注:公式中S、R、用样本数据替代2023/2/643证明:根据比估计量的性质,当比较大时,则有:所以2023/2/644总量:2023/2/645(二)联合比率估计条件:各层的样本量不是都很大的情况方法:先分别对作分层估计,然后再采用比估计方法。(先加权后比)总体均值和总体总量Y的联合比率估计量:已知总体的均值和总量2023/2/646的均方误差为:对联合比估计,若总样本量n比较大,则有:证明:p75注意与分别比估计方差公式的差异(Rh)2023/2/647(三)分别比率估计量与联合比率估计量的比较

如果各层的样本量都较大,且有理由认为各层的比率差异较大,则分别比率估计优于联合比率估计。当各层的样本量不大,或各层比率差异很小,则联合比率估计更好些。

【例4.4】某市1996年对950家港口生产单位完成的吞吐量进行了调查,1997年欲对全市港口生产单位完成的吞吐量进行抽样调查。对港口生产单位按非国有(h=1)和国有(h=2)分为两层,单位数分别为800家和150家,分别在两层中调查了10家、15家港口生产单位,调查数据如下表,试估计1997年全市港口生产单位完成的吞吐量。2023/2/6491997年非国有和国有企业调查数据ii195801495530222021022103203359384336049641201174230400517718056006516253258610008807302349770056083322868110012309272215972082310137971031039011478465接上表128176501391911601411601070157356982023/2/651h=1,非国有H=2,国有合计1015258001509500.8421050.15789510.01250.1171400102900274300214.25686226.7655.6217.6688.28477.34494665.2610704.7182541.899072.281071.510.9598591.0497252023/2/6521.按分别比率估计量估计:2023/2/6532.按联合比率估计量估计2023/2/654两种途径:分别回归估计:对每层样本分别求取回归估计量,然后对各层的回归估计量进行加权平均,即先“回归”后“加权”;联合回归估计:对两个变量先分别计算出总体总值或总体均值的分层简单估计量,然后再对它们的分层估计量来构造回归估计,即先“加权”后“回归”。3.3回归估计量及其性质分别回归估计量同样要求每层的样本量都比较大,如果达不到这个要求,加之各层的简单随机抽样误差较大,整个分层随机抽样就会产生较大的偏差,这时要使用联合比估计量。2023/2/6563.3分层随机抽样下的回归估计

(一)

分别回归估计

适用:各层样本量不小的情况方法:先对各层的平均数或总和作回归估计,然后按层权平均或相加,得到总体指标的估计。(先回归再加权)定义3.6分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均。对的分别回归估计为:2023/2/657总体均值的分别估计量:总体总量的分别估计量:

1、当各层的回归系数为给定的常数时,分别估计量是无偏的,其方差为:2023/2/658并且当时,达到最小,即2、通常未知,可以用样本回归系数作为的估计:这时分别估计量是有偏的,但当每一层的样本量2023/2/659都较大时,估计的偏倚可以忽略,其方差近似为:方差的样本估计为:式中,第h层样本相关系数的平方2023/2/661(二)联合回归估计条件:各层样本量不大联合回归估计是对作分层估计;然后构造总体均值和总量的联合估计量。(先分层再回归)总体均值、总量的联合估计量:

其中:2023/2/6621、当回归系数为事先给定的常数时,联合估计量是无偏的,其方差为:2023/2/663当取时,达到最小。

2、当回归系数未知时,取为的样本估计:

第h层样本相关系数的平方2023/2/665这时联合估计是有偏的,但当样本量n较大时,估计量的偏倚趋于零,回归估计是渐近无偏的,且

方差的样本估计为:2023/2/666(三)分别回归估计与联合回归估计的比较

当回归系数事先设定时,分别回归估优于联合回归估计,尤其在各层回归系数相差较大时,分别回归估计更好。当回归系数由样本估计时,如果各层的样本量不太小,且各层的回归系数相差较大,还是采用分别回归估计为宜。若各层的样本量不太大,且各层的回归系数大致相同,则采用联合回归估计较好。若层内的回归系数差别不太大,而每层的样本量并非都相当大时,联合回归估计可能更保险些。2023/2/667【例4.6】P45:(续前例)利用回归估计量估计该市港口生产单位1997年完成的吞吐量。解:样本回归系数:(1)按分别回归估计量估计:=163421.10+107135.19=270556.30h=1,非国有h=2,国有1.070170.8564022023/2/668

(2)按联合回归估计量估计:

2023/2/6692023/2/670小结比估计量与回归估计量的异同:1.从形式上看,比估计量是一个简单估计量的线性组合,而回归估计量两个简单估计量的线性组合;但实质上都是利用两个简单估计量和辅助变量来估计总体指标。2.比估计量借助主要变量与辅助变量之间的比值关系;回归估计量借助两者之间的线性相关关系。2023/2/671

第四节样本量在各层的分配简单随机抽样只需要根据调查精度的要求与费用的限制来确定抽样容量的大小,而分层抽样则提出另一个重要的问题,一旦确定n,又如何在各层中分配抽样容量,其中有些问题要考虑,比如在各层中各有精度的要求以及费用的限制,由于各层具有各自的鲜明特征,其花费自然不同,因而在样本容量分配上必须带有经济观点。另一个重要考虑因素是由于的不同而带来数据处理的困难。样本量的分配必须尽可能地使估计量及其方差具有较简单的形式,从而使数据汇总工作量小,做到省时省力。2023/2/672样本量分配对精度的影响2023/2/673

某个总体分为三层,其层权及层标准差见下表,设总样本量为300,考虑四种不同的样本量分配,并计算出每一种分配下,总体均值估计量的方差:样本量的不同分配对方差的影响h常数分配与成正比与成正比与成正比10.22010049604020.330100110909030.5341001411501703.863.113.093.002023/2/6742023/2/675(一)比例分配(proportionalallocation)即在分层抽样中,若每层的样本量nh

都与层的大小Nh

成比例,即

也就是按各层的层权进行分配,即大的子总体多抽一些,小的子总体少抽一些。比例分配时,也与层权成比例。简单随机抽样中总体的每一个单元入样的概率即为抽样比f。因而按比例分配而在各层中进行简单随机抽样的分层方法,任何一层中的样本被抽中的概率都为f。因此比例分配的分层随机抽样是一种等概率抽样。或2023/2/676

总体均值的估计是:

显然估计量有相当简单的形式。2023/2/677自加权:如果总体总量(或均值)的无偏估计量可以写成样本观测值的总和(或平均数)的常数倍(如:Y=ky或),那么这种样本(或估计量)称作自加权的或等加权的。按比例分配的分层抽样就是自加权的。简单随机抽样(放回的和不放回的)也是自加权的。2023/2/678的方差为:注意:是各层方差按层权的加权平均!2023/2/679二.最优分配(一)最优分配在分层随机抽样中,在总费用给定的条件下,估计量的方差达到最小;或在给定估计量方差的条件下,使总费用最小的各层样本量的分配称为最优分配(optimumallocation)。简单线性费用函数:2023/2/680建立目标函数:根据柯西-许瓦兹(Cauchy-Schwarz)不等式,对于任意的,有通过极小化目标函数,可同时达到给定方差下费用最小和给定费用下方差最小的效果。2023/2/681当且仅当(K为常数)时,上式等号成立。所以对于目标函数则有:上式成立的条件是:2023/2/682所以则使目标函数达到最小时的最优分配为:2023/2/683

上式表明,越大(即层越大),则层内抽样应越多;又若越大(即层内变差越大),则层内抽样也应越多;但如果越大(即层内平均每单元费用越大),则在该层中的抽样应少一些。即最优分配的与或成正比,与成反比。2023/2/684

由此得出下面的行为准则,如果某一层:单元数较多内部差异较大费用比较省则对这一层的样本量分配较多些。2023/2/685(二)Neyman(内曼)分配条件:如果每层抽样的费用相同,即时,最优分配可简化为:将代入即得:2023/2/686达到最小:

【例3.5】(续例3.1)p69如果样本量为n=40,则按比例分配和Neyman分配,各层的样本量应为多少?

解:按比例分配时,各层的样本量为:即各层的样本量分别为:3,6,11,20(公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。如:n=56.03则n=57)2023/2/687按Neyman分配:2023/2/688各层的样本量为:即各层的样本量分别为:3,7,23,7。2023/2/689【例3.6】在例3.2中若固定n=550不变,城镇居民与农村居民年收入的标准差估计分别为元,元,对城镇居民与农村居民抽样平均每户的费用比1:2,试求城镇与农村两层比例分配与最优分配的样本量。又若不考虑费用因素,那么最优分配的结果又有何变化?如何计算呢?2023/2/690解:

城镇与农村居民年收入调查样本量分配的计算h12356000411.021484200.863250022157.51525.61719802568.51936.62023/2/691(1)比例分配(2)最优分配(3)内曼分配

2023/2/692

不考虑费用的内曼分配在农村的样本量比考虑费用的最优分配在农村的样本量更大。这是因为农村调查费用较高,因此最优原则是适当增加城镇样本量,减少农村样本量。2023/2/693(三)某些层要求大于100%抽样时的修正

按最优分配时,当某些层的标准差特别大,而层的大小相对指定的总样本量n又小很多,若加上对这些层抽样的平均单位费用又很低,而抽样比f比较大,则可能出现按最优分配计算的这个层的样本量超过的情况。实际工作中,如果第k层出现这种情况,最优分配是对这个层进行100%的抽样,即取,然后,将剩下的样本量按最优分配分到各层。2023/2/694以不考虑费用的内曼分配为例,实际操作步骤如下:

2023/2/695

在这种情况下,对于方差的一般公式,可以直接将修正后的最优分配所得的带入,而内曼分配最小方差公式则需必要的调整:

其中,是仅对最后实际分配的样本量严格小于的各层求和,也只是这些层中抽取的单元总数。修正的含义可理解为:因为对于那些实施普查()的层来说,已经不存在所谓的抽样误差了,自然需要从原来的公式中将它们舍去。2023/2/696【例3.7】某个模拟的总体分为4层,和的值见下表,设n=80,请问该如何进行内曼分配?

一个模拟总体的分配情况h154002000210500500032001020004400208000合计615—170002023/2/697解:计算各层的样本量:(1)第一层样本量的分配:而,可见,则(2)将个待分配的样本量分到2—4层:2023/2/698而,可见,则(3)将个待分配的样本量分到3、4层:因为,,所以(4)将个待分配的样本量分到第4层:

2023/2/699因为,,所以因此,各层所分配的样本量是:

5,10,13,52

此时上题计算总体均值估计量的最小方差为:对第三、四层计算2023/2/6100第五节总样本量的确定

一.影响样本总量n的因素

1.估计量精度的要求:(1)对总体参数估计的精度

(2)对各层参数估计的精度

2.费用的限制

(1)总费用的限制

(2)不同层中平均抽取一个单元的费用

3.

层的划分和层的样本量的分配形式2023/2/6101

由于估计量的精度实际上取决于每层样本量的大小,因此在总样本量给定的情况下,对层样本量的不同分配,其精度也不同。反之对同一精度要求,对不同的样本量分配形式,计算得到的总样本量也有差异,因此在确定总样本时,要求先确定样本量的分配形式。2023/2/6102

二.估计总体均值情形1.一般公式令其中已经选定,在调查的目标是估计总体均值时,当给定方差V的上限或d时,2023/2/6103

如果估计精度是由误差限的形式给出,则

这时上式可以表示为:

由上式可得:

2023/2/6104(1)当按比例分配时,即则上式为:2023/2/6105实际工作中,n的计算可以分两步:

先计算,当不能忽略不计时,再计算:(2)当按内曼分配时,即2023/2/6106【例3.7】(续例3.1)

如果在95%置信度下,相对误差不超过10%,则按比例分配和Neyman分配时,总样本量分别为多少?

解:按比例分配时:2023/2/61072023/2/6108对进行修正得n:按Neyman分配时:2023/2/6109(3)最优分配需要考虑费用时简单线性函数:C=将代入n的一般公式,得:2023/2/6110当总费用C给定时:(P92式3.139)2023/2/61112023/2/6112第六节分层时的若干问题

一.抽样效果分析与简单随机抽样相比。分层随机抽样的精度与样本量的分配及各层的方差有关。在固定样本的情况下,如果相对1可以忽略,则分别为分层随机抽样最优分配、分层随机抽样按比例分配、简单随机抽样简单估计的方差。2023/2/6113

如果各层的均值差异越大,则用比例分配法较好,而当各层的标准差较大时,用最优分配法较好。在调查多个目标量时,按比例分配的分层抽样可能更好些。通常用比例分配法较多,因为:(1)最优分配并不是对每个指标都是最优的。(2)由于最优分配时需对层标准差进行估计,估计又不可能十分精确,加上计算时样本量必须取整数,因此理论上的最优分配的最小方差并不一定能达到。(3)而且当实际分配偏离最优分配时,方差增加并不明显。考虑到比例分配样本的自加权性质的简单性,除非层标准差异十分明显从而考虑最优分配有较大的改进,否则还是可以采用比例分配法。对于最优分配,需要各层标准差Sh的值,可以用调查指标的历史数据或通过辅助指标的信息推算。2023/2/61141.简单随机抽样与分层随机抽样的效果比较(1)与比例分配的分层随机抽样的效果比较前提:相同样本量的情况下简单随机抽样(对均值估计量)的方差:

比例分配的分层随机抽样相应估计量的方差:2023/2/6115根据总体单元指标的平方和分解,简单随机抽样的方差分解如下:层内方差层间方差2023/2/6116

故若所有的都比较大,则从而2023/2/6117

上式右边的第二项是层间平方和,它一定是非负的,因此有

上式意味着,当所有的都比较大时,比例分配的分层随机抽样的方差小于简单随机抽样的方差,也就是说,比例分配分层随机抽样的精度比后者高,设计效应小于1。2023/2/6118

方差差值为:

这表明层平均数的差异越大,分层的效果就越好,若层平均数都相等,那么分层的效果与不分层的一样。事实上正因为层间的这种变异不进入分层随机抽样的方差,因此才有分层随机抽样精度高于简单随机抽样的结果。2023/2/6119(2)与最优分配的分层随机抽样的比较按定义,最优分配的精度应高于相同样本量的任何其他分配,当然也高于比例分配的精度,但最优分配在精度上的改进究竟有多大?为此比较比例分配方差与最优分配(内曼情形)方差之差.2023/2/6120从上式可以看出,最优分配在精度取决于各层标准差的差异,差异越大,最优分配的效果越好,反之若各层间标准差(方差)差别不大,那么最优分配的效果就不会比比例分配的效果好很多。2023/2/6121

使用条件:

最优分配:各层标准差差异大,尤其是调查多个目标量时。比例分配:各层的均值差异大

二.层的划分

基本原则:

使层内差异尽可能小---各层有自己鲜明特色,使层间差异明显地较大---各层之间有显著不同。在多指标问题中可采用聚类分析的手段进行分层,在此我们考虑单指标如何分层。2023/2/6122(一)最优分层

目的不同,分层方法不同,构造层的原则如下:1.若为了便于组织、估计子总体的参数,则按自然层或单元的类型划分。2.若是提高抽样效率,减少估计量的方差,则按目标量分层,但在调查之间目标量是未知的,因此分层通常选择一个与调查指较大线性相关的指标来进行。这个标志可以是目标量的前期值,也可以完全是另一个变量。2023/2/6123

如何利用一个分层标志具体分层呢?实际上也就是说如何确定各层的分点。思路:

设总体分成h层,假定与分别为总体的最小与最大可能值。按数值分层即为在与之间插上(h-1)个分点:

如果各层的抽样分配方案已定,即设法求这些分点以使得达到最小。2023/2/6124

确定层界的快速近似法:累积平方根法:

由戴伦纽斯(Daleniues)与霍捷斯(Hodges)提出的根据等分分层变量分布的累积平方根的最优分层方法,简称累积平方根法。累积平方根法2023/2/6125【例3.9】某地区电信部门在对利用电话上网的居民家庭安装ADSL意愿进行调查时,以辖区内最近三个月有电话上网支出的居民用户为总体(上网电话费为0.02元/分钟),并准备按上网电话支出(x)进行分层,试确定各层的分点。2023/2/6126范围x

频数f累计0~565328255.5934255.59345~1089240298.7306554.324110~1536128190.0737744.397715~2077525278.43311022.83120~2562407249.81391272.64525~3024591156.81521429.4630~4024586221.74761651.20840~509582138.43411789.64250~6015761177.54441967.18660~708099127.27142094.45770~805676106.54582201.003不等距678135620342023/2/612780~90345383.102352284.10690~100425692.26052376.366100~1501246111.62442487.99150~20080089.442722577.433200~25036560.415232637.848250~30090302667.848300~3503518.708292686.557350~40057.0710682693.628400~4501210.954452704.582450以上78.36662712.9492023/2/6128

最终累计频数是2712.949,如果取层数为4,则应每隔分一层.因此应该使得累计最接近678.237,1356.474,2034.712,即较合理的分层是:2023/2/6129(二)层数的确定

层数的增加能提高估计的精度,但当层数增加到一定的时候,在精度上的收益将很小;若样本量n已确定,由于每层至少必须抽取一个样本单元,因此最多的层数为n,如果要给出估计量方差的无偏估计,则每层至少2个样本单元,那么层数不能超过n/2。分层时应考虑:1.分层考虑精度的要求。

一般以目标量作为分层指标,但未知,一般通过与高度相关的辅助指标来进行。根据研究,除非Y与X的相关系数,层数一般不超过6为宜。2.分层考虑费用。2023/2/6130三.事后分层(或抽样后分层)

前面讨论的分层抽样是建立在抽样之前总体已经分好层,但有时这种事先分层会遇到较大困难,而我们又很想利用分层抽样的优势之处,此时可以采用事后分层的方法。

适用情况:

没有层的抽样框,或总体特别大来不及事先分层,或几个变量都适合于分层。或存在极大(小)值。条件:

需知各层的大小或层权。不适合:层权与实际情况相差很大层权

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论