第三章分层随机抽样_第1页
第三章分层随机抽样_第2页
第三章分层随机抽样_第3页
第三章分层随机抽样_第4页
第三章分层随机抽样_第5页
已阅读5页,还剩144页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/1/91第三章分层随机抽样3.1概述

3.2简单估计量及其性质

3.3样本量在各层的分配

3.4回归估计量及其性质

3.5各层样本量的分配

3.6总样本量的确定2023/1/92简单随机抽样只适合小型的抽样调查:1.抽样框

2.代表性如:了解中国各民族的情况:(鄂伦春族)2023/1/93第一节概述

一.定义与作用

(一)分层抽样和分层随机抽样先将总体N个单元划分成L个互不重复的子总体,每个子

总体称为层,它们的大小分为别,这L个层合起来就是整个总体(N=)。

然后,在每个层中分别独立进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本。不重不漏2023/1/94

各层中的抽样是独立进行的,因此,在各层中所采取的抽样手段完全可以不相同,在一个层进行简单随机抽样,在另一层则可采用更复杂一些的抽样,完全视各层的情况不同而定,这种因地制宜的手段将使样本尽可能反映总体的特性以及子总体的特性。分层抽样有时也称为类型抽样或分类抽样。2023/1/95

分层随机抽样三原则:(1)每层都抽样;(2)各层都独立地抽样;(3)各层的抽样都是简单随机抽样。2023/1/96

(二)特点:1.分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。

注意:分层抽样估计量的方差只和层内方差有关,和层间方差无关。2.分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。如:消费物价指数(全国和各省)

3.层内抽样方法可以不同,而且便于抽样工作的组织。2023/1/97(三)作用可以对各层的参数进行估计,

有助于提高估计精度。2023/1/98二.使用场合

应用条件:适合于各层差异较大,有进行分层的辅助信息。

层的划分原则:1.层内单元具有相同性质,通常按调查对象的不同类型进行划分,这时,分层抽样能够对每一类的目标量进行估计。2.尽可能使层内单元的标志值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。3.既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。4.为了抽样组织实施的方便,通常按行政管理机构设置进行分层。2023/1/99如:对全国汽车货运量调查,目的是不仅要了解全国货运量,而且推算不同经济成分货运量。首先为组织方便,按省分层;各省再按经济成分分层;为提高抽样效率,再按吨位分层。2023/1/910三.符号说明层号:h(h=1,2…,L)第h层的记号如下:单元总数:样本单位数:第i个单元标志值为:

从该层中抽取的样本的单元值为:层权:抽样比:总体均值:样本均值:2022/12/2911层内方差:样本方差:2022/12/2912第二节简单单估计量及其其性质一.总体均值值的估计(一)简单估计量的的定义对于分层样本本,对总体均均值的的估计是通通过对各层的的的的估计,按层权加加权平均得到到的。公式为为:2022/12/2913如果得得到的的是分层随随机样样本,则总体体均值值的的简简单估估计为为:(二)估计量量的性性质性质1对于一般的的分层层随机机抽样样,如果是是的的无偏偏估计计(h=1,2,…L),则是是的的无无偏估估计。。即对对各层层估计计是无无偏的的,则则对总总体的的估计计也是是无偏偏的。。的方差差为:由于各各层的的抽样样是相相互独独立的的2022/12/2914证明::因各各层抽抽样是是相互互独立立,则则也也相相互独独立,,则有有2022/12/2915性质2对于分层随随机抽抽样,是的的无无偏估估计,的方差差为:2022/12/2916性质3对于分分层随随机抽抽样,的一个个无偏偏估计计为::2022/12/2917注:当适适当当的的大大,,各各层层样样本本平平均均数数均均可可适适用用正正态态近近似似,,因因此此一一般般地地也也适适用用于于正正态态近近似似其其置置信信区区间间。。2022/12/2918二..总总体体总总量量的的估估计计(一一))简简单单估估计计量量的的定定义义总体体总总量量Y的估估计计为为::分层层随随机机样样本本:(二二))估估计计量量的的性性质质性质质44对对于于一般般的的分分层层抽抽样样,如如果果是是偏偏估估计计,,则则是是Y的无无偏偏估估计计。。的方方差差为为::2022/12/29192022/12/2920性质5对对于分层随机机抽样,的方差为为:性质6对对于分分层随机机抽样,的一个无无偏估计计为:2022/12/2921【例3.1】调查某地地区的居居民奶制制品年消消费费支出,,以居民民户为抽抽样单元元,根据据经济及及收入水水平将居居民户划划分为44层,每每层按简简单随机机抽样抽抽取100户,调调查获得得如下数数据(单单位:元元),估估计该地地区居民民奶制品品年消费费总支出出及估计计的标准准差。2022/12/2922样本户奶奶制品年年消费支支出层居民户总数样本户奶制品年消费支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252022/12/2923解:N=200+400+750+1500=2850=10(h=1,2,3,4)各层的层层权及抽抽样比为为:2022/12/2924各层样本均均值及样本本方差为::2022/12/2925该地区居民民奶制品年年消费总支支出:估计量方差差及标准差差的样本估估计为:2022/12/2926在95%的概率保证证下该地区居民民

奶制品品年消费总总支出区间间为:2022/12/2927【例3.2】某市进行家家庭收入调调查,分城镇居民民和农村居居民两部分分抽样,在全部城镇镇23560户中抽取300户,在全部农村村148420户中抽取250户(均按简单随随机抽样进进行),调查结果是是城镇年平平均户收入入为15180元,标准差为2972元;农村年年平均收入入为9856元,标准差为2546元。求全市市年平均户户收入的估估计及其90%的置信区间间。2022/12/2928解:2022/12/29292022/12/2930全市年户均收收入的置信区区间:10585.391.645142.287,即10351.33—10819.45(元)注:由于城镇居民民与农村居民民收入水平,,抽样比不同同(前者大于后者者)。如果不分层层,计算样本本平均数作为为全市户均年年收入是不合合理的:2022/12/2931三.总体比比例的的估计计(一)简单估估计量量的定定义总体比比例P的估计计为:(二)估计量量的性性质如果定定义1,第i个单元元具有有所考考虑的的特征征0,其他i=1,2…N2022/12/2932性质7对于一般的的分层层抽样样,如果果是是的无偏偏估计计(h=1,2,…L),则是是P的无偏偏估计计.的方差差为:性质8对于分层随随机抽抽样,是P的一个个无偏偏估计计,的方差差为:因为:及2022/12/29332022/12/2934性质质99对于于分分层层随随机机抽抽样样,,的的一一个个无无偏偏估估计计为为::2022/12/2935【例3.3】了解某地地区居民民户拥有有家庭电电脑的情情况如下下,估计计该地区区家庭拥拥有电脑脑的比例例及估计计的标准准差。样本户拥拥有家庭庭电脑情情况层居民户总数样本户拥有家庭电脑情况1234567891012000001000100240001000000103750110000101041500100000000

02022/12/2936解:2022/12/2937该地区区家庭庭拥有有电脑脑的比比例的的估计计、估估计量量的方方差、、估计计的标标准差差为:2022/12/2938(三)总体具有所所考虑特征征单元总数数A的估计它的方差及及方差差估计分分别是是:2022/12/2939【例3.4】为调查某个个高血压高高发病地区区青少年与与成年人高高血压的患患病率,对14岁以上的人人分四个年年龄组进行行分层随机抽抽样,调查结果如如下,求总体高血血压的患病病率P的估计及其其标准差的的估计。高血压患病病率调查数数据年龄组(岁)层权层样本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.5362022/12/2940解:P的估估计计量量为为:为求求的的方方差差估估计计,取2022/12/29413.3比率估计及其其性质(一)分别比率估计计条件:各层的样本量量都比较大的情况下方法:各层分分别进行比率率估计,将各各层加权汇总总得到总体指指标的估计。。(先比后加权)总体均值和和总体总量Y的分别比率估估计量:已知各层的均值和总量2022/12/2942对分别比估计计,若各层样样本量都比较较大,则有:为第h层X与Y的相关系数注:公式中S、R、用样样本数据替代代2022/12/2943证明:根据比比估计量的性性质,当比比较大时时,则有:所以2022/12/2944总量:2022/12/2945(二)联合比比率估估计条件::各层的的样本本量不不是都都很大大的情况况方法::先分分别对对作作分分层估估计,,然后后再采采用比比估计计方法法。((先加加权后后比))总体均均值和和总体体总量量Y的联合合比率率估计计量::已知总体的均值和和总量量2022/12/2946的均方方误差差为:对联合合比估估计,,若总总样本本量n比较大大,则则有:证明::p75注意与与分别别比估估计方方差公公式的的差异异(Rh)2022/12/2947(三)分别比比率估估计量量与联联合比比率估估计量量的比比较如果各层的的样本本量都都较大大,且有有理由由认为为各层的的比率率差差异异较大大,则分别比比率估估计优于联联合比比率估估计。。当各层的的样本本量不不大,或各层比比率差差异很很小,则联合比比率估估计更好些些。【例4.4】某市1996年对950家港口口生产产单位位完成成的吞吞吐量量进行行了调调查,,1997年欲对对全市市港口口生产产单位位完成成的吞吞吐量量进行行抽样样调查查。对对港口口生产产单位位按非非国有有(h=1)和国有有(h=2)分为两两层,,单位位数分分别为为800家和150家,分分别在在两层层中调调查了了10家、15家港口口生产产单位位,调调查数数据如如下表表,试试估计计1997年全市市港口口生产产单位位完成成的吞吞吐量量。2022/12/29491997年非国有和和国有企业业调查数据据ii195801495530222021022103203359384336049641201174230400517718056006516253258610008807302349770056083322868110012309272215972082310137971031039011478465接上表128176501391911601411601070157356982022/12/2951h=1,非国有H=2,国有合计1015258001509500.8421050.15789510.01250.1171400102900274300214.25686226.7655.6217.6688.28477.34494665.2610704.7182541.899072.281071.510.9598591.0497252022/12/29521.按分别比比率估计计量估计计:2022/12/29532.按联合比率估估计量估计2022/12/2954两种途径:分别回归估计计:对每层样本分分别求取回归归估计量,然然后对各层的的回归估计量量进行加权平平均,即先““回归”后““加权”;联合回归估计计:对两个变量先先分别计算出出总体总值或或总体均值的的分层简单估估计量,然后后再对它们的的分层估计量量来构造回归归估计,即先先“加权”后后“回归”。。3.3回归估计量及及其性质分别回归估计计量同样要求求每层的样本本量都比较大大,如果达不不到这个要求求,加之各层层的简单随机机抽样误差较较大,整个分分层随机抽样样就会产生较较大的偏差,,这时要使用用联合比估计计量。2022/12/29563.3分层随机抽样样下的回归估估计(一)分别回归估计计适用:各层样本量不不小的情况方法:先对各层的平平均数或总和和作回归估计计,然后按层层权平均或相相加,得到总总体指标的估估计。(先回归再再加权)定义3.6分别回归估计计是指在分层层随机抽样中中,先在每层层中对层均值值或层总和做做回归估计,,然后再对各各层的回归估估计按总体层层权进行加权权平均。对的的分分别回归估计计为:2022/12/2957总体均值的的分别估计计量:总体总量的的分别估计计量:1、当各层的的回归系数数为给定的的常数时,,分别估计计量是无偏偏的,其方方差为:2022/12/2958并且当时时,达到最小,即2、通常未未知,可以用样本本回归系数数作作为为的的估估计:这时分别估估计量是有有偏的,但但当每一层层的样本量量2022/12/2959都较较大大时时,,估估计计的的偏偏倚倚可可以以忽忽略略,,其其方方差差近近似似为为:方差差的的样样本本估估计计为为:式中中,第h层样样本本相相关关系系数数的的平平方方2022/12/2961(二)联合合回回归归估估计计条件件::各各层层样样本本量量不不大大联合合回回归归估估计计是是对对作作分分层层估估计计;;然然后后构构造造总总体体均均值值和和总总量量的的联联合合估估计计量量。。(先先分分层层再再回回归归))总体体均均值值、、总总量量的的联联合合估估计计量量::其中中::2022/12/29621、当回回归系系数为为事先先给定定的常常数时时,联联合估估计量量是是无无偏的的,其其方差差为::2022/12/2963当取取时,达到最最小。。2、当回回归系系数未未知时时,取取为为的的样本本估计计:第h层样本本相关关系数数的平平方2022/12/2965这时联联合估估计是是有偏偏的,但当样样本量量n较大时时,估计量量的偏偏倚趋趋于零零,回归估估计是是渐近近无偏偏的,,且方差的的样本本估计计为:2022/12/2966(三)分别回归归估计与与联合回回归估计计的比较较当回归系系数事先设定定时,分别别回归估估优于联联合回归归估计,,尤其在在各层回归归系数相相差较大大时,分分别回归归估计更更好。当回归系系数由样本估计计时,如果果各层的的样本量不太小,,且各层层的回归系数数相差较大大,还是是采用分分别回归归估计为为宜。若若各层的的样本量量不太大大,且各各层的回回归系数数大致相相同,则则采用联联合回归归估计较较好。若若层内的的回归系系数差别别不太大大,而每每层的样样本量并并非都相相当大时时,联合合回归估估计可能能更保险险些。2022/12/2967【例4.6】P45:(续前例)利用回归估计计量估计该市市港口生产单单位1997年完成的吞吐吐量。解:样本回归系数数:(1)按分别回归估估计量估计:=163421.10+107135.19=270556.30h=1,非国有h=2,国有1.070170.8564022022/12/2968(2)按联合回归估估计量估计:2022/12/29692022/12/2970小结比估计量与与回归估计计量的异同同:1.从形式上看看,比估计计量是一个个简单估计计量的的线性组组合,而回回归估计量量两个简单单估计量的的线线性组合;;但实质上上都是利用用两个简单单估计量和和辅助变量量来估计总总体指标。。2.比估计量借借助主要变变量与辅助助变量之间间的比值关关系;回归归估计量借借助两者之之间的线性性相关关系系。2022/12/2971第四节样样本量量在各层的的分配简单随机抽抽样只需要要根据调查查精度的要要求与费用用的限制来来确定抽样样容量的大大小,而分分层抽样则则提出另一一个重要的的问题,一一旦确定n,又如何在在各层中分分配抽样容容量,,其其中有些问问题要考虑虑,比如在在各层中各各有精度的的要求以及及费用的限限制,由于于各层具有有各自的鲜鲜明特征,,其花费自自然不同,,因而在样样本容量分分配上必须须带有经济济观点。另另一个重要要考虑因素素是由于的的不同而带带来数据处处理的困难难。样本量的分分配必须尽尽可能地使使估计量及及其方差具具有较简单单的形式,,从而使数数据汇总工工作量小,,做到省时时省力。2022/12/2972样本量分配配对精度的的影响2022/12/2973某个总体分为为三层,其层层权及及层标标准差见见下表,,设总样本量量为300,考虑四种不不同的样本量量分配,并计计算出每一种种分配下,总总体均值估计计量的方差::样本量的不同同分配对方差差的影响h常数分配与成正比与成正比与成正比10.22010049604020.330100110909030.5341001411501703.863.113.093.002022/12/29742022/12/2975(一)比例分分配((proportionalallocation)即在分分层抽抽样中中,若若每层层的样样本量量nh都与层层的大大小Nh成比例例,即即也就是是按各各层的的层权权进行行分配配,即即大的的子总总体多多抽一一些,,小的的子总总体少少抽一一些。。比例分分配时时,也也与与层权权成成比例例。简单随随机抽抽样中中总体体的每每一个个单元元入样样的概概率即即为抽抽样比比f。因而而按比例分分配而在各各层中中进行行简单随随机抽抽样的分层层方法法,任任何一一层中中的样样本被被抽中中的概概率都都为f。因此此比例例分配配的分分层随随机抽抽样是是一种种等概率率抽样。。或2022/12/2976总体均值的的估计是是:显然估计量量有相当简简单的形式式。2022/12/2977自加权:如果总体总总量(或均值)的无偏估计计量可以写写成样本观观测值的总总和(或平均数)的常数倍((如:Y=ky或)),,那么这种种样本(或估计量)称作自加权的或等加权的。按比例分配配的分层抽抽样就是自自加权的。。简单随机机抽样(放回的和不不放回的)也是自加权权的。2022/12/2978的方差为为:注意:是各层方差按层权的加权平均!2022/12/2979二.最优分配配(一)最优分配配在分层随随机抽样样中,在在总费费用给定定的条件件下,估估计量的的方差达达到最小小;或在在给定估估计量方方差的条条件下,,使总费费用最小小的各层层样本量量的分配配称为最最优分配配(optimumallocation)。简单线性性费用函函数:2022/12/2980建立目标函数数:根据柯西-许瓦兹(Cauchy-Schwarz)不等式,对对于任意的,有通过极小化目目标函数,可可同时达到给给定方差下费费用最小和给给定费用下方方差最小的效效果。2022/12/2981当且仅当(K为常数)时,上式等号号成立。所以以对于目标函函数则有:上式成立的条条件是:2022/12/2982所以则使目标标函数数达到到最小小时的的最优优分配配为::2022/12/2983上式表表明,,越越大大(即层越越大),则层层内抽抽样应应越多多;又又若越越大大(即层内内变差差越大大),则层层内抽抽样也也应越越多;;但如如果越越大大(即层内内平均均每单单元费费用越越大),则在在该层层中的的抽样样应少少一些些。即即最优优分配配的与与或或成成正比比,与与成成反比比。2022/12/2984由此此得得出出下下面面的的行行为为准准则则,,如如果果某某一一层层::单元元数数较较多多内部部差差异异较较大大费用用比比较较省省则对对这这一一层层的的样样本本量量分分配配较较多多些些。。2022/12/2985(二)Neyman(内曼曼)分配配条件件::如如果果每每层层抽抽样样的的费费用用相相同同,,即即时时,,最最优优分分配配可可简简化化为为::将代代入入即即得得::2022/12/2986达到最小:【例3.5】(续例3.1)p69如果样本本量为n=40,则按比例例分配和和Neyman分配,各层的样样本量应应为多少少?解:按比例分分配时,各层的样样本量为为:即各层的的样本量量分别为为:3,6,11,20(公式计计算结果果如果带带小数,,这时样样本容量量不按四四舍五入入法则取取整数,,取比这个个数大的的最小整整数代替替。如:n=56.03则n=57)2022/12/2987按Neyman分配:2022/12/2988各层的样样本量为为:即各层的的样本量量分别为为:3,7,23,7。2022/12/2989【例3.6】在例3.2中若固固定n=550不变,城镇居居民与与农村村居民民年收收入的的标准准差估估计分分别为为元,元,对城镇镇居民民与农农村居居民抽抽样平平均每每户的的费用用比1:2,试求城城镇与与农村村两层层比例例分配配与最最优分分配的的样本本量。。又若若不考考虑费费用因因素,那么最最优分分配的的结果果又有有何变变化?如何计计算呢呢?2022/12/2990解:城镇与与农村村居民民年收收入调调查样样本量量分配配的计计算h12356000411.021484200.863250022157.51525.61719802568.51936.62022/12/2991(1)比例分配(2)最优分配(3)内曼分配2022/12/2992不考虑费用用的内曼分分配在农村村的样本量量比考虑费费用的最优优分配在农农村的样本本量更大。。这是因为为农村调查查费用较高高,因此最最优原则是是适当增加加城镇样本本量,减少少农村样本本量。2022/12/2993(三)某些层要求大大于100%抽样时的修正正按最优分配时时,当某些层层的标准差特特别别大,而层的大小小相相对指定的的总样本量n又小很多,若若加上对这些些层抽样的平平均单位费用用又又很低,而而抽样比f比较大,则可能出现现按最优分配配计算的这个个层的样本量量超超过的的情情况。实际工作中,,如果第k层出现这种情情况,最优分分配是对这个个层进行100%的抽样,即取取,,然后后,将剩下的的样本量按按最优优分配分到各各层。2022/12/2994以不考虑费用用的内曼分配配为例,实际际操作步骤如如下:2022/12/2995在这种情况下下,对于方差差的的一一般公式,可可以直接将修修正后的最优优分配所得的的带带入,而而内曼分配最最小方差公式式则需必要的的调整:其中,是是仅对对最后实际分分配的样本量量严严格小于的的各层求和,,也也只是这些层层中抽取的单单元总数。修正的含义可可理解为:因因为对于那些些实施普查(())的的层来说,已已经不存在所所谓的抽样误误差了,自然然需要从原来来的公式中将将它们舍去。。2022/12/2996【例3.7】某个个模模拟拟的的总总体体分分为为4层,,和和的的值值见见下下表表,,设设n=80,请请问问该该如如何何进进行行内内曼曼分分配配??一个个模模拟拟总总体体的的分分配配情情况况h154002000210500500032001020004400208000合计615—170002022/12/2997解::计算算各各层层的的样样本本量量::(1)第第一一层层样样本本量量的的分分配配::而,,可可见见,,则则(2)将将个个待待分分配配的的样样本本量量分分到到2——4层::2022/12/2998而,,可可见,,则(3)将个个待待分配的的样本量量分到3、4层:因为,,,,所以以(4)将个待分配配的样本本量分到到第4层:2022/12/2999因为,,,,所所以因此,各各层所分分配的样样本量是是:5,10,13,52此时上题题计算总总体均值值估计量量的最小小方差为为:对第三、、四层计计算2022/12/29100第五节节总总样样本量量的确确定一.影响样样本总总量n的因素素1.估计量量精度度的要要求:(1)对总体体参数数估计计的精精度(2)对各层层参数数估计计的精精度2.费用的的限制制(1)总费用用的限限制(2)不同层层中平平均抽抽取一一个单单元的的费用用3.层的划划分和和层的的样本本量的的分配配形式式2022/12/29101由于估估计量量的精精度实实际上上取决决于每每层样样本量量的大大小,,因此此在总总样本本量给给定的的情况况下,,对层层样本本量的的不同同分配配,其其精度度也不不同。。反之之对同同一精精度要要求,,对不不同的的样本本量分分配形形式,计算得得到的的总样样本量量也有有差异异,因因此在在确定定总样样本时时,要要求先先确定定样本本量的的分配配形式式。2022/12/29102二.估计总体均均值情形1.一般公式令其其中中已已经选选定,在调调查的目标标是估计总体均均值时时,当给定方差差V的上限或d时,2022/12/29103如果估计精精度是由误误差限的形形式给出,则这时上式可可以表示为为:由上式可得得:2022/12/29104(1)当按比例分配配时,即则则上式为为:2022/12/29105实际工作作中,n的计算可可以分两两步:先计算,,当当不不能忽忽略不计计时,再计计算:(2)当按内曼分配配时,即2022/12/29106【例3.7】(续例3.1)如果在95%置信度下,相相对误差不超超过10%,则按比例分分配和Neyman分配时,总样样本量分别为为多少?解:按比例分配时时:2022/12/291072022/12/29108对进进行修修正得得n:按Neyman分配时时:2022/12/29109(3)最优优分分配配需需要要考考虑虑费费用用时时简单单线线性性函函数数::C=将代代入入n的一一般般公公式式,得:2022/12/29110当总总费费用用C给定定时时::(P92式3.139)2022/12/291112022/12/29112第六节分分层层时的若若干问题题一.抽样效果果分析与简单随随机抽样样相比。。分层随随机抽样样的精度度与样本本量的分分配及各各层的方方差有关关。在固定样本本的情况下下,如果果相相对1可以忽略略,则分别为分分层随机机抽样最最优分配配、分层层随机抽抽样按比比例分配配、简单单随机抽抽样简单单估计的的方差。。2022/12/29113如果各层层的均值差异异越大,则用比比例分配配法较好好,而当当各层的的标准差较大时,,用最优优分配法法较好。。在调查查多个目标标量时,按比比例分配配的分层层抽样可可能更好好些。通常用比比例分配配法较多多,因为为:(1)最优分分配并不不是对每每个指标标都是最最优的。。(2)由于最优分分配时需对层标准差进行估计,估估计又不可能能十分精确,,加上计算时时样本量必须取取整数,因此理论上上的最优分配配的最小方差差并不一定能能达到。(3)而且当实际际分配偏离最最优分配时,,方差增加并并不明显。考考虑到比例分分配样本的自加权性质的简单性性,除非层标标准差异十分分明显从而考考虑最优分配配有较大的改改进,否则还还是可以采用用比例分配法法。对于最优分配配,需要各层层标准差Sh的值,可以用用调查指标的的历史数据或或通过辅助指指标的信息推推算。2022/12/291141.简单随机抽样样与分层随机机抽样的效果果比较(1)与比例分配的的分层随机抽抽样的效果比比较前提:相同样本量的情况下简单随机抽样样(对均值估计量量)的方差:比例分配的分分层随机抽样样相应估计量量的方差:2022/12/29115根据总体单单元指标的的平方和分分解,简单随机抽抽样的方差差分解如下下:层内方差层间方差2022/12/29116故若所有的都都比较大大,则从而2022/12/29117上式式右右边边的的第第二二项项是是层层间间平平方方和和,它一一定定是是非非负负的的,,因因此此有有上式式意意味味着着,,当当所所有有的的都都比比较较大大时时,,比比例例分分配配的的分分层层随随机机抽抽样样的的方方差差小小于于简简单单随随机机抽抽样样的的方方差差,,也也就就是是说说,,比比例例分分配配分分层层随随机机抽抽样样的的精精度度比比后后者者高高,,设设计计效效应应小小于于1。2022/12/29118方差差值为:这表明层平均均数的的差异越越大,分层的的效果就越好好,若层平均数都都相等,那么么分层的效果果与不分层的的一样。事实实上正因为层层间的这种变变异不进入分分层随机抽样样的方差,因因此才有分层层随机抽样精精度高于简单单随机抽样的的结果。2022/12/29119(2)与最优分配的的分层随机抽抽样的比较按定义,最优优分配的精度度应高于相同同样本量的任任何其他分配配,当然也高高于比例分配配的精度,但但最优分配在在精度上的改改进究竟有多多大?为此比比较比例分配配方差与最优优分配(内曼曼情形)方差差之差.2022/12/29120从上式式可以以看出出,最最优分分配在在精度度取决决于各各层标标准差差的差差异,,差异异越大大,最最优分分配的的效果果越好好,反反之若若各层层间标标准差差(方方差))差别别不大大,那那么最最优分分配的的效果果就不不会比比比例例分配配的效效果好好很多多。2022/12/29121使用条件件:最优分配配:各层标准准差差异异大,尤尤其是调调查多个个目标量量时。比例分配配:各层的均均值差异异大二.层的划分分基本原则则:使层内差异异尽可能能小---各层有自自己鲜明明特色,,使层间差异异明显地地较大---各层之间间有显著著不同。。在多指标标问题中中可采用用聚类分分析的手手段进行行分层,在此我们们考虑单单指标如如何分层层。2022/12/29122(一)最优分层层目的不同同,分层层方法不不同,构构造层的的原则如如下:1.若为为了便于于组织、、估计子子总体的的参数,,则按自自然层或单元元的类型型划分。。2.若是是提高抽抽样效率率,减少估计计量的方方差,则则按目标标量分分层层,但在在调查之之间目标标量是未未知的,,因此分层通常常选择一一个与调调查指较较大线性性相关的的指标来进行。。这个标标志可以以是目标标量的前前期值,,也可以完全是是另一个个变量。。2022/12/29123如何利用用一个分分层标志志具体分分层呢??实际上上也就是是说如何何确定各各层的分分点。思路:设总体分分成h层,假定与与分分别别为总体体的最小小与最大大可能值值。按数数值分层层即为在在与与之之间插上上(h-1)个分点:如果各层层的抽样样分配方方案已定定,即设设法求这这些分点点以使得得达达到最最小。2022/12/29124确定层界的的快速近似似法:累积平方根根法:由戴伦纽斯斯(Daleniues)与霍捷斯(Hodges)提出的根据据等分分层层变量分布布的累积平平方根的最最优分层方方法,简称称累积平方方根法。累积平方根根法2022/12/29125【例3.9】某地区电信信部门在对对利用电话话上网的居居民家庭安安装ADSL意愿进行调调查时,以辖区内最最近三个月月有电话上上网支出的的居民用户户为总体(上网电话费费为0.02元/分钟),并准备按上上网电话支支出(x)进行分层,,试确定各各层的分点点。2022/12/29126范围x

频数f累计0~565328255.5934255.59345~1089240298.7306554.324110~1536128190.0737744.397715~2077525278.43311022.83120~2562407249.81391272.64525~3024591156.81521429.4630~4024586221.74761651.20840~509582138.43411789.64250~6015761177.54441967.18660~708099127.27142094.45770~805676106.54582201.003不等等距距678135620342022/12/2912780~90345383.102352284.10690~100425692.26052376.366100~1501246111.62442487.99150~20080089.442722577.433200~25036560.415232637.848250~30090302667.848300~3503518.708292686.557350~40057.0710682693.628400~4501210.954452704.582450以上78.36662712.9492022/12/29128最终累计频数数是2712.949,如果取层数为为4,则应每隔分分一一层.因此应该使得得累计最最接近678.237,1356.474,2034.712,即较合理的分层是是:2022/12/29129(二)层数的的确定定层数的的增加加能提提高估估计的的精度度,但但当层层数增增加到到一定定的时时候,,在精精度上上的收收益将将很小小;若若样本本量n已确定定,由由于每每层至至少必必须抽抽取一一个样样本单单元,,因此此最多多的层层数为为n,如果果要给给出估估计量量方差差的无无偏估估计,则每层层至少少2个样本本单元元,那那么层层数不不能超超过n/2。分层时时应考考虑::1.分分层考考虑精精度的的要求求。一般以以目标标量作作为分分层指指标,但未未知知,一一般通过与与高度度相关关的辅辅助指指标来来进进行。。根据据研究究,除除非Y与X的相关关系数数,层数一一般不不超过过6为宜。。2.分分层考考虑费费用。。2022/12/29130三.事后分分层(或抽样样后分分层)前面讨讨论的的分层层抽样样是建建立在在抽样样之前前总体体已经经分好好层,但有时时这种种事先先分层层会遇遇到较较大困困难,,而我我们又又很想想利用用分层层抽样样的优优势之之处,,此时时可以以采用用事后后分层层的方方法。。适用情情况:没有层层的抽抽样框框,或或总体体特别别大来来不及及事先先分层层,或几个个变量量都适适合于于分层层。或或存存在在极大大(小)值。条件:需知各各层的的大小小或或层层权。。不适合合:层层权与与实际际情况况相差差很大大层权:用近似似层权权进行行校正正或重重新抽抽样2022/12/29131,则用估估计量量来来替代代先抽取取一个个样本本量n的简单单随机机样本本,然后后将将样样本按按某某个个特特征征进进行行分分层层,落到到第第h层的的单单元元数数为为样本本均均值值。。式式中中2022/12/29132当固固定定且且都都大大于于零零的的条条件件下下,落到到各各层层的的样样本本可可以以看看成成是是独独立立地地从从各各层层中中抽抽取取的的简简单单随随机机样样本本,这时时,事后后分分层层估估计计量量的的方方差差为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论