版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2023/1/51第三章分层随机抽样3.1概述
3.2简单估计量及其性质
3.3样本量在各层的分配
3.4回归估计量及其性质
3.5各层样本量的分配
3.6总样本量的确定2023/1/52简单随机抽样只适合小型的抽样调查:1.抽样框
2.代表性如:了解中国各民族的情况:(鄂伦春族)2023/1/53第一节概述
一.定义与作用
(一)分层抽样和分层随机抽样先将总体N个单元划分成L个互不重复的子总体,每个子
总体称为层,它们的大小分为别,这L个层合起来就是整个总体(N=)。
然后,在每个层中分别独立进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本。不重不漏2023/1/54
各层中的抽样是独立进行的,因此,在各层中所采取的抽样手段完全可以不相同,在一个层进行简单随机抽样,在另一层则可采用更复杂一些的抽样,完全视各层的情况不同而定,这种因地制宜的手段将使样本尽可能反映总体的特性以及子总体的特性。分层抽样有时也称为类型抽样或分类抽样。2023/1/55
分层随机抽样三原则:(1)每层都抽样;(2)各层都独立地抽样;(3)各层的抽样都是简单随机抽样。2023/1/56
(二)特点:1.分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。
注意:分层抽样估计量的方差只和层内方差有关,和层间方差无关。2.分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。如:消费物价指数(全国和各省)
3.层内抽样方法可以不同,而且便于抽样工作的组织。2023/1/57(三)作用可以对各层的参数进行估计,
有助于提高估计精度。2023/1/58二.使用场合
应用条件:适合于各层差异较大,有进行分层的辅助信息。
层的划分原则:1.层内单元具有相同性质,通常按调查对象的不同类型进行划分,这时,分层抽样能够对每一类的目标量进行估计。2.尽可能使层内单元的标志值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。3.既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。4.为了抽样组织实施的方便,通常按行政管理机构设置进行分层。2023/1/59如:对全国汽车货运量调查,目的是不仅要了解全国货运量,而且推算不同经济成分货运量。首先为组织方便,按省分层;各省再按经济成分分层;为提高抽样效率,再按吨位分层。2023/1/510三.符号说明层号:h(h=1,2…,L)第h层的记号如下:单元总数:样本单位数:第i个单元标志值为:
从该层中抽取的样本的单元值为:层权:抽样比:总体均值:样本均值:2022/12/2911层内方方差::样本方方差::2022/12/2912第二节节简简单估估计量量及其其性质质一.总总体均均值的的估计计(一)简单估估计量量的定定义对于分分层样样本,,对总总体均均值的的估计计是通通过对对各层层的的的估计计,按层权权加加权平平均得得到的的。公公式为为:2022/12/2913如果得得到的的是分层随随机样样本,则总体体均值值的的简简单估估计为为:(二)估计量量的性性质性质1对于一般的的分层层随机机抽样样,如果是是的的无偏偏估计计(h=1,2,…L),则是是的的无无偏估估计。。即对对各层层估计计是无无偏的的,则则对总总体的的估计计也是是无偏偏的。。的方差差为:由于各各层的的抽样样是相相互独独立的的2022/12/2914证明::因各各层抽抽样是是相互互独立立,则则也也相相互独独立,,则有有2022/12/2915性质2对于分层随随机抽抽样,是的的无无偏估估计,的方差差为:2022/12/2916性质3对于分分层随随机抽抽样,的一个个无偏偏估计计为::2022/12/2917注:当适适当的的大,,各层层样本本平均均数均均可适适用正正态近近似,,因此此一般般地也也适适用于于正态态近似似其置置信区区间。。2022/12/2918二.总体总总量的估计计(一)简单单估计量的的定义总体总量Y的估计为::分层随机样样本:(二)估计计量的性质质性质4对对于一般的分层层抽样,如果是是偏偏估估计,则是是Y的无偏估计计。的方差为::2022/12/29192022/12/2920性质5对对于分层随机抽抽样,的方差为::性质6对对于分层随随机抽样,的一个无偏偏估计为::2022/12/2921【例3.1】调查某地区区的居民奶奶制品年消消费支出出,以居民民户为抽样样单元,根根据经济及及收入水平平将居民户户划分为44层,每层层按简单随随机抽样抽抽取10户户,调查获获得如下数数据(单位位:元),,估计该地地区居民奶奶制品年消消费总支出出及估计的的标准差。。2022/12/2922样本本户户奶奶制制品品年年消消费费支支出出层居民户总数样本户奶制品年消费支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252022/12/2923解:N=200+400+750+1500=2850=10(h=1,2,3,4)各层层的的层层权权及及抽抽样样比比为为::2022/12/2924各层层样样本本均均值值及及样样本本方方差差为为::2022/12/2925该地地区区居居民民奶奶制制品品年年消消费费总总支支出出:估计计量量方方差差及及标标准准差差的的样样本本估估计计为为:2022/12/2926在95%的概概率率保保证证下下该地地区区居居民民奶奶制制品品年年消消费费总总支支出出区区间间为为:2022/12/2927【例3.2】某市市进进行行家家庭庭收收入入调调查查,分城城镇镇居居民民和和农农村村居居民民两两部部分分抽抽样样,在全全部部城城镇镇23560户中中抽抽取取300户,在全全部部农农村村148420户中中抽抽取取250户(均按按简简单单随随机机抽抽样样进进行行),调查查结结果果是是城城镇镇年年平平均均户户收收入入为为15180元,标准准差差为为2972元;;农农村村年年平平均均收收入入为为9856元,标准准差差为为2546元。。求求全全市市年年平平均均户户收收入入的的估估计计及及其其90%的置置信信区区间间。。2022/12/2928解:2022/12/29292022/12/2930全市年年户均均收入入的置置信区区间:10585.391.645142.287,即10351.33——10819.45(元)注:由于城城镇居居民与与农村村居民民收入入水平平,抽抽样比比不同同(前者大大于后后者)。如果果不分分层,,计算算样本本平均均数作作为全全市户户均年年收入入是不不合理理的:2022/12/2931三.总体比比例的的估计计(一)简单估估计量量的定定义总体比比例P的估计计为:(二)估计量量的性性质如果定定义1,第i个单元元具有有所考考虑的的特征征0,其他i=1,2…N2022/12/2932性质7对于一般的的分层层抽样样,如果果是是的无偏偏估计计(h=1,2,…L),则是是P的无偏偏估计计.的方差差为:性质8对于分层随随机抽抽样,是P的一个个无偏偏估计计,的方差差为:因为:及2022/12/29332022/12/2934性质9对于分层随随机抽样,,的的一个无无偏估计为为:2022/12/2935【例3.3】了解某地区区居民户拥拥有家庭电电脑的情况况如下,估估计该地区区家庭拥有有电脑的比比例及估计计的标准差差。样本户拥有有家庭电脑脑情况层居民户总数样本户拥有家庭电脑情况1234567891012000001000100240001000000103750110000101041500100000000
02022/12/2936解:2022/12/2937该地区家家庭拥有有电脑的的比例的的估计、、估计量量的方差差、估计计的标准准差为:2022/12/2938(三)总体具有有所考虑虑特征单单元总数数A的估计它的方差差及及方方差估计计分分别别是:2022/12/2939【例3.4】为调查某某个高血血压高发发病地区区青少年年与成年年人高血血压的患患病率,对14岁以上的的人分四四个年龄龄组进行行分层随机机抽样,调查结果果如下,求总体高高血压的的患病率率P的估计及及其标准准差的估估计。高血压患患病率调调查数据据年龄组(岁)层权层样本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.5362022/12/2940解:P的估计量为为:为求的的方差估估计,取2022/12/29413.3比率估计及及其性质(一)分别比率估估计条件:各层的样本本量都比较较大的情况下方法:各层层分别进行行比率估计计,将各层层加权汇总总得到总体体指标的估估计。(先比后加权权)总体均值和和总体体总量Y的分别比率率估计量:已知各层的均值和总量量2022/12/2942对分别比估估计,若各各层样本量量都比较大大,则有:为第h层X与Y的相关系数数注:公式中中S、R、用用样本数据据替代2022/12/2943证明:根据据比估计量量的性质,,当比比较大时时,则有::所以2022/12/2944总量:2022/12/2945(二)联合比率估估计条件:各层的样本本量不是都都很大的情况方法:先分分别对作作分层估估计,然后后再采用比比估计方法法。(先加加权后比))总体均值和和总体体总量Y的联合比率率估计量::已知总体的均值和总量量2022/12/2946的均均方方误误差差为为:对联联合合比比估估计计,,若若总总样样本本量量n比较较大大,,则则有有:证明明::p75注意意与与分分别别比比估估计计方方差差公公式式的的差差异异(Rh)2022/12/2947(三)分别别比比率率估估计计量量与与联联合合比比率率估估计计量量的的比比较较如果果各层层的的样样本本量量都都较较大大,且且有有理理由由认认为为各层层的的比比率率差差异异较较大大,则则分别别比比率率估估计计优于于联联合合比比率率估估计计。。当各层层的的样样本本量量不不大大,或或各层层比比率率差差异异很很小小,则则联合合比比率率估估计计更好好些些。。【例4.4】】某市市1996年对对950家港港口口生生产产单单位位完完成成的的吞吞吐吐量量进进行行了了调调查查,,1997年欲欲对对全全市市港港口口生生产产单单位位完完成成的的吞吞吐吐量量进进行行抽抽样样调调查查。。对对港港口口生生产产单单位位按按非非国国有有(h=1)和国国有有(h=2)分为为两两层层,,单单位位数数分分别别为为800家和和150家,,分分别别在在两两层层中中调调查查了了10家、、15家港港口口生生产产单单位位,,调调查查数数据据如如下下表表,,试试估估计计1997年全全市市港港口口生生产产单单位位完完成成的的吞吞吐吐量量。。2022/12/29491997年非非国国有有和和国国有有企企业业调调查查数数据据ii195801495530222021022103203359384336049641201174230400517718056006516253258610008807302349770056083322868110012309272215972082310137971031039011478465接上上表表128176501391911601411601070157356982022/12/2951h=1,非国有H=2,国有合计1015258001509500.8421050.15789510.01250.1171400102900274300214.25686226.7655.6217.6688.28477.34494665.2610704.7182541.899072.281071.510.9598591.0497252022/12/29521.按分别比比率估计计量估计计:2022/12/29532.按联合比比率估计计量估计计2022/12/2954两种途径径:分别回归归估计::对每层样样本分别别求取回回归估计计量,然然后对各各层的回回归估计计量进行行加权平平均,即即先“回回归”后后“加权权”;联合回归归估计::对两个变变量先分分别计算算出总体体总值或或总体均均值的分分层简单单估计量量,然后后再对它它们的分分层估计计量来构构造回归归估计,,即先““加权””后“回回归”。。3.3回归估计计量及其其性质分别回归归估计量量同样要要求每层层的样本本量都比比较大,,如果达达不到这这个要求求,加之之各层的的简单随随机抽样样误差较较大,整整个分层层随机抽抽样就会会产生较较大的偏偏差,这这时要使使用联合合比估计计量。2022/12/29563.3分层随随机抽抽样下下的回回归估估计(一)分别回回归估估计适用:各层样样本量量不小小的情情况方法:先对各各层的的平均均数或或总和和作回回归估估计,,然后后按层层权平平均或或相加加,得得到总总体指指标的的估计计。(先先回归归再加加权))定义3.6分别回回归估估计是是指在在分层层随机机抽样样中,,先在在每层层中对对层均均值或或层总总和做做回归归估计计,然然后再再对各各层的的回归归估计计按总总体层层权进进行加加权平平均。。对的的分别别回归归估计计为::2022/12/2957总体均均值的的分别别估计计量::总体总总量的的分别别估计计量::1、当各各层的的回归归系数数为给给定的的常数数时,,分别别估计计量是是无偏偏的,,其方方差为为:2022/12/2958并且当当时时,达到最最小,即2、通常常未未知,可以用用样本本回归归系数数作作为为的的估估计:这时分分别估估计量量是有有偏的的,但但当每每一层层的样样本量量2022/12/2959都较大大时,,估计计的偏偏倚可可以忽忽略,,其方方差近近似为为:方差的的样样本估估计为为:式中,第h层样本本相关关系数数的平平方2022/12/2961(二)联合回回归估估计条件::各层层样本本量不不大联合回回归估估计是是对作作分分层估估计;;然后后构造造总体体均值值和总总量的的联合合估计计量。。(先分分层再再回归归)总体均均值、、总量量的联联合估估计量量:其中::2022/12/29621、当回归归系数为为事先给给定的常常数时,,联合估估计量是是无偏的的,其方方差为::2022/12/2963当取取时,达到最小小。2、当回归归系数未未知时,,取为为的的样本本估计::第h层样本相相关系数数的平方方2022/12/2965这时联合合估计是是有偏的的,但当样本本量n较大时,估计量的的偏倚趋趋于零,回归估计计是渐近近无偏的的,且方差的的样样本估计计为:2022/12/2966(三)分别回归归估计与与联合回回归估计计的比较较当回归系系数事先设定定时,分别别回归估估优于联联合回归归估计,,尤其在在各层回归归系数相相差较大大时,分分别回归归估计更更好。当回归系系数由样本估计计时,如果果各层的的样本量不太小,,且各层层的回归系数数相差较大大,还是是采用分分别回归归估计为为宜。若若各层的的样本量量不太大大,且各各层的回回归系数数大致相相同,则则采用联联合回归归估计较较好。若若层内的的回归系系数差别别不太大大,而每每层的样样本量并并非都相相当大时时,联合合回归估估计可能能更保险险些。2022/12/2967【例4.6】P45:(续前前例例)利用用回回归归估估计计量量估估计计该该市市港港口口生生产产单单位位1997年完完成成的的吞吞吐吐量量。。解:样本本回回归归系系数数:(1)按分分别别回回归归估估计计量量估估计计:=163421.10+107135.19=270556.30h=1,非国有h=2,国有1.070170.8564022022/12/2968(2)按联联合合回回归归估估计计量量估估计计:2022/12/29692022/12/2970小结比估计量与与回归估计计量的异同同:1.从形式上看看,比估计计量是一个个简单估计计量的的线性组组合,而回回归估计量量两个简单单估计量的的线线性组合;;但实质上上都是利用用两个简单单估计量和和辅助变量量来估计总总体指标。。2.比估计量借借助主要变变量与辅助助变量之间间的比值关关系;回归归估计量借借助两者之之间的线性性相关关系系。2022/12/2971第四节样样本量量在各层的的分配简单随机抽抽样只需要要根据调查查精度的要要求与费用用的限制来来确定抽样样容量的大大小,而分分层抽样则则提出另一一个重要的的问题,一一旦确定n,又如何在在各层中分分配抽样容容量,,其其中有些问问题要考虑虑,比如在在各层中各各有精度的的要求以及及费用的限限制,由于于各层具有有各自的鲜鲜明特征,,其花费自自然不同,,因而在样样本容量分分配上必须须带有经济济观点。另另一个重要要考虑因素素是由于的的不同而带带来数据处处理的困难难。样本量的分分配必须尽尽可能地使使估计量及及其方差具具有较简单单的形式,,从而使数数据汇总工工作量小,,做到省时时省力。2022/12/2972样本量分配配对精度的的影响2022/12/2973某个总总体分分为三三层,,其层层权及及层标标准差差见见下下表,,设总总样本本量为为300,考虑虑四种种不同同的样样本量量分配配,并并计算算出每每一种种分配配下,,总体体均值值估计计量的的方差差:样本量量的不不同分分配对对方差差的影影响h常数分配与成正比与成正比与成正比10.22010049604020.330100110909030.5341001411501703.863.113.093.002022/12/29742022/12/2975(一)比例分分配((proportionalallocation)即在分分层抽抽样中中,若若每层层的样样本量量nh都与层层的大大小Nh成比例例,即即也就是是按各各层的的层权权进行行分配配,即即大的的子总总体多多抽一一些,,小的的子总总体少少抽一一些。。比例分分配时时,也也与与层权权成成比例例。简单随随机抽抽样中中总体体的每每一个个单元元入样样的概概率即即为抽抽样比比f。因而而按比例分分配而在各各层中中进行行简单随随机抽抽样的分层层方法法,任任何一一层中中的样样本被被抽中中的概概率都都为f。因此此比例例分配配的分分层随随机抽抽样是是一种种等概率率抽样。。或2022/12/2976总体均均值的的估估计是是:显然估估计量量有相相当简简单的的形式式。2022/12/2977自加加权权::如果果总总体体总总量量(或均均值值)的无无偏偏估估计计量量可可以以写写成成样样本本观观测测值值的的总总和和(或平平均均数数)的常常数数倍倍((如如::Y=ky或)),,那那么么这这种种样样本本(或估估计计量量)称作作自加加权权的或或等加加权权的。。按比比例例分分配配的的分分层层抽抽样样就就是是自自加加权权的的。。简简单单随随机机抽抽样样(放回回的的和和不不放放回回的的)也是是自自加加权权的的。。2022/12/2978的方方差差为为:注意:是各层方差按层权的加权平均!2022/12/2979二.最优优分分配配(一)最优优分分配配在分分层层随随机机抽抽样样中中,,在在总总费费用用给给定定的的条条件件下下,,估估计计量量的的方方差差达达到到最最小小;;或或在在给给定定估估计计量量方方差差的的条条件件下下,,使使总总费费用用最最小小的的各各层层样样本本量量的的分分配配称称为为最最优优分分配配(optimumallocation)。简单单线线性性费费用用函函数数::2022/12/2980建立目目标函函数::根据柯柯西-许瓦兹兹(Cauchy-Schwarz)不等等式,,对于于任意意的,有通过极极小化化目标标函数数,可可同时时达到到给定定方差差下费费用最最小和和给定定费用用下方方差最最小的的效果果。2022/12/2981当且仅当(K为常数)时,上式等等号成立。。所以对于于目标函数数则有:上式成立的的条件是:2022/12/2982所以则使目标函数数达到最小小时的最优优分配为::2022/12/2983上式表明,,越越大(即层越大),则层内抽抽样应越多多;又若越越大(即层内变差差越大),则层内抽抽样也应越越多;但如如果越越大大(即层内平均均每单元费费用越大),则在该层层中的抽样样应少一些些。即最优优分配的与与或或成成正比,与与成成反比比。2022/12/2984由此得出下下面的行为为准则,如如果某一层层:单元数较多多内部差异较较大费用比较省省则对这一层层的样本量量分配较多多些。2022/12/2985(二)Neyman(内曼)分配条件:如如果果每层抽抽样的费费用相同同,即时时,最优优分配可可简化为为:将代代入即即得::2022/12/2986达到最小:【例3.5】(续例3.1)p69如果样本本量为n=40,则按比例例分配和和Neyman分配,各层的样样本量应应为多少少?解:按比例分分配时,各层的样样本量为为:即各层的的样本量量分别为为:3,6,11,20(公式计计算结果果如果带带小数,,这时样样本容量量不按四四舍五入入法则取取整数,,取比这个个数大的的最小整整数代替替。如:n=56.03则n=57)2022/12/2987按Neyman分配:2022/12/2988各层的样样本量为为:即各层的的样本量量分别为为:3,7,23,7。2022/12/2989【例3.6】在例例3.2中若若固固定定n=550不变变,城镇镇居居民民与与农农村村居居民民年年收收入入的的标标准准差差估估计计分分别别为为元,元,对城城镇镇居居民民与与农农村村居居民民抽抽样样平平均均每每户户的的费费用用比比1:2,试求求城城镇镇与与农农村村两两层层比比例例分分配配与与最最优优分分配配的的样样本本量量。。又又若若不不考考虑虑费费用用因因素素,那么么最最优优分分配配的的结结果果又又有有何何变变化化?如何何计计算算呢呢??2022/12/2990解::城镇镇与与农农村村居居民民年年收收入入调调查查样样本本量量分分配配的的计计算算h12356000411.021484200.863250022157.51525.61719802568.51936.62022/12/2991(1)比例分分配(2)最优分分配(3)内曼分分配2022/12/2992不考虑虑费用用的内内曼分分配在在农村村的样样本量量比考考虑费费用的的最优优分配配在农农村的的样本本量更更大。。这是是因为为农村村调查查费用用较高高,因因此最最优原原则是是适当当增加加城镇镇样本本量,,减少少农村村样本本量。。2022/12/2993(三)某些些层层要要求求大大于于100%抽样样时时的的修修正正按最最优优分分配配时时,,当当某某些些层层的的标准准差差特特别别大大,而而层层的的大大小小相相对对指指定定的的总总样样本本量量n又小小很很多多,,若若加加上上对对这这些些层层抽抽样样的的平平均均单单位位费费用用又又很很低低,,而而抽样样比比f比较较大大,则则可可能能出出现现按按最最优优分分配配计计算算的的这这个个层层的的样样本本量量超超过过的的情情况况。。实际际工工作作中中,,如如果果第第k层出出现现这这种种情情况况,,最最优优分分配配是是对对这这个个层层进进行行100%的抽抽样样,,即即取取,,然然后后,,将将剩剩下下的的样样本本量量按按最最优优分分配配分分到到各各层层。。2022/12/2994以不不考考虑虑费费用用的的内内曼曼分分配配为为例例,,实实际际操操作作步步骤骤如如下下::2022/12/2995在这这种种情情况况下下,,对对于于方方差差的的一一般般公公式式,,可可以以直直接接将将修修正正后后的的最最优优分分配配所所得得的的带带入入,,而而内内曼曼分分配配最最小小方方差差公公式式则则需需必必要要的的调调整整::其中中,,是是仅仅对对最最后后实实际际分分配配的的样样本本量量严严格格小小于于的的各各层层求求和和,,也也只只是是这这些些层层中中抽抽取取的的单单元元总总数数。。修正正的的含含义义可可理理解解为为::因因为为对对于于那那些些实实施施普普查查(())的的层层来来说说,,已已经经不不存存在在所所谓谓的的抽抽样样误误差差了了,,自自然然需需要要从从原原来来的的公公式式中中将将它它们们舍舍去去。。2022/12/2996【例3.7】某个模拟拟的总体体分为4层,和和的的值见下下表,设设n=80,请问该该如何进进行内曼曼分配??一个模拟拟总体的的分配情情况h154002000210500500032001020004400208000合计615—170002022/12/2997解:计算各层层的样本本量:(1)第一层层样本量量的分配配:而,,可见,,则则(2)将个个待分配配的样本本量分到到2—4层:2022/12/2998而,,可可见,,则(3)将个个待待分配的的样本量量分到3、4层:因为,,,,所以以(4)将个待分配配的样本本量分到到第4层:2022/12/2999因为,,,,所所以因此,各各层所分分配的样样本量是是:5,10,13,52此时上题题计算总总体均值值估计量量的最小小方差为为:对第三三、四四层计计算2022/12/29100第五节节总总样样本量量的确确定一.影响样样本总总量n的因素素1.估计量量精度度的要要求:(1)对总体体参数数估计计的精精度(2)对各层层参数数估计计的精精度2.费用的的限制制(1)总费用用的限限制(2)不同层层中平平均抽抽取一一个单单元的的费用用3.层的划划分和和层的的样本本量的的分配配形式式2022/12/29101由于估估计量量的精精度实实际上上取决决于每每层样样本量量的大大小,,因此此在总总样本本量给给定的的情况况下,,对层层样本本量的的不同同分配配,其其精度度也不不同。。反之之对同同一精精度要要求,,对不不同的的样本本量分分配形形式,计算得得到的的总样样本量量也有有差异异,因因此在在确定定总样样本时时,要要求先先确定定样本本量的的分配配形式式。2022/12/29102二.估计总体均均值情形1.一般公式令其其中中已已经选选定,在调调查的目标标是估计总体均均值时时,当给定方差差V的上限或d时,2022/12/29103如果估计精精度是由误误差限的形形式给出,则这时上式可可以表示为为:由上式可得得:2022/12/29104(1)当按比例分配时,即则则上式式为:2022/12/29105实际工作中中,n的计算可以以分两步:先计算,,当当不不能忽忽略不计时,再计算算:(2)当按内曼分配时,即2022/12/29106【例3.7】(续例3.1)如果在95%置信度下,,相对误差差不超过10%,则按比例例分配和Neyman分配时,总总样本量分分别为多少少?解:按比例分配配时:2022/12/291072022/12/29108对进进行行修修正正得得n:按Neyman分配配时时:2022/12/29109(3)最优优分分配配需需要要考考虑虑费费用用时时简单单线线性性函函数数::C=将代代入入n的一一般般公公式式,得:2022/12/29110当总费用C给定时:(P92式3.139)2022/12/291112022/12/29112第六节分分层时的的若干问题题一.抽样效果分分析与简单随机机抽样相比比。分层随随机抽样的的精度与样样本量的分分配及各层层的方差有有关。在固定样本的情况下,,如果相相对1可以忽略,,则分别为分层层随机抽样样最优分配配、分层随随机抽样按按比例分配配、简单随随机抽样简简单估计的的方差。2022/12/29113如果各层的的均值差异越越大,则用比例例分配法较较好,而当当各层的标准差较大时,用用最优分配配法较好。。在调查多个目标量量时,按比例例分配的分分层抽样可可能更好些些。通常用比例例分配法较较多,因为为:(1)最优分配配并不是对对每个指标标都是最优优的。(2)由于最优优分配时需需对层标准差进行估计,,估计又不不可能十分分精确,加加上计算时时样本量必须须取整数,因此理论论上的最优优分配的最最小方差并并不一定能能达到。(3)而且当实实际分配偏偏离最优分分配时,方方差增加并并不明显。。考虑到比比例分配样样本的自加权性质的简单单性,除非非层标准差差异十分明明显从而考考虑最优分分配有较大大的改进,,否则还是是可以采用用比例分配配法。对于最优分分配,需要要各层标准准差Sh的值,可以以用调查指指标的历史史数据或通通过辅助指指标的信息息推算。2022/12/291141.简单随机抽抽样与分层层随机抽样样的效果比比较(1)与比例分配配的分层随随机抽样的的效果比较较前提:相同样本量量的情况下简单随机抽抽样(对均值估计计量)的方差:比例分配的的分层随机机抽样相应应估计量的的方差:2022/12/29115根据总总体单单元指指标的的平方方和分分解,简单随随机抽抽样的的方差差分解解如下下:层内方方差层间方方差2022/12/29116故若所有的的都都比比较大大,则从而2022/12/29117上式右右边的的第二二项是是层间间平方方和,它一定定是非非负的的,因因此有有上式意意味着着,当当所有有的都都比比较大大时,,比例例分配配的分分层随随机抽抽样的的方差差小于于简单单随机机抽样样的方方差,,也就就是说说,比比例分分配分分层随随机抽抽样的的精度度比后后者高高,设设计效效应小小于1。2022/12/29118方差差差值为为:这表明明层平平均数数的的差异异越大大,分分层的的效果果就越越好,若层平平均数数都相相等,,那么么分层层的效效果与与不分分层的的一样样。事事实上上正因因为层层间的的这种种变异异不进进入分分层随随机抽抽样的的方差差,因因此才才有分分层随随机抽抽样精精度高高于简简单随随机抽抽样的的结果果。2022/12/29119(2)与最优优分配配的分分层随随机抽抽样的的比较较按定义义,最最优分分配的的精度度应高高于相相同样样本量量的任任何其其他分分配,,当然然也高高于比比例分分配的的精度度,但但最优优分配配在精精度上上的改改进究究竟有有多大大?为为此比比较比比例分分配方方差与与最优优分配配(内内曼情情形))方差差之差差.2022/12/29120从上式可可以看出出,最优优分配在在精度取取决于各各层标准准差的差差异,差差异越大大,最优优分配的的效果越越好,反反之若各各层间标标准差((方差))差别不不大,那那么最优优分配的的效果就就不会比比比例分分配的效效果好很很多。2022/12/29121使用条件件:最优分配配:各层标准准差差异异大,尤尤其是调调查多个个目标量量时。比例分配配:各层的均均值差异异大二.层的划分分基本原则则:使层内差异异尽可能能小---各层有自自己鲜明明特色,,使层间差异异明显地地较大---各层之间间有显著著不同。。在多指标标问题中中可采用用聚类分分析的手手段进行行分层,在此我们们考虑单单指标如如何分层层。2022/12/29122(一)最优分层层目的不同同,分层层方法不不同,构构造层的的原则如如下:1.若为为了便于于组织、、估计子子总体的的参数,,则按自自然层或单元元的类型型划分。。2.若是是提高抽抽样效率率,减少估计计量的方方差,则则按目标标量分分层层,但在在调查之之间目标标量是未未知的,,因此分层通常常选择一一个与调调查指较较大线性性相关的的指标来进行。。这个标标志可以以是目标标量的前前期值,,也可以完全是是另一个个变量。。2022/12/29123如何利用用一个分分层标志志具体分分层呢??实际上上也就是是说如何何确定各各层的分分点。思路:设总体分分成h层,假定与与分分别别为总体体的最小小与最大大可能值值。按数数值分层层即为在在与与之之间插上上(h-1)个分点:如果各层层的抽样样分配方方案已定定,即设设法求这这些分点点以使得得达达到最最小。2022/12/29124确定层界界的快速速近似法法:累积平方方根法:由戴伦纽纽斯(Daleniues)与霍捷斯斯(Hodges)提出的根根据等分分分层变变量分布布的累积积平方根根的最优优分层方方法,简简称累积积平方根根法。累积平方方根法2022/12/29125【例3.9】某地区电信信部门在对对利用电话话上网的居居民家庭安安装ADSL意愿进行调调查时,以辖区内最最近三个月月有电话上上网支出的的居民用户户为总体(上网电话费费为0.02元/分钟),并准备按上上网电话支支出(x)进行分层,,试确定各各层的分点点。2022/12/29126范围x
频数f累计0~565328255.5934255.59345~1089240298.7306554.324110~1536128190.0737744.397715~2077525278.43311022.83120~2562407249.81391272.64525~3024591156.81521429.4630~4024586221.74761651.20840~509582138.43411789.64250~6015761177.54441967.18660~708099127.27142094.45770~805676106.54582201.003不等距678135620342022/12/2912780~90345383.102352284.10690~100425692.26052376.366100~1501246111.62442487.99150~20080089.442722577.433200~25036560.415232637.848250~30090302667.848300~3503518.708292686.557350~40057.0710682693.628400~4501210.954452704.582450以上78.36662712.9492022/12/29128最终累计计频数是是2712.949,如果取层层数为4,则应每隔隔分分一层层.因此应该该使得累累计最最接近678.237,1356.474,2034.712,即较合理的分分层是:2022/12/29129(二)层数数的的确确定定层数数的的增增加加能能提提高高估估计计的的精精度度,,但但当当层层数数增增加加到到一一定定的的时时候候,,在在精精度度上上的的收收益益将将很很小小;;若若样样本本量量n已确确定定,,由由于于每每层层至至少少必必须须抽抽取取一一个个样样本本单单元元,,因因此此最最多多的的层层数数为为n,如如果果要要给给出出估估计计量量方方差差的的无无偏偏估估计计,则每每层层至至少少2个样样本本单单元元,,那那么么层层数数不不能能超超过过n/2。分层层时时应应考考虑虑::1..分分层层考考虑虑精精度度的的要要求求。。一般般以以目目标标量量作作为为分分层层指指标标,但未未知知,,一一般般通过过与与高高度度相相关关的的辅辅助助指指标标来来进进行行。。根根据据研研究究,,除除非非Y与X的相相关关系系数数,层数数一一般般不不超超过过6为宜宜。。2..分分层层考考虑虑费费用用。。2022/12/29130三.事后后分分层层(或抽抽样样后后分分层层)前面面讨讨论论的的分分层层抽抽样样是是建建立立在在抽抽样样之之前前总总体体已已经经分分好好层层,但有有时时这这种种事事先先分分层层会会遇遇到到较较大大困困难难,,而而我我们们又又很很想想利利用用分分层层抽抽样样的的优优势势之之处处,,此此时时可可以以采采用用事事后后分分层层的的方方法法。。适用用情情况况:没有有层层的的抽抽样样框框,,或或总总体体特特别别大大来来不不及及事事先先分分层层,或几几个个变变量量都都适适合合于于分分层层。。或或存存在在极极大大(小)值。。条件件:需知知各各层层的的大大小小或或层层权权。。不适适合合::层层权权与与实实际际情情况况相相差差很很大大层权权:用近近似似层层权权进进行行校校正正或或重重新新抽抽样样2022/12/29131,则用用估估计计量量来来替替代代先抽抽取取一一个个样样本本量量n的简简单单随随机机样样本本,然后后将将
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临床重点专科申报书申报书-超声影像科
- 2024年地区间货物调度合同
- 2024年多功能设备维修协议
- 2024年商业地产测绘合作协议
- 2024年个人租房协议规范文本
- 2024年全新版宠物猫领养合同
- 2024年亚洲至欧洲集装箱货物销售合同
- 2024年共营服装品牌合作合同
- 2024年专用:金融机构合同管理策略精粹
- 2024年修订版:住宅物业租赁合同
- 跌倒的护理 (养老护理员培训课件)
- 船舶租赁尽职调查
- 统编教学小学语文课外阅读《细菌世界历险记》导读课课件
- 植物生理学-植物的逆境生理
- 【课件】比的基本性质
- 小学英语人教新起点五年级上册Unit3Animalsunit3storytime
- 2023年江苏省淮安市中考化学试卷
- 医疗质量管理与持续改进工作记录
- 小学英语名师工作室工作计划2篇
- 中国旅游嘉兴风土人情城市介绍旅游攻略PPT图文课件
- 出口退税培训课件
评论
0/150
提交评论