抽样技术-第三章ppt课件_第1页
抽样技术-第三章ppt课件_第2页
抽样技术-第三章ppt课件_第3页
抽样技术-第三章ppt课件_第4页
抽样技术-第三章ppt课件_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 分层随机抽样 3.1 概述3.2 简单估计量及其性质3.3 比率估计量及其性质3.4 回归估计量及其性质3.5 各层样本量的分配3.6 总样本量确实定3.7 分层抽样的其他方面.第一节 概述定义3.1 层:假设一个包含个单位的总体可以分成“不重不漏的个子总体,亦即每个单元必属于且仅属于一个子总体,那么称这样的子总体为层stratum设个子总体所包含的单位数分别为,那么有:.定义3.2 分层抽样stratified sampling:又称为类型抽样或分类抽样,即抽样在每一层中独立进展,总的样本由各层样本组成,总体参数那么根据各层样本参数的汇总做出估计,这种抽样就称为分层抽样,所得样本称为

2、分层样本。设总的样本量为,从个子总体中所抽取的样本量分别为,那么有:. 定义3.3 分层随机抽样stratified random sampling:假设每层中的抽样都是独立地按照简单随机抽样进展的,那么这样的分层抽样称为分层随机抽样,所得的样本称为分层随机样本stratified random sample。.二、作用由于每层都进展抽样,这就可使样本在总体中分布更加均匀,从而具有更好的代表性。由于抽样在每一层中独立进展,所以一者允许各层选择不同的适宜本层的抽样方法,二那么可同时对各子总体层进展参数估计,而不单是对整个总体的参数进展估计。由于各层的总体方差因单元之间差别小而一定小于整个总体的方

3、差,而抽样精度与此成正比,所以分层抽样可以提高参数估计的精度。.三、符号一切总体参数的估计量都采用下标“st以示区别:.第二节 简单估计量及其性质一、对总体均值的估计分层样本,总体均值 的估计分层随机样本,总体均值 的简单估计 .估计量的性质 性质1&2:对于普通的分层抽样,假设 是 的无偏估计 ,那么 是 的无偏估计。 的方差为:只需对各层估计无偏,那么总体估计也无偏。各层可以采用不同的抽样方法,只需相应的估计量是无偏的,那么对总体的推算也是无偏的。.证明性质1 由于对每一层有 因此, 估计量的方差 由于各层是独立抽取的,因此上式第二项中的协方差全为0,从而有 . 性质3:对于分层随机抽样,

4、 是 的无偏估计, 的方差为: .证明性质3: 对于分层随机抽样,各层独立进展简单随机抽样,对每一层有 因此,由性质1,有 由第二章性质2,得 因此 . 性质4:对于分层随机抽样, 的一个无偏估计为: .证明性质4: 对于分层随机抽样,各层独立进展简单随机抽样,由第二章性质3,得 的无偏估计为: 因此, 的一个无偏估计为: .二、对总体总量的估计 总体总量 的估计为: 假设得到的是分层随机样本,那么总体总量的简单估计为: .2.估计量的性质性质1:对于普通的分层抽样,假设是 的无偏估计,那么 是 的无偏估计。 的方差为:.性质2:对于分层随机抽样, 的方差为:.性质3:对于分层随机抽样, 的一

5、个无偏估计为: .例3.1 调查某地域的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入程度将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据单位:元,要估计该地域居民奶制品年消费总支出及其95%的置信区间。层居民户总数样本户奶制品年消费支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025.同理,求得:. 三、对总体比例的估计 总体比例P的估计为: 估计量的性质 性质1:对于普通的分层

6、抽样,假设 是 的无偏估计 ,那么 是 的无偏估计。 的方差为:.性质2:对于分层随机抽样, 是 的无偏估计,因此 的方差为: . 性质3:对于分层随机抽样, 的一个无偏估计为:.第三节 比率估计量及其性质先“比后“加权,此时所得的估计量称为分别比估计separate ratio estimator先 “加权后“比,这样所得的估计量称为结合比估计combined ratio estimator.分别比估计定义3.4 总体均值 和总体总量 的分别比估计为:.定理3.5 对于分层随机抽样的分别比估计,假设各层的样本量 都比较大,那么有.证明根据比估计量的性质,当 比较大时,有.结合比估计定义3.5

7、 总体均值 和总体总量 的结合比估计为:.定理3.6 对于分层随机抽样的结合比估计,假设总样本量比较大,那么有.分别比估计与结合比估计的比较.1当 ,即 或 分别比估计的精度与结合比估计的精度是一样的。2)当 ,即 ,分别比估计的精度不低于结合比估计的精度。3当 且 ,这意味着分别比估计的精度要高于结合比估计的精度。.4当 且 , 或 且 ,结合比估计的精度要高于分别比估计的精度。5当 ,即比估计量的方差小于简单估计量的方差时,需视详细情况而定。 .第四节 回归估计量及其性质与比估计类似,将回归估计的思想与技术用于分层随机样本时,同样有两种可行的方法:先“回归后“加权,此时所得的估计量称为分别

8、回归估计;先“加权后“回归,这时所得的估计量称为结合回归估计.3.4.1分别回归估计定义3.6分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进展加权平均。.1. 各层的回归系数h事先给定. 2.不能事先设定各层的回归系数h.式中,是第h层样本相关系数的平方.3.部分层的回归系数不能事先设定分别按照上述方式求出“回归系数不能事先设定的层与“回归系数可事先设定的层各自的,然后按照各层的总体权数等于其中各层的权数之和加权得到分别回归估计量同样要求每层的样本量都比较大;当各层的样本量不够大时,采用结合回归估计的效果更好一些.3.4.2结合回归估

9、计.1.当为事先设定的常数时.2.当回归系数不能事先设定时.3.4.3 分别回归估计与结合回归估计的比较.经化简得:.例3.3知某公司普通职员(包括办事员和保管人员)及高级管理(经理)人员刚进入公司时的工资总额,欲经过抽样调查估计当前该公司职员的工资总额Y。抽样按照普通职员层与高管层进展分层随机抽取。普通职员层抽取n1=15名职员,高管层抽取n2=10名职员。同时还知道普通职员层人员总数N1=390名,该类职员进入公司时工资总额为X1=5 523 965元;高管层人员总数N2=84名,该类职员进入公司时工资总额为X2=2 541 660元。经过分层随机抽样调查所得的数据如表35所示。请对上述数

10、据分别按照分别比估计、结合比估计、分别回归估计、结合回归估计以及差估计方法对该公司当前职员工资总额Y做出估计,同时计算出各个估计量的精度。.根据表36中的相关数据可得:1分别比估计:所以.2结合比估计所以 所以 .3分别回归估计用样本回归系数来估计所以 .4结合回归估计所以 .5差估计或设定为常数1所以 .五种估计方法结果比较.留意:此时的比估计和回归估计(回归系数采用样本回归系数进展估计)均为有偏估计,并且思索到各层的样本量都不大,回归估计的偏倚有能够更大,所以此时采用比估计,特别是结合比估计会更保险。 而差估计虽然规范差相对较大,但它却是无偏的,均方误差并不一定大,所以依然有采用的价值。.

11、3.4.4 比率估计与回归估计小结在分层随机抽样中,当辅助变量可加以利用时,为了提高估计量的精度,可以采用分别比估计、结合比估计、分别回归估计以及结合回归估计等估计方法。在比估计中, 当各层样本量都较大时,分别比估计与结合比估计近似无偏;当某些层的样本量不够大,而总样本量较大时,结合比估计近似无偏。在回归估计中,少数情况下,回归系数可以是事先设定的常数,其估计量无偏;多数情况下,回归系数需利用样本回归系数进展估计,其估计有偏,但在大样本的情况下近似无偏。当Y与X高度相关时,分别比估计、结合比估计、分别回归估计以及结合回归估计等估计等产生的估计量都是有效的。.选择估计方法,大致需遵照的原那么在选

12、择估计方法时,大致需遵照下面的原那么:(1)由于分别估计(无论是分别比估计还是分别回归估计)要求各层的样本量都比较大,所以当某些层的样本量不够大时,建议采用结合估计(2)当回归系数需求由样本进展估计时,回归估计量是有偏的。 在这种情况下,采取比估计尤其是结合比估计也许更保险(3)假设各层的样本量都比较大,同时每层的比估计或回归估计也比较有效即h均比较大,而且各层的Rh之间或h之间差别较大,那么此时分别估计优于结合估计,估计量的方差更小.(4) 假设各层的样本量不大,而且各层的Rh之间(或h之间)差别较小,那么采用结合估计较为适宜(5) 假设各层的Rh之间(或h之间)差别不是太大,而且并不是每层

13、的样本量都相当大,那么结合估计能够更保险一些假设各层的回归系数都接近于1,那么可以采用差估计。虽然有时差估计量的方差偏大,但由于它为无偏估计量,所以总的均方误差不一定大.第五节 各层样本量的分配 确定样本量:总的样本量,各层样本量估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。.实践任务中有不同的分配方法,可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差到达最小、费用最小。 .一、比例分配 按各层单元数占总体单元数的比例,也就是按各层的层权进展分配.对于分层随机抽样,这时总体均值的估计是自加权.总体中的任一个单元,不论它在哪一个层,都以同样的概率入样,因此按比例分

14、配的分层随机样本,估计量的方式特别简单。这种样本也称为自加权的样本。总体比例的估计是 .二、最优分配 一最优分配在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差到达最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。.定理3.7的证明对一切层成立时, 到达极小 常数.简单线性费用函数,总费用由此得出下面的行为准那么,假设某一层单元数较多内部差别较大费用比较省那么对这一层的样本量要多分配一些。.三 Neyman内曼最优分配假设每层抽样的费用一样,最优分配可简化为这种分配称为Neyman分配。这时, 到达最小。 .例3.4 某市有甲、

15、乙两个地域,现要进展家庭收入的调查。令n=500,知甲地域共有20 000户居民,乙地域共有50 000户居民;甲地居民和乙地居民年收入规范差估计分别为S1=2 500,S2=2 000;同时对甲地和乙地每户的平均抽样费用之比为23,请分别计算出在甲地和乙地进展比例分配、普通最优分配(思索费用要素)以及内曼分配(不思索费用要素)的样本量。.四、某些层要求大于100%抽样时的修正 按最优分配时,有时抽样比f较大,某个层的 又比较大,那么能够出现按最优分配计算的这个层的样本量 超越 的情况。实践任务中,假设第 k 层出现这种情况,最优分配是对这个层进展100%的抽样,即取 ,然后,将剩下的样本量

16、按最优分配分到各层。 .五、偏离最优分配时对精度的影响.例3.6.第六节 总样本量确实定 令 当方差 给定时 .当按比例分配时, 实践任务中,n的计算可以分为两步,先计算:然后进展修正: .当按Neyman分配时, .2、精度要求是以 的绝对误差限d(在给定的置信程度1-下)的方式给出的.3.精度要求以 的相对误差限r(在给定的置信程度1-下)的方式给出.例3.7.二、总费用给定时总样本量确实定给定V时.给定C时.第七节 分层抽样的其他方面 一、多重分层定义当调查目的与两个或多个辅助变量x1,x2,都存在相关关系时,为了提高分层的效益,需求按每一个辅助变量进展分层,通常的做法是先按最主要的变量

17、分成大层,在大层中再按第二主要变量分成子层,从而构成交叉分层。当存在多个分层变量时,这种分层方式即称为多重分层(multiple stratification)。.对于多重分层,当“子层划分好以后,就要思索样本量在各子层的分配问题。最简单常用的样本量分配方法是按照与每一子层大小成比例的原那么进展分配。在多重分层中,有时会出现这样一个问题:当总样本量n相对于子层总数RC不够大时,会出现某些子层分配不到样本的情况。 假设nmax (R,C),那么此时该当思索重新确定分层变量或者不采用分层抽样,否那么这种分层的效益是很难保证的。 假设nRC,同时还满足nmax (R,C),就可以思索用实验设计的思想来进展样本量的分配。.二、事后分层 实践任务中,有时进展事先分层会存在一定的困难各层的抽样框无法得到几个变量都适宜于分层,要进展事先的交叉分层比较困难,并且我们并不需求交叉分层后每个子层的估计一个单位究竟属于哪一层要等到样本数据搜集到以后才知道总体规模N太大,事先分层太费事等.事后分层技术要求层权Wh知或者可以经过某种途径获得,当层权Wh未知而需求进展估计时,该当确保层权的估计值与实践的层权相差甚小,否那么将达不到提高估计量精度的目的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论