抽样技术(第5版)课件PPT课件第3章_第1页
抽样技术(第5版)课件PPT课件第3章_第2页
抽样技术(第5版)课件PPT课件第3章_第3页
抽样技术(第5版)课件PPT课件第3章_第4页
抽样技术(第5版)课件PPT课件第3章_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/10/131第三章分层随机抽样

3.1概述3.2简单估计量及其性质3.3比率估计量及其性质3.4回归估计量及其性质3.5各层样本量的分配3.6总样本量的确定3.7分层抽样的其他方面2023/10/132第一节概述

2023/10/133

定义3.3

分层随机抽样(stratifiedrandomsampling):如果每层中的抽样都是独立地按照简单随机抽样进行的,那么这样的分层抽样称为分层随机抽样,所得的样本称为分层随机样本(stratifiedrandomsample)。2023/10/1342023/10/135二、作用由于每层都进行抽样,这就可使样本在总体中分布更加均匀,从而具有更好的代表性。由于抽样在每一层中独立进行,所以一者允许各层选择不同的适合本层的抽样方法,二则可同时对各子总体(层)进行参数估计,而不单是对整个总体的参数进行估计。由于各层的总体方差因单元之间差异小而肯定小于整个总体的方差,而抽样精度与此成正比,所以分层抽样可以提高参数估计的精度。三、符号2023/10/136所有总体参数的估计量都采用下标“st”以示区别:2023/10/1372023/10/138第二节简单估计量及其性质一、对总体均值的估计分层样本,总体均值

的估计分层随机样本,总体均值

的简单估计

2023/10/139估计量的性质

性质1&2:对于一般的分层抽样,如果是的无偏估计(),则是的无偏估计。的方差为:只要对各层估计无偏,则总体估计也无偏。各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的。2023/10/1310证明性质1

由于对每一层有

因此,

估计量的方差

由于各层是独立抽取的,因此上式第二项中的协方差全为0,从而有

2023/10/1311

性质3:对于分层随机抽样,是的无偏估计,的方差为:

2023/10/1312证明性质3:

对于分层随机抽样,各层独立进行简单随机抽样,对每一层有

因此,由性质1,有

由第二章性质2,得

因此

2023/10/1313

性质4:对于分层随机抽样,的一个无偏估计为:

2023/10/1314证明性质4:

对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质3,得的无偏估计为:

因此,的一个无偏估计为:

2023/10/1315二、对总体总量的估计

总体总量

的估计为:

如果得到的是分层随机样本,则总体总量的简单估计为:

2023/10/13162.估计量的性质性质1:对于一般的分层抽样,如果是的无偏估计,则是的无偏估计。的方差为:2023/10/1317性质2:对于分层随机抽样,的方差为:2023/10/1318性质3:对于分层随机抽样,的一个无偏估计为:

2023/10/1319例3.1

调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及其95%的置信区间。层居民户总数样本户奶制品年消费支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252023/10/1320同理,求得:2023/10/1321

2023/10/1322

三、对总体比例的估计

总体比例P的估计为:

估计量的性质

性质1:对于一般的分层抽样,如果是的无偏估计(),则是的无偏估计。的方差为:2023/10/1323性质2:对于分层随机抽样,是的无偏估计,因而的方差为:

2023/10/1324

性质3:对于分层随机抽样,的一个无偏估计为:第三节比率估计量及其性质先“比”后“加权”,此时所得的估计量称为分别比估计(separateratioestimator)先“加权”后“比”,这样所得的估计量称为联合比估计(combinedratioestimator)2023/10/1325分别比估计定义3.4总体均值

和总体总量

的分别比估计为:2023/10/1326定理3.5对于分层随机抽样的分别比估计,若各层的样本量

都比较大,则有2023/10/1327证明根据比估计量的性质,当

比较大时,有2023/10/1328联合比估计

2023/10/1329

2023/10/1330分别比估计与联合比估计的比较2023/10/13311)当,即或

分别比估计的精度与联合比估计的精度是一样的。2)当,即,分别比估计的精度不低于联合比估计的精度。3)当且,这意味着分别比估计的精度要高于联合比估计的精度。2023/10/13324)当且,

或且,联合比估计的精度要高于分别比估计的精度。5)当,即比估计量的方差小于简单估计量的方差时,需视具体情况而定。

2023/10/1333第四节回归估计量及其性质与比估计相似,将回归估计的思想与技术用于分层随机样本时,同样有两种可行的办法:先“回归”后“加权”,此时所得的估计量称为分别回归估计;先“加权”后“回归”,这时所得的估计量称为联合回归估计3.4.1分别回归估计定义3.6

分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均。

1.各层的回归系数βh事先给定

2.不能事先设定各层的回归系数βh

3.4.2联合回归估计1.当β为事先设定的常数时2.当回归系数β不能事先设定时3.4.3分别回归估计与联合回归估计的比较经化简得:例3.3已知某公司一般职员(包括办事员和保管人员)及高级管理(经理)人员刚进入公司时的工资总额,欲通过抽样调查估计当前该公司职员的工资总额Y。抽样按照一般职员层与高管层进行分层随机抽取。一般职员层抽取n1=15名职员,高管层抽取n2=10名职员。同时还知道一般职员层人员总数N1=390名,该类职员进入公司时工资总额为X1=5523965元;高管层人员总数N2=84名,该类职员进入公司时工资总额为X2=2541660元。经过分层随机抽样调查所得的数据如表3—5所示。请对上述数据分别按照分别比估计、联合比估计、分别回归估计、联合回归估计以及差估计方法对该公司当前职员工资总额Y做出估计,同时计算出各个估计量的精度。

五种估计方法结果比较注意:此时的比估计和回归估计(回归系数采用样本回归系数进行估计)均为有偏估计,并且考虑到各层的样本量都不大,回归估计的偏倚有可能更大,所以此时采用比估计,特别是联合比估计会更保险。

而差估计虽然标准差相对较大,但它却是无偏的,均方误差并不一定大,所以仍然有采用的价值。3.4.4比率估计与回归估计小结在分层随机抽样中,当辅助变量可加以利用时,为了提高估计量的精度,可以采用分别比估计、联合比估计、分别回归估计以及联合回归估计等估计方法。在比估计中,当各层样本量都较大时,分别比估计与联合比估计近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比估计近似无偏。在回归估计中,少数情况下,回归系数可以是事先设定的常数,其估计量无偏;多数情况下,回归系数需利用样本回归系数进行估计,其估计有偏,但在大样本的情况下近似无偏。当Y与X高度相关时,分别比估计、联合比估计、分别回归估计以及联合回归估计等估计等产生的估计量都是有效的。选择估计方法,大致需遵循的原则在选择估计方法时,大致需遵循下面的原则:(1)由于分别估计(无论是分别比估计还是分别回归估计)要求各层的样本量都比较大,所以当某些层的样本量不够大时,建议采用联合估计(2)当回归系数需要由样本进行估计时,回归估计量是有偏的。在这种情况下,采取比估计尤其是联合比估计也许更保险(3)如果各层的样本量都比较大,同时每层的比估计或回归估计也比较有效(即ρh均比较大),而且各层的Rh之间(或βh之间)差异较大,则此时分别估计优于联合估计,估计量的方差更小(4)如果各层的样本量不大,而且各层的Rh之间(或βh之间)差异较小,则采用联合估计较为适宜(5)如果各层的Rh之间(或βh之间)差别不是太大,而且并不是每层的样本量都相当大,则联合估计可能更保险一些如果各层的回归系数都接近于1,则可以采用差估计。虽然有时差估计量的方差偏大,但由于它为无偏估计量,所以总的均方误差不一定大2023/10/1361第五节各层样本量的分配

确定样本量:总的样本量,各层样本量估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。实际工作中有不同的分配方法,可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到最小、费用最小。

2023/10/13622023/10/1363一、比例分配

按各层单元数占总体单元数的比例,也就是按各层的层权进行分配.对于分层随机抽样,这时总体均值的估计是自加权2023/10/1364总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。总体比例的估计是

2023/10/1365二、最优分配

(一)最优分配在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。2023/10/13662023/10/13672023/10/1368定理3.7的证明对所有层成立时,达到极小

常数2023/10/1369简单线性费用函数,总费用由此得出下面的行为准则,如果某一层·单元数较多·内部差异较大·费用比较省则对这一层的样本量要多分配一些。2023/10/1370三Neyman(内曼)最优分配如果每层抽样的费用相同,最优分配可简化为这种分配称为Neyman分配。这时,达到最小。

2023/10/1371例3.4

某市有甲、乙两个地区,现要进行家庭收入的调查。令n=500,已知甲地区共有20000户居民,乙地区共有50000户居民;甲地居民和乙地居民年收入标准差估计分别为S1=2500,S2=2000;同时对甲地和乙地每户的平均抽样费用之比为2∶3,请分别计算出在甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量。2023/10/13722023/10/13732023/10/1374四、某些层要求大于100%抽样时的修正

按最优分配时,有时抽样比f较大,某个层的又比较大,则可能出现按最优分配计算的这个层的样本量超过的情况。实际工作中,如果第k层出现这种情况,最优分配是对这个层进行100%的抽样,即取,然后,将剩下的样本量按最优分配分到各层。

五、偏离最优分配时对精度的影响2023/10/1375例3.62023/10/13762023/10/13772023/10/1378第六节总样本量的确定

令当方差给定时

2023/10/1379当按比例分配时,

实际工作中,n的计算可以分为两步,先计算:然后进行修正:

2023/10/1380当按Neyman分配时,

2023/10/13812、精度要求是以

的绝对误差限d(在给定的置信水平1-α下)的形式给出的2023/10/13822023/10/13833.精度要求以

的相对误差限r(在给定的置信水平1-α下)的形式给出2023/10/13842023/10/1385例3.72023/10/13862023/10/13872023/10/13882023/10/1389二、总费用给定时总样本量的确定给定V时2023/10/1390给定C时2023/10/1391第七节分层抽样的其他方面

一、多重分层定义当调查指标ψ与两个或多个辅助变量x1,x2,…都存在相关关系时,为了提高分层的效益,需要按每一个辅助变量进行分层,通常的做法是先按最主要的变量分成大层,在大层中再按第二主要变量分成子层,从而形成交叉分层。当存在多个分层变量时,这种分层方式即称为多重分层(multiplestratification)。对于多重分层,当“子层”划分好以后,就要考虑样本量在各子层的分配问题。最简单常用的样本量分配方法是按照与每一子层大小成比例的原则进行分配。在多重分层中,有时会出现这样一个问题:当总样本量n相对于子层总数RC不够大时,会出现某些子层分配不到样本的情况。

若n<max(R,C),

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论