不等概率抽样的方法的应用研究_第1页
不等概率抽样的方法的应用研究_第2页
不等概率抽样的方法的应用研究_第3页
不等概率抽样的方法的应用研究_第4页
不等概率抽样的方法的应用研究_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、8/8不等概抽样方法的应用研究99统计 992137 石磊【内容摘要】在抽样调查中,不等概抽样是一个重要的内容,如一个地区商场销售额总额的估计,由于大商场与小商场的销售额差异巨大,因此,大商场与小商场不能同等对待。这时使用不等概率抽样方法可以很好的提高估计值得精度.在整群抽样或多阶抽样中,常采用不等概抽样,在实际问题中,很少采用一种抽样方法,而常常采用是几种抽样方法有机结合,最常见的方案为多阶不等概抽样。【关键词】不等概抽样,PPS,S,二阶段抽样。【ABSTRT】In sape inetain, ample with unequl probabtis isonimportantonet,uh

2、 as one region mret sles muntestatinof tta value, Becaue emporuman litleles amont of aretdifeee nomous, o, he emorium and little mrket can put on anq foing. sethe ming wih uneual probbiliie ethod can ind improvementestmateprecin f desrvinvery at this oent Besies, verall to go on and wheampln, go whn

3、samig to a erain sidene f ity to om, o hav mo ry much he same residenesi uchapects aseconmy differet blk fcity this。 If u on ssample,otonl tuble, bt also he reision stimated s oo。【KY WR】samplin wth uneual rbabiltis PPSP twotge samping一、不等概抽样的理论基础(一)不等概抽样的概念等概抽样是指总体中的每个单元具有同样的入样概率的随机抽样.例如:分层随机抽样,层内单元

4、是按简单随机抽样取得,各层内的所有单元的入样概率相同,因此分层随机抽样为等概随机抽样。而不等概随机抽样是指在抽样前赋予总体每个单元一个不相同的入样概率.由于所面对的总体有可能差异不大,也有可能差异非常大,当总体单元之间差异不大时,备单元具有一定的代表性。这时使用简单随机抽样得到的估计值是精确有效的。但是当单元之间差异非常大时,使用简单随机抽样抽出的样本所估计的估计值误差极大,这时有必要考虑使用不等概随机抽样方法,即赋予各单元一个不同的入样概率,使大样本的入样概率大,小样本的入样概率小,从而提高估计量的估计精度。例如对全国各省的基础建设总额进行估计时.由于全国30多个省直辖市经济发展情况以及经济

5、政策的互不相同。使得各省内的基础建设投资额互不相同,而且差距非常大.203年初各省得投资历额中,最低的为吉林省0。14亿元,最高的为广东省为11792亿元。如果抽样时将广东省和吉林省在抽样时,同等对待是不合理的。因此在抽样时对样本大的单元赋予一个较大的放样概率,推算时给予一个较小的权;对待一样要较小的单元赋予一个较小的入样概率,推算时赋予一个较小的权;对待样本较单元之间的差异,从而使估计值精确有效。(二)不等概抽样的适用范围实际工作中,在下列几种情况下,则可以考虑使用不等概率抽样:1、抽样单元在总体中所占的地位不一致。2、调查的总体单元与抽样总体单元不一致。例如某大型企业准备对职工家庭情况进行

6、调查,一种自然的方法是以人事部门的职工花名册作为抽样框进行抽样。该单位有少数和家庭两名职工在该单位工用,如果对职工进行简单随机抽样,则双职工被抽中的概率大,而调查者希望对家庭进行等概率抽样。除了对抽样者进行整理,将双职工家庭中的一名成员从抽样框中拿掉以外,可以对职工采用不等概抽样,一种做法是对每名职工记录其家庭成员在该单位工作的人数,然后对每名职工与人数成反比的概率进行抽样。3、不待概抽样除了应用与以上几人方面,还广泛的应用于整群抽样、多阶抽样中群初级单元大小相差较大的情形。不等概抽样在以上条件使用时可以大大提高估计划内的精度,减少误差,但使用它也有条件,就是必须要有说明每个单元规模大小的辅助

7、变量来确定每个单元入样的概率. 冯土雍抽样调查理论与方法1994年版二、不等概抽样的种类及其估计量按抽样要单元是否放回分为放回不等概抽样与不放回不等概抽样(一)放回不等概抽样1、概念放回不等概抽样中每个单元在每次抽中入样的概率与其单元规模的大小成比例。这种抽样为PS抽样。、汉森赫维茨估计量对于放回不等概抽样对总体总量Y的估计:先设用表示某一个体I被中的概率对固定的亲本容量n总体中每一个体以概率入选样本,那么总量Y的估计值为 从估计值的计量公式看出,每一个样本权数为该样本被抽中概率的倒数。在权数不依赖于被抽中的样本S的所有会计量中,是的唯一的线性无偏估计量。3、通过实例将放回不等概抽样与简单随机

8、抽样进行比较表一为全国003年12月份各地区固定资产投资完成情况,现在根据下表的资料运用简单随机抽样和放回不等概抽样两种法来估计12月份基本建设总额.(各地区的总投资为辅助变量)地区投资额基本建设投资额北京860318。2天津41。7822。53河北1.2770辽宁1。865上海46.157。376江苏28795.387浙江27550682福建1.243。9山东01644。161广东2642117。9211广西.82。61海南26。62.313山西8.465。9214内蒙古.41.35吉林01416黑龙江21025安徽53。882141江西5053319河南2.128920湖北66。824。2

9、821湖南6。631.2422重庆63.8734。6223四川113。49474贵州40.421125云南45.272.982陕西2。7716。2927甘肃7.493.42青海3.242.429宁夏.80新疆14.77408合计136。44389.8资料来源:中国统计年鉴203(1)采用简单随机抽样估计.从表格中随机抽取7个数据进行分析。被抽中的数据分别为:河北省、辽宁省、山东省、广东省、广西省、山西省、四川省. (2)使用PPS抽样 用总投资额为辅助变量.使用代码法进行抽样:先令M0=938相应的单元大小Mi及其代码数如下表:IMiMi0000累计Mi0000代码10。46464614420

10、.06262447620。01111676636734.009191766747650。75475411876515160.181118126916990。15157200387480747143438754459.05255248704346410。513662354871623510。231236466623664661237137660364676603130.0446476604664714000065646655150.0033336886656668816.00116668966991.02782977670671802582587235987235190。013376723667

11、2034547717367772210.33280073804022.33380738180330586689807465240.2066688625.02342410886791026.04314930124270。03328292449282280.00717299923929290.06693909300。0766381930693合计0。9981然后从191中随机抽取7个数,被抽中的数分别为184、243、500、87、631、385、177则第6,19,10,24,1,1,号被抽中。用不等概抽样大差与简单随机抽样方差相比 所以从此例中可以看出,使用PPS抽样估计量的精度比随机抽样有非

12、常显著的提高。(二)不放回不等概抽样、概念不放回不等概抽样时总体单元大小成比例的概率抽样为抽样,设每个单元抽样概率为,对固定满足如果每个单元入样概率与大小或规模的度量i严格成正比例,这时的抽样。2、估计量不放回不等概抽样总体估计值为:如果P0(=1,2N)则是的无偏估计,它的方差为从上式可以看出,要使方差小,总要对总体中每对(i,j),都接近于。为了达到这个目的,我们只要使(Yi/P)成为常数,即(i/P)成比那么Y的估计量是精确的(是比例系数)在这种情况下结果无论什么样本,.这时方差为0,因此在对Y估计时,所选择的辅助变量X与Y近似成比例。三、不等概抽样的二阶段抽样(一)不等概抽样的二阶段抽

13、样方法是:第一阶段:从规模为N的总体中抽选容量的样本,在抽样框中每一个体入选第一阶段样本的概率为P.有: 第二阶段:定义H为类,C1、C,C,并使得这些类的最终入选概分别等于P(1)、P(2)、P(H),把一个阶段样本中的个体根据这些类加以区分;设第h类中有个个体,则有.然后在对每个类(h)的个个体中实施简单随机抽样,抽样在每个类中相互独立,其抽样比率与事先提供的概率P(1)、P(2)、P(H)相适应。每个个体入是一级样本概率 入选二级样本概率:为了确定P我们寻找与极大值对应的类,假设是类1,则P=P()且n1=,对类h()有其中(1)与P(h)为调查初期确定的已知数,是一个随机数,它的取值在

14、第一阶段抽样完成后才能知道。 (二)二阶段不等概抽样案例分析某国2002年金融统计资料,这项调查考虑了类住宅。类1 农村和100000居民以下的城市单位信宅中的行政人员和农民;类2 与类1同样条件下其他社会专业人员类3 10000居民以上的城镇单位中的行政人员和农民;类 与类3同样条件下和其他社会专业人员;类5 农村或000居民以下的确良城市中的闲置住宅;类6 1000居民以上的城市中的闲置住宅;类7 农村或000居民以下的城市中的第二住宅;类8 100居民以上的城市中的第二住宅;类9 新住宅。与第一类相比,所有类都是低代表性的.按顺序,其最终选的概率如下: 在主样本中,第一阶段采取了等概率抽

15、样:P=P(1)1/0,我们保留类中在第一阶段被抽中的所有行政人员和农民,即(300住户)。我们剔除了:类2,5和里和10套住宅中的套,即类3里5套住宅中的3套,即;类4和6里5套住宅中的13套,即;类8里25套住宅中的24套,即。作为在单独的一个阶段中,新住宅从一个特殊的抽样框中以1/2的比率直接抽取。由于()是随机的,所以精度计算比较复杂。取决于第一阶段的抽样过程中的机遇,因此h本身也是随机数.所以,这种类型的抽样调查要想事先知道每类中将要调查的个体数量,甚至最后的样本容量是不可能的.这可能引起预算的某些问题.实践中,调查人员是通过对“平均数的推理以及考虑每类占总体相应的比例来估计最终样本

16、容量的,这是一项很难对付的工作。事实上,如果()是随机数,那么,我们可以根据平均数的原理来推断它的期望值,即:(总体中类h的规模)。设:关于“2001年金融资产”调查,在第一阶段抽样后,和的期望值如下:其中,21000和15500分别是类1和类3的总规模估计数。 平均数估计的表达式是: 上述表达式中第一个求和是对个类进行的,第二个求和号是对类h样本的(nh)个体进行的。这个公式对我们来说并不是新的,它只是霍维茨一汤普森估计量的一般形式。实际方差等于:(0).这里E(nh)是类h中最终样本平均容量的期望,即方差右边的第一项是事先分层抽样的精度,其中h类的样本容量为E(nh)。也就是说,如果二阶段

17、抽样能事先确定每个类中的样本容量为E(n),那么,其精度恰好等于相应的事先分层抽样。与事先分层抽样相比,二阶段抽样的精度损失是事先不能确定每类中的样本容量而付出的代价。 我们也可以下列方式解释这个“差异”:前面的均值估计量可表示如下: 王国明抽样原理及其应用1995年110 王国明抽样原理及其应用1995年110页其中,是在二级样本(Sh)中计算的均值,公式右边的形式类似于分层抽样中均值的估计量。但分层抽样均值估计量中层的权数是已知的,即(NhN)。而二阶段抽样均值估计量中的权数()是未知的。比率()实际上是真实权数(h/)的一个无偏估计.四、总结:以上分别从理论与实例介绍了PPS、抽样以及多阶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论