版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
CH6不等概抽样
samplingwithunequalprobabilities2-3课时3/14/20231统计学专业必修课3学分不等概抽样在抽样方法体系中的地位入样概率是概率抽样中的一个重要概念等概率抽样,每个单元的入样概率相等问题:典型的等概率抽样包括?不等概抽样,每个单元的入样概率不完全相等入样概率都是已知或是可以计算出来的不等概率抽样等概率抽样概率抽样非概率抽样广义的抽样调查3/14/20232统计学专业必修课3学分概率抽样的特点之一
——入样概率已知或可计算出来比如,简单随机抽样srs,1000个单元中抽100个比如,分层随机抽样str100501000100100005001/21/101/20Nhnh大型企业中型企业小型企业被抽中的概率又如,PPS抽样,2个企业中取1个1000万元500万元2/31/3净利润入样概率甲乙扩展3/14/20233统计学专业必修课3学分§6.1问题的提出一、不等概抽样的必要性(一)等概率抽样的特点及缺陷(二)不等概抽样的含义、适用性、优点、条件等二、不等概抽样的分类(一)放回不等概率抽样(二)不放回不等概抽样3/14/20235统计学专业必修课3学分一、不等概抽样的必要性(一)等概率抽样的特点及缺陷srs是典型的等概率抽样,从三个层次上理解(?)str的等概率性可以从两个方面来理解每一层内的抽样是按简单随机抽样进行的,因此层内的抽样是等概率的Propst是典型的等概率抽样,各单元的入样概率都是相等的等概率抽样的基本点是将总体(或层)中的每一个单元看作是平等的,不“偏向”也不“疏远”某些特定的单元,在抽样时对每个单元采取“不偏不倚”的态度评价:如果各总体单元间的差异不大,这种处理方法既简单又合理3/14/20236统计学专业必修课3学分等概率抽样的缺陷但是,在一些调研问题下,等概率抽样存在明显的缺陷。比如,各总体单元间相差较大,也即总体方差大的情况,等概率抽样的效果就不一定好,例如:居民住户调查中,以家庭为抽样单元,调查家庭的食品消费支出或者调查家庭的娱乐消费支出,如何设计抽样食品消费支出,由于各个家庭的规模相差不大,同时食品消费支出的价格和收入弹性也不大,实施等概率抽样是可以也是有效地娱乐/保健品/奢侈品等消费支出,价格和收入弹性较高,同时各家庭的成员结构不同,一视同仁的做法欠妥为了估计一个城市的商业销售总额,对各商业网点进行调查以船舶为抽样单元,对船舶运输量进行调查以个人储户为抽样单元,调查储户对银行服务的满意度以个人用户为抽样单元,调查移动业务用户的满意度3/14/20237统计学专业必修课3学分2、不等概抽样St给各层的单元一个不同的入样概率更进一步地,考虑得更细一点,给每个单元一个不同的入样概率,即,在抽样时将总体各单元被抽中的概率与其规模大小联系起来:入样概率与规模成比例,大单元抽到的概率大,小单元抽到的概率小这就是典型的不等概(率)抽样st实际上是不等概抽样的粗略方式比如:按PPS抽样,2个企业中取1个1000万元500万元2/31/3净利润入样概率甲乙扩展3/14/20239统计学专业必修课3学分(三)不等概抽样的一般问题1、含义2、作用/适用性3、主要优点4、要求/前提条件3/14/202310统计学专业必修课3学分1、含义所谓不等概抽样,即总体中各单元被抽中的概率不相等。这个概率通常与各单元的某个辅助变量大小成正比例①各单元被抽中的概率称为“入样概率”。设总体含有N个单元,那么各单元入样概率用Zi(i=1,2,…,N)表示。在不等概抽样下,Zi是不完全相同的②“Zi与某一辅助变量Xi大小成正比例”。如果某一单元的辅助变量越大,则该单元被抽中的概率越大。所以,辅助变量也称为入样指标Zi=Xi/∑Xi,(i=1,2,…,N)∑Zi=1是否需要入样指标来确定入样概率,成为不等概率抽样和等概率抽样的本质区别3/14/202311统计学专业必修课3学分2、作用或适用性①各抽样单元在总体中所占的地位不一致居民住户调查中,调查家庭的日常消费支出或娱乐/保健品等奢侈消费支出,会采用不同的抽样设计为估计一城市的商业销售总额,对各商业网点进行调查以船舶为抽样单元,对船舶运输量进行调查以个人储户为抽样单元,调查储户对银行服务的满意度以个人用户为抽样单元,调查移动业务用户的满意度②调查的总体单元与抽样总体的单元不一致的情况,比如:大型企业对职工家庭情况进行调查某小学对在校生家庭情况进行调查③改善估计量3/14/202313统计学专业必修课3学分③改善估计量不等概抽样还广泛应用于由于种种原因不能或不需要对基本单元(BU:BaseUnit)直接抽样的情形,比如整群抽样(CL:clustersampling)中,若群大小(用群内包含的BU数Mi表示)相差较大,常采用对群的不等概抽样多阶段抽样(MS:Multi-Stagesampling)中,若初级单元大小(用所包含的次级单元数目表示)相差较大,则常采用对初级单元的不等概抽样比率估计中消除小样本比率估计量偏倚的方法——水野法3/14/202314统计学专业必修课3学分3、主要优点主要优点:可以大大提高估计的精度,减少抽样误差这一点可弥补其他方法的局限性,比如采用srs,虽然简单估计量是无偏的,但如果S2较大,srs估计效果不好;而要提高估计精度,需要增加n,从而增大费用,影响经济效果比率估计量可有效地提高估计精度,但是有偏可以利用st,提高抽样估计精度,但这种抽样的估计效果很大程度上取决于层内方差Sw2,有时层是客观存在、而非人为划分的,因此有可能层内方差还较大而CL当各群的大小差别较大时,每个群对总体的影响是不同的,此时在等概率抽样时推断总体均值需采用加权的方法从而增加了估计的难度。MS也是如此上述情况下,若采用不等概抽样,就有可能改善估计量,减少偏差或抽样误差,从而得到较好的抽样估计效果3/14/202315统计学专业必修课3学分辅助变量的获得有时,辅助变量的获得比较容易或方便比如,管理部门在车船登记台账中,车船名及其载重吨位是同时登记的,以载重吨位作为辅助变量时,抽样框的编制几乎与srs一样方便再如,对个体运输实施管理,登记运输车辆时,运输车辆的所有者、车型、载重、已行驶公里数等一并登记但对有些问题要复杂一些比如,将某县的农田划分成地块后,以地块的面积作为辅助变量,则这时除了对地块进行编号,还要对地块的面积进行丈量因此,同srs相比,不等概抽样编制抽样框的过程有时要复杂一些3/14/202317统计学专业必修课3学分二、不等概抽样的分类(一)放回不等概抽样(二)不放回不等概抽样3/14/202318统计学专业必修课3学分1、放回不等概抽样对总体各单元按入样概率进行抽样,每次只抽1个抽出来的单元记录后再放回总体,再进行下一次抽取因此,每次抽样过程都是从同一总体中独立进行的优点:放回不等概抽样的实施及估计过程比不放回的相对要简单缺点:但是由于抽样是放回的,因此,某单元可能在样本中出现多次。出现这种情况时,对这个单元只调查一次,但计算时,抽中几次就参与计算几次与单元大小(Size)成比例的放回不等概抽样即狭义的PPS抽样,简称PPS抽样3/14/202319统计学专业必修课3学分§6.1小结不等概抽样在现实中的意义/作用/优点PPS抽样的含义§6.1结束3/14/202321统计学专业必修课3学分§6.2放回的不等概抽样(重点)PPS抽样:samplingwithProbabilityProportionaltoSize3/14/202322统计学专业必修课3学分§6.2的内容体系一、多项抽样与PPS抽样(一)多项抽样(二)PPS抽样二、实施方法/样本抽选方法(一)代码法(二)拉希里(Lahiri)法三、汉森——赫维茨估计量(一)估计量的形式(二)估计量的性质:无偏性、方差、方差的估计典型例题:P130例[6.2]3/14/202323统计学专业必修课3学分n重贝努里试验贝努里试验产生于有放回的抽样,是在相同条件下重复进行试验n次每次试验有两个可能的结果
每次试验,两个结果出现的概率分别为
现在独立地进行这样的试验n次,两种结果出现的次数为
则n1服从参数为n和p的二项式分布二项式分布的数字特征3/14/202325统计学专业必修课3学分将二项式分布扩展到多项式分布(P1256.1~6.2)如果每次试验有N个可能的结果
每次试验,N个结果出现的概率分别为
现在独立地进行这样的试验n次,N种结果出现的次数为则ti服从多项式分布这个多项式分布的数字特征3/14/202326统计学专业必修课3学分二、实施方法(PPS抽样的抽选方法)(一)代码法(累计总和法)Hansen和Hurwitz于1943年提出的,所以也称汉森——赫维茨方法做法1、首先,赋予每个单元与Mi相等的代码数2、然后,将代码数累加得到M03、最后进行抽样,每次抽样都产生一个[1,M0]之间的随机数m,则代码m所属的总体单元被抽中4、重复以上做法n次,则得到由n个单元构成的PPS样本在累加时要注意:抽选随机数通常抽选的是整数,所以,如果Mi是整数,则直接累加;如果Mi不是整数,则需要乘以某个倍数转化为整数3/14/202329统计学专业必修课3学分P126[例6.1]说明累计Mi很重要借助累计Mi给每个单元赋一个代码范围如果Mi不是整数,需要乘以某个倍数转化为整数取样的过程转化为取[1,M0]中的一个随机数的过程这样做,确实能够保证各单元被抽中的概率与Mi成比例现实应用时,取样的过程可以灵活处理3/14/202330统计学专业必修课3学分[补例6.1]iMiMi×10累计Mi×10代码范围10.6661~6214.51451517~15131.515166152~166413.7137303167~30357.878381304~381615150531382~531710100631532~63183.636667632~6679660727668~727101.111738728~738合计73.8738————M0设某个总体有N=10个单元,试用PPS抽样抽取一个n=3的样本在[1,738]中取随机数3个随机数落到了哪个单元的代码范围内,哪个单元入样3/14/202331统计学专业必修课3学分(二)拉希里法印度统计学家拉希里(D.B.Lahiri)1951年提出的做法令M*=Max(Mi),即M*为诸Mi中最大的一个抽取[1,N]中一个随机整数i再抽取[1,M*]内一个随机整数m判断:如果m≤Mi,则第i个单元入样;如果m>Mi,则放弃,再重抽(i,m)直到抽满n个单元为止抽取n个样本单元的过程实际上是抽取n组(也可能多于n组)随机数(i,m)的过程[例6.1],比如:M*=260,(3,58),(6,236)3/14/202332统计学专业必修课3学分三、Hansen-Hurwitz估计量
(P1286.4~6.5)(一)H-H估计量的定义说明:不等概抽样下,总值估计更有意义理由:不等概抽样往往应用于总体单元规模相差较大的情况
HH估计量的意义,体现了自加权的性质(P128)第i个样本单元单位规模的平均目标量大小3/14/202333统计学专业必修课3学分(二)性质(P1286.7~6.8)无偏性方差方差的无偏估计3/14/202334统计学专业必修课3学分无偏性的证明证明的基本思路:变量转换设则PPS抽样的过程就相当于:总体各单元目标量D1,D2,…,DN入样概率分别为Z1,Z2,…,ZN则,D变量的总体均值为3/14/202335统计学专业必修课3学分方差的证明总体方差3/14/202336统计学专业必修课3学分方差的无偏估计3/14/202337统计学专业必修课3学分H-H估计量的性质证明(P129)利用的是多项分布的数学性质(P1256.2)3/14/202338统计学专业必修课3学分H-H估计的特点无偏估计在不等概抽样的过程中完成了加权,具有自加权的性质,因此估计量形式及其方差都很简洁引入了辅助变量,所以估计效果也不错P126【例6.2】3/14/202339统计学专业必修课3学分[补例6.2]——典型例题研究目的:某部门要了解所属8500家生产企业当月完成的利润该部门手头已有一份各企业去年完成产量的报告,将其汇总得到所属企业去年完成产量为3676万吨考虑到时间紧,拟采用抽样调查来推断当月完成利润根据经验,企业的产量和利润相关性较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高,因此采用与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本,调查结果如下表要求:(1)根据调查结果估计该部门所属企业当月完成的利润(2)给出95%置信度下,估计的相对误差(3)若要求在相同条件下相对误差达到20%,则所需的样本量应该是多少?3/14/202340统计学专业必修课3学分作业思考:P1446.1、6.2作业:P1456.3、6.4、6.6§6.2结束3/14/202341统计学专业必修课3学分案例介绍中国公众科学素养抽样调查3/14/202342统计学专业必修课3学分中国公众科学素养抽样调查的问卷题目“父亲的基因是否决定孩子的性别?”“宇宙产生于大爆炸吗?”“DNA是什么?”“你是否相信占星术?”“……”3/14/202343统计学专业必修课3学分关于公众科学素养抽样调查作为一项基础性工作,公众科学素养抽样调查受到了许多国家和地区的高度重视美国从1972年起每2年进行一次,其调查结果在《科学和工程学指标》中公布日本、加拿大、欧盟成员国也定期开展调查中国自1992年起,也陆续实施了八次公众科学素养抽样调查,调查的时间分别为:1992、1994、1996、2001、2003、2005、2007、20103/14/202344统计学专业必修课3学分调查目的总的来说:为制定科普规划和科普政策提供科学依据具体地:1、把握人们对科学知识、科学方法和过程的了解程度2、把握人们对科学对个人和社会的影响的了解程度3、了解公众获取科学技术信息的渠道和方法4、探究人们对科学技术的态度5、……3/14/202345统计学专业必修课3学分调查内容第六次调查从公众的不同性别、不同年龄段、不同文化程度、不同职业以及城乡的差异上反映基础数据其中,有关“中国公众对科技信息的感兴趣程度和获取科技信息的渠道”调查是公众科学素养调查的重要组成部分,主要内容包括:1、我国公众对科技信息的感兴趣程度2、公众获得科技发展信息的主要渠道和方法3、公众对科普活动的参与度和知晓度4、公众利用科普设施的情况等3/14/202346统计学专业必修课3学分方法调查对象:中国大陆18~69岁成年公民(不含港、澳、台)抽样方法:与人口规模成比例的分层四阶段不等概抽样调查方法:派员入户调查样本容量:8570人(第六次)3/14/202347统计学专业必修课3学分调查结果中的一些有意思的结论2001年调查结果显示:——中国大陆有一半以上的父母希望子女未来的职业是医生2005年调查结果显示:——男性公众、低年龄段公众、受教育程度较高的公众以及职业为国家机关、党群组织负责人的,对各种科技信息感兴趣的比例排在前列——在正规的学校教育之外,大众媒体是科技信息的主要传播途径——电视是我国公众科技信息的最主要来源,比例高达91.0%;其次是“报纸杂志”,比例为44.9%;通过“广播”获得信息的比例为22.4%;通过“图书”、“科学期刊”和“其他”途径的比例依次为10.2%、9.5%和7.9%;通过“因特网”获得信息的比例仍最低(7.4%),但比2003年提高了1.5个百分点——另外,有48.7%的公众还通过“与人交谈”的方式获取信息。相比而言,女性(51.4%)、50-59岁年龄段(54.3%)、小学文化程度(60.3%)、农林牧渔水利业生产人员(61.0%)和乡村居民(57.5%),利用“与人交谈”的比例相对较高——影响科普设施利用的因素中,“交通不便”对离退休人员的影响最大(3.9%);“门票太贵”对失业人员及下岗人员的影响最大(2.8%);商业及服务业人员“不感兴趣”的比例最高(23.5%);16.7%的家务劳动者因“不知道”而未利用这些设施3/14/202348统计学专业必修课3学分§6.3不放回不等概抽样不要求3/14/202349统计学专业必修课3学分CH6小结掌握:什么是不等概抽样?有哪些优点?适用性?条件?什么是PPS抽样?PPS抽样的方法有哪些?掌握PPS抽样的HH估计方法(典型例题:例和补例[6.2])理解:PPS抽样与多项抽样之间的关系3/14/202350统计学专业必修课3学分补充思考题3/14/202351统计学专业必修课3学分思考题1某大型企业集团欲对总部及子公司各部门工作情况进行抽查,根据时间要求,准备抽出n个部门进行调查调查人员从人事部门的计算机里获得了集团全体职工的名单,这份名单注明了每个职工工作的部门。调查人员在计算机上顺序给每位职工编号,最大为N,并利用计算机分别从1~N中产生了n个伪随机数,根据这n个随机数所对应的号码,找到了对应的职工,于是将这n个职工所在的部门记录下来,然后调查者分别对这些部门进行了调查访问有人认为:“这不是抽部门,而是抽职工,而且抽到某个职工则这个部门的所有(可以看作抽样框中与之相邻的)职工均被抽中,这显然违反了随机原则,而且操作费事,应该直接抽部门。”对此,你有何评论?3/14/202352统计学专业必修课3学分思考题2某个调查人员从总体中抽出了一个样本量为n的简单随机样本,调查开始之前,他又获得了一份总体单元的详细名单,这份名单很不错,除了单元的名录,还有每个单元的其他相关指标,因此他在调查每个样本单元的时候注明了它们的其他相关指标调查完成后,调查人员发现每个单
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论