版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于调查中的复杂样本第一节概述重抽样(复制样本),泰勒级数,广义方差函数典型抽样方法?复杂设计:多种抽样方法结合,多种抽样框复杂估计:非线性,无回答调整,加权估计,事后分层第2页,共103页,星期六,2024年,5月第二节随机组法一.什么是随机组法(RandomGroupMethod)
不同的名称:
replicatesamples重复样本
ultimatecluster末级群交叉样本等
不同的术语来自于不同的应用。第3页,共103页,星期六,2024年,5月第4页,共103页,星期六,2024年,5月第5页,共103页,星期六,2024年,5月第6页,共103页,星期六,2024年,5月无偏估计第7页,共103页,星期六,2024年,5月第8页,共103页,星期六,2024年,5月全样本估计第9页,共103页,星期六,2024年,5月保守估计第10页,共103页,星期六,2024年,5月第11页,共103页,星期六,2024年,5月第12页,共103页,星期六,2024年,5月利用随机组方法估计拒答率及其方差样本样本拒答户数合格调查户数拒答户数合格调查户数城区S1S2拒答户数合格调查户数拒答户数合格调查户数141150371492401493014833814538150总计119444105447第13页,共103页,星期六,2024年,5月第14页,共103页,星期六,2024年,5月172个抽屉64张卡片,卡片可能是可能是合同汽车旅馆、饭店、空白卡片等1.总体中约有5000个合同汽车旅馆,并准备抽取约700个单元作总样本,这样,总抽样比约为700/5000,即约7个里面抽1个。所以,每一个抽屉都各增加6张空白卡片,这样每个抽屉都有70张卡片。2.从每一个抽屉中随机抽取一张卡片,组成一个172张卡片的样本。抽样在不同的抽屉中是互相独立的。
3.按照第2步的方法有放回地再抽取9个样本,10个样本(或随机组)互相独立。
4.结果有854个汽车旅馆被抽入总样本,向每一个单元寄一张调查表。其他单元不是合同汽车放馆,不属于被调查总体。没有单元被重复观测。
5.10天后,对无回答的单元第二次寄调查表,再过一星期第三次寄调查表。如果一个单元24天后仍无返回调查表,就被认为是无回答者。
6.将无回答者按随机组的数字顺序排列,并从每3个相邻组中随机抽选一个。忽略对随机组估计量独立性的破坏。第15页,共103页,星期六,2024年,5月第16页,共103页,星期六,2024年,5月第17页,共103页,星期六,2024年,5月总数第18页,共103页,星期六,2024年,5月=70×(16+3×1)=1330权数:入样概率倒数
=70×94=6580
第一随机组中回答者和无回答者子样本的求和第19页,共103页,星期六,2024年,5月第20页,共103页,星期六,2024年,5月第21页,共103页,星期六,2024年,5月实际应用中很难实现多次有放回抽样,而是把一次样本随机分为k个随机组,所以随机组相互不独立第22页,共103页,星期六,2024年,5月第23页,共103页,星期六,2024年,5月4多阶段抽样:来自同一初级抽样单元(PSU)的所有基本样本单元的集合:末级群。随机组是通过将所有末级群分成组而得到的,具体的划分方法根据第一阶抽样方法而定。5如果采用的是二重抽样,则应将第一重样本划分成个随机组;而第二重样本则被相应地分成随机组,即第二重样本单元所在的随机组完全由第一次划分时决定。第24页,共103页,星期六,2024年,5月第25页,共103页,星期六,2024年,5月第26页,共103页,星期六,2024年,5月第27页,共103页,星期六,2024年,5月在许多大规模调查中偏差通常都不会很大第28页,共103页,星期六,2024年,5月随机组问题的讨论涉及两个主要问题:
1.估计量的方差
2.估计量方差的精度,即对随机组方差估计的质量评估。
第29页,共103页,星期六,2024年,5月第30页,共103页,星期六,2024年,5月当N,n很大,抽样比很小时,也可用于不独立随机组第31页,共103页,星期六,2024年,5月(1)峰度第32页,共103页,星期六,2024年,5月由(1)式看出,近似地反比于随机组个数K定理说明CV依赖于两个因素,和K1.K小,CV则大2.大,CV也大第33页,共103页,星期六,2024年,5月说明,方差的随机组估计的精度,不但依赖k,而且与的分布(从而与)有关。令m=n/k,如取采用有放回简单随机抽样,取为a组的样本均值,则
第34页,共103页,星期六,2024年,5月这时若抽样方式为放回PPS抽样,取为第a组的总体总和的估计量,则第35页,共103页,星期六,2024年,5月第36页,共103页,星期六,2024年,5月上述两种形式蕴含了这样一个事实,从本质上讲,的形式。m从1开始增长时,峰度明显减少,但随m越来越大,峰度的递减作用减少,因此对越来越大的m,峰度的边际递减不足以弥补必要的k的递减,K对减少CV和提高方差估计精度比组容量m更重要。第37页,共103页,星期六,2024年,5月第38页,共103页,星期六,2024年,5月要满足需要的精度水平
需要什么样的m和k?估计听取专家意见根据经验判断K增长时费用会增加,因此最优k的选择应该在费用约束下寻找第39页,共103页,星期六,2024年,5月总结:randomgroupmethods优点:计算简单,适用面广适于多参数、非参数问题,适于分中位数等非平滑函数,也可用于非抽样误差加权调整后的方差估计。缺点:随机组数目一般较少,方差估计不稳定,一般至少10个随机组。随机组的产生较困难:要求机制与复杂抽样相同,而且限制随机组数目,如每层2个PSU第40页,共103页,星期六,2024年,5月ResamplingandreplicationmethodsSampling:“population”Subsamples(WR):估计方差BanlancedRepeatedReplicationJacknifebootstrap第41页,共103页,星期六,2024年,5月半样本法:50年代末美国普查局的W.N.赫维茨和M.格尼平衡半样本法:麦卡锡BanlancedRepeatedReplication第42页,共103页,星期六,2024年,5月第三节平衡半样本方法半样本基本原理每层只抽两个单元的分层抽样随机组方法第43页,共103页,星期六,2024年,5月随机组缺点?由于仅仅一个自由度,其稳定性比标准估计量差半样本:从每层抽取一个单元形成半样本,总共可能出现?个半样本半样本之间是彼此相关的第44页,共103页,星期六,2024年,5月半样本估计量=1,如果第h层中第一个单元被选入第个半样本;
=0,否则。第45页,共103页,星期六,2024年,5月半样本估计量的性质第46页,共103页,星期六,2024年,5月平衡半样本
一个小的半样本子集(k)尽量保留所有的信息满足该条件的k个半样本为平衡半样本完全正交平衡(fullorthogonalbalance)半样本满足该条件的平衡半样本称为完全正交平衡半样本第47页,共103页,星期六,2024年,5月第48页,共103页,星期六,2024年,5月完全正交平衡半样本:k的选择应该是大于L的4的最小整数倍半样本层12341+1+1+1-12-1+1-1-13-1-1+1-14+1-1-1-1第49页,共103页,星期六,2024年,5月部分平衡半样本
假设有L层,采用K组半样本
L层可分为G群各群用同样方法构造正交列半样本层12341+1+1+1+12+1-1+1-1部分平衡半样本的方差估计量虽然不如完全平衡半样本精确,但也是无偏的。第50页,共103页,星期六,2024年,5月用于多阶段抽样在L层中的每一层初级抽样单元(PSU)都是按放回的抽样抽取的第51页,共103页,星期六,2024年,5月用于非线性估计对于非线性估计量,一般和是不等的,但多数调查实践中两者非常接近第52页,共103页,星期六,2024年,5月推广nh=1nh〉2第53页,共103页,星期六,2024年,5月第四节Jackknife方法Pseudovalue第54页,共103页,星期六,2024年,5月第55页,共103页,星期六,2024年,5月第56页,共103页,星期六,2024年,5月第57页,共103页,星期六,2024年,5月第58页,共103页,星期六,2024年,5月第59页,共103页,星期六,2024年,5月第60页,共103页,星期六,2024年,5月第61页,共103页,星期六,2024年,5月第62页,共103页,星期六,2024年,5月第63页,共103页,星期六,2024年,5月PPS例前面srs+wr例当k=n时,由于第j个虚拟值为平均值中的第j个变量,因此有第64页,共103页,星期六,2024年,5月第65页,共103页,星期六,2024年,5月第66页,共103页,星期六,2024年,5月第67页,共103页,星期六,2024年,5月第68页,共103页,星期六,2024年,5月第69页,共103页,星期六,2024年,5月第70页,共103页,星期六,2024年,5月
Jackknife的虚拟值为
Jackknife的估计量为在非线性估计条件下,第71页,共103页,星期六,2024年,5月第72页,共103页,星期六,2024年,5月第73页,共103页,星期六,2024年,5月第74页,共103页,星期六,2024年,5月第75页,共103页,星期六,2024年,5月第76页,共103页,星期六,2024年,5月拒答率案例第77页,共103页,星期六,2024年,5月第五节其他方法简介第78页,共103页,星期六,2024年,5月一、bootstrap(Efron,1979)SRS,n,”population”,resamples,假设S是一个容量为n的简单随机样本;将S视为总体,从中再抽取重复样本。如果样本与总体确实相似——如果样本的经验概率密度函数(epmf)与总体的概率密度函数相似——那么从经验概率密度函数中产生的样本应该与从总体中抽取的样本表现出相同的特性。WR,WOR优势:非平滑函数,方便的构造置信区间第79页,共103页,星期六,2024年,5月第80页,共103页,星期六,2024年,5月例利用文件ht.srs中的样本,用bootstrap方法估计身高中位数的方差。总体中身高的中位数是168;而ht.srs中样本中位数是169。总体概率密度函数与样本柱状图有相同的形状,因此预期从S中放回地抽取容量为n的简单随机样本,与从总体中放回地抽取的简单随机样本是类似的。从S中抽取的重复样本可能与S并不完全一致,因为重复样本是放回的——S中的有些观测值可能在重复样本中多次出现,有些观测值却从未被抽到过。第81页,共103页,星期六,2024年,5月一共从S中抽取R=2000个重复样本(n=200),分别计算每个样本的中位数,得到2000个样本中位数的频数表:这2000个值的样本均值为169.3,样本方差为0.9148(方差的bootstrap估计量)。中位数的95%置信区间为[167.5,171]。直接利用bootstrap估计出的抽样分布,确定bootstrap分布的2.5百分位数和97.5百分位数,就可以得到95%的置信区间。中位数165166166.5167167.5168168.5169169.5170170.5171171.5172频数1524015268877391114914418854第82页,共103页,星期六,2024年,5月初始简单随机样本是无放回Gross(1980)建议生成个样本的复制,以此作为“虚拟的总体”,再从虚拟总体中无放回地抽取R个简单随机样本。如果很小,那么放回与无放回的bootstrap分布应该相差不大。第83页,共103页,星期六,2024年,5月复杂抽样中bootstrap方法,Rao和Wu(1988)从第h层的样本中放回地抽取一个容量为的简单随机样本。各层的抽样独立进行。对于每个重复样本r,生成一个新的权数变量其中是观测单元i被选入重复样本的次数。利用新的权数来计算。将第1、2步重复R次,R应该是一个很大的数。计算第84页,共103页,星期六,2024年,5月二、Generalizedvariancefunction(GVFs)1990,NCVS,估计某种犯罪受害者人数t20-24岁第85页,共103页,星期六,2024年,5月1990年抢劫总次数的估计值为800510次;该估计的标准差是如果对于不同的估计量有近似的设计效应(deff),第86页,共103页,星期六,2024年,5月构建广义方差函数的一般步骤:
使用复制或其他方法,估计感兴趣的k个总体总量()的方差。令相对方差=构建一个模型。=利用回归技术估计和。Valliant(1987)建议采用加权最小二乘方法估计这两个参数,并为较小的项目赋予较大的权数。第87页,共103页,星期六,2024年,5月优点
在公布信息不充分的情况下可以用GVF来直接计算标准差。广义方差函数节省了大量时间,加速了年度报告的产生。GVF对于将来类似调查的设计也很有借鉴意义。缺点
模型可能并不适用,因此得出的方差估计是不可靠的。对计算回归参数时未采用的那些量的方差进行估计时,应用GVF必须谨慎。如果子总体中的群deff非常高时,GVF会严重低估方差。第88页,共103页,星期六,2024年,5月三、泰勒级数法(线性化方法)
例如犯罪损失调查是抢劫受害者报告的被抢金额,是受害者因此耽误的工作日,是抢劫受害者支付的医疗费用,假设每工作日损失150美元,对抢劫经济损失的可能是。
更简便的办法:在观测单元水平上定义新的变量,第89页,共103页,星期六,2024年,5月总体总量的平滑非线性函数第90页,共103页,星期六,2024年,5月例第91页,共103页,星期六,2024年,5月将均值和总量的非线性函数的方差估计量线性化的一般步骤:将目标量表示成样本中测量或计算变量的均值或总量的函数。通常的形式为计算关于各个自变量的偏导数。以形成线性化步骤中的常数。应用Taylor定理将估计量线性化:定义新的变量q计算的方差,将其作为方差的近似。第92页,共103页,星期六,2024年,5月例如比估计应用Taylor定理:第93页,共103页,星期六,2024年,5月第94页,共103页,星期六,2024年,5月优点:如果偏导数已知,应用线性化方法可以给出统计量的方差估计、并可以应用于一般的抽样设计中。线性化方法在统计学中有长期的应用,相关理论得到了很好的发展。现在有很多计算比率、回归系数等非线性函数的线性化方差估计的软件。缺点计算过于繁琐,在包含权数的复杂函数中这一方法难于应用。需要确定h的偏导数的分析表达式,或对偏导数进行具体的数值计算。对估计的每个非线性统计量都需要一个单独的方差公式,并需要进行专门的设计;而每个统计量所需的方法都有不同。并不是所有的统计量都可以表示成总体总量的平滑函数——如中位数和其他百分位数就不适用。线性化近似的准确度取决于样本量——如果样本量不够大,方差的估计通常是偏低的。第95页,共103页,星期六,2024年,5月总体总量的平滑函数的置信区间
大部分方差估计方法都假定渐近服从标准正态分布如果假定成立,近似95%置信区间为线性化方法、jackknife、BRR和bootstrap方法有如下假定:目标量可以表示为总体总量的平滑函数;更确切地说有连续的二阶偏导函数。样本量较大:或者是各层抽取的psu数量较大,或者是调查包含的层数较多。第96页,共103页,星期六,2024年,5月总体分位数的置信区间定义分位数为满足的y的最小值如果随机组的数量R适中,BRR或bootstrap方法:
不是平滑函数,但假定总体和样本足够大时,近似为连续函数自由度为R-1第97页,共103页,星期六,2024年,5月Woodruff方法(1952)总体总量的函数近似95%的置信区间为0.95第98页,共103页,星期六,2024年,5月例:对于身高数据ht.srs,应用Woodruff方法构造身高中位数的95%置信区间。
是简单随机样本中取值小于等于值的观测单元的样本比例,忽略有限总体校正系数,有中位数的置信下限是置信上限是
第99页,共103页,星期六,2024年,5月y
1670.4051680.4401700.5151710.5501720.605第100页,共103页,星期六,2024年,5月总结线性化方法:理论特性被
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论