调查中的复杂样本_第1页
调查中的复杂样本_第2页
调查中的复杂样本_第3页
调查中的复杂样本_第4页
调查中的复杂样本_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于调查中的复杂样本第一页,共103页幻灯片第一节概述重抽样(复制样本),泰勒级数,广义方差函数典型抽样方法?复杂设计:多种抽样方法结合,多种抽样框复杂估计:非线性,无回答调整,加权估计,事后分层第二页,共103页幻灯片第二节随机组法一.什么是随机组法(RandomGroupMethod)

不同的名称:

replicatesamples重复样本

ultimatecluster末级群交叉样本等

不同的术语来自于不同的应用。第三页,共103页幻灯片第四页,共103页幻灯片第五页,共103页幻灯片第六页,共103页幻灯片无偏估计第七页,共103页幻灯片第八页,共103页幻灯片全样本估计第九页,共103页幻灯片保守估计第十页,共103页幻灯片第十一页,共103页幻灯片第十二页,共103页幻灯片利用随机组方法估计拒答率及其方差样本样本拒答户数合格调查户数拒答户数合格调查户数城区S1S2拒答户数合格调查户数拒答户数合格调查户数141150371492401493014833814538150总计119444105447第十三页,共103页幻灯片第十四页,共103页幻灯片172个抽屉64张卡片,卡片可能是可能是合同汽车旅馆、饭店、空白卡片等1.总体中约有5000个合同汽车旅馆,并准备抽取约700个单元作总样本,这样,总抽样比约为700/5000,即约7个里面抽1个。所以,每一个抽屉都各增加6张空白卡片,这样每个抽屉都有70张卡片。2.从每一个抽屉中随机抽取一张卡片,组成一个172张卡片的样本。抽样在不同的抽屉中是互相独立的。

3.按照第2步的方法有放回地再抽取9个样本,10个样本(或随机组)互相独立。

4.结果有854个汽车旅馆被抽入总样本,向每一个单元寄一张调查表。其他单元不是合同汽车放馆,不属于被调查总体。没有单元被重复观测。

5.10天后,对无回答的单元第二次寄调查表,再过一星期第三次寄调查表。如果一个单元24天后仍无返回调查表,就被认为是无回答者。

6.将无回答者按随机组的数字顺序排列,并从每3个相邻组中随机抽选一个。忽略对随机组估计量独立性的破坏。第十五页,共103页幻灯片第十六页,共103页幻灯片第十七页,共103页幻灯片总数第十八页,共103页幻灯片=70×(16+3×1)=1330权数:入样概率倒数

=70×94=6580

第一随机组中回答者和无回答者子样本的求和第十九页,共103页幻灯片第二十页,共103页幻灯片第二十一页,共103页幻灯片实际应用中很难实现多次有放回抽样,而是把一次样本随机分为k个随机组,所以随机组相互不独立第二十二页,共103页幻灯片第二十三页,共103页幻灯片4多阶段抽样:来自同一初级抽样单元(PSU)的所有基本样本单元的集合:末级群。随机组是通过将所有末级群分成组而得到的,具体的划分方法根据第一阶抽样方法而定。5如果采用的是二重抽样,则应将第一重样本划分成个随机组;而第二重样本则被相应地分成随机组,即第二重样本单元所在的随机组完全由第一次划分时决定。第二十四页,共103页幻灯片第二十五页,共103页幻灯片第二十六页,共103页幻灯片第二十七页,共103页幻灯片在许多大规模调查中偏差通常都不会很大第二十八页,共103页幻灯片随机组问题的讨论涉及两个主要问题:

1.估计量的方差

2.估计量方差的精度,即对随机组方差估计的质量评估。

第二十九页,共103页幻灯片第三十页,共103页幻灯片当N,n很大,抽样比很小时,也可用于不独立随机组第三十一页,共103页幻灯片(1)峰度第三十二页,共103页幻灯片由(1)式看出,近似地反比于随机组个数K定理说明CV依赖于两个因素,和K1.K小,CV则大2.大,CV也大第三十三页,共103页幻灯片说明,方差的随机组估计的精度,不但依赖k,而且与的分布(从而与)有关。令m=n/k,如取采用有放回简单随机抽样,取为a组的样本均值,则

第三十四页,共103页幻灯片这时若抽样方式为放回PPS抽样,取为第a组的总体总和的估计量,则第三十五页,共103页幻灯片第三十六页,共103页幻灯片上述两种形式蕴含了这样一个事实,从本质上讲,的形式。m从1开始增长时,峰度明显减少,但随m越来越大,峰度的递减作用减少,因此对越来越大的m,峰度的边际递减不足以弥补必要的k的递减,K对减少CV和提高方差估计精度比组容量m更重要。第三十七页,共103页幻灯片第三十八页,共103页幻灯片要满足需要的精度水平

需要什么样的m和k?估计听取专家意见根据经验判断K增长时费用会增加,因此最优k的选择应该在费用约束下寻找第三十九页,共103页幻灯片总结:randomgroupmethods优点:计算简单,适用面广适于多参数、非参数问题,适于分中位数等非平滑函数,也可用于非抽样误差加权调整后的方差估计。缺点:随机组数目一般较少,方差估计不稳定,一般至少10个随机组。随机组的产生较困难:要求机制与复杂抽样相同,而且限制随机组数目,如每层2个PSU第四十页,共103页幻灯片ResamplingandreplicationmethodsSampling:“population”Subsamples(WR):估计方差BanlancedRepeatedReplicationJacknifebootstrap第四十一页,共103页幻灯片半样本法:50年代末美国普查局的W.N.赫维茨和M.格尼平衡半样本法:麦卡锡BanlancedRepeatedReplication第四十二页,共103页幻灯片第三节平衡半样本方法半样本基本原理每层只抽两个单元的分层抽样随机组方法第四十三页,共103页幻灯片随机组缺点?由于仅仅一个自由度,其稳定性比标准估计量差半样本:从每层抽取一个单元形成半样本,总共可能出现?个半样本半样本之间是彼此相关的第四十四页,共103页幻灯片半样本估计量=1,如果第h层中第一个单元被选入第个半样本;

=0,否则。第四十五页,共103页幻灯片半样本估计量的性质第四十六页,共103页幻灯片平衡半样本

一个小的半样本子集(k)尽量保留所有的信息满足该条件的k个半样本为平衡半样本完全正交平衡(fullorthogonalbalance)半样本满足该条件的平衡半样本称为完全正交平衡半样本第四十七页,共103页幻灯片第四十八页,共103页幻灯片完全正交平衡半样本:k的选择应该是大于L的4的最小整数倍半样本层12341+1+1+1-12-1+1-1-13-1-1+1-14+1-1-1-1第四十九页,共103页幻灯片部分平衡半样本

假设有L层,采用K组半样本

L层可分为G群各群用同样方法构造正交列半样本层12341+1+1+1+12+1-1+1-1部分平衡半样本的方差估计量虽然不如完全平衡半样本精确,但也是无偏的。第五十页,共103页幻灯片用于多阶段抽样在L层中的每一层初级抽样单元(PSU)都是按放回的抽样抽取的第五十一页,共103页幻灯片用于非线性估计对于非线性估计量,一般和是不等的,但多数调查实践中两者非常接近第五十二页,共103页幻灯片推广nh=1nh〉2第五十三页,共103页幻灯片第四节Jackknife方法Pseudovalue第五十四页,共103页幻灯片第五十五页,共103页幻灯片第五十六页,共103页幻灯片第五十七页,共103页幻灯片第五十八页,共103页幻灯片第五十九页,共103页幻灯片第六十页,共103页幻灯片第六十一页,共103页幻灯片第六十二页,共103页幻灯片第六十三页,共103页幻灯片PPS例前面srs+wr例当k=n时,由于第j个虚拟值为平均值中的第j个变量,因此有第六十四页,共103页幻灯片第六十五页,共103页幻灯片第六十六页,共103页幻灯片第六十七页,共103页幻灯片第六十八页,共103页幻灯片第六十九页,共103页幻灯片第七十页,共103页幻灯片

Jackknife的虚拟值为

Jackknife的估计量为在非线性估计条件下,第七十一页,共103页幻灯片第七十二页,共103页幻灯片第七十三页,共103页幻灯片第七十四页,共103页幻灯片第七十五页,共103页幻灯片第七十六页,共103页幻灯片拒答率案例第七十七页,共103页幻灯片第五节其他方法简介第七十八页,共103页幻灯片一、bootstrap(Efron,1979)SRS,n,”population”,resamples,假设S是一个容量为n的简单随机样本;将S视为总体,从中再抽取重复样本。如果样本与总体确实相似——如果样本的经验概率密度函数(epmf)与总体的概率密度函数相似——那么从经验概率密度函数中产生的样本应该与从总体中抽取的样本表现出相同的特性。WR,WOR优势:非平滑函数,方便的构造置信区间第七十九页,共103页幻灯片第八十页,共103页幻灯片例利用文件ht.srs中的样本,用bootstrap方法估计身高中位数的方差。总体中身高的中位数是168;而ht.srs中样本中位数是169。总体概率密度函数与样本柱状图有相同的形状,因此预期从S中放回地抽取容量为n的简单随机样本,与从总体中放回地抽取的简单随机样本是类似的。从S中抽取的重复样本可能与S并不完全一致,因为重复样本是放回的——S中的有些观测值可能在重复样本中多次出现,有些观测值却从未被抽到过。第八十一页,共103页幻灯片一共从S中抽取R=2000个重复样本(n=200),分别计算每个样本的中位数,得到2000个样本中位数的频数表:这2000个值的样本均值为169.3,样本方差为0.9148(方差的bootstrap估计量)。中位数的95%置信区间为[167.5,171]。直接利用bootstrap估计出的抽样分布,确定bootstrap分布的2.5百分位数和97.5百分位数,就可以得到95%的置信区间。中位数165166166.5167167.5168168.5169169.5170170.5171171.5172频数1524015268877391114914418854第八十二页,共103页幻灯片初始简单随机样本是无放回Gross(1980)建议生成个样本的复制,以此作为“虚拟的总体”,再从虚拟总体中无放回地抽取R个简单随机样本。如果很小,那么放回与无放回的bootstrap分布应该相差不大。第八十三页,共103页幻灯片复杂抽样中bootstrap方法,Rao和Wu(1988)从第h层的样本中放回地抽取一个容量为的简单随机样本。各层的抽样独立进行。对于每个重复样本r,生成一个新的权数变量其中是观测单元i被选入重复样本的次数。利用新的权数来计算。将第1、2步重复R次,R应该是一个很大的数。计算第八十四页,共103页幻灯片二、Generalizedvariancefunction(GVFs)1990,NCVS,估计某种犯罪受害者人数t20-24岁第八十五页,共103页幻灯片1990年抢劫总次数的估计值为800510次;该估计的标准差是如果对于不同的估计量有近似的设计效应(deff),第八十六页,共103页幻灯片构建广义方差函数的一般步骤:

使用复制或其他方法,估计感兴趣的k个总体总量()的方差。令相对方差=构建一个模型。=利用回归技术估计和。Valliant(1987)建议采用加权最小二乘方法估计这两个参数,并为较小的项目赋予较大的权数。第八十七页,共103页幻灯片优点

在公布信息不充分的情况下可以用GVF来直接计算标准差。广义方差函数节省了大量时间,加速了年度报告的产生。GVF对于将来类似调查的设计也很有借鉴意义。缺点

模型可能并不适用,因此得出的方差估计是不可靠的。对计算回归参数时未采用的那些量的方差进行估计时,应用GVF必须谨慎。如果子总体中的群deff非常高时,GVF会严重低估方差。第八十八页,共103页幻灯片三、泰勒级数法(线性化方法)

例如犯罪损失调查是抢劫受害者报告的被抢金额,是受害者因此耽误的工作日,是抢劫受害者支付的医疗费用,假设每工作日损失150美元,对抢劫经济损失的可能是。

更简便的办法:在观测单元水平上定义新的变量,第八十九页,共103页幻灯片总体总量的平滑非线性函数第九十页,共103页幻灯片例第九十一页,共103页幻灯片将均值和总量的非线性函数的方差估计量线性化的一般步骤:将目标量表示成样本中测量或计算变量的均值或总量的函数。通常的形式为计算关于各个自变量的偏导数。以形成线性化步骤中的常数。应用Taylor定理将估计量线性化:定义新的变量q计算的方差,将其作为方差的近似。第九十二页,共103页幻灯片例如比估计应用Taylor定理:第九十三页,共103页幻灯片第九十四页,共103页幻灯片优点:如果偏导数已知,应用线性化方法可以给出统计量的方差估计、并可以应用于一般的抽样设计中。线性化方法在统计学中有长期的应用,相关理论得到了很好的发展。现在有很多计算比率、回归系数等非线性函数的线性化方差估计的软件。缺点计算过于繁琐,在包含权数的复杂函数中这一方法难于应用。需要确定h的偏导数的分析表达式,或对偏导数进行具体的数值计算。对估计的每个非线性统计量都需要一个单独的方差公式,并需要进行专门的设计;而每个统计量所需的方法都有不同。并不是所有的统计量都可以表示成总体总量的平滑函数——如中位数和其他百分位数就不适用。线性化近似的准确度取决于样本量——如果样本量不够大,方差的估计通常是偏低的。第九十五页,共103页幻灯片总体总量的平滑函数的置信区间

大部分方差估计方法都假定渐近服从标准正态分布如果假定成立,近似95%置信区间为线性化方法、jackknife、BRR和bootstrap方法有如下假定:目标量可以表示为总体总量的平滑函数;更确切地说有连续的二阶偏导函数。样本量较大:或者是各层抽取的psu数量较大,或者是调查包含的层数较多。第九十六页,共103页幻灯片总体分位数的置信区间定义分位数为满足的y的最小值如果随机组的数量R适中,BRR或bootstrap方法:

不是平滑函数,但假定总体和样本足够大时,近似为连续函数自由度为R-1第九十七页,共103页幻灯片Woodruff方法(1952)总体总量的函数近似95%的置信区间为0.95第九十八页,共103页幻灯片例:对于身高数据ht.srs,应用Woodruff方法构造身高中位数的95%置信区间。

是简单随机样本中取值小于等于值的观测单元的样本比例,忽略有限总体校正系数,有中位数的置信下限是置信上限是

第九十九页,共103页幻灯片y

1670.4051680.4401700.5151710.5501720.605第一百页,共103页幻灯片总结线性化方法:理论特性被研究得最为透彻的、也是最常采用的方法。但方差估计过程过于复杂。随机组方法:易于解释和计算,它可以应用于几乎所有的统计量。缺点是,如果要得到一个稳健的方差估计量,需要有足够多的随机组。在分层多阶段抽样中采用再抽样方法,必须谨慎地构造子样本,以确保同一群中观测值之间的相关性不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论