根据抽样设计分析数据_第1页
根据抽样设计分析数据_第2页
根据抽样设计分析数据_第3页
根据抽样设计分析数据_第4页
根据抽样设计分析数据_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中国劳动力2012:根据抽样设计分析数据一、简介本次采用的是分层四阶段不等概率抽样,具体为将中国(不含自治区、海南和台)共 2282 个区县作为初级抽样单元(PSU)总体,划分为 6 大层进行抽样:各阶段的抽样为:第一阶段:以区(地级市、省会城市和直辖市的各大城区和郊区)、县(包括县级市)为初级抽样。第二阶段:以街道、乡镇为二级抽样。第三阶段:以居民、村民为三级抽样。第四阶段:以家庭住户为最终。二、根据抽样设计分析数据的必要性大多数统计分析所讲述的统计推论方法都是基于简单随机抽样(或者系统随机抽样)的样本。使用的社会数据在以下面与之不同,因而在分析时需要进行校正。1. 入样概率的影响大型通常使

2、用不等概率抽样,导致不同的家庭或人进入样本的概率不同。在本中,由于不同家庭中的劳动力数量不同,对入样的劳动力,需要加权以调整其在家庭中被抽取的概率。即使在抽样设计中按照相等概率抽取家庭,1地区小省层大省层东部、市、市、辽宁省、浙江省、福建江苏省、山东省、省中部山西省、吉林省、省、江西省、省、广西省、重庆市河北省、黑龙江、省、湖南省、省西部省、青海省、自治区、内、省、云南省、陕西省不同家庭的实际入样概率也会不同。例如:不同社会群体对的应答率不同,因此需要给予应答率低的群体更大的权数以保证样本的代表性。2. 整群抽样(cluster sling)的影响出于降低成本的考虑,在大型中通常使用整群抽样,

3、而不是简单随机抽样或者系统随机抽样。例如当在抽中了区县后,之后抽取街道/乡镇,居委会/村委会,以及家庭的时候是在抽中的区县抽取。这样会导致一个后果,即同一个区县里的家庭(或个人)会更相似,而会低估了不同区县的家庭(或个人)之间的差别,于是在进行统计推论时就会低估标准误。因此也需要因应整群抽样的特点进行校正。在此需要,虽然整群抽样会低估样本的异质性,但分层抽样能够在一定程度上对此进行弥补。3. 无放回抽样(sling without replacement)的影响大多数统计分析讲述抽样设计的时候,都假定样本是有放回的(slingwith replacement)。换言之,在 100 个人里随机抽

4、取 10 个人,如果抽中的第一个人为 A,那么在抽取第二个人时会把 A 放回这总体中,然后再进行抽样,以保证每个人被抽中的概率不变。在实际操作中,如果之后抽样时再抽中A,由于 A 的信息已经知道了,会忽略 A。但如果不把 A 放回,又会导致样本框中后抽中的人的入样概率会高于先抽中的人。因此要对无放回的抽样方式导致的结果进行有限总体校正(finite population correction)。三、设置抽样设计信息:以 Sa为例第一步:设定抽样设计信息在分析复杂抽样数据时,需要先通过 svyset 模块告知 Sa该的抽样设计。如果使用的是家庭数据,研究者应在 Sa 中输入:svyset nco

5、de pw=wfp, strata(strata) fpcode) | scode上面命令中标注为红色的是提供的跟抽样设计有关的变量。其中 strata是分层的层变量,ncode 是初级抽样(Primary Sling Unit,PSU),scode通过这 3 个变量告知是次级抽样(Secondary Sling Unit,),2Sa 该数据是多阶段分层整群抽样。fpc 表示有限总体校正(Finite PopulationCorrection),调用的变量是 nncode(注意不是 ncode)。pw 表示抽样权数,调用的变量是 wfp,这个变量是家庭权数变量,如果使用的是劳动力数据,则应相应

6、改为 wpp,即svyset ncode pw=wpp, strata(strata) fpcode) | scode第二步:通过 svy 调用设定的信息进行分析用 svyset 设定抽样设计的信息后,进行分析时必须用 svy 作为前缀才能进行调用。如果没有调用抽样设计信息,分析结果将会。下面以劳动力数据为例介绍 svy 的用法(I1_1 是)。3如果分析的是一个子样本,则需要用 svy 的 subpop 选项进行设定。subpop里的变量取值为 1 则为该子样本,为 0 则不是为该子样本。例如要计算的均值(该例中 male 变量取值为 1 是,取值为 0 是女性):如果子样本是多个条件的组合

7、,也可以在 subpop 选项里设定。例如要党员的均值(I1_6 为政治面貌:1 表示党员,2 表示计算党派,3 表示群众):4也可以用 over(I1_9_6)按被访者现在的户口性质(农业/非农)计算党员的均值。5支持 svy 前缀的常用 Sa 命令:估计平均值svy: svy: svy:svy:mean (注意没有 svy: sum 这个命令)tab reglogit / probit / mlogit / ologit单变量分布或双变量交互表线性回归模型其他回归模型/tobit / poisson / heckman感的研究者也可以在 Sa 里面输入 helpsvy_estimation 查看其他 svy 估计命令的用法。11如果你使用的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论