抽样方法案例_第1页
抽样方法案例_第2页
抽样方法案例_第3页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样方法案例附件二: 国家卫生服务总调查样本地区和样本个体的抽取方法一、概 述. 国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体对全国和不同类型地区有足够的代表性,又不致于过多增加样本量而加大调查的工作量,即经济有效的原则。. 抽样的方法是多阶段分层整群随机抽样法。第一阶段分层是以县(市或市区)为样本地区;第二阶段分层是以乡镇(街道)为样本地区;第三阶段分层以村为样本地区;最后是住户为样本个体。二、第一阶段分层整群抽样. 第一阶段抽样着重解决两个基本问题:一是由于全国各县、市差异极大,如何确定第一阶段分层的基准;二是抽样比例,多大的县、市样本量能经济有效地代表全国和

2、不同类型的地区。. 第一阶段分层基准的确定 第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的个与卫生有关的社会经济、文化教育、人口结构和健康指标。个指标的主成份分析结果如表。 表 主要社会经济和人口动力学指标的主成份因子模型 变 量 单位 主成份 主成份 主成份 第一产业就业率 * 14岁人口比例 * 文 盲 率 * 粗 出 生 率 * 粗 死 亡 率 * 婴儿死亡率 * * 人均工农业产值 (元) * * 第二产业就业率 * 初中人口比例 * 65 +人口比例 * 从主成份分析中可以看出主成份与绝大多数变量有十分显著的关联,意义十分明确,而且代表 10 个变量整体信息的 。其值的大小可以

3、综合反映一个地区社会经济、文化教育、人口及其健康的发展。因此,确定主成份为分层的基准称它为分层因子。. 第一阶段的聚类分层 在计算各县、市分层因子的得分后,用 K-Means聚类分析方法将总体分为组间具有异质性和组内具有同质性的五类地区即五层。聚类分层的结果第一层有 201 个县(市或市区),占整个县(市或市区)的 ;第二层有 650个县(市或市区),占 ;第三层有 698 个县(市或市区),占 ;第四层有 691个县(市或市区),占 ;第五层有 212,占 。 表显示了各层因子得分和选择的社会经济等变量的均值,可见各层呈明显的梯度。可以认为,第一层所在的市县,是社会经济、文化教育和卫生事业发

4、展以及人群健康状况好的地区,第二层是比较好的地区,第三层是一般性地区,第四层是比较差,第五层是差的地区。 表2 主要社会经济和人口动力学指标的主成份因子模型 市县 因 子 得 分 社会经济和人口动力学指标 层别 数 均 数 距 离 GNP AEP ILLIT CDR IMR120133302650835369845046913415212319. 第一阶段分层等概率多种样本容量的抽样 用经济有效的样本代表总体是抽样调查的精髓。样本量的确定基于以往的经验和其他国家抽样调查样本的设计,首先给定一个样本量大小的范围,确定抽取样本量为 120,90,60,45,30 五个大小不等的样本。为了保证各层每

5、一个县(市或市区)都有同等被抽取为样本的概率,必须考虑不同大小样本量的样本在各层的分配,即按比例的分层抽样。见表。 表 不同大小样本量样本在各层的分配层 数 全 国 不同大小样本量样本的分配: 合计 () 120 90 60 45 30 第一层201()108542第二层650()322316118第三层698()342617139第四层691()342517138第五层212()108543 按系统随机抽样方法,每个不同大小样本量的样本抽取 6 次。同一样本量的 6 次抽样,通过计算每次抽样样本各变量的统计量,分别与总体各变量参数进行比较,从中筛选出与总体参数最为接近的那个样本,作为该样本量

6、的最佳抽取样本。 . 第一阶段最佳样本量样本的选择与评价 不同样本量样本各变量均值与总体均数的比较:如果将不同样本量样本各变量的均值与总体各变量的均数绝对误差,绝对误差与总体均数之比为相对误差,同一样本各变量的相对误差具有可加性,其均数称为该样本各变量的平均相对误差。平均相对误差可作为判断不同大小样本量样本对总体代表性的一个尺度。同时,用“-平均相对误差”作为精确度。 表显示了不同样本量样本各变量的均数,与总体各变量比较的相对误差、平均相对误差和精确度。从不同样本量样本来看,平均相对误差随着样本量的减少而增大。如样本量从120减少到60,平均相对误差由 增加到,增加了62,而样本量从60 减少

7、到30,平均相对误差从 增加到,增加了一倍以上。样本量为 120,90,60 的样本精确度均大 95,也就是说样本量大于 60 就可对总体有较好的代表性。 不同样本量样本各变量的分布与总体分布的比较:样本变量的分布与总体分布是否吻合也是衡量样本对总体代表性的一个尺度。表列出了不同样本量各变量分布与总体分布卡方检验的结果。从不同样本各变量分布与总体分布的结果,平均卡方值小于 这一差异有显著性水平的样本量为 120,90 和 60。鉴于上述分析,故可认为,样本量大于 60 的样本,各变量的分布大多与总体分布相拟合,对总体有较好的代表性。见表。 不同样本量样本分散度的评价:样本分散度指样本中各层的变

8、量统计量对总体各层的代表性。在第一层中,样本量为 120 和 90 的样本,平均每个指标的精确度均大于 95;样本量为 60 的样本,精确度为 。从第二层到第四层,样本量为 120 和 90 的各个样本,平均每个指标的精确度都大于95;第五层样本量为 120,90和 60的各样本,精确都分别为,和 ,与上述四层相比,精确度略差一些。也就是说,要对总体各层有较好的代表性,样本量至少为 90 。详见表。. 考虑到经济有效的原则和对全国、不同类型的地区和上述每个指标的代表性,国家卫生服务总调查的县(市或市区)样本容量取。具体抽出的县、市或市区见附件。三、第二阶段整群随机抽样. 在上述抽取的个“样本县

9、(市或市区)”中,以乡镇(街道)为第二阶段整群系统随机抽样单位。全国每个乡镇(街道)被抽取为“样本乡镇(街道)”的概率是1160。第二阶段整群系统随机抽样全国共抽取 450个乡镇(街道)。平均每个“样本县(市或市区)”抽个乡镇(街道)。第二阶段分层整群抽样具体由各样本县(市或市区)按下述方法抽取。 . 第二阶段整群随机抽样的基准 由于一个县(市或市区)内社会经济、文化教育和卫生状况的差异远小于全国各县、市之间的差异,因而确定县(市或市区)的抽样基准相对容易。根据我国各县(市或市区)的基本特征、实际的可操作性和以往抽样调查常用的指标,确定采用人口数(或人均收入)作为分层基准。. 第二阶段整群随机

10、抽样的的方法 将样本县(市或市区)所有的乡镇(街道)按人口数的多少(或人均收入的大小)由多到少依次排序; 由多到少依次计算人口数(或人均收入)的累计数; 计算抽样间隔,用累计的人口总数(或人均收入累计总数)除于抽取的样本数(累计总数); 用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本乡镇(街道),然后加上抽样距离确定第二个样本乡镇(街道),依次类推确定第三至五个样本乡镇(街道)。. 第二阶段整群随机抽样实例 某个样本县共有 18个乡、镇,要从该样本县抽取乡镇作为样本。根据抽样方案的要求,第一步人口数的多少由大到小排序,并计算累计数(该

11、县人口累计数即人口总数为210100),见表; 第二步计算抽样间隔,用人口总数除于抽样的样本数,2486005 = 49720,该县乡镇整群抽样的抽样间隔为49720; 第三步确定第一个随机数,取一张人民币,其编号的为FP,取后位数是 43854,所取的后为数不能大于抽样间隔数,如大于再取一张人民币该后位随机数接近第编号即平湖镇后面的累计数,因此确定第号平湖镇为第一个样本; 第四步用第一个样本的累计数加抽样间隔,即 43000 + 49720 = 92720,该数接近第编号即新龙乡的累计数,确定第号新龙乡为第二个样本。 第五步用第二个样本的累计数加抽样间隔,即 100900+49720=142

12、920,该数接近第编号新原乡的累计数,确定第号新原乡为第三个样本;同样的方法确定第号和第号即桐连乡和四顶乡。这样,五个样本乡镇就确定了。 表. 第二阶段整群随机抽样的实例编号乡镇人口数累计编号乡镇人口数累计编号乡镇人口数累计城关镇2200022000平原乡16400134900新店镇10000205500平湖镇2100043000*新原定安乡9500215000玉阳镇2000063000古农岖乡8900223900五一乡1950082500王店乡11000174900五庙乡8500232400*新龙双莲乡105001

13、85400双山乡8200240600湖泊连乡10100195500*四顶乡8000248600四、 第三阶段随机抽样.第三阶段随机抽样的基准和样本容量 在同一个乡镇(街道)内,各村(居委会)的经济发展和卫生状况基本上变异不大。因此,第三阶段不用分层,直接采用随机整群抽样的方法从“样本乡镇(街道)”中抽取样本村(居委会)。但是,抽样时应按各村人均收入或人口数作为标识进行排序。第三阶段随机抽样由调查指导员负责。 每个“样本乡镇(街道)”整群随机抽取个村(居委会),全国共抽取 900个村(居委会),全国每村(居委会)被抽为样本的概率为 1:1120。.第三阶段整群随机抽样的

14、的方法 将样本乡镇(街道)所有的村(居委会)按人均收入的多少(或人口数的大小)由多到少依次排序; 由多到少依次计算人均收入(或人口数)的累计数; 计算抽样间隔,用累计总数除于抽取的样本数(累计总数); 用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本村(居委会),然后加上抽样距离确定第二个样本村。.第三阶段随机整群抽样的实例 第一步将所有的村按人均收入的多少由大到小排序,并计算累计数;第二步计算抽样间隔: 7337/2 = 3669 ;第三步确定第一个随机数,取一张人民币,其编号的后 4 位数是 2273,这个随机数接近第编号的累计数,

15、因此确定第号村为第一个样本;第五步用第二位的累计数加抽样间隔(2805 + 3669 =6474),接近第编号的累计数,确定第号为第二个样本。 表7. 第三阶段随机整群抽样实例编号村人均收入累计数编号村人均收入累计数镇西店村724724长生庙村5894606唐家铺村7211445王甸子村5745180镇东村6892134民生村5715751*镇北村6712805*清平村5446295李家店村6103415老平埠村5346829湖泊村6024017高坝村5087337* 为随机抽取的样本数。五、样本个体的抽样. 最终的抽样单位是住户。在每个“样本村(居委会)”中按 20的比例随机抽取住户,平均每

16、个村抽60户,全国共抽取54000户。全国平均每户被抽取为样本的概率为 54000/28000万,约五千户中抽一户。如果按每户四个人计算,人口抽样比为1:5000 左右。. 抽户方法是各样本乡镇(街道)的调查指导员上述抽样比例在样本村(居委会)随机抽取,具体方法: 按人口普查的编码顺序,按门牌号、楼号、单元号、门号从小到大排列; 对同一门牌号,同一个大院和楼号的,按门号从小到大排列,对同一门牌号内没有门号的按从左到右、从外到里、从下到上的原则编码。一经编码不许变动;编好住户码列入住户清单表式中:序号户主姓名家庭住址门牌号码家庭人口数累计人口数抽中住户张三村组东1李四村组东2王五村组东3*赵六村

17、组东4陈七村组东5。赵末村组北61200 根据抽样比例计算应抽的户数(一般平均每个样本村户),然后系统随机抽取。方法同上:第一步将所有住户的人口累计数、本村的平均人口数(1200/300=4)和本村应抽取的住户数(300*20%=60);第二步计算抽样距离(1200/60=20);第三步确定第一个随机数(如取一张人民币,其编号的后两位数是 12,这个随机数接近第编号的累计数,因此确定第号住户为第一个样本;第五步用第号的累计数加抽样距离(13 + 20 =33),看 33 最接近第几编号住户,并确定这家住户为第二个样本,同理用第二个样本住户对应的累计数加抽样距离确定第三个样本。同样确定以后各样本

18、住户。 抽样时可多抽取六户,作为备用。抽取方法是在上述抽取完毕以后,按上述步骤再从未抽取的住户中抽取户。 表8. 国家卫生服务总调查样本容量和抽样概率 _ 单位名称 全国总数 抽样样本数 抽样概率 县市区2450901:27乡镇街道700004501:160村居委会10000009001:1120户0540001:5000人002160001:5000 全国每一户家庭被抽群为样本的概率模型:902567 * 450 * ST<(90/2567)*0> * 2ST/280 * 60280 = 1:5000- - - - - 在样本村每户 被抽取的概率 一个乡被抽取为样本的概率 一个村

19、被抽取为样本的概率 样本乡镇(街道)数 一个县(市或市区)被抽取为样本的概率 ( ST: 乡镇(街道)户数的大小)表. 不同大小样本社会经济和人口动力学指标的均数以及与总体均数的相对误差 全 国 不 同 大 小 样 本 的 均 数 指 标 均 数 120 90 60 45 30 指标均数:0-14岁人口比例岁人口比例15-49岁妇女比例人均工农业总产值(元)806795767702756813第一产业就业率第二产业就业率文盲和半文盲率初中学历人口比例粗出生率每千人口粗死亡率每千人口婴儿死亡率每千出生(二)相对误差0-14岁人口比例65+岁人口比例15-49岁妇女人口人均工农业总产值(元)第一产

20、业就业率第二产业就业率文盲和半文盲率初中学历人口比例粗出生率每千人口粗死亡率每千人口婴儿死亡率 每千出生相对误差合计()平均相对误差()精确度() 表. 不同大小样本量样本社会经济和人口动力学指标的频数分布 与总体分布的拟合度检验 不 同 大 小 样 本 的 卡 方 值 : 指 标 120 90 60 45 30 平均人口数/县(市)人口大小 *0-14岁人口数/0-14岁人口比例 *65+ 岁人口数/65+ 岁人口比例 * * *15-49岁妇女数/15-49岁妇女比例 * *样本数/人均工农业总产值 * *第一产业人数/第一产业就业率 *第二产业人数/第二产业就业率 * *文盲半文盲人数/文盲半文盲率 *初中以上人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论