抽样方法案例_第1页
抽样方法案例_第2页
抽样方法案例_第3页
抽样方法案例_第4页
抽样方法案例_第5页
免费预览已结束,剩余4页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、附件二:国家卫生服务总调查样本地区和样本个体的抽取方法一、概 述1.1国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体对全国和不同类型地区有足够的代表性,又不致于过多增加样本量而加大调查的工作量,即经 济有效的原则。1 . 2抽样的方法是多阶段分层整群随机抽样法。第一阶段分层是以县(市或市区)为样本地区;第二阶段分层是以乡镇(街道)为样本地区;第三阶段分层以村为样本地区;最后是住 户为样本个体。二、第一阶段分层整群抽样2 . 1第一阶段抽样着重解决两个基本问题:一是由于全国各县、市差异极大,如何确定第一阶段分层的基准;二是抽样比例,多大的县、市样本量能经济有效地代表全

2、国和不同类型的 地区。2 . 2 第一阶段分层基准的确定第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的10个与卫生有关的社会经济、 文化教育、人口结构和健康指标。10个指标的主成份分析结果如表1。表1.主要社会经济和人口动力学指标的主成份因子模型变量单位主成份1主成份2主成份3第一产业就业率%0.82*-0.490.1714岁人口比例%0.80*-0.10-0.49文盲 率%0.69*0.320.22粗出生率%o0.69*0.35:-0.10粗死亡率%00.67*0.510.33婴儿死亡率%00.67*0.60* :-0.02人均工农业产值(元)-0.65*0.53*0.12第二产业就业

3、率%-0.84*0.45-0.10初中人口比例%-0.92*0.02-0.0465 +人口比例%-0.10-0.190.93*从主成份分析中可以看出主成份1与绝大多数变量有十分显著的关联,意义十分明确,而 且代表10个变量整体信息的 51.22 %。其值的大小可以综合反映一个地区社会经济、文化 教育、人口及其健康的发展。因此,确定主成份1为分层的基准称它为分层因子。2 .3 第一阶段的聚类分层在计算各县、市分层因子的得分后,用K-Means聚类分析方法将总体分为组间具有异质性和组内具有同质性的五类地区即五层。聚类分层的结果第一层有201 个县(市或市区),占整个县(市或市区)的 8.2 %;第

4、二层有 650个县(市或市区),占26.5 %;第三层有 698个县(市或市区),占28.5 %;第四层有 691个县(市或市区),占28.2 %;第五层 有 212,占 8.6 %。表2显示了各层因子得分和选择的社会经济等变量的均值,可见各层呈明显的梯度。可以 认为,第一层所在的市县,是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区, 第二层是比较好的地区,第三层是一般性地区,第四层是比较差,第五层是差的地区。表2主要社会经济和人口动力学指标的主成份因子模型市县因子得分社会经济和人口动力学指标层别 数均数距离GNP AEP ILLIT CDR IMR1201-2.43543210.

5、28333015.719.75.117.52650-0.66382164.6683564.623.75.726.236980.06921655.0045083.532.46.331.446910.57761264.5734188.143.67.449.152121.7457539.6131990.066.811.7121.42 . 4第一阶段分层等概率多种样本容量的抽样用经济有效的样本代表总体是抽样调查的精髓。样本量的确定基于以往的经验和其他国家 抽样调查样本的设计,首先给定一个样本量大小的范围,确定抽取样本量为120 , 90,60,45,30五个大小不等的样本。为了保证各层每一个县(市或市

6、区)都有同等 被抽取为样本的概率,必须考虑不同大小样本量的样本在各层的分配,即按比例的分层抽样。 见表3.。表3.不同大小样本量样本在各层的分配层 数全 国不同大小样本量样本的分配:合计 ()12090604530第一层201(8.2)108542第二层650(26.5 )322316118第三层698(28.5 )342617139第四层691(28.2 )342517138第五层212(8.6)1054 :3按系统随机抽样方法,每个不同大小样本量的样本抽取6次。同一样本量的 6次抽样,通过计算每次抽样样本各变量的统计量,分别与总体各变量参数进行比较,从中筛选出与总体 参数最为接近的那个样本

7、,作为该样本量的最佳抽取样本。2 .5第一阶段最佳样本量样本的选择与评价不同样本量样本各变量均值与总体均数的比较:如果将不同样本量样本各变量的均值 与总体各变量的均数绝对误差,绝对误差与总体均数之比为相对误差,同一样本各变量的相对 误差具有可加性,其均数称为该样本各变量的平均相对误差。平均相对误差可作为判断不同大 小样本量样本对总体代表性的一个尺度。同时,用“1一平均相对误差”作为精确度。表4显示了不同样本量样本各变量的均数,与总体各变量比较的相对误差、平均相对误差 和精确度。从不同样本量样本来看,平均相对误差随着样本量的减少而增大。如样本量从120减少到60,平均相对误差由1.4 % 增加到

8、2.7 %,增加了 62 %,而样本量从60 减少到 30,平均相对误差从2.7 %增加到5.6 %,增加了倍以上。样本量为120 , 90, 60的样本精确度均大95 %,也就是说样本量大于60就可对总体有较好的代表性。 不同样本量样本各变量的分布与总体分布的比较:样本变量的分布与总体分布是否吻 合也是衡量样本对总体代表性的一个尺度。表5列出了不同样本量各变量分布与总体分布卡方 检验的结果。从不同样本各变量分布与总体分布的结果,平均卡方值小于9.49这一差异有显著性水平的样本量为120 , 90和60。鉴于上述分析,故可认为,样本量大于60的样本, 各变量的分布大多与总体分布相拟合,对总体有

9、较好的代表性。见表5。 不同样本量样本分散度的评价:样本分散度指样本中各层的变量统计量对总体各层的 代表性。在第一层中,样本量为 120 和 90 的样本,平均每个指标的精确度均大于 95 ; 样本量为 60 的样本,精确度为 89.4 。从第二层到第四层,样本量为 120 和 90 的各个 样本,平均每个指标的精确度都大于 95 ;第五层样本量为120 , 90 和 60 的各样本,精确都分别为 94.1 , 92.5 和 93.9 ,与上述四层相比,精确度略差一些。也就是说,要 对总体各层有较好的代表性,样本量至少为90。详见表6。2. 6 考虑到经济有效的原则和对全国、不同类型的地区和上

10、述每个指标的代表性,国家卫 生服务总调查的县(市或市区)样本容量取9 0。具体抽出的县、市或市区见附件5。三、第二阶段整群随机抽样3 1在上述抽取的9 0个“样本县(市或市区)”中,以乡镇(街道)为第二阶段整群系1 : 160 。统随机抽样单位。全国每个乡镇(街道)被抽取为“样本乡镇(街道)”的概率是 第二阶段整群系统随机抽样全国共抽取 450 个乡镇(街道)。平均每个“样本县(市或市区)抽5个乡镇(街道) 。第二阶段分层整群抽样具体由各样本县(市或市区)按下述方法抽取。3 . 2 第二阶段整群随机抽样的基准由于一个县(市或市区)内社会经济、文化教育和卫生状况的差异远小于全国各县、市之 间的差

11、异,因而确定县(市或市区)的抽样基准相对容易。根据我国各县(市或市区)的基本 特征、实际的可操作性和以往抽样调查常用的指标,确定采用人口数(或人均收入)作为分层 基准。3 . 3 第二阶段整群随机抽样的的方法 将样本县(市或市区)所有的乡镇(街道)按人口数的多少(或人均收入的大小)由 多到少依次排序; 由多到少依次计算人口数(或人均收入)的累计数; 计算抽样间隔,用累计的人口总数(或人均收入累计总数)除于抽取的样本数(累计 总数5); 用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这 个数为开始数)随机确定第一个样本乡镇(街道) ,然后加上抽样距离确定第二个样本乡镇(

12、街道),依次类推确定第三至五个样本乡镇(街道)。3 . 4 第二阶段整群随机抽样实例某个样本县共有 18 个乡、镇,要从该样本县抽取5乡镇作为样本。根据抽样方案的要求, 第一步人口数的多少由大到小排序,并计算累计数(该县人口累计数即人口总数为210100 ),见表6;第二步计算抽样间隔,用人口总数除于抽样的样本数,248600 5 = 49720 ,该县乡镇整群抽样的抽样间隔为 49720 ;第三步确定第一个随机数,取一张人民币,其编号的为FP59243854 ,取后5位数是43854 ,所取的后5为数不能大于抽样间隔数,如大于再取一张人民币该后5位随机数接近 第2编号即平湖镇后面的累计数,因

13、此确定第2号平湖镇为第一个样本;第四步用第一个样本的累计数加抽样间隔,即 43000+ 49720= 92720 ,该数接近第5编号即新龙乡的累计数,确定第5号新龙乡为第二个样本。第五步用第二个样本的累计数加抽样间隔,即100900+49720=142920,该数接近第8编号新原乡的累计数,确定第8号新原乡为第三个样本;同样的方法确定第13.号和第18号即桐 连乡和四顶乡。这样,五个样本乡镇就确定了。表6 .第二阶段整群随机抽样的实例编号乡镇人口数编号乡镇人口数编号乡镇人口数1城关镇22000220007平原乡1640013490013.新店镇10000 :!055002平湖镇21000430

14、00*8新原*:14定安乡P 9500 :150003玉阳镇:20000630009.古农乡1400016390015.五岖乡P 8900 :?239004.五一乡P19500 825001王店乡1100017490016五庙乡P 8500 :32400* 5.新龙11.双莲乡1050018540017双山乡8200 :?406006湖泊乡1760011850012桐连乡10100195500 *18四顶乡8000 :?48600四、第三阶段随机抽样4. 1第三阶段随机抽样的基准和样本容量 在同一个乡镇(街道)内,各村(居委会)的经济发展和卫

15、生状况基本上变异不大。 因此,第三阶段不用分层,直接采用随机整群抽样的方法从“样本乡镇(街道)”中抽取样本 村(居委会)。但是,抽样时应按各村人均收入或人口数作为标识进行排序。第三阶段随机抽 样由调查指导员负责。 每个“样本乡镇(街道)”整群随机抽取2个村(居委会),全国共抽取 900个村 (居委会),全国每村(居委会)被抽为样本的概率为1:1120。4. 2第三阶段整群随机抽样的的方法 将样本乡镇(街道)所有的村(居委会)按人均收入的多少(或人口数的大小)由多 到少依次排序; 由多到少依次计算人均收入(或人口数)的累计数; 计算抽样间隔,用累计总数除于抽取的样本数(累计总数/2); 用纸币法

16、(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本村(居委会),然后加上抽样距离确定第二个样本村。4 .3 .第三阶段随机整群抽样的实例第一步将所有的村按人均收入的多少由大到小排序,并计算累计数;第二步计算抽样间隔:7337/2= 3669 ;第三步确定第一个随机数,取一张人民币,其编号的后4 位数是2273,这个随机数接近第4编号的累计数,因此确定第4号村为第一个样本;第五步用第二 位的累计数加抽样间隔(2805+ 3669=6474 ),接近第10.编号的累计数,确定第10.号为第二个样本。表7.第三阶段随机整群抽样实例编号村人均收入累计数编

17、号村人均收入累计数1.镇西店村7247247.长生庙村58946062唐家铺村7211445 :8.王甸子村57451803镇东村68921349民生村5715751* 4.镇北村6712805* 1清平村54462955.李家店村6103415老平埠村53468296.湖泊村6024017高坝村5087337*为随机抽取的样本数。五、样本个体的抽样5 . 1 最终的抽样单位是住户。在每个“样本村(居委会)”中按20 %的比例随机抽取住户,平均每个村抽60户,全国共抽取54000户。全国平均每户被抽取为样本的概率为54000/28000万,约五千户中抽一户。如果按每户四个人计算,人口抽样比为1

18、:5000 左右。5 . 2抽户方法是各样本乡镇(街道)的调查指导员上述抽样比例在样本村(居委会)随机抽取,具体方法: 按人口普查的编码顺序,按门牌号、楼号、单元号、门号从小到大排列; 对同一门牌号,同一个大院和楼号的,按门号从小到大排列,对同一门牌号内没有门号 的按从左到右、从外到里、从下到上的原则编码。一经编码不许变动; 编好住户码列入住户清单表式中:序号户主姓名家庭住址门牌号码家庭人口数累计人口数抽中住户1张三*村*组东1552李四*村*组东2493王五*村*组东3413*4赵六*村*组东4 3175陈七*村*组东552 2。3 0 0赵末*村*组北661200 根据抽样比例计算应抽的户

19、数(一般平均每个样本村6 0户),然后系统随机抽取。方法同上:第一步将所有住户的人口累计数、本村的平均人口数(1200/300=4 )和本村应抽取的住户数(300*20%=60 );第二步计算抽样距离(1200/60=20);第三步确定第一个随机数(如取一张人民币,其编号的后两位数是12,这个随机数接近第3编号的累计数,因此确定第3号住户为第一个样本;第五步用第3号的累计数加抽样距离(13 + 20 =33),看33最接近第几编号住户,并确定这家住户为第二个样本,同理用第二个样本住户对应的累计数加 抽样距离确定第三个样本。同样确定以后各样本住户。 抽样时可多抽取六户,作为备用。抽取方法是在上述

20、抽取完毕以后,按上述步骤再从 未抽取的住户中抽取6户。表8.国家卫生服务总调查样本容量和抽样概率单位名称全国总数抽样样本数抽样概率县/市区2450901:27乡镇/街道700004501:160村/居委会P1000000900 :1:1120户280000000540001:5000人1200000000216000 1:5000全国每一户家庭被抽群为样本的概率模型:90 / 2567* 450 * ST/ (90/2567)*280000000* 2 / ST/280* 60 / 280 =1:5000fffff在样本村每户IIII被抽取的概率一个乡被抽取为样本的概率一个村被抽取为样本的概率

21、I样本乡镇(街道)数ST: 乡镇(街道)户数的大小)一个县(市或市区)被抽取为样本的概率5表5 .不同大小样本量样本社会经济和人口动力学指标的频数分布与总体分布的拟合度检验全国不同大小样本的均数指标均数 12090604530-指标均数:0-14岁人口比例%33.633.333.633.533.031.9岁人口比例%4.94.94.94.95.05.215-49 岁妇女比例%26.226.626.926.7 :25.827.6人均工农业总产值(元)806795767702756813第一产业就业率%74.474.575.576.476.275.4第二产业就业率%15.415.515.215.0

22、16.114.0文盲和半文盲率%32.133.433.433.0 :33.234.6初中学历人口比例%18.218.318.518.219.518.5粗出生率每千人口22.522.723.322.521.321.4粗死亡率每千人口6.36.36.36.36.06.2婴儿死亡率每千出生32.430.530.230.2 J26.226.9(二)相对误差%0-14岁人口比例%0.90.00.31.85.165+岁人口比例%0.00.00.02.06.115-49 岁妇女人口%1.52.71.91.55.3人均工农业总产值(元)1.44.813.06.20.9第一产业就业率%0.11.52.72.41

23、.3第二产业就业率%0.61.32.64.69.1文盲和半文盲率%4.14.12.8 |3.47.8初中学历人口比例%0.61.90.17.12.1粗出生率每千人口0.93.60.05.34.9粗死亡率每千人口0.00.00.04.81.6婴儿死亡率每千出生5.96.86.819.017.0相对误差合计(%)16.126.530.058.261.2平均相对误差(%)1.462.412.735.295.56精确度(%)98.5497.5997.2794.7194.44不同大小样本的卡方值指标12090604530平均人口数/县(市)人口大小0.471.202.835.0714.82*0-14岁人

24、口数/0-14 岁人口比例4.744.367.194.5626.12*65+岁人口数/65+ 岁人口比例9.108.8321.7*13.21*20.90*15-49岁妇女数/15-49岁妇女比例3.793.885.0110.96*32.47*样本数/人均工农业总产值2.926.276.6912.56*28.39*第一产业人数/第一产业就业率2.817.199.328.2025.40*第一产业人数/第一产业就业率3.216.064.2624.24*30.38*文盲半文盲人数/文盲半文盲率4.37P 4.878.447.28P 32.62*初中以上人数/初中以上人口比例3.134.233.746.

25、2318.42*出生人数/粗出生率2.893.494.214.9429.33*死亡人数/粗死亡人数1.912.035.7715.16*19.96*婴儿死亡人数/婴儿死亡率6.7711.6*14.8* 45.45*51.02*卡方值平均数3.615.027.2612.30*25.39*与总体分布无显著性差异的指标数13121171X 95 %( 4)=9.49* X 99 %( 4)=13.27变量各层均数1209060第一层0-14岁人口比24.5825.2425.4225.7765岁及以上人口比4.604.464.434.50人均工农业产值(元)3330337835052463第一产业就业率

26、18.7220.1521.4825.83第二产业就业率55.9154.2154.5551.88文盲半文盲率13.6914.9614.9516.98初中以上人口比32.1532.5032.6931.74粗出生率016.7116.3016.1414.78粗死亡率05.115.165.265.25婴儿死亡率17.4519.5020.6317.25精确度96.8 %95.6 %89.4 %0-14岁人口比32.3632.9633.7232.2465岁及以上人口比4.774.554.474.91人均工农业产值(元)835780777764第一产业就业率64.6266.1066.2865.56第二产业就业率21.2420.3319.8820.67文盲半文盲率23.6922.7222.4222.35初中以上人口比21.6522.3822.3422.80粗出生率019.9020.0919.4718.45粗死亡率05.715.645.535.92婴儿死亡率。26.2025.3425.7223.82精确度96.9 %96.2 %95.8 %表9.不同大小样本社会经济和人口动力学指标的均数以及与各层均数的相对误差(1)9表9不同大小样本社会经济和人口

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论