现场调查中的抽样方法(PPT75页)_第1页
现场调查中的抽样方法(PPT75页)_第2页
现场调查中的抽样方法(PPT75页)_第3页
现场调查中的抽样方法(PPT75页)_第4页
现场调查中的抽样方法(PPT75页)_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、现场调查中的抽样方法1练习人群总数10000(男4000人,女6000)分层抽样,男性抽100人,女性抽1000人,共1100人样本中共105人抽烟,其中男性55人,女性50人问:人群总吸烟率是多少?2练习人群总数10000(男4000人,女6000),抽取样本男100人(55人抽烟), 女1000人(50人抽烟)。问:人群总吸烟率是多少?直接算法:总吸烟率 = (55+50)/(100+1000) = 9.5%正确算法:男4000抽100,每人代表40人(W=40) 女6000抽1000,每人代表6人(W=6) 总吸烟率 = (55*40+50*6)/(100*40+1000*6) = 25

2、%3调查的分类普查(全面调查)典型调查(案例调查)抽样调查4普查 Census人群中每个人都调查没有抽样误差人群很小时可以使用人群数很大时耗费人、财、物力,质量不易控制,非抽样误差大不适于患病率低和诊断技术比较复杂的疾病无应答率常常较高5典型调查(案例调查) 有目的地选定典型的人、单位进行调查,对事物特征作深入了解。 没有随机原则,不能估计总体参数,只能对总体特征作经验推论,不属于统计推断的范畴6抽样调查 抽样调查:从总体中抽取一定数量的观察单位组成样本,根据样本信息来了解总体特征。7基本概念总体:根据研究目的确定的同质观察单位的全体样本:从总体中随机抽取的部分观察单位的总和抽样的目的:用样本

3、信息推断总体特征抽样误差: 由抽样造成的样本信息偏离总体参数可计算总体参数的95%可信区间895%可信区间:以样本信息推论总体时,计算出的可信区间有95%的概率覆盖总体参数。高血压患病率为20%(15%-28%)高血压患病率为18%(4%-51%)9X市居民甲状腺结节患病情况调查:在沿海地区、山区、平原地区各随机抽取1个村庄,每个村中再随机抽取100户家庭,每个家庭的全部成员作为调查对象。在某地区的医院进行医院感染情况的抽样调查,抽中40所医院。实施过程中,有些医院不配合。可根据医院特征(如同级、同类、病床数)替换愿意配合的医院。10调查某地区腹泻患病率,采用多阶段抽样方法。第1阶段:兼顾地理

4、位置、经济水平、人口数量、工作基础和意愿,选择A县、B县,C区和D县作为调查点;第2阶段11在某地区进行某病患病率调查,将乡镇按收入水平分层3层(高中低三层分别有150、120、100个乡镇),在每层各抽取10个乡镇,每个乡镇再各随机抽取2个村庄,抽中村庄内居民全部调查。抽样方法设计如何?每个村庄约60人,共调查到2400人,其中240人患病,患病率为多少?12两类抽样方法非概率抽样:无法确定被调查对象的概率,无法推断总体,常用于探索性研究碰巧抽样或方便抽样:超市里走出的前10个人意图抽样:调查者有意的抽取某些对象,认为能代表某类人群。如:选择一个大城市,一个城镇,一个乡村地区 滚雪球抽样概率

5、抽样:每个个体有一个可计算的非零概率, 可计算抽样误差,可推断总体13概率抽样调查 Sample surveys按一定的概率,在人群中抽取一部分人来调查以样本统计量估计总体参数节省时间、人力、物力,调查可以做得更细致不适用于患病率很低疾病14常用概率抽样的方法简单随机抽样系统抽样(等距抽样、机械抽样)分层抽样(分类抽样)整群抽样15将总体的全部观察单位编号,再用随机数字等方法随机抽取部分观察单位组成样本例:某中学2100名学生,随机抽200人估计近视率 先将所有学生编号:1,2,3,4,2100 查随机数字表 6394 0710 6376 3587 0304 7988 94 710 76 14

6、87 304 1688 注意:8400以上的数字不要 产生随机数字: =rand() =randbetween() 随机数字发生器 (练习)单纯随机抽样 Simple random sampling (SRS)16 1, 2, 3, 4, 21002101,2102,2103,2104,42004201,4202,4203,4204,63006301,6302,6303,6304,84008401,8402,8403,8404,9999105001600个数2100个数1600个数500个数17单纯随机抽样优点:均数(或率)及标准误的计算简单缺点:总体例数多时,需有全部名单,编号18将全部观察

7、单位根据某一顺序编号,计算抽样间隔,随机抽第k号(小于抽样间隔)观察单位,然后依次用相等间隔抽取观察单位组成样本 先将所有学生编号:1,2,3,4,2100 确定抽样间隔:2100/200=10.5(人),取10 在1-10之间随机找一个数字,例如4 依次机械抽取:14,24,34, ,1994,2004 系统抽样19系统抽样优点:易于理解,易行样本是均匀分布的,抽样误差小于单纯随机抽样,对样本进行方差估计时,可以将它看成是SRS缺点:当抽样单位的排列有周期趋势时,抽样结果可能有偏差20根据样本量估算,需要抽取该社区1/10的儿童采血检测;每个家庭有门牌号,从1-2000号,单号一排,双号一排

8、。调查者首先用随机数字表从1-10中选一个数字,然后用系统随机方法抽取该街道的1/10有儿童的家庭。这一抽样方法有什么潜在问题?在农村某地区开展儿童维生素D缺乏调查21分层抽样按影响较大的某种特征将总体分成若干组(统计上叫做”层”),再从每一层内随机抽取一定数量的观察单位分层变量最好是层间差别大,层内差别小层内样本量分配按比例分配等额分配最优分配按照性别分层,男生和女生每层中随机抽取100名学生层1层2层3总体层1层2层3总体22分层抽样优点:减少抽样误差,分层后增加层内同质性便于对不同的层采取不同的抽样方法,如城乡分层还可对不同层独立进行分析(各层要满足样本量)23先将总体分成若干个群,每个

9、群包括若干观察单位,再随机抽取k个群,每个群的全部观察单位组成样本整群抽样Population of L strata, stratum l contains nl unitsPopulation of C clustersTake SRS in every stratumTake SRS of clusters, sample every unit in chosen clusters24群间差异越小、抽取的“群”越多,精度越高,样本量确定后,宜增加“群”数而减少群内的观察数 学校共有70个班(各个班级情况相似时比较好) 随机抽取20个班(各班人数越少,抽班级数越多越好) 20个班级的所有学

10、生都调查整群抽样25整群抽样优点:便于组织、节省经费,容易控制调查质量缺点:当样本例数一定时,抽样误差大于单纯随机抽样的误差抽取的群数应尽量多(15个),群数太少抽样误差大26各种抽样方法的方差分层抽样 系统抽样 单纯随机抽样 整群抽样27 设计效力(Design Effect):样本量不变时,实际抽样方法的方差与单纯随机抽样的方差的比值 Ratio of actual variance to variance assuming SRS, given same n DE一般为1.3-328多阶段抽样单阶段抽样:四种基本抽样方法都是通过一次抽样产生一个完整的样本多阶段抽样:总体大,情况复杂,分布

11、广,可分若干阶段进行抽样,每个阶段可用上述四种方法中任意一种进行抽样例:在某省进行某项调查:第一阶段:用系统抽样法随机抽取30个县第二阶段:用SRS法每县抽取10个自然村第三阶段:用SRS法每村抽取10名村民29第1阶段为初级抽样单位PSU(primary sampling unit)第2阶段为二级抽样单位SSU(second sampling unit)第3阶段为三级抽样单位TSU(tertiary sampling unit)初级抽样单位多,调查结果抽样误差小,精度高建议不少于10-15个30第1阶段:50个班级中随机抽取20个班级第2阶段:每个抽中班级中随机抽取3个小组第3阶段:每个小组

12、中随机抽取4名学生 初级抽样单位:班级 二级抽样单位:班级里的小组 三级抽样单位:学生31阜阳市各级医疗机构治疗发热儿童用药现况调查 322008年安徽省阜阳市发生EV71手足口病疫情3月1日至5月9日共报告6049病例99%的为14岁以下儿童大多数病例以急性发热起病EV71重症危险因素研究发现首诊在村级医疗机构氨基比林和激素类药物33调查目的了解阜阳市各级医疗机构治疗发热儿童的用药现状发现存在的问题及影响因素为规范发热儿童用药提供依据 34调查对象和内容各级医疗机构的儿科医生:访谈用药习惯各级医疗机构发热儿童的治疗处方:各种药物的使用情况35样本量计算根据简单随机抽样计算公式,以氨基比林使用

13、比例为p,=5%,设计效率1.44根据预调查获得各级医疗机构氨基比林使用比例计算样本量医院级别p样本量市(县)0.12234乡镇0.25415村级0.1731236市级和县级共8家医院乡镇卫生院171所村诊所:每个乡镇有20-40所左右调查3-6月份的各级医院的处方用药情况,如何抽样?37处方:分层多阶段抽样抽取市(县)、乡镇及村级医疗机构市、县级医院:8所全部调查乡镇医院:171所中随机抽取30所村诊所:在抽中的30个乡镇医院所在乡镇中,分别随机抽取1-2个村卫生室,共40所抽取各医院2008年3-6月治疗发热儿童的用药处方市、县级医院:每月随机抽取8张,共32张乡镇医院:每月随机抽取4张,

14、共16张村卫生室:每月随机抽取2张,共8张 38医生:分层多阶段抽样抽取市(县)、乡镇及村级医疗机构市、县级医院:8所全部调查乡镇医院:171所中随机抽取30所村诊所:在抽中的30个乡镇医院所在乡镇中,分别随机抽取1-2个村卫生室,共40所抽取到医院的儿科医生全部调查39某市医务人员甲型H1N1流感疫苗接种意愿调查40背 景2009年甲型H1N1流感大流行,防控工作再次成为全球关注焦点流感疫苗-有效防控流感的手段 41WHO和我国准备为医务人员优先接种甲型H1N1疫苗医务人员是特殊群体,非常重要:救治病人的中坚力量暴露的高风险人群感染后易传给患者,医院内传播文献显示医务人员流感疫苗接种率较低4

15、2目的了解该市医护人员接种甲型H1N1疫苗的意愿,分析不愿接种的原因,为政府制定流感疫苗接种策略提供科学依据43研究人群:该市医护人员如何抽样?44采用分层二阶段抽样方法第一阶段:先抽医院第二阶段:再抽取医护人员 第一阶段抽取多少医院合适?45抽取5家?抽取10家?抽取20家?抽取30家?抽取50家?46抽取的Cluster越少,抽样误差越大数理统计推理和中心极限定理表明,从正态总体中随机抽取例数为n的样本,样本均数服从正态分布对样本均数这个正态变量采用u=(样本均数-总体均数)/变换,变换为标准正态分布N(0.1),即u分布。实际工作中往往是s来估计的,这时就是t变换了,其结果就是t分布可信

16、区间估计时,因为未知,一般按照t分布的原理, 95%CI=Xbar SE =1, t=12.7 =2, t= 4.3 =3, t= 3.18, 2.2 (=10) 2.1(=20) 2.0(=30) 1.96(=infinite) 47随着cluster增加,95%CI越精确假设医院疫苗接种意愿率50%,抽4家,95%CI:44%-56%抽8家,95%CI:45.7%-54.3%抽13家,95%CI:46.2%-53.9%抽18家,95%CI:46.5%-53.5%48采用分层二阶段抽样方法第一阶段:共随机抽取30家医院,其中:三级医院抽取5家二级医院抽取10家一级医院抽取15家第二阶段:抽取

17、医护人员每家医院中随机抽取若干名医护人员 每家医院中抽取多少名医护人员?49估计总体率的样本量(按简单随机抽样计算)=0.05,U=1.96, p=估计总体率, =容许误差,一般取总体率95%可信区间宽度的一半医护人员甲流疫苗愿意接种率50%,=0.05,=5%如果p=0.5,则 n=1.96 0.5(1-0.5)/ 0.05 400 人2250两阶段抽样,样本量需要乘以设计效力两阶段抽样的抽样误差大于单纯随机抽样本次抽样方法需要乘以设计效力,2 共需约800名医护人员失访率10%,约900人51900名样本的分配医院级别医护人员总数三级5家4000二级10家4000一级15家900 合计52

18、900名样本的分配:等额分配医院级别医护人员总数每家医院抽取人数共抽取人数三级5家400060300二级10家400030300一级15家90020300 合计 90053什么是PSU?什么是分层变量?54假如是单纯随机抽样,总体率的计算该市医护人员中,接种意愿率为:49.9% 95%CI:46.6%-53.2%900名医护人员中,449名愿意接种,意愿接种率点值估计: 95%CI估计:练习计算55权重调整权重的大小:weight=1/抽样概率每名个体抽样概率不等时,需要按照权重进行调整权重调整的目的:使调整后样本人群的特征与总体人群特征一致 如:总体为3000人,男女比例1:1 样本中男生抽

19、100人,女生抽200人56男生100女生200女生=1500男生=1500男生抽样概率=100/1500= 1/15女生抽样概率=200/1500= 2/15男生权重=1/(1/15)=15女生权重=1/(200/1500)= 7.557复杂抽样方差与SRS不同,需用特殊软件计算EpiInfo有三个模块,可以进行复杂抽样的一些基本分析Complex Sample FrequenciesComplex Sample TablesComplex Sample Means更为复杂的计算需要用其他软件SAS, SUDAAN, SPSS, STATA区间(方差)估计计算时需要PSU和权重!58医院编号

20、医护人员总数抽取医护人员数量医护人员在医院内被抽样概率p2每个医院被抽中概率p1每个医护人员总抽样概率 p1*p2权重1900602800603700604600605100060三级医院共抽取5家(共18家),每家被抽中概率p1=0.2859医院编号医护人员总数抽取医护人员数量医护人员在医院内被抽样概率p2每个医院被抽中概率p1每个医护人员总抽样概率 p1*p2权重1400302500303300304450305350306470307330308300309320301028030二级医院共抽取10家(共25家),每家被抽中概率p1=0.460医院编号医护人员总数抽取医护人员数量医护人员

21、在医院内被抽样概率p2每个医院被抽中概率p1每个医护人员总抽样概率 p1*p2权重1802027020355204452055020640207602086720一级医院共抽取15家(共45家),每家被抽中概率p1=0.3361医院编号医护人员总数抽取医护人员数量医护人员在医院内被抽样概率p2每个医院被抽中概率p1每个医护人员总抽样概率 p1*p2权重1900600.0670.280.012832800600.0750.280.021483700600.0860.280.025404600600.10.280.0283651000600.060.280.01759三级医院共抽取5家,每家被抽中

22、概率p1=0.2862医院编号医护人员总数抽取医护人员数量医护人员在医院内被抽样概率p2每个医院被抽中概率p1每个医护人员总抽样概率 p1*p2权重1400300.0750.40.03332500300.060.40.024423300300.10.40.04254450300.0670.40.027375350300.0860.40.034296470300.0640.40.025407330300.090.40.036288300300.10.40.04259320300.0940.40.0382610280300.110.40.04423二级医院共抽取10家,每家被抽中概率p1=0.463医院编号医护人员总数抽取医护人员数量医护人员在医院内被抽样概率p2每个医院被抽中概率p1每个医护人员总抽样概率 p1*p2权重180200.250.330.08312270200.2860.330.09411355200.3640.330.128.3445200.4440.330.1466.8550200.40.330.1327.6640200.50.330.1656.1760200.330.330.1099.2867200.2990.330.1327.6一级医院共抽取15家,每家被抽中概率p1=0.3364按权重调整的意愿接种率权重调整的意愿接种率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论