医学研究的数据管理与分析_第1页
医学研究的数据管理与分析_第2页
医学研究的数据管理与分析_第3页
医学研究的数据管理与分析_第4页
医学研究的数据管理与分析_第5页
已阅读5页,还剩241页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 f(t) =(标准正态曲线标准正态曲线) =5 =10.10.2-4-3-2-1012340.3正态分布正态分布0123450.00.20.40.60.81.0=? 2=175.07cm x j=172.50cm x n =140 n =140 n =140 1=173.86cm x?321总体同质个体、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风 险正常人病人假阳性率假阴性率正常人与病人的数据分布重叠示意图(单侧) 正常人病人假阳性率假阴性率正常人与病人的数据分布重叠示意图(单侧)正常人病人假阳性率假阴性率病人正常人与病人的数据分布重叠示意图(双侧)搜集资料搜集

2、资料整理与分析整理与分析资料资料调查(研究)项目调查(研究)项目分析表(指标)分析表(指标)研究目的研究目的统计分析步骤调查研究步骤设 计 思 路exposure(factor)Disease or health定量数据定量数据等级等级数据数据名义名义数据数据DataEpidataSPSSQuestionnaireFile(*.qes)File(*.rec)File(*.sav)File(*.dat)File(*.dbf)Foxpro,vfp,excellEpicalculatorsampleanalysis统计推断1定量数据的描述 (1)集中和离散趋势 (2)正常值范围和总体可信 区间的估计

3、 2定性数据的统计描述:各种相对指标:率和比,如发病率、病死率、罹患率、二代发病率、平均抗体滴度、保护率、效果指数、标化死亡比等。 1假设检验 (1)定量数据)定量数据 t 检验方差分析(ANOVA): (2)定性数据定性数据X2检验、U检验2变量之间的关系分析 (1)相关分析(2)回归分析(3)定性数据之间得关系分析 数学模型Reed-Frost模型 定量数据中位位置正态分布均数非正态分布对数正态分布几何均数其它分布中位数离散度标准差变异系数均数相差大 单位不同的比较 定性数据二分类率 多分类名义变量构成比等级变量构成比、平均得分联系比值比OR各种设计对比相对危险度RR队列研究设计患病比横断

4、面研究设计 1、 假设检验 定量数据 t检验: 样本均数与总体均数比较 配对设计资料均数比较 成组设计两样本均数比较 方差分析(ANOVA): 成组设计多个样本均数的比较(one-way ANOVA) 配伍组设计多个样本均数比较(two-way ANOVA) 多个样本均数的两两比较(q检验,Student-Newman-Keuls法) 多个实验组和一个对照组均数间的两两比较(LSD法和Duncan法)配对比较正态配对t检验 非正态数据转换 非参数成对比较符号检验符号等级检验(Wilcoxon法)两组比较正态成组比较t检验 非正态数据转换 非参数成组比较两样本等级秩和检验Wilcoxon Man

5、n and Whitney法配 伍组比较正态随机区组ANOVA多重比较非正态数据转换非参数配伍组比较-M检验(Friedman法)多组比较正态完全随机设计ANOVA多重比较非正态数据转化非参数多组比较-H检验(Kruskal and Wallis法)定量数据差别的统计意义检验小结 一、病例报告/个案调查二、病例对照研究三、随访研究1遵循科学的思维逻辑2了解不同研究设计的效率3遵循概率论的基本原则4树立对比的观点5深刻理解统计学联系的本质一、数据分析结果解释应遵循的原则二、统计学联系的本质 真实的联系 机遇(chance) 偏倚(bias)三、解释的思路 统计学 逻辑学 生物医学随机化过程随机化

6、过程随机抽样随机抽样随机分组随机分组样本量的估算样本量的估算研究功效的估算研究功效的估算1张训张训2吴明吴明3李娜李娜4王金华王金华5王大勇王大勇6龚向荣龚向荣7胡玉胡玉8和平和平9刘平刘平10黎明黎明11李小林李小林12李勇李勇13陈泳陈泳14向丽娜向丽娜15吕明海吕明海16吴大维吴大维17王菲王菲18窦唯窦唯19周润发周润发20张惠妹张惠妹21章子怡章子怡22刘玉文刘玉文23周结伦周结伦24韩红韩红25林忆莲林忆莲26梅艳芳梅艳芳27刘嘉玲刘嘉玲28张曼玉张曼玉29张柏芝张柏芝30周迅周迅31巩俐巩俐32刘晓庆刘晓庆33瞿颖瞿颖34刘德华刘德华35刘青云刘青云36梁朝伟梁朝伟37杨家辉杨家

7、辉38钟镇涛钟镇涛39刘松仁刘松仁40汤镇业汤镇业41汤镇宗汤镇宗42孙楠孙楠43张艺谋张艺谋44冯小刚冯小刚45雪村雪村46英打英打47赵本山赵本山48催永远催永远EpiCalcSampleRandom numbersList随机抽样随机抽样EpiCalc 2000EpiCalc 20001张训张训2吴明吴明3李娜李娜4王金华王金华5王大勇王大勇6龚向荣龚向荣7胡玉胡玉8和平和平9刘平刘平10黎明黎明11李小林李小林12李勇李勇13陈泳陈泳14向丽娜向丽娜15吕明海吕明海16吴大维吴大维17王菲王菲18窦唯窦唯19周润发周润发20张惠妹张惠妹21章子怡章子怡22刘玉文刘玉文23周结伦周结伦2

8、4韩红韩红25林忆莲林忆莲26梅艳芳梅艳芳27刘嘉玲刘嘉玲28张曼玉张曼玉29张柏芝张柏芝30周迅周迅31巩俐巩俐32刘晓庆刘晓庆33瞿颖瞿颖34刘德华刘德华35刘青云刘青云36梁朝伟梁朝伟37杨家辉杨家辉38钟镇涛钟镇涛39刘松仁刘松仁40汤镇业汤镇业41汤镇宗汤镇宗42孙楠孙楠43张艺谋张艺谋44冯小刚冯小刚45雪村雪村46英打英打47赵本山赵本山48催永远催永远SPSSDataSelect casesRandom sample of cases留意种子数留意种子数简单随机分组简单随机分组EpiCalc 2000EpiCalc 2000估计样本量的意义估计样本量的意义过小过小: 抽样误差大

9、、代表性差、不易得出有意义的结果抽样误差大、代表性差、不易得出有意义的结果过大过大: 不必要的浪费不必要的浪费预期的现患率预期的现患率: 越高,所需样本量越小越高,所需样本量越小对调查结果精确性的要求对调查结果精确性的要求: 允许误差越大,所允许误差越大,所需样本量越小需样本量越小现况研究现况研究影响样本含量的因素影响样本含量的因素 某卫生防疫站拟调查了解该地成人白细胞数某卫生防疫站拟调查了解该地成人白细胞数是否偏低,若用抽样调查,样本含量至少应有多是否偏低,若用抽样调查,样本含量至少应有多少人?据文献报道,正常成人白细胞数的标准差少人?据文献报道,正常成人白细胞数的标准差约约1000个个/m

10、m3,规定容许误差为,规定容许误差为100个个/mm3。 现况研究现况研究李立明主编李立明主编. 流行病学流行病学. 第第4版版. 北京北京: 人民卫生出版社人民卫生出版社. 1999. p47.EpiCalcSamplePrecisionSingle mean1. 计量资料计量资料EpiCalc 2000EpiCalc 2000 某卫生防疫站为了制订驱蛔虫计划,编制经某卫生防疫站为了制订驱蛔虫计划,编制经费、药品预算,需要抽样估计当地儿童蛔虫感染费、药品预算,需要抽样估计当地儿童蛔虫感染率。据该地以往经验,儿童蛔虫感染率一般不高率。据该地以往经验,儿童蛔虫感染率一般不高于于30%,若规定容许

11、误差为,若规定容许误差为3%,则样本含量至,则样本含量至少应为多少人?少应为多少人? 现况研究现况研究李立明主编李立明主编. 流行病学流行病学. 第第4版版. 北京北京: 人民卫生出版社人民卫生出版社. 1999. p47.EpiCalcSamplePrecisionSingle proportion2. 计数资料计数资料EpiCalc 2000EpiCalc 2000 已知某乡人口已知某乡人口4537人,欲调查某病患病率。人,欲调查某病患病率。估计患病率为估计患病率为2%,允许误差为,允许误差为0.5%,设计效应,设计效应(design effect)设为)设为2,计算所需样本量。,计算所需

12、样本量。 现况研究现况研究3. 在有限总体中进行抽样调查在有限总体中进行抽样调查参考参考“杨树勤主编杨树勤主编. 卫生统计学卫生统计学. 第三版第三版. 北京北京: 人人民卫生出版社民卫生出版社. 1996.” p138. SampleXSSampleXS设计效应(设计效应(design effect)单纯随机抽样或系统抽样单纯随机抽样或系统抽样: 1整群抽样整群抽样: 1 (根据经验、参考文献估计根据经验、参考文献估计) 例如,免疫覆盖率调查和营养状况调查例如,免疫覆盖率调查和营养状况调查: 2练习练习1. 固定其它参数,只增加或减少总体人数固定其它参数,只增加或减少总体人数(1,000、1

13、0,000、100,000、100,000,000),看样本,看样本量的变化趋势;量的变化趋势;2. 固定总体人数在固定总体人数在1,000,000,增加或减少现患率,增加或减少现患率(容许误差按容许误差按0.1P计算计算),看样本量变化趋势;,看样本量变化趋势;3. 固定总体人数在固定总体人数在1,000,000,并固定现患率,增加,并固定现患率,增加或减少容许误差,看样本量变化趋势;或减少容许误差,看样本量变化趋势;4. 固定总体人数在固定总体人数在1,000,000,同样的参数,分别用,同样的参数,分别用SampleXS和和EpiCalc2000计算样本量,看两者之计算样本量,看两者之间

14、的关系,可改变设计效应值试试。间的关系,可改变设计效应值试试。体会样本量影响因素的作用方式体会样本量影响因素的作用方式队列研究队列研究工作时序工作时序样本量计算中需考虑的几个问题样本量计算中需考虑的几个问题抽样方法抽样方法暴露组与非暴露组的比例暴露组与非暴露组的比例: 非暴露组的样本非暴露组的样本量不宜少于暴露组,通常采取等量量不宜少于暴露组,通常采取等量失访率失访率: 例如例如10%队列研究队列研究影响因素影响因素暴露组与对照组人群发病率之差暴露组与对照组人群发病率之差/比比一般人群一般人群(对照人群对照人群)中所研究疾病的发病率中所研究疾病的发病率p0 显著性水平显著性水平: 效力效力(把

15、握度把握度, power): 1- 差差/比值越大,所需样本量越小比值越大,所需样本量越小队列研究队列研究影响因素影响因素暴露组与对照组人群发病率之差暴露组与对照组人群发病率之差/比比一般人群一般人群(对照人群对照人群)中所研究疾病的发病率中所研究疾病的发病率p0 显著性水平显著性水平: 效力效力(把握度把握度, power): 1- 率差固定率差固定: p0越大越大率比越小率比越小所需样本量越大所需样本量越大率比固定率比固定: p0越大越大率差越大率差越大所需样本量越小所需样本量越小暴露组人群发病率暴露组人群发病率p1固定固定: p0越大越大率比率比/差越小差越小所需样本量越大所需样本量越大

16、队列研究队列研究影响因素影响因素暴露组与对照组人群发病率之差暴露组与对照组人群发病率之差/比比一般人群一般人群(对照人群对照人群)中所研究疾病的发病率中所研究疾病的发病率p0 显著性水平显著性水平: 效力效力(把握度把握度, power): 1- =0.01时所需样本量大于时所需样本量大于 =0.05队列研究队列研究影响因素影响因素暴露组与对照组人群发病率之差暴露组与对照组人群发病率之差/比比一般人群一般人群(对照人群对照人群)中所研究疾病的发病率中所研究疾病的发病率p0 显著性水平显著性水平: 效力效力(把握度把握度, power): 1- (1- )越大,即越大,即 越小,所需样本量越大越

17、小,所需样本量越大 =0.10或或 =0.20队列研究队列研究 用队列研究探讨孕妇暴露于某药物与婴儿先用队列研究探讨孕妇暴露于某药物与婴儿先天性心脏病之间的联系。已知非暴露孕妇所生婴天性心脏病之间的联系。已知非暴露孕妇所生婴儿的先天性心脏病发病率儿的先天性心脏病发病率(p0)为为0.007,估计该药,估计该药物暴露的物暴露的RR为为2.5,设,设 =0.05(双侧),(双侧), =0.10,求调查所需的样本量。求调查所需的样本量。 队列研究队列研究李立明主编李立明主编. 流行病学流行病学. 第第5版版. 北京北京: 人民卫生出版社人民卫生出版社. 2003. p68.EpiCalcSample

18、SizeTwo ratesEpiCalc 20000.0072.5=0.0175EpiCalc 2000考虑失访:考虑失访:N=2332/0.9=2591如果不是单纯随机抽样,还需适当增加样本如果不是单纯随机抽样,还需适当增加样本病例对照研究病例对照研究工作时序工作时序影响因素影响因素研究因素在研究因素在对照组对照组中的暴露率中的暴露率P0预期的该因素引起的相对危险度预期的该因素引起的相对危险度RR或暴露的比值比或暴露的比值比OR 1- 病例对照研究病例对照研究 拟进行一项非匹配设计的病例对照研究,探拟进行一项非匹配设计的病例对照研究,探讨吸烟与肺癌的关系。预期吸烟者发生肺癌的相讨吸烟与肺癌的

19、关系。预期吸烟者发生肺癌的相对危险度为对危险度为2.0,人群中的吸烟率约为,人群中的吸烟率约为20%,设,设 =0.05(双侧),(双侧), =0.10,估计样本含量(病例,估计样本含量(病例组和对照组采用相等样本量)。组和对照组采用相等样本量)。李立明主编李立明主编. 流行病学流行病学. 第第5版版. 北京北京: 人民卫生出版社人民卫生出版社. 2003. p91.EpiCalcSampleSizeCase-control study非匹配设计非匹配设计EpiCalc 2000EpiCalc 2000EpiCalc 20001:R 拟进行一项拟进行一项1:1匹配设计的病例对照研究,匹配设计的

20、病例对照研究,研究口服避孕药与先天性心脏病的关系,设研究口服避孕药与先天性心脏病的关系,设 =0.05(双侧),(双侧), =0.10,对照组暴露比例为,对照组暴露比例为p0=0.3,估计的,估计的RR=2,估计样本含量。,估计样本含量。李立明主编李立明主编. 流行病学流行病学. 第第5版版. 北京北京: 人民卫生出版社人民卫生出版社. 2003. p92.NCSS-PASSPASSProportionsMatched Case/Control1:1 匹配设计阅读帮助阅读帮助影响因素影响因素p干预前结局指标干预前结局指标 ,样本量,样本量 p干预措施实施前后的变化干预措施实施前后的变化 ,样本

21、量,样本量 p,样本量,样本量 p(1 - ) ,样本量,样本量 p单侧检验单侧检验 或双侧检验或双侧检验 p研究对象分组数量研究对象分组数量实验流行病学研究实验流行病学研究 假设对照组血清胆固醇水平为假设对照组血清胆固醇水平为215mg/dl,合,合理膳食估计可以使干预组较对照组降低理膳食估计可以使干预组较对照组降低15mg/dl,从其它资料获得胆固醇标准差约为从其它资料获得胆固醇标准差约为25mg/dl,规,规定定 =0.05(双侧),(双侧), =0.05,计算干预组和对照,计算干预组和对照组所需样本数?组所需样本数? 实验流行病学研究实验流行病学研究李立明主编李立明主编. 流行病学流行

22、病学. 第第5版版. 北京北京: 人民卫生出版社人民卫生出版社. 2003. p113.EpiCalcSampleSizeTwo means1. 计量资料计量资料EpiCalc 2000EpiCalc 2000 假设对照组的发病率为假设对照组的发病率为40%,通过干预措施,通过干预措施发病率下降到发病率下降到20%才有推广使用价值,规定才有推广使用价值,规定 =0.01(双侧),(双侧), =0.05,问两组要观察多少人?,问两组要观察多少人? 实验流行病学研究实验流行病学研究李立明主编李立明主编. 流行病学流行病学. 第第5版版. 北京北京: 人民卫生出版社人民卫生出版社. 2003. p1

23、12.EpiCalcSampleSizeTwo proportions2. 计数资料计数资料EpiCalc 2000EpiCalc 2000筛检试验的评价筛检试验的评价 假如待评价的筛检试验的灵敏度估计为假如待评价的筛检试验的灵敏度估计为75%,特异度估计为特异度估计为55%,容许误差为,容许误差为8%,设,设 =0.05,试计算病例组和对照组所需要样本量。试计算病例组和对照组所需要样本量。筛检试验的评价筛检试验的评价李立明主编李立明主编. 流行病学流行病学. 第第5版版. 北京北京: 人民卫生出版社人民卫生出版社. 2003. p288.EpiCalcSamplePrecisionSingl

24、e proportion 用灵敏度水平估计病例组所需样本量,特异用灵敏度水平估计病例组所需样本量,特异度估计对照组所需样本量。度估计对照组所需样本量。EpiCalc 2000EpiCalc 2000EpiCalc 2000EpiCalc 2000 当待评价筛检试验的灵敏度或特异度当待评价筛检试验的灵敏度或特异度80%时,需要进行平方根反正弦转换,用专门公式时,需要进行平方根反正弦转换,用专门公式计算。参考计算。参考“李立明主编李立明主编. 流行病学流行病学. 第第5版版. 北京北京: 人人民卫生出版社民卫生出版社. 2003. p288.”筛检试验的评价筛检试验的评价研究功效研究功效(powe

25、r) 又称把握度,指拒绝无效假设的能力,又称把握度,指拒绝无效假设的能力,即当无效假设不成立时,该假设被拒绝的即当无效假设不成立时,该假设被拒绝的概率。概率。队列研究队列研究EpiCalc 2000EpiCalc 2000 PASS Proportions Proportion: 2 Groups统计学检验为阴性结果统计学检验为阴性结果不要急于下阴性结论,计算该项研究的功效不要急于下阴性结论,计算该项研究的功效! !得到阳性结果得到阳性结果不必再计算功效不必再计算功效功效功效75%仍为阴性结果仍为阴性结果不必再增加样本量不必再增加样本量措施措施增加样本量增加样本量(总的样本量或单纯增加对照组数

26、量)(总的样本量或单纯增加对照组数量) 假定人群中暴露于研究的危险因素的比例假定人群中暴露于研究的危险因素的比例p0=0.30,统计学双侧检验的显著性水平,统计学双侧检验的显著性水平 =0.05,病例与对照各病例与对照各50例例 (1:1匹配匹配)。计算该研究有多。计算该研究有多大的功效发现大的功效发现OR=2。 病例对照研究病例对照研究李立明主编李立明主编. 流行病学流行病学. 第第5版版. 北京北京: 人民卫生出版社人民卫生出版社. 2003. p100. PASS Proportions Matched Case/ControlVisual FoxPro,FoxBase,epi2000,

27、Lotus,SPSS, SAS,DataEntry, InputSAS,STATRevMan and MetaView1.建立调查表文件建立调查表文件 文件结构文件结构: 字段名字段名 字段类型字段类型 字段长度字段长度 文件名文件名数据转出数据转出?DBF刚才介绍的内容有助于完成一般的资料录入计算机的任务,关于EpiData的数据录入与管理功能还有很多,完全掌握需要进一步系统学习!目前版本人时计算人时计算发病密度的计算发病密度的计算吕筠 两组发病密度的比较两组发病密度的比较 段广才主编段广才主编. 流行病学实习指导流行病学实习指导. 北京北京: 人民卫生出版社人民卫生出版社. 2000. p

28、49. EpiCalcCompareRatesIncidence density.sav 李立明主编李立明主编. 流行病学流行病学. 第第5版版. 北京北京: 人民卫生出版社人民卫生出版社. 2003. p64.EpiCalcTables2-by-2 unstratified SPSSSPSSAnalyzeDescriptive StatisticsCrosstabsStatistics: Chi-square/RiskSPSS段广才主编段广才主编. 流行病学实习指导流行病学实习指导. 北京北京: 人民卫生出版社人民卫生出版社. 2000. p50-51. EpiCalcCompareProp

29、ortions as trendEpiCalc 2000EpiCalc 2000SPSSSPSSAnalyzeDescriptive StatisticsCrosstabsStatistics: Chi-squaredose response-cohort.sav SPSSSPSSAnalyzeSurvivalCox Regression先新建一个先新建一个time变量,变量,病例组赋值为病例组赋值为1,非病例组,非病例组赋值为赋值为2李立明主编李立明主编. 流行病学流行病学. 第第5版版. 北京北京: 人民卫生出版社人民卫生出版社. 2003. p95.EpiCalcTables2-by-2

30、 unstratified EpiCalc 2000EpiCalc 2000资料分析步骤 整理四格表2检验 计算OR及其可信区间SPSSSPSSAnalyzeDescriptive StatisticsCrosstabsStatistics: Chi-square/RiskSPSSOR=2.20 (1.253.86)考虑年龄这个第三因素考虑年龄这个第三因素暴露与疾病以外的第暴露与疾病以外的第3个变量个变量研究设计时采用限制或匹配的方法研究设计时采用限制或匹配的方法资料分析阶段采用资料分析阶段采用分层分析分层分析或多因素分析方法或多因素分析方法控制混杂因素的方法控制混杂因素的方法李立明主编李立明主编. 流行病学流行病学. 第第5版版. 北京北京: 人民卫生出版社人民卫生出版社. 2003. p97.Stratified OR.sav AnalyzeDescriptive StatisticsCrosstabsSPSS计算各层计算各层OROR40=2.80, OR 40=2.78, 经检验,同质,可以计算总经检验,同质,可以计算总OR各层各层OR同质性检验同质性检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论