版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学研究的数据管理与分析DataManagementandAnalysis医学研究的数据管理与分析DataManagementan目录第一章绪论第二章现场调查技术第三章调查表设计第四章常用研究设计的数据统计分析过程第五章数据处理及其质量控制第六章数据库和常用数据库管理软件简介第七章EpiData软件应用第八章
SPSS软件应用(一)第九章
SPSS软件应用(二)第十章
SPSS软件应用(三)第十一章
SPSS软件应用(四)第十二章常见统计图表的软件实现第十三章EpiCalC软件应用第十四章ReviewManager软件应用第十五章
EpiInfo2002软件简介第十六章
SAS软件简介目录第一章绪论第八章SPSS软件应用(一)课程教学目标能利用统计学的思维解决医学研究中遇到的问题;能够掌握EpiData、SPSS等软件的常规运用;能够进一步自学EpiData、SPSS等软件;提高医学研究数据处理和统计分析的能力。课程教学目标能利用统计学的思维解决医学研究中遇到的问题;课程教学计划绪论——调查研究基础数据管理——EpiData软件应用数据分析——SPSS软件应用表格数据分析——EpiCalc软件应用(自学)数据综合分析——实际资料演练课程教学计划绪论——调查研究基础主要参考书目
《卫生统计学》(第七版)方积亁主编,人民卫生出版社,2012年8月。《医学统计学》(第五版)马斌荣主编,人民卫生出版社,2008年6月。《中医统计学》(第二版)申杰、王泓午等编著,科学出版社,2012年7月。《医学科研中的统计方法》(第四版)马斌荣主编,科学出版社,2012年6月。《临床医学研究设计和数据分析》赵耐青主编,复旦大学出版社,2005年7月。《医学科研数据的处理与分析方法》陈大方、陈常中主编,北京医科大学出版社,2006年5月。《医学统计学与SPSS软件实现方法》郭秀花、刘美娜等编著,科学出版社,2012年8月。主要参考书目《卫生统计学》(第七版)方积亁主编,人民卫数据决策数据决策医学研究的数据管理与分析——第一章绪论课件医学研究的数据管理与分析——第一章绪论课件科研工作的基本程序(1)立题设计观察和实验资料整理和数据统计分析理性概括科研工作的基本程序(1)立题科研工作的基本程序(2)确定题目(选题过程)
1.提出问题(problem)
2.文献查阅(criticalreviewofliteratures)
3.假说形成(formulationofhypothesis)
4.陈述问题(statementoftheproblem)安排实验
5.实验设计(experimentaldesign)
6.实验观察(experimentalinvestigation)
7.数据资料积累(accumulationofrawdata)总结成文
8.数据资料处理(treatmentofrawdata)
9.统计学分析(statisticalanalysis)
10.
提炼出新发现、新概念、新理论,总结、论文科研工作的基本程序(2)确定题目(选题过程)研究设计的重要性进行一项科研课题如同造一座大桥、一座大厦。如果大厦事先没有良好的设计就会倒塌,同样科研课题事先没有良好的设计就会失败。科研设计如同建筑设计一样举足轻重。研究设计的好坏,直接关系到研究结果的可靠信,任何设计上的缺陷,都不能期望事后弥补。研究设计的重要性进行一项科研课题如同造一座大桥、一座大厦。如进行完试验后再找统计学家分析数据,如同病人死后再找医生进行尸体解剖,医生会告诉病人死亡的原因是什么。同样,统计学家会告诉你试验失败的原因是什么。
-RonandA.Fisher,1890-1962进行完试验后再找统计学家分析数据,如同病人死后再找医生进行尸
研究设计:调查设计/实验设计
收集资料:准确可靠的原始资料
整理资料:核对/清理/纠错和量化
分析资料:统计描述/统计推断流行病学统计学统计学和流行病学在科研中重要性研究设计:调查设计/实验设计流行病学统计学统计学和流行病学调查研究设计Whattodo?做什么?Whytodo?为什么做?Howtodo?怎么做?(设计)Studydesign(选题)调查研究设计Whattodo?做什么?Studydes搜集资料整理与分析资料调查(研究)项目分析表(指标)研究目的回答统计分析步骤调查研究步骤解释、呈现结果15设计思路研究设计思路与统计学分析步骤的关系研究设计=专业设计+统计学设计搜集资料整理与分析资料调查(研究)项目分析表(指标)研究目的☉确定调查和研究的目的是选定研究指标的依据
☉研究指标又是研究目的的具体体现一、明确调查和研究的目的了解参数,用以说明总体。研究变量间的关系,通过确立统计学联系来探索病因或验证疗效等。…16☉确定调查和研究的目的是选定研究指标的依据一、明确调查和二、确定研究对象和观察单位
研究对象:对象来源-总体是什么?抽样方法:如何抽样?代表性?观察单位:个体?群体?17二、确定研究对象和观察单位研究对象:对象来源-总体是什么?三、研究设计类型的选择
根据研究目的选择合适的设计类型:描述疾病的或健康状况的三间分布探讨病因验证预防和控制措施的效果评价疫苗的效果新药上市前临床试验18三、研究设计类型的选择根据研究目的选择合适的设计类型:18常用的实验设计方法完全随机设计(completelyrandomdesign)配对设计(paireddesign)配伍组设计
随机区组设计(randomizedblockdesign)析因试验设计(factorialdesign)拉丁方设计(Latinsquaredesign)正交设计(orthogonaldesign)序贯设计(sequentialdesign)常用的实验设计方法完全随机设计(completelyran2020Time现况(横断面)研究设计原理T1普查+抽样调查Time现况(横断面)研究设计原理T1普查+抽样调查抽样调查代表性随机化样本量总体样本抽样调查代表性随机化总体样本
描述疾病或健康状况的三间分布情况,进行社区诊断(communitydiagnosis)。描述某些因素或特征与疾病或健康状态的联系,提出病因假设或提供病因线索。评价防制措施的效果。确定高危人群、筛查出患有研究疾病的人群,从而达到早发现、早诊断和早治疗的目的。→二级预防为进一步流行病学研究提供基础。现况研究的应用描述疾病或健康状况的三间分布情况,进行社区诊断病例对照研究设计原理研究对象对照组病例组暴露不暴露暴露不暴露abcdTimeNow病例对照研究设计原理研究对象对照组病例组暴露不暴露暴露不暴露
回顾性研究广泛探索病因,或初步验证病因假设。特别适用于罕见病的病因研究省力、省钱、省时间,易于组织实施同时调查多个暴露因素与疾病的关系病例对照研究的应用和特点最常用的研究设计回顾性研究病例对照研究的应用和特点最常用的研究设计队列研究设计原理abcdTime研究对象对照组暴露组发病未发病发病未发病队列研究设计原理abcdTime研究对象对照组暴露组发病未发前瞻性研究因果时间顺序明确,检验病因假说能力较强,可证实病因联系有助于了解疾病的自然史,并可获得一种暴露与多种疾病结局的关系研究费时间、费人力、费物力队列研究的应用和特点前瞻性研究队列研究的应用和特点研究对象随机分组实验组对照组有效应无效应有效应无效应临床试验设计原理研究对象随机分组实验组对照组有效应无效应有效应无效应临床试验四、确定研究项目,拟定调查表(问卷)
调查和研究项目的确定:分析项目、备选项目调查表和原始数据记录表的设计29四、确定研究项目,拟定调查表(问卷)调查和研究项目的确定:调查表也称“调查问卷(Questionnaire)”,通过把拟收集的数据项目用恰当的措词构成一系列问题的“答卷”。调查表是医学研究资料收集的最主要工具。调查表如何设计取决于研究目的和分析手段的需要,关键在于保证所获得信息的准确性和可靠性。四、确定研究项目,拟定调查表(问卷)
调查表也称“调查问卷(Questionnaire)”,通过第一类错误的概率α:即检验水准,α越小所需样本含量越多,对于相同的检验水准,双侧检验比单侧检验所需的样本含量更大,α通常取0.05。把握度(power)
1-β,一般0.8-0.9单侧检验还是双侧检验,单侧检验所需样本量小,双侧检验所需样本量大。五、样本含量的估计31第一类错误的概率α:即检验水准,α越小所需样本含量越多,对于五、样本含量的估计32
单纯随机抽样的样本量估计实验设计的样本含量估计流行病学研究的样本含量估计讨论(一):如何估计样本量?应用专门的公式和统计学软件估算五、样本含量的估计32单纯随机抽样的样本量估计讨论(一):常用软件:EpiCalc200033常用软件:EpiCalc200033常用软件:EPIINFO34常用软件:EPIINFO34常用软件:OPENEPI35常用软件:OPENEPI35
①直接观察法②采访法包括面访、调查会及信访、电话访问等六、原始资料的收集☉原始资料的收集方式36①直接观察法六、原始资料的收集☉原始资料面访信访电话自填其它,如internet体检检查实验室检查敏感问题调查资料的收集方法37面访信访电话自填其它,如internet体检检查实验室检查敏七、调查和研究的质量控制选择偏倚信息偏倚混杂偏倚
真实性(效度)可靠性(信度)偏倚如何控制?如何评价?七、调查和研究的质量控制选择偏倚真实性(效度)偏倚如何控①录入前的核对②录入计算机,建立数据库(database)→Excel、Access、EpiData、STATA、SPSS、SAS软件等③录入后的核对和整理☉逻辑检查、核对→排序(sorting)☉建立新变量☉数据的编码和转换☉缺失值的处理八、数据资料的整理39①录入前的核对八、数据资料的整理39常用数据录入、管理软件VisualFoxPro,FoxBase,Lotus等常用数据录入、管理软件VisualFoxPro,FoxBa常用数据分析软件SAS,Stata,R等常用数据分析软件SAS,Stata,R等☉医学研究的数据类型定量数据(measurementdata):连续型/离散型特殊类型:两分类数据(dichotomicdata)
等级数据:有序分类/半定量名义数据:定性数据(qualitativedata)(计数资料)(计量资料)如何描述和比较?第二节数据类型与统计分析方法选择☉医学研究的数据类型定量数据(measurementdat资料分析(DATAANALYSIS)43(1)统计描述(descriptivestatistic)指用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行描述。(2)统计推断(inferentialstatistic)指如何由样本信息推断总体特征问题。资料分析(DATAANALYSIS)43(1)统计描述(d☉医学研究的数据统计分析方法和指标定量数据集中和离散趋势正常值范围和总体可信区间的估计定性数据率比统计描述统计推断假设检验变量之间关系分析两组或多组之间的均数比较定量或定性数据之间的关系☉医学研究的数据统计分析方法和指标定量数据集中和离散趋势正45定量数据——统计资料的描述指标描述
集中位置:算术均数、几何均数、中位数、百分位数
离散程度:极差、标准差、方差、四分位数间距图形描述
频数分布图 趋势图……定量数据45定量数据——统计资料的描述指标描述定量数据集中趋势的描述算术均数几何均数中位数百分位数46定量数据集中趋势的描述算术均数46定量数据集中趋势的描述算术均数几何均数中位数百分位数47mean最适于对称分布资料,特别是正态分布资料;对于偏态资料,均数不能较好地反映其集中趋势。定量数据集中趋势的描述算术均数47mean最适于对称分布资料,特别是集中趋势的描述算术均数几何均数中位数百分位数48geometricmean1.等比资料,如抗体平均滴度2.对数正态分布资料
flgx
fG=lg-1定量数据集中趋势的描述算术均数48geometricmean1.等集中趋势的描述算术均数几何均数中位数百分位数49Median
将一组数据按从小到大的顺序排列,位置居中的数即是中位数。中位数常用于描述偏态资料,开口资料,有不确定值的资料的集中趋势;中位数和均数在对称分布上理论上是相同的。定量数据集中趋势的描述算术均数49Median中位数常用于描述偏态集中趋势的描述算术均数几何均数中位数百分位数50Percentile用于描述某个观察序列在某百分位置上的水平。常用于确定参考值范围,亦称正常值范围。50%分位数就是中位数25%,75%分位数称四分位数(quartile)X%
PX
(100-X)%定量数据集中趋势的描述算术均数50Percentile常用于确定参考51均数应用时的注意事项均数适用于:单峰对称分布的资料几何均数适用于:对数变换后单峰对称的资料中位数适用于:任何分布资料,有不确定值的资料定量数据51均数应用时的注意事项均数适用于:单峰对称分布的资料定量数52极差/全距(range)四分位数间距(inter-quartilerange)
方差(variance)标准差SD(standarddeviation)变异系数CV(coefficientofvariation)
描述离散程度的指标:定量数据52极差/全距(range)描述离散程53极差/全距四分位数间距方差标准差变异系数
描述离散程度的指标:极差(全距),描述数据分布的范围。极差大,说明数据分布较分散。方法简单明了。不灵敏。不稳定。定量数据53极差/全距描述离散程度的指标:极差(全距),描述数据分54极差/全距四分位数间距方差标准差变异系数
描述离散程度的指标:四分位数
(quartile)
QU-QL下四分位数即第25百分位数,常用QL表示;上四分位数即第75百分位数,常用QU表示定量数据54极差/全距描述离散程度的指标:四分位数(quarti55极差/全距四分位数间距方差
标准差变异系数
描述离散程度的指标:方差是实际值与期望值之差平方的平均值,而标准差是方差的平方根。一般情况下,总体均数未知,需用样本均数估计定量数据55极差/全距描述离散程度的指标:方差是实际值与期望值之差56极差/全距四分位数间距方差标准差变异系数
描述离散程度的指标:变异系数CVcoefficientofvariation定量数据56极差/全距描述离散程度的指标:变异系数CV定量数据57集中趋势+离散趋势共同描述均数±标准差(min,max)中位数±四分位数间距(min,max)变异度小,则均数代表性好!变异度大,数据分散,则均数代表性差!平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!定量数据57集中趋势+离散趋势共同描述均数±标准差(min,max)假设检验-两组或多组均数比较⊙样本均数与总体均数比较⊙成组设计两样本均数比较(成组t检验)⊙配对设计资料均数比较(配对t检验)
t检验(两组比较)方差分析⊙成组设计多个样本均数的比较(one-wayANOVA)⊙配伍组设计多个样本均数比较(two-wayANOVA)⊙多个样本均数的两两比较(q检验,Student-Newman-Keuls法)⊙多个实验组和一个对照组均数间的两两比较(LSD法和Duncan法)(两组或多组比较)58定量数据假设检验-两组或多组均数比较⊙样本均数与总体均数比较定量数据差别的统计意义检验小结59定量数据定量数据差别的统计意义检验小结59定量数据两连续变量间的关系分析直线回归和多元线性回归
相关分析回归分析Pearson相关,Spearman相关60定量数据两连续变量间的关系分析直线回归和多元线性回归相关分析回归分析定性数据——统计分析统计分析统计描述统计推断参数估计假设检验Example分类资料率、比、构成比总体率的可信区间χ2检验、u检验定性数据定性数据——统计分析统计分析统计描述统计推断参数估计假设检验常用的相对数率Rate构成比Proportion比Ratio62定性数据定性数据统计描述比可以是任意两个数值之比,包括比和比率。当分子是分母的一部分时,称为比例;当比例与观察时限有关时,称为率。比例又分为构成比和频率。而率与时间单位有关,即率有速率和强度的含义,它表示单位时间某事件发生的可能性大小。流行病学研究中常用的两个比是相对危险度和优势比(比值比)。常用的相对数62定性数据定性数据统计描述比可以是任意两个数值比值比(OR)联系强度病例对照研究队列研究相对危险度(RR)63定性数据统计推断定性数据比值比(OR)联系强度病例对照研究队列研究相对危险度(RR)☉数据类型的转换①定量数据转换为定性数据一般比较简单,但从名义变量、等级数据转换为定量数据,则比较繁琐且损失数据信息。②对两组或多组研究单项的某项指标进行统计学检验时,数据从定量转换为定性或等级数据时,统计学的效率会下降。64☉数据类型的转换①定量数据转换为定性数据一般比较简单,但从①以正常参考值或临床诊断标准作为分组依据。②某些定量指标尚无公认的正常参考值,可根据均数、中位数或三分位、四分位间距值,将其分为两组或多组。③根据数据的分布特点和研究需要,自行确定,但要能对统计分析结果做出合理的解释。定量数据转换为定性或等级数据-分组切割值确定方法65①以正常参考值或临床诊断标准作为分组依据。定量数据转换为定性数据类型计量资料?计数资料?分布类型是否正态分布?→数据转换研究设计成组?配对?配伍组?其他?统计分析方法和指标的选择取决于66数据类型计量资料?计数资料?统计分析方法和指标的选
常用的数据转换类型及方法数据类型转换方法举例Poisson分布平方根转换水中细菌数、单位时间放射性计数等二项分布反正弦函数转换非传染病患病率、白细胞百分数、淋巴细胞转换率等标准差与均数呈正比关系对数转换发汞含量67常用的数据转换类型及方法数据类型转换方法举例Poisson检验方法正态性用直方图或正态概率纸进行观察用矩法、W法或D法进行统计检验两组方差齐性F检验多组方差齐性Bartlett检验常用正态性及方差齐性检验的方法68检验方法正态性用直方图或正态概率纸进行观察用矩法、W法或常用非参数统计方法小结设计方法参数统计方法非参数统计方法配对比较配对t检验符号检验*、符号等级检验(Wilcoxon法)两组比较成组比较t检验两样本等级秩和检验(WilcoxonMannandWhitney法)、中位数检验*配伍组比较随机区组ANOVAM检验(Friedman法)多组比较完全随机设计ANOVAH检验(KruskalandWallis法)69常用非参数统计方法小结设计方法参数统计方法非参数统计方法配对医学数据统计分析方法选择-流程图70医学数据统计分析方法选择-流程图70(三组及以上均数比较)71医学数据统计分析方法选择-流程图(三组及以上均数比较)71医学数据统计分析方法选择-流程图(定性数据:R×C表资料分析)72医学数据统计分析方法选择-流程图(定性数据:R×C表资料分析)72医学数据统计分析方法选择-忠实于原始数据重视数据整理过程选择合适的统计方法和指标科学合理地解释统计分析结果第三节数据管理和分析应遵循的原则忠实于原始数据第三节数据管理和分析应遵循的原则一、忠实于原始数据是必须具备的科学精神
医学研究的结果和客观现实之间,总会存在或多或少的不一致(即误差,error)随机误差系统误差医学研究过程中,应尽量通过科学的设计和严格的质量控制措施,控制系统误差。任何篡改研究数据的行为,不管出自什么目的,都违背科学精神。二、重视研究数据资料的处理过程保证被分析数据的正确性,和获得的客观结果尽可能保持一致,控制信息偏倚;使原始数据经过编码、转换、重新赋值后符合进一步统计分析的需要。
三、选择合适的统计分析方法和指标
取决于数据及其分布得类型(一)数据转换(二)正态性检验(三)非参数统计法
(四)分析指标的选择
一、忠实于原始数据是必须具备的科学精神四、医学研究数据分析结果的解释一般来说,要从统计学、逻辑学和生物医学三个方面科学、合理地解释数据统计分析结果,正确认识统计学联系和因果联系的区别,并应用因果关系判定的标准进行评判。四、医学研究数据分析结果的解释一般来说,要从统计学、逻辑学和统计学解释了解不同研究设计的效率、优点和局限性理解样本和总体的关系应从抽样的随机化程度和样本含量两方面解释样本的代表性 合理分析抽样误差和选择性偏倚对研究结果的影响 应推算抽样总体指标的95%CI,用样本资料推断总体可能的范围正确认识P值大小和统计学意义,合理解释分析结果统计学解释了解不同研究设计的效率、优点和局限性逻辑学解释假设演绎法Mill准则科学实验五法求同法(methodofagreement)求异法(methodofdifference)同异并用法(jointmethodofagreementanddifference)共变法(methodofconcomitantvariation)剩余法(methodofresidues)逻辑学解释假设演绎法生物医学解释根据现有的生物医学知识对所获结果进行客观评价
是否与现有的理论知识相矛盾? 是否符合疾病自然史和生物学原理? 和现有生物医学领域的研究成果是否一致?可通过下述方式进行评价:
和国内外既往的研究结果比较 和国内外同期的研究结果比较 从相关学科中寻找支持和不支持该结论的证据生物医学解释根据现有的生物医学知识对所获结果进行客观评价深刻理解统计学联系的本质真实的联系机遇(chance)偏倚(bias)深刻理解统计学联系的本质真实的联系医学研究设计的目的(本质)估计随机误差、控制偏倚,凸现真实联系。Fromassociationtocausation医学研究设计的目的(本质)估计随机误差、控制偏倚,凸现真实联课后作业回顾统计学的理论方法;着手撰写一份研究计划书,你所选的研究课题应该关系到人类健康(或大学生活)。简单叙述立题依据、研究背景、研究目的、研究内容、研究方法和需要什么样的资料,如何获得和分析资料,用什么方法表达与展示结果等,请保留你的这份作业,并在学习完本课程后再重新翻阅。你发现了什么问题,应如何修改?你的收获是什么?课后作业回顾统计学的理论方法;医学研究的数据管理与分析DataManagementandAnalysis医学研究的数据管理与分析DataManagementan目录第一章绪论第二章现场调查技术第三章调查表设计第四章常用研究设计的数据统计分析过程第五章数据处理及其质量控制第六章数据库和常用数据库管理软件简介第七章EpiData软件应用第八章
SPSS软件应用(一)第九章
SPSS软件应用(二)第十章
SPSS软件应用(三)第十一章
SPSS软件应用(四)第十二章常见统计图表的软件实现第十三章EpiCalC软件应用第十四章ReviewManager软件应用第十五章
EpiInfo2002软件简介第十六章
SAS软件简介目录第一章绪论第八章SPSS软件应用(一)课程教学目标能利用统计学的思维解决医学研究中遇到的问题;能够掌握EpiData、SPSS等软件的常规运用;能够进一步自学EpiData、SPSS等软件;提高医学研究数据处理和统计分析的能力。课程教学目标能利用统计学的思维解决医学研究中遇到的问题;课程教学计划绪论——调查研究基础数据管理——EpiData软件应用数据分析——SPSS软件应用表格数据分析——EpiCalc软件应用(自学)数据综合分析——实际资料演练课程教学计划绪论——调查研究基础主要参考书目
《卫生统计学》(第七版)方积亁主编,人民卫生出版社,2012年8月。《医学统计学》(第五版)马斌荣主编,人民卫生出版社,2008年6月。《中医统计学》(第二版)申杰、王泓午等编著,科学出版社,2012年7月。《医学科研中的统计方法》(第四版)马斌荣主编,科学出版社,2012年6月。《临床医学研究设计和数据分析》赵耐青主编,复旦大学出版社,2005年7月。《医学科研数据的处理与分析方法》陈大方、陈常中主编,北京医科大学出版社,2006年5月。《医学统计学与SPSS软件实现方法》郭秀花、刘美娜等编著,科学出版社,2012年8月。主要参考书目《卫生统计学》(第七版)方积亁主编,人民卫数据决策数据决策医学研究的数据管理与分析——第一章绪论课件医学研究的数据管理与分析——第一章绪论课件科研工作的基本程序(1)立题设计观察和实验资料整理和数据统计分析理性概括科研工作的基本程序(1)立题科研工作的基本程序(2)确定题目(选题过程)
1.提出问题(problem)
2.文献查阅(criticalreviewofliteratures)
3.假说形成(formulationofhypothesis)
4.陈述问题(statementoftheproblem)安排实验
5.实验设计(experimentaldesign)
6.实验观察(experimentalinvestigation)
7.数据资料积累(accumulationofrawdata)总结成文
8.数据资料处理(treatmentofrawdata)
9.统计学分析(statisticalanalysis)
10.
提炼出新发现、新概念、新理论,总结、论文科研工作的基本程序(2)确定题目(选题过程)研究设计的重要性进行一项科研课题如同造一座大桥、一座大厦。如果大厦事先没有良好的设计就会倒塌,同样科研课题事先没有良好的设计就会失败。科研设计如同建筑设计一样举足轻重。研究设计的好坏,直接关系到研究结果的可靠信,任何设计上的缺陷,都不能期望事后弥补。研究设计的重要性进行一项科研课题如同造一座大桥、一座大厦。如进行完试验后再找统计学家分析数据,如同病人死后再找医生进行尸体解剖,医生会告诉病人死亡的原因是什么。同样,统计学家会告诉你试验失败的原因是什么。
-RonandA.Fisher,1890-1962进行完试验后再找统计学家分析数据,如同病人死后再找医生进行尸
研究设计:调查设计/实验设计
收集资料:准确可靠的原始资料
整理资料:核对/清理/纠错和量化
分析资料:统计描述/统计推断流行病学统计学统计学和流行病学在科研中重要性研究设计:调查设计/实验设计流行病学统计学统计学和流行病学调查研究设计Whattodo?做什么?Whytodo?为什么做?Howtodo?怎么做?(设计)Studydesign(选题)调查研究设计Whattodo?做什么?Studydes搜集资料整理与分析资料调查(研究)项目分析表(指标)研究目的回答统计分析步骤调查研究步骤解释、呈现结果96设计思路研究设计思路与统计学分析步骤的关系研究设计=专业设计+统计学设计搜集资料整理与分析资料调查(研究)项目分析表(指标)研究目的☉确定调查和研究的目的是选定研究指标的依据
☉研究指标又是研究目的的具体体现一、明确调查和研究的目的了解参数,用以说明总体。研究变量间的关系,通过确立统计学联系来探索病因或验证疗效等。…97☉确定调查和研究的目的是选定研究指标的依据一、明确调查和二、确定研究对象和观察单位
研究对象:对象来源-总体是什么?抽样方法:如何抽样?代表性?观察单位:个体?群体?98二、确定研究对象和观察单位研究对象:对象来源-总体是什么?三、研究设计类型的选择
根据研究目的选择合适的设计类型:描述疾病的或健康状况的三间分布探讨病因验证预防和控制措施的效果评价疫苗的效果新药上市前临床试验99三、研究设计类型的选择根据研究目的选择合适的设计类型:18常用的实验设计方法完全随机设计(completelyrandomdesign)配对设计(paireddesign)配伍组设计
随机区组设计(randomizedblockdesign)析因试验设计(factorialdesign)拉丁方设计(Latinsquaredesign)正交设计(orthogonaldesign)序贯设计(sequentialdesign)常用的实验设计方法完全随机设计(completelyran10120Time现况(横断面)研究设计原理T1普查+抽样调查Time现况(横断面)研究设计原理T1普查+抽样调查抽样调查代表性随机化样本量总体样本抽样调查代表性随机化总体样本
描述疾病或健康状况的三间分布情况,进行社区诊断(communitydiagnosis)。描述某些因素或特征与疾病或健康状态的联系,提出病因假设或提供病因线索。评价防制措施的效果。确定高危人群、筛查出患有研究疾病的人群,从而达到早发现、早诊断和早治疗的目的。→二级预防为进一步流行病学研究提供基础。现况研究的应用描述疾病或健康状况的三间分布情况,进行社区诊断病例对照研究设计原理研究对象对照组病例组暴露不暴露暴露不暴露abcdTimeNow病例对照研究设计原理研究对象对照组病例组暴露不暴露暴露不暴露
回顾性研究广泛探索病因,或初步验证病因假设。特别适用于罕见病的病因研究省力、省钱、省时间,易于组织实施同时调查多个暴露因素与疾病的关系病例对照研究的应用和特点最常用的研究设计回顾性研究病例对照研究的应用和特点最常用的研究设计队列研究设计原理abcdTime研究对象对照组暴露组发病未发病发病未发病队列研究设计原理abcdTime研究对象对照组暴露组发病未发前瞻性研究因果时间顺序明确,检验病因假说能力较强,可证实病因联系有助于了解疾病的自然史,并可获得一种暴露与多种疾病结局的关系研究费时间、费人力、费物力队列研究的应用和特点前瞻性研究队列研究的应用和特点研究对象随机分组实验组对照组有效应无效应有效应无效应临床试验设计原理研究对象随机分组实验组对照组有效应无效应有效应无效应临床试验四、确定研究项目,拟定调查表(问卷)
调查和研究项目的确定:分析项目、备选项目调查表和原始数据记录表的设计110四、确定研究项目,拟定调查表(问卷)调查和研究项目的确定:调查表也称“调查问卷(Questionnaire)”,通过把拟收集的数据项目用恰当的措词构成一系列问题的“答卷”。调查表是医学研究资料收集的最主要工具。调查表如何设计取决于研究目的和分析手段的需要,关键在于保证所获得信息的准确性和可靠性。四、确定研究项目,拟定调查表(问卷)
调查表也称“调查问卷(Questionnaire)”,通过第一类错误的概率α:即检验水准,α越小所需样本含量越多,对于相同的检验水准,双侧检验比单侧检验所需的样本含量更大,α通常取0.05。把握度(power)
1-β,一般0.8-0.9单侧检验还是双侧检验,单侧检验所需样本量小,双侧检验所需样本量大。五、样本含量的估计112第一类错误的概率α:即检验水准,α越小所需样本含量越多,对于五、样本含量的估计113
单纯随机抽样的样本量估计实验设计的样本含量估计流行病学研究的样本含量估计讨论(一):如何估计样本量?应用专门的公式和统计学软件估算五、样本含量的估计32单纯随机抽样的样本量估计讨论(一):常用软件:EpiCalc2000114常用软件:EpiCalc200033常用软件:EPIINFO115常用软件:EPIINFO34常用软件:OPENEPI116常用软件:OPENEPI35
①直接观察法②采访法包括面访、调查会及信访、电话访问等六、原始资料的收集☉原始资料的收集方式117①直接观察法六、原始资料的收集☉原始资料面访信访电话自填其它,如internet体检检查实验室检查敏感问题调查资料的收集方法118面访信访电话自填其它,如internet体检检查实验室检查敏七、调查和研究的质量控制选择偏倚信息偏倚混杂偏倚
真实性(效度)可靠性(信度)偏倚如何控制?如何评价?七、调查和研究的质量控制选择偏倚真实性(效度)偏倚如何控①录入前的核对②录入计算机,建立数据库(database)→Excel、Access、EpiData、STATA、SPSS、SAS软件等③录入后的核对和整理☉逻辑检查、核对→排序(sorting)☉建立新变量☉数据的编码和转换☉缺失值的处理八、数据资料的整理120①录入前的核对八、数据资料的整理39常用数据录入、管理软件VisualFoxPro,FoxBase,Lotus等常用数据录入、管理软件VisualFoxPro,FoxBa常用数据分析软件SAS,Stata,R等常用数据分析软件SAS,Stata,R等☉医学研究的数据类型定量数据(measurementdata):连续型/离散型特殊类型:两分类数据(dichotomicdata)
等级数据:有序分类/半定量名义数据:定性数据(qualitativedata)(计数资料)(计量资料)如何描述和比较?第二节数据类型与统计分析方法选择☉医学研究的数据类型定量数据(measurementdat资料分析(DATAANALYSIS)124(1)统计描述(descriptivestatistic)指用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行描述。(2)统计推断(inferentialstatistic)指如何由样本信息推断总体特征问题。资料分析(DATAANALYSIS)43(1)统计描述(d☉医学研究的数据统计分析方法和指标定量数据集中和离散趋势正常值范围和总体可信区间的估计定性数据率比统计描述统计推断假设检验变量之间关系分析两组或多组之间的均数比较定量或定性数据之间的关系☉医学研究的数据统计分析方法和指标定量数据集中和离散趋势正126定量数据——统计资料的描述指标描述
集中位置:算术均数、几何均数、中位数、百分位数
离散程度:极差、标准差、方差、四分位数间距图形描述
频数分布图 趋势图……定量数据45定量数据——统计资料的描述指标描述定量数据集中趋势的描述算术均数几何均数中位数百分位数127定量数据集中趋势的描述算术均数46定量数据集中趋势的描述算术均数几何均数中位数百分位数128mean最适于对称分布资料,特别是正态分布资料;对于偏态资料,均数不能较好地反映其集中趋势。定量数据集中趋势的描述算术均数47mean最适于对称分布资料,特别是集中趋势的描述算术均数几何均数中位数百分位数129geometricmean1.等比资料,如抗体平均滴度2.对数正态分布资料
flgx
fG=lg-1定量数据集中趋势的描述算术均数48geometricmean1.等集中趋势的描述算术均数几何均数中位数百分位数130Median
将一组数据按从小到大的顺序排列,位置居中的数即是中位数。中位数常用于描述偏态资料,开口资料,有不确定值的资料的集中趋势;中位数和均数在对称分布上理论上是相同的。定量数据集中趋势的描述算术均数49Median中位数常用于描述偏态集中趋势的描述算术均数几何均数中位数百分位数131Percentile用于描述某个观察序列在某百分位置上的水平。常用于确定参考值范围,亦称正常值范围。50%分位数就是中位数25%,75%分位数称四分位数(quartile)X%
PX
(100-X)%定量数据集中趋势的描述算术均数50Percentile常用于确定参考132均数应用时的注意事项均数适用于:单峰对称分布的资料几何均数适用于:对数变换后单峰对称的资料中位数适用于:任何分布资料,有不确定值的资料定量数据51均数应用时的注意事项均数适用于:单峰对称分布的资料定量数133极差/全距(range)四分位数间距(inter-quartilerange)
方差(variance)标准差SD(standarddeviation)变异系数CV(coefficientofvariation)
描述离散程度的指标:定量数据52极差/全距(range)描述离散程134极差/全距四分位数间距方差标准差变异系数
描述离散程度的指标:极差(全距),描述数据分布的范围。极差大,说明数据分布较分散。方法简单明了。不灵敏。不稳定。定量数据53极差/全距描述离散程度的指标:极差(全距),描述数据分135极差/全距四分位数间距方差标准差变异系数
描述离散程度的指标:四分位数
(quartile)
QU-QL下四分位数即第25百分位数,常用QL表示;上四分位数即第75百分位数,常用QU表示定量数据54极差/全距描述离散程度的指标:四分位数(quarti136极差/全距四分位数间距方差
标准差变异系数
描述离散程度的指标:方差是实际值与期望值之差平方的平均值,而标准差是方差的平方根。一般情况下,总体均数未知,需用样本均数估计定量数据55极差/全距描述离散程度的指标:方差是实际值与期望值之差137极差/全距四分位数间距方差标准差变异系数
描述离散程度的指标:变异系数CVcoefficientofvariation定量数据56极差/全距描述离散程度的指标:变异系数CV定量数据138集中趋势+离散趋势共同描述均数±标准差(min,max)中位数±四分位数间距(min,max)变异度小,则均数代表性好!变异度大,数据分散,则均数代表性差!平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!定量数据57集中趋势+离散趋势共同描述均数±标准差(min,max)假设检验-两组或多组均数比较⊙样本均数与总体均数比较⊙成组设计两样本均数比较(成组t检验)⊙配对设计资料均数比较(配对t检验)
t检验(两组比较)方差分析⊙成组设计多个样本均数的比较(one-wayANOVA)⊙配伍组设计多个样本均数比较(two-wayANOVA)⊙多个样本均数的两两比较(q检验,Student-Newman-Keuls法)⊙多个实验组和一个对照组均数间的两两比较(LSD法和Duncan法)(两组或多组比较)139定量数据假设检验-两组或多组均数比较⊙样本均数与总体均数比较定量数据差别的统计意义检验小结140定量数据定量数据差别的统计意义检验小结59定量数据两连续变量间的关系分析直线回归和多元线性回归
相关分析回归分析Pearson相关,Spearman相关141定量数据两连续变量间的关系分析直线回归和多元线性回归相关分析回归分析定性数据——统计分析统计分析统计描述统计推断参数估计假设检验Example分类资料率、比、构成比总体率的可信区间χ2检验、u检验定性数据定性数据——统计分析统计分析统计描述统计推断参数估计假设检验常用的相对数率Rate构成比Proportion比Ratio143定性数据定性数据统计描述比可以是任意两个数值之比,包括比和比率。当分子是分母的一部分时,称为比例;当比例与观察时限有关时,称为率。比例又分为构成比和频率。而率与时间单位有关,即率有速率和强度的含义,它表示单位时间某事件发生的可能性大小。流行病学研究中常用的两个比是相对危险度和优势比(比值比)。常用的相对数62定性数据定性数据统计描述比可以是任意两个数值比值比(OR)联系强度病例对照研究队列研究相对危险度(RR)144定性数据统计推断定性数据比值比(OR)联系强度病例对照研究队列研究相对危险度(RR)☉数据类型的转换①定量数据转换为定性数据一般比较简单,但从名义变量、等级数据转换为定量数据,则比较繁琐且损失数据信息。②对两组或多组研究单项的某项指标进行统计学检验时,数据从定量转换为定性或等级数据时,统计学的效率会下降。145☉数据类型的转换①定量数据转换为定性数据一般比较简单,但从①以正常参考值或临床诊断标准作为分组依据。②某些定量指标尚无公认的正常参考值,可根据均数、中位数或三分位、四分位间距值,将其分为两组或多组。③根据数据的分布特点和研究需要,自行确定,但要能对统计分析结果做出合理的解释。定量数据转换为定性或等级数据-分组切割值确定方法146①以正常参考值或临床诊断标准作为分组依据。定量数据转换为定性数据类型计量资料?计数资料?分布类型是否正态分布?→数据转换研究设计成组?配对?配伍组?其他?统计分析方法和指
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度版权共享合同与收益分配机制
- 二零二四年度智能供应链管理与优化服务合同
- 2024年度版权购买合同:图书、音像制品的版权交易
- 2024年度营销活动策划与实施合同
- 二零二四年度汽车美容服务合同范本
- 2024年度文化艺术交流与版权许可合同
- 二零二四年度建筑工程质量保证保险合同
- 2024年度大连某单位食堂承包经营合同
- 04版版权代理及代销服务合同
- 与合同有关的法律制度
- 彩钢瓦屋面施工组织
- 离散数学第13章群
- 开封市黑臭水体治理方案
- 安全顾问岗位职责
- 二年级口算题卡10000道(100以内加减法)
- 液碱的测定方法
- 增值税专用发票清单模板
- 化学工程专业毕业设计聚丁二烯生产设计
- 环境化学复习题库(含答案)
- 部队保密工作心得体会最新三篇
- 气象信息网络传输应急预案
评论
0/150
提交评论