临床科研中常用的统计分析方法.ppt_第1页
临床科研中常用的统计分析方法.ppt_第2页
临床科研中常用的统计分析方法.ppt_第3页
临床科研中常用的统计分析方法.ppt_第4页
临床科研中常用的统计分析方法.ppt_第5页
已阅读5页,还剩153页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

临床科研中常用的统计分析方法,邢建民北京中医药大学循证医学中心2019/11/29,运用之妙,存乎一心,主要内容,如何正确抉择统计方法常用的统计方法中医领域的应用,一、如何正确抉择统计方法,1分析集2研究目的3资料类型4设计类型5方法的应用/适用条件,1分析集(analysisset),分析集应在研究设计阶段确定,建立规则。意向性分析集(intentiontotreat,ITT)全分析集(Fullanalysisset,FAS)符合方案集(perprotocolset,PPS)安全集(safetyset,SS),使用适宜、正确的统计分析方法是统计结论真实可靠的重要保证。统计分析包括:统计描述:选择什么样的指标,选用统计表还是图取决于资料的性质及研究目的等统计推断:方法的正确抉择与研究目的、资料类型、设计类型、样本大小、资料分布类型、数据结构、特定条件综合分析等有关。,2研究目的,研究目的通常有:估计参数的点估计和区间估计比较t、u、ANOVA筛选主要影响因素回归相关分析各种相关建立临床医学参考值范围校正与控制混杂因素协方差分析、CMH因果关系分析通径分析预测、预报分析回归。等等,3资料类型,资料类型包括三个方面数据性质定量资料定性资料资料分布类型正态分布偏态分布分布类型不清结局变量的类型数值变量分类变量二分类无序多分类有序分类,4设计类型,统计设计的类型取决于研究目的,实际上是为了更好地达到研究目的而采取的设计方案从统计学上来讲,临床上常用的有:完全随机设计配对设计随机区组设计交叉设计序贯设计重复测量设计,5统计方法的应用/使用条件,对样本量的要求对应变量、自变量分布类型的要求对数据缺失程度的要求,二、常用的统计分析方法,差异性检验疗效性检验优效性等效性非劣效性,2.1差异性检验(1),临床试验中的3种数据来源处理反应影响因素,基线测定数据的可比性:20个指标中有4个有统计学意义,则随机有问题(P=0.0159),2.1差异性检验(2),定性数据统计描述统计描述频数和百分比统计推论两个率的比较卡方检验、Fisher;logistic回归等级定性反应变量卡方、Ridit、秩和检验、CMH,2.1差异性检验(3),定量数据统计描述例数、均数、标准差、中位数、四分位数间距、最大值、最小值统计推论t检验ANOVAGLM(协方差)生存时间N年生存率、中位生存期、无病进展时间等LifetableK-MtestCOX,2.1差异性检验(4),申杰主编.中医统计学.北京:科学出版社,2009:P33.,2.2临床试验的优效性、等效性、非劣效性检验方法,差异性检验:通常所用的统计分析方法都是进行的差异性检验临床试验的三种检验,确切的说是为三种设计而进行的分析方法,金丕焕.临床试验.复旦大学出版社.p86,统计分析方法同差异性检验方法,但是单侧检验。须在研究设计阶段确定。,可信区间估计,3.中医领域的应用,方差分析一类方法,完全随机设计随机区组设计交叉设计拉丁方设计析因设计正交设计均匀设计嵌套设计重复测量设计裂区设计协方差分析多元方差分析重复测量的方差分析,协方差分析的概念协方差分析模型协方差分析举例,协方差分析,试验设计的三项基本原则,目的就是为了排除非处理因素的干扰和影响,使试验误差的估计降到最低限度,从而可以准确地获得处理因素的试验效应。但在某些实际问题中,有些因素在目前还不能控制或难以控制,如在动物饲养试验中,动物增加的平均体重不仅仅与动物的进食量有关,甚至与各动物的初始重量等因素有关系。如果直接进行方差分析,会因为混杂因素的影响而无法得出正确结论。,一、协方差分析的概念,协方差分析(AnalysisofCovariance)是将回归分析与方差分析结合起来使用的一种分析方法。它先将定量的影响因素看作自变量,或称为协变量,建立因变量随自变量变化的回归方程,这样就可以利用回归方程把因变量的变化中受定量因素的影响扣除掉,从而能够较合理地比较因变量的总体均数之间是否有显著性的差别,增加了分析的准确性。协方差分析的功用就是用处理前的基数矫正处理后的结果,提高其精确度。,定义,考察某因素对因变量Y的影响,布置了一单项分类资料的试验,其方差分析模型为:yij=i+iji该因素第i个水平的效应,ij为随机误差同时收集到与y有密切回归关系的变量x,其方差分析模型变为:yij=i+b(xij-x)+dijb为y对x的回归系数,dij为随机误差,二、协方差分析模型,平行性假定:各组协变量和因变量的关系是线性的各组残差正态各组回归斜率相等,即各组回归线是平行的,1、比较三种猪饲料A1,A3,A3对猪催肥的效果,测得每头猪增加的重量(y)与初始重量(x)与数据如表。试测定三种饲料对猪的催肥有无显著的不同?初始重量与猪的增加重量之间有无明显的关系?,三、协方差举例,1、平方和2、回归关系的显著性检验,协方差举例,3、纠正后的处理间方差分析4、用回归纠正每处理的平均增重,协方差举例,yi=i+b(xi-x),1、统计资料应服从正态分布,否则要做适当的统计代换。2、做一般方差分析时处理间差异显著,而做协方差分析时,处理间差异反而不显著,说明所谓的差异是由于初始的试验条件造成的,并非处理间真正的差异。3、做一般方差分析时处理间差异不显著,而做协方差分析时,处理间差异反而显著,说明除去试验条件的影响后处理间有真正的差异。,注意的问题,重复测量设计的方差分析,重复测量设计,一、重复测量资料的数据特征当对同一受试对象在不同时间重复测量次数p3时,称为重复测量设计或重复测量数据。,图例,重复测量资料,是同一受试对象的同一观察指标在不同时间点上进行多次测量所得的资料,常用来分析该观察指标在不同时间点上的变化。有时是从同一个体的不同部位(或组织)上重复测量获得的指标的观测值。,目的:就是比较不同时间点动态变化趋势的特征,问题?,想一想?同一观察单位具有多个观察值,而这些观察值来自同一受试对象的不同时点(部位等),这类数据间往往有相关性存在,违背了方差分析要求数据满足独立性基本条件。,在这种情况下:,若使用一般的方差分析,就不能充分揭示出内在的特点,有时甚至会得出错误结论。,所以重复测量资料需要采用专门的统计分析方法,该方法是近代统计学研究的热点之一。,实际中:重复测量资料比独立资料更多见。,临床研究中,需要观察病人在不同时间的某些生理、生化或病理指标的变化趋势,研究不同时间或疗程的治疗效果。流行病学研究中,观察队列人群在不同时间上的发病情况。研究不同职业、性别人群实施某种控制后,不同时间的多次效果考察。卫生学研究中,纵向观察儿童生长发育规律等,不同地区和环境营养状况。,提醒大家,重复测量数据在医学研究中十分常见,在医学类杂志上约占四分之一,而且统计表达和分析误用情况严重。,主要优点,减少样本含量控制个体变异非实验因素(干扰因素),单变量重复测量方差分析,1.单组重复测量指同一组内(或接受同一种处理)的多个受试者,在多个时间点上的反应变量所作的测量,又称为单变量重复测量。,2.多组重复测量(多组并不等于多因素),指将受试者按处理的不同水平分为几个组,对这些组内的每一受试者,都在不同时间点对他们的反应变量进行测量。,表3.1(余松林),1.单组重复测量数据方差分析2.两组重复测量数据方差分析,单变量重复测量方差分析,二、重复测量资料分析的前提条件和基本步骤,1.前提条件:首先要求样本是随机的,除了满足一般方差分析条件外,特别强调满足协方差阵(covariancematrix)球形性。,sphericity,概念:,协方差阵的球对称性是指该对角线元素(方差)相等、非主对角线元素(协方差)为零,若球对称性得不到满足,方差分析的F值是有偏的,会增大类错误的概率,2.用Mauchly法检验协方差阵的球形性质,如果P值大于,说明协方差阵的球对称性质得到满足。否则,必须对与时间有关的F统计量的分子和分母自由度进行调整,减少类错误的概率。调整系数为:(读:epsilon),3.自由度常用调整方法,Greenhouse-Geisser法,简称:G-G法Huynh-Feldt法,简称:H-F法Lower-bound法,简称:L-B下界法以上前两种方法较复杂,采用软件计算。,4.举例:单组重复测量数据的方差分析,观察10名慢性乙型肝炎患者治疗前、治疗12周、24周、36周四个时间点上谷丙转氨酶(ALT)水平的变化趋势,结果见下表,试进行统计推断。,分析:数据结构上与完全区组设计相似但实质不同,各观测点时间顺序是固定的,不能随机分配;不同观测点数据彼此不独立或不完全独立,存在一定的相关性。,SAS结果中包括偏相关阵,例题1.建立假设,确定检验水准0.01,2.进行球对称性检验,球对称性通常采用Mauchlystest检验标准来判断,3.调整时间点F值的自由度调整原则:,当资料满足“球对称”(Sphericity)条件时(P),不作调整。当资料不满足“球对称”条件时(P27的肥胖患者40名随机等分成,表9-13,可以看出重复测量资料中同一受试对象(看成区组)的数据高度相关,无论哪位受试对象服用曲明片剂或是胶囊,其服药后8周、16周和24周的体重均和前面时间点(含服药前的0周)的体重相关。不同时点数据其相关性较强。,重复测量资料方差分析的基本步骤,分为三步:,计算检验统计量:使用统计软件进行计算结果如下:,确定P值,做出推断结论:,根据专业知识和假设检验,直接由计算机所给P值做出推断结论。,按=0.05水准,减肥药剂型k(片剂和胶囊),剂型k与时间i的交互效应ki均不拒绝H0,无统计学意义,还不能认为曲明不同剂型的减肥效果不同,也还不能认为剂型k与时间i间有交互效应。而时间因素i拒绝H0,接受H1,有统计学意义,可认为服用减肥药盐酸西市曲明前后不同时间(8周、16周和24周)的平均体重不全相同。,重复测量资料方差分析的前提条件,重复测量资料的方差分析,除了满足一般方差分析的条件外,还要满足协方差阵的球形性或复合对称性。若条件不能满足,F值有偏性,通常采用Mauchly检验来判断,通过软件选参数计算。,校正后的结果:,两组重复测量数据结构,SAS程序,显示该资料不满足球对称性,参看校正结果。,结果表明经G-G和H-F调整后,按0.05检验水准,A(不同药物)和A与TIME(时间)无统计学意义,后者无交互作用,而时间因素间有统计学意义。,例4用丹参注射液治疗7例慢性肾功能衰竭患者,治疗前后不同时间各患者的血尿素氮(BUN)的变化,如表所示。试比较治疗前后不同时间各患者血尿素氮的变化是否不同?,表4-5丹参注射液治疗慢性肾衰患者不同时间的BUN(mg/dl)变化治疗后不同患者治疗前第2周第4周第6周160.741.034.536.2265.244.741.239.4366.342.440.537.7467.149.143.340.2562.838.540.135.8672.552.344.637.6758.035.038.637.2,题意分析:本题要探讨治疗前后“不同时间”,又要研究“不同患者”的血尿素氮的变化,是属于按两因素分组的多个均数间比较的重复测量方差分析,首先在Insight中建立数据集,本题变量FL为不同治疗时间的分组变量,如治疗前为1,治疗后第2周为2,第6周为4。X为BUN的测定值。建好结构录入数据,格式如图4-17所示,数据集名为L2,存入SASUSER库中,备用。,如图所示:,91,生存分析survivalanalysis,92,何为生存分析,93,传统方法在分析随访资料时的困难,时间和生存结局都成为了要关心的因素除了生存结局作为判定标准以外,只要能让病人存活时间延长,这种药物也应当是被认为有效的。即时间延长也认为有效如果将两者均作为应变量拟和多元模型,因为时间分布不明(一般不呈正态分布,在不同情况下的分布规律也不同),拟和多元模型极为困难,94,传统方法在分析随访资料时的困难,存在大量失访的资料失去联系(病人搬走,电话号码改变)无法观察到结局(死于其他原因)研究截止显然,将失访数据无论是算作死亡还是存活似乎都不大合理,95,第一节概述,96,一、基本概念,(一)生存时间(survivaltime):1定义:广义的生存时间是指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间。也称失效时间(failuretime)。2特点:(1)分布类型不易确定。一般不服从正态分布,有时近似服从指数分布、Weibull分布、Gompertz分布等,多数情况下往往不服从任何规则的分布类型。,97,(2)生存时间的影响因素多而复杂且不易控制。(3)根据研究对象的结局,生存时间数据可分两种类型:完全数据(completedata):观察对象在观察期内出现反应(终点事件),这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。截尾数据(截尾值、删失数据,censoreddata):尚未观察到研究对象出现反应(终点事件)时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。常用符号“”表示。,98,截尾值(Censoredvalue)出现的原因,截尾的原因主要有3种:失访:生存但中途失访:包括拒绝访问、失去联系等。退出:中途退出试验、改变治疗方案、死于其它与研究无关的原因:如肺癌患者死于心机梗塞、自杀或因车祸死亡,终止随访时间为死亡时间。终止:指观察期结束时仍未出现结局。,99,关于截尾或删失,失访失访研究截止时仍存活,100,101,102,103,104,105,106,107,风险函数与生存函数的关系,108,109,110,111,第二节生存率估计的非参数法,112,113,114,115,图16-2两种疗法治疗后白血病患者的生存率曲线,116,117,118,119,120,121,122,123,124,125,第三节生存率的比较,生存率比较的假设检验方法有参数法、半参数法和非参数法,因医学研究中的生存时间资料大多为不规则分布或者分布未知,常采用非参数法进行假设检验。非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相同。常用的非参数检验方法有log-rank检验(时序检验)、Gehan比分检验和Breslow检验等。,126,127,128,129,130,131,续表,132,133,134,对于大样本资料生存率的比较,可以将其整理成频数表形式,采用寿命表法计算生存率然后进行比较,其基本原理与上述方法相同。,135,第四节Cox比例风险回归模型,136,137,一、Cox比例风险回归模型的基本形式,看下面例子,138,如果分析x1-x6这6个因素对生存时间t的影响,能否用线性回归分析建立时间t与影响因素间的线性回归方程?或建立生存函数S(t)与影响因素间的线性回归方程?t=b0+b1x1+b2x2+b6x6?S(t)=b0+b1x1+b2x2+b6x6?,1、生存时间t一般不服从正态分布;2、生存时间t中含有截尾值。,139,利用生存率函数S(t,X)与风险函数h(t,X)的关系可导出,较好的解决截尾值的问题,反映了协变量X与生存函数的关系,Cox模型的基本形式,140,所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。,右侧可分为两部分:h0(t)没有明确的定义,分布无明确的假定,参数无法估计,为非参数部分;另一部分是参数部分,其参数可以通过样本的实际观察值来估计的,正因为Cox模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论