医学统计:生存分析_第1页
医学统计:生存分析_第2页
医学统计:生存分析_第3页
医学统计:生存分析_第4页
医学统计:生存分析_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生存分析survival analysis,孙秀彬,何为生存分析,生存分析的历史与应用,17、18世纪:寿命表的提出及其应用。1926年:Greenwood提出评价生存函数的误差的方法Greenwood公式。1958年:生存函数的计算方法Kaplan-Meier法(乘积极限法product-limit)的提出。1960年代中叶:生存时间的组间比较方法的开发广义Wilcoxon秩和检验(Gehan,1965年);对数秩检验(log-rank test)又称时序检验(Mantel,1966年)。1970年:将协变量的影响模型化参数模型:假设生存时间服从Weibull分布、对数正态分布等;半参数模型:比例风险模型(Cox,1972年),又称Cox回归模型。,第一节 概述,一、基本概念,(一)死亡事件 死亡事件又称失效事件,不单指通常意义下的生物体的死亡,而是泛指标志某种处理措施失败或失效的特征事件。,(二)生存时间(survival time):1定义:广义的生存时间是指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间。也称失效时间(failure time)。2特点:(1)分布类型不易确定。一般不服从正态分布, 有时近似服从指数分布、Weibull分布、 Gompertz分布等,多数情况下往往不服从任 何规则的分布类型。,(2)生存时间的影响因素多而复杂且不易控制。(3)根据研究对象的结局,生存时间数据可分两种类型: 完全数据(complete data):观察对象在观察期内出现反应(终点事件),这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。 截尾数据(截尾值、删失数据,censored data):尚未观察到研究对象出现反应(终点事件)时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。,截尾的原因主要有3种: 失访:失去联系 退出:死于非研究因素或其他非处理因 素、改变治疗方案等导致退出研究。 终止:指观察研究期限结束时仍未出现结局。,关于截尾或删失,风险函数与生存函数的关系,第二节 生存率估计的非参数法,第三节 生存率的比较,生存率比较的假设检验方法有参数法、半参数法和非参数法,因医学研究中的生存时间资料大多为不规则分布或者分布未知,常采用非参数法进行假设检验。非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相同。常用的非参数检验方法有log-rank 检验(时序检验)、Gehan比分检验和Breslow检验等。,续表,对于大样本资料生存率的比较,可以将其整理成频数表形式,采用寿命表法计算生存率然后进行比较,其基本原理与上述方法相同。,第四节 Cox比例风险回归模型,一、Cox比例风险回归模型的基本形式,看下面例子,如果分析x1-x6这6个因素对生存时间t的影响,能否用线性回归分析建立时间t与影响因素间的线性回归方程?或建立生存函数S(t)与影响因素间的线性回归方程? t=b0+b1x1+b2x2+b6x6 ?S(t) =b0+b1x1+b2x2+b6x6 ?,1、生存时间t一般不服从正态 分布;2、生存时间t中含有截尾值。,利用生存率函数S(t,X)与风险函数h(t,X)的关系可导出,较好的解决截尾值的问题,反映了协变量X与生存函数的关系,Cox模型的基本形式,所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。,右侧可分为两部分:h0(t)没有明确的定义,分布无明确的假定,参数无法估计,为非参数部分;另一部分是参数部分,其参数可以通过样本的实际观察值来估计的,正因为Cox模型有非参数和参数两部分组成,故又称为半参数模型。,二、Cox回归分析的步骤:,确定自变量和因变量参数估计,拟和模型对模型的假设检验模型的解释及应用对模型的拟和优度检验,模型的参数估计,(一)参数估计-偏似然估计,代表ti时刻以后危险集R(ti)中对似然函数作贡献的个体,将n个病人死亡的 条件概率相乘,两边取自然对数,模型的假设检验,Cox模型的解释及应用,1探索结局事件发生的危险因素,分析各 因素的作用大小 。2计算个体预后指数(prognosis index, PI),对个体进行定性的预后评价。 3通过估计生存率,对群体定量地进行预 后评价。,影响因素Xi的标准差,标准正态离差,相应偏回归系数的标准误,ti时刻的基础生存率公式,ti时刻的基础累计风险函数公式,在ti时刻的死亡人数,ti时刻的生存率计算公式,Cox模型的拟合优度,可将研究对象按个体预后指数恰当地分组,用乘积极限法估计各组的生存率曲线,并与按Cox模型预后指数分类的生存率曲线在同一坐标系内进行比较,若两种曲线具有一致性,说明模型拟合较理想。,Cox回归分析的应用实例,调用Cox模型分析模块 ,分析数据集为cox,建立生存时间为t ,截尾指示变量为d 的Cox模型,d 取值为1时表示截尾,用逐步回归法筛选变量,选入和剔出水平均为0.05,计算筛选因素的相对危险度及其95%的可信区间,结果:,治疗方式(x4):相对危险度为5.820,说明传统的治疗方式和新的治疗方式相比,病人死亡的风险为5.820倍,相对危险度的95%的可信区间为1.98917.031;淋巴结是否转移(x5)的RR值的含义与治疗方式相同。,四、Cox模型的适用范围,Cox模型适用于生存资料的统计分析,属半参数模型,对资料没有特殊的要求,也可以估计各因素的参数,并能做多因素的统计分析。该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计出个体的生存率。另外,Cox模型能分析具有截尾数值的生存时间。Cox模型在临床流行病学分析中,使临床观察的定性指标又加上定量指标进行分析,提高了分析的效率。,五、Cox模型的适用范围及注意事项,1设计阶段应注意的问题 样本的代表性要好。要注意资料的代表性及可靠性;样本含量不宜过小,一般在40例以上。随着协变量的增加观察的样本应适当的增加,要求样本的含量为观察协变量的5-20倍。所有危险因素要在设计时考虑全面,避免漏掉重要因素和加入无关因素。生存时间的定义要明确。起始事件和终点事件要有明确规定,时间尽可能精确测量。,1设计阶段应注意的问题(续)研究的协变量在研究对象中的分布要适中,否则会给参数的估计带来困难。在设计时要注意影响时间的效应因素。如研究吸烟对肺癌患者生存率的影响,若本来吸烟的人因患肺癌而戒烟,则一般模型不易分析吸烟的作用,需考虑吸烟量随时间变化的趋势。如果研究的因素随时间而发生变化,必要时可以采用伴时协变量的Cox模型进行分析。,2模型拟合时应注意的问题 多重共线性问题:医学研究中的许多变量间并不是独立的,但通常不会影响分析的结果,如果变量间存在高度的相关,则会影响Cox模型的参数估计,此时可采用主成分分析法或R 型聚类分析法消除多元共线性的影响。应注意Cox模型要求病人的风险函数与基础风险函数呈比例,如果这一假定不成立,则不能用Cox模型进行分析。,3模型应用时应注意的问题 结果的解释应结合专业知识。Cox模型与其他回归分析一样,当进入模型中的因素有统计学意义时,该因素与生存时间不一定有因果关系,其中有一部分因素与生存时间的关系为伴随关系。Cox回归的生存率一般不宜用于不同资料之间的比较,因为基准危险率函数只在同一份资料内保持相同,不同资料的基准危险率往往不同;而且在多因素分析的情况下,协变量组合也很难一致,可比性难以保证。,(三)Cox模型的局限性,Cox模型估计参数时,首先要假定偏似然函数具有最大似然的性质,这个问题在理论上尚不完善;Cox模型对异常值较为敏感,所以在进行模型配合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论