十四、生存分析十一节_第1页
十四、生存分析十一节_第2页
十四、生存分析十一节_第3页
十四、生存分析十一节_第4页
十四、生存分析十一节_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生存分析问题由来流行病学研究资料既有连续变量、又有属性变量。某些流行病学研究的兴趣在于事件发生所需的时间。最常见的一种资料,记录从某个固定起点(如外科手术)至某一事件(如死亡)终点所间隔的时间研究对象出现某种结局所经历的时间统称为生存时间,含生存数据的资料称为生存数据对生存数据进行统计学处理称为生存分析生存分析与传统设计的数据分析的区别:测量的是事件发生时间一次性征集的研究对象数不够多,无法分成两组,研究对象只能在不同时间进入研究常需数月才能征集到适宜的研究对象研究对象常有失访各个研究对象随访时间长短不一生存时间临床研究的生存时间常指死亡时间、发生某一症状时间、疾病缓解后的复发时间、吸毒者的复吸时间等事件的终点时间常有一个清楚的界定但其起点时间的界定往往不清楚例如,诊断时间不易确定,不大可能知道得病时间多长某些疾病的诊断时间与疾病起点时间可有很大差别狭义讲,生存时间指某种疾病的病人从发病至死亡所经历的时间跨度广义讲,生存时间指某种事件从起始至到达某种终点所经历的时间病人症状缓解至复发所间隔时间病人两次发作间隔时间健康至发病所经历时间如接触危险因素至发病所经历时间病人发病至死亡所经历时间病人治疗开始至痊愈所经历时间病人治疗开始至死亡所经历时间输卵管再通术后至受孕所间隔时间数据的截缩(censoring)生存(时间)数据,不适用于此前讲过的任何方法进行分析欲观察到所有研究对象结局发生,几乎不可能例如,比较施行不同类型手术的乳癌病人的生存时间,虽可随访病人多年,但总有一些病人在观察终止时仍然活着。因此,就不知道她们自手术以来的生存时间,只知道她们生存的时间比参加研究的时间要长,这称为生存时间被截缩(censored),即在事件发生前,观察期截断(终止)这类研究事件往往是一些不良事件,如死亡、发病数据的截缩(续)随访中,如能观察到研究对象的明确结局,所提供的生存时间信息是完整的,称为完全性数据(completedata)随访中,如因各种原因未能观察到研究对象的明确结局,不知其确切的生存时间,只知该研究对象至少在其已经历的时间内未发生结局(如死亡),即其生存时间只会长于观察的时间而不会短于这个时间,这种研究对象的生存时间在未到规定的终点之前就终止(或截缩)了,这种数据称为截缩(或终检、或截尾)数据(censoreddata)截缩(终检、截尾)的原因研究对象失访拒绝继续参加研究终止、研究对象生存期超过研究终止期研究对象死于其它竞争性死因风险(hazard)函数风险函数是指一个已活到时间t的观察对象,在时间t到t+Δt非常短的时间区间内死亡(瞬间)概率的极限(概率函数):实际工作中可估计单位长度时间内的风险函数:某时间区间(t,t+Δt)内死亡人数风险函数=

与该时间区间开始时的观察对象总数随时间延长,风险函数可表现为递增或递减当风险函数为常数时,说明其不随时间而改变如风险函数随时间增大,表示死亡速率随时间而加快风险(hazard)函数(续)风险函数是指一个已活到时间t的观察对象,在时间t到t+Δt这个非常短的时间区间内死亡概率(瞬间概率)的极限(概率函数),即:于时间t存活的观察对象在t至t+Δt的时间区间内死亡的概率h(t)

=────────────────────────────

Δt风险函数又称时间t的瞬时死亡概率(密度)函数,或条件死亡概率,或死亡力(force),或年龄死亡速率比例风险回归生物医学研究目的不仅是描述病人在不同时间的生存率或风险函数希望能建立一个模型反映生存时间与协变量(或自变量、解释变量、预测变量、影响变量等)之间的联系可采取两种方法:分层分析:按自变量分成若干层次,计算各层的生存率Cox回归分析:分析带协变量的生存数据,生存数据反映生存时间长短比例风险回归D.R.Cox最早提出比例风险回归模型又称Cox回归模型建立条件死亡概率和偏似然函数估计与检验的方法用这种模型,可对两组风险函数进行多变量分析与多变量线性回归和logistic回归分析相似比例风险回归模型也可评价各个自变量在两个风险函数差异中的影响,并调整其它自变量的混杂作用Cox回归模型分析可看作是带协变量的生存分析比例风险回归Cox回归模型不是直接考察生存率S(t,x)与自变量(协变量)x的关系而是假设两个风险率h1(t,x)与h0(t)成比例,以这个比例作因变量h1(t,x)=h0(t)exp(Σβkxk)

=h0(t)exp(β1x1+β2x2+β3x3+……βkxk)再来考察该比例与自变量(协变量)x的关系;[某个条件纯在的时候生存的时间之比较]比例风险回归比例风险回归模型具有多变量回归模型的大部分特征偏回归系数bi表示第i个变量改变1个单位时,两个风险函数之比(风险比,hazardratio,HR)的改变情况,而其它k−1个变量保持不变风险比(hazardratio,HR)相当于相对危险性(RR)应用比例风险回归分析注意事项(1)Cox回归模型主要用于生存资料的分析,对所分析的数据分布无特殊要求,可以进行多因素分析Cox模型中每个观察对象的随访数据必须包括两部分信息:

发生或未发生“失效”,即结局事件是否发生②

结局发生或未发生的时间,即“失效”时间或截缩时间(2)Cox回归模型用于队列研究资料分析,毋须假设所有对象的观察时间一致,无论随访迟早、随访时间长短、或失访、或数据截缩,均适用应用比例风险回归分析注意事项(续)(3)Cox回归模型的因变量是风险比(hazardratio)它不是非直接用生存时间作因变量,也不是直接估计风险率它估计的是两个风险(率)的比它所比较的两个风险(率)是以一定的生存时间来反映的:

∑bi×xih(t,x)=h0(t)e

∑bi×xih(t,x)/h0(t)=c=c1c2c3......ck=exp∑bi×xi=e上式中h(t,x)=风险,是指在t时刻的瞬间死亡率

h0(t)=当所有xi都为0时的风险,又称基准风险

bi

=偏回归系数假设bi与h(t,x)呈指数关系Cox回归模型可以用于分析多种因素对疾病预后或生存时间的影响具有评价和预测的功能它不必考虑生存时间数据的分布在分析对生存或死亡的影响同时,也可分析结局发生时间这个定量指标,使分析的信息增加它可以直接估计相对危险性(风险比),不必作发病率很低的假设研究设计上比较灵活,处理失访也很容易应用比例风险回归分析注意事项(续)(4)入选模型的变量不一定都与“寿命(生存时间)”有因果关系,可能是伴随关系未入选模型的变量不一定无关,应考虑模型内某些变量替代了它的作用,或因检验效率低,或对某个变量进行了控制(5)Cox回归分析的生存率一般不宜用于不同资料的比较,因基准风险只在同一数据资料内保持相同,不同资料的基准风险各异。且不同资料的协变量组合也难一致(6)生存率估计不应任意外推,也不宜轻易用于预测(7)注意变量之间的交互应用比例风险回归分析注意事项(续)(8)Cox回归模型中的自变量及自变量的效应(bi)均不随时间而改变(9)Cox回归模型的拟合与logistic回归模型拟合相似,估计的参数已调整了其它混杂变量的影响(10)拟合Cox回归模型的死亡数据应无重叠(ties)[在同一个时间内,只发生一例,否则需要再次细分时间,以免重叠发生]连续变量“失效时间”也无重叠、或尽可能减少(最好是没有)“失效时间”相同的情况,如是,可将“失效时间”划分得更细些,或转换成属性变量形式应用比例风险回归分析注意事项(续)(11)Cox回归模型的参数检验常用Waldχ2

检验、Scoreχ2

检验、或似然比检验可以根据Waldχ2统计量的大小,比较各个自变量对因变量影响的大小(12)应用Cox回归模型时所需样本含量视需分析的自变量数目多少而定,变量越多所需样本含量也大(至少是变量数的10倍)样本含量估计可用下式计算:

2(Z+Z

)2d=

ln上式中,d=每组发生的事件数=研究结束时两组的预期风险比(常难估计)

Z=水平下标准正态离差,Z=水平下标准正态离差例如,设=0.05,=0.20,Z=1.96,Z=0.84如果研究结束时试验组的事件发生率估计为50%知道了后,即可计算d(例如,20),算得d后,乘以2(1/50%)即得到所需征集得对象数(40)生存分析生存分析:在临床诊疗工作的评价中,慢性疾病的预后一般不适用于治愈率、病死率等指标来考核,因为其无法在短时间内明确判断预后情况,为此,只能对患者进行长期随访,统计一定时期后的生存或死亡情况以判断诊疗效果。生存分析还适用于现场追踪研究(发病为阳性)、临床疗效试验(痊愈或显效为阳性)、动物试验(发病或死亡)等。基本概念生存时间(SurvivalTime):从狭义的角度来说:生存时间是患某病的病人从发病到死亡所经历的时间跨度。

开始发病病人死亡

从广义的角度:从某种起始事件到达某种终点时间所经历的时间跨度。

起始事件终点事件生存时间生存时间生存时间的数据类型2.截尾数据(CensoredData):由于某种原因未能观察到观察对象的明确的结局,所以不知道该观察对象的确切的生存时间,就象该观察对象的生存时间在未到达规定的终点之前就被截尾了。截尾数据提供了部分关于生存时间的信息,使研究者知道该观察对象至少在已经经历的这个时间长度内没有发生终点事件,其真实的生存时间只能长于我们现在观察到的时间而不会短于这个时间。(符号t+)1.完全数据(CompleteData)指达到了明确结局的观察对象的生存时间数据。某个观察对象具有明确的结局时,该观察对象所提供的关于生存时间的信息是完整的。生存时间资料的特点有2个效应变量:一是生存时间(天数),二是结局(死亡与否、是否阳性等)。

存在截尾数据:由于某种原因未能明确观察到随访对象发生事先定义的终终事件。

分布类型复杂:生存时间资料常通过随访获得,因观察时间长且难以控制混杂因素,故其分布常呈偏态,影响因素较多,规律难以估测。生存分析方法Kaplan-meier过程这是一种非参数法,主要用于小样本,适用于能够准确记录事件和删失发生时点的数据。LifeTables过程也叫寿命表法,适用于样本量大,且不太可能准确记载每个观察对象的死亡或删失发生时间的数据。Cox回归模型分析法用于描述多个变量对生存时间的影响Kaplan-meier过程Kaplan-meier法用于:估计某因素不同水平的中位生存时间比较研究因素不同水平的生存时间有无差异控制一分层因素后对研究因素不同水平的生存时间比较例1:3种疗法治疗66例白血病患者缓解时间(天),数据(kaplanm.sav)如下A疗法:4,5,9,10,11,12,13,28,28,28,29,31,32,37,41,41,57,62,74,100,139,20+,258+,269B疗法:8,10,10,12,14,20,48,70,75,99,103,162,169,195,220,161+,199+,217+,245+C疗法:8,10,11,23,25,28,28,31,31,40,48,89,124,143,12+,159+,190+,196+,197+,205+,219+Kaplan-meier过程Kaplan-meier过程Kaplan-meier过程时间变量结局变量分组变量当变量为二分类变量时,一般以死亡、复发、恶化等为终结事件,如本例就是以恶化为终结事件,标记值为1,所以在Singlevalue框中输入1;如果生存状态变量取值为连续变量时,则在Rangeofvalues框分别输入下限值和上限值。Kaplan-meier过程LogRank法和Breslow法较为常用Kaplan-meier过程对组间生存函数的差异进行检验的方法Kaplan-meier过程Survival:累积生存率估计,选中,表明要求将各观察样本的生存率存入原始数据库中Standarderrorofsurvival:累积生存率估计的标准误Hazard:累积风险函数估计Cumulativeevents:终结事件的累积频数生存分析表平均生存时间和中位生存时间及其标准误和可信区间累积生存函数曲线Kaplan-meier过程Kaplan-meier过程分析结果…1.观察时间2.生存状态3.累积生存率4.累积生存率的标准差5.累积死亡数6.组中剩余人数123456(1)生存表分析

Mean是生存时间的算术均数,Median为中位生存时间,同时表格中也给出它们的95%的可信区间。Kaplan-meier过程分析结果(2)生存时间估计

LogRank、Breslow和Tarone-Ware三种检验方法的检验统计量分别为3.282、2.861和3.360,它们的p值分别为0.194、0.239和0.186,说明三组疗法之间生存时间的差异无显著性Kaplan-meier过程分析结果(3)水平间的整体比较分析结果(4)生存曲线Kaplan-meier过程LifeTables过程用于:制作寿命表绘制各做曲线如生存函数、风险函数曲线等。对某一研究因素的不同水平的生存时间分布进行比较,控制另一个因素后对研究因素不同水平的生存时间分布进行比较,包括从总体上比较和不同水平间进行两两比较。Life-Tables过程例2:某医院对114名男性胃癌患者接受手术后的生存情况进行了11年的随访,得到数据(lifetb.sav)如下Life-Tables过程Life-Tables过程输出生存时间范围及组距:前一个框输入生存时间上限,后一个框输入生存时间的组距Life-Tables过程Life-Tables过程生存曲线风险函数曲线寿命表Life-Tables过程分析结果(1)寿命表(分三部分讲解)1.生存时间的组段下限2.进入该组段的观察例数3.该组段的删失例数4.暴露于危险因素的例数5.所关心的事件的例数,即死亡例数Life-Tables过程分析结果(1)寿命表Ⅰ123451.所关心事件的观察单位数的比,即各组的死亡概率2.各组的生存概率3.至本组段上限的生存函数估计值,由各组的生存概率累积相乘所得。4.概率密度,所有个体在时点t后单位时间内死亡概率估计值。Life-Tables过程分析结果(1)寿命表Ⅱ12341.风险率。活过时点t个体在时点t后单位时间内死亡概率的估计值2.生存函数估计的标准误。3.概率密度的标准误4.风险率的标准误。1234Life-Tables过程分析结果(1)寿命表ⅢLife-Tables过程分析结果(2)累积生存函数曲线基本思想不同:LifeTables过程是将生存时间分成许多小的时间段,计算该段内生存率的变化情况,分析的重点是研究总体生存规律;而Kaplan-Meier过程则是计算每一“结果”事件发生时点的生存率,分析的重点除了研究总体生存规律外,还热心于寻找相关影响因素。对于分层变量的处理不同:LifeTables过程仅按该分层变量进行分层,没有考虑其对生存时间的影响,即没有提供控制该分层变量的情况下对研究因素对生存时间的影响进行统计分析的能力;Kaplan-Meier过程则是在控制该分层变量的情况下对研究因素对生存时间的影响进行统计分析。做出的生存曲线不同统计学检验方法不同:LifeTables过程采用Wilcoxon法,Kaplan-Meier过程用Logrank法、Breslow法、Tarone-are法Kaplan-Meler法和寿命表法的比较Cox回归模型上面介绍的两种生存分析方法只能研究一至两个因素对生存时间的影响,当生存时间的影响因素有多个时,它们就无能为力了,下面介绍CoxRegression过程,这是一种专门用于生存时间多变量分析的统计方法。模型结构:设有n名病人,第i名病人的生存时间为ti,同时该病人具有一组伴随变量xi1,xi2…xip。该病人生存到时间ti的风险函数hi(t)是其基础风险函数ho(t)与相应伴随变量的函数的乘积,其数学表达式为:

hi(t)=h0(t)f(β1xi1+….+βpxip)

Cox建议伴随变量的函数为指数形式,故Cox比例风险回归可写为:

hi(t)=h0(t)exp(β1xi1+….+βpxip)式中的h0(t)是当所有伴随变量xi1,xi2,…xip都处于0或标准状态下的风险函数,是一个不确定的值,β1,β2…,βp为回归系数,须用实际资料来估计。Cox回归模型将h0(t)移至等式左边并去自然对数得:

ln[hi(t)/h0(t)]=β1xi1+….+βp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论