生存分析.ppt_第1页
生存分析.ppt_第2页
生存分析.ppt_第3页
生存分析.ppt_第4页
生存分析.ppt_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生存分析,生存分析的基本概念,生存分析(survival analysis)是将事件的结果和出现这一结果所经历的时间结合起来分析的一种统计分析方法,它不仅可以从事件结局的好坏如疾病的痊愈(成功)和死亡(失败),而且可以从事件的持续时间如某病经治疗后存活的时间长短进行分析比较,因而能够更为全面地反映该治疗的效果。,生存分析的应用较为广泛,特别是慢性疾病如恶性肿瘤、糖尿病、高血压、心血管疾病等治疗效果的分析,因为单纯的治愈率并不能敏感地反映出治疗的效果。生存分析不仅可以用于治疗某病的效果(预后)的分析,还可以用于实验研究如比较两种消毒剂的抑菌时间的长短、社区试验中某种预防措施的效果,如预防接种后观察某一疫苗的效果,观察避孕措施的效果等。,这类资料一般通过随访进行收集,常见的随访起点是确诊日期、采取处理措施(如开始治疗)的时间等,而事件的结局可以是痊愈、死亡、复发、致残或所防止的事件发生如发病、怀孕等。随访资料常因失访等原因造成某些数据观察不完全,而用专门方法进行统计处理,这类方法起源于对寿命资料的统计分析,故称为生存分析。,数据结构及特点,记录的项目包括开始观察日期、终止观察日期、结局,以及研究因素与干扰因素。常见形式有记录卡片和一览表等,如图17.1和图17.2所示。,表17.1 5例肝癌随访记录,月 份(1998),图17.1 生存时间原始记录示意图(“+“为仍存活, 下同),天 数,图17.2 生存时间排序整理数据示意图,这类数据的特点为:(1)因变量有2个,即生存时间(天数)和结局(死亡与否);(2)生存时间存在观察不完全的数据.,生存时间(survival time)是指观察到的存活时间,生存时间有两种类型。,生存时间 完全数据 截尾数据,(1) 完全数据(complete data):指从起点至死亡所经历的时间,即死者的存活时间。,(2) 截尾数据(censored data):由于失访、改变防治方案、研究工作结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。从起点至截尾点所经历的时间,称为截尾数据。,完全数据提供了病人确切的生存时间,是生存分析的主要依据;截尾数据也提供部分信息,说明病人在某时刻之前没有死亡。,死亡概率 q 生存概率 p,死亡概率(mortality probability),记为q,是指死于某时段内的可能性大小。年死亡概率的计算公式为,若有截尾,则分母用校正人口数,例如,,这里的死亡概率与通常所说的死亡率在概念上是有区别的,其区别在于分母不同。死亡率的分母常用年中人口的死亡频率(年平均水平),而死亡概率则用年初人口在往后的一年中死亡机会大小。,生存概率(survival probability),记为p,与死亡概率相对立,表示在某单位时段开始时存活的个体到该时段结束时仍存活的机会大小。某年生存概率的计算公式为,若年内有截尾,则分母用校正人口数。,生存率 s(t k) 生存曲线,生存率(survival rate) 记为s(tk),是指病人经历tk个单位时间之后仍存活的概率。若无截尾数据,则,但如果含有截尾数据,分母就必须分时段校正,故此式一般不能直接应用。,生存概率与生存率在名称上只是一字之差,但在意义上差别很大,前者是单个时段的概率,后者是从0至tk多个时段的累积结果。,生存率估计的概率乘法原理 假定病人在各个时段生存的事件独立,生存概率为p,则应用概率乘法得生存率估计的应用公式为,例17.1 手术治疗50例肺癌病人,术后1, 2, 3年的死亡数分别为10, 10, 10例,无截尾值。试求各年的生存概率和3年生存率。,各年年初病例数分别为50, 40, 30例,由式(17.2)可求得各年生存概率分别为 p1=(50-10)/50=0.8000,p2=(40-10)/40=0.7500,p3=(30-10)/30=0.6667 由式(17.3)求得3年生存率为 s(3)=(50-10-10-10)/50=0.4000 由式(17.4)求得3年生存率为 s(3)=p1p2p3=0.80000.75000.6667=0.4000,两法结果相同,但式(17.3)不能处理截尾数据,而式(17.4)可用校正例数方法处理截尾数据。此外,式(17.4)中的p可根据应用背景给予不同定义,还可引入协变量参数作多因素分析(后述)。 从式(17.4)及例17.1可知,s(tk)实质上是累积生存概率(cumulative probability of survival)。例如,3年生存率是第一年存活,第二年也存活,第三年还存活的累积结果。但习惯上仍称之为生存率。,生存曲线(survival curve),是指将各个时点的生存率连接在一起的曲线图。,半数生存期,半数生存期 又称中位生存期(median survival time),即寿命的中位数(计算方法不同于普通的中位数),表示有且只有50%的个体可活这么长时间。,生存分析的主要内容及基本方法,生存分析的主要内容,(1) 描述生存过程:研究生存时间的分布特点,估计生存率及其标准误、绘制生存率曲线等。例如,根据乳腺癌患者手术后的生存资料,可以估计不同时间点的生存率及其标准误,如1年生存率、3年生存率、5年生存率等,还可以绘制生存曲线,观察乳腺癌患者手术后的生存过程。常用方法有乘积极限法和寿命表法。,(2) 比较生存过程:获得生存率及其标准误的估计值后,可进行两组或多组生存曲线(生存过程)的比较。例如,比较两种不同治疗措施治疗恶性肿瘤患者的生存曲线,可了解哪种治疗措施较优,从而为临床决策提供依据。常用方法有对数秩检验、gehan比分检验及breslow检验。,(3) 生存过程的影响因素分析:例如为了改善鼻咽癌手术的预后,应先了解可能影响患者预后的一些因素,如年龄、病程、病情、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养状况等,通过随访调查收集患者术后的生存时间和可能的影响因素等资料后,可采用多因素生存分析方法寻找影响患者预后的主要因素,从而达到在手术前后加以预防和干预的目的。常用的多因素生存分析方法有cox比例风险回归模型。,生存分析的基本方法,(1) 参数法:这类方法要求观察对象的生存时间服从某一特定分布,是通过估计某特定分布参数的方法获得生存率s(tk)的估计值。生存时间的分布可能为指数分布、weibull分布、对数正态分布等,这些分布曲线都有其特定的生存率函数。,(2) 非参数法:实际工作中,多数情况下生存时间不符合上述某特定分布,不宜用参数法进行分析,而应当选用非参数法。这类方法不论资料分布类型如何,都可以根据样本提供的信息对生存率s(tk)作出估计。两组及多组生存率比较时,检验假设与以往所学的非参数法一样,假设两组或多组的总体生存时间分布相同,而不管总体分布的具体形式。,(3) 半参数法:这种方法介于参数法和非参数法之间,一般属多因素分析方法,用于探讨生存过程的主要影响因素,其经典方法是上面提到的cox比例风险回归模型。,生存率的计算,乘积极限法 寿命表法,乘积极限法(product-limit method) 对于不分组的资料此法可直接用概率乘法原理估计生存率,故称乘积极限法,因此法由kaplan-meier于1958年提出,故又称kaplan-meier法(记为km)。这是一种非参数法,主要用于小样本,也适用于大样本。,例14.1 某医师采用手术疗法治疗12例宫颈癌患者,随访时间(月)记录如下:1,2,4,5,7,8+,11,15,18,33+,36,38+。试估计各时点生存率及其标准误、各时点总体生存率的95%可信区间、中位生存时间,并绘制生存曲线。,1. 生存率及其标准误的计算 本例生存时间以月为单位,并将t月当作一个时点看待。现对表14.2中各栏的含义解释如下: 第(1)栏为序号:本例k=1,2,312。 第(2)栏是将生存时间t由小到大顺次排列,如某时间点既有完全数据又有截尾数据,将截尾数据排在后面。,第(3)栏为t月的死亡人数dk,如生存时间t为5个月时有1例死亡,相应的d4=1。截尾患者即便是已死亡,也非死于处理措施(手术疗法),所以相应的d=0,如生存时间t为8月时有1例截尾,相应的d6=0。 第(4)栏为期初病例数nk,即恰好在t时点以前尚存活的病例数,如t为5月时对应的n4=9,表示恰好在5月时点前有9人存活。,第(5)栏计算各时点死亡概率qk,即恰好在t时点以前尚存活的患者在t时点上(第t个月)死亡的概率,其计算公式为 。如“q4”表示恰好在5月时点前尚存活的9例患者在5月时点上(实指治疗后第五个月的第一天到第三十天)的死亡概率为 。,第(6)栏计算各时点生存概率pk,即恰好在t时点以前尚存活的患者在t时点上(第t个月)继续存活的概率,其计算公式为 。如t为5月时对应的 。,第(7)栏计算各时点生存率s(tk),即恰好在t时点以前尚存活的患者活过t时点的概率,按式(14.5)计算。如生存时间t为4月的生存率为,第(8)栏为各时点生存率的标准误,其计算公式为,如s(t3)的标准误ses(t3)为,2. 估计各时点总体生存率的95%可信区间 求出各时点样本生存率及其标准误后,可用正态近似原理估计某时点总体生存率的可信区间,公式为,如本例4月总体生存率的95%可信区间 为 下限 上限 即手术治疗后宫颈癌患者4月生存率的95%可信区间为50.5099.50%。,3. 中位生存时间的计算 由表14.2可见,中位生存时间估计在711月之间,采用内插法计算如下:,(711): (7t) = (0.58330.4861) : (0.58330.5),即采用手术治疗后宫颈癌患者的中位生存时间为10.4个月。,生存曲线 未分组资料的生存曲线也称kaplan-meier曲线。它是以生存时间t为横轴,生存率 为纵轴,绘制而成的连续型的阶梯形曲线,用以说明生存时间与生存率之间的关系。,图14.1 乘积极限法生存曲线(kaplan-meier曲线),寿命表法 (life-table method) 当样本例数足够多时,乘积极限法可按时间分组计算,这就是寿命表法。寿命表法先于乘积极限法,但实质上是乘积极限法的一种近似(频数表法)。,例14.2 某医师对110例原发性肺癌患者确诊后进行随访,得资料见表14.3第(2)栏至第(4)栏,试估计各时点生存率及其标准误、各时点总体生存率的95%可信区间、中位生存时间,并绘制生存曲线。,1. 生存率及其标准误的计算 本例生存时间以月为单位,现对表14.3中各栏的含义解释如下: 第(1)栏为序号:本例k=1,2,310。 第(2)栏为确诊后月数tk。“0”表示从确诊日起不满1月,“1”表示确诊后满1月但未满2月,其他依此类推。,第(3)栏为期内截尾人数ck,表示确诊后满t月但未满t+1月期间截尾的人数。如c3=1,表示确诊后满2月但未满3月期间有1例截尾。 第(4)栏为期内死亡人数 ,表示确诊后满t月但未满t+1月期间发生死亡事件的人数。如 =25,表示确诊后未满1月有25例死于原发性肺癌; =18表示确诊后满3月但未满4月有18例死于原发性肺癌。,第(5)栏为期初观察人数 ,指t月初尚存活的病例数。此栏自下而上累计求得,计算公式为 (14.8) 如本例 =4,则 , = 6+1+1=8,余类推。,第(6)栏为校正人数nk,相当于实际观察人月数。凡在t月内截尾的病例都被当作平均观察了半月时间,因此校正人数nk等于月初观察人数减去当月截尾人数的一半,其计算公式为,第(7)栏为死亡概率 ,表示确诊后活满t月的病人在今后一个月内死亡的概率,其计算公式为,第(8)栏为生存概率 ,表示确诊后活满t月的病人在今后一个月内存活的概率,其计算公式为,第(9)栏为t月生存率,表示确诊后活满t月的概率,采用式(14.5)计算得到。 如1月生存率 2月生存率 3月生存率 余类推。,第(10)栏为生存率的标准误 ,其计算公式为,2. 估计各时点总体生存率的95%可信区间 求出各样本生存率及其标准误后,亦可根据正态近似原理,采用式(14.7)估计其总体生存率的可信区间。如3月生存率的95%可信区间为,下限 上限 即原发性肺癌确诊后患者3月生存率的95%可信区间为20.4237.70%。,3. 中位生存时间的计算 由表14.3可见,中位生存时间估计在12月之间,采用内插法计算如下: (12): (1t) = (0.57650.2906) : (0.57650.5),即原发性肺癌确诊后患者的中位生存时间为1.3个月。,4. 生存曲线 分组资料的生存曲线是以生存时间t为横轴,生存率 为纵轴,绘制而成的连续型的折线形曲线,用以说明生存时间与生存率之间的关系。,图14.2 寿命表法生存曲线,生存资料的基本要求 (1) 样本由随机抽样方法获得,并应有足够的数量;(2) 死亡例数不能太少(30);(3) 截尾值比例不能太大;(4) 生存时间尽可能精确到天数,因为多数生存分析方法都在生存时间排序的基础上作统计处理的,即使是小小的舍入误差,也可能改变生存时间顺序而影响结果;(5) 缺项要尽量补齐。,log-rank检验,常见的假设检验一次只比较一个参数(如均数、死亡率等),在生存分析中已不再适用,因为它要将生存曲线作为整体进行曲线与曲线之间的比较(图17.5)。这一节着重讨论两组比较的非参数检验法,其零假设为两总体生存曲线相同,但检验过程一般不估计生存率,而利用死亡数和死亡率函数作统计推断。,例14.3 22例肺癌患者经随机化分配到放疗组和放化疗联合组,从缓解出院日开始随访,随访时间(月)如下,试比较放疗组和放化疗联合组患者的生存曲线有无差别。 甲:放疗组 1,2,3,5,6,9+,11,13,16,26,37+ 乙:放化疗联合组 10,11+,14,18,22,22,26,32,38,40+,42+,图14.3 放疗组和放化疗联合组患者的生存曲线,1. 建立检验假设和确定检验水准 h0:放疗组与放化疗联合组患者的生存曲线位置相同 h1:放疗组与放化疗联合组患者的生存曲线位置不同 0.05,2. 计算统计量 值 (1) 将两组患者按生存时间统一从小到大排序,并标明组别、死亡数,生存时间相同的甲、乙两组列在同一行,如生存时间为26个月的患者有2例,甲组和乙组各1例,故甲、乙两组列在同一行;某时间点既有完全数据又有截尾数据,截尾数据排在后面。如生存时间t为11个月时,甲组和乙组各1例,但乙组为截尾数据,故排在后面。见表14.4第(1)(4)栏。,(2) 列出各时点的期初病例数,见表14.4第(5)(7)栏。,(3) 分别计算甲、乙两组各时点的理论死亡数,见表14.4第(8)(9)栏。甲组各时点的理论死亡数=(该时点病死数期初病例总数)甲组期初病例数(4)/(7)(5)(4)(5)/(7),乙组各时点的理论死亡数(4)(6)(7)。两组生存曲线比较时,每个时点均可列出一个四格表,如生存时间t=26对应的四格表如表14.5,因此,甲、乙两组理论死亡数的计算公式,实际上就是第六章 检验理论频数计算式 。,(4) 求出甲组和乙组理论死亡数的合计值分别为5.1282、11.8718。,v=211,3. 求出p值,作出推断结论:查附表5, 界值表,得p0.05,按 =0.05水准拒绝h0,接受h1,又因从图14.3可直观地看出放化疗联合组的生存曲线位置较高,故可认为放化疗联合治疗肺癌的效果较好。,gehan比分检验,gehan比分检验(gehan score test)仅用于两样本生存曲线的比较。仍以例14.3说明其计算步骤和基本原理。,1. 建立检验假设和确定检验水准 h0:放疗组与放化疗联合组患者的生存曲线位置相同 h1:放疗组与放化疗联合组患者的生存曲线位置不同 0.05,2. 计算统计量 值 (1) 将两组患者按生存时间统一从小到大排序,并标明组别、死亡数,甲、乙两组生存时间相同的患者,其先后顺序可任意排列;同组内生存时间相同的患者,其先后顺序也可以任意排列。,如生存时间t为26个月的患者甲组和乙组各1例;生存时间t为22个月的患者乙组有2例,其先后顺序均是任意排列的。某时间点既有完全数据又有截尾数据,截尾数据排在后面。如生存时间t为11个月时,甲组和乙组各1例,但乙组为截尾数据,故排在后面。见表14.7第(1)(4)栏。,(2) 计算r1、r2及(r1r2)值。对每个病例而言,肯定比他的生存时间短的病例数记为r1,如表14.7第(5)栏;肯定比他的生存时间长的病例数记为r2,如表14.7第(6)栏。(r1r2)值如表14.7第(7)栏。,(3) 求gehan比分总计v。gehan比分合计v为任何一组各个时点的(r1r2)之和。可资核对,两组各个时点的(r1r2)之和的绝对值相等,符号相反。,(4) 求 值。,式中 和 分别为两组样本含量。本例 值为,3. 求出p值,作出推断结论:查附表2,t界值表(自由度 ),得p0.05,按 =0.05水准拒绝h0,接受h1,又因乙组v值为正,故可认为放化疗联合治疗肺癌的效果较好。,生存分析中生存曲线比较的假设检验应注意以下几点: 1. 方法选择 本例上述两种假设检验方法的结论一致,但在应用上有差别。gehan比分检验仅用于未分组资料两个样本生存曲线的比较,对数秩检验既可用于两个样本生存曲线的比较,又可用于多个样本生存曲线的比较;既可用于未分组资料生存曲线的比较,又可用于分组资料生存曲线的比较。,2. 应用条件 除了生存资料的基本要求外,还要求各样本生存曲线不能交叉。若出现交叉,则提示可能存在混杂因素,应采用分层分析如分层对数秩检验,或其他多因素生存分析方法如cox比例风险模型等进行分析。,3. 处理措施优劣的判断 若gehan比分检验和对数秩检验差别有统计学意义,往往还需要判断处理措施的优劣。两种方法除了均可根据各组生存曲线位置的高低直观判断外,gehan比分检验还可以根据gehan比分总计v值的正负来判断,v值为正的一组处理措施的效果较优;对数秩检验还可以根据死亡比smr ( )的大小来判断,smr较小的一组处理措施的效果较优。,cox回归分析,h(t)=h0(t)exp(b1x1+b2x2+bpxp),cox回归适用范围很广,类似于非参数方法;但其检验效率高于非参数模型,接近于参数模型。,回归系数的估计与检验: 由于模型未定义h0(t),故不能用一般的方法估计回归系数。英国cox. dr.提出用风险函数的条件概率,建立偏似然函数(partial likelihood),并证明了在多数情况下,可借用似然法估计和检验参数。回归系数常用的检验方法有如下三种,这三种统计量均服从2分布,自由度等于被检验变量的个数。,score检验:稳健性较差,但用于选变量的检验十分方便。 wald检验:稳健性较好,用于模型内变量的检验很方便。 似然比检验(maximum likelihood ratio test):稳健性最好,计算量较大,检验模型内变量(剔出)或模型外变量(选入)同样方便。,cox回归生存率 cox回归未定义基准危险函数h0(t),因而未能明确定义生存函数,常用近似法估计生存率,其中bresslow法应用最广。 设n为样本例数,d为死亡例数,ti为死亡时刻,m为死亡时刻数目,则本例n=16,d=15, ti =8, 9, 10, 11, 12, 13, 14, 15, 17天,m=9;定义ti时刻的基准生存率为 (17.12),式中j表示对j时刻暴露人群求和。s0(ti)代表所有自变量均为0的病人在ti时刻的生存率。一般病人在ti时刻的生存率为 (17.13) 式中指数部分exp(.),breslow提出协变量(x1, x2, , xk)为ti时刻的观察值,由此可估计出m个生存率。今定义(x1, x2, , xk)为某指定类型的协变量,则可估计出多种类型的生存率,实际意义较大的cox回归生存率有以下几种。,(1) 样本生存率:以每个病人的协变量值分别估计生存率(n个),用以绘制散点图,反映样本生存率的变动情况。本例结果如表17.9第(2)栏和图17.7a所示,16个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论