生存分析概述及实例分析_第1页
生存分析概述及实例分析_第2页
生存分析概述及实例分析_第3页
生存分析概述及实例分析_第4页
生存分析概述及实例分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生存分析概述及其应用实例侯笛摘要:本文对概括性地介绍了生存分析的概念和主要的研究内容。对生存分析中常用的术语进行了描述,包括生存数据,生存函数,风险函数等。并阐述了生存数据估计中常用的三种模型(非参数模型,参数模型,半参数模型。)的原理和方法。最后借助SPSS软件,用不同的生存分析模型对白鼠的治疗实验数据进行了统计处理,最后得出了影响白鼠生存时间的主要因素。关键词:生存分析;SPSS;生存数据生存分析是指将终点事件和出现此事件所经历的时间结合起来分析的一种统计分析方法,研究生存现象和现象的响应时间数据以及其规律,是处理以生存时间(survivaltime)为反应变量、含有删失数据一类资料的统计方法。此类资料的生存时间变量大多不服从正态分布,且常含有删失值,故不适于用传统的数据分析方法如t检验或线性回归进行分析。所谓删失值,就是因各种原因对随访对象的随访可能失访或终检。能处理删失数据也是生存分析的一个优点。作为统计科学的一个重要分支,生存分析的应用已经由最初的医学领域扩展到了社会科学、经济学等诸多领域。“事件”和“寿命”是生存分析研究中的两个重要变元。生存分析研究的主要内容包括以下两个方面:(1)描述生存过程;(2)分析生存过程的影响因素并对生存的结局加以预测。通常将生存分析所用到的数据称为生存数据,生存数据又分为完整数据和删失数据。生存分析中常用的分析方法很多,按照是否使用参数可以分为非参数方法,参数方法和半参数方法[1]。下面将从基本概念,生存分析方法,实例解析三方面作具体的介绍。生存分析中的基本概念1.1事件和寿命生存生存分析中定义的事件有死亡、损坏、失败、解雇、病发等等。例如病人的死亡,产品的失效,疾病的发生,职员被解雇。而寿命则是指试验或记录开始到事件发生所经历的时间。1.2.生存数据生存数据可以分为完全数据和删失数据。完全数据是指提供了完整信息的数据。例如,在研究产品的失效时间时,某个样品从进入研究直到失效都在我们的观察中,可以得到该样品的具体失效时间,这就是一个完全数据。删失数据则是指在观测期内,我们并没有看见个体的状态发生改变,无法确定个体具体的生存时间。又分为左删失数据,右删失数据,区间删失数据。生存分析中最常见的是右删失数据,是指试验个体在观测终止前(或者离开实验前)一直存活或工作,其失效或死亡发生在观测终止(或离开实验)之后。左删失数据是指我们知道某个体在某时刻前已经失效或死亡,但不知道具体的时间。区间删失数据是指个体在某个时间区间内死亡,但不能确定具体的死亡时间。1.3生存函数和风险函数生存分析中有两个重要的函数:生存函数和风险函数[2]。生存函数(survivalfunction)又称为累积生存率,记作S(t),是指个体生存时间超过t的概率。风险函数(hazardfunction)又称瞬时死亡率,记作h(t),是指在t时刻存活的个体,在t+∆t时刻死亡的概率。用T表示个体生存时间,t表示观测时间,可以用下式描述两个函数:S(t)=P(T>t)(1.1)(1.2)生存分析方法分类2.1非参数方法非参数方法是生存分析中最常用的一种方法。当研究的事件不能被参数模型很好地拟合时,通常可以采用非参数方法研究它的生存特征。常用的非参数方法包括生命表分析和Kaplan-Meier分析。生命表法可以用来描述群体的生存现象,适用于大样本的情况,它的主要优点在于对生存时间的分布没有限制。生命表分析将观测时间分成时间段,按时间段逐个统计事件发生的情况,以此估计生存函数。假设共有k个时间段[t0,t1),[t1,t2),…,[tk-1,tk),每个区间中事件发生的次数分别为d1,d2,…,dk,每个区间中的个体总数分别为n1,n2,…,nk,所以在第i个区间个体存活的概率为(ni-di)/ni,而个体可以从第一个区间存活到第i个区间的概率(累积生存率)为:(2.1)易知S(t)为递减函数。[3]Kaplan-Meier分析,也称为乘积极限估计,是Kaplan和Meier二人在1958年提出的一种估计生存函数的非参数方法。与生命表分析不同,K-M分析以事件发生的时间点将观测区间分段,用来估计生存函数。2.2参数方法若已经证明某事件的发展可以用某个参数模型很好地拟合,就可以用参数方法做该事件的生存分析。常用的参数模型有指数分布模型、对数分布模型、正态分布模型,威泊分布模型,Gompertz分布模型等[2]。指数分布是一种应用极广泛的单参数分布,它最大的特点是风险函数为常数,即:h(t)=λ(2.2)Gompertz分布是Gompertz在1825年提出的,常用于刻画人的生存分布,其风险函数为:对于一批生存数据,在事先不知道寿命分布的总体趋势,且又不好判断应该用何种模型最合适时,多数学者一般直接采用非参数方法或半参数法。但是,由于非参数方法的精度一般低于参数方法。常用的非参数法为生命表分析法和K-M方法,生命表方法对生存函数和生存率的估计依赖于生命表中所有的区间,应用假定是总体在每个区间内各处有近似相等的生存概率,乘积限方法是基于一个个数据的估计,而非生命表中按区间分组的数据,其假设为事件发生的概率仅依赖于时间[4]。本例中并不知道个体在各个区间的生存概率是否相等,依次用生命表法和K-M法进行分析。3.1生命表法图3.SEQ图\*ARABIC1生命表法得到的生存函数图3.SEQ图\*ARABIC2生命表法得到的风险函数观察生存函数的分布可以看出,大约在200天时两种治疗方法的生存函数相交,在200天以前传统治疗方法的存活率较高,而在200天以后试验方法的治疗效果明显优于传统治疗方法。观察风险函数的分布,试验方法的风险函数基本分布在传统方法一下,风险较低。试验方法的分布趋势整体呈现较为稳定的低水平,而传统方法的风险则整体呈现增长趋势。表3.2检验结果Wilcoxon(Gehan)统计量dfSig.2.9201.088 表2的显著性检验结果p值为0.088>0.05,说明两种治疗方法并不存在显著性差异。3.2K-M分析表3.3K-M分析生存表治疗方法时间状态此时生存的累积比例累积事件数剩余个案数估计标准误01144.0001.967.0331292164.0001.933.0462283188.0001..3274188.0001.867.0624265190.0001.833.0685256192.0001.800.0736247206.0001.767.0777238209.0001.733.0818229210.0000..82110214.0001.698.08492011216.0001.663.087101912216.0000..101813220.0001..111714220.0001.590.092121615227.0001..131516227.0001.516.094141417240.0001.479.094151318244.0001.442.094161219244.0000..161120244.0000..161021244.0000..16922246.0001..17823246.0001.344.09518724256.0000..18625265.0001..19526265.0001.229.09220427266.0001.172.08521328304.0001.115.07322229344.0001.057.05523130404.0001.000.00024011142.0001..1332142.0001.941.040232生存表治疗方法时间状态此时生存的累积比例累积事件数剩余个案数估计标准误13156.0001.912.0493314164.0001.882.0554305196.0000..4296198.0001.852.0615287204.0000..5278205.0001.820.0676269208.0000..62510220.0000..62411240.0001.786.07272312242.0001..82213242.0001.718.08092114244.0001..102015244.0001..111916244.0001..121817244.0001.581.090131718249.0001.547.091141619254.0000..141520261.0001.510.092151421266.0000..151322266.0000..151223269.0001.468.093161124280.0001..171025280.0001.383.09418926284.0000..18827296.0001..19728296.0001.287.09220629330.0000..20530340.0001.230.08921431344.0000..21332348.0000..21233414.0000..21134424.0001.000.000220表3.4个案处理摘要治疗方法总数事件数删失N百分比03024620.0%134221235.3%整体64461828.1%K-M分析方法与生命表法相比记录了删失数据,由于生命表的结果不够直观,最好观察生存函数分布,可以较为清楚的看到试验疗法与传统疗法的差异。图SEQ图\*ARABIC3.3K-M分析累积生存函数图3.SEQ图\*ARABIC4K-M分析累积风险函数K-M分析的生存函数分布与生命表法的生存函数类似,200天左右是两种治疗方法生存率的分界线。但由于是按照事件的发生分段,区段较多,整体呈现密集的锯齿,而生命表分析的分布则较为平缓。观察累积风险函数的分布,发现传统治疗方法的累积风险率高于试验方法,这种趋势在观测后期更加明显。表3.5不同检验方法的比较卡方dfSig.LogRank(Mantel-Cox)4.7951.029Breslow(GeneralizedWilcoxon)2.9671.085Tarone-Ware3.7621.052由表3.5知,不同检验方法呈现不同的结果,其中LogRank检验的p值小于0.05,该检验表明两种治疗方法有显著性差异。除了治疗方法对小白鼠的生存状况有影响,其他因素如性别,年龄,体重等都可能对其生存时间造成影响。考虑到这些协变量的影响,结合相关数据,用Cox独立协变量比例风险模型重新分析。其中年龄的单位是天,体重的单位是盎司,F代表雌性,M代表雄性。DaysStatusGroupSexAgeWeight14410F941016410M501018810M571118810F811119010F891019210M711120610M691120910F811221000F991321410M521221600M691221610M671322010M511322010F781222710M581222710F791324010F921324400F981324400F791224400M681324410M591324610F881324610M731325600F831226510F791226510M661226610M591330410M671334410M691340410F861215611F971116411M721019601M611019811M601120401M621120511F811020801M541222001F781224011F771324211M551324211F941324411F891324411M721324411M711224411F911324911F981325401F911326111M761326601M671326601M601326911F971328011F841228011M621328401M521229611F801329611M571333001F771334011M591334401F791334801F971214211M721141401M751214211M531042411M62133.3Cox独立协变量比例风险模型分析在利用Cox独立协变量比例风险模型分析时要考虑到协变量的种类。本例中年龄和体重为连续变量,而治疗方法和性别不是连续变量,我们称之为分类协变量。并以试验疗法和雄性作为参考变量,在计算两个不同个体的风险函数比率(危险率)时以它们作为参考。所得危险率即为雌性风险函数/雄性风险函数;传统疗法风险函数/试验疗法风险函数。统计结果如下:表3.6模型系数的综合测试a-2倍对数似然值整体(得分)从上一步骤开始更改从上一块开始更改卡方dfSig.卡方dfSig.卡方df277.12332.3664.00028.1354.00028.1354表3.6为模型系数的综合检验结果。可以看到p=0,小于0.05,说明这些因素中有些变量对白鼠的生存时间有显著影响。表3.7方程中的变量BSEWalddfSig.Exp(B)95.0%CI用于Exp(B)下部上部治疗方法.561.3083.3321.0681.753.9593.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论