




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、学习目标学习目标 了解生存分析的应用范围和数据特点;了解生存分析的应用范围和数据特点; 熟悉常见的生存时间分布规律的函数;熟悉常见的生存时间分布规律的函数; 掌握生存率的两种估计方法:乘积极限法掌握生存率的两种估计方法:乘积极限法和寿命表法;和寿命表法; 掌握估计和比较生存函数的掌握估计和比较生存函数的SASSAS程序;程序; CoxCox回归的形式、数据格式、应用和回归的形式、数据格式、应用和SASSAS程程序。序。生存分析简介生存分析简介 在医学研究中,常常用随访的方式来研究事物发在医学研究中,常常用随访的方式来研究事物发展的规律。例如,了解某药物的疗效,了解某仪展的规律。例如,了解某药物
2、的疗效,了解某仪器设备的使用寿命,了解手术后的存活时间等等器设备的使用寿命,了解手术后的存活时间等等。这种研究的特点是追踪研究的现象都要经过一。这种研究的特点是追踪研究的现象都要经过一段时间,统计学上将这段时间称为生存时间。生段时间,统计学上将这段时间称为生存时间。生存分析就是用来研究生存时间的分布规律以及生存分析就是用来研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法存时间和相关因素之间关系的一种统计分析方法。 生存分析在医学科学研究中具有广泛而重要的应生存分析在医学科学研究中具有广泛而重要的应用价值,它对人群寿命的研究,各种慢性疾病的用价值,它对人群寿命的研究,各种慢
3、性疾病的现场追踪研究,临床疗效试验和动物试验等研究现场追踪研究,临床疗效试验和动物试验等研究中随访资料的处理起着举足轻重的作用。中随访资料的处理起着举足轻重的作用。生存数据生存数据 生存数据,指的是生存时间以及与生存时间有关生存数据,指的是生存时间以及与生存时间有关联的一组独立变量。这里主要解释与生存时间有联的一组独立变量。这里主要解释与生存时间有关的几个概念。关的几个概念。 在生存分析中将生存时间定义为从某起始事件起在生存分析中将生存时间定义为从某起始事件起到某终止事件为止所经历的时间跨度。例如,在到某终止事件为止所经历的时间跨度。例如,在临床研究中,冠心病患者在两次发作之间的时间临床研究中
4、,冠心病患者在两次发作之间的时间间隔;在流行病学研究中,从开始接触危险因素间隔;在流行病学研究中,从开始接触危险因素到发病所经历的时间;在动物研究中,从开始给到发病所经历的时间;在动物研究中,从开始给药到发生死亡所经历的时间。所以,生存时间也药到发生死亡所经历的时间。所以,生存时间也称为失效时间。称为失效时间。生存数据生存数据 生存时间资料与多元线性回归资料很相似,只不过因变量生存时间资料与多元线性回归资料很相似,只不过因变量通常为观测对象生存的时间,常用来表示。当然,生存通常为观测对象生存的时间,常用来表示。当然,生存时间是广义的,可以指在通常意义下生物体的生存时间、时间是广义的,可以指在通
5、常意义下生物体的生存时间、也可以指所关心的某现象(如疾病治愈后、合格品使用后也可以指所关心的某现象(如疾病治愈后、合格品使用后)持续的时间。若生存时间是准确观测到的,则称为完全)持续的时间。若生存时间是准确观测到的,则称为完全数据,它提供的关于生存时间的信息是完整确切的,也就数据,它提供的关于生存时间的信息是完整确切的,也就是说它准确地度量了观察对象实际生存时间。但是生存资是说它准确地度量了观察对象实际生存时间。但是生存资料的一个明显特点是:所收集的资料中常常包含不完全数料的一个明显特点是:所收集的资料中常常包含不完全数据,也称为截尾数据、删失数据。包括删失数据的资料,据,也称为截尾数据、删失
6、数据。包括删失数据的资料,称为删失资料(或截尾数据)。它提供的关于生存时间的称为删失资料(或截尾数据)。它提供的关于生存时间的信息是不完整不确切的,也就是说它没有准确地度量观察信息是不完整不确切的,也就是说它没有准确地度量观察对象实际生存的时间。对象实际生存的时间。生存数据生存数据 导致数据删失有很多原因,较常见的为失访和研导致数据删失有很多原因,较常见的为失访和研究截止。由随机因素引起的,称为随机删失;若究截止。由随机因素引起的,称为随机删失;若事先就定了截止日期,则称为定时删失;若事先事先就定了截止日期,则称为定时删失;若事先就定了观察完多少例就截止研究,则称为定数删就定了观察完多少例就截
7、止研究,则称为定数删失。失。 在表达删失数据时,在表达删失数据时, 常在其右上角放一个常在其右上角放一个“”号;而用号;而用SASSAS软件分析时,常在其前放一软件分析时,常在其前放一个个“”号或产生个指示变量(例如,号或产生个指示变量(例如,= =表表示删失数据、示删失数据、= =表示完全数据),便于计算时表示完全数据),便于计算时区别对待。为了使数据的表达与计算在形式上统区别对待。为了使数据的表达与计算在形式上统一起来,本章一律用负数表示删失数据,因生存一起来,本章一律用负数表示删失数据,因生存时间不可能为负值,故不会产生混淆。时间不可能为负值,故不会产生混淆。生存数据生存数据 一般地,截
8、尾数据可分为右截尾、左截尾、区间一般地,截尾数据可分为右截尾、左截尾、区间截尾等不同类型。右截尾数据表示观察对象至少截尾等不同类型。右截尾数据表示观察对象至少存活到时刻存活到时刻t t,即生存时间的上界是未知的。右截,即生存时间的上界是未知的。右截尾数据一般出现在随访过程中某些观察对象失访尾数据一般出现在随访过程中某些观察对象失访或死于其它原因,或在规定的研究过程结束时观或死于其它原因,或在规定的研究过程结束时观察对象的终止事件还未发生。左截尾数据表示观察对象的终止事件还未发生。左截尾数据表示观察对象至多存活到时刻察对象至多存活到时刻t t,即生存时间的上界是已,即生存时间的上界是已知的,但确
9、切的生存时间是未知的。区间截尾数知的,但确切的生存时间是未知的。区间截尾数据表示观察对象至少存活到据表示观察对象至少存活到t1t1时刻且至多存活到时刻且至多存活到t2t2时刻。时刻。生存数据生存数据 对于截尾数据,既不能简单地弃之,需要采取一对于截尾数据,既不能简单地弃之,需要采取一些技术处理。专门处理这种资料的统计方法,称些技术处理。专门处理这种资料的统计方法,称为为生存分析生存分析。应为抛弃截尾数据不仅损失了样本。应为抛弃截尾数据不仅损失了样本量,最重要的是在这些截尾数据中,特别是右截量,最重要的是在这些截尾数据中,特别是右截尾数据大部分是生存时间较长者的数据,损失掉尾数据大部分是生存时间
10、较长者的数据,损失掉这一部分观察对象的信息,分析结果一定是片面这一部分观察对象的信息,分析结果一定是片面或不稳定的。或不稳定的。 截尾数据的存在是生存数据与普通数据的根本区截尾数据的存在是生存数据与普通数据的根本区别。处理截尾数据是生存分析的一个重要特点,别。处理截尾数据是生存分析的一个重要特点,本章介绍的生存分析主要处理右截尾数据。本章介绍的生存分析主要处理右截尾数据。生存时间函数生存时间函数 描述生存时间分布规律的函数统称为生存描述生存时间分布规律的函数统称为生存时间函数。常用的有生存函数、死亡函数时间函数。常用的有生存函数、死亡函数、死亡密度函数和风险函数。、死亡密度函数和风险函数。生存
11、函数生存函数 生存函数也称为生存生存函数也称为生存概率概率或累积生存率,它表示或累积生存率,它表示观察对象生存时间观察对象生存时间T T大于某时刻大于某时刻t t的的概率概率常用常用S(t)S(t)表示:表示: 在具体问题中,该函数在时刻的取值可用下式在具体问题中,该函数在时刻的取值可用下式来估计来估计 S(t)S(t)生存时间长于的观察对象人数观生存时间长于的观察对象人数观察对象总数察对象总数 显然,显然,S(t)S(t)是一个随时间增加而下降的函数,它是一个随时间增加而下降的函数,它表示观察对象随访到表示观察对象随访到t t时刻的累积生存率。时刻的累积生存率。)(Pr)(tTobtS死亡函
12、数死亡函数 观察对象的生存时间观察对象的生存时间T T不大于某时刻不大于某时刻t t的概的概率称为死亡函数,又称为死亡率称为死亡函数,又称为死亡概率概率函数简函数简称为死亡称为死亡概率概率,它表示一个体从开始观察,它表示一个体从开始观察起到时刻为止的死亡起到时刻为止的死亡概率概率,常用,常用F(t)F(t)表示表示: 显然,显然,F(t)F(t)是一个随时间增加而上升的函数是一个随时间增加而上升的函数,它表示观察对象随访到,它表示观察对象随访到t t时刻的累积死亡时刻的累积死亡率。率。)(Pr)(tTobtF死亡死亡密度密度函数函数 死亡死亡密度函数简称为密度函数,观察对象在某时密度函数简称为
13、密度函数,观察对象在某时刻刻t t的瞬时死亡率,常用的瞬时死亡率,常用f(t)f(t)表示:表示: 该函数表示观察对象死于该函数表示观察对象死于(t (t,t+t+t) t)小区间内的小区间内的概概率率的极限。在具体问题中,该函数在时刻的取的极限。在具体问题中,该函数在时刻的取值可用下式来估计值可用下式来估计 f(t)tf(t)t时刻开始的区间内时刻开始的区间内(t (t,t+t+t) t)的死亡人的死亡人数数( (观察总人数观察总人数区间宽度区间宽度) ) )()(Prlim)(tFtttTtobtf时间数时间区间所包含的单位,观察总人数内的死亡人数,观察对象在时间区间tt)(tttttf风
14、险函数风险函数 它表示已存活到时刻它表示已存活到时刻t t的观察对象在时刻的观察对象在时刻t t的的瞬时死亡率,又称危险函数,常用瞬时死亡率,又称危险函数,常用h(t)h(t)表示:表示: 该函数表示一个已存活到时刻该函数表示一个已存活到时刻t t的观察对象死的观察对象死于于(t,t+(t,t+t) t)小区间内的小区间内的概率概率的极限,它实际上的极限,它实际上是一个条件瞬时死亡率。是一个条件瞬时死亡率。 在具体问题中,该在具体问题中,该函数在时刻的取值可用下式来估计:函数在时刻的取值可用下式来估计: )()()(Prlim)(tStfttTttTtobth时间数时间区间所包含的单位,时间生
15、存者人数内的死亡人数,观察对象在时间区间tt)()()(ttttttStfth均数、中位数和半数生存期均数、中位数和半数生存期 除了上述的生存时间函数外,均数、中位数、半除了上述的生存时间函数外,均数、中位数、半数生存期等也反映一组生存时间平均水平常用的数生存期等也反映一组生存时间平均水平常用的统计指标。由于生存资料多呈正偏态分布,更适统计指标。由于生存资料多呈正偏态分布,更适宜选用百分位数,包括中位数指标。宜选用百分位数,包括中位数指标。 半数生存期,指寿命的中位数,表示有且只有半数生存期,指寿命的中位数,表示有且只有50%50%的观察对象可以活这么长时间。由于截尾数的观察对象可以活这么长时
16、间。由于截尾数据的存在,半数生存期的计算不同于普通的中位据的存在,半数生存期的计算不同于普通的中位数,它可应用生存函数曲线图或生存函数公式,数,它可应用生存函数曲线图或生存函数公式,令生存率等于令生存率等于50%50%,然后推算生存时间。,然后推算生存时间。均数、中位数和半数生存期均数、中位数和半数生存期 总之,生存分析主要包括四个方面的内容总之,生存分析主要包括四个方面的内容:描述生存过程,即研究生存时间的分:描述生存过程,即研究生存时间的分布规律;比较生存过程,即研究两组或布规律;比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较;多组生存时间的分布规律,并进行比较;分析危险因素
17、,即研究危险因素对生存分析危险因素,即研究危险因素对生存过程的影响;建立数学模型,即将生存过程的影响;建立数学模型,即将生存时间与相关危险因素的依存关系用一个数时间与相关危险因素的依存关系用一个数学式子表示出来。学式子表示出来。生存分析的基本方法生存分析的基本方法 统计描述统计描述 非参数检验非参数检验 半参数模型回归分析半参数模型回归分析 参数模型回归分析参数模型回归分析 统计描述统计描述 包括求生存时间的分位数、中数生存期、平包括求生存时间的分位数、中数生存期、平均均数数、生存函数的估计、判断生存时间的图示法、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论。,不
18、对所分析的数据作出任何统计推断结论。用描述法进行生存分析的基本方法是根据样本用描述法进行生存分析的基本方法是根据样本观察值提供的信息,直接用上述给出的估计公观察值提供的信息,直接用上述给出的估计公式计算出在每一时间点或每一个时间区间上的式计算出在每一时间点或每一个时间区间上的生存函数、死亡函数、风险函数以及计算出生生存函数、死亡函数、风险函数以及计算出生存时间的百分位数、平均数、半数生存期等,存时间的百分位数、平均数、半数生存期等,并采用列表或绘图的形式显示生存时间的分布并采用列表或绘图的形式显示生存时间的分布规律。规律。 统计描述统计描述 用描述法估计生存时间分布规律的优点是用描述法估计生存
19、时间分布规律的优点是方法简单且对数据的分布无要求,但它的方法简单且对数据的分布无要求,但它的缺点是不能比较两组或多组生存时间分缺点是不能比较两组或多组生存时间分布函数的区别;不能分析危险因素对生布函数的区别;不能分析危险因素对生存时间的影响;不能建立生存时间与危存时间的影响;不能建立生存时间与危险因素之间的数量依存关系模型。险因素之间的数量依存关系模型。 非参数检验非参数检验 检验分组变量各水平所对应的生存曲线是检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。且检验危险因素对生存时间的影响。非常数法可以
20、用来完成:估计生存函数非常数法可以用来完成:估计生存函数;比较两组或多组生存函数;分析危;比较两组或多组生存函数;分析危险因素对生存时间的影响。缺点是不能建险因素对生存时间的影响。缺点是不能建立生存时间与危险因素之间的数量依存关立生存时间与危险因素之间的数量依存关系的数学模型。常用的方法有乘积极限法系的数学模型。常用的方法有乘积极限法(PLPL法)和寿命表法(法)和寿命表法(LTLT法)。法)。半参数模型回归分析半参数模型回归分析 在特定的假设之下,建立生存时间随多个危险因在特定的假设之下,建立生存时间随多个危险因素变化的回归方程。素变化的回归方程。 半常数法不需要对生存时间的分布作出假定,但
21、半常数法不需要对生存时间的分布作出假定,但却可以通过一个模型来分析生存时间的分布规律却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响。这种方法的,以及危险因素对生存时间的影响。这种方法的代表是代表是CoxCox比例风险回归分析法,它兼有非常数比例风险回归分析法,它兼有非常数法和参数法的优点,是生存分析中最重要的模型法和参数法的优点,是生存分析中最重要的模型分析法。它在表达形式上与参数模型相似,但在分析法。它在表达形式上与参数模型相似,但在对模型中各参数进行估计时又不依赖于特定分布对模型中各参数进行估计时又不依赖于特定分布的假设,所以又称其为半参数模型。的假设,所以又称其
22、为半参数模型。参数模型回归分析参数模型回归分析 已知生存时间服从特定的参数模型时,拟合相应的参数已知生存时间服从特定的参数模型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律。模型,更准确地分析确定变量之间的变化规律。用参数法进行生存分析的基本方法是根据样本观察值来用参数法进行生存分析的基本方法是根据样本观察值来估计假定的分布模型中的参数,获得生存时间的概率分估计假定的分布模型中的参数,获得生存时间的概率分布模型。用参数法进行生存分析需要事先知道生存时间布模型。用参数法进行生存分析需要事先知道生存时间的分布,但它的优点是:比较两组或多组生存时间分的分布,但它的优点是:比较两组或多组生
23、存时间分布函数;分析危险因素对生存时间的影响;建立生布函数;分析危险因素对生存时间的影响;建立生存时间与危险因素之间依存关系的模型。存时间与危险因素之间依存关系的模型。生存时间经常服从的分布有指数分布、生存时间经常服从的分布有指数分布、WeibullWeibull分布、分布、对数正态分布、对数对数正态分布、对数LogisticLogistic回归和回归和GammaGamma分布。分布。非参数分析方法非参数分析方法 SASSAS程序程序 SASSAS系统中,系统中,LIFETESTLIFETEST过程提供非参数分析方法,用乘过程提供非参数分析方法,用乘积极限法和寿命表法估计生存率和中位生存时间等
24、;用对积极限法和寿命表法估计生存率和中位生存时间等;用对数秩检验数秩检验(Log-rank test)(Log-rank test)、WilcoxonWilcoxon检验和似然比检验检验和似然比检验等做分组比较。该过程主要用于估计生存率及进行单因素等做分组比较。该过程主要用于估计生存率及进行单因素分析。分析。 LIFETESTLIFETEST过程的语法格式如下:过程的语法格式如下: PROC LIFETEST ;PROC LIFETEST ; TIME TIME 生存时间变量生存时间变量* *截尾指示变量(数字)截尾指示变量(数字); ; TEST TEST ; STRATA STRATA ;
25、 FREQ FREQ ; BY BY ; Run; Run;非参数分析方法非参数分析方法 SASSAS程序程序 DATADATA数据集:规定数据集:规定PROC FREQPROC FREQ语句使用的语句使用的数据集;数据集; METHOD=METHOD=方法:指定估计生存率所用的方法;方法:指定估计生存率所用的方法;PLPL,要求用乘积极限法,要求用乘积极限法( (即即Kaplam-MeierKaplam-Meier法法) )估计生存率并计算中位生存时间等,为缺省方法估计生存率并计算中位生存时间等,为缺省方法。LTLT,要求用寿命表法估计生存率等。,要求用寿命表法估计生存率等。INTERVAL
26、S=(INTERVALS=(初值初值 TO TO 终值终值 BY BY 步长步长) ) 只能在只能在指定分析方法为寿命表法时使用。用寿命表法分指定分析方法为寿命表法时使用。用寿命表法分析时,程序会自动给定生存时间的区间。如果人析时,程序会自动给定生存时间的区间。如果人为规定生存时间的分组区间,则需用该选项指定为规定生存时间的分组区间,则需用该选项指定。步长的缺省值为。步长的缺省值为1 1。非参数分析方法非参数分析方法 SASSAS程序程序 WIDTH=WIDTH=宽度:指定用宽度:指定用LTLT法的生存时间区间的宽法的生存时间区间的宽度。度。 PLOTS=PLOTS=绘图类型:要求输出生存分析
27、图。可供绘图类型:要求输出生存分析图。可供输出的图形有:输出的图形有:S S,对生存函数,对生存函数S(t)S(t)做图,横、做图,横、纵坐标分别为纵坐标分别为t t、S(t)S(t)。LSLS:对:对-LOGS(t)-LOGS(t)做图,做图,横、纵坐标分别为横、纵坐标分别为t t、-LOGS(t)-LOGS(t)。LLSLLS:对:对LOGLOG(-LOGS(t)-LOGS(t)做图,横、纵坐标分别为做图,横、纵坐标分别为LOG(t)LOG(t)、LOGLOG(-LOGS(t)-LOGS(t)。HH:对风险函数:对风险函数做图做图, , 横、纵坐标分别为横、纵坐标分别为t t、H(t)H(
28、t)。非参数分析方法非参数分析方法 SASSAS程序程序 NOTABLENOTABLE:指令不输出生存函数估计结果:指令不输出生存函数估计结果,只输出生存时间的截尾数据和完全数据,只输出生存时间的截尾数据和完全数据的个数以及散点图和检验结果。的个数以及散点图和检验结果。 TIMETIME语句用于定义生存时间和截尾指示变语句用于定义生存时间和截尾指示变量。对截尾指示变量可以指定发生失效事量。对截尾指示变量可以指定发生失效事件的数值,默认失效事件用件的数值,默认失效事件用0 0来表示,截尾来表示,截尾事件用事件用1 1来表示。来表示。非参数分析方法非参数分析方法 SASSAS程序程序 STRATA
29、STRATA语句定义生存率比较的分组变量,语句定义生存率比较的分组变量,TESTTEST语句定义生存率比较的分组变量或协变量。语句定义生存率比较的分组变量或协变量。STRATASTRATA语句在这里的作用和语句在这里的作用和BYBY语句类似,都是语句类似,都是要求按分组变量名列进行分析,在计算生存率时要求按分组变量名列进行分析,在计算生存率时各组分开计算。各组分开计算。 TESTTEST语句定义需检验的变量,即生存时间与该变语句定义需检验的变量,即生存时间与该变量是否有关,如果它后面定义的变量为数值变量量是否有关,如果它后面定义的变量为数值变量,则把该变量当作协变量检验与生存时间的关系,则把该
30、变量当作协变量检验与生存时间的关系。如果它定义的为分组变量,则分组比较生存时。如果它定义的为分组变量,则分组比较生存时间有无差别。间有无差别。例题例题1 1生存率计算生存率计算 为了比较不同手术方法治疗肾上腺肿瘤的疗效,为了比较不同手术方法治疗肾上腺肿瘤的疗效,某研究者随机将某研究者随机将4343例病人分成两组,甲组例病人分成两组,甲组2323例、例、乙组乙组2020例的生存时间(月)如下所示:例的生存时间(月)如下所示: 甲组:甲组:1 1,3 3,5 5(3 3),),6 6(3 3),),7 7,8 8,1010(2 2),),1414+ +,1717,1919+ +,2020+ + ,
31、2222+ +,2626+ +,3131+ +,3434, 34 34+ +,4444,5959 乙组:乙组:1 1(2 2),),2 2,3 3(2 2),),4 4(3 3),), 6 6(2 2),8 8,9 9(2 2),),1010,1111,1212,1313,1515,1717,1818 其中有其中有“+ +”者是删失数据,表示病人仍生存或失者是删失数据,表示病人仍生存或失访,括号内为重复死亡数。试计算甲组的生存率访,括号内为重复死亡数。试计算甲组的生存率与标准误。与标准误。例题例题2 2寿命表法寿命表法 某研究者随访收集了某地男性心绞痛患者某研究者随访收集了某地男性心绞痛患者2
32、4182418例例,试计算该地男性心绞痛患者的生存率及其标准,试计算该地男性心绞痛患者的生存率及其标准误。误。例题例题3 3log-ranklog-rank检验检验 试比较甲、乙两种手术方式的生存率有无差别?试比较甲、乙两种手术方式的生存率有无差别?CoxCox模型模型 像通常的回归分析一样,人们也希望能建立起生像通常的回归分析一样,人们也希望能建立起生存时间(因变量或反应变量)随危险因素(自变存时间(因变量或反应变量)随危险因素(自变量或协变量)变化的回归方程,以便对危险因素量或协变量)变化的回归方程,以便对危险因素的作用大小有一个全面的了解和掌握、并根据危的作用大小有一个全面的了解和掌握、
33、并根据危险因素的不同取值对生存险因素的不同取值对生存概率概率进行预测。由于很进行预测。由于很难获得准确的生存时间,难获得准确的生存时间, 前述目的较难直接实现前述目的较难直接实现。19721972年年CoxCox提出了比例危险模型,简称为提出了比例危险模型,简称为CoxCox模型。模型。 由于此模型在表达形式上与参数模型相似由于此模型在表达形式上与参数模型相似,但在对模型中各参数进行估计时却不依赖于特,但在对模型中各参数进行估计时却不依赖于特定的假设,所以又称为半参数模型。定的假设,所以又称为半参数模型。CoxCox模型模型 CoxCox模型是目前生存分析多因素预后评价中较好模型是目前生存分析
34、多因素预后评价中较好的统计分析方法,医学上经常遇到的统计分析方法,医学上经常遇到“时间时间- -反应反应”类型资料。如生命现象生存期、疾病潜伏期、药类型资料。如生命现象生存期、疾病潜伏期、药物试验的生效时间等。这种类型的资料可以用各物试验的生效时间等。这种类型的资料可以用各种参数或非参数方法进行分析,但都有一定的局种参数或非参数方法进行分析,但都有一定的局限性。限性。CoxCox模型以半参数方式出现,适用于许多模型以半参数方式出现,适用于许多分布未知的资料和多因素分析,可以在众多预后分布未知的资料和多因素分析,可以在众多预后因素共存的情况下,排除混杂因子的影响,提高因素共存的情况下,排除混杂因
35、子的影响,提高预后分析质量,并能处理截尾数据。此模型的适预后分析质量,并能处理截尾数据。此模型的适用面很宽,在用面很宽,在生存分析生存分析中占有特殊的地位。中占有特殊的地位。CoxCox模型模型 设是影响生存时间设是影响生存时间t t的的k k个危险因素。设个危险因素。设hi(t)hi(t)为第为第i i名受试者在时刻名受试者在时刻t t的风险率,即的风险率,即t t时刻外后一瞬间时刻外后一瞬间的死亡速率。又设的死亡速率。又设h0(t)h0(t)表示不受危险因素表示不受危险因素x x的影的影响下,在时刻响下,在时刻t t的风险率,又称为基准风险率或基的风险率,又称为基准风险率或基准函数。其模型
36、的具体形式为:准函数。其模型的具体形式为: hi(t)=h0(t)exp(1xi1+2xi2+mxim) hi(t)=h0(t)exp(1xi1+2xi2+mxim) 式中式中hi(t)hi(t)为第为第i i名受试者生存到名受试者生存到t t时刻的危险率函时刻的危险率函数,数,h0(t)h0(t)是当所有危险因素是当所有危险因素( (即即xij=0)xij=0)不存在时的不存在时的基础危险率函数,基础危险率函数,X=(xi1,xi2,xim)X=(xi1,xi2,xim)是可能与是可能与生存时间有关的个危险因素所构成的向量。生存时间有关的个危险因素所构成的向量。CoxCox模型模型 lnhi
37、(t)/h0(t)=lnhi(t)/h0(t)= 1xi1+1xi1+ 2xi2+2xi2+ mximmxim 此式表明:各危险因素与回归系数的线性组合就此式表明:各危险因素与回归系数的线性组合就是第名受试者的相对危险率函数的自然对数值是第名受试者的相对危险率函数的自然对数值。再设有。再设有i i、j j两个受试者两个受试者, ,其危险因素向量分别为其危险因素向量分别为X1X1与与X2X2,不难得出他们的相对危险率的自然对,不难得出他们的相对危险率的自然对数为:数为: lnhi(t)/h0(t)=lnhi(t)/h0(t)= 1(xi1-xj1)+1(xi1-xj1)+ 2(xi2-xj2)2
38、(xi2-xj2) 即利用即利用“具有某预后因素向量的受试者的死亡风具有某预后因素向量的受试者的死亡风险与不具有该预后因素向量的受试者的死亡风险险与不具有该预后因素向量的受试者的死亡风险在所有时间上都保持一个恒定比例在所有时间上都保持一个恒定比例”的假设,巧的假设,巧妙地获得了各时间点上个受试者相对危险率函妙地获得了各时间点上个受试者相对危险率函数的估计值。数的估计值。CoxCox模型模型 然而,当资料不满足上述假设时,即有些危险因然而,当资料不满足上述假设时,即有些危险因素作用的强度是随时间而变化的,个受试者的素作用的强度是随时间而变化的,个受试者的危险率函数之比危险率函数之比( (相对危险
39、相对危险) )随时间而改变,就应改随时间而改变,就应改用时变协变量模型,也称为非比例危险模型。当用时变协变量模型,也称为非比例危险模型。当只有一个危险因素时,其模型的具体形式为:只有一个危险因素时,其模型的具体形式为: hi(t)=h0(t)expxi+(xiti) hi(t)=h0(t)expxi+(xiti) 式中式中ti ti为第为第i i个受试者的生存时间。个受试者的生存时间。 上述各式中的回归系数需用最大似然法进行估计上述各式中的回归系数需用最大似然法进行估计,一旦有了危险率函数的估计值,再利用生存时,一旦有了危险率函数的估计值,再利用生存时间函数之间的相互关系,可获得其他生存时间函
40、间函数之间的相互关系,可获得其他生存时间函数的估计值。数的估计值。CoxCox模型中参数意义的解释模型中参数意义的解释 对于一元对于一元CoxCox模型,如果因素模型,如果因素x x的取值为的取值为1 1和和0 0,那么,受,那么,受x x影响与不受影响与不受x x影响的相对风影响的相对风险是:险是: 对于一元对于一元CoxCox模型,如果因素模型,如果因素x x是连续变量是连续变量,那么,表示相邻水平的风险率之比。,那么,表示相邻水平的风险率之比。 多余多元多余多元CoxCox模型,表示其它因素不变的情模型,表示其它因素不变的情况下,因素况下,因素xixi相邻水平的风险率之比(相对相邻水平的
41、风险率之比(相对风险率)。风险率)。)exp()()exp()()0 ,() 1 ,(00ththththRHCoxCox模型中参数意义的解释模型中参数意义的解释 例如,高血压(例如,高血压(x1x1)和高血脂()和高血脂(x2x2)对冠)对冠心病的发病风险率的心病的发病风险率的CoxCox模型是:模型是: 其中,其中,h0(t)h0(t)表示既没有高血压(表示既没有高血压(x1=0 x1=0)也)也没有高血脂(没有高血脂(x2=0 x2=0)的研究对象在时刻)的研究对象在时刻t t的的发病风险率。发病风险率。)5108. 08755. 0exp()(),(210 xxthxthCoxCox模
42、型中参数意义的解释模型中参数意义的解释 由此可以估计出:由此可以估计出: 有高血压但没有高血脂者(有高血压但没有高血脂者(x1=1x1=1,x2=0 x2=0)相对于)相对于既没有高血压也没有高血脂者发病的风险率之比为既没有高血压也没有高血脂者发病的风险率之比为: 有高血脂但没有高血压者(有高血脂但没有高血压者(x1=0 x1=0,x2=1x2=1)相对于)相对于既没有高血压也没有高血脂者发病的风险率之比为既没有高血压也没有高血脂者发病的风险率之比为: 有高血压又有高血脂者(有高血压又有高血脂者(x1=1x1=1,x2=1x2=1)相对于既)相对于既没有高血压也没有高血脂者发病的风险率之比为:
43、没有高血压也没有高血脂者发病的风险率之比为: 4 . 2)8755. 0exp()exp(1RH673. 1)5108. 0exp()exp(2RH0 . 4)5108. 08755. 0exp()exp(21RHCoxCox模型的应用模型的应用 CoxCox模型由于以下特点具有广泛的应用价值:模型由于以下特点具有广泛的应用价值:与参数法相比,它不需要考虑资料的分布,即与参数法相比,它不需要考虑资料的分布,即任何分布的生存研究资料都可以利用任何分布的生存研究资料都可以利用CoxCox模型进模型进行数据分析。行数据分析。它是一种多元统计分析方法,可以用来分析多它是一种多元统计分析方法,可以用来分
44、析多种因素对生存时间的影响。而流行病学研究的种因素对生存时间的影响。而流行病学研究的重要目标之一就是分析各种因子与发病之间的重要目标之一就是分析各种因子与发病之间的关系,关系,CoxCox模型回归分析模型可以用来分析各因模型回归分析模型可以用来分析各因子对发病的影响,使得生存分析更适合于流行子对发病的影响,使得生存分析更适合于流行病学研究。病学研究。CoxCox模型的应用模型的应用它与其它一般回归分析方法类似,可用于它与其它一般回归分析方法类似,可用于比较和预测,多元比较和预测,多元CoxCox模型回归分析可以模型回归分析可以校正其它因素的影响,用于某一因素不同校正其它因素的影响,用于某一因素
45、不同水平的比较;并可以在研究对象的各因素水平的比较;并可以在研究对象的各因素已知时,预测研究对象在某时刻的生存概已知时,预测研究对象在某时刻的生存概率。率。它与它与LogisticLogistic回归分析类似,在得到回归回归分析类似,在得到回归系数的估计值后,则可以估计系数的估计值后,则可以估计t t时刻的相时刻的相对危险度:。对危险度:。CoxCox回归的回归的SASSAS程序程序 SASSAS系统中利用系统中利用PHREGPHREG过程对生存数据进行回归分析,过程对生存数据进行回归分析,结局变量(因变量)为生存时间,可以处理有截尾数据的结局变量(因变量)为生存时间,可以处理有截尾数据的生存
46、时间。生存时间。 PHREGPHREG过程的语法格式如下:过程的语法格式如下: PROC PRREG DATA= PROC PRREG DATA= 选项选项; ; MODEL MODEL = / /选项选项; ; STRATA STRATA ; FREQ FREQ ; BY BY ; RUN;RUN;CoxCox回归的回归的SASSAS程序程序 MODELMODEL语句为必需的语句为必需的, ,定义生存时间和截尾指示定义生存时间和截尾指示变量和说明变量:变量和说明变量:NOPRINTNOPRINT,不打印输出;,不打印输出;NOSUMMARYNOSUMMARY,不打印输出事件和截尾数值;,不打
47、印输出事件和截尾数值;SIMPLESIMPLE输出输出MODELMODEL语句中每一个说明变量的语句中每一个说明变量的简单的描述统计量。简单的描述统计量。 TIES=TIES=方法,指定估计生存率所用的方法:方法,指定估计生存率所用的方法:BRESLOWBRESLOW使用使用BreslowBreslow的近似似然估计,为默的近似似然估计,为默认的选项;认的选项;DISCRETEDISCRETE,用离散,用离散LogisticLogistic模型替模型替代比例风险模型,多用于代比例风险模型,多用于m:nm:n的的LogisticLogistic回归;回归;EFRON EFRON 使用使用Efro
48、nEfron的近似似然。的近似似然。CoxCox回归的回归的SASSAS程序程序 EXACTEXACT,计算在比例危险假定下所有失效,计算在比例危险假定下所有失效事件发生在具有相同值的删失时间或较大事件发生在具有相同值的删失时间或较大值时间之前的精确条件概率。值时间之前的精确条件概率。 ENTRYTIME=ENTRYTIME=变量名,规定一个替代左截变量名,规定一个替代左截断时间的变量名。断时间的变量名。CoxCox回归的回归的SASSAS程序程序 SELECTION=methodSELECTION=method,方法可以选择以下几种,方法可以选择以下几种:FORWARD(FORWARD(或或
49、F)F),按照规定的,按照规定的P P值值SLESLE从无到从无到有依次选一个变量进入模型;有依次选一个变量进入模型;BACKWARDBACKWARD,按,按照规定的照规定的P P值值SLSSLS从含有全部变量的模型开始,依从含有全部变量的模型开始,依次剔除一个变量;次剔除一个变量;STEPWISESTEPWISE,按照,按照SLESLE的标准的标准依次选入变量,同时对模型中现有的变量按依次选入变量,同时对模型中现有的变量按SLSSLS的标准剔除不显著的变量;的标准剔除不显著的变量;SCORESCORE,采用最优,采用最优子集选择法。其中,子集选择法。其中,SLESLE选择项用于指定协变量选择项用于指定协变量进入模型的显著水平,进入模型的显著水平,SLSSLS选择项用于指定协变选择项用于指定协变量停留在模型中的显著水平,缺省值皆为量停留在模型中的显著水平,缺省值皆为0.050.05。CoxCox回归的回归的SASSAS程序程序 STRATASTRATA语句:比例风险的假定可能不会对所有语句:比例风险的假定可能不会对所有的层都成立,此时需要作分层分析。的层都成立,此
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 县小学网络安全执法检查行动方案
- 温江区中考二模语文测试题(图片版无答案)
- 教育心理学在成人学习中的应用
- 基于社区的心理健康服务2025年心理健康服务行业标准制定研究
- 智慧安防系统在大型活动安保中的应用
- 2025年饮料市场新型甜味剂法规监管下的市场细分领域消费者需求趋势分析报告
- 山西狱警考试题库及答案
- 幼儿园美术健康的我简笔画
- 农村土地流转规范化管理对农村产业结构调整的作用报告
- 2025四川绵阳市长虹新网科技有限责任公司招聘装调工等岗位14人笔试参考题库附带答案详解版
- 三明市永安林业股份有限公司招聘笔试真题2024
- 行政执法文书制作课件
- 2025潞安化工集团有限公司招聘760人笔试参考题库附带答案详解
- 2025年离婚协议书打印
- T/CECS 10381-2024滤池用不锈钢滤板及配套组件
- 农业国企面试题库及答案
- 2025年上半年财务工作总结模版
- 低钠血症护理
- 店铺装修消防合同协议
- 护士资格证考试口腔护理试题及答案
- 2025年二级造价师安装工程真题卷(附解析)
评论
0/150
提交评论