cox比例风险回归模型及其R程序_第1页
cox比例风险回归模型及其R程序_第2页
cox比例风险回归模型及其R程序_第3页
cox比例风险回归模型及其R程序_第4页
cox比例风险回归模型及其R程序_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Cox回归分析,刘瑞红,利用生存率函数S(t,X)与风险函数h(t,X)的关系可导出,较好地解决截尾值的问题,反映了协变量X与生存函数的关系,Cox模型的基本形式,所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。,右侧可分为两部分:h0(t)没有明确的定义,分布无明确的假定,参数无法估计,为非参数部分;另一部分是参数部分,其参数可以通过样本的实际观察值来估计的,正因为Cox模型有非参数和参数两部分组成,故又称为半参数模型。,若i0,则RR1,该因素为危险因素; 若i0,则RR1, 该因素为保护因素; 若i=0,则RR=1, 该因素为无关因素。,偏回归系数i的意义是

2、,当其它协变量都不变时,Xi每变化一个单位,相对危险度的自然对数(lnRR)变化i个单位。,相对危险度RR,相对危险度RR,同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为,Cox回归基本模型的两个前提假设,各危险因素的作用不随时间变化而变化,即 不随时间变化而变化; 对数线性假定:模型中的协变量应该与对数风险比成线性关系。,Cox回归模型与一般的回归分析不同,它不是直接用生存时间作为回归方程的因变量,协变量对生存时间的影响是通过风险函数和基础风险函数的比值反映的,其中的风险函数和基础风险函数是未知的。另外偏回归系数的估计需要借助于偏似然函数的方法。在

3、完成参数估计的情况下,可对基础风险函数和风险函数做出估计,并可计算每一个时刻的生存率。,二、Cox回归分析的一般步骤,1. 分析前的准备-数据整理 2. 参数估计,建立最佳模型 3. 假设检验 4. Cox模型的解释及应用 5. Cox模型拟合优度的考察,1. 分析前的准备-数据整理,严密的研究设计 收集资料:影响疾病的因素、病人的个性及行为特征等资料(如病人的年龄、性别、职业、是否饮酒、是否吸烟及病情、病理类型等资料)、研究对象的生存时间和截尾指示变量(一般用变量t表示生存时间,用变量d表示是否截尾)。资料应尽量避免偏性及主观因素的影响。 样本含量:不宜过小。一般情况下,样本例数应为分析因素

4、的5-20倍。 数据预处理:如数据的变换、日历数据与生存时间的转化等。同时要对数据进行描述性分析。,2. 参数估计,建立最佳模型,(1) 参数估计-偏似然估计 假定有n个病人,他们的生存时间由小到大排列: t1t2tn 对于每个生存时间ti来说,凡生存时间大于等于ti的所有病人组成一个危险集,记为R(ti)。在危险集内的病人,在ti以前尚生存,但处在危险之中,随着时间的推移,危险集内的病人陆续死亡,逐渐退出观察,直至最后一个病人死亡时,危险集消失。,代表ti时刻以后危险集R(ti)中对似然函数作贡献的个体,将n个病人死亡的 条件概率相乘,两边取自然对数,(2) 建立最佳模型,为建立最佳模型常需

5、对研究的因素进行筛选,筛选方法有前进法、后退法和逐步回归法。实际工作中要根据具体情况选择使用,最常用的为逐步回归法。 因素筛选时需规定显著性水平,一般情况下初步筛选因素的显著性水平确定为0.1或0.15,设计较严格的研究显著性水平可确定为0.05。 另外,筛选因素时,还要考虑因素间共线性的影响。当存在共线性时,应考虑消除共线的影响,如采用主成分回归等方法。,3. 参数的假设检验,(1) 似然比检验(likelihood ratio test) (2) 得分检验(score test)(又称为拉格朗日乘数法) (3) Wald检验 是三种基于极大似然法大样本检验方法。,似然比检验:用于模型中原有

6、不显著变量的剔除和显著变量的引入,以及包含不同变量数时模型间的比较。检验新增加的协变量是否有统计学意义的统计量为:,拉格朗日乘子检验(LM),基本思想:拉格朗日乘子检验(LM),又称为Score检验。该检验基于约束模型,无需估计无约束模型。 假设约束条件为 ,在约束条件下最大化对数似然函数,另 表示拉格朗日乘子向量,此时,拉格朗日函数为 约束条件下最大化问题就是求解下式根,,拉格朗日乘子检验(LM),如果约束成立,对数似然函数值不会有显著变化。这就意味着在一阶条件下,第二项应该很小,特别是 应该很小。因此,约束条件是否成立检验转化成检验 ,这就是拉格朗日乘子检验的思想。 但是直接检验 比较困难

7、,有一个等价而简单的方法。如果约束条件成立,在约束估计值处计算对数似然函数的导数应该近似为零,如果该值显著异于零,则约束条件不成立,拒绝原假设。 对数似然函数的导数就是得分向量,因此,LM检验就是检验约束条件下参数估计值的得分向量值是否显著异于零,因而,LM检验又称为得分检验。,拉格朗日乘子检验(LM),在最大似然估计过程中,通过解似然方程 ,可以求出无约束估计量 ;如果计算有约束估计量 在此处得分,则 一般不为零,但是如果约束有效,则 趋近于零。 在原假设成立条件下,,拉格朗日乘子检验(LM),对于线性约束 将有关量代入上式得, 拒绝域,,拉格朗日乘子检验(LM),LM统计量另一种表达形式,

8、 LR、 Wald 、LM关系(一般情况下成立):,4. Cox模型的解释及应用,(1) 探索结局事件发生的危险因素,分析各因素的作用大小。 (2) 计算个体预后指数(prognosis index,PI),对个体进行定性的预后评价。 (3) 通过估计生存率,对群体定量地进行预后评价。,影响因素Xi的标准差,标准正态离差,相应偏回归系数的标准误,(2)计算个体预后指数(prognosis index,PI),对个体进行定性的预后评价。 定义第j个观察单位的预后指数为: 式中 为第i个协变量的标准偏回归系数 的估计值( ), 为第j个观察单位(个体)第i个协变量的标准化值。 若PIj=0,说明该

9、个体死亡风险处于平均水平; 若PIj0,说明该个体死亡风险高于平均水平; 若PIj0,说明该个体死亡风险低于平均水平。,3通过估计生存率,对群体定量地进行预后评价。,由于生存率与基础生存率相关,故只要估计出基础生存率,再结合各因素的偏回归系数就可以估计出生存率, 即,ti 时刻的基础生存率公式,ti 时刻的基础累计风险函数公式,在tk时刻的死亡人数,ti 时刻的生存率计算公式,2.Breslow法,5. Cox模型拟合优度的考察,可将研究对象按个体预后指数恰当地分组,用乘积极限法估计各组的生存率曲线,并与按Cox模型预后指数分类的生存率曲线在同一坐标系内进行比较,若两种曲线具有一致性,说明模型

10、拟合较理想。也可以使用卡方检验的方法。,比例风险假定(PH假定):,PH假定的检验方法大致可以分为图法和正规的检验方法。 图法:即通过观察散点图中散点的分布或趋势是否满足既定模型基本假设下的形状来判断资料是否满足或近似满足模型假定,主要的方法有:比较COX-KM生存曲线、基于累计风险函数的图示法、Schoenfeld残差图、Score残差图; 正规的检验方法:通过构造满足既定模型基本假定下服从某一已知分布的统计量,利用P值来检验资料是否满足或近似满足模型假定。主要方法有:时协变量法、线性相关检验、加权残差Score检验、三次样条函数法 .Cox比例风险回归模型诊断及预测有关问题的研究_余红梅.

11、caj.caj,对数线性假定,主要的方法:多重法;鞅残差法;改进的鞅残差法;构造变量法 Cox回归影响点的分析 鞅残差,剩余残差,得分残差,Schoenfeld残差, 加权Schoenfeld残差,R程序:,在survival包中的函数: coxph(formula,data,weights,subset,na.action) formula:反应变量要有Surv()函数定义 cox.zph(fit,transform= ,global=T/F) 检验比例风险假定 basehaz(fit,centered=T/F) 计算基础风险率的函数,getwd() setwd(C:/Users/Admin

12、istrator/Desktop) my-read.csv(pharynx.csv,header=T) attach(my) my-myCOND!=9 model =/选项; strata freq ; by ; Proportionality_test:test ;/*比例风险假定,时协变量法*/ run ;,libname ll F:R语言学习COX; data a; set ll.pharynx; run; data a; set a; if cond=9 or grade=9 then delete; if cond=3 or cond=4 then cond=2; if cond=0

13、 then cond=1; run; proc phreg data=a; model time*status(0)=tx cond site t_stage n_stage age grade inst/selection=stepwise risklimits sle=0.15 sls=0.15; baseline out=cox survival=suv stderr=stderr /method=ch; run;,四、Cox模型的适用范围及注意事项,1. 适用范围 Cox模型适用于生存资料的统计分析,属半参数模型,对资料没有特殊的要求,也可以估计各因素的参数,并能做多因素的统计分析。该

14、模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计出个体的生存率。 另外,Cox模型能分析具有截尾数值的生存时间。 Cox模型可以分析多种因素对疾病预后的影响,使其更适合于临床的随访研究。Cox模型使临床观察的定性指标又加上定量指标进行分析,提高了分析的效率。,2. 注意事项,(1) 设计阶段应注意的问题 样本的代表性要好。样本的含量为观察协变量的5-20倍。 所有危险因素要在设计时考虑全面,避免漏掉重要因素和加入无关因素。 生存时间的定义要明确。起始事件和终点事件要有明确规定,时间尽可能精确测量。 研究的协变量在研究对象中的分布要适中,否则

15、会给参数的估计带来困难。 在设计时要注意影响时间的效应因素。如研究吸烟对肺癌患者生存率的影响,若本来吸烟的人因患肺癌而戒烟,则一般模型不易分析吸烟的作用,需考虑吸烟量随时间变化的趋势。如果研究的因素随时间而发生变化,必要时可以采用伴时协变量的Cox模型进行分析。,注意事项,(2) 模型拟合时应注意的问题 多重共线性问题:医学研究中的许多变量间并不是独立的,但通常不会影响分析的结果,如果变量间存在高度的相关,则会影响Cox模型的参数估计,此时可采用主成分分析法或R型聚类分析法消除多元共线性的影响。 应注意Cox模型要求病人的风险函数与基础风险函数呈比例,如果这一假定不成立,则不能用Cox模型进行分析。,注意事项,(3) 模型应用时应注意的问题 结果的解释应结合专业知识。Cox模型与其他回归分析一样,当进入模型中的因素有统计学意义时,该因素与生存时间不一定有因果关系,其中有一部分因素与生存时间的关系为伴随关系。 Cox回归的生存率一般不宜用于不同资料之间的比较,因为基准危险率函数只在同一份资料内保持相同,不同资料的基准危险率往往不同;而且在多因素分析的情况下,协变量组合也很难一致,可比性难以保证。,3. Co

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论