医学研究的数据管理与分析——第十一章(1)_第1页
医学研究的数据管理与分析——第十一章(1)_第2页
医学研究的数据管理与分析——第十一章(1)_第3页
医学研究的数据管理与分析——第十一章(1)_第4页
医学研究的数据管理与分析——第十一章(1)_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十一章 SPSS软件应用(四)第一节第一节 生存分析生存分析随访研究随访研究随访研究随访研究(follow-up study)(follow-up study)是医学中常用前瞻性研是医学中常用前瞻性研究究. .例例: :两种方法肾移植病人术后肾的生存时间和结局两种方法肾移植病人术后肾的生存时间和结局( (生生存率存率) )比较比较. .例例: :不同方法对某病人不同方法对某病人( (癌症、反复发作疾病)生存时癌症、反复发作疾病)生存时间间( (缓解时间缓解时间) )与结局与结局( (生存率生存率) )比较比较. .该类数据通过随访得到,称为随访资料。该类数据通过随访得到,称为随访资料。随访研

2、究随访研究(follow-up study)(follow-up study)示意图示意图合格的合格的研究对象研究对象出现结果出现结果尚未出现结果尚未出现结果 失访、脱落失访、脱落试验组试验组对照组对照组伴随因素干扰因素生存分析生存分析在临床医学中, 对病人疗效考查:治疗结局?生存时间? 生存分析生存分析(survival analysis)是将是将事件的结果事件的结果(终(终点事件)和出现结果经历的点事件)和出现结果经历的时间时间结合起来分析的一种统结合起来分析的一种统计分析方法。计分析方法。一、随访数据概念一、随访数据概念 1.分析的变量(分析的变量(y) 1) 结局事件:指结局出现的特征

3、,如疾病的死结局事件:指结局出现的特征,如疾病的死亡、复发、发生亡、复发、发生( y=1或或0) 。 2)时间间隔变量)时间间隔变量 记为(记为(t) 生存时间生存时间t=结局事件出现日期结局事件出现日期 事件的起事件的起始日期始日期 (起始日期可规定(起始日期可规定:如诊断、用药、手术日期如诊断、用药、手术日期等)等), t的单位:可用年、月、周表示的单位:可用年、月、周表示生存分析的基本概念生存分析的基本概念 起始事件 随访时间 终点事件疾病确诊 死亡疾病确诊 痊愈治疗开始 死亡治疗开始 痊愈症状缓解 疾病恶化接触毒物 出现毒性反映接触危险因素 发病2.2.截尾数据截尾数据 观察过程中个体

4、因其他原因未观察到明确观察过程中个体因其他原因未观察到明确的结局,的结局, 称为截尾或删失数据(称为截尾或删失数据( censored censored datadata)。)。截尾原因有:截尾原因有:失访,退出研究,如其他原因死亡。研究时间结失访,退出研究,如其他原因死亡。研究时间结束,未出现结局事件。束,未出现结局事件。截尾值(截尾值(censored valuecensored value):):时间(时间(t t)= =截尾事件日期截尾事件日期 起始事件日期起始事件日期记为记为t t+ +。(例:。(例:1010+ +月)月)3.3.生存数据的特点生存数据的特点1 1)完全数据:研究对

5、象在规定研究期间提供确切的)完全数据:研究对象在规定研究期间提供确切的“时间时间和结局和结局”。2 2)截尾数据)截尾数据(t(t+ +) ) :截尾数据虽然提供的信息不完全,但:截尾数据虽然提供的信息不完全,但提供了部分信息,如提供了部分信息,如 t=10t=10+ +年年9 9年。年。3 3)生存数据的结果变量()生存数据的结果变量(Y Y )有两个:)有两个: 时间(时间(t t)值)值 ,t t0 0 结局状态(结局状态(y y )=“ =“ 如死亡或截尾值如死亡或截尾值” 临床随访研究中的完全数据与截尾数据临床随访研究中的完全数据与截尾数据观察起点观察起点观察终点观察终点5 6123

6、 4 起点事件 终点事件 失访生存时间资料的特点生存时间资料的特点 2个效应变量(1)生存时间(天数),(2)结局(死亡与否、是否阳性等)截尾数据(censored data):截尾数据提供的信息是不完全的 (uncompleted data)分布类型复杂:生存时间分布常呈非正态分布对数正态分布指数分布, Weibull分布Gamma分布,logistic分布, 2个效应变量(1)生存时间(天数),(2)结局(死亡与否、是否阳性等)两种错误的做法:两种错误的做法:错误1:忽略生存时间,采用Logistic回归分析死亡率错误2:忽略结局,采用t检验、线性回归分析生存时间两种错误的做法:两种错误的

7、做法:错误1:丢弃丢弃截尾截尾数据,只考虑确切数据。(损失数据,只考虑确切数据。(损失了信息)了信息)错误2:将将截尾截尾数据当作确切数据处理。(低估了数据当作确切数据处理。(低估了生存时间的平均水平)。生存时间的平均水平)。截尾( (删失删失) )数据两种错误的做法:两种错误的做法:错误1:采用平均生存时间而不是采用采用平均生存时间而不是采用中位生存时间来表示生存时间的平均水平。来表示生存时间的平均水平。错误2:采用常规采用常规t t检验或方差分析进行组间比较。检验或方差分析进行组间比较。(应采(应采用用log-ranklog-rank检验检验比较几组生存时间比较几组生存时间 )非正态数据生

8、存时间资料整理和记录生存时间资料整理和记录例:某人研究手术方法治疗例:某人研究手术方法治疗2323位肾上腺肿瘤病人的生存时位肾上腺肿瘤病人的生存时间(月)如下:间(月)如下: 1 1,3 3,5 5(3 3),),6 6(3 3),),7 7,8 8,1010(2 2),),1414+ +,1717,1919+ +,2020+ +,2222+ +,2626+ +,3131+ +,3434,3434+ +,4444,5959注注:( )( )括号内的数为相同时间点的人数括号内的数为相同时间点的人数数据另一种记录数据另一种记录: :对象编号对象编号 生存时间生存时间(t) (t) 结局状态结局状态

9、(0(0为截尾值为截尾值) ) 1 1 1 1 1 1 2 14 0 2 14 0生存分析主要研究的内容生存分析主要研究的内容1.1.统计描述统计描述:计算不同时间点(:计算不同时间点(t t)的生存率,描述生)的生存率,描述生存过程。存过程。2.2.统计推断统计推断:检验不同处理方式的生存过程有无统计:检验不同处理方式的生存过程有无统计差别差别. .3.3.自变量(自变量(x x)对生存时间()对生存时间(t t)的关系)的关系:影响生存时:影响生存时间的危险因素分析间的危险因素分析. .1 平均生存时间 ti的平均数 (当有截尾数据时,求不出)2 中位生存时间 ti的中位数 : 50%的病

10、人生存, 50%的病人死亡的时间 (当截尾较早时,求不出)1 生存函数(survival function) 生存率2 死亡率1生存率观察病人总数的病人数生存时间tTtTPtS)()(常见生存函数的类型生存曲线生存曲线 以生存时间为横轴,生存率为纵轴绘制的曲以生存时间为横轴,生存率为纵轴绘制的曲线线 (a)研究终止在475天 (b) 研究终止在474天图3 乘积极限法生存曲线(阶梯形阶梯形)及其半数生存期(Md=158天)0100200300400500t (day)0.00.20.40.60.81.0S(t)S(132)=0.50100200300400500t (day)0.00.20.4

11、0.60.81.0S(t)Md=158012345t (year)0.00.20.40.60.81.0S(t)Md=1.7图 寿命表法生存曲线(折线折线)及其半数生存期(Md=1.7年)3 风险函数(hazard function)tttttth时刻尚存的病人数在的病人数死于区间),()(常见风险函数的类型4 风险比(hazard ratio) 相对危险度(Relative risk)()(21thth第二组的第一组的风险比 非参数方法非参数方法 参数方法参数方法乘积乘积-极限法极限法 指数分布指数分布(又称又称Kaplan-Meier法法) Weibull分布分布寿命表方法寿命表方法 Gam

12、ma分布分布Turnbull估计估计 logistic分布分布 对数正态分布对数正态分布非参数方法非参数方法 参数方法参数方法时序时序(log-rank)检验检验 分布参数检验分布参数检验分层分层时序时序检验检验Gehan检验检验广义广义Wilcoxon检验检验Mantel-Haenszel检验检验生存分析的目的:生存分析的目的:描述生存过程描述生存过程:估计不同时间的总体生存率,计算中位生存期,估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线。统计方法包括绘制生存函数曲线。统计方法包括Kaplan-MeierKaplan-Meier(K-MK-M)法、寿命)法、寿命表法。表法。比较

13、:比较:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的生比较不同处理组的生存率,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。统计方法存率,以了解哪种治疗方案较优。统计方法log-ranklog-rank检验等。检验等。影响因素分析:影响因素分析:研究某个或某些因素对生存率或生存时间的影响研究某个或某些因素对生存率或生存时间的影响作用。如为改善脑瘤病人的预后,应了解影响病人预后的主要因作用。如为改善脑瘤病人的预后,应了解影响病人预后的主要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。统素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。统计方法计方法coxcox比例风险

14、回归模型等。比例风险回归模型等。预测:预测:建立建立coxcox回归预测模型。回归预测模型。生存分析生存分析生存分析生存分析( (Survival Analysis) )菜单菜单寿命表寿命表(Life Tables)过程过程Life tables 过程用于(小样本和大样本资料):估计某生存时间的生存率,以及中位生存时间。绘制各种曲线:如生存函数、风险函数曲线等。对某一研究因素不同水平的生存时间分布的比较。控制另一个因素后对研究因素不同水平的生存时间分布的比较。对多组生存时间分布进行两两比较。(比较总体生存时间分布采用wilcoxon检验)Company LogoCompany Logo实例分析

15、实例分析例11-1-1Company LogoCompany Logo实例分析实例分析例1:为了比较不同手术方法治疗肾上腺肿瘤的疗效,某研究者随机将43例病人分成两组,甲组23例、乙组20例的生存时间(月)如下所示:其中有“+”者是删失数据,表示病人仍生存或失访,括号内为死亡人数。(1)计算甲、乙两法术后10月的生存率和标准误。(2)估计两组的中位生存期。(3)绘制各组生存函数曲线。(4)比较两组的总体生存时间分布有无差别。Company LogoCompany Logo一、建立数据文件一、建立数据文件定义定义5个变量:个变量:生存时间变量:t,值标签“生存时间(月)”生存状态变量 :stat

16、us,取值“1=死亡,0=删失或存活”频数变量:freq,值标签“人数”分组变量:group,取值“1=甲组,2=乙组”生存时间序号变量(可无):i二、操作过程二、操作过程主菜单:分析主菜单:分析Analyze生存生存Survival寿命表寿命表Life tables对话框参数设置:对话框参数设置:时间time框:选入 “t”。显示时间间隔Display time intervals框:步长by前面填入最大生存时间的上限(必须包括生存时间最大值),步长by后面填入生存时间的组距。本例上限填“60”,组距填“1”。状态status框:选入“status”,击define events 钮,在si

17、ngle value框填入“1”因子factor框:选入“group”,定义最小值“1”,最大值“2”。单击选项option按钮,弹出对话框: 1)寿命表,系统默认。 2)图: 生存函数 3)比较第一个因子的水平: 整体比较三、主要输出结果三、主要输出结果10月生存率的估计:月生存率的估计: 甲法甲法 48%,标准误,标准误 0.1 乙法乙法 30%,标准误,标准误 0.1 两组的中位生存期估计:两组的中位生存期估计:Company LogoCompany Logo3. 绘制生存曲线:绘制生存曲线:Company LogoCompany Logo4. 两组生存时间分布的比较:两组生存时间分布的

18、比较:Kaplan-Meier 过程过程Kaplan-Meier过程用于(尤其小样本资料):估计各生存时间的生存率以及中位生存时间。绘制各种曲线:如生存函数、风险函数曲线等。比较某研究因素不同水平的生存时间有无差异。控制某个分层因素后对研究因素不同水平的生存时间分布进行比较。对多组生存时间分布进行两两比较。(各总体分布比较采用Log-rank等非参数方法)Company LogoCompany Logo实例分析实例分析例11-1-2Company LogoCompany Logo实例分析实例分析例2:(数据同例1)为了比较不同手术方法治疗肾上腺肿瘤的疗效,某研究者随机将43例病人分成两组,甲组

19、23例、乙组20例的生存时间(月)如下所示:其中有“+”者是删失数据,表示病人仍生存或失访,括号内为死亡人数。(1)计算甲、乙两法各生存时间的生存率和标准误。(2)估计两组的中位生存期。(3)绘制各组生存函数曲线。(4)比较两组的总体生存时间分布有无差别。一、建立数据文件(同前)一、建立数据文件(同前)二、操作过程二、操作过程主菜单:分析主菜单:分析Analyze生存生存SurvivalKaplan-Meier对话框参数设置:对话框参数设置:时间time框:选入 “t”。状态status框:选入“status”,击define events 钮,在single value框填入“1”。因子fa

20、ctor框:选入“group”。单击选项option按钮,弹出对话框: 1)统计量: 生存分析表,系统默认。 均值和中位生存时间,系统默认。 2)图: 生存函数5. 单击比较因子Compare Factor按钮,弹出对话框: 1)检验统计量Test Statistics: 都用于检验时间分布是否相同。 对数秩Log-rank:各时间点的权重一样。 Breslow:按各时间点的观察例数赋权。 Tarone-Ware:按各时间点观察例数的平方根赋权。二、操作过程二、操作过程2)水平间的两两比较。水平间的两两比较。6. 单击Save按钮,弹出保存新变量Save new variables 对话框:三

21、、主要输出结果三、主要输出结果生存表:生存表: 略略 两组的中位生存期估计:两组的中位生存期估计:3. 绘制生存曲线:绘制生存曲线:Company LogoCompany Logo4. 两组生存时间分布的比较:两组生存时间分布的比较:Cox回归回归过程过程Cox回归过程用于: 1. 多个因素对生存时间的影响作用分析和比较 2. 生存(或死亡)风险预测Cox回归模型:h(t/X)=h0(t) exp (1 X1 + 2 X2 + + p Xp )h0(t): 基准风险函数 即所有变量取零时的t时刻的风险函数X1、X2 Xp:影响因素 变量1、2 p:回归系数实例分析实例分析例11-1-3实例分析

22、实例分析例3:为探讨某恶性肿瘤的预后,某研究者收集了63例患者的生存时间、生存结局及影响因素。影响因素包括病人年龄、性别、组织学类型、治疗方式、淋巴结转移、肿瘤浸润程度,生存时间以月计算。变量的赋值和所收集的资料分别见下表。试用Cox回归模型进行分析。NoX1X2X3X4X5X6tYNoX1X2X3X4X5X6tY15400110520336200010120025701000510344011101 40135800011351355010010 2614431111010303633110001200548010007137571110012006400100060038481001012

23、0074401000580392800010 3183600011291405410110120193911101700413501011 71104201001670424700010 18111420100066043491011012001242101108704443010001200135111100850454811000 151145501001820464400010 411549111017604760111001200165211101740484000010 161174811100630493201001 2411854101111010504400011 191193

24、80100010005148100101200204011101661527201010 241213800010930534200010 212219000102415463101101200236710110930555501100 121243700110900563900010 512543100101515744000101200264900010315842111001200275011111870597400011 712853111001200606101010 401293211100120061451011010803046010011200623801000 241314

25、3101101200636200010 1613244101101200表表17-9 63名某恶性肿瘤患者的生存时间(月)及影响因素名某恶性肿瘤患者的生存时间(月)及影响因素一、建立数据文件一、建立数据文件二、操作过程二、操作过程主菜单:分析主菜单:分析Analyze生存生存SurvivalCox RegressionCox回归主对话框回归主对话框二、操作过程主对话框参数设置:主对话框参数设置:时间time框:选入 “ t ”。状态status框:选入“ y ”,击define events 钮,在single value框填入“1”协变量Covariates框:选入“x1x6”。方法Meth

26、od框:选择自变量进入Cox模型的方法,SPSS提供以下7种方法。1.分析例数描述案案例例处处理理摘摘要要2641.3%3758.7%63100.0%0.0%0.0%0.0%0.0%63100.0%事件a删失合计分析中可用的案例带有缺失值的案例带有负时间的案例层中的最早事件之前删失的案例合计删除的案例合计N百分比因变量: ta. 三、主要输出结果三、主要输出结果2-1.模型检验(全变量模型)模模 型型 系系 数数 的的 综综 合合 测测 试试a a, ,b b180.05220.1746.00321.9426.00121.9426.001-2 倍对数似然值卡方dfSig.整体 (得分)卡方dfSig.从上一步骤开始更改卡方dfSig.从上一块开始更改起始块编号 0,最初的对数似然函数:-2 倍对数似然值: 201.994a. 起始块编号 1. 方法 = 输入b. 结果提示:结果提示:(1)对模型总体检验有显著意义()对模型总体检验有显著意义(P=0.003),即至少),即至少有有1个自变量的总体回归系数不为个自变量的总体回归系数不为0。2-2.模型检验(逐步回归模型,Method=向前法LR,自变量进入P0.05,剔除P0.10 )模模 型型 系系 数数 的的 综综 合合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论