版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Logistic回归模型与生存分析简介张志杰流行病学教研室epistat@
Tel.:54237410(Office:8号楼443)主要内容一、Logistic回归模型二、生存分析三、Assignments2023/10/92张志杰,流行病学教研室,公共卫生学院,复旦大学Logistic回归模型简介模型简介模型中参数的估计与意义模型与参数的假设检验模型的拟合优度Logistic回归模型中的高级话题分析实例2023/10/93张志杰,流行病学教研室,公共卫生学院,复旦大学模型简介方差分析模型:应变量-连续/正态;自变量:分类/连续变量线性回归模型:应变量-连续/正态;自变量:连续/分类变量应变量为分类变量:研究该分类变量与一组自变量之间的关系治愈/未治愈(0/1);治愈/好转/未治愈(有序分类);无序分类(腺癌、鳞癌、大细胞癌)研究的因素较少:χ2;CMH(无序分类变量;自变量为分类变量)研究的因素较多时(分层较多):出现较多0的单元Logistic回归模型单元为0的信息可以利用;自变量可以是连续性变量基于线性回归模型的思想发展而来2023/10/94张志杰,流行病学教研室,公共卫生学院,复旦大学模型简介应变量为0/1变量的Logistic回归模型在冠心病可疑危险因素的研究中,记录下每个研究对象的p个自变量(年龄、性别、饮酒等),记为x1,…,xp。随访一段时间,如果发生冠心病,应变量y记为1,如果没有发生冠心病,y=0。可以观察到,不同的x1,…,xp的研究对象,冠心病的发生概率P(y=1)不同,如果我们希望依据随访得到的这组数据建立一个描述自变量x1,…,xp与冠心病的发生概率P(y=1)间关系的回归方程,并根据建立的回归方程进行预测,对各个自变量的作用大小和方向作出评价,如何实现?
我们首先想到的是能不能用线性回归模型来实现?2023/10/95张志杰,流行病学教研室,公共卫生学院,复旦大学模型简介存在的问题1.模型两边的值域不同:左边概率[0,1],右边[-∞,∞];2.应变量概率P与自变量间通常不存在线性关系解决办法:Logit变换应变量取值区间的变化<-问题1的解决P=0logitP=ln(0/1)=-∞P=0.5logitP=ln(0.5/0.5)=0P=1logitP=ln(1/0)=+∞实践证明,logitP往往和自变量呈线性关系<-问题2的解决2023/10/96张志杰,流行病学教研室,公共卫生学院,复旦大学模型简介2023/10/97张志杰,流行病学教研室,公共卫生学院,复旦大学模型简介模型名称的来源:Logistic这个名称来源于它对应变量所采用的logit变换,和英文单词Logistic的含义(后勤的)一点关系都没有,与逻辑就更不相干模型用途筛选危险因素校正混杂因素预测与判别(判别分析)2023/10/98张志杰,流行病学教研室,公共卫生学院,复旦大学模型中参数的估计与意义模型参数的估计方法由于应变量为二分类,所以误差项服从二项分布,而非正态分布。最小二乘法不适用,最大似然法2023/10/99张志杰,流行病学教研室,公共卫生学院,复旦大学模型中参数的估计与意义模型中参数的意义β0-常数项自变量取值全为0时的基线状况,未必有实际意义;比数(Y=1与Y=0的概率之比)的自然对数值;病例—对照研究中,病例与对照两组人数的比例是人为定的,不能代表人群中真实的病人与正常人比例,因此该常数项不是各自变量取值为0时人群患病比的估计值的对数。因此根据病例—对照研究资料建立的Logistic回归模型中,常数项意义不大,主要针对结果中自变量的偏回归系数及其转换成OR值的意义作解释,不适宜直接用于预测和判别。如希望进行预测,则需知道人群中真实的患病率Pα。2023/10/910张志杰,流行病学教研室,公共卫生学院,复旦大学模型中参数的估计与意义βiβi和多重线性回归模型中系数的解释一样,偏回归系数;代表固定其它Xj时,Xi改变一个单位引起logitP平均值的改变量;在实际应用中,可以为这些系数找到更加贴近实际的解释,比数比(OddsRatio,OR)=exp(βi):Logit变换的优势当其它自变量(Xj)取值保持不变时,Xi取值增加一个单位引起OR自然对数值的变化量,因此在使用上OR值要远比βi本身更常用2023/10/911张志杰,流行病学教研室,公共卫生学院,复旦大学模型中参数的估计与意义(X1增加一个单位)2023/10/912张志杰,流行病学教研室,公共卫生学院,复旦大学模型与参数的假设检验1.似然比检验模型(两个模型拟合效果的比较)及偏回归系数的假设检验假设模型1含有较少自变量,模型2含有较多自变量,检验的H0:模型1与模型2的拟合效果无差异似然比检验统计量:,即两个模型负二倍对数似然函数值之差,G反映的是模型2较模型1拟合优度提高的程度。当样本量较大时,在H0成立的情况下,G服从卡方分布,自由度为2个模型的变量个数之差2023/10/913张志杰,流行病学教研室,公共卫生学院,复旦大学模型与参数的假设检验2.Walds检验模型中回归系数的假设检验在SPSS输出的结果中,关于β值的所有检验都是Walds检验该检验基于β值服从正态分布的假设,首先求出β值的标准误,然后基于正态分布原理求出P值进行检验模型中参数可信区间的估计就是基于Walds检验来的;常用于模型中变量的剔除2023/10/914张志杰,流行病学教研室,公共卫生学院,复旦大学模型与参数的假设检验3.记分检验模型中回归系数的假设检验及两个模型拟合效果的比较以未包含某一个(或几个)参数的模型为基础,保留模型中参数的估计值,并假设新增加的参数为0,计算似然函数的一阶偏导数(又称有效比分)及信息矩阵;记分检验统计量Score=S’(COV)S列向量S是对数似然函数的一阶偏导数,S’是行向量COV是模型的方差协方差矩阵当样本量较大时,Score服从卡方分布常用于模型中变量的纳入2023/10/915张志杰,流行病学教研室,公共卫生学院,复旦大学模型与参数的假设检验三种假设检验方法似然比检验是基于整个模型的拟合情况进行的,结果最可靠;记分检验结果一般与似然比检验一致Walds检验没有考虑各因素的综合作用,当因素间存在共线性的时候,结果不可靠。在筛选变量时,用Walds法应慎重;另外,由于参数的可信区间也是基于该检验算得的,故以95%可信区间来筛选变量也应慎重2023/10/916张志杰,流行病学教研室,公共卫生学院,复旦大学模型的拟合优度-2lnL:越小越好伪决定系数:基于对数似然值而来,类似于线性回归模型中的决定系数模型预测的正确率和ROC曲线Hosmer-Lemeshow统计量:LackofFittestH0:nolackoffit自变量中有连续性变量仅适用于0/1应变量2023/10/917张志杰,流行病学教研室,公共卫生学院,复旦大学Logistic回归模型中的高级话题哑变量偏回归系数表示其它自变量Xj不变,Xi每改变一个单位,所导致logitP的平均变化量x为连续性/二分类变量:没有问题x为多分类变量:不太合适无序多分类:民族,各族之间不存在大小问题有序多分类:家庭收入分为高、中、低三档,它们之间的差距无法准确衡量
在以上这些情况时,我们就必须将原始的多分类变量转化为数个哑变量(DummyVariable),
2023/10/918张志杰,流行病学教研室,公共卫生学院,复旦大学Logistic回归模型中的高级话题哑变量每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有明确而合理的实际意义对于取值具有n个水平的自变量Xi,可以生成n-1个哑变量模型中哑变量遵循“同进同出”的原则2023/10/919张志杰,流行病学教研室,公共卫生学院,复旦大学Logistic回归模型中的高级话题Logistic回归模型只能用于应变量为0/1变量的资料?有序多分类的Logistic回归模型(e.g.累积Logit模型)无序多分类的Logistic回归模型2023/10/920张志杰,流行病学教研室,公共卫生学院,复旦大学Logistic回归模型中的高级话题Logistic回归模型非条件Logistic回归模型:0/1;有序多分类;无序多分类条件(配对)Logistic回归模型:分层的Cox比例风险模型2023/10/921张志杰,流行病学教研室,公共卫生学院,复旦大学分析实例
Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素,数据间文件logistic_step.sav,应变量为出生的婴儿是否为低体重婴儿(变量名LOW,1表示低出生体重<2500g),考虑的影响因素有:1.产妇怀孕前体重(1wt,磅);2.产妇年龄(age,岁);3.产妇在怀孕期间是否吸烟(smoke,0表示不吸烟);4.本次怀孕前早产次数(ptl,次);5.是否还有高血压(ht,0表示未患高血压);6.子宫对按摩、催产素等刺激引起收缩的应激性(ui,0无应激性);7.怀孕前3个月社区医生随访次数(ftv,次)8.种族(race,1白人,2黑人,3其它种族):哑变量2023/10/922张志杰,流行病学教研室,公共卫生学院,复旦大学2023/10/923张志杰,流行病学教研室,公共卫生学院,复旦大学Logistic回归模型LogitP=Ln(P低出生体重/P非低出生体重)=0.893-0.015*产妇怀孕前体重lwt+0.728*本次怀孕前早产次数ptl+1.789*是否患有高血压ht危险因素:ptl;ht保护因素:lwt2023/10/924张志杰,流行病学教研室,公共卫生学院,复旦大学生存分析简介生存分析概述基本概念生存率的估计生存曲线的比较Cox比例风险模型2023/10/925张志杰,流行病学教研室,公共卫生学院,复旦大学生存分析概述疾病的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短。如果病人的结局都为死亡,但活的时间长短不一样,那么活的时间长的病人其预后相对较好,这类资料一船通过随访收集。
生存时间和生存结局都成为了要关心的因素:应变量有两个只考虑生存时间:时间分布不明(肯定不呈正态分布,在不同情况下的分布规律也不同),拟和模型有困难只考虑生存结局:如死亡/未死亡(Logistic),没有利用生存时间的有用信息;2023/10/926张志杰,流行病学教研室,公共卫生学院,复旦大学生存分析概述大量失访:失去联系(病人搬走,电话号码改变);无法观察到结局(死于其他原因);研究截止将失访数据无论是算作死亡还是存活似乎都不大合理生存分析的特点与局限在针对结局比较凶险,即总体生存时间都比较短的疾病的研究中,生存分析比只考虑结局,不考虑时间因素的Logistic模型等方法的研究效率要高得多。如果相应疾病的结局都非常好,比如几乎人人都可痊愈的感冒,生存分析的利用价值也许并不大,除非是特殊情况,否则感冒晚好两天对医生或病人来说根本没有多大影响2023/10/927张志杰,流行病学教研室,公共卫生学院,复旦大学生存分析概述生存分析的主要研究内容1.描述生存过程(单样本):研究人群生存状态的规律,如生存时间的分布特点,计算某个时间点的生存率、生存率曲线的变动趋势等;2.比较不同人群的生存过程(两/多样本):比较不同人群的生存状况,进行两组或多组生存率的比较;3.分析影响生存过程的相关因素:比较不同人群的生存状况,进行两组或多组生存率比较,以了解哪些因素会影响目标人群的生存过程,这是生存分析方法最重要的研究内容,在临床医学中应用的非常广泛。2023/10/928张志杰,流行病学教研室,公共卫生学院,复旦大学生存分析概述生存分析的方法参数法要求观察的生存时间t服从某一特定的分布,采用估计分布中参数的方法获得生存率的估计值生存时间的分布可能为指数分布、Weibull分布、对数正态分布等,这些分布曲线都有相应的生存率函数形式。只需求出相应参数的估计值,即可获得生存率的估计值和曲线非参数法实际工作中,多数生存时间的分布不符合上述所指的分布,少用参数法,多用非参数法与以往所学的非参数法一样,假设两组或多组的总体生存曲线分布相同,而不考虑总体的分布形式和参数如何。2023/10/929张志杰,流行病学教研室,公共卫生学院,复旦大学生存分析概述半参数法只规定了影响因素对生存率的影响规律,但是没有对生存时间(和基线风险函数)的分布情况加以限定主要用于分析生存率的影响因素,属多因素分析方法,其典型方法是Cox比例风险模型2023/10/930张志杰,流行病学教研室,公共卫生学院,复旦大学基本概念1.起点事件与终点事件起点事件:研究者根据研究目的设定的开始关心某一事件的起点,如“某疾病的确诊”、“治疗结束”、“某电子设备的开始使用”等;(广义的概念)终点事件/失效事件:观察到随访对象出现了预
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024订购酒的购销合同范本范文
- 专题6 课内阅读 (一)(知识盘点+试题)-2022-2023学年五年级语文下册期末复习
- 城区生活垃圾焚烧发电工程PPP项目招投标书范本
- 2024路沿石购销合同
- 2024商铺租赁标准合同范本
- 2024电子产品购销合同格式模板
- 2024物业保洁劳务合同
- 2024股权转让委托合同标准范本
- 规划课题申报范例:《习近平新时代中国特色社会主义思想学生读本》教学研究(附可修改技术路线图)
- 茶水赠送合同(2篇)
- 康复护理的历史发展
- 烟花爆竹从业人员安全培训试题
- 电梯使用现场类隐患专项排查清单
- 一例下肢静脉溃疡患者的个案护理论文
- 危岩稳定性计算表格-滑移式-倾倒式-坠落式-完整版
- 直播运营团队组织架构及岗位职责解析
- 肝胆外科运用PDCA循环缩短三四类手术患者术后留置导尿的时间
- JCT640-2010 顶进施工法用钢筋混凝土排水管
- 注塑车间平面规划图OK
- 商户洽谈记录表
- 镇卫生院绩效考核方案
评论
0/150
提交评论