整理logistic回归分析课件_第1页
整理logistic回归分析课件_第2页
整理logistic回归分析课件_第3页
整理logistic回归分析课件_第4页
整理logistic回归分析课件_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大城小事1问题提出: 医学研究中常研究某因素存在条件下某结果是否发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3XK 发生 Y=1 不发生 Y=0例:暴露因素 冠心病结果高血压史(x1):有 或无 有 或 无高血脂史(x2): 有 或 无吸烟(x3): 有或无大城小事2研究问题可否用多元线性回归方法?1.多元线性回归方法要求 Y 的取值为计量的连续性随机变量。2.多元线性回归方程要求Y与X间关系为线性关系。3.多元线性回归结果 不能回答“发生与否”logistic回归方法补充多元线性回归的不足大城小事3Logistic回归方法该法研究是 当 y 取某值(如y=1)发生的

2、概率(p)与某暴露因素(x)的关系。 P(概率)的取值波动01范围。 基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。大城小事4第一节 logistic回归一、基本概念 1.变量的取值 logistic回归要求应变量(Y)取值为分类变量(两分类或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。 可有m个自变量X1, X2, Xm 大城小事52.两值因变量的logistic回归模型方程一个自变量与Y关系的回归模型如:y:发生=1,未发生=0 x : 有=1,无=0,记为p(y=1/x)表示某暴露因素

3、状态下,结果y=1的概率(P)模型。或模型描述了应变量p与x的关系大城小事6P概率10.5Z值0123-1-2-3图16-1 Logistic回归函数的几何图形为正值,x越大,结果y=1发生的可能性(p)越大。大城小事7几个logistic回归模型方程大城小事8logistic回归模型方程的线性表达对logistic回归模型的概率(p)做logit变换,截距(常数)回归系数Y(-至+)线形关系方程如下:大城小事9在有多个危险因素(Xi)时多个变量的logistic回归模型方程的线性表达:或公式16-2大城小事102.模型中参数的意义0(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比

4、的自然对数比值。 大城小事11 的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对数值。 P1(y=1/x=1)的概率P0(y=1/x=0)的概率大城小事12 危险因素 Y x= 1 x= 0发病=1 30(a) 10( b) 不发病=0 70(c) 90(d) a+c b+d 危险因素 Y x= 1 x= 0发病=1 p1 p0 不发病=0 1-p1 1-p0 有暴露因素人群中发病的比例大城小事13 反映了在其他变量固定后,X=1与x=0相比发生Y事件的对数优势比。 回归系数与OR X与Y的关联 =0,OR=1, 无关 1,OR1 , 有关,危险因素

5、 1,OR1, 有关,保护因子事件发生率很小,ORRR。多元回归模型的的 概念大城小事14二、logistic回归模型的参数估计1. 模型中的参数(i)估计 通常用最大似然函数 (maximum likelihood estimate, MLE)估计, 由统计软件包完成。(讲义259页), , 大城小事152. 优势比(OR)及可信区间的估计如X=1,0两分类,则OR的1-可信区间估计公式为回归系数的标准误(公式16-10)大城小事16例:讲义表16-1资料一个研究吸烟、饮酒与食道癌关系的病例对照资料(886例),试作logistic回归分析。变量的赋值大城小事17经logistic回归计算后

6、得 b0 =-0.9099, b1 =0.8856, b2 =0.5261, 方程表达:控制饮酒因素后,吸烟与不吸烟相比患食管癌的优势比为2.4倍 大城小事18OR的可信区间估计吸烟与不吸烟患食管癌OR的95%可信区间:饮酒与不饮酒OR的95%可信区间:大城小事19三、Logistic 回归模型的假设检验1.检验一:对建立的整个模型做检验。 说明自变量对Y的作用是否有统计意义。检验方法(讲义260-261页)1)似然比检验 (likelihood ratio test)2)Wald检验3)计分检验(score test)大城小事20例表16-1吸烟、饮酒与食管癌资料(SAS软件计算) 1.对建

7、立的整个模型做检验。Testing Global Null Hypothesis: BETA=0Test Chi-Square DF Pr似然比 68.5457 2 .0001计分检验 67.0712 2 .0001Wald检验 64.2784 2 .0001大城小事212.检验二:检验模型中某是否对Y有作用。检验假设:检验统计量:主要为Wald检验(SAS软件)例;在大样本时,三方法结果一致。公式16-13=1的2大城小事22例表16-1资料,对各x的做检验(wald检验)参数 估计值 标准误 Chi-Squa Pr常数-0.9099 0.1358 44.8699 .0001吸烟 0.885

8、6 0.1500 34.8625 .0001饮酒 0.5261 0.1572 11.2069 .0008 Odds Ratio Estimates Point 95% WaldEffect Estimate Confidence Limits 吸烟x1 2.424 1.807 3.253 饮酒x2 1.692 1.244 2.303大城小事23似然比检验(讲义)对某个做检验,检验统计量(G)包括p个自变量的对数似然函数包括 l 个自变量的对数似然函数G服从自由度(d)=p-l的2分布大城小事24似然比检验对做检验例:X1为吸烟,X2为饮酒,检验饮酒与食管癌关系,H0:2=0,H1:20G 3.

9、84,p0.05,说明调整吸烟因素后,饮酒与食管癌有关系。大城小事25四、变量筛选目的;将回归系数有显著意义的自变量选入模型中,作用不显著的自变量则排除在外。变量筛选算法有:前进法、后退法和 逐步法(stepwise)。例:讲义例16-2,用逐步法选入变量的显著水准为0.10,变量保留在方程的水准为0.15例:16-2讲义261-263页大城小事26表16-4 进入方程的自变量及参数估计变量 Sb Wald2 P 标准 OR常数 -4.705 1.54 9.30 0.0023 年龄 0.924 0.477 3.76 0.0525 0.401 2.52X5 1.496 0.744 4.04 0.

10、0443 0.406 4.46X6 3.136 1.249 6.30 0.0121 0.703 23.06X8 1.947 0.847 5.29 0.0215 0.523 7.01标准回归系数(b) 比较各自变量对Y 的相对贡献大城小事27第二节 条件Logistic回归概念:用配对设计获得病例对照研究资料,计算的Logistic回归模型为条件Logistic回归。成组(未配对)设计的病例对照研究资料,计算的Logistic回归模型为非条件Logistic回归。例:见265页区别:条件Logistic回归的参数估计无常数项(0),主要用于危险因素的分析。大城小事28第三节 logistic回归

11、的应用及注意事项 一、logistic回归的应用1.疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(i)和OR说明危险因素与疾病的关系。例:讲义例16-1,16-2,16-3适用的资料: 前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。三类研究计算的logistic 回归模型的意义是一致。仅常数项不同。(证明略)大城小事29Logistic回归的应用2.校正混杂因素,对疗效做评价在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效。3.预测与判别预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。大城小

12、事30表5-4甲乙两疗法某病治愈率%比较病型 甲疗法 乙疗法 病人 治愈 治愈 病人 治愈 治愈 数 数 率 数 数 率普通型 300 180 60.0 100 65 65.0重型 100 35 35.0 300 125 41.7合计 400 215 53.8 400 190 47.5例:例1大城小事31表5-5直接法计算标准化治愈率病型 标准 甲疗法 乙疗法 治疗 原治 预期 原治 预期 人数 愈率 治愈数 愈率 治愈数普通型 400 60.0 240 65.0 260重型 400 35.0 140 41.7 167合计 800 380 427调整率(标准化率): 大城小事32X1疗法(甲=

13、0,乙=1)X2病情(轻=1,重=0)Y疗效(Y=1有效,Y=0无效) LOGISTIC回归计算 Standard Wald Parameter Estimate Error Chi-Squa Pr Intercept -0.6453 0.1653 15.24 .0001 疗法 0.2482 0.1699 2.13 0.1442 病情 0.9900 0.1699 33.93 .0001 Odds Ratio Estimate Point 95% Wald Effect Estimate Confidence Limits 疗法 1.282 0.919 1.788 病情 2.691 1.929

14、3.755大城小事33例2 性别、两种药物对某病疗效的研究不考虑性别的影响,疗效与药物的logistic回归2=10.23,p=0.0014,OR=4.46性别治疗方法疗效有效(y=1) 无效(y=0)合计女X1=1新药(x2=1)21627对照(x2=0)131932男X1=0新药(x2=1)7714对照(x2=0)11011大城小事34考虑性别、药物对疗效的作用 Standard WaldParame Estimate Error Chi-Square Pr 常数 -1.9037 0.5982 10.127 0.0015性别 1.4685 0.575 6.508 0.0107药物 1.78

15、16 0.518 11.794 0.0006 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits x1 性别 4.343 1.405 13.421 x2 药物 5.939 2.149 16.417大城小事35结论:性别和药物的回归系数都均有统计意义。说明女性或用新药的疗效较优。用Logistic模型方程对个体的疗效做预测 :设如女性病人,x1=1,用新药x2=1,有效的概率p=0.79如男性病人x1=0,用新药x2=1, 有效的概率p=0.4695大城小事36二、Logistic回归应用的注意事项1.模型中

16、自变量的取值 自变量(X)可为计量数据、分类数据和等级数据。 计量数据常重新划为有序组段,OR的实际意义较大。 例:年龄(岁,x1) 大城小事37数据的几种赋值形式1)两分类变量,赋值为:有=1,无=02)有序变量,赋值;无=0,少=1,中=2,多=3 例;年龄 45=1 45-54=2 55-64=3 65=43.)多分类无序变量:赋值为:哑变量(dummy variable)形式见例:注:变量取值不同,方程的系数和符号将发生变化。大城小事38表16-2 冠心病8个可能的危险因素与赋值(讲义262页) 因素变量名赋值说明年龄(岁)X145=1, 4554=2, 5564=3, 65=4高血压

17、史X2无=0, 有=1高血压家族史X3无=0, 有=1吸烟X4不吸=0, 吸=1大城小事39表16-9 年龄(X)化为哑变量的赋值年龄(岁)有序变量哑变量(方法一)X水平D1D2D3 ChiSq Deviance 1 3.4202 0.0644 Pearson 1 3.4218 0.0643大城小事464.多分类的Logistic回归Logistic回归可处理: 1)应变量(Y)为有序的多分类资料如结果为:治愈、显效、好转、无效 2)应变量(Y)为无序的多分类资料例: 研究阑尾炎类型与危险因素关系阑尾炎类型有:卡他型、坏疽型、腹膜炎型多分类Logistic回归方法(略)大城小事47结果的表达一

18、般logistic 回归分析报告内容:1.危险因素的回归系数及标准误、p值2.标准化的回归系数。3.危险因素对应的OR和可信区间4.Logistic回归方程讲义264页大城小事48本节重点掌握内容和作业一、问答题1.Logistic回归与线性回归有什么不同?2. Logistic回归可解决哪些问题?3.自变量可以有哪些类型,应用时应如何赋值?4. Logistic回归中的含义和方程的表达。二、计算分析题的第2题的第(1)题。大城小事49大城小事50Logistic regressionLogistic回归大城小事51 第一节.非条件logistic回归第二节.条件logistic回归第三节.

19、应用及其注意事项大城小事52 医学研究中常碰到应变量的可能取值仅有两个(即二分类变量),如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,显然这类资料不满足多重回归的条件 什么情况下采用Logistic回归大城小事53 Brown(1980)在术前检查了53例前列腺癌患者,拟用年龄(AGE)、酸性磷酸酯酶(ACID)两个连续型的变量,X射线(X_RAY)、术前探针活检病理分级(GRADE)、直肠指检肿瘤的大小与位置(STAGE)三个分类变量与手术探查结果变量NODES(1、0分别表示癌症的淋巴结转移与未转移 )建立淋巴结转移的预报模型。实例大城小事5453例接受手术的前列腺

20、癌患者情况 大城小事5526例冠心病病人和28例对照者进行病例对照研究 大城小事5626例冠心病病人和28例对照者进行病例对照研究 大城小事57一、logistic回归模型 大城小事58概率预报模型 大城小事59二、模型的参数估计 Logistic回归参数的估计通常采用最大似然法(maximum likelihood,ML)。最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值,所得到的估计值称为参数的最大似然估计值。 大城小事60参数估计的公式 大城小事61三、回归参数的假设检验 大城小事62优势比及其可信区间 大城小事63标准化回归参数大城小事64P

21、262表16-3资料计算的SAS程序大城小事65 The LOGISTIC ProcedureAnalysis of Maximum Likelihood Estimates大城小事66 预报模型大城小事67四、回归参数的意义 当只有一个自变量时,以相应的预报概率为纵轴,自变量 为横轴,可绘制出一条S形曲线。回归参数的正负符号与绝对值大小,分别决定了S形曲线的形状与方向 大城小事68大城小事69大城小事70五、整个回归模型的假设检验 大城小事71似然比检验(likelihood ratio test)大城小事72六、logistic逐步回归(变量筛选)MODEL语句加入选项“ SELECTION=STEPWISE SLE=0.10 SLS=0.10;”常采用似然比检验:决定自变量是否引入或剔除。大城小事73模型中有X5、X6、X8,看是否引入X1模型含X5、X6、X8的模型的负二倍对数似然为: 50.402模型含X1、X5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论