医学统计学:第16章 Logistic 回归分析_第1页
医学统计学:第16章 Logistic 回归分析_第2页
医学统计学:第16章 Logistic 回归分析_第3页
医学统计学:第16章 Logistic 回归分析_第4页
医学统计学:第16章 Logistic 回归分析_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1

第十六章

logistic回归分析

(logisticregression)

2例16-1表16-1是一个研究吸烟、饮酒与食道癌关系的病例-对照资料,试作logistic回归分析。

确定各变量编码

复习“多元线性回归分析”3表16-1吸烟与食道癌关系的病例-对照调查资料(n=886)

Y分层吸烟饮酒观察例数阳性数阴性数gX1X2ngdgng

dg10019963136201170631073101014457411416265151注:阳性数,阳性结果人数4目的:作出以多个自变量X(危险因素)估计应变量Y(结果因素)的logistic回归方程。属于概率型非线性回归。资料:1.应变量为反映某现象发生与不发生的二值变量;2.自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。5用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。用检验(或u检验)的局限性:

1.只能研究1个危险因素;

2.只能得出定性结论。6

种类:1.成组(非条件)logistic回归方程。

2.配对(条件)logistic回归方程。7讲述内容:第一节logistic回归第二节条件logistic回归第三节logistic回归的应用及其注意事项8第一节

logistic回归

(非条件logistic回归)9

一、基本概念,在m个自变量的作用下阳性结果发生的概率记作:若令:

P与各X之间不呈线性关系,而可用下式描述:11Z与P之间关系的logistic曲线:当Z→+∞时,P值渐近于1;当Z值→-∞时,P值渐近于0;P值的变化在0~1范围之内,并且随Z值的增加或减少以点(0,0.5)为中心呈对称S形变化。很多生物学反反应资料的变化特点幂(e的Z次幂)底:e指数:Z对数Z:以e为底的的对数,即的自然对数。13模型参数的意义常数项

表示暴露剂量为0时个体发病与不发病概率之比的自然对数。(当死亡概率很低时,即P

0,1-P1)(偏)回归系数表示其他变量取固定值时,自变量改变一个单位时logitP的改变量。logitP取值范围:-∞~∞

若令

回归模型概率P:0~1,logitP:-∞~∞。

取值范围:

Logit转换15流行病学衡量危险因素作用大小的比数比例指标。计算公式为:优势比OR(oddsratio)与logitP的关系:当某一因素有多个水平时(假定为3个等级水平,从低等级开始定义为0、1、2):1819二、logistic回归模型的参数估计

参数估计——原理:最大似然(likelihood)估计

简化计算,通常取似然函数的对数形式求积的符号2021

2.优势比估计可反映某一因素两个不同水平(c1,c0)的优势比。22例16-1表16-1是一个研究吸烟、饮酒与食道癌关系的病例-对照资料,试作logistic回归分析。

确定各变量编码

23表16-1吸烟与食道癌关系的病例-对照调查资料(n=886)

分层资料24经logistic回归计算后得:的95

可信区间:

25

三、logistic回归模型的假设检验

1.似然比检验基本思想:

比较在两种不同假设条件下的对数似然函数值,看其差别的大小。261.似然比检验零假设:加入的自变量的总体回归系数=0具体方法:(1)先拟合一个不包含准备检验的变量在内的logistic回归模型,得到对数似然函数值lnL0(设包含的自变量个数为l个);(2)加入准备检验的变量,重新拟合logistic回归模型,同时又得到一个对数似然函数值lnL1

(设包含的自变量个数为p个);(3)计算似然比统计量G:

G=2(lnL1-lnL0)(16-12)27,α=0.05,α=0.05282.3.计分检验(scoretest)

——需要进行矩阵运算29Logistic回归模型的假设检验方法1似然比检验比较含有不同自变量的模型(的似然函数值)既适合单个自变量的假设检验,又适合多个自变量的同时检验2Wald检验各参数β与0的比较适合单个自变量的假设检验3计分检验计分检验统计量=对数似然函数的一阶导数*信息矩阵,符合自由度为1的卡方分布小样本时运用,犯Ⅰ型错误的可能性要小些。注:1)零假设都是总体的回归系数=02)大样本时,三种方法的结果是一致的。30方法:前进法、后退法和逐步法。

检验统计量:不是F

统计量,而是似然比统计量、

Wald统计量和计分统计量之一。

(对单个或多个自变量进行检验)四、变量筛选例16-2为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例

对照研究,各因素的说明及资料见表16-2和表16-3。试用logistic逐步回归分析方法筛选危险因素。(先选择变量,后拟合模型)31表16-2冠心病8个可能的危险因素与赋值32表16-3冠心病危险因素的病例

对照调查资料

33

表16-4例16-2进入方程中的自变量及有关参数的估计值

学会看结果!OR的95%CI34表16-3冠心病危险因素的病例

对照调查资料

例题的SPSS软件的计算分析!(成组)35讲述内容:第一节logistic回归第二节条件logistic回归第三节logistic回归的应用及其注意事项36一、原理

第二节条件logistic回归

(conditionallogisticregression)

(配对设计——控制混杂因素的影响)37表16-51:M

条件logistic回归数据的格式

*t=0为病例,其他为对照

38条件logistic模型1)构造每层(即匹配组)的条件似然函数2)综合n个匹配组的条件似然函数(常数项β0i被自动消去):获得各回归系数。39二、应用实例40表16-7喉癌1:2配对病例

对照调查资料整理表

41表16-8例16-3进入方程中的自变量及有关参数的估计值

采用逐步法

6个危险因素变量筛选4个进方程,结果见表16-9。

42二、应用实例例题的SPSS软件的计算分析!(配对)——Cox回归43讲述内容:第一节logistic回归第二节条件logistic回归第三节logistic回归的应用及其注意事项44

第三节

有序logistic回归和无序多分类logistic回归基本概念:1、有序logistic回归

应变量Y为等级或成都差别变量。基于累积概率构建模型。2、多分类logistic回归应变量Y为无序分类变量,是两分类logistic回归的扩展。以选择的某类别为参照,剩余类别相对于此参照类别的logistic回归分析。45一、logistic回归的应用1.流行病学危险因素分析

logistic回归分析的特点之一是参数意义清楚,即得到某一因素的回归系数后,可以很快估计出这一因素在不同水平下的优势比或近似相对危险度,因此非常适合于流行病学研究。logistic回归既适合于队列研究(cohortstudy),也适合于病例-对照研究(case-controlstudy),同样还可以用于断面研究(cross-sectionalstudy)第四节logistic回归的应用及其注意事项462.临床试验数据分析——当评价某种药物或治疗方法的效果的评价指标为二值变量时(如有效和无效)

影响效果的非处理因素(如年龄、病情等)在试验组和对照组中分布不均衡,就有可能夸大或掩盖试验组的治疗效果。

尽管在分组时要求按随机化原则分配,但由于样本含量有限,非处理因素在试验组和对照组内的分布仍有可能不均衡

在分析阶段对构成混杂的非处理因素进行调整——利用logistic回归分析(得到调整的)对于按分层设计的临床试验可以用相同的方法对分层因素进行调整和分析。473.分析药物或毒物的剂量反应

用这一模型可以求出任一剂量的阳性反应率传统的方法:对实验设计有严格的要求,如剂量按等比级数排列,各剂量组的例数必须相同等,logistic回归的方法:没有这些限制。

剂量为X时的阳性率P与剂量之间的关系:1)不同剂量使动物发生“阳性反应”的概率分布常呈正偏态。2)当将剂量取对数后则概率分布接近正态分布。由于正态分布函数与logistic分布函数都是指数函数,十分接近,所以:484.预测与判别

logistic回归模型——概率型模型作用:预测某事件发生的概率。例如:在临床上可以根据患者的一些检查指标,判断患某种疾病的概率有多大。关于判别问题见第十八章。49二、logistic回归应用的注意事项503、变量选择(逐步回归的方法)实际:根据专业知识、研究目的选择变量。选择最佳自变量的组合(探索性研究):然似比检验分析某一个变量是否有统计学意义(验证性研究):然似比检验、Wald检验、计分检验514、有序logistic回归的平行性假设检验5、SPSS和SAS中有序logistic回归结果的区别526、模型的拟合优度检验

目的:检验模型与实际数据的符合情况。拟合优度高,说明自变量的预测能力强。

方法:主要有3种。(1)偏差(2)Pearson(3)广义决定系数53(1)偏差(deviance,D):D值概括样本数据与logistic模型的拟合程度。(2)Pearson:大样本资料,两个统计量都服从自由度=g-p-1的卡方分布。(当小样本时,偏离卡方分布,用D与自由度比较,当D>自由度,提示不够理想。)5455(3)广义决定系数(综合性指标)——类似于多元线性回归中的决定系数。56本章小结:目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。资料:1.应变量为反映某现象发生与不发生的二值变量;

2.自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。

种类:1.成组(非条件)logistic回归方程。

2.配对(条件)logistic回归方程。57

课后应用思考题:为了分析影响医院抢救急性心肌梗死(AMI)患者能否成功的因素,某医院收集了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论