第8章 logistic回归模型1_第1页
第8章 logistic回归模型1_第2页
第8章 logistic回归模型1_第3页
第8章 logistic回归模型1_第4页
第8章 logistic回归模型1_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章Logistic回归模型许多社会科学的观察都只分类而不是连续的.比如,政治学中经常研究的是否选举某候选人.又如,经济学研究中所涉及的是否销售或购买某种商品、是否签订—个合同等等.这种选择量度通常分为两类,即“是’与“否”.在社会学和人口研究中,人们的社会行为与事件的发生如犯罪、逃学、迁移、结婚、离婚、患病等等都可以按照二分类变量来测量。线性回归模型在定量分析中也许是最流行的统计分析方法,然而在许多情况下,线性回归会受到限制.比如,当因变量是一个分类变量,不是一个连续变量时,线性回归就不适用,严重违反假设条件.

分类变量分析通常采用对数线性模型(Log-linearmodel),而因变量为二分变量时,对数线性模型就变成Logistic回归模型.logistic回归是一个概率型模型,因此可以利用它预测某事件发生的概率。例如在临床上可以根据患者的一些检查指标,判断患某种疾病的概率有多大。目的:作出以多个自变量估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。资料:1.应变量为反映某现象发生与不发生的二值变量;2.自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。用途:研究某种现象发生和多个因素(或保护因子)的数量关系。用检验(或u检验)的局限性:1.只能研究1个因素;2.只能得出定性结论。1.成组(非条件)logistic回归方程。2.配对(条件)logistic回归方程。第八章第一节机动目录上页下页返回结束logistic回归(非条件logistic回归)

一、基本概念,在m个自变量的作用下Y=1(发生)的概率记作:若令:

回归模型概率P:0~1,logitP:-∞~∞。

取值范围

logistic函数的图形模型参数的意义常数项表示暴露剂量为0时个体发病与不发病概率之比的自然对数。回归系数表示自变量改变一个单位时logitP的改变量。流行病学衡量危险因素作用大小的比数比例指标。计算公式为:优势比OR(oddsratio)与logisticP的关系:二、logistic回归模型的参数估计参数估计

原理:最大似然(likelihood)估计

可反映某一因素两个不同水平(c1,c0)的优势比。

2.优势比估计

例设有住房及收入情况的统计资料如表

XYXYXY10017120117113011018121180140161171120120161911107020116117113012015190110101191161251120110150402011201411811712011611706010016119180181110180110100221在SPSS中估计参数步骤如下:(1)在SPSS中录入表10-55中数据(变量为Y和X),并保存数据文件;在主菜单中选择[Analyze]=>[Regression]=>[BinaryLogistic](2)在[LogisticRegression]对话框中,选择Y进入[Dependent]框作为因变量,选择X进入[Covariates]作为自变量击[Method]的下拉菜单,SPSS提供了7种方法:[Enter]:所有自变量强制进入回归方程;[Forward:Conditional]:以假定参数为基础作似然比检验,向前逐步选择自变量;[Forward:LR]:以最大局部似然为基础作似然比检验,向前逐步选择自变量;[Forward:Wald]:作Wald概率统计法,向前逐步选择自变量;[Backward:Conditional]:以假定参数为基础作似然比检验,向后逐步选择自变量;[Backward:LR]:以最大局部似然为基础作似然比检验,向后逐步选择自变量;[Backward:Wald]:作Wald概率统计法,向后逐步选择自变量。(3)单击[LogisticRegression]对话框中的[Options]按钮,在显示的子对话框中选择[Classificationplots]和[Hosmer-Lemeshowgoodness-of-fit]等选项(如图所示),并单击[Continue]返回主对话框。(4)单击主对话框中[OK]按钮,输出结果如下:例:下表是一个研究吸烟、饮酒与食道癌关系的病例-对照资料,试作logistic回归分析。

确定各变量编码

表吸烟与食道癌关系的病例-对照调查资料

经logistic回归计算后得:的95可信区间:饮酒与不饮酒的优势比OR1的95可信区间

吸烟与不吸烟的优势比:三、logistic回归模型的假设检验2.Wald检验1.似然比检验方法:前进法、后退法和逐步法。

检验统计量:不是F统计量,而是似然比统计量、

Wald统计量和计分统计量之一。四、变量筛选例:

为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例对照研究,各因素的说明及资料见下两。试用logistic逐步回归分析方法筛选危险因素。表冠心病8个可能的危险因素与赋值表冠心病危险因素的病例对照调查资料

表方程中的自变量及有关参数的估计值例:某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析。i:标本序号x1:确诊时患者的年龄(岁)x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级

x3:肾细胞癌组织内微血管数(MVC)

x4:肾癌细胞核组织学分级,由低到高共4级

x5:肾细胞癌分期,由低到高共4期

y:肾细胞癌转移情况(有转移y=1;无转移y=0)。ix1x2x3x4x5y159243.4210236157.211036121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.643113521561101431147.82101536331.63111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431在菜单上选择Analyze==》Regression==》BinaryLogistic...,系统弹出Logistic回归对话框如下:Select>>钮:用于限定一个筛选条件,只有满足该条件的记录才会被纳入分析,单击它后对话框会展开让你填入相应的条件。不过我觉得该功能纯属多余,和专门的Select对话框的功能重复了。Categorical钮:如果你的自变量是多分类的(如血型等),你必须要将它用哑变量的方式来分析,那么就要用该按钮将该变量指定为分类变量,如果有必要,可用里面的选择按钮进行详细的定义,如以哪个取值作为基础水平,各水平间比较的方法是什么等。当然,如果你弄不明白,不改也可以,默认的是以最大取值为基础水平,用Deviance做比较。Save钮:将中间结果存储起来供以后分析,共有预测值、影响强度因子和残差三大类。Options钮:这一部分非常重要,但又常常被忽视,在这里我们可以对模型作精确定义,还可以选择模型预测情况的描述方式,如StatisticsandPlots中的Classificationplots就是非常重要的模型预测工具,Correlationsofestimates则是重要的模型诊断工具,Iterationhistory可以看到迭代的具体情况,从而得知你的模型是否在迭代时存在病态,下方则可以确定进入和排除的概率标准,这在逐步回归中是非常有用的。记录处理情况汇总应变量分类情况列表Block0拟合的是只有常数的无效模型,上表为分类预测表,可见在17例观察值为0的记录中,共有17例被预测为0,9例1也都被预测为0,总预测准确率为65.4%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。Block0时的变量系数,可见常数的系数值为-0.636。上表为在Block0处尚未纳入分析方程的侯选变量,所作的检验表示如果分别将他们纳入方程,则方程的改变是否会有显著意义(根据所用统计量的不同,可能是拟合优度,Deviance值等)。可见如果将X2系列的哑变量纳入方程,则方程的改变是有显著意义的,X4和X5也是如此,由于Stepwise方法是一个一个的进入变量,下一步将会先纳入P值最小的变量X2,然后再重新计算该表,再做选择。此处开始了Block1的拟合,根据我们的设定,采用的方法为Forward(我们只设定了一个Block,所以后面不会再有Block2了)。上表为全局检验,对每一步都作了Step、Block和Model的检验,可见6个检验都是有意义的此处为模型概况汇总,可见从STEP1到STEP2,DEVINCE从18降到11,两种决定系数也都有上升。此处为每一步的预测情况汇总,可见准确率由Block0的65%上升到了84%,最后达到96%,效果不错,最终只出现了一例错判。上表为方程中变量检验情况列表,分别给出了Step1和Step2的拟合情况。注意X4的P值略大于0.05,但仍然是可以接受的,因为这里用到的是排除标准(默认为0.1),该变量可以留在方程中。以Step2中的X2为例,可见其系数为2.413,OR值为11。上表为假设将这些变量单独移出方程,则方程的改变有无统计学意义,可见都是有统计学意义的,因此他们应当保留在方程中。最后这个表格说明的是在每一步中,尚未进入方程的变量如果再进入现有方程,则方程的改变有无统计学意义。可见在Step1时,X4还应该引入,而在Step2时,其它变量是否引入都无关了。第八章第二节机动目录上页下页返回结束条件logistic回归

一、原理配对资料。最常用的是每组中有一个病例和若干个对照,即1:M配对研究(一般M≤3)表1:M

条件logistic回归数据的格式

*t=0为病例,其他为对照条件logistic模型Pi表示第i层在一组危险因素作用下发病的概率,表示各层的效应,为待估计的参数。与非条件logistic回归模型不同之处在常数项上,不同匹配组的可以各不相同,但内在假定了每个危险因素的致病能力在不同匹配组中相同。二、应用实例例

某北方城市研究喉癌发病的危险因素,用1:2配对的病例对照研究方法进行了调查。现选取了6个可能的危险因素并节录25对数据,各因素的赋值说明、资料列于下表。试作条件logistic逐步回归分析。表进入方程中的自变量及有关参数的估计值

采用逐步法

6个危险因素变量筛选4个进方程,结果见表。

表喉癌1:2配对病例对照调查资料整理表

选入的4个危险因素分别为吸烟量(X2)、有声嘶史(X3)、是否经常摄食新鲜蔬菜(X4)及癌症家族史(X6),其中摄食新鲜蔬菜为保护因素(b4<0)。第八章第三节机动目录上页下页返回结束logistic回归的应用及其注意事项一、logistic回归的应用1.流行病学危险因素分析logistic回归分析的特点之一是参数意义清楚,即得到某一因素的回归系数后,可以很快估计出这一因素在不同水平下的优势比或近似相对危险度,因此非常适合于流行病学研究。logistic回归既适合于队列研究(cohortstudy),也适合于病例-对照研究(case-controlstudy),同样还可以用于断面研究(cross-sectio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论