![第十一章 spss之线性回归详解2(张文彤)_第1页](http://file4.renrendoc.com/view/040da427f16932e32b232599a44a8352/040da427f16932e32b232599a44a83521.gif)
![第十一章 spss之线性回归详解2(张文彤)_第2页](http://file4.renrendoc.com/view/040da427f16932e32b232599a44a8352/040da427f16932e32b232599a44a83522.gif)
![第十一章 spss之线性回归详解2(张文彤)_第3页](http://file4.renrendoc.com/view/040da427f16932e32b232599a44a8352/040da427f16932e32b232599a44a83523.gif)
![第十一章 spss之线性回归详解2(张文彤)_第4页](http://file4.renrendoc.com/view/040da427f16932e32b232599a44a8352/040da427f16932e32b232599a44a83524.gif)
![第十一章 spss之线性回归详解2(张文彤)_第5页](http://file4.renrendoc.com/view/040da427f16932e32b232599a44a8352/040da427f16932e32b232599a44a83525.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十一章分类资料的回归分析—Regression菜单详解(下)(医学统计之星:张文彤)上次更新日期:Linear过程简单操作入门界面详解输出结果解释复杂实例操作分析实例结果解释CurveEstimation过程界面详解实例操作10.3BinaryLogistic过程1031界面详解与实例1032结果解释10.3.3模型的进一步优化与简单诊断10.3.3.1模型的进一步优化10.3.3.2模型的简单诊断口咛
在很久很久以前,地球上还是一个阴森恐怖的黑暗时代,大地上恐龙横行,我们的老祖先--类人猿惊恐的睁大了双眼,围坐在仅剩的火堆旁,担心着无边的黑暗中不知何时会出现的妖魔鬼怪,没有电视可看,没有网可上...我是疯了,还是在说梦话?都不是,类人猿自然不会有机会和恐龙同时代,只不过是我开机准备写这一部分的时候,心里忽然想到,在10年前,国内的统计学应用上还是卡方检验横行,分层的M-H卡方简直就是超级武器,在流行病学中称王称霸,更有那些1:M的配对卡方,N:M的配对卡方,含失访数据的N:M配对卡方之类的,简直象恐龙一般,搞得我头都大了。其实恐龙我还能讲出十多种来,可上面这些东西我现在还没彻底弄明白,好在社会进步迅速,没等这些恐龙完全统制地球,Logistic模型就已经飞速进化到了现代人的阶段,各种各样的Logistic模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样贪婪的享用着恐龙的身体。好,这是好事,这里不能讲动物保护,现在我们就远离那些恐龙,来看看现代白领的生活方式。:尬特别声明:我上面的话并非有贬低流行病学的意思,实际上我一直都在做流行病学,我这样写只是想说明近些年来统计方法的普及速度之快而已。站据我一位学数学的师兄讲‘Logistic模型和卡方在原理上是不一样的,在公式推演上也不可能划等号,只是一般来说两者的检验结果会非常接近而已,多数情况下可忽略其不同。§10.3inaryLogistic§10.3inaryLogistic过程所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。随着模型的发展‘Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。界面详解与实例例11.1某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析(本例来自《卫生统计学》第四版第11章)。i:标本序号x1:确诊时患者的年龄(岁)x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级x3:肾细胞癌组织内微血管数(MVC)•x4:肾癌细胞核组织学分级,由低到高共4级x5:肾细胞癌分期,由低到高共4期y:肾细胞癌转移情况(有转移y=1;无转移y=0)。ix1x2x3x4x5y159243.4210
236157.211036121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.643113521561101431147.82101536331.63111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431在菜单上选择Analyze==》Regression==》BinaryLogistic...,系统弹出Logistic回归对话框如下:
;LogisticRegressionSelect>>123d-5•……iXXXXX-¥Dependent:o_PreviousBlock1of1;LogisticRegressionSelect>>123d-5•……iXXXXX-¥Dependent:o_PreviousBlock1of1NextMethod:|Enter3Covariates:左侧是候选变量框,右上角是应变量框,选入二分类的应变量,下方的Covariates框是用于选入自变量的,只不过这里按国外的习惯被称为了协变量。两框中间的是BLOCK系列按扭,我在上一课已经讲过了,不再重复。中下部的〉a*b>框是用于选入交互作用的,和其他的对话框不太相同(我也不知道为什么SPSS偏在这里做得不同),下方的Method列表框用于选择变量进入方法,有进入法、前进法和后退法三大类,三类之下又有细分。最下面的四个按钮比较重要,请大家听我慢慢道来:oSelect〉>钮:用于限定一个筛选条件,只有满足该条件的记录才会被纳入分析,单击它后对话框会展开让你填入相应的条件。不过我觉得该功能纯属多余,和专门的Select对话框的功能重复了。oCategorical钮:如果你的自变量是多分类的(如血型等),你必须要将它用哑变量的方式来分析,那么就要用该按钮将该变量指定为分类变量,如果有必要,可用里面的选择按钮进行详细的定义,如以哪个取值作
为基础水平,各水平间比较的方法是什么等。当然,如果你弄不明白,不改也可以,默认的是以最大取值为基础水平,用Devianee做比较。Save钮:将中间结果存储起来供以后分析,共有预测值、影响强度因子和残差三大类。oOptions钮:这一部分非常重要,但又常常被忽视,在这里我们可以对模型作精确定义,还可以选择模型预测情况的描述方式,如StatistiesandPlots中的Classifieationplots就是非常重要的模型预测工具,Correlationsofestimates则是重要的模型诊断工具,Iterationhistory可以看到迭代的具体情况,从而得知你的模型是否在迭代时存在病态,下方则可以确定进入和排除的概率标准,这在逐步回归中是非常有用的。好,根据我们的目的,应变量为Y,而X1〜X5为自变量,具体的分析操作如下:Analyze==》Regression==》BinaryLogistic...Dependent框:选入YCovariates框:选入x1~x5OK钮:单击1、Enter:所有自变量强制进入回归方程;2、Forward:Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量;3、Forward:LR:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量;4、Forward:Wald:作Wald概率统计法,向前逐步选择自变量;5、Backward:Conditional:以假定参数为基础作似然比概率检验,向后逐步选择自变量;6、Backward:LR:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量;7、Backward:Wald:作Wald概率统计法,向后逐步选择自变量。结果解释LogisticRegression幫用丁•芮;:;:=+;:;:=沁总;:心.;:QBP孟上表为记录处理情况汇总,即有多少例记录被纳入了下面的分析,可见此处因不存在缺失值,26条记录均纳入了分析。上表为应变量分类情况列表,没什么好解释的。Block0:BeginningBlock此处已经开始了拟合,Block0拟合的是只有常数的无效模型,上表为分类预测表,可见在17例观察值为0的记录中,共有17例被预测为0,9例1也都被预测为0,总预测准确率为65.4%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。上表为Block0时的变量系数,可见常数的系数值为-0.636。■护—、、2、2、:上表为在Block0处尚未纳入分析方程的侯选变量,所作的检验表示如果分别将他们纳入方程,则方程的改变是否会有显著意义(根据所用统计量的不同,可能是拟合优度,Devianee值等)。可见如果将X2系列的哑变量纳入方程,则方程的改变是有显著意义的,X4和X5也是如此,由于Stepwise方法是一个一个的进入变量,下一步将会先纳入P值最小的变量X2,然后再重新计算该表,再做选择。Block1:Method=ForwardStepwise(Conditional)、fj.'fj,、*、*、■!'fj.:2L.⑴牛牛WA、》f*■牛此处开始了Block1的拟合,根据我们的设定,采用的方法为Forward(我们只设定了一个Block,所以后面不会再有Block2了)。上表为全局检验,对每一步都作了Step、Block和Model的检验,可见6个检验都是有意义的。此处为模型概况汇总,可见从STEP1到STEP2,DEVINCE从18降到11,两种决定系数也都有上升。•Jv«..23•;:s..K<J:芮£::此处为每一步的预测情况汇总可见准确率由Block0的65%上升到了84%,最后达到96%,效果不错,最终只出现了一例错判。上表为方程中变量检验情况列表,分别给出了Step1和Step2的拟合情况。注意X4的P值略大于0.05,但仍然是可以接受的,因为这里用到的是排除标准(默认为0.1),该变量可以留在方程中。以Step2中的X2为例,可见其系数为2.413,OR值为11。上表为假设将这些变量单独移出方程,则方程的改变有无统计学意义,可见都是有统计学意义的,因此他们应当保留在方程中。VariablesnotintheEquationScoredfSig.Step1VariablesX-1.sue■1.369X3.■18S■1X46.199■1.013X53.689■1.055OverallStatistics8.S76斗.064Step2VariablesX-1■1.39S■1.237X3.726■1.394X5■1.662■1.197OverallStatistics5.0973.165最后这个表格说明的是在每一步中,尚未进入方程的变量如果再进入现有方程,则方程的改变有无统计学意义。可见在Step1时,X4还应该引入,而在Step2时,其它变量是否引入都无关了。模型的进一步优化与简单诊断模型的进一步优化前面我们将X1~X5直接引入了方程,实际上,其中X2、X4、X5这三个自变量为多分类变量,我们并无证据认为它们之间个各等级的OR值是成倍上升的,严格来说,这里应当采用哑变量来分析,即需要用Categorical钮将他们定义为分类变量。但本次分析不能这样做,原因是这里总例数只有26例,如果引入哑变量模型会使得每个等级的记录数非常少,从而分析结果将极为奇怪,无法正常解释,但为了说明哑变量模型的用法,下面我将演示它是如何做的,毕竟不是每个例子都只有26例。默认情况下定义分类变量非常容易,做到如上图所示就可以了,此时分析结果中的改变如下:上表为自变量中多分类变量的哑变量取值情况代码表。左侧为原变量名及取值,右侧为相应的哑变量名及编码情况:以X5为例,表中可见X5=4时,即取值最高的情况被作为了基线水平,这是多分类变量生成哑变量的默认情况。而X5(1)代表的是X5=1的情况(X5为1时取1,否则取0),X5⑵代表的是X5=2的情况,依此类推。同时注意到许多等级值有几个记录,显然后面的分析结果不会太好。相应的,分析结果中也以哑变量在进行分析,如下所示:上表出现了非常有趣的现象:所有的检验P值均远远大于0.05,但是所有的变量均没有被移出方程,这是怎么回事?再看看下面的这个表格吧。这个表格为方程的似然值改变情况的检验,可见在最后Step2生成的方程中,无论移出X2还是X4都会引起方程的显著性改变。也就是说,似然比检验的结果和上面的Walds检验结果冲突,以谁为准?此处应以似然比检验为准,因为它是全局性的检验,且Walds检验本身就不太准,这一点大家记住就行了,实在要弄明白请去查阅相关文献。请注意:上面的哑变量均是以最高水平为基线水平,这不符合我们的目的,我们希望将最低水平作为基线水平。比如以肾细胞癌第一期为基线水平,需要这
样做只要在Categoriacl框中选中相应的变量,在ReferenceCategory处选择First,再单击Change即可,此时变量旁的标示会做出相应的改变如下:分析结果中也会做出相应的改变,此处略。模型的简单诊断SPSS本身提供了几种用于模型诊断的工具,基本上都集中在Options对话框中,除了大家熟悉的残差分析外,这里这种介绍三种简单而有非常有用的工具:迭代记录、相关矩阵和分类图。IterationHistory3bcdeIteration-2Log1ike1ihuudCoefficiPritsCunstantX2X4Step1119.962-3.597■1.550218.229-5.2492.1893■is.uio■6.0812.499418.004-6.2502.561518.004-6.2562.563Step2116.773-4.474■1.031.72S213.-ISO■7.391■1.5331.2673■12.059-9.989■1.9961.7-11411.840-11.7152.3051.996511.826-12.2822.4J52.0S9611.826-12.32S2.4132.096■a.ForwarcK*|:wfceipoidlttjial.liclidedlbHemodel.C.lhmal-2L«|Ll^llh>:M:l:335421eimhatdart龙r^tF?biimter5beca■他kg-llsllb*:M:ldecreasedR阳耳tiaijDIO片rcektBWiarbjh电imhatdat陛rarbjhbimter61疋ca■徒kg-ll»II比o:ldecreasedI歼臥*UahjDIOjwrceit上表为Block1的迭代记录,可见无论是似然值,还是三个系数值,均是从迭代开始就向着一个方向发展,最终达到收敛,这说明整个迭代过程是健康的,问题不大;如果中途出现波折,尤其是当引入新变量后变化方向改变了,则提示要好好研究。上表为方程中变量的相关矩阵,可见X2和常数相关性较强,当引入X4后仍然如此,提示要关注这一现象,以防因自变量间的共线性导致方程系数不稳(此时迭代记录多半也会有波动)。当然,由于本例只有26条记录,这一问题是没有办法深入研究的。ObservedGroupsandFredictedFrobabilitiem0ObservedGroupsandFredictedFrobabilitiem016-12-8-04-0Fred
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Unit2 My schoolbag (Part C)(说课稿)-2024-2025学年人教PEP版英语四年级上册
- Unit 1 Life Choices Lesson 3 Your Life Is What You Make It 说课稿-2024-2025学年高中英语北师大版(2019)必修第一册
- 2025宅基地的买卖合同协议书
- 2024六年级英语上册 Unit 3 My weekend plan课时3 Let's try Let's talk说课稿 人教PEP
- 2024-2025学年高中数学 开学第一周 第一章 集合与函数概念 1.1.1 集合的含义与表示 第一课时 集合的含义说课稿 新人教A版必修1
- 26手术台就是阵地 (说课稿)-2024-2025学年三年级上册语文统编版
- 2025冷库销售合同范本
- 影视企业签订业绩承诺协议的财务风险控制研究
- Unit 1 Let's be friends!(说课稿)-2024-2025学年外研版(三起)(2024)英语三年级上册
- 水景池维修施工方案
- 电缆销售年终工作总结与计划
- (完整)三年级数学口算题300道(直接打印)
- TB 10012-2019 铁路工程地质勘察规范
- 新苏教版三年级下册科学全册知识点(背诵用)
- 【良心出品】架空输电线路巡视内容
- 10000以内加减法混合竖式题
- 2024年新华文轩出版传媒股份有限公司招聘笔试参考题库含答案解析
- 课件:曝光三要素
- 春节文化研究手册
- 《智能物联网导论》AIoT导论-第4章课件
- 小学综合实践《我们的传统节日》说课稿
评论
0/150
提交评论