logistic回归介绍_第1页
logistic回归介绍_第2页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、logistic 回归介绍之三回归介绍之三 logistic 回归的应用条件回归的应用条件logistic回归与多重线性回归一样,在应用之前也是需要分析一下资料是否可以采用logistic回归模型。并不是说因变量是分类变量我就可以直接采用logistic回归,有些条件仍然是需要考虑的。首要的条件应该是需要看一下自变量与因变量之间是什么样的一种关系。多重线性回归中,要求自变量与因变量符合线性关系。 而logistic回归则不同, 它要求的是自变量与logit(p)符合线性关系,所谓logit实际上就是In(P/1-P)。也就是说,自变量应与In(P/1-P)呈线性关系。当然,这种情形主要针对多分

2、类变量和连续变量。对于二分类变量就无所谓了,因为两点永远是一条直线。这里举一个例子。某因素y与自变量x之间关系分析,y为二分类变量,x为四分类变量。如果x的四分类直接表示为1,2,3,4。则分析结果为p=0.07,显示对y的影响在0.05水准时无统计学意义,而如果将x作为虚拟变量,以1为参照,产生x2,x3,x4三个变量,重新分析,则结果显示:x2,x3,x4的p值分别为0.08,0.05和0.03。也就是说,尽管2和1相比无统计学意义,但3和1相比,4和1相比,均有统计学意义。为什么会产生如此结果?实际上如果仔细分析一下,就可以发现,因为x与logit(y)并不是呈线性关系。而是呈如下图的关

3、系:这就是导致上述差异的原因。从图中来看,x的4与1相差最大,其次是2,3与1相差最小。实际分析结果也是如此,上述分析中,x2,x3,x4产生的危险度分别为3.1,2.9,3.4。因此,一开始x以1,2,3,4的形式直接与y进行分析,默认的是认为它们与logit(p)呈直线关系,而实际上并非如此,因此掩盖了部分信息,从而导致应有的差异没有被检验出来。而一旦转换为虚拟变量的形式,由于虚拟变量都是二分类的,我们不再需要考虑其与logit(p)的关系,因而显示出了更为精确的结果。最后强调一下,如果你对自变量x与y的关系不清楚,在样本含量允许的条件下,最好转换为虚拟变量的形式,这样不至于出现太大的误差

4、。如果你不清楚应该如何探索他们的关系,也可以采用虚拟变量的形式,比如上述x,如果转换的虚拟变量x2,x3,x4他们的OR值呈直线关系,那x基本上可以直接以1,2,3,暴露因素病例对照4的形式直接与y进行分析。而我们刚才也看到了,x2,x3,x4的危险度分别为3.1,2.9,3.4。并不呈直线关系,所以还是考虑以虚拟变量形式进行分析最好。总之,虚拟变量在logistic回归分析中是非常有利的工具,善于利用可以帮助你探索出很多有用的信息。统计的分析策略是一个探索的过程,只要留心,你就会发现在探索数据关系的过程中充满了乐趣,因为你能发现别人所发现不了的隐藏的信息。希望大家多学点统计分析策略,把统计作

5、为一种艺术,在分析探索中找到乐趣。SPSS学习笔记之二项Logistic回归分析(2012-08-1814:38:17)转载标签:分类:SPSSspsslogistic回归统计一、概述Logistic 回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中差等)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。因变量为二分类的称为二项 logistic 回归,因变量为多分类的称为多元 logistic 回归。下面学习一下 Odds、OR、RR 的概念:在病例对照研究中,可以画出下列的四格表:暴露非暴露 c

6、dOdds:称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。在病例对照研究中病例组的暴露比值为:odds1=(a/(a+c)/(c(a+c)=a/c,对照组的暴露比值为:odds2=(b/(b+d)/(d/(b+d)=b/dOR:比值比,为:病例组的暴露比值(oddsl)/对照组的暴露比值(odds2)=ad/bc换一种角度,暴露组的疾病发生比值:odds1=(a/(a+b)/(b(a+b)=a/b 非暴露组的疾病发生比值:odds2=(c/(c+d)/(d/(c+d)=c/dOR=odds1/odds2=ad/bc与之前的结果一致。OR 的含义与相对危险度相同,指

7、暴露组的疾病危险性为非暴露组的多少倍。OR1 说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR1 说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。还应计算 OR 的置信区间,若区间跨 1 一般说明该因素无意义。关联强度大致如下:OR 值联系强度0.9-1.01.0-1.1无0.7-0.81.2-1.4弱(前者为负关联,后者为正关联)0.4-0.61.5-2.9中等(同上)0.1-0.33.0-9.0强(同上)32贷軟枚入比无cr&dd&bamm32信坤专欠歌无otbdebt炯N)32具他诩号5detauH逊常41是否柜欠峨哉fl,0.,数据视图ageemploy日曲阳辭

8、iTOcmMAWcr囲北M413171217B.C&5.3011.3C5.01102711031ca17301.3AM.010-I15U55005i08CM7.04111514120.0029026C.62.024222B.0017.301.753.061041O5&25皿llC.20.352.16.fl阳1?03670030603&316.67.04311211380036013124.02413119.03f44013CS.S310%10D25Cff13.7027BZ.15.02710116.009D下面开始准备数据:由于“default”变量可能存在缺失值,所以要新建一

9、个变量validate,当 default不为缺失值时,将 validate=l,然后通过 validate 来判断将不缺失的值纳入回归分析:选择如下菜单:hflFLhnan.suv歎IS覧I】-PlSi51utisitsra魏挹舞itOC丈件臼也El纱题轴世)带拱山甘柿因尺椭也国璋悄琴用43痒0对于奖內区HH计數世).臼和軸那?为相腋量回.卩豊切盅帛故也祐)点击进入“计算变量”对话框:在“目标变量”看中输入“validate”,右边的“数字表达式”输入“1”。再点击下方的“如果.”按钮,进入对话框:M计IfIS在框中输入 missing(default)=0,含义是 defalut 变量不为

10、缺失值。点击“继续回到“计算变量”对话框:护年势列郸平嗣工trnplcn上话住address掠剧fEn|-上贷如扎比同直極1搭用忿董席刨眞團护苴世曲帅盹UII.nSffi-ffS-lrteiauNj硕丽駅玉 itiWfflfficrrilss-rtg(dault)=Dmsa爼:CDF与雪中心C&F且掰运竦B 酬閤H00ZTSSSS=?=盅、点击确定,完成变量计算。2、统计菜单选择36302.17.8200曲馳计岡部势援小平方转戡(D分析迦直销型)團形)实用程序彳宙口辿)帘助creddebtathdbt比较均值趣)一般绫性棣型广义线性覆型佬合梗型込)相关】回归迟对数线世複型应为嵯网络启类囚9,3

11、011.365.01290266136400进入如下的对话框(下文称“主界面”):将“是否拖欠贷款default”作为因变量选入“因变量”框中。将其与变量选入“协变量”框中,下方的“方法”下拉菜单选择“向前:LR”(即前向的最大似然法,选择变量筛选的方法,条件法和最大似然法较好,慎用Wald法)。将“validate”变量选入下方的“选择变量”框。点击“选择变量”框后的“规则”按钮,进入定义规则对话框定义选择规则 validate值等于丫厂帮肋设置条件为“validate=l”,点击“继续”按钮返回主界面:点击右上角“分类”按钮,进入如下的对话框:该对话框用来设置自变量中的分类变量,左边的为刚

12、才选入的协变量,必须将所有分类变量选入右边的“分类协变量框中”。本例中只有“教育程度ed”为分类变量,将它选入右边框中,下方的“更改对比”可以默认。点击“继续”按钮返回主界面。回到主界面后点击“选项”按钮,进入对话框:勾选“分类图和“Hosmer-Lemeshow 拟合度复选框, 输出栏中选择“在最后一个步骤中,其余参数默认即可。“Hosmer-Lemeshow 拟合度能较好的检验该模型的拟合程度。点击继续回到主界面,点击“确定”输出结果。四、结果分析求加段的噩融PN百册溶定褰网电IS在7001D0.0域宾霭例0.0层计700100.0主追走的集開0C葩roo100.0忖。0Yes1cnC2)

13、战青?k平Didricftccirftpleiehigh3?21.00&.000.000ocaHigh5chaddegnee忸.0001.000JOOSemeBil廊S7.ODD.00-0UDO_oooOolfegedegree19ioa.000.OOA1MOFQ3l-unti&rgr3dudteQ啣EE3mu,QCWQ以上是案例处理摘要及变量的编码。膜甩乩总步骤-2对数似然值Cox&SnellRhNagelkerkeR4&56.732fl.298.436碾蘇繳涉更改范围小于叽脱估计宓上表是关于模型拟合度的检验。这用COX&SneHR 方和 NegelkeRkeR 方代替了线性回归中的 R 方

14、,他们呢的值越接近 1,说明拟合度越好,这个他们分别为 0.298 和 0.436,单纯看这一点,似乎模型的拟合度不好,但是该参数主要是用于模型之间的对比。Hosmer和L日m咅莒hew於验步骤卡力dfSig.48,5568.381这是 H-L 检验表,P=0.3810.05 接受 0 假设,认为该模型能很好拟合数据。HosmerjfllLe-me$howftJfe的的fifi机机It我我是再極处庚救=Nofiil-期卑值步猱417069-eea0-331702696S.55411.446703创66.539G3.4S17046463.52165.4797056559-692&10.30370

15、5055.1412014.8597014349.0162220.9847084341.0002729.00070g3230.4703&39.53070W1213,3975&56.60370H-L 检验的随机性表,比较观测值与期望值,表中观测值与期望值大致相同,可以直观的认为,该模型拟合度较好。LI泊液rii井比用爭尺4肚件拥火赏站;No47891881点a-vX(i一込击的衣问IMJh!.丄対T-ki-il工的理也建泞订.b己业龙的案IHwiida帕ED1c.-KZi时*洞翔1仙NE1a别和乳如測这个是最终模型的预测结果列联表。在 700 例数据中进行预测,在未拖欠贷款的478+39=517

16、例中,有 478 例预测正确,正确率 92.5%;在 91+92=183 例拖欠贷款的用户中有92 例预测正确,正确率 50.3%。总的正确率 81.4%。可以看出该模型对于非拖欠贷款者预测效果较好。BSE.Wil5dfSig.巨炬怛4aemploy-.243.028747S11.&D0785白ddFgs车-.W.他17.1A31.CltiO血deblinc.OBB.01922.6591.OCO1.092ctcddebt.5730B743.1091.OCO1+7M希址-791252,.:1.002453a.kiK.41%:人的!;address这是最终拟合的结果,四个变量入选,P 值均0.05

17、。列“B”为偏回归系数,“S.E.”为标准误差,“Wals”为 Wald 统计量。“EXP(B)”即为相应变量的OR值(又叫优势比,比值比),为在其他条件不变的情况下,自变量每改变 1 个单位,事件的发生比“Odds”的变化率。如工龄为 2 年的用户的拖欠贷款的发生比(Odds)是工龄为 1 年的用户的 0.785 倍。最终的拟合方程式:logit(P)=-0.791-0.243*employ-0.081*address+0.088*detbine+0.573*creddebt。用该方程可以做预测,预测值大于 0.5 说明用户可能会拖欠贷款,小于 0.5 说明可能不会拖欠贷款。得分dfSig,

18、步-鸞 4 变.堆己 g 召3,6321,05?ed2.4944G46Gd1.1471.284哉.6961404ed(3),6481A21ed4)&391463income,0121,912othdebt1.572总统讣並7.4967379这是不在方程中的变量,其P均大于0.05,没有统计学意义。so*60协f01mmriaronanfYiMsi晅iriciicncnEfffliHirDiK!咆mmTBIrTj哪腱啊咽啊讷哪5啊啊iffiFJWHW审lYYRWYMiWsqciY时呼的科TVYTWTfm吏Ml亡_n|KM:?rab0Gruqp,ffiiK!irairaiHHHHMEffilDCIKIMISlIHlIMBTHIEnCIHHHHMnflOnCIKIHnrfYYYfYrfYYmrrsY畀YfrfyYr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论