




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第8章逻辑回归分析1.掌握二项逻辑回归分析的基本原理及步骤。2.掌握二项逻辑回归模型的SPSS实现与解读方法。3.掌握二项逻辑回归模型的评价方法。4.了解二项逻辑回归报告的撰写方法。学习目标引导案例
泰坦尼克号沉船事件中,伤亡修重的原因之一是没有配备足够的救生船供乘客和工作人员使用。而此次事件的结果显示,有一些人比其他人的生存机会更高,如妇女、儿童。本例使用泰坦尼克号乘客的数据文件“泰坦尼克号数据.sav",如图所示。下面尝试根据部分船上人员的数据构建模型,分析影响乘客生存的因素。本章将详细讲解如何利用逻辑回归来解决这个问题。数据变量解释变量解释是否幸存是否幸存,1代表幸存,0代表死亡年龄年龄船票费用船票费用船舱等级1代表头等舱,2代表二等舱,3代表三等舱性别1代表男性,2代表女性登船港口C=1(瑟堡港Cherbourg),Q=2(昆士敦Queenstown),S=3(南安普顿港Southampton)同船上兄妹及配偶数同在船上的兄妹及配偶的数量同船上父母或子女数同在船上的父母或子女的数量Part8.1逻辑回归分析概述1.逻辑回归分析与线性回归分析的关系
在逻辑回归模型中,因变量是定性变量。区别于线性回归,最主要的特点就一个:它的因变量是0-1型数据。0-1型数据就是这个数据只有两个可能的取值。因此逻辑回归也常常称为二项逻辑回归。在实际情况中,因变量是0-1型数据的情况十分普遍。从购物预测到用户营销响应,从流失分析到信用评价,都能看到其活跃的身影,可以说,逻辑回归占据了非常重要的地位。
2.逻辑回归分析模型逻辑回归分析模型在经过Logit变换之后,就可以利用线性回归模型建立因变量与自变量之间的分析模型,即经过变换,有Sigmoid函数(S型生长曲线)逻辑回归分析模型Sigmoid函数Sigmoid函数,表示概率P和自变量之间的非线性关系。通过这个函数,可以计算出因变量取1或者取0的概率。3.阈值逻辑回归预测处理的是Y=1的概率,但是我们需要预测因变量是1还是0,因此,我们需要一个阈值(又叫分类分界值)。当预测概率大于这个阈值时,将因变量预测为1,否则为0。阈值的选择方法有很多,在实际应用中,最常用的是以样本中1的比例为阈值。4.模型评价预测值
真实值Y=0(N)Y=1(P)总计Y=0(N)TNFPTN+FPY=1(P)FNTPFN+TP总计TP+FP+FN+TNTP:预测为1,预测正确,即实际1;FP:预测为1,预测错误,即实际0;FN:预测为0,预测错确,即实际1;TN:预测为0,预测正确即,实际0。混淆矩阵4.模型评价准确率TPR—在所有真实值为阳性的样本中,被正确地判断为阳性的样本所占的比例。FPR—在所有真实值为阴性的样本中,被正确地判断为阳性的样本所占的比例。Part8.2逻辑回归分析模型的实现与解读8.2.1变量准备1—缺失值处理2—新变量“家庭规模”生成堂兄妹个数和父母子女数合并为“家庭成员数”,再离散化为“家庭规模”0人为无家庭成员,赋值为01-3人为中型家庭,赋值为14人以上为大型家庭,赋值为2
“年龄”以平均年龄30岁进行填充“船舱号”由于缺失比例达77%,剔除“登陆港口”以频率最高的填充8.2.2逻辑回归模型的SPSS实现及解读选择【分析】→【回归(R)】→【二元Logistic】,进行二元逻辑回归分析。
8.2.2逻辑回归模型的SPSS实现及解读将“是否幸存”放入【因变量(D)】一栏中,将“船舱等级”、“性别”、“年龄”、“家庭规模”、“船票费用”、“登船港口”放入【协变量(C)】一栏中。
8.2.2逻辑回归模型的SPSS实现及解读点击最右侧【分类(G)】一栏,弹出对话框【Logistic回归:定义分类变量】,将【协变量(C)】一栏中的分类变量放入【分类协变量(T)】中
。8.2.2逻辑回归模型的SPSS实现及解读【参考类别(R)】选择【最后一个(L)】或【第一个(F)】均可,这里选择默认的【最后一个(L)】,点击【继续】
。8.2.2逻辑回归模型的SPSS实现及解读点击【保存(S)】,勾选【概率(P)】、【包括协方差矩阵(I)】,然后【继续(C)】
。8.2.2逻辑回归模型的SPSS实现及解读点击【选项O】,勾选【Exp(B)的置信区间】默认95%,【分类分界值(U)】此处改为样本幸存的比例0.384,然后【继续(C)】。8.2.2逻辑回归模型的SPSS实现及解读1.基本的汇总信息基本的汇总信息呈现在个案处理摘要表中,如表所示。在本案例数据集中,个案数891,无缺失个案。个案处理摘要未加权个案数a个案数百分比选定的个案包括在分析中的个案数891100.0缺失个案数0.0总计891100.0未选定的个案0.0总计891100.0a.如果权重为生效状态,请参阅分类表以了解个案总数。8.2.2逻辑回归模型的SPSS实现及解读对于分类变量的编码情况,如表所示。以船舱等级为例,船舱等级类别1、2分别被编码为船舱等级(1),船舱等级(2),当船舱等级(1)=0,且船舱等级(2)=0时,即为船舱等级3.分类变量编码
频率参数编码(1)(2)登船港口C1681.000.000Q77.0001.000S646.000.000船舱等级12161.000.0002184.0001.0003491.000.000家庭规模05371.000.0001292.0001.000262.000.000性别15771.000
2314.0008.2.2逻辑回归模型的SPSS实现及解读2.分类表-当不纳入任何自变量时,仅仅依靠常量对因变量分类的分类效果。分类表a,b实测预测Survived正确百分比死亡幸存步骤0Survived死亡5490100.0幸存3420.0总体百分比
61.6a.常量包括在模型中。b.分界值为.5008.2.2逻辑回归模型的SPSS实现及解读3.全部纳入自变量时,模型的预测效果分类表分类表a
实测
预测Survived正确百分比死亡幸存步骤1Survived死亡4539682.5幸存7626677.8总体百分比
80.7a.分界值为.500对于泰坦尼克号这个案例,模型整体预测正确率为80.7%,幸存的预测正确率TPR为77.8%,1-FPR即死亡的预测正确率为82.5%。8.2.2逻辑回归模型的SPSS实现及解读4.模型结果。方程中的变量
B标准误差瓦尔德自由度显著性Exp(B)EXP(B)的95%置信区间下限上限步骤1a船舱等级
48.2712.000
船舱等级(1)2.0220.30145.05410.0007.5564.18613.639船舱等级(2)1.0480.24218.78710.0002.8531.7764.584性别(1)-2.7120.204176.33110.0000.0660.0440.099年龄-0.0380.00821.68810.0000.9630.9480.978家庭规模
25.42620.000
家庭规模(1)2.1310.47120.48210.0008.4263.34821.208家庭规模(2)2.3320.46325.42010.00010.2994.16025.497船票费用0.0030.0021.09010.2961.0030.9981.007登船港口
2.52420.283
登船港口(1)0.3080.2451.58310.2081.3610.8422.201登船港口(2)0.3810.3371.27810.2581.4640.7562.835常量-0.7040.4582.36610.1240.495
a.在步骤1输入的变量:船舱等级,性别,年龄,家庭规模,船票费用,登船港口。8.2.2逻辑回归模型的SPSS实现及解读4.模型结果。在5%的显著性水平下显著的自变量的意义如下。1.定量自变量:以“年龄”为例,在控制其他因素不变的情况下,“年龄"的系数是负值,表明年龄越大,幸存的可能性越小。2.定性自变量:以“性别”为例,在控制其他因素不变的情况下,男性幸存的可能性低于女性。(这里结果中缺少了“性别(2)",即女性,那么它就是基准。)8.2.3ROC曲线的概念ROC曲线最先在二战中分析雷达信号,用来检测敌军。诱因是珍珠港事件;由于比较有用,慢慢用到了心理学、医学中的一些检测等应用,慢慢用到了机器学习、数据挖掘等领域中来了,用来评判分类、检测结果的好坏。ROC曲线是以TPR(即敏感度)为纵坐标,FPR(1-TNR)为横坐标绘制的曲线(TrueNegative,TNR,意为真阴性概率,又叫特异性)。曲线下面积越大,诊断准确性越高。图中实线为ROC曲线。8.2.3ROC曲线的绘制选择菜单栏【分析(A)】→【ROC曲线(V)】;弹出【ROC曲线】对话框,如图所示。将“预测概率[PRE_1]”放入【检验变量(T)】列表框内,“是否幸存”放入【状态变量(S)】列表框内,【状态变量值(V)】文本框中输入“1”,勾选【带对角参考线(W)】,最后单击【确定】按钮。8.2.3ROC曲线8.2.3AUC值AUC又称AreaunderCurve,表示ROC曲线下的面积,介于0和1之间。AUC表示的是该模型的预测能力。AUC值越大,说明该模型的预测精度越高。在本案例中,AUC值为0.864,预测能力比较高。Part8.3逻辑回归分析案例报告1.背景介绍
泰坦尼克号是一艘英国客轮,建于20世纪初,其长约为269米,总共有10个甲板。在当时,它是世界上最大、最豪华的船。船上配有室内游泳池、健身房、图书馆、升降机等。1912年4月10日,泰坦尼克号从英国南安普敦起航前往纽约,开始了这艘传奇巨轮的首航。起航后的第四晚,泰坦尼克号撞上了冰山,2小时40分钟后,即1912年4月15日凌晨2点20分左右,船裂成两半后沉入大西洋。泰坦尼克号海难是和平时期死伤最惨重的海难之一,同时也是最广为人知的海上事故之一。这一场发生在100多年前的人类浩劫引发了后人无数的猜测和讨论,到底是什么因素影响了船上乘客的生存?决定存亡的因素到底有哪些?2.数据说明变量类型变量名详细说明取值范围因变量是否幸存定性变量(2水平)
1代表幸存0代表死亡
自变量性别定性变量(2水平)1=男、2=女年龄定量变量单位:岁[0.42,80]船舱等级定性变量(3水平)1代表一等舱,2代表二等舱,3代表三等舱船票费用定量变量[0,512.3292]登船港口定性变量C=瑟堡港,Q=昆士敦,S=南安普顿家庭规模定性变量0代表无家庭成员,1代表成员为1~3人的中型家庭,2代表成员为4人及以上的大型家庭数据来源于kaggle平台3.描述分析年龄船票费用3.描述分析船舱等级性别
3.描述分析家庭规模登船港口模型结果解读变量回归系数显著性备注船舱等级<0.001船舱等级=一等舱2.022<0.001基准:三等舱
船舱等级=二等舱1.048<0.001性别=男性-2.712<0.001基准:女性
年龄-0.038<0.001船票费用0.0030.296家庭规模<0.001家庭规模=无家庭成员2.131<0.001基准:大型家庭
家庭规模=中型家庭2.332<0.001模型解读变量回归系数显著性备注登船港口登船港口=C0.3080.208基准:登船港口S
登船港口=Q0.3810.258模型预测与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高校声乐说课课件
- 辽宁省康平县第一中学2024-2025学年度下学期高一地理开学考试(解析)
- 2025年广东省初中学业水平考试模拟重组卷(广东地市模拟重组)(解析版)
- 书吧的创业计划书
- 2024年特许金融分析师全景调查试题及答案
- 政教处工作总结7
- 深入理解CFA试题及答案方法
- 预防近视宣传资料
- 2024年特许金融分析师考试教学方案题试题及答案
- 预测CFA考试题型的试题及答案
- 环境经济学课件:第十次课 环境污染与效率费效分析等
- 高处安全作业票填写模板(2022更新)
- 小学生幼儿园文明礼仪教育主题班会(可爱卡通版)
- 新道路货物运输企业质量信誉考核档案
- 国际收付清算体系与实务从原理看SWIFT
- 广东海事局辖区主要防台锚地或泊区情况表
- 风险与机遇识别评价表
- PPAP培训资料
- 盖梁支架施工方案(三立柱穿钢棒法)
- 简易注销全体投资人承诺书
- 甲烷氯化物的流程资料
评论
0/150
提交评论