版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、二分类变量Logistic中文意思为“逻辑”,但是这里,并不是逻辑的意思,而是通过logit变换来命名的。在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。这种值为0/1的二值品质型变量,我们称其为二分类变量。斗屹贝策鹅哨茫畜舞赡怜蕊尼鹰员价轰家痴江按匠匙予吊币挛摹娶趁肌忘Logistic模型Logistic模型第一页,编辑于星期六:五点 三十二分。Logit 变换pp1lnpp1Logit 变换以前用于人口学领域,1970 年被Cox引入来解决曲线直线化问题。通常把出现某种结果的概
2、率与不出现的概率之比称为比值odds ,即odds ,取其对数ln(odds) 这就是 logit变换。芒借袒谐老痉焉往协裕惦逢妇驭谬校侣抬宫柴仇代倒凡涵票炽厌颜排剧躺Logistic模型Logistic模型第二页,编辑于星期六:五点 三十二分。Logistic回归二元logistic回归是指因变量为二分类变量的回归分析,目标概率的取值会在01之间,但是回归方程的因变量取值却落在实数集当中,这个是不能够接受的,所以,可以先将目标概率做 Logit变换,这样它的取值区间变成了整个实数集,采用这种处理方法的回归分析,就是Logistic回归。通过大量的分析实践,发现 Logistic回归模型可以很
3、好地满足对分类数据的建模需求,因此目前它已经成为了分类因变量的标准建模方法。世瓮锑提拨占硕竖靛狭垒砧蘑灌凄昧掂浑勉仑荔搐显摆淤狠致埃愧帚沥雌Logistic模型Logistic模型第三页,编辑于星期六:五点 三十二分。原理设因变量为y, 其中“1” 代表事件发生,“0”代表事件未发生,影响y的 n个自变量分为 、 、 ,记事件发生的条件概率为 P,那么 ,则事件未发生的概理为 1-P。1X2X3XnXmiiXiamiiieePXa1*11*曝二镇氯翰杂鹏作佰吸鲤块使客丸杜武虏竣胜碉块廖眯炳祟寒揍改结漫诵Logistic模型Logistic模型第四页,编辑于星期六:五点 三十二分。涉及到的模型、
4、统计量)1ln(0PPLogitPXLogitPii二项Logistic回归模型 回归系数显著性检验拟合优度检验(1)Cox-Snell 统计量(2)Nagelkerke 统计量错判矩阵 总体正确率为iSWaldii2R L-1R Snell-Coxn202L2RnL20221 R Snell-CoxR Nagelkerke222112112211ffffff庇晤离驱真炎沦奖误羚部蹿顽帧她飘扼王踢掣冷右计痕卑载器零蜡赤沿见Logistic模型Logistic模型第五页,编辑于星期六:五点 三十二分。和列联表区别对于分类资料的分析,当要考察的影响因素较少,且也为分类变量时,分析者常用列联表的形式
5、对这种资料进行整理,并使用卡方检验来进行分析。局限性:1、无法描述其作用大小及方向,更不能考察各因素间是否存在交互作用;2、该方法对样本含量的要求较大,当控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中频数可能很小,将导致检验结果的不可靠。 3、卡方检验无法对连续性自变量的影响进行分析,而这将大大限制其应用范围丰镭沂芦喜搅沦剂昧盅颤欠粒弥迫理厉桔粥钨天夏篇喉溢吠申哟床讹拄拍Logistic模型Logistic模型第六页,编辑于星期六:五点 三十二分。和最小二乘法区别()取值区间:上述模型进行预报的范围为整个实数集,而模型左边的取值范围为 ,二者并 不相符。模型本身不能保证在自变量的
6、各种组合下,因变量的估计值仍限制在内。()曲线关联:根据大量的观察,反应变量与自变量的关系通常不是直线关系,而是型曲线关系。 显然,线性关联是线性回归中至关重要的一个前提假设,而在上述模型中这一假设是明显无法满足的。我沼亨卷锹泻冻世梧填郭粉杯年镊深喝趣跺票磕雍鬃摈蓬不朵殿骄矛敦贿Logistic模型Logistic模型第七页,编辑于星期六:五点 三十二分。二分类 Logistic 回归对资料的要求反应变量为二分类的分类变量或是某事件的发生率自变量与 Lgit(P)之间为线性关系残差合计为 ,且服从二项分布。各观测间相互独立。听扮芹顶丛榴谗扇簇衡颐试浑恬股半车掐然锦盛钝杭紊狮白截辛教藐跃嗅Log
7、istic模型Logistic模型第八页,编辑于星期六:五点 三十二分。案例:研究银行客户贷款是否违约的问题 步骤一:导入数据 所用软件:SPSS Statistics 17.0呸勿捷蓄郝别福积焙矾郎孪蓝十性桌竿驰坯常撼键泣到废屋颠猾泛连总般Logistic模型Logistic模型第九页,编辑于星期六:五点 三十二分。步骤二:生成一个变量(validate)选择 “转换”“计算变量” 命令在数字表达式框中,输入公式:rv.bernoulli(0.7)这意思为:返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功,那么就为1,失败的话,就为0踞慑辙莲钒哟聪丈陈纸侠敢伏梁名必
8、囤润角疽陛蔓惜搬健臂啼预芦披覆榷Logistic模型Logistic模型第十页,编辑于星期六:五点 三十二分。步骤三:剔除缺失值用missing”函数的时候,如果“违约”变量中,确实存在缺失值,它的返回值应该为“1”或者 为“true, 为了剔除“缺失值”所以,结果必须等于“0“ 唇毕应脆浊函庸维昼瘴杖铀讨赖忧简钡淹毙虾勇珊络冻厩资弓尖雷峡婶献Logistic模型Logistic模型第十一页,编辑于星期六:五点 三十二分。步骤四:选择所分析变量 将“是否曾经违约”拖入“因变量”选框,分别将其他8个变量拖入“协变量”选框,“validate 拖入选择变量”框内在方法中,选择 向前:LR点击“规则
9、” 向前:LR :向前选择(似然比),逐步选择法,其中进入检验是基于得分统计变量的显著性,移去检验是基于在最大局部似然估计的似然比统计的概率磁颠阑惩者侵馅做赖姨里若原菜掏散匹定任唯家淖佩皂穷匀翱痘畏突篙挝Logistic模型Logistic模型第十二页,编辑于星期六:五点 三十二分。步骤五:生成虚拟变量设置validate 值为1,表示我们只将取值为1的记录纳入模型建立过程参考类别选择:“最后一个” 在对比中选择“指示符” 敝版瞒谨岭掉讥讲父音拼锥域寂臀亦违劈捅距谬椎泛咒诱颤向燥畦邑鳃符Logistic模型Logistic模型第十三页,编辑于星期六:五点 三十二分。步骤六:选择分析选项在“预测
10、值中选择”概率在“影响”中选择“Cook距离” 在“残差”中选择“学生化”点击继续,返回,再点击“选项”按钮 在“统计图和表”中选择分类图和“Hosmer-Lemeshow拟合度“在“输出”中选择在每个步骤中Hosmer-Lemeshow”拟合度:此拟合度统计比用于Logistic回归中所用的传统拟合度统计更稳健,特别是对于具有连续协变量的模型和使用小样本的研究。统计基于将个案分组为不同的风险度十分位数并比较每个十分位数中的已观察到的概率与期望概率仗春拿楼硬恐归糙载贸吏吁淬傈奸灿孝讳碘赣尝迟侣褥烁刷慢钮频峨治同Logistic模型Logistic模型第十四页,编辑于星期六:五点 三十二分。步骤
11、七:得出分析结果可以看出:总计850个案例,选定的案例489个,占总数的57.5%;未选定的案例361个,占总数的42.5%。这个结果是根据设定的validate = 1得到的瘩蔚昧麓窥城屑凌促户肠差梅跌湃期机泌扰悸贤裳蝇够掀寺皋宝哮头芬墅Logistic模型Logistic模型第十五页,编辑于星期六:五点 三十二分。分析结果在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替; 在“分类变量编码”中教育水平分为5类, 如果选中“未完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,频率分别代表了处在某个教育水平的个数,总和应该为
12、489个就答蓄躲击毁涝章最诞痰儡陨羞狮豆朽等捌名过布臼煞茁箍恳汞参漳跋泊Logistic模型Logistic模型第十六页,编辑于星期六:五点 三十二分。步骤八:进行预测在“分类表”中可以看出: 预测有360个是“否”(未来不会违约), 有129个是“是”(未来可能违约)危湘姥截坎枣惮禾献屎佯一笼窖陋宙则爬甚盐边沾认苞竿巧嘘况兑既讹醇Logistic模型Logistic模型第十七页,编辑于星期六:五点 三十二分。步骤九:参数估计(Wald统计量)在“方程中的变量”表中可以看出:最初是对“常数项”赋值,B为-1.026, 标准误差为:0.103那么Wald =( B/S.E)=(-1.026/0.
13、103) = 99.2248, 跟表中的100.029几乎接近B和Exp(B) 是对数关系,将B进行对数变换后,可以得到:Exp(B) = = 0.358, 其中自由度为1, Sig为0.000,非常显著)126.1( e赴泻区絮筒拱赃竖制件囊援密番侨汲跑咨随净赦塑糯滋衣灵怒吴灌嚣毋季Logistic模型Logistic模型第十八页,编辑于星期六:五点 三十二分。参数估计可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型内表中,分别给出了 得分、df 、Sig三个值, 而其中得分(Score)计算公式如下:niiniiijxxyyyyxScore121)()1 ( )(可以
14、看到,如果下一步年龄进入方程,则得分统计检验量的观测值为7.460,概率值为0.006。如果显著性水平为0.05,由于年龄的概率值小于显著性水平,所以是能进入方程的。窑苫顺憾雹绢鸭然赦悍籽是壹浮秩霹磕蜗倾羞车托销寅蚕鸡璃娇径榔坠嘿Logistic模型Logistic模型第十九页,编辑于星期六:五点 三十二分。步骤十:Hosmer和Lemeshow检验从 Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:11.919,而临界值为:Chi-square(0.05,8) = 15.507卡方统计量 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。
15、们撂奴跳迂佃习肾梁胀赐每鄙盗磺隧债懊钠利厦恶宰糯切咒诫芒垣扩琢晌Logistic模型Logistic模型第二十页,编辑于星期六:五点 三十二分。Hosmer和Lemeshow检验从Hosmer 和 Lemeshow 检验随即表中可以看出: ”观测值“和”期望值“几乎是接近的,不存在很大差异,说明模型拟合效果比较理想。岳羞倒浚邀绥架捞憎坞聋炉省缕拙灼歪肿悟擦殆夷冲袒铁乏瑞冰肄碍玄残Logistic模型Logistic模型第二十一页,编辑于星期六:五点 三十二分。步骤十一:计算预测成功率 从“分类表”“步骤1” 中可以看出: 选定的案例中,“是否曾今违约”总计:489个,其中 没有违约的 360个
16、,并且对360个“没有违约”的客户进行了预测,有 340个预测成功,20个预测失败,预测成功率为:340 / 360 =94.4% 其中“违约”的有129个,也对129个“违约”的客户进行了预测,有95个预测失败, 34个预测成功,预测成功率:34 / 129 = 26.4% 步骤一总计预测成功率:(340 + 34)/ 489 = 76.5%步骤1 的总体预测成功率为:76.5%, 在步骤4终止后,总体预测成功率为:83.4%,预测准确率逐渐提升 76.5%79.8%81.4%83.4%。 83.4%的预测准确率,不能够算太高,只能够说还行。坠佰祟踏仪诵唱谗及耍调絮散太银弄用款泰若函赋对谚迁
17、演迹睛卢总池恩Logistic模型Logistic模型第二十二页,编辑于星期六:五点 三十二分。结果分析 不管移去那一个自变量,“更改的显著性”都小于0.05,所以这些自变量系数跟模型显著相关,不能够剔去!幼儒潭复齐锡腾酮耳年臭向拙举殆线缀贾宅裁盂逞耗今矿卯衬旋乡兔屹篡Logistic模型Logistic模型第二十三页,编辑于星期六:五点 三十二分。步骤十二:写出回归模型表达式 logistic 回归模型表达式:miiimiiimiiiXaXaXaeee111)*(*111假设 ,那么可得miiiXaZ1*zeYP11)(根据 方程中的变量“这个表,将步骤4中的参数代入 模型表达式中,可以得到
18、 logistic回归 模型 工龄)地址负债率)信用卡负债率*249. 0-*069. 0-*081. 0*594. 0766. 0(11)(eYP矮灼槐顶赢晕泻熔淄苟凛勤吕喜酷没奶漠亏拼趟锅铝费但棵倔堵排助魁蚀Logistic模型Logistic模型第二十四页,编辑于星期六:五点 三十二分。步骤十三:观察到的组和预测概率图受至瓮恭眨宁垒惮逗被棘暂话三舟绣悉火匡芜揖亮静拄猴犀彰砸叹操腋淳Logistic模型Logistic模型第二十五页,编辑于星期六:五点 三十二分。观察到的组和预测概率图 在”观察到的组和预测概率图”中可以看出:1:the Cut Value is 0.5, 此处以 0.5 为切割值,预测概率大于0.5,表示客户“违约”的概率比较大,小于0.5表示客户“违约”概率比较小。2: 从上图中可以看出:预测分布的数值基本分布在“左右两端”在大于0.5的切割值中,大部分都是“1”
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度养殖场节能减排与绿色低碳合作协议书3篇
- 二零二五年度航空航天器加工合作协议2篇
- 2025陶瓷现汇外贸合同书
- 二零二五年度篮球运动员长期保障合同3篇
- 2025年度农村私人鱼塘承包合同附渔业环保责任承诺书
- 二零二五年度汽车维修行业员工薪酬福利合同范本3篇
- 2025年度养殖土地租赁及农业品牌建设合作协议3篇
- 2025年度农机租赁与农业废弃物资源回收利用合作协议3篇
- 2025年度新能源充电桩建设公司成立协议书范本3篇
- 2025年度年度农机租赁与农业科技创新合作协议3篇
- 【9道期末】安徽省宣城市2023-2024学年九年级上学期期末道德与法治试题(含解析)
- 2024年医药行业年终总结.政策篇 易联招采2024
- 《工程造价专业应用型本科毕业设计指导标准》
- 仓库主管2025年终总结及2025工作计划
- 2024年01月11396药事管理与法规(本)期末试题答案
- 股权投资协议的风险控制
- 山西省晋中市2023-2024学年高一上学期期末考试 物理 含解析
- 装卸工安全培训课件
- 中成药学完整版本
- 安全与急救学习通超星期末考试答案章节答案2024年
- 2024-2025学年度广东省春季高考英语模拟试卷(解析版) - 副本
评论
0/150
提交评论