版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
概述现实生活中,有很多诸如需要确定客户买或不买某种商品、银行客户信用好或不好等情况这时,某个事件以多大概率出现和哪些影响量决定该概率的问题尤为重要如果用状态1(购买)和0(不买)的因变量(Y)表示事件,则事件发生的概率P有如下关系:P(y=0)+P(y=1)=1本文档共41页;当前第1页;编辑于星期三\3点23分由于这类问题的因变量是类别变量,无法应用回归方程来解决逻辑回归是通过回归方程,确定概率的期望值一种通过分析影响因素,来得到某种结果的概率分为二项逻辑回归和多项逻辑回归本文档共41页;当前第2页;编辑于星期三\3点23分本文档共41页;当前第3页;编辑于星期三\3点23分本文档共41页;当前第4页;编辑于星期三\3点23分建立逻辑回归方程例子:超市的销售主管想知道,顾客收入水平是否对购买新的高级黄油产品有影响。为此,他选择了12位顾客,调查他们的月净收入(x)及是否购买了该类黄油产品购买记为{y=1},未购买记为{y=0}调查结果如下:本文档共41页;当前第5页;编辑于星期三\3点23分购买黄油=-0.749+0.000336×收入本文档共41页;当前第6页;编辑于星期三\3点23分逻辑回归不是要估计二元变量的观察值,而是要明确这些观察值的出现概率通常把状态{y=1}看作“事件y发生”,而状态{y=0}为“事件不发生”假设存在一个非经验观察到的隐变量z,它能对应自变量的状态xj给出因变量y的二元水平本文档共41页;当前第7页;编辑于星期三\3点23分y通过隐变量与xj建立联系:逻辑函数:(1)(2)(1)、(2)构成逻辑回归方程。z值称为Logit本文档共41页;当前第8页;编辑于星期三\3点23分本文档共41页;当前第9页;编辑于星期三\3点23分分析过程逻辑回归分析可分为五个步骤:(1)建模(2)估计逻辑回归函数(3)解释回归系数(4)检验模型整体(5)检验特征变量本文档共41页;当前第10页;编辑于星期三\3点23分(1)建模逻辑回归分析的前提也是使用者首先根据实施逻辑思考确定,哪些事件应作为可能的因变量类型,哪些影响量决定事件类型的概率,从而提出关于自变量和因变量可能关系的假设自变量和事件{y=1}的出现概率间的连带关系假设本文档共41页;当前第11页;编辑于星期三\3点23分二元逻辑回归:因变量是二元的,即只有0和1两个水平;因变量多于两类的,多元逻辑回归分析自变量也称为共变量,可以是基数测度和非基数测度,也可“混合”xj自变量线性组合z指数连接eZ逻辑连接P(y=1)联合影响量Logit可能性比P(y=1)/P(y=0)出现概率本文档共41页;当前第12页;编辑于星期三\3点23分数据本文档共41页;当前第13页;编辑于星期三\3点23分(2)估计逻辑回归函数通常用极大似然估计法估计模型的参数,目的是使观察到的调查数据的概率最大,来确定反映自变量权重的逻辑回归模型参数bj若对每个观察个体k考虑如下关系式:本文档共41页;当前第14页;编辑于星期三\3点23分Newton-Raphson算法合成一个方程:似然函数:求解:判别准则:Pk>0.5,把个体分入{y=1};否则分入{y=0}本文档共41页;当前第15页;编辑于星期三\3点23分确定zk值(Logit)的回归方程:zk×可涂抹性k+1.119×保质期k将原始数据代入回归方程Y=1Y=0本文档共41页;当前第16页;编辑于星期三\3点23分(3)解释回归系数自变量xj与概率Pk(y=1)间不存在线性关系,导致回归系数间不能相互比较,无法直接解释回归系数本文档共41页;当前第17页;编辑于星期三\3点23分常数项只影响逻辑函数的水平位置。为正时,逻辑函数左移;为负时,逻辑函数右移回归系数影响逻辑函数的走向。回归系数较大时,概率值很快接近逻辑函数的边缘负的回归系数使事件{y=1}的概率随x值增大而减小,而正回归系数则使事件{y=1}的概率随x值增大而增大本文档共41页;当前第18页;编辑于星期三\3点23分逻辑回归的发生比:逻辑回归的Logit:z=Logit=ln(发生比)本文档共41页;当前第19页;编辑于星期三\3点23分“可涂抹性”的回归系数为负,该变量降低了人造黄油的购买概率;“保质期”的回归系数为正,它对购买概率产生正向影响;若自变量增加1单位,则有利于事件{y=1}的可能性比(发生比)扩大ebj倍发生比说明了变量对出现概率的影响程度,发生比也称为效应系数本文档共41页;当前第20页;编辑于星期三\3点23分正、负回归系数对事件{y=1}的出现概率的影响:本文档共41页;当前第21页;编辑于星期三\3点23分(4)检验模型整体需要回答两个问题:参数估计在整体中能多有效地描述定义的回归模型?是否存在极端观察个体,应把它看作离群者剔除掉,还是由于其经常出现而改变模型?回归方程的评价指标:基于对数似然函数的评价;伪R2统计量;分类结果的评价;本文档共41页;当前第22页;编辑于星期三\3点23分似然比值检验(LikelihoodRatioTest)该方法将考虑所有解释变量最大的LL值与所有自变量的回归系数都为0且仅考虑常数项时所得出的LL值比较若两偏差的绝对差较小,则自变量对区分y水平的贡献小;若偏差绝对差较大,则认为自变量的解释能力强;考虑所有解释变量时LL最大值给定数据组的零模型的LL最大值LLvLL0本文档共41页;当前第23页;编辑于星期三\3点23分似然比值检验(LR检验)的假设:H0:所有回归系数都等于0H1:所有回归系数都不等于0零模型和完整模型的偏差作为检验统计量,它近似服从自由度为J(自变量个数)的卡方分布在本例中,LL0=30.498,LLv=15.818,卡方值为14.68;卡方表中值5.99(自由度2,α=0.05),故模型是显著的本文档共41页;当前第24页;编辑于星期三\3点23分伪R2统计量伪R2统计量试图量化回归模型中已解释“变化”比例;通常McF-R2值达到0.2或0.4以上就已认为模型拟合度良好;LR检验回答了模型显著性以及结果能够运用到总体的问题,McF-R使自变量的判别能力总和可用数值表示,并可在不同模型间相互比较本文档共41页;当前第25页;编辑于星期三\3点23分Cox&Snell-R2:L0:零模型的似然LV:完整模型的似然K:样本容量本文档共41页;当前第26页;编辑于星期三\3点23分Nagelkerke-R2:该值大于0.5时认为模型解释能力非常好本文档共41页;当前第27页;编辑于星期三\3点23分分类结果评价将由自变量水平0和1表示的实际观察组属性与由回归方程算出的概率相比较通常使用概率0.5作为分类的判别值把出现概率Pk(y=1)>0.5的个体分入人造黄油的购买者(M),其他分入未购买者(N)本文档共41页;当前第28页;编辑于星期三\3点23分分类矩阵(Confusion-Matrix)判对比例(hitratio)=判对数目/总数=20/24=0.833本文档共41页;当前第29页;编辑于星期三\3点23分如果样本容量允许,把随机样本分成两个子样本:一个分析样本和一个检验样本(Holdout-sample)。分析样本用于估计逻辑回归函数,然后根据此函数将检验样本中的元素分类,并计算判对比率;本文档共41页;当前第30页;编辑于星期三\3点23分PressQ检验该检验统计量服从自由度为1的卡方分布取α=0.05,查得临界值为3.84,故该分类结果与随机分类结果有显著差别本文档共41页;当前第31页;编辑于星期三\3点23分重要模型拟合度评价指标总结本文档共41页;当前第32页;编辑于星期三\3点23分离群者诊断除了说明逻辑回归方程的整体拟合度外,单个观察个体对模型整体有效性有何作用也很重要逻辑估计的模型关系与调查数据拟合度不佳的基本原因有两个:模型不合适;存在许多个体(观察值),不具有模型所描述的关系,并由于其特殊的变量水平明显偏离结果;本文档共41页;当前第33页;编辑于星期三\3点23分对于第二种情况,通过确定每个个体的单独残差可说明在观察中是否存在“离群者”,对个体k残差如下:通常认为残差绝对值大于0.5(两组情况下)为离群者,并导致分类错误为了更好地辨认出此类离群者,采用一种加权方法,标准化残差:本文档共41页;当前第34页;编辑于星期三\3点23分本文档共41页;当前第35页;编辑于星期三\3点23分对第三位受访者,他购买了人造黄油{y=1},根据他的评价(可涂抹性=6,保质期=5),用估计出来的逻辑方程计算出购买概率为0.073,其标准化残差值为3.589,明显将该受访者分类错误必须深入分析离群者的情况,以解释极端位置的原因,通常考虑如下原因:(1)受访者回答问题的方式反常,把该观察值去除;(2)大的残差值表明模型的解释能力差,模型中未考虑重要影响量,需扩展或修正模型本文档共41页;当前第36页;编辑于星期三\3点23分(5)检验特征变量
似然比检验LR检验也可用于与简约模型的比较。分别令一个回归系数为0,构建不同的简约模型,再写出完整模型(LLV)和一个简约模型(LLR)的-2倍对数似然之差相应的零假设为:H0:回归系数bj的效应为0;H1:回归系数bj的效应不为0本文档共41页;当前第37页;编辑于星期三\3点23分完整模型(LLV)和一个简约模型(LLR)的-2倍对数似然之差所形成的检验统计量服从卡方分布,自由度为两模型参数个数之差。若仅检验一个变量,则自由度等于1本文档共41页;当前第38页;编辑于星期三\3点23分Wald统计量分母是bj的标准差W基本服从自由度为1的卡方分布回归系数标准误差Walddf显著水平可涂抹性保质期常数项-1.9431.1193.5280.7980.5862.3385.9243.6452.2761110.0150.0560.131本文档共41页;当前第39页;编辑于星期三\3点23分多项逻辑回归
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024旅行社国际游学项目合同范本助力青少年成长3篇
- 2024年高新技术园区员工创新创业出差支持合同3篇
- 2024木材原材料研发与应用合作合同3篇
- 2024年网络安全与保护合同
- 2024年金融服务销售合同台账编制指南3篇
- 2024年版股权转让及回购合同
- 2024正规区域环保设备代理合同范本(含技术支持)2篇
- 二零二五年度全新公积金个人住房贷款合同编号规范3篇
- 二零二五年度个人贷款合同逾期罚息及催收3篇
- 2024年货车租赁及运输服务综合合同
- 教育推广之路
- 《屈原列传》同步练习(含答案) 高中语文统编版选择性必修中册
- 患者入院评估课件
- 如何平衡工作和生活的时间安排
- 蜜雪冰城新媒体营销策略分析
- 爱国主题教育班会《我爱我的祖国》
- 四年级上册数学乘法竖式
- 《南来北往》爱奇艺大剧招商方案
- 【潮汕英歌舞的艺术特点与传承发展探究9800字】
- 药品集中采购教育培训
- 2023年有色金属分选机行业研究报告
评论
0/150
提交评论