多元统计分析逻辑回归_第1页
多元统计分析逻辑回归_第2页
多元统计分析逻辑回归_第3页
多元统计分析逻辑回归_第4页
多元统计分析逻辑回归_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概述现实生活中,有很多诸如需要确定客户买或不买某种商品、银行客户信用好或不好等情况这时,某个事件以多大概率出现和哪些影响量决定该概率的问题尤为重要如果用状态1(购买)和0(不买)的因变量(Y)表示事件,则事件发生的概率P有如下关系:P(y=0)+P(y=1)=1当前1页,总共41页。由于这类问题的因变量是类别变量,无法应用回归方程来解决逻辑回归是通过回归方程,确定概率的期望值一种通过分析影响因素,来得到某种结果的概率分为二项逻辑回归和多项逻辑回归当前2页,总共41页。当前3页,总共41页。当前4页,总共41页。建立逻辑回归方程例子:超市的销售主管想知道,顾客收入水平是否对购买新的高级黄油产品有影响。为此,他选择了12位顾客,调查他们的月净收入(x)及是否购买了该类黄油产品购买记为{y=1},未购买记为{y=0}调查结果如下:当前5页,总共41页。购买黄油=-0.749+0.000336×收入当前6页,总共41页。逻辑回归不是要估计二元变量的观察值,而是要明确这些观察值的出现概率通常把状态{y=1}看作“事件y发生”,而状态{y=0}为“事件不发生”假设存在一个非经验观察到的隐变量z,它能对应自变量的状态xj给出因变量y的二元水平当前7页,总共41页。y通过隐变量与xj建立联系:逻辑函数:(1)(2)(1)、(2)构成逻辑回归方程。z值称为Logit当前8页,总共41页。当前9页,总共41页。分析过程逻辑回归分析可分为五个步骤:(1)建模(2)估计逻辑回归函数(3)解释回归系数(4)检验模型整体(5)检验特征变量当前10页,总共41页。(1)建模逻辑回归分析的前提也是使用者首先根据实施逻辑思考确定,哪些事件应作为可能的因变量类型,哪些影响量决定事件类型的概率,从而提出关于自变量和因变量可能关系的假设自变量和事件{y=1}的出现概率间的连带关系假设当前11页,总共41页。二元逻辑回归:因变量是二元的,即只有0和1两个水平;因变量多于两类的,多元逻辑回归分析自变量也称为共变量,可以是基数测度和非基数测度,也可“混合”xj自变量线性组合z指数连接eZ逻辑连接P(y=1)联合影响量Logit可能性比P(y=1)/P(y=0)出现概率当前12页,总共41页。数据当前13页,总共41页。(2)估计逻辑回归函数通常用极大似然估计法估计模型的参数,目的是使观察到的调查数据的概率最大,来确定反映自变量权重的逻辑回归模型参数bj若对每个观察个体k考虑如下关系式:当前14页,总共41页。Newton-Raphson算法合成一个方程:似然函数:求解:判别准则:Pk>0.5,把个体分入{y=1};否则分入{y=0}当前15页,总共41页。确定zk值(Logit)的回归方程:zk×可涂抹性k+1.119×保质期k将原始数据代入回归方程Y=1Y=0当前16页,总共41页。(3)解释回归系数自变量xj与概率Pk(y=1)间不存在线性关系,导致回归系数间不能相互比较,无法直接解释回归系数当前17页,总共41页。常数项只影响逻辑函数的水平位置。为正时,逻辑函数左移;为负时,逻辑函数右移回归系数影响逻辑函数的走向。回归系数较大时,概率值很快接近逻辑函数的边缘负的回归系数使事件{y=1}的概率随x值增大而减小,而正回归系数则使事件{y=1}的概率随x值增大而增大当前18页,总共41页。逻辑回归的发生比:逻辑回归的Logit:z=Logit=ln(发生比)当前19页,总共41页。“可涂抹性”的回归系数为负,该变量降低了人造黄油的购买概率;“保质期”的回归系数为正,它对购买概率产生正向影响;若自变量增加1单位,则有利于事件{y=1}的可能性比(发生比)扩大ebj倍发生比说明了变量对出现概率的影响程度,发生比也称为效应系数当前20页,总共41页。正、负回归系数对事件{y=1}的出现概率的影响:当前21页,总共41页。(4)检验模型整体需要回答两个问题:参数估计在整体中能多有效地描述定义的回归模型?是否存在极端观察个体,应把它看作离群者剔除掉,还是由于其经常出现而改变模型?回归方程的评价指标:基于对数似然函数的评价;伪R2统计量;分类结果的评价;当前22页,总共41页。似然比值检验(LikelihoodRatioTest)该方法将考虑所有解释变量最大的LL值与所有自变量的回归系数都为0且仅考虑常数项时所得出的LL值比较若两偏差的绝对差较小,则自变量对区分y水平的贡献小;若偏差绝对差较大,则认为自变量的解释能力强;考虑所有解释变量时LL最大值给定数据组的零模型的LL最大值LLvLL0当前23页,总共41页。似然比值检验(LR检验)的假设:H0:所有回归系数都等于0H1:所有回归系数都不等于0零模型和完整模型的偏差作为检验统计量,它近似服从自由度为J(自变量个数)的卡方分布在本例中,LL0=30.498,LLv=15.818,卡方值为14.68;卡方表中值5.99(自由度2,α=0.05),故模型是显著的当前24页,总共41页。伪R2统计量伪R2统计量试图量化回归模型中已解释“变化”比例;通常McF-R2值达到0.2或0.4以上就已认为模型拟合度良好;LR检验回答了模型显著性以及结果能够运用到总体的问题,McF-R使自变量的判别能力总和可用数值表示,并可在不同模型间相互比较当前25页,总共41页。Cox&Snell-R2:L0:零模型的似然LV:完整模型的似然K:样本容量当前26页,总共41页。Nagelkerke-R2:该值大于0.5时认为模型解释能力非常好当前27页,总共41页。分类结果评价将由自变量水平0和1表示的实际观察组属性与由回归方程算出的概率相比较通常使用概率0.5作为分类的判别值把出现概率Pk(y=1)>0.5的个体分入人造黄油的购买者(M),其他分入未购买者(N)当前28页,总共41页。分类矩阵(Confusion-Matrix)判对比例(hitratio)=判对数目/总数=20/24=0.833当前29页,总共41页。如果样本容量允许,把随机样本分成两个子样本:一个分析样本和一个检验样本(Holdout-sample)。分析样本用于估计逻辑回归函数,然后根据此函数将检验样本中的元素分类,并计算判对比率;当前30页,总共41页。PressQ检验该检验统计量服从自由度为1的卡方分布取α=0.05,查得临界值为3.84,故该分类结果与随机分类结果有显著差别当前31页,总共41页。重要模型拟合度评价指标总结当前32页,总共41页。离群者诊断除了说明逻辑回归方程的整体拟合度外,单个观察个体对模型整体有效性有何作用也很重要逻辑估计的模型关系与调查数据拟合度不佳的基本原因有两个:模型不合适;存在许多个体(观察值),不具有模型所描述的关系,并由于其特殊的变量水平明显偏离结果;当前33页,总共41页。对于第二种情况,通过确定每个个体的单独残差可说明在观察中是否存在“离群者”,对个体k残差如下:通常认为残差绝对值大于0.5(两组情况下)为离群者,并导致分类错误为了更好地辨认出此类离群者,采用一种加权方法,标准化残差:当前34页,总共41页。当前35页,总共41页。对第三位受访者,他购买了人造黄油{y=1},根据他的评价(可涂抹性=6,保质期=5),用估计出来的逻辑方程计算出购买概率为0.073,其标准化残差值为3.589,明显将该受访者分类错误必须深入分析离群者的情况,以解释极端位置的原因,通常考虑如下原因:(1)受访者回答问题的方式反常,把该观察值去除;(2)大的残差值表明模型的解释能力差,模型中未考虑重要影响量,需扩展或修正模型当前36页,总共41页。(5)检验特征变量

似然比检验LR检验也可用于与简约模型的比较。分别令一个回归系数为0,构建不同的简约模型,再写出完整模型(LLV)和一个简约模型(LLR)的-2倍对数似然之差相应的零假设为:H0:回归系数bj的效应为0;H1:回归系数bj的效应不为0当前37页,总共41页。完整模型(LLV)和一个简约模型(LLR)的-2倍对数似然之差所形成的检验统计量服从卡方分布,自由度为两模型参数个数之差。若仅检验一个变量,则自由度等于1当前38页,总共41页。Wald统计量分母是bj的标准差W基本服从自由度为1的卡方分布回归系数标准误差Walddf显著水平可涂抹性保质期常数项-1.9431.1193.5280.7980.5862.3385.9243.6452.2761110.0150.0560.131当前39页,总共41页。多项逻辑回归

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论