




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
调查数据分析二元回归ppt课件本文档共58页;当前第1页;编辑于星期六\17点16分分类变量分析通常采用对数线性模型(Log-linearmodel),而因变量为二分变量时,对数线性模型就变成Logistic回归模型.logistic回归是一个概率型模型,因此可以利用它预测某事件发生的概率。例如在可以根据消费者的一些特征,判断购买某项产品概率有多大。本文档共58页;当前第2页;编辑于星期六\17点16分目的:作出以多个自变量估计因变量的logistic回归方程。属于概率型非线性回归。资料:1.因变量为反映某现象发生与不发生的二值变量;2.自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。用途:研究哪些变量影响因变量,影响程度方向、大小等。本文档共58页;当前第3页;编辑于星期六\17点16分4Logistic回归模型一.模型的引进二.Logistic回归模型估计三.Logistic回归模型的评价四.Logistic回归系数的统计推断五.Logistic回归诊断本文档共58页;当前第4页;编辑于星期六\17点16分回归建模——二元Logistic回归模型当虚拟变量作为因变量,虚拟变量有两个取值,可使用二元Logistic回归。
例:在一次有关公共交通的调查中,一个调查项目为“是乘坐公交车上下班,还是骑自行车上下班”。因变量有两个取值,当取值为1,乘坐公交车上下班;取值为0,骑自行车上下班。本文档共58页;当前第5页;编辑于星期六\17点16分回归建模——二元Logistic回归模型
本文档共58页;当前第6页;编辑于星期六\17点16分回归建模——二元Logistic回归模型自变量(解释变量):X1:年龄,取值从18到58;X2:月收入(元),取值850、950、1000、1200、1300、1500、1800、2100;X3:性别,取值为1,表示男性;取值为0,表示女性。
本文档共58页;当前第7页;编辑于星期六\17点16分8回归建模——二元Logistic回归模型研究目的:X1,X2,X3等因素对因变量(使用什么交通方式)有无影响?建立Y与X的多元线性回归模型?(取值0和1)本文档共58页;当前第8页;编辑于星期六\17点16分9回归建模——二元Logistic回归模型建立p(Y=1|X)与X的多元线性回归模型?(取值范围0~1)本文档共58页;当前第9页;编辑于星期六\17点16分线性回归模型的基本假定:(1)随机误差项具有0均值:(2)随机误差项具有同方差:(3)随机误差项在不同样本点之间是独立的,不存在序列相关:(4)随机误差项与解释变量(自变量)之间不相关:(5)随机误差项服从0均值、同方差的正态分布
本文档共58页;当前第10页;编辑于星期六\17点16分回归建模——二元Logistic回归模型1、发生概率p的大小取值范围[0,1],p与自变量的关系难以用多元线性模型来描述。2、当p接近0或者1时,p值的微小变化用普通的方法难以发现和处理好。总:能不能找到一个p的严格单调函数Q,就会比较方便;同时要求Q对在p=0或p=1的附近的微小变化很敏感。本文档共58页;当前第11页;编辑于星期六\17点16分回归建模——二元Logistic回归模型本文档共58页;当前第12页;编辑于星期六\17点16分13回归建模——二元Logistic回归模型Logit(P)P本文档共58页;当前第13页;编辑于星期六\17点16分14回归建模——二元Logistic回归模型建立logit(p)与X的多元线性回归模型:
(取值范围-∞~+∞)优势比(odds)机会比(odds)本文档共58页;当前第14页;编辑于星期六\17点16分15logistic回归模型Logistic回归模型:本文档共58页;当前第15页;编辑于星期六\17点16分16Logistic回归模型估计:极大似然估计Logistic回归模型估计的假设条件与OLS的不同(1)logistic回归的因变量是二分类变量(2)logistic回归的因变量与自变量之间的关系是非线性的(3)logistic回归中无相同分布的假设(4)logistic回归没有关于自变量“分布”的假设(离散,连续,虚拟)本文档共58页;当前第16页;编辑于星期六\17点16分Logistic回归模型估计:极大似然估计多元回归采用最小二乘估计,使因变量的真实值和预测值差异值的平方和最小化;Logistic变换的非线性特征使得在估计模型的时候采用极大似然估计的迭代方法,找到系数的“最可能”的估计,在计算整个模型拟合度时,采用似然值。本文档共58页;当前第17页;编辑于星期六\17点16分18Logistic回归模型估计:极大似然估计最小二乘估计(OLS):根据线性回归模型,选择参数估计值,使得模型的估计值与真值的离差平方和最小。极大似然估计(MLE
):选择使得似然函数最大的参数估计值。本文档共58页;当前第18页;编辑于星期六\17点16分19由于各项观测相互独立,其联合分布为:Logistic回归模型估计:极大似然估计本文档共58页;当前第19页;编辑于星期六\17点16分20求似然函数的极大值Logistic回归模型估计:极大似然估计本文档共58页;当前第20页;编辑于星期六\17点16分21分别对参数求偏导,然后令它等于0:求得的估计值,从而得到(pi的极大似然估计),这个值是在给定xi的条件下yi=1的条件概率的估计,它代表了Logistic回归模型的拟合值。Logistic回归模型估计:极大似然估计本文档共58页;当前第21页;编辑于星期六\17点16分22Logistic回归系数的解释因此每个代表当保持其他变量不变时,每单位量的增加对对数发生比的影响发生比率若发生比率>1,则说明该变量增大时,则Y=1事件发生的比例也就越高。本文档共58页;当前第22页;编辑于星期六\17点16分Logistic回归模型估计:极大似然估计本文档共58页;当前第23页;编辑于星期六\17点16分24Logistic回归模型的评价
1拟合优度检验(Goodnessoffit)1.1皮尔逊检验1.2Hosmer-Lemeshow检验
2Logistic回归模型的预测准确性Cox&SnellRSquare指标和NagelkerkeRSquare指标本文档共58页;当前第24页;编辑于星期六\17点16分拟合优度检验Logistic回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。如果预测的值与实际观测的值越接近,说明模型的拟合效果越好。模型的拟合优度检验方法有偏差检验(Deviance)、皮尔逊(pearson)检验、统计量(Homser-Lemeshow),分别计算统计量X2D、X2
P、X2HL值。统计量值越小,对应的概率越大。原假设H0:模型的拟合效果好。模型拟合优度信息指标有:-2lnL、AIC、SC。这3个指标越小表示模型拟合的越好。本文档共58页;当前第25页;编辑于星期六\17点16分类R2是预测准确性的粗略近似,在自变量与因变量完全无关时,类R2值趋近于0;当和模型能够完美预测时,类R2趋近于1.262.1Logistic回归模型的预测准确性本文档共58页;当前第26页;编辑于星期六\17点16分272Logistic回归模型的预测准确性Cox&SnellRSquare指标
其中与表示零假设模型与所设模型各自的似然值,n为样本容量。本文档共58页;当前第27页;编辑于星期六\17点16分282.1Logistic回归模型的预测准确性然而对于logistic回归,上面定义的R最大值却小于1Nagelkerke提出一种logistic回归的调整确定系数本文档共58页;当前第28页;编辑于星期六\17点16分本文档共58页;当前第29页;编辑于星期六\17点16分30Logistic回归模型的统计推断Logistic回归方程的检验(对模型回归系数整体检验):似然比检验(likehoodratiotest)、比分检验(scoretest)和Wald检验(waldtest)Logistic回归系数的显著性检验:Wald检验Logistic回归参数的的置信区间
Logistic回归系数的置信区间发生比率的置信区间本文档共58页;当前第30页;编辑于星期六\17点16分311Logistic回归方程的显著性检验检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。检验的方法有似然比检验(likehoodratiotest)、比分检验(scoretest)和Wald检验(waldtest)。三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。
本文档共58页;当前第31页;编辑于星期六\17点16分似然比检验(likehoodratiotest)通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G(又称Deviance)。
G=-2(lnLp-lnLk)
样本量较大时,G近似服从自由度为待检验因素个数的2分布。本文档共58页;当前第32页;编辑于星期六\17点16分似然比检验当G大于临界值时,接受H1,拒绝无效假设,认为从整体上看适合作Logistic回归分析,回归方程成立。本文档共58页;当前第33页;编辑于星期六\17点16分Logistic回归系数的显著性检验为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。检验方法常用WaldX2检验。本文档共58页;当前第34页;编辑于星期六\17点16分35Logistic回归系数的显著性检验Wald检验该检验是基于在大样本情况下β值服从正态分布的性质。其中为的标准误。原假设:
该自变量下的回归系数=0本文档共58页;当前第35页;编辑于星期六\17点16分36Logistic回归参数的的置信区间Logistic回归系数的置信区间为:发生比率的置信区间本文档共58页;当前第36页;编辑于星期六\17点16分37二分类Logistic回归method中文名称剔除依据Enter全部进入Forward:conditional向前逐步条件参数估计似然比Forward:LR向前逐步最大偏似然估计似然比Forward:Wald向前逐步Wald统计量Backward:conditional向后逐步条件参数估计似然比Backward:LR向后逐步最大偏似然估计似然比Backward:Wald向后逐步Wald统计量本文档共58页;当前第37页;编辑于星期六\17点16分本文档共58页;当前第38页;编辑于星期六\17点16分本文档共58页;当前第39页;编辑于星期六\17点16分本文档共58页;当前第40页;编辑于星期六\17点16分本文档共58页;当前第41页;编辑于星期六\17点16分回归建模——二元Logistic回归模型Logistic回归可直接预测事件发生的概率,若预测概率大于0.5,则预测发生(Y=1);若预测概率小于0.5,则不发生(Y=0)。本文档共58页;当前第42页;编辑于星期六\17点16分43Logistic回归模型的诊断多重共线性的诊断异常值的诊断本文档共58页;当前第43页;编辑于星期六\17点16分44多重共线性的诊断相关系数矩阵容忍度方差膨胀因子由于只关心自变量之间的关系,所以可以通过线性回归得到容忍度指标。本文档共58页;当前第44页;编辑于星期六\17点16分45异常值的诊断(一)标准化残差(Pearson残差)yj为第j个协变量组合的阳性(取值为1)观察值个数nj为第j个协变量组合的观察单位数Pj为第j个协变量组合的概率估计值一般认为残差值超过2则可能为异常点本文档共58页;当前第45页;编辑于星期六\17点16分46异常值的诊断(二)Deviance残差其中sgn表示此式的正负号与(yj-njpj)的相同一般认为残差值超过2则可能为异常点本文档共58页;当前第46页;编辑于星期六\17点16分47例题:高中毕业生继续进入大学学习的可能性的影响因素如果一个高中毕业生升入了大学,则y=1;如果没有升入大学,则y=0。P为高中毕业后升入大学的概率。自变量为性别Gender(1为男性,0为女性),高中类型Keysch(1为重点中学、0为普通中学),高中成绩Meangr。前两个为虚拟变量,Meangr为连续变量。Logistic回归模型为:本文档共58页;当前第47页;编辑于星期六\17点16分48数据本文档共58页;当前第48页;编辑于星期六\17点16分49最后的回归结果为:本文档共58页;当前第49页;编辑于星期六\17点16分分组数据的二元Logistic回归模型例:在一次住房展销会上,与房地产商签订初步购房意向书的共有n=313名顾客。在随后的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人工智能在销售管理领域的应用研究
- 酒店前厅主管竞聘述职报告
- 机械制造工艺与自动化生产流程手册
- 文化传媒企业新媒体营销与传播策略
- 大数据在公共管理领域的应用创新研究
- 质量评估报告-质量监控数据表
- 制造业在线采购与物流整合方案
- 电信行业云计算服务优化方案
- 直线运动的速度变化计算在初中物理中的应用实践
- 车间电气设备培训课件
- 三角形全等的判定(一)完整版
- 试验室仪器设备自校规程
- 餐饮服务与管理实务(高职)全套教学课件
- 初中音乐教学中的曲式结构与乐曲解析
- 公路施工部署与施工方案的制订-公路施工部署
- 安全标准化示范班组建设汇报
- 一例乳腺癌术后并发淋巴水肿患者的个案护理
- 退行性骨关节病影像诊断
- DJI Mavic 3 Pro - 快速入门指南 (DJI RC) v1.0
- 初中道德与法治中考复习策略与方法
- 护眼灯投标方案(技术标)
评论
0/150
提交评论