版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 二分类Logistic回归模型 在对资料进行统计分析时常遇到反应变量为分类变量的资料,那么,能否用类似于线 性回归的模型来对这种资料进行分析呢?答案是肯定的。本章将向大家介绍对二分类因变量 进行回归建模的 Logistic回归模型。 第一节模型简介 一、模型入门 在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是 否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消 费者等。对于分类资料的分析,相信大家并不陌生,当要考察的影响因素较少,且也为分类 变量时,分析者常用列联表 (contingency Table)的形式对这种资料进行整理,并使
2、用2检验 来进行分析,汉存在分类的混杂因素时,还可应用Mantel-Haenszel 2检验进行统计学检验, 这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性,首先,它 虽然可以控制若干个因素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否 存在交互任用;其次,该方法对样本含量的要求较大,当控制的分层因素较多时,单元格被 划分的越来越细,列联表的格子中频数可能很小甚至为0,将导致检验结果的不可靠。最后, 2检验无法对连续性自变量的影响进行分析,而这将大大限制其应用范围,无疑是其致使 的缺陷。 那么,能否建立类似于线性回归的模型,对这种数据加以分析?以最简单的二分
3、类因 变量为例来加以探讨,为了讨论方便,常定义出现阳性结果时反应变量取值为1,反之则取 值为o。例如当领导层有女性职员、下雨、痊愈时反应变量y = 1,而没有女性职员、未下 雨、未痊愈时反应变量 y = 0。记出现阳性结果的频率为反应变量P( y = 1)。 首先,回顾一下标准的线性回归模型: 丫 也川mXm 如果对分类变量直接拟合,则实质上拟合的是发生概率,参照前面线性回归方程,很 自然地会想到是否可以建立下面形式的回归模型: P 心瘁| - -mXm 显然,该模型可以描述当各自变量变化时,因变量的发生概率会怎样变化,可以满足 分析的基本要求。实际上,统计学家们最早也在朝这一方向努力,并考虑
4、到最小二乘法拟合 时遇到的各种问题,对计算方法进行了改进,最终提出了加权最小二乘法来对该模型进行拟 合,至今这种分析思路还偶有应用。 既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原 因在于有以下两个问题是这种分析思路所无法解决的: (1)取值区间:上述模型右侧的取值范围,或者说应用上述模型进行预报的范围为整 个实数集(:,:),而模型的左边的取值范围为 0空P空1,二者并不相符。模型本身不能 保证在自变量的各种组合下,因变量的估计值仍限制在01内,因此可能分析者会得到这 种荒唐的结论:男性、30岁、病情较轻的患者被治愈的概率是 300%研究者当然可以将此 结果等价于
5、100%可以治愈,但是从数理统计的角度讲,这种模型显然是极不严谨的。 (2) 曲线关联:根据大量的观察,反应变量P与自变量的关系通常不是直线关系,而 是S型曲线关系。这里以收入水平和购车概率的关系来加以说明,当收入非常低时,收入 的增加对购买概率影响很小;但是在收入达到某一阈值时,购买概率会随着收入的增加而迅 速增加;在购买概率达到一定水平,绝大部分在该收入水平的人都会购车时,收入增加的影 响又会逐渐减弱。如果用图形来表示,则如图1所示。显然,线性关联是线性回归中至关重 要的一个前提假设,而在上述模型中这一假设是明显无法满足的。 图1 S型曲线图 以上问题促使统计学家们不得不寻求新的解决思路,
6、如同在曲线回归中,往往采用变 量变换,使得曲线直线化,然后再进行直线回归方程的拟合。那么,能否考虑对所预测的因 变量加以变换,以使得以上矛盾得以解决?基于这一思想,又有一大批统计学家在寻找合适 的变换函数。终于,在1970年,Cox引入了以前用于人口学领域的Logit变换(Logit Transformation),成功地解决了上述问题。 那么,什么是Logit变换呢?通常的把出现某种结果的概率与不出现的概率之比称为比 nn 值(odds,国内也译为优势、比数),即Odds,取其对数,=ln(Odds) = In 。 1 一兀1 - JT 这就是logit变换。下面来看一下该变换是如何解决上述
7、两个问题的,首先是因变量取值区 间的变化,概率是以 0.5为对称点,分布在 01的范围内的,而相应的logit(P)的大小为: 二=0 logit(二)二 In(0/1) = - - =0.5 log n ) l n ( 0.牛/ 0 : = 1 logit(二)=ln(1/ 0) I 显然,通过变换,Logit(二)的取值范围就被扩展为以 0为对称点的整个实数域,这使得 在任何自变量取值下,对 二值的预测均有实际意义。其次,大量实践证明,Logit(二)往往和 自变量呈线性关系,换言之,概率和自变量间关系的S形曲线往往就符合logit函数关系, 从而可以通过该变换将曲线直线化。因此,只需要以
8、Logit(二)为因变量,建立包含 p个自 变量的logistic回归模型如下: logit( P)二 J 也川pXp 以上即为logistic回归模型。由上式可推得: exp(y:必 HlpXp) 1 exp(y%XipXp) 1-P = 1 1 exp:01X1 |pXp 上面三个方程式相互等价。通过大量的分析实践,发现logistic回归模型可以很好地满 足对分类数据的建模需求,因此目前它已经成为了分类因变量的标准建模方法。 通过上面的讨论,可以很容易地理解二分类logistic回归模型对资料的要求是: (1)反应变量为二分类的分类变量或是某事件的发生率。 (2) 自变量与Logit(二
9、)之间为线性关系。 (3)残差合计为0,且服从二项分布。 (4)各观测值间相互独立。 由于因变量为二分类,所以logistic回归模型的误差应当服从二项分布,而不是正态分 布。因此,该模型实际上不应当使用以前的最小二乘法进行参数估计,上次均使用最大似然 法来解决方程的估计和检验问题。 二、一些基本概念 由于使用了 logit变换,Logistic模型中的参数含义略显复杂,但有很好的实用价值,为 此现对一些基本概念加以解释。 1. 优势比 如前所述,人们常把出现某种结果的概率与不出现的概率之比称为比值(odds),即 P odds =。两个比值之比称为优势比(odds Ratio,简称OR)。首
10、先考察 OR的特性: 1 -P PP 若 P1 P2,则 odds!12 odds2 1R 1 -F2 若 P1 : P2,则 odds How many loved your mome nts of glad grace, And loved your beauty with love false or true, But one man loved the pilgrim soul in you, And loved the sorrows of your cha nging face; And bending dow n beside the glow ing bars, Murmur,
11、 a little sadly, how love fled And paced upon the mountains overhead And hid his face amid a crowd of stars. The furthest dista nee in the world Is not betwee n life and death But whe n I sta nd in front of you Yet you dont know that I love you. The furthest dista nee in the world Is not whe n I sta
12、 nd in front of you Yet you cant see my love But whe n un doubtedly knowing the love from both Yet cannot be together. The furthest dista nee in the world Is not being apart while being in love But whe n I pla inly cannot resist the year ning Yet prete nding you have n ever bee n in my heart. The furthest dista nee in the world Is not struggli ng aga inst the tides But using on es in differe nt heart To dig an un erossable river For the one who loves you. 倚窗远眺,目光目光尽处必有一座山,那影影绰绰的黛绿色的影,是春天的 颜色。周遭流岚升腾,没露出那真实的面孔。面对那流转的薄雾,我会幻想,那 里有一个世外桃源。在天阶夜色凉如水的夏夜,我会静静地,静静地,等待一场 流星雨的来临 许下一个愿望,不乞求去实现,至少,曾经,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度民办学校教师职称评定与晋升合同3篇
- 2025版高端住宅门窗定制与施工一体化合同3篇
- 二零二五年度新能源出租车司机聘用合同样本
- 二零二五年度出租车公司司机外包管理合同法律意见
- 2025知识产权劳动合同补充协议范本:企业知识产权布局与战略规划3篇
- 二零二五年度土地承包经营权转让合同
- 2025年度智能化农业大棚建设与土地租赁合同
- 2025年度木托盘生产原料供应链金融合同4篇
- 二零二五年度牛羊肉产业链投资合作合同4篇
- 2025年度农业种植与农产品溯源技术服务合同4篇
- 2024年安全教育培训试题附完整答案(夺冠系列)
- 神农架研学课程设计
- 文化资本与民族认同建构-洞察分析
- 2025新译林版英语七年级下单词默写表
- 【超星学习通】马克思主义基本原理(南开大学)尔雅章节测试网课答案
- 《锡膏培训教材》课件
- 断绝父子关系协议书
- 福建省公路水运工程试验检测费用参考指标
- 2024年中国工业涂料行业发展现状、市场前景、投资方向分析报告(智研咨询发布)
- 自然科学基础(小学教育专业)全套教学课件
- 《工程勘察资质分级标准和工程设计资质分级标准》
评论
0/150
提交评论