逻辑回归分析_第1页
逻辑回归分析_第2页
逻辑回归分析_第3页
逻辑回归分析_第4页
逻辑回归分析_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3二项逻辑斯谛回归

返回背景现实世界,经常需要判断一些事情是否发生,候选人是否会当选,病患的几率,生意的成功与否一般回归分析要求直接预测被解释变量的数值,而此处的被解释变量是二分变量二项逻辑斯蒂回归模型针对具有两分特点的应变量的概率统计方法问题:利用多元回归方法分析变量之间关系或进行预测的前提是被解释变量连续定距当被解释变量为0/1二值品质型变量时:残差不再同方差,残差会随解释变量取值变化而变化残差不再正态,是二值离散分布被解释变量取值区间受限制结论当被解释变量为0/1,仍采用简单线性回归模型,则被解释变量的均值是取值为1的概率。以概率来建模概率的取值范围0-1,而一般线性回归模型取值全体实数,需要转换一般模型为线性,这里解释变量与概率值之间关系为非线性,与增长函数相吻合,采用非线性转换转换第一个模型是逻辑斯蒂回归模型

第三个为逻辑斯蒂函数,典型的增长函数,体现了概率和解释变量之间的非线性关系只包含一个自变量的模型Logistic回归曲线多自变量模型数据要求因变量具有二分特点,自变量可以是分类变量,也可以是定距型变量,如果是分类变量,应变为二分变量分类编码的变化方式两种自变量数据最好为多元正态分布,当观测量分组完全依据分组变量时,方法十分有效。【1】指示变量编码方式指示变量编码方式当分类变量有三个水平,就要创建两个新的指示变量。缺点:只能够比较每一类与参考类之间效应的差异【2】背离编码方案参照类被赋予了-1的编码值每一个创建的新变量,其系数代表了与综合效果之间的差异,最后一类的值应该是前两种系数之和的相反数。回归系数一个事件发生的比率,定义为它发生的可能性与不发生的可能性之比。(也称几率)不要和概率混淆逻辑斯蒂方程的回归系数可以解释为一个单位自变量的变化所引起的几率的对数的改变值。当某个自变量发生一个单位的变化时候,几率的变化值为指数倍,系数为正值,意味事件发生的几率会增加。评价模型建立模型后,需要判断模型拟合的优劣,对大样本数据,最好分成两部分,一部分用于建模,一部分用于检验。案例1某医院的脑外科医生收集了2003—2005年间在该科室进行过急救治疗的脑外伤病例共201希望能够分析导致急救后迟发性颅脑损伤的主要因素。Step1:逐个分析变量特征对于该变量进行取对数转换Step2二元逻辑回归:enter注意虚变量的定义方式注意拟合优度指标:伪拟合优度,0.5到0.8就已经相当不错了Step3:逐步回归法案例2研究胃癌病人术后的感染问题。因变量是术后是否感染自变量是年龄、手术创伤程度、营养状态、术前抗菌、白细胞数、肿瘤病理分级等用二元逻辑回归进行建模和分析案例3乳腺癌症患者的数据,变量包括年龄,患病时间,肿瘤扩散等级,肿瘤大小,肿瘤史和癌变部位淋巴是否含有癌细胞建立一个模型,预测癌变部位的淋巴结是否含有癌细胞(ln_yesno)。二项逻辑斯谛过程对话框

返回定义分类变量对话框

返回设置分类协变量中各类水平的对比方式,参考分类在对比矩阵中以一横排0出现。保存新变量对话框

返回每个观测量发生特定事件的预测概率;还有每个观测量的预测分组选择对话框

返回因变量的预测值和观测值分类直方图;拟合优度统计量;设置系统划分观测量类别的辨别值观测量简表

返回分类变量代码表

返回因变量分类表

返回起始模型统计量表

返回起始模型外的变量

返回起始模型卡方检验表

返回最终模型的拟合优度检验

返回依据预测概率的观测量分组表

返回估计概率的直方图,两组中的观测量越是分布在两端,说明分组效果好;可以适当修改辨别概率值,比如从0.5到0.3案例4银行贷款的用户信用记录数据Bankloan.sav利用二项逻辑回归来研究用户信用风险。目标目标一练习在数据库中随机抽样分析目标二利用随机抽样样本进行二项逻辑回归案例某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析变量介绍i:标本序号;x1:确诊时患者年龄(岁);x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级

x3:肾细胞癌组织内微血管数(MVC)

x4:肾癌细胞核组织学分级,由低到高4级

x5:肾细胞癌分期,由低到高共4期

Y:肾细胞癌转移情况(有转移y=1;无y=0)摘要Block0拟合的是只有常数的无效模型,上表为分类预测表,可见在17例观察值为0的记录中,共有17例被预测为0,9例1也都被预测为0,总预测准确率为65.4%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。此处为模型概况汇总,可见从STEP1到STEP2,DEVINCE从18降到11,两种决定系数也都有上升。此处为每一步的预测情况汇总,可见准确率由Block0的65%上升到了84%,最后达到96%,效果不错,最终只出现了一例错判。上表为方程中变量检验情况列表,分别给出了Step1和Step2的拟合情况。注意X4的P值略大于0.05,但仍然是可以接受的,因为这里用到的是排除标准(默认为0.1),该变量可以留在方程中。以Step2中的X2为例,可见其系数为2.413,OR值为11。模型的进一步优化和诊断前面我们将X1~X5直接引入了方程,但X2、X4、X5为多分类变量,我们并无证据认为它们之间各等级的OR值是成倍上升的,应当采用哑变量来分析,用Categorical钮但这里总例数只有26例,如果引入哑变量模型会使得每个等级的记录数非常少,从而分析结果将极为奇怪,无法正常解释但为了说明哑变量用法,下面演示之左侧为原变量名及取值,右侧为相应的哑变量名及编码情况:即取值最高的情况被作为了基线水平,这是多分类变量生成哑变量的默认情况。我们希望将最低水平作为基线上页表出现了非常有趣的现象:所有的检验P值均远远大于0.05,但是所有的变量均没有被移出方程,这是怎么回事?再看看这页表。为方程的似然值改变情况的检验,可见在最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论