SPSS16实用教程逻辑回归总体分析_第1页
SPSS16实用教程逻辑回归总体分析_第2页
SPSS16实用教程逻辑回归总体分析_第3页
SPSS16实用教程逻辑回归总体分析_第4页
SPSS16实用教程逻辑回归总体分析_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS 16实用教程逻辑回归总体分析SPSS16实用教程逻辑回归总体分析在前面学到的回归模型中,我们处理的因变量都是数值型区间变量,建立的模型描述的是因变量的期望与自变量之间的线性关系。线性回归模型:然而,在许多实际问题中,我们需要研究的响应变量不是区间变量而是顺序变量或名义变量这样的属性变量。7.8 逻辑回归分析7.8.1 统计学上的定义和计算公式比如在致癌因素的研究中,我们收集了若干人的健康记录,包括年龄、性别、抽烟史、日常饮食以及家庭病史等变量的数据。响应变量在这里是一个两点(0-1)分布变量,Y=1(一个人得了癌症),Y=0(没得癌症)。如果我们按照(1)建立一般线性模型:因为Y只能

2、取0或1,而 的取值是连续的。显然不能用 来预测因变量 Y 。我们注意到,对于0-1型变量, E(Y)=P(Y=1)=p因而,我们似乎可以用 来预测Y=1的概率,即:问题1. Y=1的概率与自变量之间的关系到底是不是线性的?(答案是否定的)例如:我们分析一个人是否买车与其年收入的关系。对于年薪5000元、5万元、50万元三个人,让他们的年薪分别增加5000元对于其买车的可能性影响是不一样的。概率与自变量之间的关系图形往往是一个S型曲线概率与自变量之间的关系曲线问题2. 概率的取值应该在01之间。但是(2)式的概率线性模型并不能满足这一点。我们可以通过对P进行一种变换(logit变换) logi

3、t(p)= ln(p/(1-p)使得logit(p)与自变量之间存在线性相关的关系。模型的建立与解释同时,经过变换得到的模型也解决了(2)中,概率的预测值可能是0,1之外的数的缺陷。(3)式建立的模型,我们称为logistic模型(逻辑回归模型)。我们在学习交叉列联表的相关知识的时候,提到过优势或发生比(odds )和优势比或发生比率(odds ratio)的概念 是事件发生于不发生的概率之比 那么逻辑模型就可以写成 那么Xi增加一个单位ln(odds|xi+1)=ln(odds|xi)+i于是上式我们叫做优势比(odds ratio)近似可看成是在Xi+1与Xi两种情况下,事件发生的概率之比

4、。则,PY=1|Xi+1PY=1|Xiexpi最终,我们可能关心的是根据自变量的值来对Y的取值0或1进行预测。而我们的逻辑回归模型得到的只是关于PY=1|x的预测。但是,我们可以根据模型给出的Y=1的概率(可能性)的大小来判断预测Y的取值。一般,以为界限,预测p大于时,我们判断此时Y更可能为1,否则认为Y=0。对于逻辑模型模型系数的估计不能适用最小二乘估计(OLS)。这里,我可以运用最大似然估计(MLE)的方法。OLS通过使得样本观测数据的残差平方和最小来选择参数,而MLE通过最大化对数似然值来估计参数。模型系数的确定设y是0-1型变量, 是与y相关的自变量,n组观测数据为 。于是y1,y2,

5、yn的似然函数为对数似然函数为最大似然估计就是选取 的估计值 使得log似然函数最大化。 模型检验以下是关于模型拟合优度的度量以及模型参数检验的分析 与任何概率一样,似然的取值范围在0,1之间。2LL的计算公式为其报告值越小说明似然函数值越大从而模型拟合程度越好两个模型之间显著性似然比检验统计量的形式为 -2log(L0/L1)=-2LL0-(-2LL1)(自由度为参数个数之差的卡方分布)L1是更大参数空间上的模型的似然函数。1-2对数似然值(-2 log likelihood,-2LL) Logistic回归的拟合优度统计量计算公式为Pearson 残差平方和,在原假设(所建立的模型与饱和模

6、型没有显著性差异)下也服从自由度为两个模型参数之差的卡方分布 2拟合优度(Goodness of Fit)统计量Predicted(预测值)01Percent Correct (正确分类比例)Observed(观测值)0n00n01f01n10n11f1Overall(总计)ffClassification Table for Y在实际问题中,通常采用如下分类表(Classification Table)反映拟合效果。3Cox和Snell的R 2(Cox&Snells R-Square)4Nagelkerke的R 2(Nagelkerkes R-Square)5伪R 2(Psedo-R-squ

7、are) 伪R2与线性回归模型的R2相对应,其意义相似,但它小于1。6Hosmer和Lemeshow的拟合优度检验统计量 与一般拟合优度检验不同,Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer和Lemeshow的拟合优度检验统计量,简称H-L拟合优度检验统计量),最后根据自由度为8的卡方分布计算其值并对Logistic模型进行检验。 如果该p值小于给定的显著性水平(如),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果值大于,我们没有充分的理由拒绝零假设,表

8、明在可接受的水平上模型的估计拟合了数据。 7Wald统计量(回归系数的非零检验) Wald统计量用于判断一个变量是否应该包含在模型中,其检验步骤如下。 (1)提出假设。 (2)构造Wald统计量。 (3)作出统计判断。 研究问题 在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量y =1表示居民主要乘坐公共汽车上下班;y=0表示主要骑自行车上下班;自变量x1表示被调查者的年龄;x2表示被调查者的月收入;x3表示被调查者的性别(x3=1为男性,x3=0为女性)x3在这里是一个虚拟变量。试建立y与自变量间的Logistic回归,数据如表7-7所示。7.8.2 SPSS中实现过程表7-7使用

9、交通工具上下班情况序号x1(年龄)x2(月收入:元)x3(性别)y118850002211200003238500142395001528120001631850007361500018421000019469500110481200001155180001125621000113581800011418850101520100010162512001017271300101828150010193095011203210001021331800102233100010233812001024411500102545180011264810001027521500112856180011 实现

10、步骤图7-24 “Logistic Regression”对话框将因变量放入dependent栏,自变量放入covariates栏中制定变量引入模型的方法和线性回归一样,我们可以通过next按钮把自变量分成不同的组块,使不同的组块按顺序以不同的方式分步进入模型这里,我们可以把几个变量的乘积作为自变量引入模型作为交互影响项如果自变量中有分类变量,在这里可以设置相应的虚拟变量图7-25 “Logistic Regression:Options”对话框Classification plots:制作分类图,通过比较因变量的观测值与预测值的关系,反映回归模型的拟合效果。Hosmer-Lemeshow g

11、oodness-of-fit: H-L检验。Casewise listing of residuals:显示个案的残差值(显示标准化残差超过两倍标准方差的个案或显示所有个案)Correlations of estimates:输出模型中各参数估计的相关矩阵。Iteration history:输出最大似然估计迭代过程中的系数以及log似然值。CI for exp(B):输出exp(beta)的置信区间,默认置信度为95%根据概率对数据进行分类时的概率界限值,默认值为参数估计时,似然函数值收敛到最大值前的最大迭代次数。选择输出结果的方式。显示每一步的计算结果或是只显示最后的结果设定自变量进入模型

12、方程或被剔除出方程的标准。在save选项中,我们可以选择需要保存的数据文件中的统计量。包括残差值、个案影响度统计量、预测概率值等等 (1)第一部分输出结果有两个表格,第一个表格说明所有个案(28个)都被选入作为回归分析的个案。 7.8.3 结果和讨论 第二个表格说明初始的因变量值(0,1)已经转换为逻辑回归分析中常用的0、1数值。 (2)第二部分(Block 0)输出结果有4个表格。(组块0里只有常数项,没有自变量)分类表 (3)Omnibus Tests of Model Coefficients表格列出了模型系数的Omnibus Tests结果。 (4)Model Summary表给出了-

13、2 对数似然值、Cox和Snell的R2以及Nagelkerke的R2检验统计结果。 (5)Hosmer and Lemeshow TestP值大于,说明模型有一定的解释能力 (6)Classification Table分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有86.7%的准确性;对于y=1,有76.9%准确性,因此对于所有个案总共有82.1%的准确性。 (7)Variables in the Equation表格列出了Step 1中各个变量对应的系数,以及该变量对应的Wald 统计量值和它对应的相伴概率。从该表格中可以看出x3相伴概率最小,Wald统计量最大,可见该

14、变量在模型中很重要。回归系数的估计值系数的wald检验Exp(beta)的估计值以及区间估计 (8)Correlation Matrix表格列出了常数Constant、系数之间的相关矩阵。常数与x2之间的相关性最大,x1和x3之间的相关性最小。 (9)图7-26所示是观测值和预测概率分布图。该图以0和1为符号,每四个符号代表一个个案。横坐标是个案属于1的录属度,这里称为预测概率(Predicted Probability)。纵坐标是个案分布频数,反映个案的分布。 (10)逻辑回归的最后一个输出表格是Casewise List,列出了残差大于2的个案。1.根据三个财务比率估计公司破产概率。(数据

15、见ftp 财务比率与破产预测.sav)Y=0,若两年后破产Y=1, 若两年后仍有偿付能力X1=未分配利润/总资产X2=支付利息税金前的利润/总资产X3=销售额/总资产按照习题模式,列出最终计算结果,并做出必要解释。(Logistic 模型最终表达式模型检验、拟合优度Wald 检验最终分类表、观测与预测分布图系数相关矩阵)作业(共两题)2.对于1986年挑战者号航天飞机灾难之前的23次航天飞行,数据 航天飞机热遇险.sav给出了飞行时温度和是否至少有一个主要O型圈遭受热遇险。(数据见ftp)a)利用logistic回归建立温度对热遇险概率的模型,并对效应进行解释。b)估计挑战者号飞行时温度为华氏31度时的热遇险概率。c)温度为多少时,概率等于?在该温度下,给出温度每增加一度导致的概率估计值的线性近似变化。d)利用wald检验,检验不存在温度效应的假设小 结 回归分析是研究变量与变量之间联系的最为广泛的模型。在实际中,根据变量的个数、类型,以及变量之间的相关关系,回归分析通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论