




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、计算中心计算中心 LogisticLogistic回归分析回归分析 对于用属性变量对于用属性变量Y Y表示的特性,例如节目是表示的特性,例如节目是否受欢迎,产品是否被接受,信用卡是否被欺否受欢迎,产品是否被接受,信用卡是否被欺诈等诈等, ,描述这一特性发生与否的统计特征是它发描述这一特性发生与否的统计特征是它发生的可能性大小,即概率。这一可能性本身也生的可能性大小,即概率。这一可能性本身也受其他因素的影响。因而也希望用一些自变量受其他因素的影响。因而也希望用一些自变量来说明和预测所关心的特性发生的可能性大小。来说明和预测所关心的特性发生的可能性大小。 当当Y Y是连续变量时,可用方差分析和回归
2、分是连续变量时,可用方差分析和回归分析处理;当析处理;当Y Y时属性变量时,则用时属性变量时,则用LogisticLogistic回回归分析处理。归分析处理。 计算中心计算中心 LogisticLogistic回归分析回归分析 拟合拟合LogisticLogistic回归模型不采用通常的回归模型不采用通常的最小二乘法,而是采用最大似然法。对最小二乘法,而是采用最大似然法。对于拟合的结果,检验模型或参数的显著于拟合的结果,检验模型或参数的显著性,也不是使用线性模型中的方差分析性,也不是使用线性模型中的方差分析方法,而是使用与最大似然估计法相联方法,而是使用与最大似然估计法相联系的卡方系的卡方(
3、( 2 2) )统计量进行检验。原假设统计量进行检验。原假设是模型无显著影响或回归系数全为零。是模型无显著影响或回归系数全为零。计算中心计算中心 LogisticLogistic回归分析回归分析 描述属性变量描述属性变量Y所表示的某一特征发生的可所表示的某一特征发生的可能性大小能性大小(即概率即概率p),也希望用一些自变量,也希望用一些自变量x1, x2,.来说明和预测。特别是两值问题来说明和预测。特别是两值问题(Y=0表示表示某事件某事件A不发生,不发生,Y=1表示发生表示发生):记记 PY=1=pp的取值在的取值在0与与1之间变化,所以简单地将之间变化,所以简单地将概率概率p表示为自变量表
4、示为自变量x1, x2,.的线性函数的线性函数是不合适的是不合适的。计算中心计算中心 LogisticLogistic回归分析回归分析概率概率p作一变换作一变换f(p) 假设在自变量假设在自变量x1,x2,xn作用下,某事件作用下,某事件发生的概率为发生的概率为p,则该事件不发生的概率为,则该事件不发生的概率为1-p,p/(1-p)为发生概率和不发生概率之比,为发生概率和不发生概率之比,称为称为“优势比优势比”(odds),若对,若对odds取自然对取自然对数,得到:数,得到:( )()1pppLogitLogvLogistic回归模型:回归模型: Logit(p)=ln(p/(1-p)=0+
5、1x1+2x2+nxnvY=Logit(p) 的图形如下的图形如下 (随p由0变到1,Y的值由-单调上升到) 计算中心计算中心 LogisticLogistic回归分析回归分析计算中心计算中心 LogisticLogistic回归分析回归分析 上上模型称为模型称为Logistic回归回归模型模型.其中最简单的情况其中最简单的情况是只含一个自变量:是只含一个自变量: logit(p)=0+1x 或或0101exp()1exp()xpx计算中心计算中心 LogisticLogistic回归分析回归分析 一般地,拟合回归模型时一般地,拟合回归模型时, ,是要建立属性变是要建立属性变量量( (因变量因
6、变量) )取某种状态的概率取某种状态的概率pi关于自变量的关于自变量的关系式关系式. .自变量若也是属性的变量自变量若也是属性的变量, ,应先把它数应先把它数量化量化. .比如自变量比如自变量x取取k种不同的状态种不同的状态, ,引入引入k-1-1个标识变量个标识变量zi( (i=1,.,=1,.,k-1)-1)作为自变量作为自变量. .其中其中 zi = 1 , = 1 , 当当x取第取第i种状态种状态, , zi = 0 , = 0 , 其它其它. . ( (i =1, =1, ,k-1).-1).例例v下表记录了某公司在过去下表记录了某公司在过去6个月中的顾客信息个月中的顾客信息.其其中
7、包括顾客的性别中包括顾客的性别(gender:0=男和男和1=女女),顾,顾客的年龄客的年龄(AGE),顾客的年收入顾客的年收入(income:1=低低,2=中和中和3=高高)和购买价值和购买价值(PURCHASE:0=小于小于100元元,1=大于等于大于等于100元元),共记录了,共记录了431位顾客的资料,数据集为位顾客的资料,数据集为sales1。计算中心计算中心用分析家作用分析家作logistic分析分析v统计统计回归回归 Logistic.。vpurchase Dependent, v sex Quantitative v在在Logistic回归分析主窗口回归分析主窗口Depende
8、nt左边点左边点击击Model Pr 右侧向下箭头右侧向下箭头 ,并且选并且选1;v在主窗口选在主窗口选Statistics键键 Intervals,并选中并选中Profile Likelihood Limits(使它左边方框打使它左边方框打勾勾).计算中心计算中心结果分析结果分析 数据集名称:sales1 目标变量:purchase 目标变量类别数:2 映射函数:logit 观测值:431计算中心计算中心结果分析结果分析 收敛状态(Model Convergence Status 指参数估计是否收敛 模型拟合统计量(Model Fit Statistics) 类似于线性回归中的总平方和、残差
9、平方和等,在logit回归中较少关注计算中心计算中心结果分析结果分析 总体拟合测试(Test Global Null Hypothesis) 测试有预测变量和没有预测变量效果是否一样 原假设:效果一样,如果P很小,效果不一样 Likelihood Ratio:似然比卡方值4.6978=570.649-565.951其对应的P值小,建模效果显著计算中心计算中心结果分析结果分析 参数估计值 (Analysis of Maxamum Likelihood Estimates) 回归方程: Logit(p)=-0.7566+0.4373*sex 由检验的显著性概率值(分别为0.001和0.0312)可
10、知在0.05的水平下回归式的两个系数均显著地不为0.计算中心计算中心结果分析结果分析 优势比估计(Odds Ratio Estimates) 对于两值的Logistic回归:logit(p)=0+1x, 若自变量x也是只取两个值0,1 当x=1时,Y=1发生的优比(Odds)为 当x=0时,Y=1发生的优比(Odds)为:计算中心计算中心011|1exp()0|1P YxP Yx01|0exp()0|0P YxP Yx结果分析结果分析 优势比估计(Odds Ratio Estimates) 在这两种情况下,Y=1发生的优比率(Odds Ratio)为 此例的优比率为1.549,表示利用拟合的回
11、归式预测女性购买100元以上商品的优比为男性的1.549倍. 优比率的95%置信区间为(1.040,2.305).计算中心计算中心010exp()1exp()exp()结果分析结果分析 在Logistic回归分析中,衡量模型拟合好坏的指标除了各种与似然函数联系的综合指标外,一个常用的做法是计算预测的和实际的观测中的一致对与不一致对的比例. 两值Logistic回归的因变量Y可取值为0或1,而拟合的Logistic回归式logit(p)=b0+b1x是用以预测Y=1的概率p的.对每个实际观测(Yi ,xi) ,用拟合的回归式都可以计算得到计算中心计算中心0101exp()1 exp()iiibb
12、 xpbb x结果分析结果分析 对于实际和预测的数据 ,考虑数据对 对于YiYj的数据对规定: 若(Yi - Yj )(pi-pj)0 称数据对是一致的 若(Yi - Yj )(pi-pj)0 称数据对是不一致的 若(Yi - Yj )(pi-pj)=0 称数据对平分的 对所有YiYj的数据对 统计其一致对和不一致对的总数及所占的比例。这是衡量拟合的Logistic回归是否反映实际数据趋势的一种方法。 计算中心计算中心( , )iiY p( , )iiY p( , )jjY p( , )iiY p( , )jjY p结果分析结果分析 预测概率和观测响应关联统计 因为原始记录中有162个PURC
13、HASE=1,269个为0。所以可配成162269=43578个对。其中30.1%用拟合的回归模型预测时其趋势是与实际结果一致的.而19.5%是不一致的,其余为平分的. SomersD等4个统计量表示预测概率和观测值之间的关联度。 一般而言,C统计量的值0.7,关联度高,可以使用该模型计算中心计算中心例饮酒与食道癌发病关系的分析 1977年Tuyns等在法国llle-et-Vilaine(Brittany)地区的一所医院收集了200例食道癌患者与775例对照进行病例对照研究,探讨饮食与发病的关系,考虑到年龄这一混杂因素的干扰,按每10岁一组共分为6组。危险因素饮酒分为两个水平:每天饮酒量少于8
14、0克者为非接触(x=0),80克为接触(x=1),年龄组范围为:1组:25,2组:35,3组:45,4组:55,5组:65,6组:75 (数据集为logit)饮酒与食道癌发病关系资料(200例食道癌与775例对照数据)年龄组饮酒(X)病例数(count)对照数(Y)11191001062142620516431252930211384142274034139511918503688615060831Logistic回归n进入分析家并打开数据集n选择统计/回归/Logisti YDependent,xQuantitativen/countFrequencyn点击Model右侧的箭头,并选0(y=
15、0为发病) nok 例50例急性淋巴细胞性白血病病人,在入院治疗时取得了外周血中的细胞数x1(千个/mm3)、淋巴结浸润等级x2(分别为0,1,2,3四级),出院后巩固治疗x3(有巩固治疗为1,无巩固治疗为0),并随访取得病人的生存时间T(月),变量Y(生存时间1年以内为0,1年以上为1) (数据集为logit2)分析过程n进入分析家并打开数据集n选择统计/回归/Logisti YDependent,x1,x2,x3Quantitativen点击Model右侧的箭头,并选0(y=0) nOk结果中有不显著的自变量,用逐步法选择自变量n/selection/stepwise selection X1,x2移出模型。结果结果:n1.L
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村出售地皮合同范本
- 出口定金合同范本
- 业务用车租赁合同范本
- 入股果园合同范例
- 第五单元第14课文艺复兴运动2023-2024学年九年级上册历史同步教学设计(部编版)
- 专利实施使用合同范本
- epc项目销售合同范本
- 2024年温州龙港农商银行招聘笔试真题
- 借条合同范本范文
- 保安顾问合同范本
- 部编版六年级道德与法治下册《学会反思》教案
- 人教版体育与健康四年级-《障碍跑》教学设计
- DB32-T 2860-2015散装液体化学品槽车装卸安全作业规范-(高清现行)
- 部编版四年级下册语文教案(完整)
- T∕CIS 71001-2021 化工安全仪表系统安全要求规格书编制导则
- 福利院装修改造工程施工组织设计(225页)
- 部编版六年级下册语文课后词语表(拼音)
- 环境空气中臭氧的测定
- 第七章 化学物质与酶的相互作用
- 机械毕业设计论文钢筋自动折弯机的结构设计全套图纸
- 总体施工进度计划横道图
评论
0/150
提交评论