




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、定性数据的建模,列联表及列联表分析,Logistic回归基本理论和方法,Logistic回归步骤以及SPSS实现,1,2,3,列联表及列联表分析,研究两个属性变量之间是否有联系 研究步骤: 通过问卷调查或统计资料获得属性 变量的信息 整理问卷或统计资料获得列联表数据 通过统计假设检验两个属性变量是 否具有独立性,女性人口学研究,教育,婚姻,合计,合计,大学,大学以下,结婚一次,结婚多次,550,61,681,144,611,825,1231,205,1436,频数列联表,事件 发生的概率,A,事件 与 同时发生的概率,频率列联表,B,合计,合计,事件 发生的概率,统计假设与检验,零假设:属性变
2、量A与B相互独立 检验统计量及其分布: n足够大 决策规则: 对给定的显著性水平 , 若 则拒绝零假设.,检验统计量的计算,零假设:婚姻状态与教育水平没有关系 检验统计量及其分布: n足够大 决策规则:对给定的显著性水平0.05 则拒绝零假设,即婚姻状态与教育水平有关联.,SPSS实现,数据结构,属性变量1,属性变量2,SPSS中的数据输入,频数,A水平,B水平,1,2,3,1,2,3,1,1,1,2,2,2,拒绝独立假设,即婚姻与教育程度有关。,Logistic回归基本理论和方法,研究某一事件发生的概率P=P(y=1)与若干因素之间的关系 ,在0和1之间,任意范围之间的数量,若干个状态的标量
3、,logistic变换,logistic变换 Logistic回归模型 ,优势比,概率p的预测,P与多因素之间的关系预测,P与单因素之间的关系图,p,x,1,最可能成功范围,最不可能成功范围,回归系数的含义,优势比(Odds Ratio)事件发生与不发生的概率比 优势比与单变量系数之间的关系,Logistic回归系数的估计(分组数据),n组观测数据结构:,序号,x,参加调查 总数,事件出现 次数,事件出现 频率,Logistic 变换,1,2,n,i,拟合模型 其中 近似服从,权(weight),回归模型具有异方差性,转换成经典回归模型(加权最小二乘),其中 近似服从,例题,在一次住房展销会上
4、,与房地产商签订初步购房意向书的共有n=325名顾客.在随后的三个月里,只有一部分顾客确实购买了房屋.以顾客的年家庭收入 x(万元)为自变量,建立Logistic回归模型.,点击,利用上式可以对购房比例进行预测,如,Logistic回归系数的估计(未分组数据),n组观测数据: 与 的关系,参数的极大似然估计,的分布函数 的似然函数,未分组数据结构,似然函数的对数表达 利用迭代法求解似然函数对数的最大值点就是参数的极大似然估计,记为:,拟合的优良性,回归模型的优良性,拟合优度,回归系数的显著性,-2log(L),Wald=, goodness-of-fit statistics,Hosmer-L
5、emeshow Test,零假设: 因变量实际分布与预测的分布无差异 决策准则: 拒绝零假设 模型不显著,Logistic回归步骤以及SPSS实现,不显著,去掉最不显著的月收入变量,重新估计,结论:女性乘公交车比例高于男性,年龄越大,乘车的比例越高。,科研教案,庞素林. Logistic回归模型在信用风险中的应用. 数学的实践与认识. 2006,36(9):129137,判别模型建立的基本步骤,样本分组,将样本分成训练样本组和测试样本组,评价过程,利用测试样本评价模型的精度,第二步,第三步,第一步,摘要,通过运行SPSS, 建立Logistic 回归信用评价模型(credit evaluati
6、on model) , 用来对中国2000年106家上市公司进行两类模式分类, 这两类模式是指按照公司的经营状况分为“差”和“正常”两个小组. 对每一家上市公司, 考虑其经营状况的4 个主要财务指标: 每股收益、每股净资产、净资产收益率和每股现金流量.,仿真结果表明,Logistic 回归信用评价模型对总体106 个样本, 判别准确率达到99. 06%. 此外, 本文的研究结果还发现, 当利用SPSS 的Discriminant 给出的模型系数建立的线性判别分析模型和利用SPSS 的Multinomial Logistic 给出的模型参数建立的Logistic 回归模型, Logistic 回
7、归模型的判别结果不如线性判别模型. 但如果剔除不合格的样本, 或是将样本数据规格化, 则可以提高Logistic 回归模型的分类准确率.,引言中提及的一些研究结果,Martin(1977)用Logistic模型预测公司破产及违约的概率 Ohlson(1980)将Logistic模型应用于信用风险分析 Madalla(1983)采用Logistic模型区别违约与非违约贷款申请人,David West(2000)利用5种神经网络和5种统计分类模型(线性判别分析、Logistic回归分析、K最近邻法、核密度分类法、分类树法)分别对德国和澳大利亚两组财务数据进行两类模式分类,研究结果表明: Logistic模型的判别准确率最高,分别为76.3%和87.25%.,一个一般结论,数据满足正态分布,Logistic 回归模型与判别分析模型具有相同的判别准确率,yes,No,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 烟草替代品市场分析-全面剖析
- 危险化学品生产单位企业主要负责人安全生产知识竞赛监控题
- 大数据驱动的时间序列预测-全面剖析
- 木工班组责任承包协议书模板
- 塔顶隔热施工方案
- 紧急救援装备采购
- 赛事公益捐赠企业制定与实施新质生产力战略研究报告
- 旅游金融服务解决方案行业深度调研及发展战略咨询报告
- 期货AI应用行业深度调研及发展战略咨询报告
- 自然历史与自然科学类博物馆在线平台行业跨境出海战略研究报告
- 综合录井仪工作原理演示教学课件
- 小学三年级诗词大会初赛比赛题目课件
- 房建监理大纲(共114)
- 国际工程招投标流程图
- 城市环境卫生工作物资消耗定额
- 液化气站三级安全教育培训试题
- 经济法实用教程(理论部分)(第八版)(何辛)案例分析及参考答案
- 532近代前夜的危机
- 病原微生物实验室生物安全备案专家意见表
- (精心整理)朱德熙_说 “的”
- 《雷锋叔叔,你在哪里》说课稿(附优质教案)
评论
0/150
提交评论