




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文 摘要 线性回归是使用最广泛的关于相关数据的分析方法之一,其基本作用在于利用预测变量去预 测和解释响应变量,但是它往往局限于响应变量是度量变量的情形;与此形成对照的是,判别 分析可以用来解决响应变量是非度量变量的情形,但是它又不具有回归分析所具备的良好的统 计特征,而能够把这两者结合起来的一个纽带就是l o g i s t i c 回归。 本文从对一般线性回归应用于二分类变量的局限性出发,通过比较l o g i s t i c 回归与一般线 性回归的联系与区别,对l o g i s t i c 回归模型进行了讨论。然后通过分析l o g i s t i c 回归的特点 得到了将其应用于判别分析的思想方法,特别是提出了一种新的将l o g i s t i c 回归应用于判别分 析的方法,文章最后通过一个关于英语学习研究的实际案例表明了该方法的有效性。 关键词:l o g i s t i c 回归,判别分析,主成分分析。发生比 a b s t r a c t l i n e 甜r e l 弘s s i o nm o d e li sw i d e l yi i s e di i lq u 锄n t 鲥v e 锄a l 如c a lt e c l l l i i q u e s ,- ti s 璐e dt op r e d i c to re x p l a m d e p e n d e i i tw 耐a b l eb yi n d 印e n d e n t 训a b l e s ,b u ti ti su s u a l l yl i m i t e do nt l l es i 删i o nw 血锄t h ed e p e n d e n tv 暑砸a b l ei s q u 删t a t i v e 州曲l e c o m p 鲫e dw 砒m i s ,t 量l a td i 虻r i m i n a m 撇l y s i sc 舭b eu s e di n 他s i n j a t i o nw h e nt l l ed e p 朗d e m 晡a b l ei sn o tq u 枷t a t i v e ,b u t “d o e s n th a v em eb u t i f i l is t a t i s t i c a lc h a r a c t e ro fr e 掣e s s j o n 锄a l y s i s ,o n eb n d 萨t o 1 i n km e s e “m e t h o d si sl o 酉鲥cr e 孕它s s i o i l t h i st h e s i si sb e g i n n i n gw i t hm el i m i t e dt i i el i n e 盯r e 掣s s i o no nc a t e g o r i c a lo u t c o m ev a r i a b l e s ,m a d eac o m p l e t c i n t r o d u c t i o no fl o g i 鲥c 旭g r e s s i o nm o d e lt t l l 0 i l g t lt h ec o m p 撕nb e 咐e e l ll o g i 蚰cr e g r e s s i o n 锄dn o m l a ll i n e 甜 r e 鲫s i o n t h e ng e tt i l em e t l l o dt ol l s ei ti nd i s c r i m i l 瑚t 锄a l y s i sb y 柚a l y 嚣t 量i ec h 蹦i c t e ro fl o g i 鲥c 嘣弘s s i 彻,i ti s s p e c 锄l yt oa d v i s ean e wm e t h o dt 0u l o 舀鲥c 他g 他s s i o ni nd i s 嘶m i n 柚ta 1 1 a l y s i s ,柚dw el l s i n g 柚e x 锄p l ea b o u t e n 9 1 s h1 e 啪i n gt oe x a m i n e t h ee 街c i e l l c yo f t i l i sm e t i l o d 戤t h c 曲do f t h i sm 鹤i s z h a n gq i n g f 色n g ( a p p l i e dm a t h e m a t i c s ) d i r e c t e db yp r o f z h uy b n g h u a i ( e yw o r d s :h g j s t i cm g 嘲s j o n ,d i 卵r i m i n a n ta n a i y s i s p r i n c i p a ic o m p o n e n ta n a i y s j s ,o d 凼 声明 本人郑重声明:此处所提交的硕士学位论文利用l o 西s t i c 二次回归法提高判别分析效率, 是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得的研究成果。 据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得华北电力大学或其他教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名: 至避 日 期:2 i 壁z 主。兰y 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、并向 有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手段复制并保 存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为目的,复制赠送和交 换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:缝缝导师签名: 日期:五u 旦日期:犁哆 华北电力大学硕士学位论文 引言 在生产、科研和日常生活中经常遇到需要根据事物的各种特性( 测量指标) 来判别 其所属类别的问题。例如对采集到的某种植物标本,根据对其花瓣、花萼等指标的测量 来判断它属于哪个品种;对肝炎病人进行检查各项检查以判别该病人患的是哪种肝炎 ( 甲肝、乙肝、丙肝) 等,像这样识别一个个体所属类别的情况就要用到判别分析。其 潜在的应用包括预测新产品的成功或失败、决定一个申请者是否被录用以及确定个人或 公司的信用风险等。 一般而言,当响应变量是属性变量而预测变量是度量变量时,一些判别分析方法如 距离判别、b a y e s 判别和f i s h e r 判别等是合适的统计方法。然而,判别分析需要相当严 格的统计假设,这些假设在实际生活中是很少能够满足的,比如预测变量必须是可测量 的,能够用来计算其平均值和方差以得到相应的统计函数。另外还需要有一定的假设条 件:1 、每一个判别变量( 预测变量) 不能是其他的判别变量的线性组合;2 、各组变量 的协方差矩阵相等;3 、各判别变量之间具有多元正态分布等n ,。 与此相比,l o g i s t i c 回归没有类似假设,而且当这些假设不满足时结果非常稳定, 统计上的理论基础和应用手段也比较成熟,具有其他分析所不具备的稳健性和可操作 性,因此被推荐成为很好的判别分析的辅助手段。尤其是当预测变量是非度量变量时可 以采用增加哑变量的方法来进行l o g i s t i c 回归从而得到判别个体归属的目的0 1 。 虽然在国外关于l o g i s t i c 回归的统计理论研究受到很多统计学家的重视,产生了 许多优秀的研究成果,比如,h o s m e r 和l e m e s h o w 于1 9 8 9 年在其著作a p p l i e dl o g i s t i c r e g r e s s i o n 中对l o g i s t i c 回归做了初步介绍0 1 ;r 啪n ,r 对三重l o g i s t i c 回归的 混合效应做了探讨“1 ;x ug u o 等讨论了一般方程中的小样本表现的稳健性”;k u t n e r 在 2 0 0 4 年其所著a p p l i e dl i n e a rr e g r e s s i o nm o d e l s 一书中对l o g i s t i c 回归在线性 回归中的进一步应用进行了研究,得出了许多有用的结论嘲;h o s s a i n 和i s l 鲫对 l o g i s t i c 的局部诊断介绍了一些很好的方法”1 ;b u l l 和g r e e n w o o d 对多重l o g i s t i c 应用于小样本时的情况介绍了一个改进算法“;h o r t o n 成功解决了缺失协方差类型时的 l o g i s t i c 回归的最大似然算法问题。等等。并且这些理论成果已经得到比较广泛的应 用,比如在银行信用评分模型中的应用大大提高了信用评分的效率和精确性,取得了很 好的经济效益和社会效益。但是在我国,相关的理论研究和实际应用则开展的不尽人意, 比较有影响力的是王济川等所著l o g i s t i c 回归模型:方法与应用一书,对l o g i s t i c 模型重点是其实际应用作了比较好的介绍“”。而在关于l o g i s t i c 回归的统计理论研究 方面,陈希孺先生在数理统计与管理上,于( 2 0 0 2 ) 2 l 卷。5 期一( 2 0 0 4 ) 2 3 卷2 期连载了一个关于广义线性模型的专题讲座,其中对l o g i s t i c 回归做了一些统计理论 方面的介绍,为我们的研究奠定了基础,指出了研究方向”1 。之后在王桂松等所著线 1 华北电力大学硕士学位论文 性模型引论,王星所著非参数统计,何晓群所著多元统计分析等书中也或多或 少地作了一些关于l o g i s t i c 回归模型的介绍“”“”而相关的学术论文则发表的很少, 实际应用l o g i s t i c 回归的典型案例就更少了。 基于以上分析和研究,本文对l o g i s t i c 回归做了系统介绍,并且深入探讨了 l o g i s t i c 回归在判别分析中的应用,提出了利用l o g i s t i c 二次回归法提高判别分析效 率这一新方法,完成了相应的案例验证。 2 华北电力大学硕士学位论文 1 1 引言 第一章l o g i s t i c 回归 线性回归模型在定量分析的实际研究中是一种非常流行的统计分析方法。然而在许 多情况下,线性回归会受到限制,或者有时根据经验或理论知道非线性回归模型或其他 模型是更合适的。例如,人从出生到成年的发育过程本质上来说是非线性的,其具体表 现为刚出生的一段时期内发育的很快,然后发育速度逐渐慢下来,在青春期又会迅速发 育。又如,对药物的反应,在一定程度的低剂量水平下,表现为非线性型的无反应或轻 微反应特征。在一定水平下继续加大剂量则对药物的反应呈现s 型变化,最终在药物浓 度达到饱和后对药物的反应不再发生有效变化。 在非线性回归模型中,当响应变量为分类变量尤其是二分类变量时所采用的 l o g i s t i c 回归模型是一个很有应用前景的模型。 1 2l o g i s t i c 回归模型 我们来看当一个线性回归模型中的响应变量是分类变量而不是连续变量时会发生 什么现象。 最常见的分类变量是二分类变量,此时不妨设y 的取值分别是o 和1 ,以代表不同 的两类。假设用一个线性回归模型来拟合某贷款申请人的信用是安全的还是危险的,则 在假设条件: i 、相应于预测变量x 的各个取值,响应变量l ,取值是相互独立的; i i 、y 的期望“是关于x 的线性函数; i i i 、y 相应于z 的各个取值的方差相同; i v 、r 相应于z 的各个取值的分布都是正态分布; 下可得回归方程为: 杜= 8 q + 9 3 或者 l ,= 磊+ 届x + 占 ( l2 1 ) 其中,j 表示所用来预测贷款申请人信用的观测指标;y 是一个二分类变量,】,= 1 表示该贷款申请人的信用是安全的,l ,= o 表示该贷款申请人的信用是危险的;占为误差 项。 利用最小二乘法或最大似然法对参数进行估计可以得到模拟方程为: 3 华北电力大学硕士学位论文 一= 玩+ 岛x 或者 y = 6 0 + 岛z + p ( 1 2 2 ) 其中,6 0 和岛分别是反和屈的估计值,e 为残差项。 根据随机变量的期望计算公式可得 = o p ( ,r = o ) + 1 p ( 】,= 1 ) = 6 0 + 岛z ( 1 2 3 ) 从而可得 | p ( y = 1 ) = 6 0 + 岛z ( 1 2 4 ) 即+ 岛x 可以解释为事件r = 1 发生的预测概率,所以有时我们也称该模型为线性 概率模型,z 每增加一个单位总是导致事件发生的预测概率增加一个固定的量。回归 系数反代表相应于x 一个单位变化时的概率增量。与此相应,事件不发生即r = o 的概 率应该为: 户( 】,= o ) = l p ( 1 ,= 1 ) = 1 地+ 白 = 1 一一6 l x ( 1 。2 5 ) 从两有 哳( 】,) = e ( 1 ,一) 2 = ( 1 一一6 l x ) 2 p ( 】,= 1 ) + ( o 一一岛x ) 2 p ( 】,= o ) = ( 1 6 0 一6 l x ) 2 ( 6 0 + 6 l x ) + ( o 一6 0 一岛工) 2 - ( 1 一一岛z ) = ( + 西l x ) ( 1 一一西i x ) = p ( y = 1 ) p ( j r = o ) 由上式可以看出】,的方差依赖于x 的取值,因而也就随着x 的变化而变化,即存在 方差的非齐性。至此,可以看出该模型存在以下一些问题: ( 1 ) 、响应变量j ,的分布不再是正态分布,且其方差存在非齐性; ( 2 ) 、由式( 1 2 4 ) ,p ( y = 1 ) = 6 。+ 6 l j ,可以看出,因为该模型的函数形式是线 性的,所以由此模型估计得出的事件发生的概率值矛= 6 0 + 6 l x 在遇到很大或很小的x 值 4 华北电力大学硕士学位论文 时可能超出 o ,1 区问。 综上所述,该模型已经不再符合一般线性回归的基本假设。这其中,( 1 ) 可导致参 数估计的有偏性,因此任何基于正态分布假设和等方差假设的假设检验都将是无效的或 存在很大误差,采用加权最小二乘法或增大样本容量的方法虽然在一定程度上可以减轻 其影响但并不能彻底解决问题,并且必将导致应用成本的增加;而( 2 ) 所导致结论违 背概率的定义这一问题则没有什么很好的办法。换另一种说法,以二分类变量作为响应 变量的模型在预测变量与事件发生概率之间存在非线性关系,而一般的线性回归模型不 能很好的拟合这种非线性关系。 通过以上讨论,既然线性概率模型对二分类响应变量不适宜,我们应该对二分类响 应变量的分析使用非线性函数。此时一个很自然的选择当然就是选择该非线性函数为随 机变量的累积概率分布函数了。我们知道,随机变量的累积概率分布函数通常满足以下 条件: i 、值域在 o ,1 之间有着s 一型形状; i i 、e ( 】,l x ) 寸o ,x 专;e ( y i x ) 一l ,z 专栅。 从而可以很好地解决我们在上面的所遇至的问题。历史上,人们曾经用过多种不同 的分布函数,后来随着时间的检验,发现正态分布和l o g i s t i c 分布的累积概率分布曲 线具有一些很好的性质,应用起来更合适,尤其是l o g i s t i c 分布具有由概率分布密度 函数的厚尾性所带来的应用上的稳健性,因此得到了最为广泛的关注和应用“。 首先来介绍一下l o g i s t i c 分布。 定义1 2 1具有以下概率分布密度函数的分布称为标准l o g i s t i c 分布: 苁功2 煮下 1 卫6 其相应的累积概率分布函数为: 荆= 化肛严= 一专j 二= 岳 z , 相应的p 分位数为: 乩南 ( 1 2 8 ) 期望和方差分别为: = e x ,( 枷= o , 盯2 = e 乒巾) 出一2 = ;万2 我们将标准l o g i s t i c 分布与标准正态分布的密度函数和累积概率分布函数的图像 华北电力大学硕士学位论文 表示于下图以进行比较: 图l 、标准l o g i s t i c 分布与标准正态分布的密度函数 图2 、标准l o g i s t i c 分布与标准正态分布的累积概率分布函数 6 华北电力大学硕士学位论文 由以上两图可以看出,杯准l o g i s t i c 分布与杯准正态分布非常荚似,两看看l i 是早 峰对称型分布,它们的主要区别在于标准l o g i s t i c 分布密度函数的厚尾性。 定义1 2 2当把p 看作事件发生的概率时,称:卫为事件的发生比( o d d s ) 。 l 一口 相应地,l n 士为对数发生比( l o g o d d s ) ,并且称其为p 的l o g i t 形式。 l 一口 定义1 2 3当把p 看作为( o ,1 ) 上的变量时,l l l # l 称为l o g i t 函数,即 l 一口 三q 驴( p ) = l n _ 旦一,o 。, 所以d d 凼是一个关于p 的严格增函数,因此一个事件的发生可能性越大,其发生比就越 大;反之亦然。 那么我们是否可以得出结论,即一个事件的发生比和该事件的发生概率在预测一个 华北电力大学硕士学位论文 事件发生的过程中起着完全相同的作用呢? 答案是否定的,实际上这两个指标是有区别 的。比如说事件a 的发生概率是0 8 ,事件b 发生的概率是o 4 ,这时我们可以得出结 论,即,事件a 发生的可能性是事件b 发生可能性的2 倍;如果我们知道事件a 的发生 比为o 8 ,事件b 的发生比是o 4 ,这时我们就不能说事件a 发生的可能性是事件b 发 生可能性的2 倍了,而只能说事件a 发生的可能性是事件b 发生的可能性的1 6 倍。 这是因为由定义1 2 2 可以推出,p = 竺竺等我们把上面的数据代入上式计算就会 l + d 船 得出上述结论。 至此,我们可以对一个事件的发生比和发生概率之间的关系总结如下: i 、这两个概念都可以用来说明一个事件发生的可能性,但是发生比的定义区间为 f o ,+ 1 ,概率的定义区间为o ,1 1 ; i i 、两个事件的发生比之间的比较和发生概率之间的比较有不同的含义,从这一点 来说,不可将事件的发生比和发生概率混为一谈; i i i 、关于事件的发生比和发生概率之间的关系我们会在以后的文章中相应部分得到 更为深刻的理解。 综上所述,拟合l o g i s t i c 回归也就是采用l o g i s t i c 分布对响应变量的发生概率建 模,并估计式( 1 2 1 2 ) 或( 1 2 1 3 ) 中模型的参数。在l o g i s t i c 回归中,拟合是对 各l o g i t 值进行的。l o g i t 变化导出了一个关于参数为线性的模型。 1 3l o g i s t i c 回归模型的建立 1 3 1 、简单回归模型 首先我们来看简单l o g i s t i c 回归的概念,所谓简单l o g i s t i c 回归,就是当预测变 量只有一个时的l o g i s t i c 回归模型。 当响应变量】,是一个二分类变量,即其分别以概率万和卜万取值1 和o 时,y 是一 个服从参数为e ( 】,) = 万的伯努利分布的随机变量,此时有 定义1 3 1我们称 。岛+ 届x 】,= e ( j ,) + g ,e ( y ) = 万2 衡 l3 1 为简单l o g i s t i c 回归模型,这时占的分布依赖于y ,即误差项占也服从伯努利分布。 由于l o g i s t i c 回归模型为非线性回归模型,因此我们通常采用最大似然法来取得 回归系数属和属的估计值,而不是采用在线性回归中常用的最小二乘法“”。 设所研究的样本容量为打,而z ,f = l ,2 ,栉,是第f 个样本。则因为每个r 都服 9 华北电力大学硕士学位论文 从伯努利分布,并且有 p ( i = 1 ) = 巧,( z = o ) = l 一乃 因此可得z 的概率分布为: z ( r ) = 群( 1 一乃) 1 。,鬈= o ,l ;f = 1 ,行 由于r 是相互独立的,可知它们的联合概率分布函数为: g ( k ,k ,e ) = 兀z ( i ) = 兀刀f ( 1 一巧) 1 。 l - l扣l 从而得对数似然函数为: l i l g ( 巧,e ,k ) = 1 1 1 n 硝( 1 一乃) 。 j 1 1 = ( 耻巧+ ( 1 一r ) m 1 一万1 ) ( 1 3 2 ) ( 1 3 3 ) ( 1 3 4 ) = 喜( 驷焉”嘻岬卅 ns 根据式( 1 3 1 ) ,由于这里l 为二分类随机变量且e ( 巧) = 巧,从而可得: l 一乃= 而 ( 1 3 6 ) 另外根据式( 1 2 1 4 ) ,有: l n 白= 屈+ 届互 ( 1 _ 3 7 ) i 一万 将式( 1 3 6 ) 和( 1 3 7 ) 分别代入式( 1 3 5 ) 可得: l i l 工( 属,届) = l ( 岛+ 届五) 一姒1 + e 岛嵋置) ( 1 3 8 ) 这里用l ( 屁,届) 来表明( 1 3 8 ) 可视为在给定样本之后估计参数磊,层的对数似 然函数。 为了得到最大似然估计,将式( 1 3 8 ) 分别对反,届求偏导,然后令它们等于o , 即 学= 喜c 鬈一蔫瑚 ns 华北电力大学硕士学位论文 掣= 喜即蔫肛。硝智l + p 岛峭3 。 求解上述似然方程就可以得到总体参数风,届的估计值6 0 ,岛。一般而言,由于方 程( 1 3 9 ) 和( 1 3 1 0 ) 的非线性,我们不会得到岛,届的精确解析解,而是采用迭 代法等数值搜索方法求得满足精度的近似解“”。 一旦关于磊,届的最大似然估计,岛被确定,我们将6 0 ,岛代替式( 1 3 1 ) 中 的风,届就会得到拟合的l o g i s t i c 响应函数为; 口 ,+ z 拈枷 l3 1 1 ) 也可以将( 1 3 1 1 ) 通过l o g i t 变换改写为: 秀= 6 0 + 岛r ( 1 3 1 2 ) 这里孝= l n ( 去) ,有时也称( 1 3 1 2 ) 为拟合l o g i t 响应函数。 i 一贯 确定了拟合l o g i s t i c 响应函数之后,接下来就应该对该函数的拟合度进行检验, 关于如何进行检验我们放到以后章节进行说明。如果模型通过了检验,就可以考虑运用 该模型进行相关的统计推断和预测了。 在此说明两个相关问题。 ( 1 ) 、关于回归系数6 i 在拟合得到的l o g i s t i c 响应函数( 1 3 1 2 ) 式中所起的作用。 这里的6 l 并不是一般线性回归中的直线斜率,这是由于每增加一单位x 所起的作用 不仅仅依赖于6 1 ,还要依赖于x 本身的绝对值的大小。实际上x 每增加一单位将会导致 发生比( o d d s ) :二扩大倍。这从( 1 3 1 2 ) 式显然可得: 一开 设 孝( 弓) = + 岛乃 即 坂砌畹) = 6 0 + 6 1 x , 则 者( + 1 ) = 6 0 + 岛( + 1 ) 即 华北电力大学硕士学位论文 从而有 最终可得, l n ( d 反蠡2 ) = 6 0 + 玩蚂+ 1 ) 嗽= ,口拙:= p 删, 旦堕:一 d 碱 有时候我们也称两个发生比的比为发生比率( o d d sr a t i o ) 。 ( 2 ) 、关于存在着重复观测时的情况。 有些时候,尤其是在试验设计的情况下,人们将会对一些水平下的预测变量作多次 重复观测,比如对于学生学习的研究,我们调查1 0 0 名学生在a 、b 、c 、d 、e 五种学习 策略下的学习情况,这里就可以把这五种学习策略看作是五种水平,然后在每种水平下 观测2 0 个人。这里的响应变量为二分类变量( 成绩及格与不及格) ,预测变量是学习策 略,有五个水平。 当存在重复观测时,对数似然函数( 1 3 8 ) 可以进一步进行整理。假设预测变量x 有历个水平分别为五,j 0 ,在水平彳,上观测到所,个二分类响应变量。因此我们可以 用,f = 1 ,聊,:_ ,= 1 ,埘。来代表在水平x ,下观测到的反应变量的值。 月, 记匕= 巧,即为水平下】,发生( 巧= 1 ) 的次数; 弓专,即弓为水平一下y 发生( 纠) 的比例。 因为匕服从二项分布,其概率分布函数为: 舻( 乏枷训”k 可知其对数似然函数为: - n c 上c 岛,层”= 萎 h ( 乏) + ,。c 屈+ 层乃,一竹k 。+ e 岛+ 戽_ 1 3 2 、多个预测变量情况下的l o g i s t i c 回归 我们可以轻易地由只包含一个预测变量的简单l o g i s t i c 回归模型扩展为包含多个 预测变量的情况。事实上在许多情况下也确实有必要为了得到对预测变量更好的拟合与 预测而考虑采用包括多个预测变量的l o g i s t i c 回归。不过这时就需要一些选择变量的 1 2 华北电力大学硕士学位论文 技巧了,这将在后面加以讨论。 当模型包括p 1 个预测变量时,设: p = 磊 屈 屈 ; 尾一t x = l 五 五 j x 则有交p = 成+ 属墨+ + 芦0 i j 钿,此时的l o g i s t i c 响应函数扩展为: 石2 e ( d 2 南 相应的l o g i t 变换及其线性预测为: 万l - l i l ( _ 生) = x p 一刀 这时候的对数似然函数为: l i l 三( ) = r ( k p ) 一m l 押咖) 这里,x ,是所取得的样本点。 关于此模型的特点可以完全由简单l o g i s t i c 回归模型类比得到,本文就不再对此 加以赘述了。值得一提的是,这里的预测变量五,j 0 一。有可能在相互之间存在交互效 应,可以为数值变量或分类变量等等,相应地我们可以采用主成分分析,或者引入哑变 量( d u 姗yv a r i a b l e ) 等研究手段,从而使得l o g i s t i c 回归可以更加灵活地进行应用。 1 3 3 、多项式l o g i s t i c 回归 有时一阶l o g i s t i c 回归模型不能很好地拟合数据, 回归了。此时的l o g i t 响应函数为: 霄= p o + p l x + p z 2 + + p k x 这时就需要采用高阶的多项式 它实际上包括一元和多元两种情况。为了避免共线性或异方差性对统计推断的影 响,一般需要对预测变量先进行中心化处理或标准化处理,并且关于多项式l o g i s t i c 回归还存在如何定阶等诸多问题“”。 其他还有像多个预测变量情况下的多项式回归模型等“”。 1 3 华北电力大学硕士学位论文 1 4 统计分析 1 4 1 、关于回归系数的统计推断 如同对一般线性回归模型所进行的统计分析那样,我们往往要对l o g i s t i c 回归中 的回归系数、期望响应函数以及对新观测的预测等等做出统计推断。 对l o g i s t i c 回归模型做出的统计推断一般建立在大样本基础上。在大样本情况下, 由最大似然法所得到的关于模型参数的估计近似服从正态分布,其方差或协方差可由其 对数似然函数计算得到“”。 具体来说,设g 代表对数似然函数( 1 3 1 9 ) 的h e s s i a n 矩阵,即: g = 【岛】,f = o ,1 ,p 一1 ,= o ,l ,p l ( 1 4 1 ) 这里 = 訾慨= 帮,妒哿, 4 埘 如果我们由最大似然法得出了回归系数p 的估计值b ,那么b 的协方差阵为: s 2 ( b ) = ( 卜岛b ) 。1 ( 1 4 3 ) 有了回归系数p 的估计值b 以及方差估计s 2 ( b ) 之后,则在大样本基础上,我们有以 下近似结论: 生二盈z( 1 4 4 ) s 仇) 即急矜近似服从标准正态分布。 1 、关于单个回归系数显著性的统计检验。 对于假设检验: 风:p t = o ; 可采用近似统计量 马:p o z :上l s ( b k ) ( 1 4 5 ) 由此得双边检验准则为: 若i z + i z 1 一,则接受0 ;若l z i z l 一,则拒绝风。 ( 1 4 6 ) 上述检验称为w a l d 检验。 1 4 华北电力大学硕士学位论文 由( 1 4 4 ) 得p 。的置信度为卜口的置信域为: 瓯弓一鼢) ( 1 4 7 ) 由此可知关于系数尻的似然比率的置信域为: 卢2 砀她 ( 1 4 8 ) 上述结论不难推广到单边检验中。 注:如果大样本条件不能满足,可以用重抽样( b o o t s t r a p ) 法来获得回归系数的 置信域。 2 、关于多个回归系数显著性的统计检验。 有时候为了从原来包含所有预测变量的全模型中剔出一些影响很小的预测变量以 达到精简模型的目的,也即检验是否同时几个回归系数等于零,就需要用到下面要介绍 的似然比检验了,该检验也是建立在大样本基础上的。 设包含所有p 一1 个预测变量的l o g i s t i c 全模型的响应函数为: ,r :三( 1 4 9 ) 万2 瓦而 u “月 这里 p ,= 屈 届 压 i 以一1 x = 1 墨 托 ; x p t x 。p f = 属+ 届五十+ 岛一z 工j - 1 我们可以用最大似然法得到p ,的最大似然估计为b ,将b ,代入似然函数三( p ) 中得 到全模型下的似然函数值记为l 。 现在我们来检验: 风:岛= 局“一一岛- = o 蜀:岛,成。,岛一- 中至少有一个不为o 。 ( 1 4 1 0 ) 这里为了叙述方便,我们假设要检验的是最后p g 个系数。 在风成立时,可以得到化简后的l o g i s t i c 模型的响应函数为: 1 5 华北电力大学硕士学位论文 1 舻两 这里 文欺= 屈+ 届五+ + 露。五一。 同样可以用最大似然法得到p 。的最大似然估计b 。,将b 。代入似然函数三( p ) 中得到 化简后模型的似然函数值记为k 。至此可算得似然比检验统计量为: g 2 = - 2 h ( 每) = - 2 c h 厶一h 耳, 不难看出由于这里的k 肯定不大于k ,因此可知g 2 肯定为非负数。显然似然比每 越小越倾向于选择,那么如何具体确定检验的判断域呢? 根据相关的大样本理论,当丹足够大时,在凰成立的情况下,g 2 近似服从砬。分 布,由此得置信度为卜口的判断准则为: 若g 2 在。,p - 叮,则接受风;若g 2 虎,p 叫,则接受喝。 ( 1 4 1 3 ) 1 4 2 、关于预测变量的选择问题 关于l o g i s t i c 回归的模型选择问题,一般要考虑比如说函数形式是否恰当,相关 假设是否满足,以及如何确定预测变量等问题。这里我们主要考虑在l o g i s t i c 假设合 适的时候,根据简约性原则以及精确性原则,如何确定最佳的预测变量的数目。 首先需要解决的问题是选择用来判断模型好坏的标准。在一般线性回归模型中判断 模型的一些标准:r 2 ,露,4 圮,舳c 中,适用于l o g i s t i c 模型的一般来说是彳圮 ( 眦si n f o 彻a t i o nc r i t e r i o n ) 和c ( s c h w a r z sb a v e s i 锄c r i t e r i o n ) 瞳”,不过这里的 计算方法和一般线性回归中稍微有所不同,即: 4 蜂= - 2 l i l 三( b ) + 2 p 鼢c ,= _ 2 】n 三( b ) + p l i l 行 这里1 1 1 上( b ) 即1 1 1 三( p ) 的估计值,p 为预测变量数,肛为样本容量。 另一个在最大似然法下经常用的判断标准- 2 l n ( b ) ,也即4 贮和船c 判断标准的 第一项,它的一个最大缺点就是随着模型中更多预测变量的加入该值是单调下降的。由 1 6 华北电力大学硕士学位论文 于这三个判断标准都是以值小为佳,因此,2 h 工( ”一般来说达不到帮助简化模型的目 的。相对而言,脚和船c 由于分别加入了针对添加预测变量的惩罚项:2 p 和p l n 玎, 因此要比单独应用_ 2 1 i l 三( b ) 的效果好。 确定了判断标准后就可以选择适当的方法来确定预测变量的数目了,具体方法有最 优解法和逐步选择法。 最优解法就是根据选定的判断标准通过比较所有可能的模型来找出一个最优的精 简模型。由于该方法运算量太大,它一般适用在需判定的预测变量不是太多的时候( 预 测变量小于3 0 个或4 0 个) 。 当需要判定的预测变量( 待选变量) 数目太多的话( 大于或等于4 0 ) ,此时的建立 在普选基础上的最优解法就会由于计算量太大而不切合实际了。这是我们可以采用逐步 选择法,并且可以根据具体情况采用向前逐步选择法、向后逐步选择法和混合逐步选择 法等。需要注意的是,这里的用来确定进出限的统计量不再是f 检验统计量而是我们前 面所说的w a l d 统计量。 1 5 拟合优度检验 对于所有的回归模型来说,在接纳该模型之前必须对其拟合度进行检验,l o g i s t i c 回归当然也不例外。当然我们除了需要对于模型的总的拟合效果进行检验外,对于一些 特殊案例值以及数据结构方面的问题也需要相应的模型诊断技巧,这些我们将放到下一 节进行介绍。 进行拟合优度检验之前首先必须区别重复性数据和非重复性数据。对于重复性数据 我们一般采用p e a r s o n 矿检验或偏差( d e v i a n c e ) 检验啪1 ,对于非重复性数据或非重复 性数据占优势的情况可采用h o s 舱r l e m e s h o w 检验。 1 5 1 、p e a r s o n z 2 检验和偏差检验 p e a r s o n z 2 检验必须假设响应变量匕( 关于的具体含义下面有说明) 的各个观察 值是相互独立的,并且每个协变类型的样本数量应该不太小。该检验可以用来检验 l o g i s t i c 模型是否合适,但是检测不出那些比较轻微的违背l o g i s t i c 模型的假设。其 具体做法是: 设 舭( y ) = 啬城e ( y ) 高。 ( 1 5 1 ) 华北电力大学硕士学位论文 又设所有的协变类型数是c ,第,个协变类型中第f 个响应变量为巧,这里 f = 1 ,2 ,乃;,= 1 ,2 ,c 记:z j :圭巧,即l :,表示第_ ,个协变类型中巧:1 的个数。 为了表述方便,记: q 。:壹巧:乙;q 。:壹( 1 一弓) :吩一】= ,:吩一q ( 1 5 2 ) 这里_ ,= l ,2 ,c 。 如果所设l o g i s t i c 响应函数是合适的话,由前所述,应有: 昱( 写) = 乃= ( 1 + e x p ( 一z p ) ) 。 从而当用最大似然法得到口的估计值6 后就会有: 嘭= ( 1 + e x p ( 一z 6 ) ) 。1 ( 1 5 3 ) ( 1 5 4 ) 接下来,我们可以得到在第,个协变类型中巧= 1 和写= o 的预期数目应分别为; e n = n i 完i :e 扣= n i o 一完j = n i e n 到此为止,可以得出所需要的统计量为: ( 1 5 5 ) x :妻壹掣 ( 1 5 6 ) 智怠昱。 在假设检验( 1 5 1 ) 中凰成立的情况下,彳2 近似服从自由度为c p 的分布, 其置信度为卜d 的置信域和拒绝域分别为【0 ,丘,】和【震。,一,m 】。 这里需要注意的是,一般而言,吩应该比较大( 吩1 0 ) 且p c 。另外一般不 应小于5 ,尤其是不能出现e 。= 0 的情况。 观测值与预测值的比较还可以根据对数似然函数来进行估计。在此,应该视全模型 为基准模型,有时候也称为饱和模型,所要检验的l o g i s t i c 模型为待检模型。此时可 得偏差检验所用统计量为: g 2 = - 2 0 n 岛一1 1 1 4 ) 1 8 华北电力大学硕士学位论文 = 之水h 卧州h = d e 矿( 蜀,五,j 0 一1 ) ( 1 5 7 ) 这里所用,吩,力等定义与p e 8 r s o n z 2 检验中的一样,其中所= 为总体参数乃 的估计值。当( 1 5 1 ) 中风成立时g 2 也近似服从自由度为c p 的纷布,其置信度 为卜口的置信域和拒绝域前面已有介绍就不再多说了。有的文献里也称这里的偏差统计 量为缺失统计量。 1 5 2 、h o s m r l e 鹏s h o w 检验 当预测变量增加时,尤其是连续预测变量纳入模型之后,协变类型的数量就会很大 乃至于无从计算,并且此时由于许多协变类型只有很少的观测案例,也不再满足 p e a r s o nz 2 检验和偏差检验的假设条件,于是p e a r s o n 检验和偏差检验不再适用。 h 0 s m e r 和l 鲫e s h 0 w ( 1 9 8 9 ) 针对此种情况提出了一种l o g i s t i c 回归模型拟合优度的检 验方法。该方法根据预测概率值以及样本容量将样本分成规模大致相同的c 组,一般 5 c l o 。接下来就可以类似于非参数z 2 检验,从观测频数和预测频数构成的c 2 交 互表中求得所用统计量为: 肚喜端 ns s , 这里c 代表分组数,疗,代表第,组中的案例数,y ,为第_ ,组中的事件观测数量,p ,为 第,组的预测事件概率,玎,p ,为事件的预测数。 根据m 统计量近似服从自由度为c 一2 的z 2 分布就可以由此进行相关的统计检验 了。 1 6 回归检验 在上一章我们讨论了模型的误设问题,也就是说将某一个模型错误地设置为 l o g i s t i c 模型,这将导致有偏的或精度很差的估计。不过在另外一些情况下,即使所设 l o g i s t i c 模型是适当的,样本的数据结构也可能导致l o g i s t i c 回归在系数估计上发生 问题。常见的数据结构问题有过离散( 0 v e r d i s p e r s i o n ) 、空单元( z e r oc e l lc o u n t ) 、 完全分离( c o m p l e t es e p a r a t i o n ) 、多元共线性( m u l t i c 0 1 l i n e a r i t y ) 、特异值( o u t l i e r s ) 以及强影响点( i n f l u e n t i a lc a s e s ) 等。这些问题不仅出现在l o g i s t i c 回归中,就是 1 9 华北电力大学硕士学位论文 在一般线性回归中也会经常出现,而对于这些问题的解决办法则是仁者见仁、智者见智, 还没有得出理论上坚实应用上有效的整套方法“嘲嘲伽渊嘲。 我们在此深入探讨一下用主成分分析解决多元共线性问题的具体方法。 当预测变量之间存在相关时就会产生多元共线性。这里的相关可以是两个预测变量 的简单相关或多个预测变量的多元相关。当多元共线性不是很严重时,l o g i s t i c 回归的 系数估计基本上还是无偏的且是有效的,随着多元
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江农林大学暨阳学院《德语文学选读》2023-2024学年第一学期期末试卷
- 华中科技大学《篮球3》2023-2024学年第二学期期末试卷
- 铁岭师范高等专科学校《嵌入式系统设计C(实验)》2023-2024学年第二学期期末试卷
- 板材沙发改造方案范本
- 蚌埠铸铁泄水管施工方案
- 2025至2031年中国大提琴琴弓行业投资前景及策略咨询研究报告
- 车辆报废拆解方案范本
- 广西壮族自治区柳州市铁一中学2024-2025学年高二3月月考语文试题(原卷版)
- 山东抽风罩施工方案
- 2025农业合作社土地租赁合同范本
- 甘肃省白银市2024年中考英语真题
- 音乐的美及其鉴赏智慧树知到答案2024年湖南师范大学
- 员工劳动合同模板
- 金属非金属露天矿山及尾矿库重大事故隐患判定标准解读
- 2024年东南亚纸巾商销(AFH)市场深度研究及预测报告
- 餐厅服务员中级试题+答案
- 2024中考数学试题研究有关中点专题复习一 课件
- 广西2024年广西广播电视技术中心招聘42人笔试历年典型考题及考点附答案解析
- 重庆市潼南区六校2022-2023学年七年级下学期期中地理试题
- DZ∕T 0054-2014 定向钻探技术规程(正式版)
- 手术室病理标本的固定
评论
0/150
提交评论