



版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.1. 逻辑回归模型1.1 逻辑回归模型考虑具有p 个独立变量的向量, 设条件概率为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为(1.1 )上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。其中。如果含有名义变量,则将其变为dummy变量。一个具有k 个取值的名义变量,将变为k-1 个 dummy变量。这样,有( 1.2 )定义不发生事件的条件概率为( 1.3 )那么,事件发生与事件不发生的概率之比为(1.4 )这个比值称为事件的发生比(the odds of experiencing an event),简称为 odds 。因为0<p<1,故 odds>
2、0。对 odds取对数,即得到线性函数,(1.5 )1.2 极大似然函数假设有 n 个观测样本, 观测值分别为设为给定条件下1 / 8.得到的概率。 在同样条件下得到的条件概率为。于是,得到一个观测值的概率为(1.6 )因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。( 1.7 )上式称为n 个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数,使上式取得最大值。对上述函数求对数( 1.8 )上式称为对数似然函数。为了估计能使取得最大的参数的值。对此函数求导,得到p+1 个似然方程。(1.9 ),j=1,2,.,p.上式称
3、为似然方程。为了解上述非线性方程,应用牛顿拉斐森(Newton-Raphson)方法进行迭代求解。1.3牛顿拉斐森迭代法对求二阶偏导数,即Hessian矩阵为( 1.10 )如果写成矩阵形式,以表示Hessian 矩阵,表示( 1.11 )令2 / 8.( 1.12 )则。再令( 注:前一个矩阵需转置) ,即似然方程的矩阵形式。得牛顿迭代法的形式为( 1.13 )注意到上式中矩阵为对称正定的,求解即为求解线性方程中的矩阵。对进行 cholesky分解。最大似然估计的渐近方差(asymptoticvariance)和协方差 (covariance)可以由信息矩阵( information mat
4、rix)的逆矩阵估计出来。而信息矩阵实际上是二阶导数的负值,表示为。估计值的方差和协方差表示为,也就是说, 估计值的方差为矩阵的逆矩阵的对角线上的值,而估计值和的协方差为除了对角线以外的值。然而在多数情况,我们将使用估计值的标准方差,表示为, for j=0,1,2,p(1.14 ). 显著性检验下面讨论在逻辑回归模型中自变量是否与反应变量显著相关的显著性检验。零假设: 0(表示自变量对事件发生可能性无影响作用)。如果零假设被拒绝,说明事件发生可能性依赖于的变化。2.1 Wald test对回归系数进行显著性检验时,通常使用Wald检验,其公式为( 2.1 )其中 ,为的标准误差。这个单变量W
5、ald 统计量服从自由度等于的分布。3 / 8.如果需要检验假设: 0, 计算统计量(2.2 )其中,为去掉所在的行和列的估计值,相应地,为去掉所在的行和列的标准误差。这里,Wald 统计量服从自由度等于p 的分布。如果将上式写成矩阵形式,有(2.3 )矩阵是第一列为零的一常数矩阵。例如,如果检验,则。然而当回归系数的绝对值很大时,这一系数的估计标准误就会膨胀,于是会导致Wald统计值变得很小, 以致第二类错误的概率增加。 也就是说, 在实际上会导致应该拒绝零假设时却未能拒绝。 所以当发现回归系数的绝对值很大时, 就不再用 Wald 统计值来检验零假设,而应该使用似然比检验来代替。2.2似然比
6、( Likelihood ratio test)检验在一个模型里面, 含有变量与不含变量的对数似然值乘以-2 的结果之差, 服从分布。这一检验统计量称为似然比(likelihood ratio),用式子表示为( 2.4 )计算似然值采用公式( 1.8 )。倘若需要检验假设: 0, 计算统计量( 2.5 )上式中,表示 0 的观测值的个数,而表示的观测值的个数,那么n 就表示所有观测值的个数了。实际上,上式的右端的右半部分表示只含有的似然值。统计量G 服从自由度为p 的分布2.3 Score检验在零假设: 0 下,设参数的估计值为,即对应的 0 。计算Score统计量的公式为(2.6 )4 /
7、8.上式中,表示在 0 下的对数似然函数(1.9 )的一价偏导数值,而表示在 0 下的对数似然函数 ( 1.9 )的二价偏导数值。Score统计量服从自由度等于的分布。2.4模型拟合信息模型建立后,考虑和比较模型的拟合程度。有三个度量值可作为拟合的判断根据。(1)-2LogLikelihood(2.7)(2) Akaike信息准则( Akaike Information Criterion,简写为 AIC )(2.8)其中为模型中自变量的数目, 为反应变量类别总数减, 对于逻辑回归有 S=2-1=1 。 -2LogL 的值域为 0 至 ,其值越小说明拟合越好。当模型中的参数数量越大时,似然值也
8、就越大, -2LogL就变小。因此,将(K+S)加到 AIC 公式中以抵销参数数量产生的影响。在其它条件不变的情况下,较小的AIC 值表示拟合模型较好。(3)Schwarz准则这一指标根据自变量数目和观测数量对-2LogL值进行另外一种调整。SC 指标的定义为(2.9)其中 ln(n)是观测数量的自然对数。这一指标只能用于比较对同一数据所设的不同模型。在其它条件相同时,一个模型的AIC 或 SC 值越小说明模型拟合越好。3. 回归系数解释3.1 发生比odds=p/(1-p),即事件发生的概率与不发生的概率之比。而发生比率 (odds ration),即(1) 连续自变量。对于自变量,每增加一
9、个单位,odds ration为(3.1)(2) 二分类自变量的发生比率。变量的取值只能为0 或 1 ,称为 dummy variable。当取值为 1 ,对于取值为0 的发生比率为5 / 8.(3.2)亦即对应系数的幂。(3) 分类自变量的发生比率。如果一个分类变量包括m 个类别,需要建立的dummy variable的个数为 m-1,所省略的那个类别称作参照类(reference category)。设 dummy variable为,其系数为,对于参照类,其发生比率为。3.2逻辑回归系数的置信区间对于置信度-,参数的 100%( -)的置信区间为( 3.3 )上式中,为与正态曲线下的临界
10、值(critical value),为系数估计的标准误差,和两值便分别是置信区间的下限和上限。当样本较大时,0.05 水平的系数的 95% 置信区间为( 3.4 )4. 变量选择4.1 前向选择( forward selection):在截距模型的基础上,将符合所定显著水平的自变量一次一个地加入模型。具体选择程序如下(1 ) 常数(即截距)进入模型。(2 ) 根据公式( 2.6 )计算待进入模型变量的Score检验值,并得到相应的P 值。(3 ) 找出最小的p 值,如果此p 值小于显著性水平, 则此变量进入模型。如果此变量是某个名义变量的单面化 (dummy) 变量,则此名义变量的其它单面化变
11、理同时也进入模型。不然,表明没有变量可被选入模型。选择过程终止。(4 ) 回到 (2) 继续下一次选择。4.2 后向选择( backward selection ):在模型包括所有候选变量的基础上,将不符合保留要求显著水平的自变量一次一个地删除。具体选择程序如下6 / 8.(1) 所有变量进入模型。(2) 根据公式( 2.1 )计算所有变量的 Wald 检验值,并得到相应的 p 值。(3)找出其中最大的p 值,如果此P 值大于显著性水平,则此变量被剔除。对于某个名义变量的单面化变量,其最小p 值大于显著性水平,则此名义变量的其它单面化变量也被删除。不然,表明没有变量可被剔除,选择过程终止。(4
12、) 回到 (2) 进行下一轮剔除。4.3 逐步回归 (stepwise selection)(1) 基本思想:逐个引入自变量。每次引入对影响最显著的自变量,并对方程中的老变量逐个进行检验, 把变为不显著的变量逐个从方程中剔除掉, 最终得到的方程中既不漏掉对影响显著的变量,又不包含对影响不显著的变量。(2) 筛选的步骤:首先给出引入变量的显著性水平和剔除变量的显著性水平,然后按下图筛选变量。(3) 逐步筛选法的基本步骤逐步筛选变量的过程主要包括两个基本步骤: 一是从不在方程中的变量考虑引入新变量的步骤;二是从回归方程中考虑剔除不显著变量的步骤。假设有 p 个需要考虑引入回归方程的自变量. 设仅有
13、截距项的最大似然估计值为。对 p 个自变量每个分别计算Score检验值,设有最小p 值的变量为,且有,对于单面化(dummy)变量,也如此。若,则此变量进入模型,不然停止。 如果此变量是名义变量单面化(dummy)的变量,则此名义变量的其它单面化变量也进入模型。其中为引入变量的显著性水平。 为了确定当变量在模型中时其它p-1 个变量也是否重要, 将分7 / 8.别与进行拟合。对p-1 个变量分别计算Score检验值,其 p 值设为。设有最小 p 值的变量为,且有. 若,则进入下一步,不然停止。对于单面化变量,其方式如同上步。此步开始于模型中已含有变量与。注意到有可能在变量被引入后, 变量不再重要。本步包括向后删除。 根据 (2.1) 计算变量与的 Wald检验值,和相应的 p 值。设为具
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖南省郴州市2024-2025学年八年级下学期5月期中英语试题(含笔试答案无听力答案、原文及音频)
- 建筑施工特种作业-建筑起重机械安装拆卸工(施工升降机)真题库-3
- 日食月食地理题目及答案
- 国家标准关于《机械制图》的基本规定(二)
- 2023-2024学年山东省滨州市高二下学期7月期末数学试题(解析版)
- 2023-2024学年湖南省株洲市炎陵县高二下学期6月期末考试数学试题(解析版)
- 2023-2024学年河南省安阳市林州市高二下学期期末考试数学试卷(解析版)
- 2025届河南省新乡市高三二模语文试题(解析版)
- 2024-2025学年浙江省杭州市联谊学校高二3月月考语文试题(解析版)
- 江苏阿尔法生物制药有限公司新建制剂、生物发酵及机械加工建设项目环评资料环境影响
- 高级卒中中心制度、流程
- 有限空间档案资料系列之二(共九):五项制度,一项规程
- 急性心肌梗死的居家救护和预防侯耀文没有心脏病史课件
- 汽车生产制造公司4M变更控制程序
- 职业生涯人物访谈报告采访教师
- 吊顶工程施工方案810134972
- 学校配电室巡检记录表
- 重庆市(2022年-2023年)初中结业考试地理试题及答案
- 江苏省扬州市邗江中学2023年数学高一下期末监测模拟试题含解析
- 美国街头文化英文ppt
- 处级领导干部进修班结业测试题
评论
0/150
提交评论