Logistic回归模型[综合材料]_第1页
Logistic回归模型[综合材料]_第2页
Logistic回归模型[综合材料]_第3页
Logistic回归模型[综合材料]_第4页
Logistic回归模型[综合材料]_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Logistic回归模型1 Logistic回归模型的基本知识1.1 Logistic模型简介主要应用在研究某些现象发生的概率,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率与那些因素有关。显然作为概率值,一定有,因此很难用线性模型描述概率与自变量的关系,另外如果接近两个极端值,此时一般方法难以较好地反映p的微小变化。为此在构建与自变量关系的模型时,变换一下思路,不直接研究,而是研究的一个严格单调函数,并要求在接近两端值时对其微小变化很敏感。于是Logit变换被提出来: (1)其中当从时,从,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。另外从函数的变形可得如下等价的

2、公式: (2)模型(2)的基本要求是,因变量(y)是个二元变量,仅取0或1两个值,而因变量取1的概率就是模型要研究的对象。而,其中表示影响的第个因素,它可以是定性变量也可以是定量变量,。为此模型(2)可以表述成: (3)显然,故上述模型表明是的线性函数。此时我们称满足上面条件的回归方程为Logistic线性回归。Logistic线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic变换的非线性特征采用极大似然估计的

3、方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。定义1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称OR),形式上表示为OR= (4)定义2 Logistic回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称-2为估计值的拟合似然度,该值越小越好,如果模型完全拟合,则似然值为1,而拟合似然度达到最小,值为0。其中表示的对数似然函数值。定义3 记为估计值的方差-协方差矩阵,为的标准差矩阵,则称 (5)为的Wald统计量,在大样本时,近似服从分布,通过它实现对系数的显著性检验。定义4 假定方程中只有常数项,即各变量的系

4、数均为0,此时称 (6)为方程的显著性似然统计量,在大样本时,近似服从分布。1.2 Logistic模型的分类及主要问题根据研究设计的不同,Logistic回归通常分为成组资料的非条件Logistic回归和配对资料的条件Logistic回归两种大类。还兼具两分类和多分类之分,分组与未分组之分,有序与无序变量之分。具体如下:两分类非条件Logistic回归:分组数据的Logistic回归,未分组数据的Logistic回归;多分类非条件Logistic回归:无序变量Logistic回归,无序变量Logistic回归;条件Logistic回归:1:1型、1:M型和M:N型Logistic回归。关于L

5、ogistic回归,主要研究的内容包括:1 模型参数的估计及检验2 变量模型化及自变量的选择3 模型评价和预测问题4 模型应用2 Logistic模型的参数估计及算法实现2.1 两分类分组数据非条件Logistic回归因变量(反应变量)分为两类,取值有两种,设事件发生记为y=1,不发生记为 y=0,设自变量是分组数据,取有限的几个值;研究事件发生的概率与自变量的关系,其Logistic回归方程为: 或 例2.1.1 分组数据1 在一次住房展销会上,与房地产商签订初步购房意向书的有n=325人,在随后的3个月时间内,只有一部分顾客购买了房屋。购买房屋的顾客记为1,否则记为0。以顾客的年家庭收入(

6、万元)作为自变量,对数据统计后如表2.1.1所示,建立Logistic回归模型。表2.1.1 购房分组数据序号年家庭收入X(万元)签订意向人数实际购买人数11.525822.5321333.5582644.5522255.5432066.5392277.5281688.5211299.51510例2.1.2 药物疗效数据2 为考察某药物疗效,随机抽取220例病人并分配到治疗组和对照组,治疗组采用治疗药物,对照组采用安慰剂。治疗一段时间后观察病人的疗效,得到表2.1.2数据。设y为疗效指标(y=1 有效,y=0无效),为治疗组指标(1为治疗组,0为对照组),为年龄组指标(1为45岁,0为其他)。

7、表2.1.2 药物疗效数据序号治疗分组年龄分组有疗效无效合计111321850210402060301213152400184058上述两个例子数据都是经过统计加工后的分组数据,对此类数据进行Logistic回归,首先要明确应变量对应事件的发生概率如何确定和进行Logit变换,其次才能建立Logistic回归。为便于数据处理,我们将此类数据的格式作个约定,排列格式为(组序号,自变量,该组事件发生数,该组总例数)。表2.1.3 分组数据的标准格式序号年家庭收入X(万元)实际购买人数签订意向总人数11.582522.5133233.5265844.5225255.5204366.5223977.5

8、162888.5122199.51015表2.1.1 改造表序号治疗分组年龄分组有效例数观察例数1113250210406030121524001858表2.1.2 改造表经过改造后,可得我们关心的事件的发生的频率为 。其中为分组数,然后作Logit变换,即。变换后的数据,形式上已经可以采用一般的线性回归的处理方式来估计回归参数了。此时方程变为:当然这样处理并没有解决异方差性,当较大时,的近似方差为: (7)所以选择权重 ,最后采用加权最小二乘法估计参数。注意,分组数据的Logistic回归只适用于大样本分组数据,对小样本的为分组数据不适用,并且以组数为回归拟合的样本量,明显降低了拟合精度,在

9、实际应用中必须谨慎。求解算法及步骤:1依据分组数据的标准格式,计算频率、Logit变换和权重2构建加权最小二乘估计: (8)令 ,则方程又变成一般的线性回归模型: (9)3构造增广矩阵利用消去法得矩阵,得到估计其中为残差平方和, 回归方差各系数检验采用 总平方和,回归平方和总平方和求解相当于拟合方程的残差平方和,故得上式ST所以方程的检验为例2.1.1的求解过程如下(由LLLStat统计软件计算):表2.1.4 数据Logit变换及权重 家庭年收入x实际购买mi签订意向ni比例pi逻辑变换Logit权重ni*pi(1-pi)1.500000 8250.320000-0.753772 5.440

10、000 2.500000 13320.406250-0.379490 7.718750 3.500000 26580.448276 -0.207639 14.344828 4.500000 22520.423077 -0.310155 12.692308 5.500000 20430.465116 -0.139762 10.697674 6.500000 22390.564103 0.257829 9.589744 7.500000 16280.571429 0.287682 6.857143 8.500000 12210.571429 0.287682 5.142857 9.500000 1

11、0150.666667 0.693147 3.333333 表2.1.5 回归模型基本信息 总样本 9 求解方法 加权最小二乘仅常数项beta0 -0.095029 方程F统计量 51.982160 F分布自由度1,7 方程检验p值0.000176 总平方和 8.798294 回归平方和 7.754112 残差平方和 1.044181 表2.1.6 分组Logistic回归系数检验 序号均值回归系数系数标准误t统计量自由度df检验P值常数项 2.837815-0.8488820.113578-7.47399470.000056家庭年收入x14.9011400.1493230.0207117.2

12、0986570.000056表2.1.7 0.086479 -0.014517 -0.014517 0.002876 本例Logistic模型的回归方程:对于多分类无序自变量的Logistic回归,即某个自变量为m个水平的名义变量(如治疗方法A,B,C),只需要引入m-1(2个)个哑变量,然后采用上述方法进行分析。例2.1.3 研究三种治疗方法对不同性别病人的治疗效果2,数据如表2.1.4表2.1.4 性别和治疗法对某病治愈情况的影响性别治疗方法有效无效总例数男A7828106B10111112C6846114女A40545B54559C34640由于治疗方法有三种,没有等级关系,所以属于无序

13、的名义变量,故引入两个哑变量分别代表A和B疗法,其中表示方法A, 表示方法B, 表示方法C,将上述数据转化成标准格式,得表2.1.5。表2.1.5 性别和治疗法对某病治愈情况的影响性别有效总例数1107810610110111210068114010404500154590003440对于分类数据,也可以采用极大似然法进行参数估计,具体见2.2节最后部分内容。2.2 两分类未分组(连续)非条件Logistic回归应变量取值为0和1,设事件发生记为y=1,否则为0,设自变量,n组观测数据记为,。记,则与的Logistic回归模型是: (10)易知,是均值为的0-1型分布,其分布律为 ,则的似然函

14、数和对数似然函数分别为: 代入,得 (11)记,选取的估计使得达到极大,这就是Logistic回归模型的极大似然估计,该过程的求解需要采用牛顿迭代法。构造得分函数,共k+1个非线性方程组,令其=0求解,其中 (12 )构造信息矩阵,即二阶导矩阵的负矩阵,其中 (13 )很明显,故是一个对称矩阵。求解算法及步骤:1 根据公式(12 ) 计算得分函数,公式(13)计算信息矩阵给定初值, k =1 和精度,可取0.0000012 采用牛顿迭代式 , ,通过以下方式求解。构造增广矩阵=,通过对IF矩阵作k+1次ij消去变换求解若 或者 或者 ,则转3否则k = k +1,继续执行第2步3 此时就是回归

15、系数的数值估计,k就是迭代次数,消去变换后的矩阵的前子阵就是方差-协方差矩阵的估计阵=V ,下面给出检验有关计算:计算Wald统计量 ,近似服从分布,检验p值 标准误, , 例2.2.1 公共交通调查数据1 在一次关于公共交通的社会调查中,调查项目为“是乘坐公共汽车上下班,还是骑自行车上下班”。因变量y=1表示乘坐公共汽车,y=0表示骑自行车。自变量是年龄,作为连续变量;是月收入(元);是性别,=1表示男性,=0表示女性。调查对象为工薪族群体,数据如表2.2.1所示。表2.2.1 公共交通社会调查 序号年龄月收入性别交通 y11885000221120000323850014239500152

16、8120001631850007361500018421000019469500110481200001155180001125621000113581800011418850101520100010162512001017271300101828150010193095011203210001021331800102233100010233812001024411500102545180011264810001027521500112856180011以下计算结果采用LLLStat 1.0 软件得到:表2.2.2 主要计算结果序号均值回归系数系数标准误wald统计量自由度df检验p值OR=E

17、xp(B)常数项0.535714-3.6550162.0912233.05476610.0805010.025861年龄1273.2142860.0821680.0521192.48551610.1148991.085639月收入0.4642860.0015170.0018650.66146610.4160431.001518性别36.107143-2.5018441.1578184.66917510.0307090.081934表2.2.3 Logistic模型基本信息总样本28求解方法 极大似然法 & Newton迭代迭代次数(仅beta0) 7(4) -2LogLikelihood(Be

18、ta) 25.970652 仅常数项beta0 -0.143101 -2LogLikelihood(beta0) 38.673263 方程Wald值(相减) 12.702611 方程自由度 4 方程检验p值 0.012824 对于例2.1.3分组数据的极大似然估计法,主要过程如下: 代入,得 则有 ;其中,分别表示分组i中事件发生次数和总观察数,如表2.1.4和2.1.5所示。然后可采用Newton-Raphson迭代法进行求解。由LLLStat计算得到如下结果。表2.2.4 性别和疗法对某病治愈的影响(未分组Logistic似然估计法)序号均值回归系数系数标准误wald统计量自由度df检验P

19、值常数项1.0000001.4183990.29869022.55051310.000002性别0.500000-0.9616180.29979710.28847210.001339治疗A0.3333330.5847450.2641084.90196610.026826治疗B0.3333331.5607630.31596124.40099310.000001表2.2.5回归系数方差矩阵V(beta)(信息矩阵I(Beta)的逆矩阵)0.089215-0.072957-0.029931-0.030097-0.0729570.089878-0.0000780.000128-0.029931-0.0

20、000780.0697530.029993-0.0300970.0001280.0299930.0998312.3 条件Logistic回归2,3条件Logistic回归是配对设计(病例-对照)中常用的一种统计分析方法,通过配对方法收集资料:每一配对组可包括一个病例和一个或多个对照,有1:1型、1:m型配对。假设收集了如下数据:表2.3.1 n个1:m配对组,k个协变量的比例资料 配对组号病例组第1对照组第m个对照组12配对资料用配对的方法来控制影响因素的干扰,并且每个配对组都可以建立一个Logistic回归方程:为此需要估计的参数有n个常数项和k个回归系数,配对数越多估计的参数就越多,但是一

21、般的数据量难以支撑这样的估计,故一般的Logistic回归不适合配对资料。不过在参数估计时,常数项会被消去,所以方程组减少了n个常数项的估计,复杂度大大降低。对于回归参数的估计采用条件似然函数替代一般的似然函数进行。对于第i个配对组而言,共有m+1个观察对象,记为,其中仅有一例发病,且正好是病例组A发病,而对照组均没有发病的条件概率(类似Bayes概率)可以表示成: (14)其中= ,而, (15 )故n个配对组的条件似然函数表示为: (16 )则对数似然函数为: (17)令 ,它是一个与第i个样本点有关的k维向量,表示向量中的第g个元素,则有如下得分函数和信息矩阵:=注意此时的,没有常数项。

22、至此(17)式中的参数可采用Newton-Raphson迭代法求解了,初值依然取为0向量。不过该方程的求解已经相对复杂多了。方程似然度检验和回归系数的wald检验同非条件Logistic回归。例2.3.1 研究肥胖、口服避孕药雌激素与子宫内膜癌的关系,随机抽取20名患者,对于每名患者,在随机抽取年龄相近的正常人作为对照。检测患者与正常人的肥胖程度和雌激素服用情况3。表2.3.1 肥胖和雌激素与子宫内膜癌关系病例-对照研究数据配对组病例肥胖病例雌激素对照1肥胖对照1雌激素对照2肥胖对照2雌激素1110000211110131101114010001500100161100107110111811

23、101191011111001010011010110120101011311001114110010151100011601010117010010181110011910010120110100例2.3.1 求解的主要结果,由LLLStat软件计算得到:表2.3.2 条件Logistic回归系数检验 序号均值(病例)回归系数系数标准误wald统计量自由度df检验P值肥胖0.6500001.8239140.54719211.11039010.000859雌激素0.8500001.5896210.45054412.44836710.000419表2.3.3条件Logistic回归模型基本信息样

24、本量20求解方法极大似然+牛顿迭代迭代次数45-2LogLikelihood(Beta)33.306763-2LogLikelihood(0)43.944492方程Wald值(相减)10.637728方程自由度2方程检验p值0.0048982.4 多分类有序反应变量Logistic回归在实际应用中,经常遇到反应变量为多分类有序变量的情况,例如评价指标分为差、中、良、优等,各等级之间是有序的。这种资料的Logistic回归分析通常称为比例比数模型(累积概率模型) 4,它需要拟合m-1 (m为水平或等级个数)个Logistic回归模型。有序累积概率Logistic模型: 或 (18) (19)有序

25、累积概率模型参数的极大似然估计就是寻找参数使得联合概率实现最大化,由于观测之间相互独立,联合概率被分解成边缘概率之积。而观测到的概率就是累积概率之差:第i个观测值对应似然值的贡献取决于观测到哪一个j值,因此对于次序响应的每个j值,取所有的观测之的乘积,有似然函数:,其中若,则,否则并且对于任一个观测而言,只有一个等级事件发生,即,故有(19)式。其对数似然函数如下(对于分组数据,似然函数变为:,分组中各分类例数)。 (20)其中: (21)然后就可以通过极大似然法,就上Newton-Raphson方法加以求解参数了,注意的是。下面给出具体推导求解的详细过程。对(20)式进行化简,可得 (22)

26、 (23) (24) (25) (26) (27) (28) (29) (30) (31) (32)由此构建信息矩阵和,并可迭代求解了。注:若为分组数据,上述每项乘以。例2.4.1 研究性别和两种治疗方法对某种疾病疗效的影响3,将疗效分成效果显、有效和无效三个等级,根据试验调查,得到如下资料。表2.4.1 性别和两种治疗方法对某种疾病疗效的影响性别治疗方法显著有效无效合计女新药165627传统671932男新药52714传统101011表2.4.2 多分类有序反应变量数据格式行号性别治疗方法频数疗效等级1111612115231163410615107261019370151801229017

27、31000111100021200103计算结果,由LLLStat统计软件给出:表2.4.3 回归系数方差矩阵V(beta)(信息矩阵I(Beta)的逆矩阵) 0.3747330.324880-0.257757-0.1928230.3248800.323782-0.244457-0.169612-0.257757-0.2444570.2894880.069404-0.192823-0.1696120.0694040.236257表2.4.4 有序分类因变量Logistic回归系数检验 序号回归系数系数标准误wald统计量自由度df检验P值常数项a1-2.6935760.61215519.361

28、37710.000011常数项a2-1.8120400.56901810.14105910.001450性别1.0523520.5380413.82552810.050477治疗方法2.1872720.48606320.24980010.000007表2.4.5 有序分类因变量Logistic回归模型基本信息 样本分组数12求解方法极大似然+牛顿迭代迭代次数17注意:该结果与 SAS, DPS不一致。Poisson回归模型1 简介一般情况下,单位容积水中的细菌数,单位时间内某些事件发生的次数,单位面积上降落的灰尘的颗粒数等,都可以用Poisson分布来描述。一般Poisson分布描述成随机变量

29、,概率分布律为:易知,通常可能受到众多因素的影响,不妨假设这些因素为(自变量,协变量),令,对于分组数据,Poisson分布的期望发生数假设为7: (1)其中为回归参数,为第i组的总观测数。回归模型的似然函数为Poisson分布条件下各个格子概率函数的乘积,因此Poisson分布的极大似然函数和对数似然函数具体形式分别为:代入,得 (2)令 (3), (4)则可采用Newton-Raphson迭代法求解参数的极大似然估计了。对于仅有常数项的Poisson模型,其估计值为,用于计算对数似然比。2案例分析例1 3 Doll和Hill(1966)研究英国男性医生患冠心病与抽烟、年龄关系。由于死亡与追

30、踪人数和追踪时间有关,故用追踪人数和追踪时间的乘积(人年)作为观察单位数。假定其目标变量(死亡人数)近似服从Poisson分布,其调查取样共74588调查单位,死亡598例。主要研究因素有抽烟(1为抽烟,0为不抽烟);调查对象年龄分成4组(35-44岁,45-54岁,55-64岁,65-74岁),此为多分类变量,需要设置三个变量加以区分,可将其中一个年龄组作为参照组,不妨取35-44岁,计算时不考虑对照组信息。表1 英国男性医生患冠心病与抽烟、年龄关系分组抽烟34-44岁45-54岁55-64岁65-74岁死亡数总例数11100032523072101001044324831001020628612410001186126635010002187906001001210673700010285710800001282585由LLLStat软件计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论