二分类Logistic回归模型_第1页
二分类Logistic回归模型_第2页
二分类Logistic回归模型_第3页
二分类Logistic回归模型_第4页
二分类Logistic回归模型_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实用标准文档二分类Logistic回归模型在对资料进行统计分析时常遇到反应变量为分类变量的资料,那么,能否用类似于线 性回归的模型来对这种资料进行分析呢?答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的 Logistic 回归模型。第一节模型简介一、模型入门在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析,相信大家并不陌生,当要考察的影响因素较少,且也为分类 变量时,分析者常用列联表 (contingency Table)的形式对这种资料进行整理,并使用

2、 2检验来进行分析,汉存在分类的混杂因素时,还可应用Mantel-Haenszel2检验进行统计学检验,这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性,首先,它虽然可以控制若干个因素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含量的要求较大,当控制的分层因素较多时,单元格被划分的越来越细, 列联表的格子中频数可能很小甚至为0,将导致检验结果的不可靠。最后,2检验无法对连续性自变量的影响进行分析,而这将大大限制其应用范围,无疑是其致使的缺陷。那么,能否建立类似于线性回归的模型,对这种数据加以分析?以最简单的二分类因变量为例来加

3、以探讨,为了讨论方便,常定义出现阳性结果时反应变量取值为1,反之则取值为0。例如当领导层有女性职员、下雨、痊愈时反应变量y 1 ,而没有女性职员、未下雨、未痊愈时反应变量 y 0。记出现阳性结果的频率为反应变量P(y 1)。首先,回顾一下标准的线性回归模型:Y1X1 LmXm如果对分类变量直接拟合,则实质上拟合的是发生概率,参照前面线性回归方程,很自然地会想到是否可以建立下面形式的回归模型:B1X1 LmXm显然,该模型可以描述当各自变量变化时,因变量的发生概率会怎样变化,可以满足 分析的基本要求。实际上,统计学家们最早也在朝这一方向努力,并考虑到最小二乘法拟合时遇到的各种问题,对计算方法进行

4、了改进, 最终提出了加权最小二乘法来对该模型进行拟 合,至今这种分析思路还偶有应用。既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原 因在于有以下两个问题是这种分析思路所无法解决的:(1)取值区间:上述模型右侧的取值范围,或者说应用上述模型进行预报的范围为整个实数集(,),而模型的左边的取值范围为 0 P 1 ,二者并不相符。模型本身不能保证在自变量的各种组合下,因变量的估计值仍限制在。1内,因此可能分析者会得到这种荒唐的结论:男性、30岁、病情较轻的患者被治愈的概率是 300%研究者当然可以将此 结果等价于100%可以治愈,但是从数理统计的角度讲,这种模型显然是极不

5、严谨的。(2)曲线关联:根据大量的观察,反应变量P与自变量的关系通常不是直线关系,而是S型曲线关系。这里以收入水平和购车概率的关系来加以说明,当收入非常低时, 收入的增加对购买概率影响很小; 但是在收入达到某一阈值时,购买概率会随着收入的增加而迅速增加;在购买概率达到一定水平,绝大部分在该收入水平的人都会购车时,收入增加的影响又会逐渐减弱。如果用图形来表示, 则如图1所示。显然,线性关联是线性回归中至关重要 的一个前提假设,而在上述模型中这一假设是明显无法满足的。图1 S型曲线图以上问题促使统计学家们不得不寻求新的解决思路,如同在曲线回归中,往往采用变量变换,使得曲线直线化,然后再进行直线回归

6、方程的拟合。那么,能否考虑对所预测的因变量加以变换,以使得以上矛盾得以解决?基于这一思想,又有一大批统计学家在寻找合适的变换函数。终于,在 1970年,Cox引入了以前用于人口学领域的Logit变换(LogitTransformation),成功地解决了上述问题。那么,什么是 Logit变换呢?通常的把出现某种结果的概率与不出现的概率之比称为比值(odds ,国内也译为优势、比数),即Odds ,取其对数ln(Odds) ln11这就是logit变换。下面来看一下该变换是如何解决上述两个问题的,首先是因变量取值区间的变化,概率是以0.5为对称点,分布在01的范围内的,而相应的logit(P)的

7、大小为:0logit() ln(0/1)oo0.5 logit( )ln(0.5/ 0.5) 01logit() ln(1/ 0)8显然,通过变换,Logit()的取值范围就被扩展为以0为对称点的整个实数域,这使得在任何自变量取值下,对值的预测均有实际意义。其次,大量实践证明,Logit()往往和自变量呈线性关系, 换言之,概率和自变量间关系的 S形曲线往往就符合logit函数关 系,从而可以通过该变换将曲线直线化。因此,只需要以Logit()为因变量,建立包含 p个自变量的logistic 回归模型如下:log it( P) 01X1L pXp以上即为logistic回归模型。由上式可推得:

8、exp( 01X1 Lpxp)1 exp( 01X1 LpXp)11 eXp( 01X1 LpXp)上面三个方程式相互等价。通过大量的分析实践,发现 logistic回归模型可以很好地满足对分类数据的建模需求,因此目前它已经成为了分类因变量的标准建模方法。通过上面的讨论,可以很容易地理解二分类logistic 回归模型对资料的要求是:(1)反应变量为二分类的分类变量或是某事件的发生率。(2)自变量与Logit()之间为线性关系。(3)残差合计为0,且服从二项分布。(4)各观测值间相互独立。由于因变量为二分类,所以logistic回归模型的误差应当服从二项分布,而不是正态分布。因此,该模型实际上

9、不应当使用以前的最小二乘法进行参数估计,上次均使用最大似然法来解决方程的估计和检验问题。二、一些基本概念由于使用了 logit变换,Logistic 模型中的参数含义略显复杂,但有很好的实用价值,为此现对一些基本概念加以解释。1 .优势比如前所述,人们常把出现某种结果的概率与不出现的概率之比称为比值(odds),即Podds 。两个比值之比称为优势比(odds Ratio ,简称OR。首先考察 OR的特性:1 P若 P1P2,贝Uodds1PP2odds21 P 1 F2若 P1P2,贝Uodds1PP2odds21 P 1 P2若 P1P2,贝Uodds1PP2odds21 P 1 P2显然

10、,O幅否大于1可以用作两种情形下发生概率大小的比较。2. Logistic 回归系数的意义从数学上讲,和多元回归中系数的解释并无不同,代表X改变一个单位时logit( P) 的平均改变量,但由于odds的自然对数即为logit变换,因此Logistic 回归模型中的系数 和ORW着直接的变换关系, 使彳导Logistic回归系数有更加贴近实际的解释, 从而也使得该 模型得到了广泛的应用。下面用一个实例加以说明:以4格表资料为例具体说明各回归系数的意义:表1 4格表资料治疗方法(treat)治疗结果(outcome),合计治愈率治愈(=1)未治愈(=0)新疗法(=1)传统疗法(=0)60 (a)

11、21 (c)8174.07%42 (b)27 (d)6960.87%1024813068.00%该资料如果拟合 Logistic 回归模型,则结果如下(操作步骤详见后述):Logit (P | outcome 1)01 treat 0.442 0.608 treat(1)常数项:表示自变量取全为0 (称基线状态)时,比数 (Y=1与Y=0的概率之比)的自然对数值,本例中为00.442 ln(42 / 69) / (27 / 69) ln(42 / 27) ln(b/d),即传统疗法组的治愈率与未治愈率之比的自然对数值。在不同的研究设计中,常数项的具体含义可能不同,如基线状态下个体患病率、基线个

12、体发病率、基线状态中病例所占比例等, 但这些数值的大小研究者一般并不关心。(2)各自变最的回归系数:i(i 1,L p)表示自变量x每改变一个单位,优势比的自然对数值改变量,而 exp( J即OR直,表示自变量Xi每变化一个单位,阳性结果出现概率与不出现概率的比值是变化前的相应比值的倍数,即优势比(注意:不是出现阳性结果的概率为变化前的倍数,即优势比并不等同于相对危险度)。本例中自变量治疗方法的回归系数 1 0.608,为两组病人的治愈率与未治愈率之比的对数值之差,即 ln(60 /81)/(21/81) ln(42 /69)/(27 /69) ln( ad/bc)。因此,对于四格表资料而言,

13、所建立的Logistic 回归模型也可以写成:logit( P | outcome 1) ln(b/d) ln(ad/bc) treat ln(b/d) ln(OR) treat由以上关系可知,exp( 0)表示传统疗法组的治愈率与未治愈之比值。exp( 1)则表示治疗方法增加一个单位, 即将疗法从传统疗法改为新疗法时,新疗法组病人治愈率与未治愈率之比值相对于传统疗法组病人的治愈率与未治愈率比值的倍数。而两组病人的治愈率之比(60/81)/(42 /69) 1.217 ,并不完全相同。但是,当研究结果出现阳性的概率较小时(一般认为小于0.1 ,反之当概率大于 0.9时亦可),OR直大小和发生概

14、率之比非常接近,此时可以近似地说一组研究对象的阳性结果发生率是另一组研究对象发生率的OR直倍,即用OR值的大小来挖地表示相对危险度的大小。三、简单分析实例SPSS中通过regression 模块中的 Binary Logistic过程实现结果变量为二分类的Logistic回归,下面通过一个实例分析,具体讲解相应的操作和结果解释。例1某医师希望研究病人的年龄(岁)、性别(0为女性,1为男性)、心电图检验是否 异常(ST段压低,0为正常、1为轻度异常、2为重度异常)与患冠心病是否有关。调用 SPSS中的 Binary Logistic 过程:图2 Logistic回归主对话框本例中涉及的对话框界面

15、如图9.2所示,注意对话框中部有一个以前未出现过的a*b按钮、用于纳入交互作用,只要先将相应变量选中,然后单击此按钮,相应的交互项就会被纳入模型。本例因较为简单,未用到此功能。性别虽为分类变量,但仅有两个取值水平,所 以可以直接引入模型,结果仍然可以被正常解释。结果如下:首先输出分析中使用的记录数汇总,此处略。表 2 Dependent Variable EncodingOriginal ValueInternal Value未患病0患病1表2为因变量的取值水平编码,SPSS以合模型时默认取值水平高的为阳性结果,对于本例来讲,拟合的模型是logit(P|y=患病)。随后进行模型拟合,首先给出的

16、是模型不含任何自变量,而只有常数项(即无效模型)时的输出结果,标题为: Block 0: Beginning Block 。此时的模型为:exp( 0)exp(0.103) 八log it (p) 0 0.103, P 0.52571 exp( 0) 1 exp(0.103)ObservedPredicted是否患冠心病Percentagea,b表 3 Classification Table未患病患病CorrectStep 0 是否患冠心病未患病037.0患病041100.0Overall Percentage52.6a. Constant is included in the model.

17、b. The cut value is .500表9.3输出的是模型中仅含有常数项(见表4)时计算的预测分类结果,SPSS艮据p值是否大于0.5将观察对象判断为是否出现阳性结果,即是否患冠心病。由于模型中仅含有常数项,因此所有人的预测概率均为样本率估计值P= 0.5257,将所有的观察对象均判断为冠心病。判断正确率为52.6%,实际上就是全部研究对象的患病率41、78=0.5256 (细小差别为四舍五入产生)。也就是说,由于当前样本中大部分人为患病,因此当模型中不包含任何自变量时,样本中所有观察对象皆被预测为患病,总的预测准确率为52.6%。表 4 Variables in the Equat

18、ionBS.E.WalddfSig.Exp(B)Step 0 Constant.103.227.2051.6511.108表4输出结果中B为模型中未引入自变量时常数项的估计值,S.E为其标准误,Wald为2Wald 2,是对总体回归系数是否为 0进行统计学检验。表格中df为其自由度,Sig.为相应的P值。此时的exp(B)为e的0次方。其实际意义为总体研究对象患病率与未患病率的比值。即1.108 =0.5256/0.4744 。表 5 Variables not in the EquationScoredfSig.Step 0 Variables sex6.0211.014ecg7.1111.

19、008age7.7341.005Overall Statistics18.5623.000表5输出了当前未引入模型的变量的比分检验( Score Test )结果,其意义为向当前模 型中引入某变量(如sex时),该变量回归系数是否等于 0的比分检验假设。对于取值水平为 二分类的自变量来说,得分检验的2值等于由该自变量与反应变量构成的四格表的2Pearson 。基于无效模型,现在开始在分析中引入自变量。标题为 Block 1:Method=Enter ” c文案大全Chi-squaredfSig.Step 1 Step21.1143.000Block21.1143.000Model21.1143

20、.000表 6 Omnibus Tests of Model Coefficients由于此处尚未涉及变量筛选的问题,模型中会同时引入三个自变量,自由度=3,此处的2值为似然比 2值,等于上一步(模型中只含有常数项时)的 -2log (似然比值)与当前模型的-2log (似然比值)的差值,参见表 6 。本例286.8113 ( 107.9257) 21.1144。表 7 Model SummaryStep-2 Log likelihoodCox & Snell RSquareNagelkerke R Square186.811 a.237.316a. Estimation terminated

21、 at iteration number 5 because parameter estimates changed by less than .001.表7输出了当前模型的-2log (似然比值)和两个伪决定系数(“伪”,以示与线性回归模型中的决定系数相区别)Cox & SnellR2和Nagelkerke R2。后两者从不同角度反映了当前模型中自恋量解释了反应变量的变异占反应变量总变异的比例。但对于Logistic回归而言,通常看到的模型伪决定系数的大小不像线性回归模型中的决定系数那么大。ObservedPredicted是否患冠心病PercentageCorrect未患病患病Step 1

22、 是否患冠心病未患病患病Overall Percentage2510123167.675.671.8表 8 Classification Table aa. The cut value is .500这是应用引入三个自变量后重新拟合的回归模型进行预测的分类表格,P0.5判断为出现阳性结果。可见已经出现了被预测为未患病的研究对象,此处78例研究对象中共有56(25+31)例判断正确,总正确率为56/78 =71.8%,如表8所示。表9输出了模型中各自变量的偏回归系数及其标准误、Wald 2、自由度、P值,及OR1(即表格最右侧的Exp(B)。由此可以得出结论,男性(sex=1)较女性更容易患冠心

23、病、心电图异常程度越高,越容易被诊断为冠心病,年龄越大的越容易患冠心病。由于年龄不可能为0 ,这也超出了样本所观察的自变量age取值范围,因此这里的常数项无实际意义。表 9 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1 a sex1.356.5466.1621.0133.882ecg.873.3845.1621.0232.395age.093.0357.0001.0081.097Constant-5.6421.8069.7571.002.004a. Variable(s) entered on step 1: sex, ecg, ag

24、e.到此为止,可建立如下 Logistic回归方程:P(y )或 Logit (P)exp( 5.642 1.356 sex 0.873 ecg 0.093 age)1 exp( 5.642 1.356 sex 0.873 ecg 0.093 age)5.642 1.356 sex 0.873 ecg 0.093 age第二节分类自变量的定义与比较方法一、使用哑变量的必要性在回归模型中,回归系数 b表示其他自变量不变,x每改变一个单位时,所预测的 y的平 均变化量,当x为连续性变量时这样解释没有问题,二分类变量由于只存在两个类别间的比 较,也可以对系数得到很好的解释,但是当x为多分类变量时拟合

25、一个回归系数就不太合适了,此时需要使用哑变量(Dummy/ariable )方式对模型加以定义,为说明该问题,先引入 下面的一个实例。例2 Hosmer和LemeshowF 1989年研究了低出生体重婴儿的影响因素。结果变量为是否 娩出低出生体重儿(变量名为LOW 1为低出生体重,即婴儿出生体重 0.05),说明该分类变量对风险率产生的影响在该水平处达到停滞状态。此选择项一般用于有序的分类变量。对无序多分类变量则无实际意义。4 . Helmert :赫尔默特对比。分类变量某水平与其后面各水平平均值进行比较。如果在某水 平系数增大且有统计学意义,说明该分类变量自该水平起开始对风险率产生影响。同样

26、也适用于有序的分类变量。5 .Repeated :重复对比。分类变量的各水平与其前面相邻的水平相比较(第一水平除外),此时以“前一水平”为参照水平。6 .Polynomial :多项式对比。仅用于数字型的分类变量。无效假设是假设各水平是等距离的(可以是线性的关系,也可以是立方、四次方的关系)。例如年龄每增加5岁,娩出低出生体重儿的危险增加幅度是一样的,但实际情况常常与之相反,例如在20岁与30岁年龄段,年 龄都增加5岁,所增加的娩出低出生体重儿的危险肯定是不一样的,具体情况需要根据各人 的研究课题而定。7.Deviation :离差对比。除了所规定的参照水平外,其余每个水平均与总体水平相比。此

27、 时每个水平的回归系数都是相对于总体水平而言的改变量。对于那个参照水平而言,它的回归系数可以通过其他n-1个回归系数算出来,等于0减去其他几个水平回归系数的代数和。即些时n个水平的回归系数的代数和为“ 0”。三、设置哑变量时要注意的问题1 .参照水平最好要有实际意义,否则将会推动比较的目标。如果将一些难以分类的个体放到一起,然后美其名曰“其他”,此时往往不知道已知的某个类别具体在与谁进行比较, 进而导致哑变量的回归系数难以解释。因为不同研究样本中的“其他”往往是不同的,这样研究结果之间难以相互进行比较。2 .参照水平组应有一定的频数作保证。 如果参照水平频数过少,将导致其他与之相对比 的水平参

28、数估计的标准误增大, 进而置信区间扩大,精确度降低。 有学者认为,参照水平组 的频数应不少于30例或50例。3 .如果不通过Categorical模型对分类自变量产生哑变量,而是自己通过Computed程产生,需要注意在逐步回归筛选自变量时,哑变量应该同时进入模型或者同时退出模型。4 .对有序自变量的分析。一是从专业出发,如果认为在不同等级对反应变量的影响程度 是一致的,如文化程度每增加一个等级,成为某项时尚消费品潜在消费者的比数(P/(1-P)的自然对数增加幅度也相同,这时可以将该变量作为连续性变量进行处理,这样得到的模型也更简洁,结果的解释也更方便。 当专业上不能给出以上假设时,则需要先将

29、该有序变量分别以哑变量和连续性变量的方式引入模型,观察各哑变量的回归系数间是否存在等级关系,以及对两个模型进行似然比检验,似然比2值等于两个模型的-2log(L)之差,自由度为两个模型中自变量个数之差,如果似然比检验无统计学意义,且各哑变量的回归系数间存在等 级关系,可以将该自变量作为连续性变量引入模型, 否则最好还是采用哑变量的方式引入模 型。第三节 标准化回归系数和回归模型的拟合优度一、标准化回归系数与多重线性回归类似,自变量量纲(单位)不同,非标准化的logistic回归系数不能用于比较各自变量对事件发生概率的贡献大小。欲研究logistic回归中各变量的相对贡献,要么事先将各自变量标准

30、化后再作回归分析,要么对logistic回归系数进行标准化。我们可以用极大似然估计的回归系数乘以该变量的样本标准差求得logistic回归的标准化回归系数。b bi Sb(16)spss件可以提供回归系数及其变量的样本标准差,但不能直接得到标准化回归系数。在标准化系数问题上要谨慎,应注意标准化的原意是消去不同量纲的影响,增加可比性。对于一些二分类的自变量,不存在量纲问题,则不宜作标准化。另外,一般不利用标准化回归系数估计优势比,因为按标准化回归系数所计算的优势比不是变化一个单位,而是变化一个标准差的优势比了。二、回归模型的拟合优度对回归系数进行假设检验,只能说明logistic回归方程中的回归系数是否有统计学意义,因变量与自变量是否有统计学联系,不表明自变量对因变量变异的解释程度。要说明这一点,如线性回归一样,应对回归方程进行拟合优度评价。Logistic 回归方程拟合优度评价的思路有两种:第一种是希望找到一个评价指标,类 似线性回归中的确定系数 R2,但是logistic回归还没有对应的理想指标;第二种是通过回归方程预测值与实际观测值的吻合程度,说明

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论