logistic回归及其分析攻略_第1页
logistic回归及其分析攻略_第2页
logistic回归及其分析攻略_第3页
logistic回归及其分析攻略_第4页
logistic回归及其分析攻略_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Logistic回归分析攻略,什么是logistic回归,常见的几种回归模型: 因变量为连续资料线性回归 因变量为分类资料Logistic回归 因变量为计数资料Poisson回归 因变量为生存资料 Cox回归 ,什么是Logistic回归,线性回归模型: Logit变换: p表示事件发生的概率,1-p为事件不发生的概率 当p=1时,logit(p)=+, 当p=0.5时,logit(p)=0, 当p=0时,logit(p)=- 故logit(p)的取值范围是(-,+),什么是Logistic回归,Logit变换: 式中等号右边的分数 p/(1-p) 是流行病学常用的描述疾病发生强度的统计指标,

2、称为优势(odds)。 当疾病发生的概率p与不发生的概率q相等皆为0.5时,odds=1,否则odds大于或小于1。,什么是Logistic回归,Logistic回归模型: i表示自变量xi改变一个单位时,logit(p)的改变量。 其它形式:,什么是Logistic回归,Logistic回归的主要用途: (1)寻找某现象发生的影响因素。 (2)校正混杂因素。 (3)确定不同因素对疾病发生影响的相对重要性。 (4)预测。,logistic回归参数估计,logistic回归参数估计,最大似然估计(maximum likelihood estimation,MLE) 最大似然法就是选取使总体参数落

3、在样本观察值领域里的概率达到最大时的值作为参数的估计值。 故上述问题的最大似然函数是: 两边取对数,变为,logistic回归参数估计,对Q分别求关于0和1的一阶偏导数,并令一阶偏导数等于0,得到两个关于0和1的二元一次方程,解该方程组,便得到回归系数0和1的最大似然估计值:,logistic回归参数估计,暴露人群的优势为p1/(1p1) 非暴露人群的优势为p2/(1p2) 二者之比,称为优势比(odds ratio,OR) 对OR求对数,得,logistic回归分析思路,1、分析前准备是否可以用logistic回归: 研究目的: 寻找某现象的危险因素吗? 预测? 多因素分析? 因变量类型:

4、是分类变量吗?二分类或多分类均可,logistic回归分析思路,2、分析前准备自变量形式审查: (1)暴露因素(自变量) x是二分类变量时: 直接纳入模型 通常赋值为:暴露时x=1,非暴露时x=0 此时logistic回归模型中的系数是1(暴露)与0(非暴露)相比的优势比的对数值。 此时e表示1(暴露)与0(非暴露)相比,事件发生的危险,即OR值,logistic回归分析思路,(2)暴露因素(自变量) x是多分类变量时: 常用1,2,3,k分别表示k个不同的类别。 进行logistic回归分析时,将变量转换为k-1个虚拟变量或哑变量(dummy variable),每个虚拟变量都是一个二分类变

5、量,通常用0和1表示。 每个虚拟变量各有一个回归系数,其意义表示1与0相比的优势比的对数值,logistic回归分析思路,例如,血型x为A、B、AB、O四个值,以1、2、3、4来表示,该数字只是一个代码,并非是一个等级变量。 在logistic回归分析时,需将变量x转换为3个虚拟变量。若以A型血为参照组,3个虚拟变量分别为x1、x2、x3。 在分析时,将3个虚拟变量x1、x2、x3同时纳入logistic回归模型,可得3个回归系数1、2、3,其中, 1为B型血与A型血相比患白血病的优势比的对数值; 2为AB型血与A型血相比患白血病的优势比的对数值; 3为O型血与A型血相比患白血病的优势比的对数

6、值。,logistic回归分析思路,为什么多分类自变量要用虚拟变量的形式?,logistic回归分析思路,(3)暴露因素(自变量) x是连续变量时,最好将其转化为分类变量 为什么?,logistic回归分析思路,分析年龄与高血压发生与否的关系:age2是原始的年龄数据,age1是年龄分组数据(分为=60三个年龄组),logistic回归分析思路,直接用连续变量age分析,结果如下: 提示年龄无统计学意义,logistic回归分析思路,用分类变量age1分析,结果如下: 年龄50-59与50相比,有统计学意义。,logistic回归分析思路,仔细看一下二者关系,可以发现,年龄和高血压发生是二次项

7、关系,中间高,两头低,如果直接纳入模型,作为线性关系,便无统计学意义,logistic回归分析思路,3、正式分析单因素分析和多因素分析: 必须进行单因素分析吗? 并无一致结论。但一般建议可通过大致了解各自变量的作用,同时探索各自变量与因变量的关系 多因素分析策略: 理清多个自变量之间的关系 最适合新手的简易方法:逐步回归,logistic回归分析思路,4、正式分析参数估计和检验: 利用统计软件,求出参数估计值 参数估计方法 最大似然法(maximum likelihood,ML) 参数检验方法 似然比检验(likelihood ratio test)、得分检验(score test)、Wald

8、 2检验,logistic回归分析思路,Wald 2检验:参数估计值与标准误之比的平方 似然比检验:比较两个嵌套模型的对数似然值,如模型A中含a、b两个变量,模型B中含a一个变量,如果两个模型有差异,提示b可能有统计学意义。 Score检验(也称拉格朗日乘数检验、求导检验):检验无效假设成立时对数似然函数的效率,logistic回归分析思路,5、建立初步模型: 根据参数估计值,建立初步模型,logistic回归分析思路,6、善后工作模型评价: (1)Pearson 2 比较预测值和观测值的差别 oj和ej分别为第j类交叉组合中的观测频数和预测频数 若2值很小,意味着观测频数和预测频数无“显著差

9、别”,模型很好地拟合了数据。,logistic回归分析思路,(2)Deviance比较饱和模型和现有模型的差别 饱和模型包含了所有的变量,其模型估计值与观测值完全相等,反映一种理想状态。 Deviance值越小,现有模型与饱和模型的偏差越小,拟合效果越好。,logistic回归分析思路,(3)HL指标用于模型中含有连续自变量的情形 HL统计量根据预测概率值大小将所有数据排序,大致分为规模相同的10组,比较观测值与预测值的差异 2检验不显著表示拟合较好,反之表示拟合不好。,logistic回归分析思路,(4)AIC、SC用于多个模型之间的拟合优度比较 AIC =(- 2 ln L)+2(qs)

10、AIC指标通常不用于单个模型的评价,而是用于两个或多个模型拟合优度的比较。较小的AIC值表示拟合模型较好。 SC(Schwartz Criterion)标准是对AIC指标的一种修正: SC =(- 2 ln L)+2(qs)* ln(n) SC与AIC一样,都是值越小表示模型拟合越好,均可用于嵌套或非嵌套的模型比较。,logistic回归分析思路,(5)广义确定系数R2自变量对因变量的解释能力,值越大,表示自变量对因变量的解释能力越强。当自变量与因变量完全无关时,其值近于0;当拟合模型能够完美预报时,其值趋近于1。 校正 SAS中,R2显示为“RSquare”,校正后的R2显示为“Max-re

11、scaled RSquare”,logistic回归分析思路,7、善后工作模型诊断: (1)多重共线性(multi-collinearity),即自变量之间高度相关 常用评价指标: 容忍度(tolerance):小于0.1时,可能存在共线性 方差扩大因子(variance inflation factor, VIF):大于10时,可能存在共线性,logistic回归分析思路,(2)异常点诊断 离群点(outliers):因变量预测值与实际值差别较大。 常用诊断指标为Pearson残差和Deviance残差。 如果这两个指标绝对值大于2,说明相应观测可能拟合较差,常诊断为离群值。 杠杆点(hig

12、h leverage points):自变量远离其它值。 常用诊断指标为杠杆值hi。 若模型中有m个自变量,所有杠杆值的合计等于m+1,平均值为(m+1)/n。当hi2(m+1)/n时,第 个观测可看作高杠杆点。,logistic回归分析思路,(2)异常点诊断 强影响点(influential points):对模型估计影响较大。 常用诊断指标为Cook距离(Cooks Distance)。 如果第i个观测的Cook距离远大于其他观测的Cook距离,意味着该点可能既是离群点,又是高杠杆点,因此很可能是一个强影响点。,logistic回归分析思路,(3)其它问题 空单元(zero cell co

13、unt):自变量各水平的交叉列联表中有些单元(格子)的观测频数为0 完全分离(complete separation):若自变量 存在一临界值c,当xic时,事件发生,而xic时,则事件不发生。 过离散(overdispersion):测量方差大于期望方差,原因:重要变量未纳入、异常值、变量相关等,logistic回归分析思路,8、建立最终模型模型解释与应用 i表示自变量xi改变一个单位时,logit(p)的改变量。而系数的实际含义取决于自变量x改变“一个单位”的专业意义。 OR=e,反映了暴露与非暴露相比结局发生的风险有多高。,Logistic回归的SAS过程,proc logistic ;

14、 class 自变量 ; model 因变量=自变量 ; freq 变量; roc 标签 变量; roccontrast reference (标签) ; output out=数据集名 关键词1=变量1 关键词2=变量2 ; run;,Logistic回归的SAS过程,【proc logistic】语句的2个关键选项:,Logistic回归的SAS过程,【class】语句的关键选项:,Logistic回归的SAS过程,【model】语句: 通常写法为:model y=x;(y为因变量,x为自变量) 如果已知因变量y的赋值(如1和0),如果想分析的是对1求解,而不是0,可在y后加入event=

15、选项,如: model y(event=“1”)=x; 这种写法与【proc logistic】语句中的desc选项类似,但可以避免弄混顺序,更为方便。,Logistic回归的SAS过程,【model】语句的几个重要选项: (1)变量筛选选项 selection= 指定变量选择方法,如前进法(forward)、后退法(backward)、逐步法(stepwise)、最优子集法(scores)等,默认为none slentry= 变量选择方法为forward或stepwise时,用来指定变量入选标准,默认值为0.05 slstay= 变量选择方法为backward或stepwise时,用来指定变

16、量剔除标准,默认值为0.05,Logistic回归的SAS过程,(2)拟合优度选项 lackfit 输出Hosmer-Lemeshow(HL)拟合优度指标 aggregate 该语句与scale= 语句合用,可输出Pearson 2和Deviance值 scale= 用于过离散(over dispersion)的校正。过离散情形主要出现于聚集现象或非独立数据,主要表现为估计方差大于名义方差,可通过scale=pearson或scale=deviance进行调整。 rsquare 输出广义R2,类似于多重线性回归中的决定系数,Logistic回归的SAS过程,(3)模型诊断选项 influenc

17、e 输出一系列的模型诊断指标,如Pearson残差、Deviance残差、帽子矩阵对角线、dfbeta和Cook距离等 iplots 输出各诊断指标的诊断图,以便更直观地发现异常点 (4)其它选项 stb 输出标准化回归系数,可用于单位不同的变量之间作用大小比较,Logistic回归的SAS过程,(5)诊断试验相关选项 ctable 采用刀切法(jackknife)输出模型判断分类表,根据pprob=选项所指定的概率标准值,对二分类因变量进行判断分类。 pprob= 指定一个或一系列的概率标准值,当用ctable选项时,根据预测概率的大小把自变量预测情况分为两类。如果预测概率大于标准值,则判断

18、为病例,否则判断为非病例。通常取值为0.5 outroc= 指定一个数据集,包含产生ROC曲线所需的数据。结合ods命令可绘制ROC曲线,Logistic回归的SAS过程,【freq】语句 在变量逐列输入的时候用不上,当数据输入是列联表形式时,需要用该语句指定每一类别的频数。 【roc】语句( roc 标签 变量) 指定用于ROC曲线分析的变量,标签部分自行指定,主要为了对变量做说明。 如果不指定标签,则ROC曲线名称默认为“ROCi”(i=1,2,3,)。,Logistic回归的SAS过程,【roccontrast】语句( roccontrast reference (标签) ) 用于比较不

19、同指标的ROC曲线下面积,也可用于比较不同模型的ROC曲线下面积。 reference结合后面的标签用于指定被比较的参照变量,参照变量的标签必须与roc语句中变量的标签相同。 如果reference后不指定任何标签,则默认为与模型的ROC曲线比较。这里的模型在不同自变量个数的情况下有不同含义,当模型中只有一个诊断指标,则单个指标的ROC曲线等同于模型的ROC曲线;当模型中有多个诊断指标,模型的ROC曲线为多个指标联合诊断的ROC曲线。 该语句主要选项:estimate,输出ROC曲线下面积比较的假设检验,Logistic回归的SAS过程,【output】语句 用于输出一些统计量,如预测值、残差

20、等。其基本形式为: output out=myout pred=mypred; 其中,out=后的myout是自己对输出数据集起的名字,通过 proc print data=myout; 可以输出该数据集。 pred是固定的统计量名称,表示预测概率,mypred是对输出的预测概率起的变量名,logistic回归中的混杂因素,混杂因素的识别: (1)该因素对结局有影响,可利用单因素logistic回归或2检验来验证。 (2)该因素在分析因素中的分布不均衡,可用2检验验证一下。 (3)从专业角度来判断,即该因素不能是分析因素与结局关系的一个中间环节。也就是说,不能是分析因素引起该因素,通过该因素再

21、引起结局。这一点主要根据专业知识来确定。 如果同时满足这三个条件,基本可以断定是混杂因素。如果有一条不满足,该因素就不是混杂因素。,logistic回归中的混杂因素,例2:分析性别、吸烟对幽门螺杆菌(HP)的影响,判断吸烟是否是混杂因素,logistic回归中的混杂因素,(1)判断吸烟是否对Hp有影响:单因素logistic回归 提示:吸烟对Hp的发生有一定影响,吸烟发生的危险更高一些,logistic回归中的混杂因素,(2)判断吸烟在不同性别中分布是否不同:卡方检验 提示:吸烟在性别中分布不同,男性中比例更高,logistic回归中的混杂因素,未校正吸烟因素,性别分析结果,校正吸烟因素后,性

22、别分析结果,logistic回归中的混杂因素,不吸烟的人之中,性别的分析结果,吸烟的人之中,性别的分析结果,交互作用与混杂因素的区别,混杂因素是指这样的因素:由于该因素在分析因素中分布不均衡,从而扭曲了分析因素与结局的关系,导致分析因素与结局出现了一种虚假的联系。 交互作用则是指这样的因素:在该因素的不同水平(不同取值),分析因素与结局的关联大小有所不同。在一水平上(如取值为0)可能分析因素对结局的效应大,而在另一水平上(如取值为1)可能效应小。 混杂因素所造成的是一种虚假现象,我们应尽力消除混杂以还原分析因素与结局的真正联系。而交互作用则是一种真实存在的现象,我们应尽力寻找以给出更好的解释。

23、,logistic回归中的交互作用,例3:分析幽门螺杆菌(HP)、Cox-2对胃癌进展的影响,并考虑二者的交互作用,logistic回归中的交互作用,交互作用有统计学意义,二者估计值为正,提示二者可能存在正向交互作用,logistic回归中的交互作用,Hp阴性人群: Hp阳性人群:,logistic回归中的交互作用,所有人群:Hp阴性人群+Hp阳性人群,logistic回归中的交互作用,Cox-2阴性人群: Cox-2阳性人群:,logistic回归中的交互作用,所有人群: Cox-2阴性人群+ Cox-2阳性人群,logistic回归中的交互作用,Hp与Cox-2的分布情况,logistic

24、回归案例分析,例1:某妇幼保健院采用病例对照研究探索乳腺增生的影响因素。随机抽取某年在本院就诊的200名乳腺增生患者及200名非乳腺增生患者,采用问卷调查法对各种可能的影响因素进行调查,以探索乳腺增生的危险因素。,logistic回归案例分析,logistic回归案例分析,1:自变量形式考察 data aa; input y age chage rs lc mr; cards; ; proc logistic plots(only)=(effect(link join=yes); /*plots选项输出logit p与多分类的关系*/ class rs/param=reference ref=

25、first; model y(event=1)=rs; run; proc logistic plots(only)=(effect(link join=yes); class lc/param=reference ref=first; model y(event=1)=lc; run;,图1 妊娠次数和流产次数与logit P的关系,logistic回归案例分析,非线性,考虑虚拟变量,线性,可直接纳入方程,logistic回归案例分析,2:单因素分析 proc logistic desc; model y=age; proc logistic desc; model y=chage; pro

26、c logistic desc; class rs(param=reference ref=first); model y=rs; proc logistic desc; model y=lc; proc logistic desc; model y=mr; run;,logistic回归案例分析,2:单因素分析,logistic回归案例分析,单因素分析初步结论: 由于年龄的影响在单因素分析中无统计学意义,且OR值也较为接近1,在多因素分析中不再考虑年龄因素,仅对其它4个因素进行分析。,logistic回归案例分析,3:多因素分析(去掉年龄) proc logistic desc; class

27、 rs(param=reference ref=first); model y=chage rs lc mr; run;,多因素分析结果:,logistic回归案例分析,多因素分析小结: 为什么rs变得无统计学意义了? 相关分析结果显示,妊娠次数与流产次数具有较强的相关性(r=0.55,P0.001)。,logistic回归案例分析,多因素分析小结: 可以设想,妊娠次数对乳腺增生可能并无影响或影响很小,单因素中的影响可能主要是通过流产次数这一因素起作用的,当多因素分析中校正了流产次数的影响后,妊娠次数的影响变得无统计学意义。 将妊娠次数这一变量去掉,重新拟合方程。,logistic回归案例分析

28、,logistic回归案例分析,去掉妊娠次数后重新拟合,同时评价模型的拟合优度 proc logistic desc; model y=chage lc mr/ aggregate scale=none; run;,模型中所有变量均有统计学意义。 与含rs变量的模型相比,AIC和SC均降低,似然比差别很小。 说明去掉rs后模型更优 含rs模型 不含rs模型,logistic回归案例分析,模型的拟合优度评价: P值小于0.05,提示拟合不充分 指标值距离1较远,提示可能有过离散现象存在,意味着可能结果存在假阳性,logistic回归案例分析,模型诊断: proc logistic desc; m

29、odel y=chage lc mr/aggregate scale=none influence; run;,logistic回归案例分析,模型诊断图(部分):并无明显的异常点,logistic回归案例分析,进一步考虑是否可能存在交互效应: 考虑母乳喂养与初产年龄的交互作用 proc logistic desc; model y=chage lc mr chage*mr/aggregate scale=none; run;,logistic回归案例分析,初产年龄与母乳喂养可能存在一定的交互效应 为什么mr和chage变得无统计学意义? 一旦模型中加入交互项,变量便不再反映主效应,而是单独效应

30、。此时mr反映的是chage=0时的效应,同样,chage反映的是mr=0时的效应。,logistic回归案例分析,交互项的进一步解释: 对于母乳喂养的人(mr=0),初产年龄=25与初产年龄=25与初产年龄25岁的人相比,其效应(参数估计值)为0.2717+1.4587=1.7304。,logistic回归案例分析,如果想详细了解mr和chage两个变量组合的效应,可将这两个变量组合,即(chage=0,mr=0)、(chage=0,mr=1)、(chage=1,mr=0)、(chage=1,mr=1)四类。 将该四分类变量做成虚拟变量,本例,初产年龄小、母乳喂养风险相对较低,将其作为参照组

31、,产生三个虚拟变量。 这三个虚拟变量分别为: (chage=0,mr=1)相对( chage=0,mr=0 )的风险(即非母乳喂养的风险) (chage=1,mr=0 )相对(chage=0,mr=0 )的风险(即初产年龄=25的风险) (chage=1,mr=1 )相对(chage=0,mr=0 )的风险(即非母乳喂养和初产年龄=25共同的风险)。,logistic回归案例分析,DATA example8_6; INPUT y age chage rs lc mr; IF chage=1 and mr=0 THEN cm1=1;else cm1=0; IF chage=0 and mr=1

32、THEN cm2=1;else cm2=0; IF chage=1 and mr=1 THEN cm3=1;else cm3=0; cards; ; proc logistic desc; model y=lc cm1 cm2 cm3/aggregate scale=none; run;,logistic回归案例分析,cm1反映的是chage的作用。 cm2反映的是mr的作用。 cm3的参数估计值1.4324则等于(0.2714-0.2977+1.4587),包括chage的效应、mr的效应及chage和mr的交互作用共三部分效应。,logistic回归案例分析,此时拟合优度仍显示结果并非很理想 这种情况并不少见,与很多原因有关,如变量不充分、数据收集本身的问题等 但加入交互项后,与不加相比,拟合效果相对更优 不加交互项的模型 加入交互项的模型,logistic回归案例分析,考虑到仍可能存在过离散现象,最终可对过离散进行校正,这里采用Pearson法进行校正 proc logistic desc; model y=lc cm1 cm2 cm3/aggregate scale=pearson; run;,logistic回归案例分析,校正后,参数估计值不变,但标准误变大,相应的P值变大,可以避免假阳性错误,logistic回归案例分析,本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论