十三、logistic回归模型_第1页
十三、logistic回归模型_第2页
十三、logistic回归模型_第3页
十三、logistic回归模型_第4页
十三、logistic回归模型_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、v 内容提要内容提要 非条件非条件logistic回归回归模型简介模型简介简单分析实例简单分析实例哑变量设置哑变量设置自变量的筛选方法与逐步回归自变量的筛选方法与逐步回归模型拟合效果与拟合优度检验模型拟合效果与拟合优度检验模型的诊断与修正模型的诊断与修正 条件条件logistic回归回归对分类变量的分析,当考察的影响因素较少,且也为分类对分类变量的分析,当考察的影响因素较少,且也为分类变量时,常用列联表(变量时,常用列联表(Contingency Table)进行整理,)进行整理,并用并用 2检验或分层检验或分层 2检验进行分析,但存在以下局限性:检验进行分析,但存在以下局限性: 无法描述其作

2、用大小和方向,更不能考察各因素间是否无法描述其作用大小和方向,更不能考察各因素间是否有交互作用;有交互作用; 当控制的分层因素较多时,将导致检验结果不可靠;当控制的分层因素较多时,将导致检验结果不可靠; 2检验无法对连续性自变量进行分析检验无法对连续性自变量进行分析(致命缺陷)(致命缺陷)。模型简介模型简介logistic回归模型适合于应变量为二项分类的资料,回归模型适合于应变量为二项分类的资料,在医学研究领域中的应用广泛。如流行病病因学研在医学研究领域中的应用广泛。如流行病病因学研究(包括队列研究、病例对照研究、横断面研究究(包括队列研究、病例对照研究、横断面研究等)、临床疗效研究(如疗效与

3、治疗方法、患病轻等)、临床疗效研究(如疗效与治疗方法、患病轻中重等因素关系)、卫生服务研究(如是否就诊与中重等因素关系)、卫生服务研究(如是否就诊与性别、年龄、文化程度的关系)等等。性别、年龄、文化程度的关系)等等。模型简介模型简介一、问题的提出一、问题的提出 举例:举例:分析分析 “ “新生儿出生体重新生儿出生体重”的影响影的影响影响响, , 如果以新生儿出生时的体重为因变量,如果以新生儿出生时的体重为因变量,采用线性回归分析的方法。采用线性回归分析的方法。 线性回归分析:因变量线性回归分析:因变量Y是连续性随机变量是连续性随机变量,并且呈正态分布,理论上因变量必须能够并且呈正态分布,理论上

4、因变量必须能够在在到到+ 之间自由取值之间自由取值 问题的提出(续)问题的提出(续) 但在医学研究中常碰到因变量的取值仅有但在医学研究中常碰到因变量的取值仅有两个两个, 如是否发病、死亡或痊愈等;如是否发病、死亡或痊愈等; 分析分析“母亲怀孕期间体重增加母亲怀孕期间体重增加”对对“新生新生儿出生低体重儿出生低体重”的影响的影响二、概念的引入二、概念的引入 如按线性回归思想建立模型:如按线性回归思想建立模型: P P= +X= +X P P的意义是发生出生低体重的概率的意义是发生出生低体重的概率 在线性回归模型中在线性回归模型中,X,X的取值是任意的的取值是任意的,P,P值值可能大于可能大于1

5、1或小于或小于0,0,无法从医学意义进行解无法从医学意义进行解释释, , 显然不适宜用线性回归建立预测模型。显然不适宜用线性回归建立预测模型。 为避免为避免P值大于值大于1或小于或小于0, 我们对我们对P进行进行logit(即(即logistic)变换)变换, 把把logit(P)作为因变量,即)作为因变量,即 : Logit(P)=ln p/(1-p) = + x logit(P)可以从)可以从到到+ 之间取任何值之间取任何值 如:计算如:计算logit(0.1),),logit(0.95) logit(0.1)=ln(0.1/0.9)=-2.20 logit(0.95)=ln(0.95/0

6、.05)=2.941如果以如果以logitP为因变量,暴露因素为因变量,暴露因素X为自变量,建立直线回归方为自变量,建立直线回归方程:程: Logit P = + x 由由 Logit P = ln p/(1-p) 可导出可导出: ln p/(1-p) = + x (1) 即单因素线性即单因素线性LOGISTIC 回归模型公式;回归模型公式; “p=在暴露变量在暴露变量E下有病下有病D的概率的概率 ” 解解(1)式中以式中以p为反应变量的方程,得:为反应变量的方程,得: (2) 即单因素曲线即单因素曲线LOGISTIC 回归模型公式。回归模型公式。 xxee1单因素单因素LOGISTIC模型参

7、数的解释模型参数的解释 ln p/(1-p) = + x :与变量:与变量 x x 无关的因素的影响无关的因素的影响 :自变量:自变量 x x 的回归系数,大小由因素的回归系数,大小由因素 x x 决定。决定。 = 0 = 0 表明表明 P P与与 x x 无关,无关, 发病不由因素发病不由因素 x x 决定;决定; 0 0 表明表明 P P与与 x x 有关,有关, 变量变量 x x 是疾病发生的危险因素;是疾病发生的危险因素; 0 1 OR 1 表明疾病表明疾病D D与因素与因素 x x 有关,变量有关,变量x x是疾病发生的危险是疾病发生的危险因素;因素;OR 1 OR 0: 表明表明

8、P与与 xi 有关,有关, 变量变量 xi是疾病发生的危险因素;是疾病发生的危险因素; i 0: 表明表明 P 与与 xi 有关,有关, 变量变量 xi 是疾病发生是疾病发生 的保护因素。的保护因素。1212ln/(1)iippxxx 反应变量为二分类变量或某事件的发生率;反应变量为二分类变量或某事件的发生率; 自变量与自变量与logit(P)之间为线性关系;)之间为线性关系; 残差合计为残差合计为0,且服从二项分布;,且服从二项分布; 各观测间相互独立。各观测间相互独立。模型简介模型简介适用条件适用条件v logistic logistic回归模型应该使用最大似然法来解决方程的回归模型应该使

9、用最大似然法来解决方程的估计和检验问题,不应当使用以前的最小二乘法进行参数估计和检验问题,不应当使用以前的最小二乘法进行参数估计。估计。举例举例 1. 定群研究资料分析定群研究资料分析弗明汉心脏研究弗明汉心脏研究 742名居住在弗明汉年龄为名居住在弗明汉年龄为40-49岁的男岁的男性,在各自暴露不同水平的影响因素性,在各自暴露不同水平的影响因素(详见详见下表中的下表中的7种因素种因素),经,经12年追踪观察年追踪观察CHD发病情况。根据此发病情况。根据此742名受试者每人暴露各名受试者每人暴露各项因素的水平和项因素的水平和CHD发病与否的资料,采发病与否的资料,采用多因素用多因素LOGISTI

10、C回归模型进行分析,结回归模型进行分析,结果见表果见表1。表表1. CHD危险因素定群研究危险因素定群研究(12年追踪观察结果)年追踪观察结果)变量变量参数参数 i i估计值估计值 i标准误标准误标化标化 i截距截距 0-13.2573 年龄年龄(岁岁) 10.12160.04370.3370胆固醇胆固醇(mg/dl) 20.00700.00250.3034BP(mmHg) 30.00680.00600.1320相对体重相对体重(W/H) 40.02570.00910.3458血红蛋白血红蛋白(mg%) 5-0.00100.0098-0.0012吸烟吸烟(0,1,2,3) 60.42230.1

11、0310.4952ECG(0,1) 70.72060.40090.1750 根据表根据表1结果,可建立的结果,可建立的CHD影响因素的影响因素的Logistic回归模型,回归模型,公式如下公式如下:p=1/1+exp-(-13.2573 + 0.1216x1 + 0.0070 x2 + + 0.7206 x1)该多因素该多因素LOGISTIC回归分析模型的用途回归分析模型的用途:(1) 确定研究因素的性质确定研究因素的性质: 根据根据 值的正和负,确定所分析因素是危险因素还是保护因值的正和负,确定所分析因素是危险因素还是保护因素。表中素。表中7种因素中,除血红蛋白为保护因素外,其他均为危险因种

12、因素中,除血红蛋白为保护因素外,其他均为危险因素。素。(2) 计算描述因素与疾病间联系强度指标计算描述因素与疾病间联系强度指标OR值的大小值的大小:(A) 由于胆固醇的由于胆固醇的 值为值为0.0070,根据估计,根据估计OR值的公式计算值的公式计算CHD与胆固醇的联系强度为:与胆固醇的联系强度为: OR = e 3 e0.0070 = 1.007 表明胆固醇上升表明胆固醇上升1mg/dl时,时,CHD发病是原胆固醇水平的发病是原胆固醇水平的1.007倍。倍。 (B) 当当ECG的的 值为值为0.7206时,根据估计时,根据估计OR值的公值的公式计算式计算CHD与与ECG异常的联系强度为:异常

13、的联系强度为: OR = e 7 = e 7 X 1 / e 7 X 0 = e 7 X (1-0) = e0.7206 = 2.056 表明表明ECG异常者异常者CHD发病是正常者的发病是正常者的2.056倍。倍。 (3) 比较各变量对方程贡献的大小比较各变量对方程贡献的大小: 根据标化的根据标化的 值大小,确定各因素对值大小,确定各因素对CHD发病影响的发病影响的大小。在此项研究中,危险因素中吸烟对方程贡献最大大小。在此项研究中,危险因素中吸烟对方程贡献最大,其他依次为相对体重、年龄、,其他依次为相对体重、年龄、 胆固醇、胆固醇、ECG和和BP。4) 用于预测发病率用于预测发病率: 可根据

14、该公式预测某人在不同因素暴露条可根据该公式预测某人在不同因素暴露条件下件下CHD的发病率。如某受试者的发病率。如某受试者A暴露于因暴露于因素素xi的情况为:的情况为: X(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者利用该模型计算该受试者A在暴露上述各种研在暴露上述各种研究因素的条件下,究因素的条件下,12年间年间CHD的发病率为:的发病率为: PA1 = 1/1+exp-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0) = 1/1+exp(-2.9813) = 0.048 (5) 预测发病风险预测

15、发病风险: 例例1: 如上述受试者如上述受试者A暴露于因素暴露于因素 xi 的情况变为:的情况变为: X(45, 210, 130, 100, 120, 3, 0) 即其由不吸烟变为每日吸烟即其由不吸烟变为每日吸烟1包以上包以上(x6=3),可利用,可利用该模型估计受试者该模型估计受试者A在其他各种研究因素暴露不变的在其他各种研究因素暴露不变的条件下,其因改变吸烟行为而在条件下,其因改变吸烟行为而在12年间年间CHD的发病的发病率上升为:率上升为: PA2 =1/1+exp-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.42223 x 3 + 0.72

16、06 x 0) = 1/1+exp(1.7144) = 0.1526 则受试者则受试者A因改变吸烟行为,其在因改变吸烟行为,其在12年间发生年间发生CHD风险将上升为原来的风险将上升为原来的3.16倍。可用相对危险度倍。可用相对危险度RR公公式进行计算,即:式进行计算,即: RR PA2 / PA1 = 0.1526 / 0.048 = 3.16应用多变量应用多变量logistic回归注意事项回归注意事项(1)因变量必须是二分变量,或任何取值为)因变量必须是二分变量,或任何取值为0或或1的属性数据。的属性数据。(2)logistic回归分析对自变量的正态性、方差回归分析对自变量的正态性、方差齐

17、性不作要求,对自变量类型也不作要求。齐性不作要求,对自变量类型也不作要求。 但应注意自变量与但应注意自变量与logit y之间应符合线性关系。之间应符合线性关系。如自变量为连续变量,且与如自变量为连续变量,且与logit y之间不存在之间不存在线性关系,应作适当变量转换,否则参数估计线性关系,应作适当变量转换,否则参数估计会发生偏倚,结论不可靠。会发生偏倚,结论不可靠。 如果自变量为定量指标:如果自变量为定量指标: (1)同时自变量与)同时自变量与logit y之间为线性关系,之间为线性关系,则可以直接以原变量的形式进入分析;则可以直接以原变量的形式进入分析; (2)如果自变量与)如果自变量与

18、logit y之间为非线性关系,之间为非线性关系,则需做适当转换,如则需做适当转换,如x2,log(x),),ex等。等。 也就是说,如果自变量是定量指标的话,在进行回归也就是说,如果自变量是定量指标的话,在进行回归分析之前一定要首先判断此变量是否与结局变量分析之前一定要首先判断此变量是否与结局变量logit y之间呈线性关系;定性或等级指标则不用考虑这个问之间呈线性关系;定性或等级指标则不用考虑这个问题。题。 如果自变量为定性指标:如果自变量为定性指标: (1)如果自变量为二分类变量,常用)如果自变量为二分类变量,常用0,1或或1,2表示。如表示。如x为性别指标,为性别指标,0代表代表女性,

19、女性,1代表男性代表男性(如何解释结果?)。如何解释结果?)。 (2)如果自变量为多分类指标,需要)如果自变量为多分类指标,需要用亚(哑)变量(用亚(哑)变量(dummy)表示,又称)表示,又称指示变量(指示变量(indicator variables) (3)如果自变量为等级资料,可以用两种)如果自变量为等级资料,可以用两种方法处理:方法处理: 一是将等级数量化后直接进入分析,如果一是将等级数量化后直接进入分析,如果y的改变在每个等级上是近似相等的,则该的改变在每个等级上是近似相等的,则该法效果很好;法效果很好; 二是视为定性指标,用亚变量表示,一般二是视为定性指标,用亚变量表示,一般用于用

20、于y在每个等级上的变化不相等时。在每个等级上的变化不相等时。 样本量样本量 用用logistic回归模型,样本含量要求较大。回归模型,样本含量要求较大。小样本不适宜。样本含量至少是变量数的小样本不适宜。样本含量至少是变量数的10倍以上,否则方程不稳定,系数估计或倍以上,否则方程不稳定,系数估计或标准误估计常出现异常,结果无法解释。标准误估计常出现异常,结果无法解释。 Logistic回归采用最大似然比估计法来对模型回归采用最大似然比估计法来对模型进行估计,最大似然估计在大样本或中等样本进行估计,最大似然估计在大样本或中等样本(如(如n=100)的条件下能保持较好的有效性。)的条件下能保持较好的

21、有效性。Long(1997)提到,在样本规模小于)提到,在样本规模小于100时时使用最大似然估计风险较大。使用最大似然估计风险较大。 样本量的大小依赖于模型和数据的特点。参数样本量的大小依赖于模型和数据的特点。参数越多所需样本量越大,一般认为一个参数至少越多所需样本量越大,一般认为一个参数至少需要需要10个案例,但要注意的是,并不是说如果个案例,但要注意的是,并不是说如果只有几个参数就不需要样本量大于只有几个参数就不需要样本量大于100了。了。 如果自变量之间存在高度共线性或因变量如果自变量之间存在高度共线性或因变量的变化太小(如有太多的研究对象的反应的变化太小(如有太多的研究对象的反应值都相

22、同)等问题存在就需要较大的样本;值都相同)等问题存在就需要较大的样本;(4)许多人进行多变量回归分析时,往往先作单)许多人进行多变量回归分析时,往往先作单变量分析,将单变量分析中有显著性意义的变量变量分析,将单变量分析中有显著性意义的变量再进入多变量分析,这样做法不妥。因为,单变再进入多变量分析,这样做法不妥。因为,单变量分析没有意义的变量在多变量分析时不一定也量分析没有意义的变量在多变量分析时不一定也没有意义。因此,应将所有变量都一起进入多变没有意义。因此,应将所有变量都一起进入多变量分析,进行筛选。量分析,进行筛选。(5)与多变量线性回归一样,如果各个自变)与多变量线性回归一样,如果各个自

23、变量之间存在自相关,呈多元共线性,量之间存在自相关,呈多元共线性,bj的的误差可能较大,可使偏回归系数估计发生误差可能较大,可使偏回归系数估计发生很大的偏倚,甚至使偏回归系数的符号反很大的偏倚,甚至使偏回归系数的符号反常、偏回归系数的假设检验呈无显著性。常、偏回归系数的假设检验呈无显著性。 这时,可将自相关的变量其中之一剔除。这时,可将自相关的变量其中之一剔除。或增加样本含量以减少标准误,抵消共线或增加样本含量以减少标准误,抵消共线性的影响。或用逐步回归方法,寻找最佳性的影响。或用逐步回归方法,寻找最佳方程。或将几个高度相关的变量综合,形方程。或将几个高度相关的变量综合,形成一个新变量(主成分

24、)进入回归。成一个新变量(主成分)进入回归。(6)自变量的记录中可能出现极端值)自变量的记录中可能出现极端值(outlier)。其残差较其它各点大得多,)。其残差较其它各点大得多,或出现或出现high leverage point(高杠杆点),(高杠杆点),其距其它各点较远,或出现强影响点其距其它各点较远,或出现强影响点(influential point),对模型有较大影响。),对模型有较大影响。 遇到这种情况,首先应检查是否录入错误,遇到这种情况,首先应检查是否录入错误,是否忽略了重要的协变量、是否需要增设是否忽略了重要的协变量、是否需要增设交互项、样本是否足够多?交互项、样本是否足够多?

25、 然后,检查是否是异常值?然后,检查是否是异常值?例例1 某医师希望研究病人的年龄某医师希望研究病人的年龄age、性别、性别sex(0为女性、为女性、1为男性)、心电图检验是否异常为男性)、心电图检验是否异常ecg(ST段压低、段压低、0为正常、为正常、1为轻度异常、为轻度异常、2为为重度异常)与冠心病重度异常)与冠心病ca是否有关,数据见是否有关,数据见logistic_binary.sav。简单分析实例简单分析实例简单分析实例简单分析实例选入应变量选入应变量选入自选入自变量变量简单分析实例简单分析实例Dependent Variable Encoding01Original Value未患

26、病患病Internal Value简单分析实例简单分析实例结果分析结果分析v 此表为应变量取值水平编码,此表为应变量取值水平编码,SPSSSPSS默认取值水平默认取值水平高的为阳性结果。高的为阳性结果。简单分析实例简单分析实例结果分析结果分析v 本表输出当前模型的本表输出当前模型的-2log-2log(似然值)和两个伪决(似然值)和两个伪决定系数,但对于定系数,但对于logisticlogistic回归而言,通常看见的伪决回归而言,通常看见的伪决定系数不像线性回归模型中的决定系数那么大。定系数不像线性回归模型中的决定系数那么大。Model Summary86.811a.237.316Step1

27、-2 Log likelihoodCox & Snell R SquareNagelkerke R SquareEstimation terminated at iteration number 5 because parameter estimateschanged by less than .001.a. Variables in the Equation1.356.5466.1621.0133.882.873.3845.1621.0232.395.093.0357.0001.0081.097-5.6421.8069.7571.002.004sexecgageConstantStep1aB

28、S.E.WalddfSig.Exp(B)Variable(s) entered on step 1: sex, ecg, age.a. 简单分析实例简单分析实例结果分析结果分析v 此表输出模型中的各自变量的偏回归系数及其标准此表输出模型中的各自变量的偏回归系数及其标准误、误、Wald Wald 2 2、自由度、自由度、P P 值、值、OROR值(即值(即expexp(B B)。)。哑变量设置哑变量设置在回归模型中,回归系数在回归模型中,回归系数b b表示其他自变量不变,表示其他自变量不变,x x每改变一个单位时,所预测的每改变一个单位时,所预测的y y的平均变化量,当的平均变化量,当x x为连

29、续性变量时,这样解释没有问题,二分类变量为连续性变量时,这样解释没有问题,二分类变量由于只存在两个类别间的比较,也可以对系数得到由于只存在两个类别间的比较,也可以对系数得到很好的解释。但是当很好的解释。但是当x x为多分类变量时,仅拟合一为多分类变量时,仅拟合一个回归系数就不太合适了,此时需要使用个回归系数就不太合适了,此时需要使用哑变量哑变量(dummy variabledummy variable)方式对模型进行定义。)方式对模型进行定义。例例2 Hosmer 和和Lemeshow于于1989年研究了低出生体年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重婴儿的影响因素,结果

30、变量为是否娩出低出生体重儿(变量名为重儿(变量名为LOW,1表示低出生体重儿,表示低出生体重儿,0表示表示非低出生体重儿),考虑的自变量有产妇妊娠前体非低出生体重儿),考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:患高血压等。(数据文件见:logistic_step.sav。)。)哑变量设置哑变量设置哑变量设置哑变量设置哑变量设置哑变量设置选入无序多选入无序多分类变量分类变量设置参照水设置参照水平平哑变量设置哑变量设置Categorical Variables Codings961.000.00026

31、.0001.00067.000.000白人黑人其他种族种族Frequency(1)(2)Parameter coding哑变量设置哑变量设置结果分析结果分析v 哑变量(种族)的设置情况哑变量(种族)的设置情况Variables in the Equation-.025.037.4831.487.975-.014.0074.0901.043.9867.1462.028-.908.4374.3261.038.403.329.534.3801.5371.390.927.3995.4141.0202.528.552.3452.5621.1091.7361.763.6896.5411.0115.831.

32、649.4681.9251.1651.913.032.171.0351.8511.0331.1431.0871.1041.2933.135agelwtracerace(1)race(2)smokeptlhtuiftvConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: age, lwt, race, smoke, ptl, ht, ui, ftv.a. 哑变量设置哑变量设置v 白人低出生体重的风险较低,而黑人风险较高。白人低出生体重的风险较低,而黑人风险较高。结果分析结果分析 参照水平最好要有实际意义,不推荐使用其他

33、作为参照;参照水平最好要有实际意义,不推荐使用其他作为参照; 参照水平组要有一定的频数作保证,应不少于参照水平组要有一定的频数作保证,应不少于30或或50例;例; 对有序自变量的分析:对有序自变量的分析: 从专业出发确定;从专业出发确定; 分别以哑变量和连续性变量的方式引入模型进行比较后分别以哑变量和连续性变量的方式引入模型进行比较后确定。确定。哑变量设置哑变量设置v 哑变量设置应该注意的问题哑变量设置应该注意的问题 Forward:Conditional (最可靠)(最可靠) Forward:LR Forward:Wald (应当慎用)(应当慎用) Backward: Conditional

34、 (最可靠)(最可靠) Backward:LR Backward:Wald(应当慎用)(应当慎用)v 6 6 种筛选自变量的方法种筛选自变量的方法逐步回归逐步回归例例3 仍以例仍以例2的数据的数据为例,演示如何在为例,演示如何在SPSS中实现逐步中实现逐步logistic回归分析。回归分析。逐步回归逐步回归选择其中一选择其中一种逐步法种逐步法逐步回归逐步回归Model Summary227.893a.035.050223.583b.057.080217.220b.088.124Step123-2 Log likelihoodCox & Snell R SquareNagelkerke R Sq

35、uareEstimation terminated at iteration number 3 because parameter estimateschanged by less than .001.a. Estimation terminated at iteration number 4 because parameter estimateschanged by less than .001.b. 逐步回归逐步回归v 给出了模型拟合过程中每一步的给出了模型拟合过程中每一步的-2log-2log(L L)及)及两个伪决定系数。两个伪决定系数。结果分析结果分析Variables in the

36、 Equation.802.3176.3911.0112.230-.964.17530.3701.000.381.823.3186.6831.0102.2771.272.6164.2701.0393.569-1.062.18433.2241.000.346-.015.0075.5841.018.985.728.3274.9611.0262.0711.789.6946.6391.0105.986.893.8291.1581.2822.441ptlConstantStep1aptlhtConstantStep2blwtptlhtConstantStep3cBS.E.WalddfSig.Exp(B)

37、Variable(s) entered on step 1: ptl.a. Variable(s) entered on step 2: ht.b. Variable(s) entered on step 3: lwt.c. 逐步回归逐步回归结果分析结果分析Variables not in the Equation3.1491.0763.3401.0685.3592.0695.0281.0252.0561.1523.1641.0754.7221.0302.1621.141.7531.38522.8588.004agelwtracerace(1)race(2)smokehtuiftvVariab

38、lesOverall StatisticsStep1ScoredfSig.逐步回归逐步回归结果分析结果分析v 输出了尚不在模型中的自变量是否能被引入的输出了尚不在模型中的自变量是否能被引入的ScoreScore检验结果,这里只给出第一步的结果。检验结果,这里只给出第一步的结果。对数似然值与伪决定系数对数似然值与伪决定系数模型预测正确率模型预测正确率ROCROC曲线曲线模型拟合效果检验模型拟合效果检验v 拟合效果判断指标:拟合效果判断指标:-2 倍对数似然值表示模型的拟合效果,其值越小,越接近于倍对数似然值表示模型的拟合效果,其值越小,越接近于0,说明模型拟合效果越好。,说明模型拟合效果越好。但

39、是,当自变量中存在缺失值时,因为一般统计软件在进行但是,当自变量中存在缺失值时,因为一般统计软件在进行计算时会把含有缺失值的记录予以剔除,不参与统计分析,计算时会把含有缺失值的记录予以剔除,不参与统计分析,此时不能用此时不能用-2log likelihood 对不同模型的拟合效果进行比对不同模型的拟合效果进行比较。较。模型拟合效果检验模型拟合效果检验Classification Tablea123794.6471220.371.4Observed正常低出生体重低出生体重儿Overall PercentageStep 3正常低出生体重低出生体重儿PercentageCorrectPredicte

40、dThe cut value is .500a. 例例3进行逐步回归的第三步(进行逐步回归的第三步(step3)输出以上结果,预测)输出以上结果,预测正确的记录占正确的记录占71.4。模型拟合效果检验模型拟合效果检验Save子对话框子对话框模型拟合效果检验模型拟合效果检验v先保存研究对先保存研究对象的预测概率。象的预测概率。模型拟合效果检验模型拟合效果检验模型拟合效果检验模型拟合效果检验模型拟合效果检验模型拟合效果检验v 这就是这就是ROCROC曲线,曲线,预测效果最佳时,曲预测效果最佳时,曲线应该从左下角垂直线应该从左下角垂直上升至顶,然后水平上升至顶,然后水平向右延伸到右上角。向右延伸到右

41、上角。结果分析结果分析Area Under the CurveTest Result Variable(s): Predicted probability.708.043.000.624.792AreaStd. ErroraAsymptotic Sig.bLower BoundUpper BoundAsymptotic 95% Confidence IntervalThe test result variable(s): Predicted probability has at least one tie between the positiveactual state group and t

42、he negative actual state group. Statistics may be biased.Under the nonparametric assumptiona. Null hypothesis: true area = 0.5b. 模型拟合效果检验模型拟合效果检验结果分析结果分析v 本表是对本表是对ROCROC曲线下面积计算的结果,可见曲线下面曲线下面积计算的结果,可见曲线下面积为积为0.7080.708,9595可信区间为可信区间为0.6240.624 0.7920.792。模型拟合优度检验(模型拟合优度检验(Test of Goodness Fit ):):考察当

43、前模型是否可以进一步改善,检验当前模型与饱考察当前模型是否可以进一步改善,检验当前模型与饱和模型的预测效果之差是否有统计学意义。和模型的预测效果之差是否有统计学意义。拟合优度检验拟合优度检验 Pearson 和和Deviance 拟合优度检验:拟合优度检验: 当自变量很多,或包含连续性自变量时,不可以用这两种方法。当自变量很多,或包含连续性自变量时,不可以用这两种方法。 似然比检验:似然比检验: 主要用于考察饱和模型是否可以进一步简化。主要用于考察饱和模型是否可以进一步简化。 HosmerLemeshow检验:检验: 通常用于自变量很多,或包含连续性自变量的情况。通常用于自变量很多,或包含连续

44、性自变量的情况。拟合优度检验拟合优度检验v 模型拟合优度检验的常用方法:模型拟合优度检验的常用方法:点击主对话框中的点击主对话框中的options按钮,出现如下所示的对话框:按钮,出现如下所示的对话框:拟合优度检验拟合优度检验Hosmer and Lemeshow Test9.9798.266Step3Chi-squaredfSig.Contingency Table for Hosmer and Lemeshow Test1616.69732.303191515.30343.697191817.46155.539231613.21524.785181513.70845.292191512.6

45、8335.317181112.31075.690181112.27986.72119610.531138.4691975.8121011.1881712345678910Step3ObservedExpected低出生体重儿 = 正常ObservedExpected低出生体重儿 = 低出生体重Total拟合优度检验拟合优度检验结果分析结果分析用用save子对子对话框可以保存各话框可以保存各种残差;种残差;如果残差的绝如果残差的绝对值大于对值大于2,提,提示该记录可能是示该记录可能是异常点。异常点。Save子对话框子对话框模型的诊断与修正模型的诊断与修正v 残差分析残差分析多重共线性的对偏回归系

46、数的影响与线性回归模型中的表现多重共线性的对偏回归系数的影响与线性回归模型中的表现一致,如增加或删除一条记录,模型中偏回归系数值发生较一致,如增加或删除一条记录,模型中偏回归系数值发生较大变化,专业上认为有意义的因素无统计学意义等等。大变化,专业上认为有意义的因素无统计学意义等等。如果在进行如果在进行logisticlogistic模型分析中,尤其是在向模型中引入交模型分析中,尤其是在向模型中引入交互作用项时出现了回归结果反常现象,则自变量之间的多重互作用项时出现了回归结果反常现象,则自变量之间的多重共线性是需要排除的一种可能。共线性是需要排除的一种可能。模型的诊断与修正模型的诊断与修正v 多

47、重共线性的识别:多重共线性的识别:目前目前SPSSSPSS的的logisticlogistic过程中尚没有关于多重共线性过程中尚没有关于多重共线性诊断的结果输出,代替方法之一是运用相同的反应诊断的结果输出,代替方法之一是运用相同的反应变量与自变量,拟合线性回归模型,并进行相应的变量与自变量,拟合线性回归模型,并进行相应的共线性诊断。共线性诊断。模型的诊断与修正模型的诊断与修正v 多重共线性的识别:多重共线性的识别:匹配设计匹配设计(matched design)是在设计阶段控制混杂因素的)是在设计阶段控制混杂因素的一种方法。当得到一名研究病例后,选择一名或多名非病例一种方法。当得到一名研究病例

48、后,选择一名或多名非病例作为对照,选择相应对照的条件是:某些需要控制的混杂因作为对照,选择相应对照的条件是:某些需要控制的混杂因素与该病例之间相同或相似,从而形成一个匹配的对子。一素与该病例之间相同或相似,从而形成一个匹配的对子。一个匹配的对子可以只有个匹配的对子可以只有 1个病例和个病例和1个对照,称个对照,称1:1匹配;匹配;当病例很罕见时,常采用当病例很罕见时,常采用 1个病例,多个对照,此时称为个病例,多个对照,此时称为1:m匹配,常用的匹配,常用的 m一般小于等于一般小于等于4,不同的对子,不同的对子,m可以不同;可以不同;还可设计还可设计m:n匹配,即不同对子的病例与对照个数均可不

49、同,匹配,即不同对子的病例与对照个数均可不同,这样的设计增加了收集资料的灵活性。这样的设计增加了收集资料的灵活性。条件条件logistic回归回归简介简介对于这类匹配设计资料,如果采用以上介绍的非条件对于这类匹配设计资料,如果采用以上介绍的非条件 logisticlogistic回归方法,将会降低检验效能。而应当采用回归方法,将会降低检验效能。而应当采用条件条件logisticlogistic回归模型回归模型(conditional logistic conditional logistic regression modelregression model)又称配对又称配对logisticlo

50、gistic回归模型进行回归模型进行分析。分析。条件条件logistic回归回归简介简介 用变量差值拟合:用变量差值拟合:只适用于只适用于1:1配对的情况,用配对的情况,用Multinomial logistic 过程实现;过程实现; 用分层用分层Cox模型拟合:适用范围非常广。模型拟合:适用范围非常广。条件条件logistic回归回归v SPSS SPSS中的拟合方法:中的拟合方法:例例4 Mack等人预考察服用雌激素与患子宫内膜癌的关等人预考察服用雌激素与患子宫内膜癌的关系,对退休居住在社区的妇女进行病例对照研究。除服系,对退休居住在社区的妇女进行病例对照研究。除服用雌激素以外,研究的自变

51、量还包括肥胖、胆囊病史、用雌激素以外,研究的自变量还包括肥胖、胆囊病史、服用其他非雌激素药物。数据见服用其他非雌激素药物。数据见1_1_logistic.sav。条件条件logistic回归回归实例分析实例分析compute case = case1 - pute age = age1 - pute est = est1 - pute gall = gall1 - pute nonest = nonest1 -nonest2.execute.由于本例是由于本例是1:1配对,可以使用变量差值方式加以拟合。配对,可以使用变量差值方式加以拟合。首先运用首先运用compute过程产生配对过程产生配对l

52、ogistic回归的分析变量,回归的分析变量,或用以下程序予以实现:或用以下程序予以实现:条件条件logistic回归回归实例分析实例分析条件条件logistic回归回归实例分析实例分析条件条件logistic回归回归实例分析实例分析v 把自变量全部把自变量全部选入选入CovariateCovariate框,框,不能选入不能选入factorfactor框!框!默认情况下该复默认情况下该复选框选中,应该选框选中,应该去除该复选框去除该复选框条件条件logistic回归回归实例分析实例分析WarningsThe dependent variable has only one valid value. A conditional logistic regressionmodel will be fitted.条件条件logistic回归回归结果分析结果分析v 这是系统给出的警告,说明由于反应变量只有一这是系统给出的警告,说明由于反应变量只有一个水平,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论