




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2 Logistic回归方法的正确应用及结果的正确解释金水高Logistic回归是研究当因变量为二分变量时,因变量与自变量关系的常用方法,自80年代初引入国内后,随着计算机技术的发展,统计软件的日益成熟而得到了十分广泛的应用。但是并不是所有的研究者对于Logistic回归的方法都能正确使用,对结果都能正确解释。近年来的文献中经常出现对方法错用、误用及对结果的错误解释的现象。下面仅就在使用Logistic方法时经常出现的错误进行探讨。、Logistic回归中分类变量的数量化方法在Logistic回归中,自变量可以有多种形式。以连续变量形式表示的如年龄;以等级变量形式进入方程的如不同的污染等级。而
2、更多的却是以分类变量(定性变量)形式出现的,如性别、地区及职业等。对于多水平分类变量(如职业)的各个水平的赋值方式,尽管在正规的教科书上有详细的介绍,但有些作者经常将多水平的分类变量按等级来进行赋值(1)。下面摘引的是文献1的作者对其中一些分类变量取值的赋值(表1)。表1某个吸烟调查中些自变量的意义及赋值变量名变量意义变量可能取值研究者对变量的赋值D1如果想要烟,你认为非常容易;你能容易得到吗?有点容易;作者单位:100050北京,中国疾病预防控制中心23有点困难;3 非常困难。4M2在过去的一个月里,没有看到过;1你是否在电视里看到看到过,是关于反对吸烟的;2过有关吸烟的任何内容?看到过,是
3、关于赞成吸烟的;3看到过,反对与赞成的都有。4J4你的祖母是否吸烟?不吸;1不知道;2吸烟。3作者将第一个变量不同水平赋为具有等级关系的4个值,虽然比较勉强,还可以接受,因为变量的4个取值确实存在程度的差异(但为什么相邻之间都相差1,这就没有太多的道理了)而对后面的两个变量(M2及J4)的不同水平也赋予具有等级关系的值,而且相邻之间都相差1,那就没有任何道理了。如变量M2是询问调查对象是否在电视中看到过有关吸烟的内容,人们对这个问题给出的答案显然并不存在任何量上的程度差别。对这类自变量的赋值应该采取数量化的方法。通常建议的数量化方法为设置哑变量。例如对于上面的M2,有4种可能的回答,则要设置3
4、个哑变量,假设为m21,m22,m23。将每一种可能回答(水平)用一组哑变量的取值来表述(表2)。表2用哑变量表述M2的取值可能可能回答M21M22没有看到过看到过,是关于反对吸烟的看到过,是关于赞成吸烟的看到过,反对与赞成的都有从表2可以看出,用m21,M22及M23同时等于0表示没有在电视里看到过有关吸烟方面的任何内容;而用m21=1,m22及m23均为0表示在电视里看到过关于反对吸烟的内容,等等。由于用一组变量的取值来表示一个水平,各个水平之间也就不再存在任何数量上的联系了。对于只有两个取值的定性变量,如性别,则可以分别赋值为1和0,可以设男性为1,而女性为0。二Logistic回归方程
5、中比数比(OR)的估计1自变量为连续变量时:为了简化起见,我们假设在研究吸烟与一些因素的关系时,拟合了下列形式的Logistic回归方程:Logit(P|y=1)=b0+b1M21+b2M22+b3M23+b4(SEX)+b5(AGE)y=1为吸烟,y=0为不吸烟。AGE为年龄(岁)。SEX为性别,SEX=1为男性,SEX=0为女性。m21,m22,m23的定义同前。b0为截距,b1-b5分别为各自变量的偏回归系数。 由于Logit(P)=In(P/(l-P),则在不同年龄时的比数可以表达如下:当AGE=AGE1时,Pl/(l-Pl)=expb0+blM2l+b2M22+b3M23+b4(SE
6、X)+b5(AGEl)当AGE=AGE2时,P2/(l-P2)=expb0+blM2l+b2M22+b3M23+b4(SEX)+b5(AGE2)则AGE2相对于AGEl的比数比为:OR=P2/(1-P2)-P1/(1-P1)=expb0+b1M21+b2M22+b3M23+b4(SEX)+b5(AGE2)一expb0+b1M21+b2M22+b3M23+b4(SEX)+b5(AGE1)=expb5(AGE2-AGE1)当年龄相差1岁(即AGE2-AGE1=1)时,OR=exp込)。exp(b5)为取b5的以e为底的幕。也即,b5表示年龄增加1岁的比数比的对数。2.自变量为二分变量时:仍以上述方
7、程为例。我们研究自变量为二水平(如性别)时,其中一个水平相对于另外一个水平的比数比。由于Logit(P)=In(P/(1-P),此时男性与女性的比数可以分别表达如下:对男性,SEX=1,则有:lnP1/(1-P1)=b4*1+b0+b1M21+b2M22+b3M23+b5(AGE)=b4+b0+b1M21+b2M22+b3M23+b5(AGE)对女性,SEX=0,则有:lnP0/(1-P0)=b4*0+b0+b1M21+b2M22+b3M23+b5(AGE)=b0+b1M21+b2M22+b3M23+b5(AGE)因此,男性相对于女性的OR可以用下式来估计:OR(男:女)=expb4+b0+b
8、1M21+b2M22+b3M23+b5(AGE)/expb0+b1M21+b2M22+b3M23+b5(AGE)=exp(b4)当自变量为二分变量时(如性别,是否暴露在某个危险因素下等),一般使自变量的两个水平赋值的差值为1(如暴露=1,非暴露=0;男性=1,女性=0等,这是最简单的一种赋值方法),赋值较小的水平被认为是对照。此时所拟合的Logistic回归模型中该变量的系数就是这两个水平比数比的对数。值得指出的是,根据公式可知,用拟合Logistic回归方程的方法估计的是以OR值为指标的应变量与自变量之间联系的强度,而不是相对危险度(RR)。尽管OR值与RR值一样都是表示应变量与自变量联系强
9、度的指标,但二者之间是有区别的。对于这一点,并不是所有的作者都很明白。经常有一些文章,错将拟合Logistic回归模型得到的OR当RR看待(2)OR与RR之间的联系与区别可以用表3来说明。表3队列研究中暴露与患病的关系暴露情况患病情况合计患病未得病暴露组aba+b未暴露组cdc+d合计a+cb+da+b+c+d根据定义,可以得到暴露相对于非暴露的RR与OR如下:RR=a=(a+b)/c=(c+d) =a(c+d)/c(a+b)OR=a=(a+b)/b(a+b)/c=(c+d)/d=(c+d)=(ad)/(bc)可见,OR与RR是不相等的。但当某病/事件发生的概率相当小时,即当,a(a+b),c
10、vv(c+d)时,可以有am(a+b)uamb及cF(C+d)ucmd此时,才可以有:RR-OR按照这个近似,我们可以对照一下文献2中列举的事件,看其是否属于发生概率很小的事件。文献2为研究性罪错人员得了性病后是否在公立医院(正规医院)求过医的影响因素。影响因素(自变量)包括是否经常看广告及求医知识等。根据作者在文章中提供的数据,可以看出在求过医的491名调查对象中,到公立医院求医的高达41.5%。而常看广告的患者选择到公立医院就诊的达到63.2%,即使不常看广告的患者,其到公立医院就诊的也达到42.0%。可以看到,不论是自变量位于那个水平,应变量发生的概率都相当大,相对危险度不能用比数比来近
11、似,而作者却将相对危险度用比数比来表示,显然是不合适的。3用哑变量表示的自变量各水平之间的比数比的估计:许多文章在拟合方程得到各回归系数后,不知道如何解释用哑变量表示的自变量各水平之间的OR。仍以上面的方程为例进行讨论。在上面的方程中,3个哑变量的偏回归系数分别为b2,b3及b4。如果再仔 细看一下前面对哑变量的设置,写出在该自变量的4个水平下的比数,可以得到:自变量第一个水平可以认为是对照组,M2=0,M22=0,M23=0,其比数为:P0/(1-P0)=expb0+b4(SEX)+b5(AGE)。第二水平:M=1,M=0,M=0,212223P2/(1-P2)=expb0+b1+b4(SE
12、X)+b5(AGE)。第三水平:M21=0,M22=1,M23=0,P3/(1-P3)=expb0+b2+b4(SEX)+b5(AGE)。第四水平:M21=0,M22=0,M23=1,P4/(1-P4)=expb0+b3+b4(SEX)+b5(AGE)。自变量的第二水平(看到过关于反对吸烟广告的组)与对照组(没有看到过任何吸烟广告组)的OR为:OR(二水平:一水平)=expb0+b1+b4(SEX)+b5(AGE)/expb0+b4(SEX)+b5(AGE)=exp(b1)。其他各组与对照组的OR可以仿照计算。即,OR(三水平:一水平)=exp(b2),OR(四水平:一水平)=exp(b3)。
13、许多作者报道的研究结果都到此为止,他们也许以为报告了与所谓的对照组的OR值就是最终的研究结果。其实这是一种误解。首先,作为一个研究人员不能仅关心各组与对照组的OR值,还应该估计各水平之间的OR值,这才应该说完成了一次分析。更何况,在许多情况下,所谓的对照组往往都是研究者随意设置的,并非都具有基线的性质。比如在上面的例子中,我们将没有看到过任何烟草广告设置为对照组,完全是随意的,没有任何特殊的含义。在方程结果中有关对哑变量的偏回归系数的检验也只是相对于对照组的。对于各水平之间的OR值的估计,可以采用计算OR值的基本公式。例如,在上面有关吸烟的例子里,第三水平相对于第二水平的OR值可以用下式来估计
14、:OR(三水平:二水平)=expb0+b2+b4(SEX)+b5(AGE)/expb0+b1+b4(SEX)+b5(AGE)=exp(b2-b1)。同样可以估计四水平相对于三水平或二水平的OR值。各水平之间的OR值可以列表如下(表5)。表5设置为哑变量后各水平之间的比数比变量水平对照(一水平)二水平三水平四水平对照(一水平)1exp(-bjexp(-b2)exp(-b3)二水平exp(b1)1exp(b1-b2)exp(b1-b3)三水平exp(b2)exp(b2-b1)1exp(b2-b3)四水平exp(b3)exp(b3-b1)exp(b3-b2)1至于各OR值中那些具有显著意义,那些没有
15、,则应该通过对相应的偏回归系数之间差的显著性检验来进行。在一般的高级统计软件如SAS等中都有有关的命令。三、因素作用大小的比较些作者经常通过比较OR值的大小来间接比较不同因素对应变量影响的大小(1,3)。文献3在研究影响妇女产前检查的可能因素时,拟合了一个Logistic回归模型。在进行分析后,认为由于量纲相同,可以由回归系数的绝对值直接判定它们与产前检查关联强弱。其结论为:孕产期卫生知识妇女文化程度妇女年龄丈夫文化程度丈夫职业家庭距卫生院距离。这是不合适的。一般情况下,Logistic回归模型各个自变量的OR值不可直接进行比较。这里所说的一般情况是指对变量未进行标准化时,此时各自变量的单位不
16、一致。而OR值表示的正是在其他自变量保持不变的情况下,某个自变量的取值增加一个单位对应变量的影响。比如年龄增加一岁与文化程度增加一个等级(比如从文盲到小学程度),怎么能可比呢?因此为了使各个自变量的OR值之间能够具有可比型,几乎在所有的统计学教科书中,都会提到应在拟合模型之前对变量进行标准化,然后对标准化的偏回归系数进行比较(4)。但标准化的目的不仅仅是消除量纲,而是使各个变量都转换成用同一个尺度与样本均数标准差的倍数来度量。这时,不同变量的OR值就都代表了变量增加一个标准差的比数比。文献3的作者认为,他设置的自变量之间的量纲相同。为了便于读者了解,表6列出了文献3对自变量设置中的3个,看看各
17、个自变量之间的量纲是否相同。表6文献3对一些自变量的设置变量名分组年龄1:15-2:20-45妇女受教育程度1:初中以下2:初中及以上丈夫的职业1:农业2:非农业首先,我们可以看出表中的每个变量都属于无量纲的变量。其次,尽管是无量纲的,但由于没有标准化,不同变量两个水平之间的变化是不可比的。比如你怎么能认为受教育程度从初中以下到初中以上的变化与职业在农业与非农业之间的变化是相同的呢?因此,要对不同变量对应变量影响的重要性进行比较,必须先行对每个变量进行标准化。四、Logistic回归的条件另外一个容易被研究者忽略的问题就是Logistic回归的条件,即个体之间的独立性。例如在一篇论文中,某研究
18、者介绍了为研究影响初中学生开始吸烟的因素,在城市及郊区的学校,采用了整群抽样的方法,各选择初一年级的一个班的全部学生进行调查(1)。作者在这里犯的一个错误就是,学生之间的吸烟行为是互相影响的。也即研究个体之间是不独立的。总之,随着国内外交流的日益广泛,国际上先进的统计方法及相应的统计软件不断引进国内,有力地推动了我国的医学统计的应用普及、发展及医学科研。但同时也存在着对方法的一知半解、对结果错误解释的现象。故应对这些情况予以足够的重视。参考文献张庆武,CarlAndersonJohnson,李燕等。影响初一学生吸烟的外在因素分析。中国公共卫生,1999,15:711-713彭中,欧智勇,吴学庆等。性罪错人员性病求医行为影响因素的Logistic分析。中国公共卫生,2002,18:324-324段平,王歌欣,王晓莉。105个项目县妇女产前保健现况分析。中国公共卫生,2002,18:185-187陈峰。医用多元统计分析方法北京
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 阳光学院《钢筋混凝土及砌体结构课程设计》2023-2024学年第二学期期末试卷
- 湖南工程职业技术学院《光学实验》2023-2024学年第一学期期末试卷
- 山西运城农业职业技术学院《土木工程建模》2023-2024学年第二学期期末试卷
- 山东省宁津县保店中学2024-2025学年高三毕业年级英语试题学科停课不停学期间线上测试含解析
- 重庆工商大学派斯学院《建筑遗产保护》2023-2024学年第二学期期末试卷
- 山西青年职业学院《影视摄像基础》2023-2024学年第二学期期末试卷
- 湖南省张家界市永定区2025届高中毕业班5月模拟考试生物试题含解析
- 实施清洁生产的主要途径ntP第18章
- 木材加工环境保护与节能减排考核试卷
- 电动剃须刀刀网修理技巧考核试卷
- 肝功能检查的试题及答案
- 2025年江苏城乡建设职业学院单招职业倾向性考试题库汇编
- 零工驿站外包协议书7篇
- 2025山西省安全员《C证》考试题库及答案
- 排油烟管道施工方案
- 慢性心衰的规范化管理
- 2024年河南艺术职业学院高职单招语文历年参考题库含答案解析
- 2025年湖北仙桃市城投公司招聘笔试参考题库含答案解析
- 高职高专旅游专业顶岗实习管理 (课件)
- 电厂安全培训课件
- 钢筋加工厂施工方案
评论
0/150
提交评论