统计学:Logistic回归分析_第1页
统计学:Logistic回归分析_第2页
统计学:Logistic回归分析_第3页
统计学:Logistic回归分析_第4页
统计学:Logistic回归分析_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Logistic回归模型要求:1.掌握Logistic回归模型主要指标的统计意义2.理解偏相关系数的统计意义3.理解Logistic回归模型建模的SAS程序和SPSS操作过程第一节Logistic回归模型的基本概念

在医学研究中经常遇到应变量为互斥的二项分类资料,如:治愈与未愈、生存与死亡、发病与未发病等。同时有许多自变量(外部环境或条件)可能对结果(应变量)产生影响。在医学中(尤其在流行病学方面)解决这一问题是不能使用线性回归分析方法。这是因为:①线性回归中要求分析的应变量指标的取值是服从正态分布的随机变量,而对于观察结果为分类资料,尤其是只有两个对立结果的分布通常是二项分布;②如果勉强使用线性回归的方法进行分析,即以此结果为应变量Y,其它的观察结果为自变量X,那么回归方程没有多大实际意义。二项分布与Logistic回归

对于二项分布来讲,很明显这时结果变量的取值0或1应该是这个观察发生的可能与否,即它表示在一定条件下观察事件发生的可能性,是一个概率性的结果,所以相应的概率值范围应限制在0~1之间。从上世纪70年代开始,Logistic回归逐渐发展起来,从理论和方法上较好地解决了这一问题,尤其在病因学研究方面有其独到见解。Logistic回归模型的分类按反应变量的类型分:1.两分类的Logistic回归模型2.多分类有序反应变量的Logistic回归模型3.多分类无序反应变量的Logistic回归模型式按设计类型分:1.非条件Logistic回归模型,研究对象未经过配对的成组资料2.条件Logistic回归模型,研究对象为1︰1或1︰m配对资料一、Logistic回归分析的实例例19-1

在抢救急性心肌梗死(AMI)患者能否成功的危险因素调查中,某医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前:X1=1表示已发生休克,X1=0表示未发生休克;X2=1表示发生心衰,X2=0表示未发生心衰;X3=1表示12小时内将患者送往医院,X3=0表示12小时内未将患者送往医院;详细资料如下:y=0表示抢救成功y=1表示未抢救成功X1X2X3nX1X2X3n00035000400134001100101701040111901115100171006101610191106110611161116二、资料一般形式和模型结构1.资料形式例号分析变量观察结果yX1X2…Xk阳性1阴性01…………02…………03…………1……………0n…………12.模型结构

研究中设效应指标y=1为发生,y=0为不发生(对某一疾病而言,相当于发病与不发病),现观察k个指标(这些指标一般称为危险因素),记为X=(X1,X2,…Xk),当效应值y=1时和y=0的概率(模型)分别为:(P+Q=1)模型参数解释在n例观察对象中,第i名观察对象在Xi1,Xi2,…Xip作用下,应变量yi=0的可能性Qi为:应变量yi=1的可能性Pi为:第二节Logistic回归模型的参数估计和假设检验一、参数意义(释义同于病例-对照设计研究)二、参数估计

由于Logistic回归是一种概率模型,通常采用最大似然估计法(maximumlikelihoodestimate)求解模型中的参数βj的估计值bj(j=0,1,2,….k)。方法是:***例19-1的Logistic回归SAS程序***DATAa;INPUTyx1x2x3

freq@@;CARDS;000035100040001341001100010171010400111910111501001711006010161101901106111060111611116;PROClogisticdescending;FREQcount;MODELy=x1x2x3;RUN;例19-1资料的参数估计变量名参数估计βk

标准误SE(βk

)Waldχ2

值P标准化参数估计值β'kOR常数项-2.08580.351335.2640.0001X11.10980.348510.14190.00140.28373.034X20.70280.32924.55860.03280.18992.019X30.97510.34408.03620.00460.26912.651

由于各变量指标单位不同,不能用βj的大小比较各xi的作用大小,而须用标准化偏回归系数β’j

来比较。结果解释3个βi的估计值都是正数,表明这三个因素都是危险因素且都有统计学意义。从优势比OR上可以看出,在因素x2和x3固定不变时,因素x1每增加一个等级所引起的优势比为增加前的3.034倍;在因素X1和X3固定不变时,因素x2每增加一个等级所引起的优势比为增加前的2.019倍。在因素x1和x2固定不变时,因素x3每增加一个等级所引起的优势比为增加前的2.651倍。同时在考察因素相对贡献大小时,从标准系数看,β'1>β'

3>β'2,故x1的相对贡献比x2和x3大。个例预测

设某AMI患者在症状5小时内送到医院(x3=0),未发生休克(x1=0),已有心衰(x2=1),求抢救成功的概率。三、回归模型的假设和回归系数的区间估计1.回归模型的假设检验H0:β=0(模型中不含变量)H1:β≠0(模型中含变量)统计量:G=-

2lnL-

(-2lnL')~χ2(k)

在例19-1中的SAS结果中:ModelFitStatisticsCriterionInterceptOnlyInterceptandCovariatesPr>ChiSqAIC246.346230.616SC249.644243.809

-2LogL244.346222.616 <0.0001G=-

2lnL-

(-

2lnL')=244.346-222.616=21.73,k=3,P=0.00007拒绝H0说明模型变量有统计学意义。2.回归系数的假设检验(Wald法)H0:βj=0;H1:βj≠0

在例19-1中的SAS结果中:变量名参数估计βk

标准误SE(βk

)Waldχ2

值P常数项-2.08580.351335.2640.0001X11.10980.348510.14190.0014X20.70280.32924.55860.0328X30.97510.34408.03620.00463.优势比OR和β的区间估计

在例19-1中的SAS结果中:变量名参数估计βk

标准误SE(βk

)ORkOR的95%CIβ的95%CIX11.10980.34853.0341.5326.0060.4271.793X20.70280.32922.0191.0593.8500.0571.348X30.97510.34402.6511.3515.2030.3041.649例19-2

研究食管癌与饮酒的关系,年龄可能是混杂因素。将饮酒按年龄分解成4个四格表,用Logistic回归校正混杂因素。B年龄组合计25~4445~5455~6465+病例对照病例对照病例对照病例对照病例对照饮酒53525294227241896109不饮酒5270211383413944119104666Logistic回归模型变量名参数估计βk

标准误SE(βk

)Waldχ2

值POR常数项-3.8320.334131.6770.0001A11.9720.37128.3300.00017.184A22.4870.35848.2970.000112.027A32.7410.36357.0930.000115.051B1.6800.18978.7980.00015.367表中显示,各年龄组的OR=7.184、12.027、15.051,是不同年龄组(水平)与25~44岁组的优势比。有序变量的Logistic回归模型变量名参数估计βk

标准误SE(βk

)Waldχ2

值POR常数项-3.7920.277185.7820.0001A0.7290.08672.0780.00012.073B1.7750.18889.5070.00015.899第三节条件Logistic回归模型

条件Logistic回归(conditionallogisticregression)是针对匹配资料分析的一种方法。在匹配设计的病例—对研究照中,为了控制一些重要的混杂因素,常把病例和对照按照年龄、性别等条件进行匹配,形成多个匹配组。从原理上讲各匹配组的病例数和对照组人数是任意的,最常见的是每组中一个病例和若干个对照,即1︰M配对研究。每一匹配组内的病例与对照是可比的,组间病例与对照组无可比性。因此需要按组内对象的暴露状况和发病情况建立Logistic回归模型。设有n个匹配组,每一组的第一个观察对象为病例,另有M个观察对象为对照,用Xitj表示第i组第t个观察对象的第j个危险因素的观察值,资料形式为:(见表)1︰M条件Logstic回归数据的格式匹配组号组内编号应变量危险因素ityX1X2…Xk101X101X102…X10k10X111X112…X11k20X121X122…X12k…………………M0X1M1X1M2…X1Mk01X201X202…X20k210X211X212…X21k20X221X222…X22k………………M0X2M1X2M2…X2Mk…………………一个自变量的1︰1配对条件概率设:只有一个自变量X,假定个体得病的概率与exp(β0+βX)成正比,A为病例,B为对照;Y=1表示得病,Y=0表示未得病。一对病例和对照中只有1人得病的条件下恰好是A得病的概率为:k个自变量的1︰1配对条件概率设:假定有k个自变量X1,X2,…,Xk。一对病例和对照中只有1人得病的条件下恰好是A得病的概率为:1︰1配对Logstic回归模型例19-3

某市调查食管癌发病率与咸鱼摄入的关系,设计时采用1︰1配对病例对照形式,按每一个病例的性别、年龄和居住地选取一个健康对照。调查的咸鱼摄入量分三个水平:1表示“<1次/月”,2表示“>1次/月”,3表示“>1次/周”。共调查200对例病例与对照,资料如下:病例暴露水平对照暴露水平合计(对)12311258313622171293264535合计172199200***例19-3的条件Logistic回归SAS程序及结果***1.编写程序见程序2.SAS结果变量名参数估计bk

标准误Waldχ2

值ORX1.0580.23819.7432.881x10.9460.3935.8112.576x22.2010.54616.2499.033用x表示咸鱼摄入频率,用两个0-1假变量x1,x2表示咸鱼摄入频率的三个等级:(x1,x2)=(0,0)表示每月摄入少于1次;(1,0)表示每月1次以上;(0,1)表示每周1次以上。例19-3的SAS程序DATAmatch;INPUTnoidx@@;x1=0;x2=0;IFx=2

THENx1=1;IFx=3

THENx2=1;CARDS;1 1 1 1 0 12 1 1 2 0 13 1 1 3 0 14 1 1 4 0 1…. … … … …92 1 1 92 0 193 1 1 93 0 1199 1 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论