Logistic回归分析分析课件_第1页
Logistic回归分析分析课件_第2页
Logistic回归分析分析课件_第3页
Logistic回归分析分析课件_第4页
Logistic回归分析分析课件_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

391第十六章logistic回归分析(LogisticRegression)392Content?Logisticregression?Conditionallogisticregression?Application393讲述内容:第一节logistic回归第二节条件logistic回归第三节logistic回归的应用及其注意事项394目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。资料:1.应变量为反映某现象发生与不发生的二值变量;2.自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。395用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。用检验(或u检验)的局限性:1.只能研究1个危险因素;2.只能得出定性结论。2?396种类:1.成组(非条件)logistic回归方程。2.配对(条件)logistic回归方程。397第一节logistic回归(非条件logistic回归)398一、基本概念10Y????发生应变量未发生12,,,mXXXL自变量,在m个自变量的作用下阳性结果发生的概率记作:),,,|1(21mXXXYPP???1P??039911ZPe???若令:mmXXXZ??????????2211001122ln=1mmPXXXP????????????????L0112211exp[()]mmPXXX???????????L回归模型其中0?为常数项,

m???,,,21?为回归系数。

概率P:0~1,logitP:-∞~∞。取值范围logitP3910图16-1logistic函数的图形00.51-4-3-2-1012340.5PZ:,0,

:0,0.5,1PZ???3911模型参数的意义01122ln=logit1mmPXXXPP????????????????L常数项表示暴露剂量为0时个体发病与不发病概率之比的自然对数。回归系数表示自变量改变一个单位时logitP的改变量。0?),,2,1(mjj???jX3912流行病学衡量危险因素作用大小的比数比例指标。计算公式为:1100/(1)/(1)jPPORPP???优势比OR(oddsratio)式中1P和0P分别表示在jX取值为1c及0c时的发病概率,jOR称作多变量调整后的优势比,表示扣除了其他自变量影响后危险因素的作用。

3913111000010010/(1)lnlnlogitlogit/(1)()()()jmmjttjtttjtjjPPORPPPPcXcXcc??????????????????????????????对比某一危险因素两个不同暴露水平1cXj?与0cXj?的发病情况(假定其它因素的水平相同),其优势比的自然对数为:与logisticP的关系:39140,

1

exp,>0,10,1

jjjjjjOROROROR???????????????无作用危险因保子护因子则有101,

1,

0jccX??????暴非若暴露露由于jOR值与模型中的常数项0?无关,0?在危险因素分析中通常视其为无效参数。

1100/(1)

1,

/(1)PPPORRRPP??????当则有10

exp[()]jjORcc???即3915

11(1)iinYYiiiLPP?????

1ln[ln(1)ln(1)]niiiiiLYPYP??????

mbbbb,,,,210?

二、logistic回归模型的参数估计1.参数估计原理:最大似然(likelihood)估计3916

)](exp[?01ccbROjj??若自变量jX只有暴露和非暴露两个水平,则优势比jOR的??1可信区间估计公式为

)exp(2/jbjSub??2.优势比估计可反映某一因素两个不同水平(c1,c0)的优势比。3917例16-1表16-1是一个研究吸烟、饮酒与食道癌关系的病例-对照资料,试作logistic回归分析。121

0

1

0

1

0

XXY??????????????????吸烟不吸烟饮酒不饮酒病例对照确定各变量编码3918分层

吸烟

饮酒

观察例数

阳性数

阴性数

g

X1

X2

ng

dg

ng?dg

10019963136201170631073101014457411416265151

表16-1吸烟与食道癌关系的病例-对照调查资料3919logistic回归计算后得

0b=-0.9099,0bS=0.1358;1b=0.8856,

1bS=0.1500;2b=0.5261,2bS=0.1572吸烟与不吸烟的优势比:11?expexp0.8856=2.42ORb??

1OR的95?可信区间:110.05/2exp[]exp(0.88561.960.1500)(1.81,3.25)bbuS?????

饮酒与不饮酒的优势比:

22?expexp0.52611.69ORb???

2OR的95?可信区间:

22exp(1.96)exp(0.52611.960.1572)(1.24,2.30)bbS?????

经logistic回归计算后得:经logistic回归计算后得

0b=-0.9099,0bS=0.1358;1b=0.8856,

1bS=0.1500;2b=0.5261,2bS=0.1572吸烟与不吸烟的优势比:11?expexp0.8856=2.42ORb??

1OR的95?可信区间:110.05/2exp[]exp(0.88561.960.1500)(1.81,3.25)bbuS?????

饮酒与不饮酒的优势比:

22?expexp0.52611.69ORb???

2OR的95?可信区间:

22exp(1.96)exp(0.52611.960.1572)(1.24,2.30)bbS?????

logistic回归计算后得

0b=-0.9099,0bS=0.1358;1b=0.8856,

1bS=0.1500;2b=0.5261,2bS=0.1572吸烟与不吸烟的优势比:11?expexp0.8856=2.42ORb??

1OR的95?可信区间:110.05/2exp[]exp(0.88561.960.1500)(1.81,3.25)bbuS?????

饮酒与不饮酒的优势比:

22?expexp0.52611.69ORb???

2OR的95?可信区间:

22exp(1.96)exp(0.52611.960.1572)(1.24,2.30)bbS?????

logistic回归计算后得

0b=-0.9099,0bS=0.1358;1b=0.8856,

1bS=0.1500;2b=0.5261,2bS=0.1572吸烟与不吸烟的优势比:11?expexp0.8856=2.42ORb??

1OR的95?可信区间:110.05/2exp[]exp(0.88561.960.1500)(1.81,3.25)bbuS?????

饮酒与不饮酒的优势比:

22?expexp0.52611.69ORb???

2OR的95?可信区间:

22exp(1.96)exp(0.52611.960.1572)(1.24,2.30)bbS?????

logistic回归计算后得

0b=-0.9099,0bS=0.1358;1b=0.8851bS=0.1500;2b=0.5261,2bS=0.15吸烟与不吸烟的优势比:1?expOR?1OR的95?可信区间:110.05/2exp[]exp(0.88561.960bbuS????饮酒与不饮酒的优势比:

22?expexp0.52611.69ORb???

2OR的95?可信区间:

22exp(1.96)exp(0.52611.960bbS????22exp(1.96)exp(0.52611.960.1572)(1.24,2.30)bbS?????2OR的95?可信区间:3920三、logistic回归模型的假设检验Wald检验

将各参数的估计值jb与0比较,而用它的标准误jbS作为参照,检验统计量为

2,

1jjjjbbbbuSS?????????????2

221220111022120.8856

34.860.15000.5261

11.200

:0,

:0,

0.05,:0,

:0,.157

005,2.HHHH??????????????????????????????

?2值均大于3.84,说明食道癌与吸烟、饮酒有关系,结论同前。2.1.似然比检验3921方法:前进法、后退法和逐步法。检验统计量:不是F统计量,而是似然比统计量、Wald统计量和计分统计量之一。四、变量筛选例16-2为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例?对照研究,各因素的说明及资料见表16-2和表16-3。试用logistic逐步回归分析方法筛选危险因素。)15.0,10.0(??出入??3922因素

变量名

赋值说明

年龄(岁)X1

<45=1,45?54=2,55?64=3,65?=4高血压史

X2

无=0,有=1高血压家族史

X3

无=0,有=1吸烟

X4

不吸=0,吸=1高血脂史

X5

无=0,有=1动物脂肪摄入

X6

低=0,高=1体重指数(BMI)X7

<24=1,24?<26=2,26?=3A型性格

X8

否=0,是=1冠心病

Y对照=0,病例=1表16-2冠心病8个可能的危险因素与赋值3923序号

X1X2X3X4X5X6X7X8

Y13101001102201100100321010010042001001005300101110630110021072010001008301110100920000011010100100100..............................51201101211522111002115321010011154311010311表16-3冠心病危险因素的病例?对照调查资料3924表16-4例16-2进入方程中的自变量及有关参数的估计值选入

变量

回归系

数b

标准误

bS

Wald2?

P值

标准回归

系数b'

?OR

常数项

-4.7051.5439.300.0023----X1

0.9240.4773.760.05250.4012.52X5

1.4960.7444.040.04430.4064.46X6

3.1361.2496.300.01210.70323.00X8

1.9470.8475.290.02150.523

7.01

学会看结果!3925

最终进入logistic回归模型的危险因素有4个,它们分别是年龄增高)(1X、高血脂史)(5X、动物脂肪摄入量)(6X和A型性格)(8X。

标准回归系数??3//'?jjjSbb??可以用来比较各因素的相对重要性,jS为变量jX的标准差,?=3.1416。

3926配对资料。最常用的是每组中有一个病例和若干个对照,即1:M配对研究(一般)3?M。

一、原理第二节条件logistic回归3927匹配组

组内编号*

应变量

危险因素

it

Y

X1

X2

Xm

1

0

1

X101

X102

X10m

10X111

X112

X11m

20X121

X122

X12m

M

M

M

M

M

M

0X1M1

X1M2

X1Mm

M

M

M

M

M

n0

1

Xn01

Xn02

Xn0m

10Xn11

Xn12

Xn1m

20Xn21

Xn22

Xn2m

M

M

M

M

M

M

0XnM1

XnM2

X

nMm

表16-51:M条件logistic回归数据的格式*t=0为病例,其他为对照3928条件logistic模型0112211exp[(...)]iimmPXXX???????????1,2,,

in?LiP

表示第i层在一组危险因素作用下发病的概率,i0?

表示各层的效应,m???,,,21?

为待估计的参数。

与非条件logistic

回归模型不同之处在常数项上,不同匹配组的i0?可以各不相同,但内在假定了每个危险因素的致病能力在不同匹配组中相同。

3929二、应用实例例16-3

某北方城市研究喉癌发病的危险因素,用1:2配对的病例?对照研究方法进行了调查。现选取了6个可能的危险因素并节录25对数据,各因素的赋值说明见表16-6,资料列于表16-7。试作条件logistic逐步回归分析。

表16-6

喉癌的危险因素与赋值说明

因素

变量名

赋值说明

咽炎

X1

无=1,偶尔=2,经常=3吸烟量(支/日)X2

0=1,1?4=2,5?9=3,10?20=4,20?=5声嘶史

X3

无=1,偶尔=2,经常=3摄食新鲜蔬菜

X4

少=1,经常=2,每天=3摄食水果

X5

很少=1,少量=2,经常=3癌症家族史

X6

无=0,有=1是否患喉癌

Y

病例=1,对照=0)15.0,10.0(??出入??3930表16-7喉癌1:2配对病例?对照调查资料整理表P344:3931表16-8例16-3进入方程中的自变量及有关参数的估计值选入的4个危险因素分别为吸烟量)(2X、有声嘶史)(3X、是否经常摄食新鲜蔬菜)(4X及癌症家族史)(6X,其中摄食新鲜蔬菜为保护因素)0(4?b。

采用逐步法6个危险因素变量筛选4个进方程,结果见表16-9。选入变量

回归系数b

标准误Sb

Wald2?

RO?

P值

X2

1.48690.55067.294.420.0069X3

1.91660.94444.126.800.0424X4

-3.76411.82514.250.020.0392X6

3.63211.86573.7937.790.05163932一、logistic回归的应用1.流行病学危险因素分析logistic回归分析的特点之一是参数意义清楚,即得到某一因素的回归系数后,可以很快估计出这一因素在不同水平下的优势比或近似相对危险度,因此非常适合于流行病学研究。logistic回归既适合于队列研究(cohortstudy),也适合于病例-对照研究(case-controlstudy),同样还可以用于断面研究(cross-sectionalstudy)第三节logistic回归的应用及其注意事项39332.临床试验数据分析临床试验的目的大多是为了评价某种药物或治疗方法的效果,如果有其他影响效果的非处理因素(如年龄、病情等)在试验组和对照组中分布不均衡,就有可能夸大或掩盖试验组的治疗效果。尽管在分组时要求按随机化原则分配,但由于样本含量有限,非处理因素在试验组和对照组内的分布仍有可能不均衡,需要在分析阶段对构成混杂的非处理因素进行调整。当评价指标为二值变量时(如有效和无效),可以利用logistic回归分析得到调整后的药物评价结果。对于按分层设计的临床试验可以用相同的方法对分层因素进行调整和分析。39343.分析药物或毒物的剂量反应在一些药物或毒物效价的剂量-反应实验研究中,每一只动物药物耐受量可能有很大的不同,不同剂量使动物发生“阳性反应”的概率分布常呈正偏态,将剂量取对数后则概率分布接近正态分布。由于正态分布函数与logistic分布函数十分接近,如果用P表示在剂量为X时的阳性率,可用下述模型表示它们之间的关系)]ln(exp[110XP??????用这一模型可以求出任一剂量的阳性反应率传统的一些方法往往对实验设计有严

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论