05医学统计学第16章log回归分析_第1页
05医学统计学第16章log回归分析_第2页
05医学统计学第16章log回归分析_第3页
05医学统计学第16章log回归分析_第4页
05医学统计学第16章log回归分析_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 第十六章第十六章 logistic logistic回归分析回归分析 (logistic regression) (logistic regression)授课老师:曾小敏公共卫生学院 卫生统计学教研室2例16-1 表16-1是一个研究吸烟、饮酒与食道癌关系的病例对照资料,试作logistic回归分析。 121 0 1 0 1 0 XXY吸烟不吸烟饮酒不饮酒病例对照确确定定各各变变量量编编码码 复习复习“多元线性回归分析多元线性回归分析”3表表16-1 吸烟与食道癌关系的病例对照调查资料吸烟与食道癌关系的病例对照调查资料(n=886) Y分层吸烟饮酒观察例数阳性数阴性数gX1X2ngdgn

2、g dg10019963136201170631073101014457411416265151注:阳性数,阳性结果人数4目的:作出以多个自变量目的:作出以多个自变量X(危险因素)估(危险因素)估计应变量计应变量Y(结果因素)的(结果因素)的logistic回归回归方程。属于概率型非线性回归。方程。属于概率型非线性回归。资料:资料:1. 应变量为反映某现象发生与不发生的二值应变量为反映某现象发生与不发生的二值变量;变量;2. 自变量宜全部或大部分为分类变量,可有自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。少数数值变量。分类变量要数量化。5用途:研究某种疾病或现象发生和多

3、个危用途:研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系。险因素(或保护因子)的数量关系。 用用 检验(或检验(或u检验)的局限性:检验)的局限性: 1.只能研究只能研究1个危险因素;个危险因素; 2.只能得出定性结论。只能得出定性结论。26 种类种类: 1. 成组(非条件)成组(非条件)logistic回归方程。回归方程。 2. 配对(条件)配对(条件)logistic回归方程。回归方程。7讲述内容讲述内容: :第一节第一节 logistic logistic回归回归第二节第二节 条件条件logisticlogistic回归回归第三节第三节 logistic logistic

4、回归的应用回归的应用 及其注意事项及其注意事项8第一节第一节 logistic logistic回回归归 (非条件(非条件logisticlogistic回回归归 )9 一、基本概念一、基本概念1 0 Y发生应变量未发生12,mXXX自变量,在m个自变量的作用下阳性结果发生的概率记作:),| 1(21mXXXYPP1P011ZPe若令若令: mmXXXZ221100112211exp ()mmPXXX其中0为常数项, m,21为回归系数。 P与各与各X之间不呈线性关系之间不呈线性关系,而可用下式描述而可用下式描述:1111ZPemmXXXZ22110其中0为常数项, m,21为回归系数。 Z

5、与与P之间关系的之间关系的logistic曲线:曲线:当当Z+时,时,P值渐近于值渐近于1;当当Z值值-时,时, P值渐近于值渐近于0;P值的变化在值的变化在01范围之内,并且随范围之内,并且随Z值的增加或减少以点(值的增加或减少以点(0,0.5)为)为中心呈对称中心呈对称S形变化。形变化。很多生物学反反应资料的变化特点ZZZeeeP111-1-1Q阴性率,111111)(ZZZZZZeeeeeePP优势:ZePPZln)1(lnZZZZZeePePePPeP1)1 (mmXXXZ22110ZPPeePPPPZ)()(1lnlog11幂(e 的Z次幂)底:e指数:Z对数对数Z :以:以e 为底

6、的为底的 的对数,即的对数,即 的自然的自然对数。对数。PP1PP113模模型型参参数数的的意意义义常数项常数项 表示暴露剂量为表示暴露剂量为0时个体发病与不发病概率时个体发病与不发病概率之比的自然对数。之比的自然对数。(当死亡概率很低时当死亡概率很低时,即即P 0,1-P1)(偏偏)回归系数回归系数 表示其他变量取固定值时表示其他变量取固定值时,自变量自变量 改变一个单位时改变一个单位时logitP 的改变量。的改变量。0), 2 , 1(mjjjX01122ln=1mmPXXXPlogitP 取值范围:取值范围: logitPZePPZln)1(ln11ZPe若令若令 mmXXXZ2211

7、001122ln=1mmPXXXP0112211 exp ()mmPXXX回回归归模模型型其中0为常数项, m,21为回归系数。 概率概率P:01,logitP:。 取值范围:取值范围: logitPLogit转换15流行病学衡量危险因素作用大小的比数比例指标。流行病学衡量危险因素作用大小的比数比例指标。计算公式为:计算公式为:1100/(1)/(1)jPPORPP优势比优势比OR(odds ratio)式中式中1P和和0P分别表示在分别表示在jX取值为取值为1c及及0c时时的发病概率,的发病概率,jOR称作多变量调整后的称作多变量调整后的优势比优势比,表示扣除了其表示扣除了其他他自变量影响后

8、危险因素的作用。自变量影响后危险因素的作用。 111000010010/(1)lnlnlogitlogit/(1)()()()jmmjttjtttjtjjPPORPPPPcXcXcc对比某一危险因素对比某一危险因素两个不同暴露水平两个不同暴露水平1cXj与与0cXj的发病情况的发病情况(假定其它因素的水平相同,即保持不变假定其它因素的水平相同,即保持不变) ,其) ,其优势比优势比的自然对数为的自然对数为: 与与 logit P 的关系:的关系:01122ln=1mmPXXXPlogitP)(01ccjeOR111000010010/(1)lnlnlogitlogit/(1)()()()jmm

9、jttjtttjtjjPPORPPPPcXcXccjjeeORcc )()(011当某一因素有多个水平时(假定为当某一因素有多个水平时(假定为3 3个等级水平,从低等级开始定义为个等级水平,从低等级开始定义为0 0、1 1、2 2):):22022)()()(jjjeeeORcc180, 1 exp, 0, 1 0, 1 jjjjjjOROROROR无作用危险因保子护因子则有101 , 1, 0 jccX暴非若暴露露由于jOR值与模型中的常数项0无关,0在危险因素分析中通常视其为无效参数。 1100/(1) 1, /(1)PPPORRRPP当则有10 exp()jjORcc即),(ln01cc

10、ORj)exp(j即:jeORj19 11(1)iinYYiiiLPP 1lnln(1)ln(1)niiiiiLYPYP 二、logistic回归模型的参数估计 1. 参数估计参数估计原理:最大似然原理:最大似然( likelihood )估计估计 iP表示第 i 例观察对 象在暴露条 件下阳性结果发生的概率,如果实际出现的是阳性结果,取1iY,否则取0iY。根据最大似然原理,在一次抽样中获得现有样本的概率应该最大,即似然函数 L 应该达到最大值。 简化计算,通常取似然函数的对数形式 求积的符号20 11(1)iinYYiiiLPP 1lnln(1)ln(1)niiiiiLYPYP mbbbb

11、,210 采用 Newton-Raphson 迭代方法使对数似然函数达到极大值,此时参数的取值mbbbb,210即为m,210的最大似然估计值 mmXXXZPPPP.)1ln(ln)1ln(22110ZZZZZeePePePPeP1)1 (mmXXXZ2211021 )(exp01ccbROjj若自变量jX只有暴露和非暴露两个水平, 则优势比jOR的1可信区间估计公式为 )exp(2/jbjSub 2. 优势比估计 可反映某一因素两个不同水平(c1,c0)的优势比。22例16-1 表16-1是一个研究吸烟、饮酒与食道癌关系的病例对照资料,试作logistic回归分析。 121 0 1 0 1

12、0 XXY吸烟不吸烟饮酒不饮酒病例对照确确定定各各变变量量编编码码 23分层 吸烟 饮酒 观察例数 阳性数 阴性数 g X1 X2 ng dg ng dg 1 0 0 199 63 136 2 0 1 170 63 107 3 1 0 101 44 57 4 1 1 416 265 151 表表16-1 吸烟与食道癌关系的病例对照调查资料吸烟与食道癌关系的病例对照调查资料(n=886) 分层资料24=0.1572 吸烟与不吸烟的优势比:11expexp0.8856=2.42ORb 经logistic回归计算后得:0b=-0.9099,0bS=0.1358;1b=0.8856, 1bS=0.15

13、00;2b=0.5261,2bS=0.1572 吸烟与不吸烟的优势比:1OR的 95可信区间: 110.05/2expexp(0.88561.960.1500)(1.81,3.25)bbuS 饮酒与不饮酒的优势比: 饮酒与不饮酒的优势比: 饮酒与不饮酒的优势比: 22expexp0.52611.69ORb 22exp(1.96)exp(0.5261 1.96 0.1572)(1.24,2.30)bbS2OR的95可信区间: 25 三、logistic回归模型的假设检验 1.似然比检验基本思想: 比较在两种不同假设条件下的对数似然函数值,看其差别的大小。261.似然比检验:比较在两种不同假设条件

14、下的对数似然函数值,看其差别大小。 具体作法:先拟合一个不包含准备检验的变量在内的 logistic 回归模型,求出它的对数似然函数值 lnL0 ,然后把需要检验的变量加入模型中去再进行配合,得到一个新的对数似然函数值 lnL1。假设前后两个模型分别包含 l个自变量和 p 个自变量, 似然比统计量 G 的计算公式为: )ln(ln201LLG (16-12) 当样本含量较大时,在零假设下得到的统计量近似服从自由度为 d (d=pl)的2分布。若2,dG时,表示新加入的 d 个自变量对回归方程有统计学意义。 零假设:加入的自变量的总体回归系数=0具体方法:(1)先拟合一个不包含准备检验的变量在内

15、的logistic回归模型,得到对数似然函数值lnL0 (设包含的自变量个数为l 个);(2)加入准备检验的变量,重新拟合logistic回归模型,同时又得到一个对数似然函数值lnL1 (设包含的自变量个数为p 个);(3)计算似然比统计量G: G=2(lnL1- lnL0) (16-12)27例 16-1 可以算得:326.585)(ln1XL,436.597)(ln2XL,711.579),(ln21XXL 符号)(1XL和)(2XL分别表示模型中只含有1X和2X的最大似然函数值,而),(21XXL则表示模型中同时含有1X和2X的最大似然函数值。 对于1X:010:H,011:H )(ln

16、),(ln2221XLXXLG)436.597(711.579 2 45.35 查2界值表得84. 321 ,05.0, 84. 3G,故在050.检验水准上拒绝H0,接受 H1,说明平衡了饮酒因素的影响后,食管癌与吸烟有显著性关系。 同理,对于2X020:H,021:H )(ln),(ln2121XLXXLG)326.585(711.579 2 23.11 84. 3G,拒绝0H,接受 H1,说明平衡了吸烟因素的影响后,食管癌与饮酒有显著性关系。 ,=0.05,=0.0528Wald 检验 将各参数的估计值jb与 0 比较,而用它的标准误jbS作为参照,检验统计量为 2, 1jjjjbbbb

17、uSS2 或 221220111022120.8856 34.860.15000.5261 11.200 :0, :0, 0.05,:0, :0,.157 0 05,2.HHHH 2值均大于 3.84,说明食道癌与吸烟、饮酒有关系,结论同前。 2.3.计分检验(score test) 需要进行矩阵运算29Logistic回归模型的假设检验方法1 似然比检验比较含有不同自变量的模型(的似然函数值)既适合单个自变量的假设检验,又适合多个自变量的同时检验2 Wald检验各参数与0的比较适合单个自变量的假设检验3 计分检验计分检验统计量=对数似然函数的一阶导数*信息矩阵,符合自由度为1的卡方分布小样本

18、时运用,犯型错误的可能性要小些。注:1)零假设都是总体的回归系数=0 2)大样本时,三种方法的结果是一致的。30方法:前进法、后退法和逐步法。方法:前进法、后退法和逐步法。检验统计量:不是检验统计量:不是 F 统计量,而是似然比统计量、统计量,而是似然比统计量、 Wald 统计量和计分统计量之一。统计量和计分统计量之一。 (对单个或多个自变量进行检验)(对单个或多个自变量进行检验)四、变量筛选四、变量筛选例16-2 为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例对照研究,各因素的说明及资料见表16-2和表16-3。试用logistic 逐步回归分析方法筛选危险因素。(先选择变量,后拟合模型)15. 0,10. 0(出入31因素 变量名 赋值说明 年龄(岁) X1 45=1, 4554=2, 5564=3, 65=4 高血压史 X2 无=0, 有=1 高血压家族史 X3 无=0, 有=1 吸烟 X4 不吸=0, 吸=1 高血脂史 X5 无=0, 有=1 动物脂肪摄入 X6 低=0, 高=1 体重指数(BMI) X7 24=1, 24自由度,提示不够理想。)5455(3)广义决定系数(综合性指标) 类似于多元线性回归中的决定系数。)30

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论