logistic回归模型应变量Y是一个二值变量取课件_第1页
logistic回归模型应变量Y是一个二值变量取课件_第2页
logistic回归模型应变量Y是一个二值变量取课件_第3页
logistic回归模型应变量Y是一个二值变量取课件_第4页
logistic回归模型应变量Y是一个二值变量取课件_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

logistic回归分析卫生统计学教研室陆健副教授2022/12/31logistic回归分析卫生统计学教研室表1吸烟、饮酒与食管癌关系的病例对照调查资料分层吸烟饮酒阳性例数阴性例数观察例数1否否631361992否是631071703是否44571014是是265151416表1吸烟、饮酒与食管癌关系的病例对照调查资料分层吸烟饮酒表1吸烟、饮酒与食管癌关系的病例对照调查资料

(收集资料的形式)调查对象序号吸烟饮酒食管癌11012000……………………875111876010表1吸烟、饮酒与食管癌关系的病例对照调查资料

(收集资料分类资料的影响因素分析方法如果采用线性回归分析,应变量不满足条件,预测值会超出0和1的范围。如果采用单变量的2检验,则必然忽略其他自变量对应变量的影响。如果采用Mantel-Haenszel分层分析,需要较大的样本量,而且自变量不能太多。logistic回归能较好地解决上述问题。分类资料的影响因素分析方法如果采用线性回归分析,应变量不满足logistic回归模型应变量Y是一个二值变量,取值为自变量X1,X2,……,Xm。P表示在m个自变量作用下事件发生的概率。logistic回归模型应变量Y是一个二值变量,取值为logistic回归模型logistic回归模型logistic回归模型PZlogistic回归模型PZlogit变换事件发生概率与未发生概率之比的自然对数,称为P的logit变换,记作logit(P)。概率P的取值范围在0~1之间,而logit(P)取值是没有界限的。logit变换事件发生概率与未发生概率之比的自然对数,称为Plogit变换logit变换回归模型中参数的意义0(常数项):所有影响因素均为0时(记作X=0),个体发生事件概率与不发生事件的概率之比的自然对数值。j的含义:某因素因素Xj改变一个单位时,个体发生事件概率与不发生事件的概率之比的自然对数变化值。回归模型中参数的意义0(常数项):所有影响因素均为0时优势比(oddsratio,OR)优势(odds)是指某影响因素控制在某种水平时,事件发生率与事件不发生率的比值,即P/(1-P)。某影响因素的两个不同水平的优势的比值称为优势比,如某影响因素的一个水平为c1,另一个水平为c0,则这两个水平的优势比为:优势比(oddsratio,OR)优势(odds)是指某影优势比(oddsratio,OR)OR表示影响因素对事件发生的影响方向和影响能力大小。OR>1表示该因素取值越大,事件发生的概率越大,又称危险因素。OR<1表示该因素取值越大,事件发生的概率越小,又称保护因素。OR=1表示该因素与事件的发生无关。优势比(oddsratio,OR)OR表示影响因素对事件发优势比(oddsratio,OR)结果吸烟不吸烟合计食管癌患者309(a)126(b)435非食管癌患者208(c)243(d)451合计517(a+c)369(b+d)886吸烟与食管癌关系的病例对照调查结果优势比(oddsratio,OR)结果吸烟不吸烟合计食管癌优势比(oddsratio,OR)优势比(oddsratio,OR)OR与的关系=0,OR=1,影响因素与事件的发生无关。>0,OR>1,影响因素的取值越大,事件的发生的概率越大。<0,OR<1,影响因素的取值越大,事件的发生的概率越小。OR与的关系=0,OR=1,影响因素与事件的发logistic回归模型的参数估计通常采用最大似然估计(maximumlikeli-hoodestimate,MLE)估计回归系数,同时得到回归系数的标准误Sb。根据最大似然原理,在一次抽样中获得现有样本的概率应该最大。即似然函数取值最大。计算可以通过统计软件来完成。logistic回归模型的参数估计通常采用最大似然估计(malogistic回归模型的参数估计根据计算所得的bj计算OR值。OR值的可信区间:可以利用bj的抽样分布来估计,在样本含量较大的情况下,近似服从正态分布。当自变量只有两个水平时,可采用下列公式计算。logistic回归模型的参数估计根据计算所得的bj计算ORlogistic回归模型的参数估计以表16-1的数据,计算吸烟和饮酒与食管癌关系研究的logistic回归分析中各项参数估计值。影响因素bSbOROR的95%CI常数项-0.90990.1358吸烟0.88560.15002.421.81~3.25饮酒0.52610.15721.691.24~2.30logistic回归模型的参数估计以表16-1的数据,计算吸logistic回归模型的假设检验根据样本得到的logistic回归模型还需经过检验才能说明影响因素对事件发生的影响是否具有统计学意义。假设检验的假设有两种:H0:1=2=……=

m(将多个影响因素作为一个整体考虑)H0:j=0(单独检验某个影响因素)logistic回归模型的假设检验根据样本得到的logistlogistic回归模型的假设检验方法似然比检验(likelihoodratiotest):既适合单个影响因素的假设检验,又适合多个影响因素的同时检验;Wald检验(Waldtest):适合单个影响因素的检验;计分检验(scoretest):与传统Mantel-Haenszel检验结果相同,小样本时比似然比检验跟接近2分布,犯I型错误的可能性更小。logistic回归模型的假设检验方法似然比检验(likel似然比检验的基本思想比较包含需检验影响因素的模型和不包含该影响因素的模型,如果检验结果为拒绝H0,则表示该影响因素对回归模型有统计学意义,即对事件发生有影响。反之,则没有统计学意义,对事件发生没有影响。似然比检验的基本思想比较包含需检验影响因素的模型和不包含该影似然比检验(例16-1)G=2(lnL1-lnL0),自由度d=p-lG1=2[lnL(X1,X2)-lnL(X2)]=35.45G2=2[lnL(X1,X2)-lnL(X1)]=11.2320.05,1=3.84,G1<20.05,1,G2<20.05,1结论:扣除饮酒因素后,吸烟对食管癌的发生有影响;扣除吸烟因素后,饮酒对食管癌有影响。似然比检验(例16-1)G=2(lnL1-lnL0),自由度Wald检验(例16-1)结论:食管癌与吸烟、饮酒有关。Wald检验(例16-1)结论:食管癌与吸烟、饮酒有关。变量筛选当影响因素较多时,需挑选出与事件发生确实有关或关系更密切的影响因素,建立更加稳定的回归模型。筛选方法:前进法、后退法、逐步法。检验方法:似然比检验、Wald检验和计分检验。入选和剔除标准:0.05和0.10。(常规)变量筛选当影响因素较多时,需挑选出与事件发生确实有关或关系更表2冠心病危险因素的病例对照调查资料序号X1X2X3X4X5X6X7X8Y13101001102201100100…………………………5321010011154311010311表2冠心病危险因素的病例对照调查资料序号X1X2X3X4表3冠心病危险因素的赋值因素变量名赋值说明年龄(岁)X1<45=1,45~=2,55~=3,65~=4高血压史X2无=0,有=1高血压家族史X3无=0,有=1吸烟X4不吸烟=0,吸烟=1高血脂史X5无=0,有=1动物脂肪摄入X6低=0,高=1体重指数X7<24=1,24~=2,26~=3A型性格X8否=0,是=1冠心病Y对照=0,病例=1表3冠心病危险因素的赋值因素变量名赋值说明年龄(岁)X1变量筛选后的模型影响因素bSbWald2Pb’OR常数项-4.7051.5439.300.0023X10.9240.4773.760.05250.4012.52X51.4960.7444.040.04330.4064.46X63.1361.2496.300.01210.70323.00X81.9470.8475.290.02150.5237.01变量筛选后的模型影响因素bSbWald2Pb’OR常数项-结论年龄越大,有高血脂史,高动物脂肪摄入量以及A型性格的人,比较容易患冠心病。根据OR值或标准化回归系数可以判断出,动物脂肪摄入量高对冠心病的影响最大,其次为A型性格和有高血脂史,最后为年龄因素。标准化回归系数:结论年龄越大,有高血脂史,高动物脂肪摄入量以及A型性格的人,条件logistic回归根据病例的具体情况,安排某些条件相同的个体作为对照。可以是1:1对照,也可以1个病例选择多个对照,称为1:M对照(M≤3)。分析过程与非条件logistic回归相同。条件logistic回归与非条件logistic回归的区别是没有常数项。条件logistic回归根据病例的具体情况,安排某些条件相同logistic回归的应用流行病学危险因素分析病例对照研究中探索疾病的发病原因;队列研究中验证危险因素的作用大小。临床试验数据分析当评价指标为分类数据,而且有其他影响评价指标的影响因素(年龄、病情、病种等)存在时。logistic回归的应用流行病学危险因素分析logistic回归的应用分析药物和毒物的剂量反应计算半数效量(如ED50);考察不同药物的交互作用。预测和判别根据个体的特征,判断个体发生某事件的概率;判断个体属于的类型。logistic回归的应用分析药物和毒物的剂量反应logistic回归应用的注意事项变量取值形式事件变量的取值:一般发生为1,未发生为0,如果发生为0,未发生为1,则模型中回归系数绝对值不变,但符号相反。自变量可以是二分类变量、有序变量、多分类变量、连续变量。logistic回归应用的注意事项变量取值形式logistic回归应用的注意事项连续变量一般需转换为等级变量,否则实际意义不大。如年龄每增加1岁的优势比。等级变量取值认为变化每个等级的优势比相近,则取秩认为变化每个等级的优势比不同,则应转换为哑变量分析。logistic回归应用的注意事项连续变量一般需转换为等级变logistic回归应用的注意事项多分类变量只能转换为哑变量处理。哑变量的设置和结果解释 哑变量的个数为n-1(n为取值个数);哑变量的优势比表示自变量的某个取值与对照取值的优势比;等级变量转换为哑变量后,还可以分析多个等级之间的优势比,公式为exp(bi-bj)。logistic回归应用的注意事项多分类变量只能转换为哑变量logistic回归应用的注意事项样本含量样本例数与影响因素的个数相关;一般要求样本含量为影响因素个数的10以上;配对资料样本的匹配组数应为影响因素个数的20倍以上。logistic回归应用的注意事项样本含量logistic回归应用的注意事项模型评价对模型中的每个自变量进行检验(验证);对所建立的回归方程做拟合优度检验(探索)。拟合优度检验的统计量偏差(deviance,D)和Pearson2P>α,认为拟合效果好;P≤α,则效果不好。logistic回归应用的注意事项模型评价logistic回归分析卫生统计学教研室陆健副教授2022/12/31logistic回归分析卫生统计学教研室表1吸烟、饮酒与食管癌关系的病例对照调查资料分层吸烟饮酒阳性例数阴性例数观察例数1否否631361992否是631071703是否44571014是是265151416表1吸烟、饮酒与食管癌关系的病例对照调查资料分层吸烟饮酒表1吸烟、饮酒与食管癌关系的病例对照调查资料

(收集资料的形式)调查对象序号吸烟饮酒食管癌11012000……………………875111876010表1吸烟、饮酒与食管癌关系的病例对照调查资料

(收集资料分类资料的影响因素分析方法如果采用线性回归分析,应变量不满足条件,预测值会超出0和1的范围。如果采用单变量的2检验,则必然忽略其他自变量对应变量的影响。如果采用Mantel-Haenszel分层分析,需要较大的样本量,而且自变量不能太多。logistic回归能较好地解决上述问题。分类资料的影响因素分析方法如果采用线性回归分析,应变量不满足logistic回归模型应变量Y是一个二值变量,取值为自变量X1,X2,……,Xm。P表示在m个自变量作用下事件发生的概率。logistic回归模型应变量Y是一个二值变量,取值为logistic回归模型logistic回归模型logistic回归模型PZlogistic回归模型PZlogit变换事件发生概率与未发生概率之比的自然对数,称为P的logit变换,记作logit(P)。概率P的取值范围在0~1之间,而logit(P)取值是没有界限的。logit变换事件发生概率与未发生概率之比的自然对数,称为Plogit变换logit变换回归模型中参数的意义0(常数项):所有影响因素均为0时(记作X=0),个体发生事件概率与不发生事件的概率之比的自然对数值。j的含义:某因素因素Xj改变一个单位时,个体发生事件概率与不发生事件的概率之比的自然对数变化值。回归模型中参数的意义0(常数项):所有影响因素均为0时优势比(oddsratio,OR)优势(odds)是指某影响因素控制在某种水平时,事件发生率与事件不发生率的比值,即P/(1-P)。某影响因素的两个不同水平的优势的比值称为优势比,如某影响因素的一个水平为c1,另一个水平为c0,则这两个水平的优势比为:优势比(oddsratio,OR)优势(odds)是指某影优势比(oddsratio,OR)OR表示影响因素对事件发生的影响方向和影响能力大小。OR>1表示该因素取值越大,事件发生的概率越大,又称危险因素。OR<1表示该因素取值越大,事件发生的概率越小,又称保护因素。OR=1表示该因素与事件的发生无关。优势比(oddsratio,OR)OR表示影响因素对事件发优势比(oddsratio,OR)结果吸烟不吸烟合计食管癌患者309(a)126(b)435非食管癌患者208(c)243(d)451合计517(a+c)369(b+d)886吸烟与食管癌关系的病例对照调查结果优势比(oddsratio,OR)结果吸烟不吸烟合计食管癌优势比(oddsratio,OR)优势比(oddsratio,OR)OR与的关系=0,OR=1,影响因素与事件的发生无关。>0,OR>1,影响因素的取值越大,事件的发生的概率越大。<0,OR<1,影响因素的取值越大,事件的发生的概率越小。OR与的关系=0,OR=1,影响因素与事件的发logistic回归模型的参数估计通常采用最大似然估计(maximumlikeli-hoodestimate,MLE)估计回归系数,同时得到回归系数的标准误Sb。根据最大似然原理,在一次抽样中获得现有样本的概率应该最大。即似然函数取值最大。计算可以通过统计软件来完成。logistic回归模型的参数估计通常采用最大似然估计(malogistic回归模型的参数估计根据计算所得的bj计算OR值。OR值的可信区间:可以利用bj的抽样分布来估计,在样本含量较大的情况下,近似服从正态分布。当自变量只有两个水平时,可采用下列公式计算。logistic回归模型的参数估计根据计算所得的bj计算ORlogistic回归模型的参数估计以表16-1的数据,计算吸烟和饮酒与食管癌关系研究的logistic回归分析中各项参数估计值。影响因素bSbOROR的95%CI常数项-0.90990.1358吸烟0.88560.15002.421.81~3.25饮酒0.52610.15721.691.24~2.30logistic回归模型的参数估计以表16-1的数据,计算吸logistic回归模型的假设检验根据样本得到的logistic回归模型还需经过检验才能说明影响因素对事件发生的影响是否具有统计学意义。假设检验的假设有两种:H0:1=2=……=

m(将多个影响因素作为一个整体考虑)H0:j=0(单独检验某个影响因素)logistic回归模型的假设检验根据样本得到的logistlogistic回归模型的假设检验方法似然比检验(likelihoodratiotest):既适合单个影响因素的假设检验,又适合多个影响因素的同时检验;Wald检验(Waldtest):适合单个影响因素的检验;计分检验(scoretest):与传统Mantel-Haenszel检验结果相同,小样本时比似然比检验跟接近2分布,犯I型错误的可能性更小。logistic回归模型的假设检验方法似然比检验(likel似然比检验的基本思想比较包含需检验影响因素的模型和不包含该影响因素的模型,如果检验结果为拒绝H0,则表示该影响因素对回归模型有统计学意义,即对事件发生有影响。反之,则没有统计学意义,对事件发生没有影响。似然比检验的基本思想比较包含需检验影响因素的模型和不包含该影似然比检验(例16-1)G=2(lnL1-lnL0),自由度d=p-lG1=2[lnL(X1,X2)-lnL(X2)]=35.45G2=2[lnL(X1,X2)-lnL(X1)]=11.2320.05,1=3.84,G1<20.05,1,G2<20.05,1结论:扣除饮酒因素后,吸烟对食管癌的发生有影响;扣除吸烟因素后,饮酒对食管癌有影响。似然比检验(例16-1)G=2(lnL1-lnL0),自由度Wald检验(例16-1)结论:食管癌与吸烟、饮酒有关。Wald检验(例16-1)结论:食管癌与吸烟、饮酒有关。变量筛选当影响因素较多时,需挑选出与事件发生确实有关或关系更密切的影响因素,建立更加稳定的回归模型。筛选方法:前进法、后退法、逐步法。检验方法:似然比检验、Wald检验和计分检验。入选和剔除标准:0.05和0.10。(常规)变量筛选当影响因素较多时,需挑选出与事件发生确实有关或关系更表2冠心病危险因素的病例对照调查资料序号X1X2X3X4X5X6X7X8Y13101001102201100100…………………………5321010011154311010311表2冠心病危险因素的病例对照调查资料序号X1X2X3X4表3冠心病危险因素的赋值因素变量名赋值说明年龄(岁)X1<45=1,45~=2,55~=3,65~=4高血压史X2无=0,有=1高血压家族史X3无=0,有=1吸烟X4不吸烟=0,吸烟=1高血脂史X5无=0,有=1动物脂肪摄入X6低=0,高=1体重指数X7<24=1,24~=2,26~=3A型性格X8否=0,是=1冠心病Y对照=0,病例=1表3冠心病危险因素的赋值因素变量名赋值说明年龄(岁)X1变量筛选后的模型影响因素bSbWald2Pb’OR常数项-4.7051.5439.300.0023X10.9240.4773.760.05250.4012.52X51.4960.7444.040.04330.4064.46X63.1361.2496.300.01210.70323.00X81.9470.8475.290.02150.5237.01变量筛选后的模型影响因素bSbWald2Pb’OR常数项-结论年龄越大,有高血脂史,高动物脂肪摄入量以及A型性格的人,比较容易患冠心病。根据OR值或标准化回归系数可以判断出,动物脂肪摄入量高对冠心病的影响最大,其次为A型性格和有高血脂史,最后为年龄因素。标准化回归系数:结论年龄越大,有高血脂史,高动物脂肪摄入量以及A型性格的人,条件logistic回归根据病例的具体情况,安排某些条件相同的个体作为对照。可以是1:1对照,也可以1个病例选择多个对照,称为1:M对照(M≤3)。分析过程与非条件logistic回归相同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论