研究生课件统计13logistic回归研_第1页
研究生课件统计13logistic回归研_第2页
研究生课件统计13logistic回归研_第3页
研究生课件统计13logistic回归研_第4页
研究生课件统计13logistic回归研_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 Logistic回归分析 l胡利人胡利人l流行病与卫生统计学系流行病与卫生统计学系2022-4-182回归分析的分类回归分析的分类多个因变量多个因变量(y1,y2,yk)路径分析路径分析结构方程模型分析结构方程模型分析一个一个因变因变量量 y连续型因变量连续型因变量 (y) - 线性回归分析线性回归分析分类型因变量分类型因变量 (y) -Logistic 回归分析回归分析时间序列因变量时间序列因变量 (t) -时间序列分析时间序列分析生存时间因变量生存时间因变量 (t) -生存风险回归分析生存风险回归分析2022-4-183 医学研究中常碰到应变量的可能取值医学研究中常碰到应变量的可能取值仅

2、有两个(即二分类变量),如发病与未仅有两个(即二分类变量),如发病与未发病、阳性与阴性、死亡与生存、治愈与发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,显然这类资料未治愈、暴露与未暴露等,显然这类资料不满足多重线性回归的条件不满足多重线性回归的条件 什么情况下采用什么情况下采用Logistic回归回归?2022-4-184llogistic回归(回归(logistic regression)是研究因变)是研究因变量为二分类或多分类观察结果与影响因素(自量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概变量)之间关系的一种多变量分析方法,属概率型非线性

3、回归。率型非线性回归。l在分析疾病与各种危险因素间的定量关系,同在分析疾病与各种危险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响,已知主要控制系,需要控制混杂因素的影响,已知主要控制混杂的方法包括:分层分析和多重回归。混杂的方法包括:分层分析和多重回归。2022-4-185控制混杂因素的方法控制混杂因素的方法(1 1)Mantel-HaenszelMantel-Haenszel分层分析:适用于样本分层分析:适用于样本量大、分析因素较少的情况。量大、分析因素较少的情况。 当分层较多时,由于要求各格子中例数不当分层较

4、多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;能太少,所需样本较大,往往难以做到; 当混杂因素较多时,分层数也呈几何倍数当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为增长,这将导致部分层中某个格子的频数为零,无法利用其信息。零,无法利用其信息。 2022-4-186bcadOR87. 2126208243309OR0001.0,56.562P2022-4-187按饮酒与否分层计算按饮酒与否分层计算OR值值42. 20001. 0,62.352HMHMORP2022-4-188(2 2)线性回归分析:)线性回归分析: 由于因变量是分类变量,不能满足其

5、正由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非态性要求;有些自变量对因变量的影响并非线性。线性。mmxbxbby1102022-4-189 logistic回归回归:研究某个二分类(或无序及有序多分研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系,不仅适用于病类)目标变量与有关因素的关系,不仅适用于病因学分析,也可用于其他方面的研究因学分析,也可用于其他方面的研究 。 logistic回归的分类:回归的分类: (1)二分类资料)二分类资料logistic回归回归 非条件非条件logistic回归回归 条件条件logistic回归回归(配对或配比资料配对或

6、配比资料) (2)多分类资料)多分类资料logistic回归回归2022-4-1810非条件logistic回归用途用途 探讨二项分类结果变量发生概率的主要影探讨二项分类结果变量发生概率的主要影响因素响因素, 临床上常用于筛选与疾病预后的主临床上常用于筛选与疾病预后的主要影响因素,评价治疗措施的效果要影响因素,评价治疗措施的效果应用条件应用条件 应变量为二项分类变量,自变量可以是定量应变量为二项分类变量,自变量可以是定量变量变量 ,也可以是分类变量,也可以是分类变量2022-4-1811研究人群研究人群+-+-调查方向:追踪收集资料调查方向:追踪收集资料比较比较疾病疾病人数人数暴露暴露abcd

7、a/(a+b)c/(c+d)队列研究原理示意图队列研究原理示意图2022-4-1812RR(相对危险度(相对危险度relative risk):表示暴露组):表示暴露组与非暴露组发病率与非暴露组发病率(或死亡率或死亡率)的比值。也称为的比值。也称为危险比(危险比(risk ratio)。反映了暴露与疾病发生)。反映了暴露与疾病发生的关联强度。的关联强度。RR表明暴露组发病或死亡的危险是非暴露组表明暴露组发病或死亡的危险是非暴露组的多少倍。的多少倍。2022-4-1813+-病例病例+-对照对照调查方向:收集回顾性资料调查方向:收集回顾性资料abcda/(a+b)c/(c+d)比较比较人数人数暴

8、露暴露疾病疾病病例对照原理示意图病例对照原理示意图2022-4-1814 相对危险度相对危险度RR的本质是暴露组与非暴露组发的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比计算发病率,只能计算比值比OR值。值。 OR与与RR的含义是相同的,也是指暴露组的的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率疾病危险性为非暴露组的多少倍。当疾病发病率小于小于5%时,时,OR是是RR的极好近似值。的极好近似值。 OR1,说明说明 该因素使疾病的危险性增加,为危该因素使疾病的危险性增加,为危险因

9、素;险因素;OR1,说明说明 该因素使疾病的危险性减小该因素使疾病的危险性减小为保护因素为保护因素.2022-4-1815Logistic回归模型的构造回归模型的构造 设设x1, x2 , , xp为一组自变量,为一组自变量,y为应变量。为应变量。当当y是阳性反应时,记为是阳性反应时,记为y=1;当;当y是阴性反应是阴性反应时,记为时,记为y=0。用。用P表示发生阳性反应的概率;表示发生阳性反应的概率;用用1-P就是发生阴性反应的概率就是发生阴性反应的概率 ppppxxxxxxeeP22110221101ppxxxeP221101112022-4-1816ppxxxePP221101/ppxx

10、xPP221101lnlogistic回归模型回归模型上式中,上式中, 0 为常数项为常数项, j为偏回归系数为偏回归系数2022-4-18172022-4-1818优势优势(Odds): 优势比(优势比(Odds ratio) 表示一个暴露水平与另一个暴露水平相比,表示一个暴露水平与另一个暴露水平相比,所引起某种结局的危险度之比所引起某种结局的危险度之比 OR 与与j 之间的关系:之间的关系: 偏回归系数偏回归系数j 的流行病学意义的流行病学意义22111/1/PPPPOR在其他自变量固定不变的情况下,自变量在其他自变量固定不变的情况下,自变量 xj 的的暴露水平每改变一个测量单位时,所引起

11、的优势暴露水平每改变一个测量单位时,所引起的优势比比OR 的自然对数改变量的自然对数改变量)exp(jjeORPP1/2022-4-1819 01010102211012211000110011exp.111/1/ln01cceORcccccxxcxxPPInPPInPPPPInORjccjjjjjjjj2022-4-1820)exp(jjeOR2022-4-1821l对于发病率很低的慢性疾病如心脑血管病、对于发病率很低的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作为相对危险度恶性肿瘤等,优势比可作为相对危险度(relative risk , RR)的近似估计。)的近似估计。l即即: 1110

12、00(1)(1)PPPORRRPPP2022-4-1822参数估计与假设检验参数估计与假设检验参数估计:构造似然函数,采用极大似然函参数估计:构造似然函数,采用极大似然函 数法求解数法求解假设检验假设检验 v 似然比法似然比法v Wald 检验法检验法2022-4-1823例题:吸烟、饮酒与食管癌关系的病例-对照研究资料, 试进行logistic回归分析。 吸烟、饮酒与食管癌关系的病例-对照研究资料 分层g 吸烟1X 饮酒2X 总例数gn 病例数 对照数 1 0 0 199 63 136 2 0 1 170 63 107 3 1 0 101 44 57 4 1 1 416 265 151 首先

13、确定变量的赋值或编码: 吸烟 饮酒 病例 110X 不吸烟 210X 不饮酒 10Y 对照 logistic回归分析过程可通过SPSS统计软件包中Binary Logistic实现 2022-4-18242022-4-1825lData Weight Cases Weight Cases By (F)lOKlAnalyzeRegressionBinary LogisticlDependent :YlCovariates:X1、X2lMethod:EnterlOptions:CI for exp (95%), at last steplOK2022-4-1826对偏回归系数的假设检验对偏回归系数

14、的假设检验OR值及值及95%CIl结果表明,吸烟和饮酒均为食管癌发病的危险因素,结果表明,吸烟和饮酒均为食管癌发病的危险因素,l校正(调整)饮酒因素后,吸烟人群发生食管癌的可校正(调整)饮酒因素后,吸烟人群发生食管癌的可能性是不吸烟人群的能性是不吸烟人群的2.424倍,倍,l校正(调整)吸烟因素后,饮酒人群发生食管癌的可校正(调整)吸烟因素后,饮酒人群发生食管癌的可能性是不饮酒人群的能性是不饮酒人群的1.692倍。倍。2022-4-1827logistic回归模型的假设检验回归模型的假设检验 2022-4-18282022-4-1829概率概率P值均小值均小于于0.05,说明,说明方程有意义。

15、方程有意义。2022-4-1830变量筛选变量筛选 2022-4-1831实例分析实例分析2022-4-18322022-4-18332022-4-1834Variables in the Equation-3.091.94510.6991.001.045.007.2904.285.90822.2681.00072.57112.244430.147-1.142.5893.7571.053.319.1011.013-1.7731.2781.9251.165.170.0142.079-2.301.55517.1941.000.100.034.297-1.1161.158.9291.335.328.

16、0343.1715.3881.39814.8581.000218.82414.1333388.0589.8443.7396.9321.00818844.828-3.347.93312.8641.000.035.006.2194.503.89425.3761.00090.27215.656520.494-1.167.5764.1031.043.311.101.963-2.940.52731.1351.000.053.019.148-2.177.53816.3981.000.113.040.3255.4531.38315.5581.000233.56715.5433509.78512.0613.1

17、7014.4731.000173072.687X1X2X3X4X5X6X7ConstantStep 1aX1X2X3X4X5X7ConstantStep 2aBS.E.WalddfSig.Exp(B)LowerUpper95.0% C.I.forEXP(B)Variable(s) entered on step 1: X1, X2, X3, X4, X5, X6, X7.a. 2022-4-1835logistic回归的应用及其注意事项回归的应用及其注意事项 一、一、logistic回归的应用回归的应用1. 流行病学危险因素分析流行病学危险因素分析 logistic回归分回归分析参数的流行病学

18、含义清楚,即得到某析参数的流行病学含义清楚,即得到某一危险因素的回归系数一危险因素的回归系数 后,可以方便的后,可以方便的估计出该因素在不同水平下的估计出该因素在不同水平下的OR值或近值或近似似RR值,非常适合于流行病学研究。值,非常适合于流行病学研究。 在流行病学危险因素研究中,为了在流行病学危险因素研究中,为了排除混杂因素的影响,可以通过拟合包排除混杂因素的影响,可以通过拟合包含多变量的含多变量的logistic回归模型,得到调整回归模型,得到调整后的优势比。后的优势比。2022-4-18362. 临床试验数据分析临床试验数据分析 临床评价某种药物或治疗方法的效果,临床评价某种药物或治疗方

19、法的效果,非处理因素在试验组和对照组间分布不均非处理因素在试验组和对照组间分布不均衡,就有可能夸大或掩盖实验组的治疗效衡,就有可能夸大或掩盖实验组的治疗效果。果。 尽管在分组时要求按随机化原则分配,尽管在分组时要求按随机化原则分配,但由于样本含量有限,非处理因素在试验但由于样本含量有限,非处理因素在试验组和对照组间的分布仍可能不均衡,需要组和对照组间的分布仍可能不均衡,需要在分析阶段对构成混杂的因素进行调整,在分析阶段对构成混杂的因素进行调整,当评价指标为两分类变量时,可以利用当评价指标为两分类变量时,可以利用logistic回归分析得到调整后的药物或某种回归分析得到调整后的药物或某种治疗方法

20、的评价结果。治疗方法的评价结果。2022-4-1837 3预测与判别预测与判别 Logistic回归模型是一个概率型模型,回归模型是一个概率型模型,对非条件对非条件Logistic回归,在给定的条件下可回归,在给定的条件下可通过通过logistic回归模型计算某事件发生的概回归模型计算某事件发生的概率。因此可以利用它预测某事件发生的概率。因此可以利用它预测某事件发生的概率。在临床上也可以根据疾病与临床检查率。在临床上也可以根据疾病与临床检查指标资料,建立指标资料,建立logistic回归模型,对新的回归模型,对新的对象可根据其临床检查指标,计算其患某对象可根据其临床检查指标,计算其患某种疾病的

21、概率的大小,进行判别分析。种疾病的概率的大小,进行判别分析。 2022-4-1838)4.2578x2.1630 x1.7324x(4.4061)4.2578x2.1630 x1.7324x(4.4061742742e1eP某患者吸烟(某患者吸烟(x2=1),胆固醇水平(),胆固醇水平(x4=5.7) 高密度脂蛋白(高密度脂蛋白(x7=2.0) ,则该患者多发腔,则该患者多发腔隙性脑梗死的概率是隙性脑梗死的概率是P=?0.64396e1e)2.04.25785.72.163011.7324(4.4061)2.04.25785.72.163011.7324(4.4061P2022-4-1839二

22、、注意事项二、注意事项 1、数值变量资料的赋值、数值变量资料的赋值 若自变量是数值变量,最好将其若自变量是数值变量,最好将其按变量值的大小分成几组,按顺序赋按变量值的大小分成几组,按顺序赋值为值为1,2,3k,否则参数的实际意义,否则参数的实际意义可能不明确。可能不明确。 例如,对于年龄变量,如果利用例如,对于年龄变量,如果利用实际数值则求出的实际数值则求出的OR值表示年龄每增值表示年龄每增加一岁时的优势比,实际意义不大。加一岁时的优势比,实际意义不大。2022-4-1840如果将年龄分成几个不如果将年龄分成几个不同的水平(年龄段),就同的水平(年龄段),就比较容易解释,处理上也比较容易解释,处理上也比较灵活,分析时既可以比较灵活,分析时既可以按得分处理,也可以将其按得分处理,也可以将其化作化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论