回归分析医学统计教学课件_第1页
回归分析医学统计教学课件_第2页
回归分析医学统计教学课件_第3页
回归分析医学统计教学课件_第4页
回归分析医学统计教学课件_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

logistic回归分析 第二军医大学卫生统计学教研室 孟 虹 1 1 本章的内容 第一节 Logistic 回归* 基本概念、参数估计、假设检验、变量 筛选、模型评价 第二节 条件 Logistic 回归 第三节 Logistic 回归的应用和注意问题* *为重点介绍 2 2 问题的提出 医学科研中常研究多个影响因素(x)对 结果变量(y为分类变量)的关系或作用. 例 冠心病与可能危险因素关系的研究 冠心病结果(y) (x)危险因素 结果记录 有或无 (x1)高血压史 有或无 (x2)高血脂史 有或无 (x3)吸烟 有或无 3 3 多元线性回归方程 多元线性回归的要求: Y 变量的取值为连续性随机变量。 Y与X间关系为线性关系。 前例采用单因素统计方法? 问题: 1.常采用2检验,但如有混杂因素干扰,导 致结果不一定正确。 2.不能回答哪个因素(x)对(y)关系更密切 或作用更大? 4 4 单因素方法 分类变量(y)与影响因素(x)关系 冠心病 危险因素(x1=高血压) (Y) 有 = 1 无= 0 合计 有=1 60(a ) 40( b) 100 无=0 40(c) 60(d) 100 例1 按血脂水平分层分析 血脂高水平 血脂低水平 冠心病 有高血压 无高血压 有高血压 无高血 压 有=1 (40) ( 10) (10) ( 40) 无=0 (30) (20) (20) (30) 血压与血脂何者对冠心病作用更大血压与血脂何者对冠心病作用更大? ? 5 5 例2 两医院乳腺癌术后5年生存率比较 比较组 生存数 死亡数 合计 生存率% 甲医院 485 270 755 64.2 乙医院 257 126 383 67.1 2 = 0.167 p=0.683 不考虑病情和其他不考虑病情和其他 因素,单因素分析因素,单因素分析 结论:两生存率差别无统 计意义 6 6 腋下淋巴 甲医院=1 乙医院=0 结转移 病例 生存 生存率% 病例 生存 生存率 % 无=0 45 35 77.7 300 215 71.6 有=1 710 450 63.4 83 42 50.6 合计 755 485 64.2 383 257 67.1 多因素分析作用多因素分析作用: : 1.1.可校正混杂因素,正确评价结果的效应可校正混杂因素,正确评价结果的效应. . 2.2.回答哪个因素对事件回答哪个因素对事件( (疾病疾病) )作用更大作用更大? ? 考虑病情因素,甲医院生存率高于乙医院. 两医院乳腺癌术后两医院乳腺癌术后5 5年生存率比较年生存率比较 7 7 第一节 logistic回归 一、基本概念 llogistic回归(logistic regression)是研究 观察结果(y)为分类变量与多个影响因素(x) 之间回归关系的多变量统计方法。 l根据因变量(y)取值不同, Logistic 回归又 有两分类 Binary Logistic 回归和多分类 Multinomial Logistic 回归方法. 8 8 两分类的logistic回归模型 变量的取值(y,x) 应变量(y)为两分类: 自变量(Xi)收集可能与y变量有关因素 ,称为危险因素(risk factor)或暴露因素,可 为连续变量、等级变量、分类变量。 可有 m个自变量X1, X2, Xm 。 9 9 logistic回归模型 以事件发生(y=1)的概率(p)做应变量,建 立 p 和自变量Xi 的函数关系,即概率p与自 变量(x)的回归关系是logistic回归模型。 P(概率)的取值波动01范围。 概 率函数表达式 1010 1. logistic回归模型方程表达形式 Logistic回归概率模型方程 Y与一个自变量(x)的logistic回归方程: p(y=1/x): 表示在某暴露因素(x)状态下 ,事件发生(y=1)的概率(P)模型。 概率回归 方程,二 者等价 1111 logistic回归概率模型方程 某暴露因素为有和无(某暴露因素为有和无(X=1X=1和和0 0) 1212 logistic回归模型方程的线性表达 对logistic回归概率(p)模型做logit变换 : 截距(常数)回归系数 Y(-至+) 线性表达形式:线性表达形式: 1313 在有多个危险因素(Xi)时 logistic回归模型方程线性表达: 或概率模型 公式16-2 公式16-1 1414 2.模型中参数的意义 0(常数项):暴露因素Xi=0时,个体出现 事件(发病)概率与不出现事件(发病)的概率之 比的自然对数值(基线值)。 1515 方程中回归系数的含义 的含义:某暴露因素存在(x=1)与不存在 (x=0)相比,个体发生结果事件(如y=1 )优势比的对数值。 优势比: 是流行病学上衡量暴露因素(X )与疾病( Y )发生是否有关联及关联程度大小的指标 . 1616 优势比(odds ratio ,OR) 暴露因素优势(odds1) 有暴露因素的个体中,个体出现某事件(y=1) 的概率P(y=1)与个体无事件(Y=0)的概率(1- P)的比值,称某暴露因素存在发生某事件的优 势。 1717 吸烟与肺癌关系的病例对照研究 结果 暴露因素(x) ( y) 吸烟=1 不吸烟 =0 合计 肺癌组(y=1) 688 (a) 21(b) 709 (a+b) 对照组(y=0) 350 (c) 359(d) 709(c+d) 合计 1038(a+c) 380(b+d)1418 暴露因素(吸烟的优势)在两组的优势(odds1) 同理:非暴露因素的odds0=21/359=0.0585 1818 优势比(odds ratio,OR) 定义:暴露因素存在与暴露不存在出现事件( 疾病)的优势(odds1)/(odds0)之比,称 为事件暴露因素的优势比(odds ratio, OR) 公式: 例: 1919 优势比(odds ratio,OR) 2020 OR值反映暴露因素与事件(疾病)关系 OR意义: lOR值1,表示有暴露因素的个体出现事件( 患某病)的优势大于无暴露因素者,或优势( 危险性)增加 。 lOR值 ChiSq Deviance 1 3.4202 0.0644 Pearson 2 1 3.4218 0.0643 如p =0.2 , 认为拟合方程理想, 本例p0.2, 认为食管癌资料仅用上述2个指标解释,数据拟 合不理想. 5959 4.多分类的Logistic回归 Logistic回归可处理: 1)应变量(Y)为有序的多分类资料 例:疗效结果(y)为:治愈、显效、好转、 无效 例: 检查结果(y): 2)应变量(Y)为无序的多分类资料 例:研究阑尾炎类型(y)与危险因素关 系 阑尾炎类型有:卡他型、坏疽型、腹膜炎 型 多分类Logistic回归方法(略) 6060 Logistic回归分析小结 1.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论