医学统计学16logistic回归ppt课件_第1页
医学统计学16logistic回归ppt课件_第2页
医学统计学16logistic回归ppt课件_第3页
医学统计学16logistic回归ppt课件_第4页
医学统计学16logistic回归ppt课件_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十六章 logistic回归分析,暨南大学医学院医学统计教研室 林汉生,内容,logistic 回归的概念 应用举例 预备知识:OR值与RR值 logistic回归对资料的要求 模型的建立与变量筛选 logistic回归分析的结果表达 logistic回归应用的注意事项 logistic回归的应用 logistic回归的种类 logistic回归分析资料主要来源,一、logistic 回归的概念,在医学研究中经常遇到应变量为二项分类的资料,如治愈与未愈、生存与死亡、发病与未发病等,可以概括为阳性与阴性两种互斥的结果,同时可能存在对分类结果发生概率产生影响的因素即自变量。 研究1个二分类观察结果与多个影响因素之间关系的多变量分析方法。,二、应用举例,探讨疾病发生的危险因素、筛选与疾病预后有关的因素、综合多个指标进行诊断试验,等。如: 非胰岛素依赖型糖尿病的危险因素分析 301例急性心肌梗死病人急性期预后因素的logistic模型分析 运动试验logistic回归分析对冠心病的诊断价值,三、预备知识:OR值与RR值,预备知识:OR值,OR值(odds ratio):比值比或优势比 比值( odds )是指某事物发生的概率与不发生的概率之比。病例组和对照组有暴露史与无暴露史的概率分别为: a / (a+b), b/(a+b) a / b c / (c+d), d / (c+d) c / d OR=( a / b)/( c / d )=(ad)/(bc) =( 76 44)/ (10 40)=8.36 出生时有窒息缺氧史儿童,发生低智的危险是对照儿童的8.36倍(要经过假设检验)。,OR值与RR值,RR(relative risk):暴露人群发病率P(1)与非暴露人群发病率P(0)之比。当P(1)和 P(0)都很小时,OR值接近RR值。 RR1:说明暴露越多,发病越多,可能是致病因素; RR1:说明暴露越少,发病越少,可能是抑制发病因素。,四、 logistic回归对资料的要求,Y 取值:0,1 X1,X2,X3,Xm的取值:计数、计量和等级资料。,五、模型的建立与变量筛选,将回归效果显著的自变量选入模型,不显著的自变量则排除在模型外,使建立的模型比较稳定和便于解释。,实习指导例题,例 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析。,有关符号意义说明如下,i:标本序号 x1 :确诊时患者年龄 x2 :肾细胞血管内皮生长因子,分3个等级 x3 :肾细胞癌组织内微血管数 x4 :肾癌细胞核组织学分级,分4级 x5 :肾细胞癌分期,分4期 y :肾细胞癌转移情况(1转移;0无转移),1. SPSS的数据工作表,2. SPSS的操作步骤 Analyze Regression Binary Logistic,Logistic regression 对话框,将Y选入Dependent栏,X1 X5选入Covariate栏,选择Forward:LR法。单击Options按钮。,Options对话框,单击Continue按钮,单击OK按钮,3. SPSS的结果与分析 (1)数据基本情况,数据基本情况为26例纳入分析,没有缺失值,(2)0步时的分析结果,变量筛选第0步的Score检验结果,可作为单变量logistic回归分析的结果。如进行单变量logistic回归分析,在=0.05水准,变量X2、X4和X5有统计学意义。,(3)拟合优度用决定系数R2描述,(4)分类表:只有1个分错类,即观察值为0类,而预测值为1类,Y的观察值和预测值的符合情况:观测值为0时(肾癌未转移),预测的准确率为94.1%;观测值为1时(肾癌转移),预测的准确率为100.0%;总的预测准确率为96.2%。该指标可以评价logistic模型的拟合优度。,(5)模型中的变量,B:回归系数。当其他变量保持不变时,Xj每增加或减少1个单位时,OR值自然对数的平均变化量。 Exp (B):OR值(经校正的,或调整的OR值,adjusted odds ratio) SE:回归系数的标准误 Wald值:对回归系数进行假设检验的统计量,最重要的结果,选入模型的变量:X2和X4的OR值都大于1,故等级越高,肾癌转移的风险越大。 总体OR值的95%可信区间太宽,提示例数太少 。 可以将X2和X4的取值代入下式,计算肾癌转移的可能性。判断的截断点默认为0.50,大于0.50,则预测为肾癌转移(分类表中的结果)。,(6)未引入模型的变量,没有引入模型的变量,最小的P值为0.197。即使将引入变量的检验水准放宽到0.10,也不能引入新变量。,多因素logistic回归分析结果,该表可以改进吗?,表1 肾细胞癌转移的多因素logistic回归分析,表1 肾细胞癌转移的多因素logistic回归分析,小结,用多因素logistic回归分析的似然比前进法筛选变量,引入变量的检验水准为=0.10。在所研究的5个有关临床病理因素中,入选模型的因素有2个:肾细胞血管内皮生长因子表达等级是肾细胞癌转移的危险因素(经校正的OR值为11.17,95% CI为 1.07116.45,P=0.044);肾癌细胞核组织学分级也是肾细胞癌转移的危险因素(经校正的OR值为8.14,95% CI为 0.9768.62,P=0.054 )。,六、logistic回归分析的结果表达,赋值表 单因素分析 多因素分析,例:16-2(P339),为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例对照研究,各因素的说明及资料见表。试用logistic回归分析方法筛选危险因素。,冠心病危险因素的病例对照调查资料,表1 冠心病的相关因素与赋值,(一)相关因素与赋值,(二)单因素分析,单独分析每个自变量X与应变量Y是否有关联。检验水准可以放宽到0.10。对单因素有统计学意义的变量,进行多因素logistic回归分析。 当某个自变量有缺失值时,不影响对其它自变量进行分析。 可以分析每个自变量与应变量的关联 对自变量进行初步筛选,为多因素分析做准备。当例数较少,而自变量较多,缺失值较多时,初步筛选更有必要。,单因素分析方法,无序分类资料:卡方检验 有序分类资料:卡方检验中的线性趋势检验 计量资料:t检验 每次引入1个自变量进行logistic回归分析(任意类型资料) 当缺失值没有或很少时,逐步多因素logistic回归0步时的分析结果(任意类型资料),1. 卡方检验,Y Column (s),Chi-square卡方检验 Risk 求OR值或RR值,列联表及行百分数,8个变量,例数54,无缺失值,年龄:等级资料;病例组与对照组的年龄构成,线性趋势检验:年龄与冠心病的发病呈线性关系(25.68,P0.017) 等级资料,不能计算OR值,A型性格 与 冠心病 OR= (2115) / (135)=(21/13) / (5/15)= 4.85,26.82,P0.009 OR=4.85 (1.42, 16.51),表中的因素都是2分类变量,如果是计量资料,则百分率改为 ,2 改为t,2. 每次引入1个自变量进行 logistic回归分析,OR为4.85, 95% CI为1.4216.51, P=0.012,Score统计量的结果与卡方检验一致 Wald统计量的结果与卡方检验很接近,3. 当缺失值没有或很少时,逐步多因素logistic回归0步时的分析结果,结果,没有缺失值,Score统计量的结果与卡方检验一致(无缺失值的情况下),(三)多因素分析,筛选独立的自变量进入模型 例如,动物脂肪摄入和体重指数在单因素分析都有统计学意义,但多因素分析时,只有动物脂肪摄入这个因素被引入模型。说明动物脂肪摄入与体重指数可能有联系,动物脂肪摄入提供的信息取代了体重指数。,多因素logistic回归分析结果,结果简洁清楚,七、logistic回归应用的注意事项,危险因素分析 时,将计量指标转变为等级或二分类指标(如年龄,肿瘤转移的淋巴结个数),使OR值的实际意义明确。 无序分类变量的赋值方法:哑变量 样本含量:经验上,病例和对照的人数应至少各有3050例。,SPSS中哑变量的设置,Categorical按钮的使用,例(P 352),1352名少年儿童肥胖症危险因素调查资料 肥胖症:无;有(根据体重指数BMI划分) 性别:男;女 年龄组:7-9岁;10-12岁;13-15岁;16岁及以上 胆固醇:低;高 甘油三脂:低;高,数据文件,多因素logistic回归分析,年龄的OR值为0.782,什么含义?,Crosstab:肥胖发生风险并非随年龄增加而减少。可以79岁年龄组为参照,79岁年龄组为参照: 单击Categorical,选择:First (1: 79岁年龄组),单击Change,单击Continue,单击OK,哑变量自动生成 Frequency是分层的数目,总共有64层,其中有7层的例数为0,结果解释,年龄的参照组为79岁 年龄组(1)的OR值为2.53,P0.001。即在校正了其它因素后, 1012岁儿童患肥胖症的风险是79岁儿童的2.52倍。 1315岁和16岁及以上儿童患肥胖症的风险与79岁儿童比较,差异无统计学意义。 性别的OR值为0.607?(1:男性;2:女性) 甘油三酯的OR值为2.02? (1:低;2:高),是每个年龄组都是 男性肥胖率高于女性吗?,八、logistic回归的应用,筛选疾病预后或发生的有关因素 诊断模型的建立 校正混杂因素 如临床试验数据分析:当评价指标为二值变量(有效,无效),非处理因素在试验组和对照组中分布可能不均衡时。可以利用logistic回归分析得到调整后的药物评价结果。 Y group 年龄 病情 (0无效;1有效) (1常规疗法;2新疗法) (不均衡),九、logistic回归的种类,非条件logistic回归分析:简称logistic回归分析,即前面介绍的内容,应用最广泛。 条件logistic回归分析:为消除混杂因素对研究结果的影响,对每1例病人选择1至数例在混杂因素的暴露水平上相一致的,合乎研究条件的,未患病的人作为对照,共同组成一个匹配组。统计分析按匹配组进行。 多项分类Logistic回归分析 有序多分类Logistic回归分析,十、Logistic回归分析资料主要来源,回顾性资料(研究开始前病历等资料已经存在,但可能不完整) 前瞻性资

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论