




已阅读5页,还剩82页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十六章logistic回归分析 logistic回归为概率型非线性回归模型 是研究分类观察结果 y 与一些影响因素 x 之间关系的一种多变量分析方法 问题提出 医学研究中常研究某因素存在条件下某结果是否发生 以及之间的关系如何 因素 X 疾病结果 Y x1 x2 x3 XK发生Y 1不发生Y 0例 暴露因素冠心病结果高血压史 x1 有或无有或无高血脂史 x2 有或无吸烟 x3 有或无 研究问题可否用多元线性回归方法 1 多元线性回归方法要求Y的取值为计量的连续性随机变量 2 多元线性回归方程要求Y与X间关系为线性关系 3 多元线性回归结果不能回答 发生与否 logistic回归方法补充多元线性回归的不足 Logistic回归方法 该法研究是当y取某值 如y 1 发生的概率 p 与某暴露因素 x 的关系 P 概率 的取值波动0 1范围 基本原理 用一组观察数据拟合Logistic模型 揭示若干个x与一个因变量取值的关系 反映y对x的依存关系 第一节logistic回归一 基本概念 1 变量的取值logistic回归要求应变量 Y 取值为分类变量 两分类或多个分类 自变量 Xi 称为危险因素或暴露因素 可为连续变量 等级变量 分类变量 可有m个自变量X1 X2 Xm 2 两值因变量的logistic回归模型方程 一个自变量与Y关系的回归模型如 y 发生 1 未发生 0 x 有 1 无 0 记为p y 1 x 表示某暴露因素状态下 结果y 1的概率 P 模型 或 模型描述了应变量p与x的关系 P概率 1 0 5 Z值 0 1 2 3 1 2 3 图16 1Logistic回归函数的几何图形 为正值 x越大 结果y 1发生的可能性 p 越大 几个logistic回归模型方程 logistic回归模型方程的线性表达 对logistic回归模型的概率 p 做logit变换 截距 常数 回归系数 Y 至 线形关系 方程如下 在有多个危险因素 Xi 时 多个变量的logistic回归模型方程的线性表达 或 公式16 2 2 模型中参数的意义 0 常数项 暴露因素Xi 0时 个体发病概率与不发病概率之比的自然对数比值 的含义 某危险因素 暴露水平变化时 即Xi 1与Xi 0相比 发生某结果 如发病 优势比的对数值 P1 y 1 x 1 的概率 P0 y 1 x 0 的概率 危险因素Yx 1x 0发病 130 a 10 b 不发病 070 c 90 d a cb d危险因素Yx 1x 0发病 1p1p0不发病 01 p11 p0 有暴露因素人群中发病的比例 反映了在其他变量固定后 X 1与x 0相比发生Y事件的对数优势比 回归系数 与ORX与Y的关联 0 OR 1 无关 1 OR 1 有关 危险因素 1 OR 1 有关 保护因子事件发生率很小 OR RR 多元回归模型的的概念 二 logistic回归模型的参数估计 1 模型中的参数 i 估计通常用最大似然函数 maximumlikelihoodestimate MLE 估计 由统计软件包完成 讲义259页 2 优势比 OR 及可信区间的估计 如X 1 0两分类 则OR的1 可信区间估计公式 为回归系数的标准误 公式16 10 例 讲义表16 1资料 一个研究吸烟 饮酒与食道癌关系的病例 对照资料 886例 试作logistic回归分析 变量的赋值 经logistic回归计算后得b0 0 9099 b1 0 8856 b2 0 5261 方程表达 控制饮酒因素后 吸烟与不吸烟相比患食管癌的优势比为2 4倍 OR的可信区间估计 吸烟与不吸烟患食管癌OR的95 可信区间 饮酒与不饮酒OR的95 可信区间 三 Logistic回归模型的假设检验 1 检验一 对建立的整个模型做检验 说明自变量对Y的作用是否有统计意义 检验方法 讲义260 261页 1 似然比检验 likelihoodratiotest 2 Wald检验3 计分检验 scoretest 例表16 1吸烟 饮酒与食管癌资料 SAS软件计算 1 对建立的整个模型做检验 TestingGlobalNullHypothesis BETA 0TestChi SquareDFPr似然比68 54572 0001计分检验67 07122 0001Wald检验64 27842 0001 2 检验二 检验模型中某 是否对Y有作用 检验假设 检验统计量 主要为Wald检验 SAS软件 例 在大样本时 三方法结果一致 公式16 13 1的 2 例表16 1资料 对各x的 做检验 wald检验 参数 估计值标准误Chi SquaPr常数 0 90990 135844 8699 0001吸烟0 88560 150034 8625 0001饮酒0 52610 157211 2069 0008 OddsRatioEstimatesPoint95 WaldEffectEstimateConfidenceLimits吸烟x12 4241 8073 253饮酒x21 6921 2442 303 似然比检验 讲义 对某个 做检验 检验统计量 G 包括p个自变量的对数似然函数 包括l个自变量的对数似然函数 G服从自由度 d p l的 2分布 似然比检验对 做检验 例 X1为吸烟 X2为饮酒 检验饮酒与食管癌关系 H0 2 0 H1 2 0 G 3 84 p 0 05 说明调整吸烟因素后 饮酒与食管癌有关系 四 变量筛选 目的 将回归系数有显著意义的自变量选入模型中 作用不显著的自变量则排除在外 变量筛选算法有 前进法 后退法和逐步法 stepwise 例 讲义例16 2 用逐步法选入变量的显著水准为0 10 变量保留在方程的水准为0 15例 16 2讲义261 263页 表16 4进入方程的自变量及参数估计 变量 SbWald 2P标准 OR常数 4 7051 549 300 0023年龄0 9240 4773 760 05250 4012 52X51 4960 7444 040 04430 4064 46X63 1361 2496 300 01210 70323 06X81 9470 8475 290 02150 5237 01标准回归系数 b 比较各自变量对Y的相对贡献 第二节条件Logistic回归 概念 用配对设计获得病例对照研究资料 计算的Logistic回归模型为条件Logistic回归 成组 未配对 设计的病例对照研究资料 计算的Logistic回归模型为非条件Logistic回归 例 见265页区别 条件Logistic回归的参数估计无常数项 0 主要用于危险因素的分析 第三节logistic回归的应用及注意事项 一 logistic回归的应用1 疾病 某结果 的危险因素分析和筛选用回归模型中的回归系数 i 和OR说明危险因素与疾病的关系 例 讲义例16 1 16 2 16 3适用的资料 前瞻性研究设计 病例对照研究设计 横断面研究设计的资料 三类研究计算的logistic回归模型的 意义是一致 仅常数项不同 证明略 Logistic回归的应用 2 校正混杂因素 对疗效做评价在临床研究和疗效的评价 组间某些因素构成不一致干扰疗效分析 通过该法可控制非处理因素 正确评价疗效 3 预测与判别预测个体在某因素存在条件下 发生某事件 发病 的概率 为进一步治疗提供依据 表5 4甲乙两疗法某病治愈率 比较 病型甲疗法乙疗法病人治愈治愈病人治愈治愈数数率数数率普通型30018060 01006565 0重型1003535 030012541 7合计40021553 840019047 5 例 例1 表5 5直接法计算标准化治愈率 病型标准甲疗法乙疗法治疗原治预期原治预期人数愈率治愈数愈率治愈数普通型40060 024065 0260重型40035 014041 7167合计800380427调整率 标准化率 X1疗法 甲 0 乙 1 X2病情 轻 1 重 0 Y疗效 Y 1有效 Y 0无效 LOGISTIC回归计算StandardWaldParameterEstimateErrorChi SquaPrIntercept 0 64530 165315 24 0001疗法0 24820 16992 130 1442病情0 99000 169933 93 0001OddsRatioEstimatePoint95 WaldEffectEstimateConfidenceLimits疗法1 2820 9191 788病情2 6911 9293 755 例2性别 两种药物对某病疗效的研究 不考虑性别的影响 疗效与药物的logistic回归 2 10 23 p 0 0014 OR 4 46 考虑性别 药物对疗效的作用 StandardWaldParameEstimateErrorChi SquarePr常数 1 90370 598210 1270 0015性别1 46850 5756 5080 0107药物1 78160 51811 7940 0006OddsRatioEstimatesPoint95 WaldEffectEstimateConfidenceLimitsx1性别4 3431 40513 421x2药物5 9392 14916 417 结论 性别和药物的回归系数都均有统计意义 说明女性或用新药的疗效较优 用Logistic模型方程对个体的疗效做预测 设如女性病人 x1 1 用新药x2 1 有效的概率p 0 79如男性病人x1 0 用新药x2 1 有效的概率p 0 4695 二 Logistic回归应用的注意事项 1 模型中自变量的取值自变量 X 可为计量数据 分类数据和等级数据 计量数据常重新划为有序组段 OR的实际意义较大 例 年龄 岁 x1 数据的几种赋值形式 1 两分类变量 赋值为 有 1 无 02 有序变量 赋值 无 0 少 1 中 2 多 3例 年龄 45 145 54 255 64 3 65 43 多分类无序变量 赋值为 哑变量 dummyvariable 形式见例 注 变量取值不同 方程的系数和符号将发生变化 表16 2冠心病8个可能的危险因素与赋值 讲义262页 表16 9年龄 X 化为哑变量的赋值 方程1 有序变量方程 含义 x每增加1个单位 10岁 发病的lnOR平均增加 1 方程2 哑变量方程 哑变量个数 分类数 1 方程系数的解释 表示40 岁 40岁相比的对数优势比表示50 岁 40岁相比的对数优势比表示60 岁 40岁相比的对数优势比 哑变量的赋值方法 例2 研究某结果与血型的关系 变量规定某个分类为对照 对照组在哑变量的赋值均为0 式中回归系数表示各对比组与对照组 A型 相比的变化值 270页分析题2 变量X4的哑变量的赋值方法规定治疗11周 X4 1 是 1 否 0规定治疗21周 X4 2 是 1 否 0规定治疗1周为对照组 哑变量的赋值周X4 1X4 21 0011 1021 01 2 样本含量 1 病例和对照组的例数可相等或不等 2 样本例数的估计原则 自变量个数越多 例数越多 各组样本例数 对照组和病例组 至少为自变量个数的5 20倍 3 模型的评价 讲义269页 对所建立的回归方程做拟合优度检验 检查模型估计与实际数据的符合情况 检验统计量 1 剩余差 deviance 记为D 16 25 2 Pearson 2 16 26 统计量的概率值P 0 05 认为模型拟合较好例 表16 10 讲义表16 10 表16 1资料吸烟 饮酒与食管癌的关系 SAS软件结果 剩余差 D 与Pearson 2拟合优度检验DevianceandPearsonGoodness of FitStatisticsCriterionDFValuePr ChiSqDeviance13 42020 0644Pearson13 42180 0643 4 多分类的Logistic回归 Logistic回归可处理 1 应变量 Y 为有序的多分类资料如结果为 治愈 显效 好转 无效2 应变量 Y 为无序的多分类资料例 研究阑尾炎类型与危险因素关系阑尾炎类型有 卡他型 坏疽型 腹膜炎型多分类Logistic回归方法 略 结果的表达 一般logistic回归分析报告内容 1 危险因素的回归系数及标准误 p值2 标准化的回归系数 3 危险因素对应的OR和可信区间4 Logistic回归方程 讲义264页 本节重点掌握内容和作业 一 问答题1 Logistic回归与线性回归有什么不同 2 Logistic回归可解决哪些问题 3 自变量可以有哪些类型 应用时应如何赋值 4 Logistic回归中 的含义和方程的表达 二 计算分析题的第2题的第 1 题 Logisticregression Logistic回归 第一节 非条件logistic回归第二节 条件logistic回归第三节 应用及其注意事项 医学研究中常碰到应变量的可能取值仅有两个 即二分类变量 如发病与未发病 阳性与阴性 死亡与生存 治愈与未治愈 暴露与未暴露等 显然这类资料不满足多重回归的条件 什么情况下采用Logistic回归 Brown 1980 在术前检查了53例前列腺癌患者 拟用年龄 AGE 酸性磷酸酯酶 ACID 两个连续型的变量 X射线 X RAY 术前探针活检病理分级 GRADE 直肠指检肿瘤的大小与位置 STAGE 三个分类变量与手术探查结果变量NODES 1 0分别表示癌症的淋巴结转移与未转移 建立淋巴结转移的预报模型 实例 53例接受手术的前列腺癌患者情况 26例冠心病病人和28例对照者进行病例 对照研究 26例冠心病病人和28例对照者进行病例 对照研究 一 logistic回归模型 概率预报模型 二 模型的参数估计 Logistic回归参数的估计通常采用最大似然法 maximumlikelihood ML 最大似然法的基本思想是先建立似然函数与对数似然函数 再通过使对数似然函数最大求解相应的参数值 所得到的估计值称为参数的最大似然估计值 参数估计的公式 三 回归参数的假设检验 优势比及其可信区间 标准化回归参数 P262表16 3资料计算的SAS程序 TheLOGISTICProcedureAnalysisofMaximumLikelihoodEstimates 预报模型 四 回归参数的意义 当只有一个自变量时 以相应的预报概率为纵轴 自变量为横轴 可绘制出一条S形曲线 回归参数的正负符号与绝对值大小 分别决定了S形曲线的形状与方向 五 整个回归模型的假设检验 似然比检验 likelihoodratiotest 六 logistic逐步回归 变量筛选 MODEL语句加入选项
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水产品加工技术创新与市场应用前景考核试卷
- 社区卫生服务与慢性病药物管理考核试卷
- 江西省2025届高三下学期4月三模试题 地理 含答案
- 矿山机械行业政策与市场分析考核试卷
- 材料自愈性能考核试卷
- 劳务派遣行业的竞争格局考核试卷
- 电容器在储能系统中的应用考核试卷
- 教务处开学前培训
- 企业维修电工年终工作总结范文(32篇)
- 初一月考总结500字(14篇)
- VDA6.3 2023 过程审核检查表-参考表单
- 【贸易战背景下华为公司危机应对措施及其启示18000字(论文)】
- 【网络谣言型寻衅滋事罪的认定存在的争议探析8600字(论文)】
- 2024延迟退休政策详解
- 水泥标准培训考核2024
- 图书馆运营管理服务投标方案(技术方案)
- IC反应器的设计11
- IEEE-30节点全套数据2
- (落地式、悬挑式脚手架)设备设施风险分级管控清单
- DL∕T 5046-2018 发电厂废水治理设计规范
- 高中语文统编版必修上册《致云雀》课件
评论
0/150
提交评论