医用多远统计学-logistic回归_第1页
医用多远统计学-logistic回归_第2页
医用多远统计学-logistic回归_第3页
医用多远统计学-logistic回归_第4页
医用多远统计学-logistic回归_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

logistic族回归,流行病学与卫生统计学教研室曹明芹,2,logistic回归概述,回归分析是医学研究中最常用的多元统计分析方法多重线性回归:应变量为连续型定量变量logistic族回归:应变量为分类变量二分类应变量:患病与未患病、生存与死亡、无序分类应变量:妊娠结局(顺产、剖宫产、助产)有序分类应变量:疗效(无效、好转、有效与治愈),3,logistic回归概述,分类资料的统计分析有哪些?(单因素分析)二分类变量: 吸烟与肺癌的关系?四格表资料(独立样本、配对设计)卡方检验RC列联表资料卡方检验 民族与高血压患病的关联?多分类变量: 流产史与宫颈病变关系?RC列联表资料卡方检验有序分类变量 糖尿病病史与肾病的严重程度? 秩和检验分层资料 : 吸烟和饮酒史对高血压患病影响? 影响因素较多或存在连续型变量时,采用多重(多因素)回归分析,4,logistic回归概述,logistic族回归为一类应变量为分类变量的回归模型按应变量的类型划分二分类logistic回归无序分类logistic回归有序分类logistic回归按设计时是否匹配混杂因素划分非条件logistic回归条件logistic回归:1:1 或者1:m,5,二分类logistic回归,数据的形式,7,二分类logistic回归,8,二分类logistic回归,9,(一) logistic回归模型的一般形式,可用于估计或预测某事件的发生概率,10,举 例,假设已经建立妇女使用雌激素(x:1=使用;0=不使用)与是否患子宫内膜癌(y:1=患病;0=未患病)的logistic回归模型使用雌激素患子宫内膜癌的概率,11,logistic回归与线性回归不同,12,(二) 系数的解释,医学研究中,logistic回归模型的回归系数的解释有其特殊含义,因而被广泛应用。例6.1 研究妇女使用雌激素与患子宫内膜癌的病例对照研究,试计算其OR值及95%置信区间。采用logistic回归分析雌激素对子宫内膜癌的影响作用,列出回归模型,比较回归系数与OR的关系。,13,(二) 系数的解释,14,(二) 系数的解释,15,(二) 系数的解释,16,(二) 系数的解释,17,(二) 系数的解释,logistic模型的回归系数与优势比OR存在极为密切的关系,同时与暴露因素的量化(或编码方法)密切相关暴露因素为两水平 (未暴露x=0;暴露x=1)x的回归系数B: 暴露相对于未暴露的OR值的自然对数值暴露因素为有序变量 ( x取值顺序分别为0,1,2,3)x的回归系数:每增加一个等级得到的OR值的自然对数值exp(B): 每增加 1 个等级的优势比exp(kB):每增加 k 个等级的优势比,18,(二)系数的解释,暴露因素为连续性定量变量 x的回归系数B: x每增加一个计量单位OR值的自然对数值exp(B): 每增加 1 个计量单位的优势比暴露因素为无序分类变量k个分类,产生k-1个哑变量(取值为0,1)其中参照分类, k-1个哑变量均取值为0例如,血型与白血病的关系,19,(二)系数的解释,血型与白血病的关系logit(P)=b0+ b1X1+ b2X2+ b3X3; Odds=exp(b0+ b1X1+ b2X2+ b3X3)参照血型:O型血 X1=X2=X3 =0; Odds=exp(b0) A型血 : X1=1; X2=X3 =0; Odds=exp(b0 + b11) ORA/O=exp(b1) 同理:ORB/O=exp(b2)同理:ORAB/O=exp(b3),20,(二) 系数的解释,21,举 例 (an1),为考察某药物的疗效,研究者随机抽取220例病人并分配至治疗组和对照组,治疗组采用治疗药物,对照组采用安慰剂,治疗一段时间后观察病人的疗效,得到如下数据:,年龄分组对疗效影响无统计学意义;治疗组相对于安慰剂,有效的优势比OR为3.464;治疗组的疗效优于安慰剂。,24,举 例 (an2),为研究3种治疗方法对不同性别(1=男;0=女)病人的治疗效果,得到如下结果,治疗方法一致时,男性相对女性治疗有效的OR值为0.382,男性患者的疗效比女性患者差;性别一致时,A相对C法治疗有效的OR值为1.795,A法优于C;B相对于C法治疗有效的OR值为4.762,B优于C,27,举例(教材87页例6.2),28,(三) 变量的赋值,logistic回归分析对自变量的要求并不严格,它可以是二分类变量、无序分类变量、有序分类变量或定量变量,但对自变量需进行合理赋值。对同一资料,变量采用不同的赋值方法,参数的估计值、符号及含义都可能发生变化。变量赋值合理与否,直接影响着logistic回归的效果。,29,自变量的赋值,30,自变量的赋值,31,自变量的赋值,32,举例 (教材241页6-3),3. 自变量的赋值,36,应变量的赋值,应变量赋值同分类变量赋值方法一般“阳性反应”的赋值为1,“阴性反应”的赋值为0。如果应变量 赋值的顺序相反,则回归系数绝对值不变,但符号相反。,39,(四) 参数的估计与假设检验,40,(四) 参数的估计与假设检验,41,(四)参数的估计与假设检验,检验整个模型:似然比检验检验模型每个参数(回归系数)Wald 2检验似然比检验,42,似然比检验 (教材241页6-3),43,似然比检验 (教材241页6-3),两个模型比较有统计学意义时,选取自变量多的模型无统计学意义时,选取自变量少的模型似然比检验即可对模型进行假设检验,也可对回归系数进行检验。,44,(五) 建模策略,对一数据集的建模过程远比拟合和检验复杂得多,成功的建模是根据科学原理,将专业知识、经验累积与统计方法相结合。在一个模型中是否纳入某一变量,随不同的学科,不同的问题而不同,统计学建模的传统方法是寻找能解释资料的最简洁的模型。减少模型的变量个数的基本原则:使最终模型在数字上更稳定,并且更易被概括。,45,(五) 建模策略 (教材90页例6.3),建模过程应从详细的各变量的单因素分析开始对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适宜尺度,及自变量间的必要的一些变量变换在单变量分析和相关自变量分析基础上,进行多因素的逐步筛选。在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项。 不同的分析思维、不同的统计方法所得模型可能不一样,应该允许多个模型并存,只要他们真正较好地反映病因与疾病间的联系。,46,(六) 模型的评价,似然比检验Hosmer-Lemeshow拟合优度指标(存在连续型自变量)预测的准确性,47,例 题 演 示,3. 为了不手术就弄清淋巴结转移情况,某研究者在术前检查了53例前列腺癌患者,分别记录其年龄(AGE)、酸性磷酸酯酶(ACID)两个连续型指标,X射线(X_rey)、癌组织病理分级(GRADE)、肿瘤大小,后三个指标均为0,1变量,赋值为1表示阳性或较严重情况,赋值为0表示为阴性或较轻情况。手术探查结果变量NODES(1为转移,0为未转移),试分析淋巴结转移的危险因素。4. 为研究孕妇顺产与否的影响因素(1=顺产,0=其他),研究者收集1402名产妇的年龄(岁)、身高(cm)、体重(kg)、职业(1=工人农民体力劳动,2=知识分子脑力劳动,3=商人,4=其他)和文化程度(0=文盲,1=小学,2=中学及高中,3=大学),试建立logistic回归模型。,产生哑变量,计算预测值,49,配比设计的条件logistic回归,二分类logistic回归成组设计logistic回归:二分类非条件logistic回归配比设计logistic回归:二分类条件logistic回归配比的作用:使病例和对照在所控制的配比因素上均衡,提高优势比的估计精度配比的因素:混杂因素配比设计不能分析配比的混杂因素的作用,50,配对设计的条件logistic回归,配比的混杂因素:分类资料或连续型资料性别、血型、职业、既往史相同年龄、血压 相近(临床上配比时允许有一定波动范围) 配比1:1 配对的病例对照研究1:m匹配的病例对照研究配比超过1:4 ,效率反而降低,51,条件logistic回归,1:m 配比资料的数据格式(教材97页)配比编号:1, 2 ,kY:病例-对照(0,1)变量危险因素:x1,x2,xp,52,条件logistic回归,配比设计中,每个配比组代表混杂因素(配比因素)的一个层,分析时将其视为一个整体,不宜拆开分析,不能采用非条件logistic回归拟合模型。若以哑变量引入模型,模型将估计许多混杂因素参数,使研究因素效应(b)的估计发生偏差。条件logistic回归是在一定条件下估计研究因素的效应,不再估计a和混杂因素的b。模型假定各影响因素(自变量)在各配比组对结果变量的作用相同。适用于配比设计的资料,也可用于有大量混杂因素分层的非配比设计资料。,53,条件logistic回归,模型表达式 模型中不包含常数项a,常数项与每个特定的配比组有关。因此,条件logistic回归可以分析危险因素的作用,但不能进行发病的概率预测和估计。,54,条件logistic回归,配对四格表的OR值与条件logistic回归系数的关系 例6.4 为探讨软组织肉瘤与接触苯氧乙酸的关系,进行一项1:1病例对照研究,数据见教材97页(频数表资料)。 原始资料的数据形式?,55,条件logistic回归,SPSS软件进行单因素条件logistic回归分析结果,56,条件logistic回归,条件logistic回归模型中回归系数的解释、应变量及自变量的编码与赋值、参数估计和假设检验、建模策略等与非条件logistic回归相同。 例6.5 在子宫内膜癌是否与雌激素存在关联的研究中,采用1:4的病例对照研究,配比因素为年龄,共调查63对,315个研究对象,数据见教材98页,试列出回归模型并解释回归系数,57,条件logistic回归,SPSS进行条件logistic回归分析 用变量差值拟合非条件logistic回归,只适用于1:1配对 借助分层Cox模型菜单分析 将配比组作为分层因素 结局变量为病例-对照(病例状态编码为1) 人为设置 生存时间:对照组生存时间长于病例组 SPSS/Analyze/Survival/Cox Regression,59,无序多分类logistic回归(multinomial logit model),61,多分类logistic回归,63,多分类logistic回归,64,多分类logistic回归,例6.6 产后大出血与妊高症关系研究中,将产后大出血分为两类即子宫因素(宫缩乏力性)和胎盘因素,对照出血量400ml,调查结果见102页,65,多分类logistic回归,例6.7 教材103页,66,67,SPSS统计分析:Multinomail Logistic Regression,产生哑变量,68,多分类logistic回归,分析时注意的问题变量筛选:通过分别拟合二分类logistic模型的方法进行,将各自筛选出的变量合并用于多分类logit模型建模,但最后结论应基于多分类logit模型。回归模型假设检验 检验各自变量对因变量的“整体”作用,检验的零假设为自变量对k-1个logit中的任何一个都没有作用。 检验自变量对某一特定logit的影响,它用于确定哪一个logit会受到哪些自变量的影响。,69,多分类logistic回归,分析时注意的问题拟合多分类logit模型时,需考虑每个自变量在不同的logit函数中是否有统计学意义,还需检验在不同的logit函数中,某变量的效应是否相同。常见的一个问题是,某变量在某logit函数中有统计学意义,而在另一个logit函数中无统计学意义。如以参数尽可能少的原则建模,可考虑限制logit函数中无统计学意义的变量系数为0。,70,有序分类logistic回归(ordinal logistic regression),累积比数logistic回归模型,71,累积比数logistic回归模型,有序分类logistic回归(注意a的符号),72,累积比数logistic回归模型,73,累积比数logistic回归模型,74,累积比数logistic回归模型,例6.8 分析儿童智力等级与母亲文化程度的关系,数据见教材106页,常数项,回归系数,75,累积比数logistic回归模型,SPSS/Analyze/Regression/Ordinal Regression,76,Logistic 族回归的正确应用,医学应用分析影响因素,控制混杂因素预测和估计判别分析应用条件二分类logistic回归:独立性、残差服从二项分布、影响因素与logitP呈线性建模策略(111页)样本含量:自变量个数的20倍,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论