第十五章第二节Logistic回归分析_第1页
第十五章第二节Logistic回归分析_第2页
第十五章第二节Logistic回归分析_第3页
第十五章第二节Logistic回归分析_第4页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、v在疗效评价在疗效评价, ,发病因素研究中发病因素研究中, ,应变量应变量为分类指标为分类指标v 有效有效 治愈治愈 发生发生 阳性阳性v Y Yv 无效无效 死亡死亡 未发生未发生 阴性阴性v线性回归分析:线性回归分析: 正态随机变量正态随机变量v医学数据的复杂、多样性医学数据的复杂、多样性连续型和离散型数据连续型和离散型数据v医学研究中疾病的复杂性医学研究中疾病的复杂性一种疾病可能有多种致病因素或与一种疾病可能有多种致病因素或与多种危险因素有关多种危险因素有关疾病转归的影响因素也可能多种多疾病转归的影响因素也可能多种多样样临床治疗结局的综合性临床治疗结局的综合性v简单的简单的:v固定其他因

2、素,研究有影响的一两个固定其他因素,研究有影响的一两个因素;因素;v按按12个因素组成的层进行分层分析个因素组成的层进行分层分析(层内和综合分析层内和综合分析)。v多因素多因素:v寻找合适的统计模型寻找合适的统计模型vLogisticLogistic回归回归 二分类二分类 多分类多分类 条件条件LogisticLogistic回归回归 非条件非条件LogisticLogistic回归回归v 19671967年年Truelt JTruelt J,Connifield JConnifield J和和KannelKannel W W在在Journal of Chronic Journal of Ch

3、ronic DiseaseDisease上发表了冠心病危险因素的上发表了冠心病危险因素的研究,较早地将研究,较早地将LogisticLogistic回归用于医学回归用于医学研究。研究。 医学研究中医学研究中, , 有关生存与死有关生存与死亡亡, , 发病与未发病发病与未发病, , 阴性与阳性阴性与阳性等结果的产生可能与病人的年龄、等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等性别、生活习惯、体质、遗传等许多因素中哪些有关许多因素中哪些有关? ?如何找出如何找出其中哪些因素对结果有影响?其中哪些因素对结果有影响?设设: :暴露组暴露组 发生率发生率 p p1 1 / /未发生率未发生

4、率(1-p(1-p1 1) ) 对照组对照组 发生率发生率 p p0 0 / /未发生率未发生率(1-p(1-p0 0) ) p p表示暴露因素表示暴露因素X X时个体发病的概率,时个体发病的概率,则发病的概率则发病的概率 与未发病的概率与未发病的概率 1- p1- p之比称为优势(之比称为优势(oddsodds). . 暴露组暴露组 odds odds p p1 1 / / (1-p(1-p1 1) ) 对照组对照组 odds odds p p0 0 / / (1-p(1-p0 0) )Logistic回归分析回归分析vLogit变换变换 也称对数单位转换也称对数单位转换 logit P=

5、病例组病例组 与对照组与对照组 的的 优势比优势比 (odds retio ,OR) ln1PP)1/()1/(0011ppppORv进行进行logitlogit变换变换ppxxxpp.)1ln(22110v LogisticLogistic回归模型是一种概率模回归模型是一种概率模型型, , 它是以疾病它是以疾病, ,死亡等结果发生的死亡等结果发生的概率为因变量概率为因变量, , 影响疾病发生的因影响疾病发生的因素为自变量建立回归模型。素为自变量建立回归模型。 它特别它特别适用于因变量为二项适用于因变量为二项, , 多项分类的多项分类的资料。资料。 v 在临床医学中多用于鉴别诊断在临床医学中多

6、用于鉴别诊断, , 评价治疗措施的好坏及分析与疾病评价治疗措施的好坏及分析与疾病预后有关的因素等。预后有关的因素等。 ppppXXXXXXeeP22110221101称为非条件称为非条件logistic回归模型回归模型,常常 应用于成组数据的分析应用于成组数据的分析经数学变换可得:lExp/e表示指数函数。最大似然估计法最大似然估计法 (Maximum likehood estimate)似然函数:似然函数:L=L=PPi i 对数似然函数:对数似然函数: lnL=(ln P)=lnlnL=(ln P)=ln P P1 1+ln P+ln P2 2+ +ln P+ln Pn n非线性迭代方法非

7、线性迭代方法Newton-Raphson法法 表示自变量每增加一个单位,其优势比对数值的改变量,v OR=e v lnOR= 亦即自变量每增加一个单位,其相对危险度为e 。回归系数回归系数 的意义的意义设只有一个自变量 的Logistic方程 =0 表示非暴露, =1表示暴露。 i i1101lnxpp1x1x1x ln(OR)=logitP(1)-logitP(0) =(0+11)-(0+10) = 1 例如,吸烟与肺癌的关系的研究例如,吸烟与肺癌的关系的研究 令令 1 吸烟吸烟 1 肺癌肺癌 X = y= 0 不吸不吸 0 非肺癌非肺癌若求得若求得: = 1, OR=e 表明表明: :吸烟

8、个体吸烟个体 患肺癌的危险性是不吸烟个患肺癌的危险性是不吸烟个体的体的2.71828倍。倍。 注意 变量X的赋值与OR的关系令 0 吸 X = 1 不吸 则求得 = ? OR=?则求得: = -1, OR=1/e 意思是: 不吸烟的人得肺癌症的危险性是吸烟的36.79%。 vLogisticLogistic回归中的常数项(回归中的常数项(b b0 0)表示)表示在不接触任何潜在危险保护因素条在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的件下,效应指标发生与不发生事件的概率之比的对数值。概率之比的对数值。vLogisticLogistic回归系数(回归系数( b bi i )表示

9、,某)表示,某一因素改变一个单位时,效应指标发一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变生与不发生事件的概率之比的对数变化值,即化值,即OROR的对数值。的对数值。v1.1.似然比检验(似然比检验(likehoodlikehood ratio test ratio test)通过比较包含与不包含某一个或几个待通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函检验观察因素的两个模型的对数似然函数变化来进行,其统计量为数变化来进行,其统计量为G G G=-2(ln LG=-2(ln Lp p-ln L-ln Lk k) ) n n较大时,较大时, G G近似

10、服从自由度为待检验近似服从自由度为待检验因素个数的因素个数的 分布。分布。v比分检验比分检验(score testscore test) 以未包含某个或几个变量的模型以未包含某个或几个变量的模型计算保留模型中参数的估计值,并假计算保留模型中参数的估计值,并假设新增参数为零,计算似然函数的一设新增参数为零,计算似然函数的一价偏导数及信息距阵,两者相乘便得价偏导数及信息距阵,两者相乘便得比分检验的统计量比分检验的统计量S S 。n n 较大时,较大时, S S近似服从自由度为待检因素个数的近似服从自由度为待检因素个数的 分布。分布。vWaldWald检验(检验( waldwald test tes

11、t)即广义的即广义的t t检验,统计量为检验,统计量为u u u u服从正态分布,即为标准正态离服从正态分布,即为标准正态离差。差。iibbu =s 以上三种方法中,似然比检以上三种方法中,似然比检验最可靠,比分检验一般与它相验最可靠,比分检验一般与它相一致,但两者计算量均较大;而一致,但两者计算量均较大;而WaldWald检验未考虑各因素间的综合检验未考虑各因素间的综合作用,在因素间有共线性存在时作用,在因素间有共线性存在时, ,结果不像其它两者可靠。结果不像其它两者可靠。分析因素分析因素xi为等级变量时,如以最小或为等级变量时,如以最小或最大等级作参考组,并按等级顺序依最大等级作参考组,并

12、按等级顺序依次取为次取为0,1,2,。此时,。此时, e(bi) 表示表示xi增加一个等级时的优势比,增加一个等级时的优势比, e(k* bi)表表示示xi增加增加k个等级时的优势比。个等级时的优势比。v分析因素分析因素xi为连续性变量时,为连续性变量时, e(bi)表示表示xi增加一个计量单位时的优势比。增加一个计量单位时的优势比。 分析思想与多重线性回归分析相同分析思想与多重线性回归分析相同 筛选变量的方法筛选变量的方法: : 前进法前进法 后退法后退法 逐步法逐步法 统计量不再是线性回归分析中的统计量不再是线性回归分析中的F F统计统计 量,量,而是上面介绍的三种统计量之一。而是上面介绍

13、的三种统计量之一。 为计算方便,通常向前选取变量用为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量似然比或比分检验,而向后剔除变量常用常用WaldWald检验。检验。对配比调查资料,多采用条件对配比调查资料,多采用条件LogisticLogistic回归分析。回归分析。LogisticLogistic回归方程回归方程i1 12 2logit P=bk kbxbxb xv假设自变量在各配比组对结果变量的假设自变量在各配比组对结果变量的作用相同,即自变量的回归系数与配作用相同,即自变量的回归系数与配比组无关。比组无关。v配比设计的配比设计的LogisticLogistic回归模型回归

14、模型 不含常数项。不含常数项。1 12 2logit P=bk kx bxbxv 可见非条件可见非条件Logistic回归模型回归模型与回归模型十分相似,只不过其参与回归模型十分相似,只不过其参数估计是根据条件概率得到的,因数估计是根据条件概率得到的,因此称为条件此称为条件Logistic回归模型。回归模型。v条件条件Logistic回归模型的回归系数回归模型的回归系数检验与解释同非条件检验与解释同非条件Logistic回归。回归。v1.因素分析 可用于危险可用于危险/保健因素的保健因素的筛选,并确定其作用大小。筛选,并确定其作用大小。v2.预测预报 v 若已知x1, x2 xm数值大小时,

15、通过模型可以预测某个病例某个病例发病、死亡的概率。v v(一)应用条件(一)应用条件 1. 各观察对象间相互独立;各观察对象间相互独立; 2. logit2. logit P P与自变量呈线性关系。与自变量呈线性关系。 3.3.异常值异常值 4.4.变量间的共线性问题变量间的共线性问题v变量的编码要易于识别变量的编码要易于识别v注意编码的顺序关系注意编码的顺序关系v改变分类变量的编码,其分析改变分类变量的编码,其分析的意义应不变。的意义应不变。v变量名 变量标识 变量值 值标识 SEX 性别 1 男 2 女 EDU 教育程度 0 文盲 1 小学 2 初中及以上 v哑变量,又称哑变量,又称指示变

16、量指示变量v有利于检验等级变量各个等级间的变化是有利于检验等级变量各个等级间的变化是否相同。否相同。v一个一个k k分类的分类变量,进行分类的分类变量,进行LogisticLogistic回回归分析前需将该变量转换成归分析前需将该变量转换成k-1k-1个指示变个指示变量或哑变量(量或哑变量(dummy variabledummy variable)来表示。这)来表示。这样指示变量都是二分变量,每一个指示变样指示变量都是二分变量,每一个指示变量均有一个回归系数,其解释同前。量均有一个回归系数,其解释同前。v哑变量的设置教育程度X1X2X3文盲:0000小学:1100初中:2010高中:3001教育程度教育程度:文盲,小学,初中,高中以上文盲,小学,初中,高中以上教育程度X1X2X3文盲:0100小学:1010初中:2001高中:3000以高中作为参照以高中作为参照研究对象例数的确定研究对象例数的确定观

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论