医学研究中的logistic模型精讲_第1页
医学研究中的logistic模型精讲_第2页
医学研究中的logistic模型精讲_第3页
医学研究中的logistic模型精讲_第4页
医学研究中的logistic模型精讲_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学研究中的医学研究中的logistic模型精讲模型精讲冯国双冯国双Logistic分布与分布与logistic模型模型pLogistic分布首先由比利时数学家分布首先由比利时数学家Verhulst于于1838年提出年提出p最初主要用于研究人口的增长趋势最初主要用于研究人口的增长趋势p很多物种都符合很多物种都符合logistic分布,呈现分布,呈现“S”型的发展型的发展趋势趋势Logistic模型在医学研究中的地位模型在医学研究中的地位p线性回归是非常经典的回归模型,但不适用于因线性回归是非常经典的回归模型,但不适用于因变量为分类变量的情况变量为分类变量的情况p考虑选择一个在(考虑选择一个在(

2、0,1)之间有)之间有S型曲线的分布,型曲线的分布,如如probit分布、分布、logistic分布等分布等pLogistic分布是最流行的一种分布分布是最流行的一种分布p形成形成了我们今天熟悉的了我们今天熟悉的logistic回归模型回归模型Logistic模型在医学研究中的地位模型在医学研究中的地位plogistic回归模型在医学中的主要用途:回归模型在医学中的主要用途:p探索疾病发生的危险因素探索疾病发生的危险因素p验证某危险因素对疾病的效果,校正其它混杂因验证某危险因素对疾病的效果,校正其它混杂因素的影响素的影响p预测某疾病发生的概率预测某疾病发生的概率p评价不同因素水平下的发病风险评

3、价不同因素水平下的发病风险logistic曲线曲线p常用常用于描述于描述:p初期增长速度越来越快初期增长速度越来越快p后期增长速度越来越慢后期增长速度越来越慢p最终趋于一个上限值最终趋于一个上限值p反映事物发生、发展反映事物发生、发展、成熟、成熟、饱和的整个过程、饱和的整个过程p例如:人口增长例如:人口增长趋势趋势、企业成长模式、物种、企业成长模式、物种种群数量的增种群数量的增加、细胞的增长、药物浓度在体内的变化加、细胞的增长、药物浓度在体内的变化等等logistic曲线曲线p最简单的最简单的logistic曲线:曲线:-xey11logistic曲线曲线p常见的常见的logistic曲线(三

4、参数曲线(三参数logistic曲线):曲线):p式式中,中,K、a、b为待估参数为待估参数pK 代表曲线代表曲线的上限值的上限值pa反映了增长速度反映了增长速度pb表示拐点,在这一点增长速度最快,这一点对应表示拐点,在这一点增长速度最快,这一点对应的的y值为值为K/2)(bxeKya-1logistic曲线曲线p四参数四参数logistic曲线:曲线:p式中式中,D、C、a、b为待估参数为待估参数pD 代表曲线的上代表曲线的上限值限值pC 代表曲线代表曲线的下限值的下限值pa反映了增长速度反映了增长速度pb表示表示拐点,在这一点增长速度拐点,在这一点增长速度最快最快)(bxeCDya-1lo

5、gistic曲线曲线p二参数二参数logistic曲线:曲线:p式中式中,a、b为待估参数为待估参数pa反映了增长速度反映了增长速度pb表示表示拐点,在这一点增长速度拐点,在这一点增长速度最快最快)(bxeya-11Logistic回归模型回归模型pLogistic回归模型(单因素回归模型(单因素logistic回归模型):回归模型):pp为阳性率,如疾病发生率、死亡率等为阳性率,如疾病发生率、死亡率等p0和和1为待估参数,分别表示模型的截距和斜率为待估参数,分别表示模型的截距和斜率epx)(1011Logistic回归模型回归模型pLogistic回归模型(多因素回归模型(多因素logist

6、ic回归模型):回归模型):pp为阳性率,如疾病发生率、死亡率等为阳性率,如疾病发生率、死亡率等p0为待估参数,表示模型的截距为待估参数,表示模型的截距p1、 1、 m为待为待估参数,分别估参数,分别表示各自变量表示各自变量的斜率的斜率emmxxxp).(221011用用logistic曲线拟合剂量反应关系曲线拟合剂量反应关系p剂量反应关系:剂量反应关系:p某药物的生理反应强度对给药量的函数某药物的生理反应强度对给药量的函数p随着药量增加,反应强度增大,但不会无限增大随着药量增加,反应强度增大,但不会无限增大,而是有一个上限值,而是有一个上限值p不少剂量反应关系都呈不少剂量反应关系都呈S型曲线

7、,可用型曲线,可用logistic曲线曲线来描述来描述用用logistic曲线拟合剂量反应关系曲线拟合剂量反应关系p例例1:某实验室进行小鼠的药物毒性实验,下面数:某实验室进行小鼠的药物毒性实验,下面数据为不同剂量下的小鼠死亡率。据为不同剂量下的小鼠死亡率。剂量(mg/kg)死亡率30.7038.40.2480.35600.8750.95用用logistic曲线拟合剂量反应关系曲线拟合剂量反应关系p该实验的结果为死亡率,因此最高为该实验的结果为死亡率,因此最高为1p可以考虑二参数可以考虑二参数logistic曲线拟合曲线拟合用用logistic曲线拟合剂量反应关系曲线拟合剂量反应关系用用log

8、istic曲线拟合剂量反应关系曲线拟合剂量反应关系用用logistic曲线拟合剂量反应关系曲线拟合剂量反应关系p拟合模型:拟合模型:p死亡率以死亡率以0.14的速率增长的速率增长p剂量在剂量在51.26时死亡率的增长时死亡率的增长速度达到高峰,以后死亡率速度达到高峰,以后死亡率增长速度开始下降增长速度开始下降p半数致死剂量为半数致死剂量为51.26(95%CI :48.96-53.56).(26510.14-11xey用用logistic曲线拟合剂量反应关系曲线拟合剂量反应关系p反推:反推:p在什么剂量下死亡率达到在什么剂量下死亡率达到50%?用用logistic曲线拟合剂量反应关系曲线拟合剂

9、量反应关系pLogistic曲线与直线拟合的比较曲线与直线拟合的比较logistic曲线曲线 直线拟合直线拟合用用logistic曲线拟合曲线拟合SARS发展趋势发展趋势p例例2:2003年年SARS在香港的感染人数,在香港的感染人数,t=0表示表示2003年年3月月17日。日。天数病例数09552221247019800261108331358401527471621541674611710681724751739811750871755用用logistic曲线拟合曲线拟合SARS发展趋势发展趋势p感染人数无上限,但有下限(感染人数无上限,但有下限(0),考虑三参数模型),考虑三参数模型用用

10、logistic曲线拟合曲线拟合SARS发展趋势发展趋势p拟合模型:拟合模型:p感染人数以感染人数以0.11的速度增的速度增长长p在第在第21天时感染天时感染速速率最高率最高,从,从21以后感染速度放慢以后感染速度放慢p最高感染人数约为最高感染人数约为1732人人).(08210.11-11732xey用用logistic曲线拟合曲线拟合SARS发展趋势发展趋势pLogistic曲线与指数曲线拟合的比较曲线与指数曲线拟合的比较logistic曲线曲线 指数曲线指数曲线用用logistic曲线拟合曲线拟合SARS发展趋势发展趋势p预测模拟(预测刻画器)预测模拟(预测刻画器)用用logistic曲

11、线拟合曲线拟合SARS发展趋势发展趋势p反推预测:反推预测:p根据根据logistic曲线拟合结果,什么时候病例突破曲线拟合结果,什么时候病例突破1000?用用logistic回归探索疾病危险因素回归探索疾病危险因素p探索疾病的危险因素是探索疾病的危险因素是logistic回归的一个重要作用回归的一个重要作用p病因研究一般可分为探索性研究和证实性研究病因研究一般可分为探索性研究和证实性研究p探索性研究主要用于对疾病发生的影响因素不确定,作为探索性研究主要用于对疾病发生的影响因素不确定,作为疾病危险的初步探索,如病例对照研究疾病危险的初步探索,如病例对照研究p证实证实性研究在探索性研究的基础上,

12、初步确定某因素可能性研究在探索性研究的基础上,初步确定某因素可能是疾病的影响因素,用于进一步证实。如队列研究是疾病的影响因素,用于进一步证实。如队列研究用用logistic回归探索疾病危险因素回归探索疾病危险因素p病例对照研究在医院中应用非常广泛病例对照研究在医院中应用非常广泛,具有很多优点:,具有很多优点:p收集收集数据快,符合医院特点,数据快,符合医院特点,可以利用可以利用病史病史快速快速收集到收集到病病例及对照的数据例及对照的数据p研究时间短,可以很快发现一些疾病的危险因素研究时间短,可以很快发现一些疾病的危险因素p病例对照研究是回顾性的,很大的一个问题是调查对象的病例对照研究是回顾性的

13、,很大的一个问题是调查对象的回忆是否准确。如果这一点能避免,其效率还是很高的回忆是否准确。如果这一点能避免,其效率还是很高的用用logistic回归探索疾病危险因素回归探索疾病危险因素p病例对照研究最关键的就是选择病例和对照,然后收集他病例对照研究最关键的就是选择病例和对照,然后收集他们的相关数据们的相关数据p选择病例:最好的是从自然人群中选择病例,但实施困难选择病例:最好的是从自然人群中选择病例,但实施困难。在医院中选择病例非常方便,但有时容易出现选择性偏。在医院中选择病例非常方便,但有时容易出现选择性偏倚,如果可能,最好从多家医院选择倚,如果可能,最好从多家医院选择p选择对照:从医院中选择

14、对照,可以是未患有研究疾病的选择对照:从医院中选择对照,可以是未患有研究疾病的其他患者。但需要注意,不能患有与病例具有相同病因的其他患者。但需要注意,不能患有与病例具有相同病因的疾病。疾病。用用logistic回归探索疾病危险因素回归探索疾病危险因素p例例3:某妇幼保健院采用病例对照研究,欲分析巨:某妇幼保健院采用病例对照研究,欲分析巨大儿的危险因素。该研究设计如下:大儿的危险因素。该研究设计如下:p1、选择某年在该院确诊的巨大儿,作为病例、选择某年在该院确诊的巨大儿,作为病例p2、选择同期正常儿、选择同期正常儿200名,作为对照名,作为对照p3、病例和对照均采用同样的问卷,由医务人员询问调查

15、、病例和对照均采用同样的问卷,由医务人员询问调查相关的危险因素,如孕次、产次、出产年龄等相关的危险因素,如孕次、产次、出产年龄等p4、收集资料,录入数据,统计分析、收集资料,录入数据,统计分析用用logistic回归探索疾病危险因素回归探索疾病危险因素p数据(部分)数据(部分)编号孕次产次孕周体重(kg)巨大儿1113842021138480311384904213839051139410611394507113947081139500用用logistic回归探索疾病危险因素回归探索疾病危险因素p变量赋值情况变量赋值情况变量变量变量命名变量命名赋值赋值巨大儿y1=是,0=否孕次yc1=1次,2

16、=2次,3=3次产次chc1=1次,2=2次孕周yzh1=38-39周,2=40周,3=41周孕前体重wt1=50,2=51-60,3=60用用logistic回归探索疾病危险因素回归探索疾病危险因素p第第1步:探索各自变量与因变量的关系步:探索各自变量与因变量的关系pproc logistic desc plots(only)=(effect(link join=yes); pclass yc;pmodel y=yc;prun;pproc logistic desc plots(only)=(effect(link join=yes); pclass yzh;pmodel y=yzh;pru

17、n;pproc logistic desc plots(only)=(effect(link join=yes); pclass wt;pmodel y=wt;prun;用用logistic回归探索疾病危险因素回归探索疾病危险因素p孕次、孕周、孕前体重与孕次、孕周、孕前体重与logit (p)的关系图的关系图用用logistic回归探索疾病危险因素回归探索疾病危险因素p孕次孕次2次与次与3次的次的logit(p)值非常接近,可以考虑将值非常接近,可以考虑将2次和次和3次合并为一类次合并为一类。p体重体重的的logit(p)值基本呈一直线趋势,可考虑直接值基本呈一直线趋势,可考虑直接将其纳入模型

18、将其纳入模型。p孕孕周周38周与周与39周的周的logit(p)值也非常接近,可以考值也非常接近,可以考虑将这两类合并,将孕周简化为三分类变量,采虑将这两类合并,将孕周简化为三分类变量,采用虚拟变量的形式纳入模型。用虚拟变量的形式纳入模型。用用logistic回归探索疾病危险因素回归探索疾病危险因素p第第2步:单因素分析步:单因素分析pproc logistic desc;pmodel y=yc;pproc logistic desc;pmodel y=chc;pproc logistic desc;pclass yzh(param=reference ref=first);p/*class语

19、句表明将语句表明将yzh作为虚拟变量,以第一类为参照组作为虚拟变量,以第一类为参照组*/pmodel y=yzh;pproc logistic desc;pmodel y=wt;prun;用用logistic回归探索疾病危险因素回归探索疾病危险因素p单单因素分析结果(经整理后):因素分析结果(经整理后):用用logistic回归探索疾病危险因素回归探索疾病危险因素p将产次与是否巨大儿列成四格将产次与是否巨大儿列成四格表表,可以可以发现,其发现,其中一个格子为空单元(中一个格子为空单元(zero cell count),产次),产次2次的人群均发生巨大次的人群均发生巨大儿。儿。用用logisti

20、c回归探索疾病危险因素回归探索疾病危险因素p出现空单元时,导致估计无效,此时可考虑确切出现空单元时,导致估计无效,此时可考虑确切logistic回归(回归(exact logistic)pproc logistic desc;pmodel y=chc;pexact chc/estimate=both;p/*estimate=both选项表明同时给出参数估计和选项表明同时给出参数估计和OR值结果值结果*/prun;用用logistic回归探索疾病危险因素回归探索疾病危险因素p确切确切logistic回归估计结果回归估计结果用用logistic回归探索疾病危险因素回归探索疾病危险因素p第第3步:多

21、因素分析步:多因素分析pproc logistic desc;pclass yzh(param=reference ref=first);p/*class语句表明将语句表明将yzh作为虚拟变量,以第一类为参照组作为虚拟变量,以第一类为参照组*/pmodel y=yc chc yzh wt;pexact chc/estimate=both;p/*estimate=both选项表明同时给出参数估计和选项表明同时给出参数估计和OR值结果值结果,注意精确检验的变量必须在,注意精确检验的变量必须在model语句中出现语句中出现*/prun;用用logistic回归探索疾病危险因素回归探索疾病危险因素p多

22、因素分析结果:多因素分析结果:用用logistic回归探索疾病危险因素回归探索疾病危险因素p多因素分析多因素分析结果(针对结果(针对chc的确切的确切logistic):):用用logistic回归探索疾病危险因素回归探索疾病危险因素p为什么孕次(为什么孕次(yc)变得无统计学意义了?)变得无统计学意义了?p可能的假设:可能的假设:p孕次孕次和产次的关系是很密切的,孕次决定产次,和产次的关系是很密切的,孕次决定产次,如果孕次对巨大儿发生有影响的话,那产次只是如果孕次对巨大儿发生有影响的话,那产次只是孕次与巨大儿发生中的一个环节,最终的决定因孕次与巨大儿发生中的一个环节,最终的决定因素是孕次。素

23、是孕次。用用logistic回归探索疾病危险因素回归探索疾病危险因素p删除产次后的多因素分析:删除产次后的多因素分析:pproc logistic desc;pclass yzh(param=reference ref=first);pmodel y=yc yzh wt;prun;用用logistic回归探索疾病危险因素回归探索疾病危险因素p删除产次后的多删除产次后的多因素分析结果:因素分析结果:用用logistic回归探索疾病危险因素回归探索疾病危险因素p孕周(孕周(yzh)的标准误相对较大,考虑将孕周)的标准误相对较大,考虑将孕周40与与41合并合并用用logistic回归评价诊断试验回归

24、评价诊断试验p诊断试验是评价一种诊断方法真实性与可靠性的诊断试验是评价一种诊断方法真实性与可靠性的研究,在临床应用中十分广泛研究,在临床应用中十分广泛。p一种新的、简便易行或价格便宜的一种新的、简便易行或价格便宜的诊断方法诊断方法,能,能否否代替代替原有的原有的操作操作繁琐或价格昂贵的繁琐或价格昂贵的方法方法?p新的诊断方法的诊断价值如何新的诊断方法的诊断价值如何?p真实性真实性、可靠性有多高?、可靠性有多高?用用logistic回归评价诊断试验回归评价诊断试验p诊断试验的诊断试验的设计设计过程主要包括以下几点过程主要包括以下几点:p1. 明确研究目的明确研究目的p研究者要评价什么?是否有临床

25、价值研究者要评价什么?是否有临床价值?p2. 选择金标准选择金标准p金标准一定是临床公认的诊断所研究疾病的最可靠的金标准一定是临床公认的诊断所研究疾病的最可靠的方法,能够正确地区分有病和无病方法,能够正确地区分有病和无病。p常用常用的金标准有组织病理学检查、手术发现、影像诊的金标准有组织病理学检查、手术发现、影像诊断、病原体的分离培养以及长期随访结果等。断、病原体的分离培养以及长期随访结果等。用用logistic回归评价诊断试验回归评价诊断试验p3. 选择研究对象选择研究对象p研究对象的研究对象的分组以分组以金标准的诊断结果为依据,金标准确诊金标准的诊断结果为依据,金标准确诊为为“患病患病”的

26、为病例组,金标准证实为的为病例组,金标准证实为“无病无病”的为对照组。的为对照组。p病例组的病例要具备代表性,即要包括各临床型(如轻、病例组的病例要具备代表性,即要包括各临床型(如轻、中、重型,有或无并发症、早、中、晚期等)病例。病例中、重型,有或无并发症、早、中、晚期等)病例。病例的代表性愈好,新的诊断试验的实用价值愈大的代表性愈好,新的诊断试验的实用价值愈大。p对照组的人群不等于健康人群对照组的人群不等于健康人群,而而是是被金标准诊断为不患被金标准诊断为不患有研究疾病但又容易与所研究疾病混淆的人群。有研究疾病但又容易与所研究疾病混淆的人群。用用logistic回归评价诊断试验回归评价诊断试

27、验p4. 盲盲法法p诊断诊断试验必须采用盲法评价,诊断试验结果的评判者试验必须采用盲法评价,诊断试验结果的评判者(reader)一定不能预先知道金标准划分的结果,否)一定不能预先知道金标准划分的结果,否则多数评判者会倾向于对金标准判断为则多数评判者会倾向于对金标准判断为“有病有病”的标本的标本给出阳性结果,以致夸大诊断方法的价值。给出阳性结果,以致夸大诊断方法的价值。p5. 诊断试验的评价诊断试验的评价p灵敏度、特异度、灵敏度、特异度、ROC曲线曲线等等用用logistic回归评价诊断试验回归评价诊断试验诊断结果诊断结果真实结果真实结果合计合计有疾病无疾病阳性阳性a 真阳性b 假阳性n1阴性阴

28、性c 假阴性d 真阴性n0合计合计m1m0N用用logistic回归评价诊断试验回归评价诊断试验pROC曲线曲线:pROC曲线是以灵敏度为曲线是以灵敏度为y轴、以轴、以1-特异度特异度为为x轴,由不同界值产生不同的点,由线轴,由不同界值产生不同的点,由线段将这些点连接起来形成段将这些点连接起来形成ROC曲线曲线。p纵贯左下角与右上角的直线称为机会线纵贯左下角与右上角的直线称为机会线,这是划分诊断方法有无价值的一条线,这是划分诊断方法有无价值的一条线。只有。只有曲线高于机会线,也就是曲线下曲线高于机会线,也就是曲线下面积面积(Area Under the Curve,AUC)大于大于0.5才有诊

29、断价值才有诊断价值。曲线下曲线下面积越面积越大大,表示诊断价值越高,反之诊断价值越,表示诊断价值越高,反之诊断价值越低。低。有有学者认为,学者认为,AUC大于大于0.9表明诊断表明诊断价值很高,大于价值很高,大于0.7表示诊断价值中等。表示诊断价值中等。用用logistic回归评价诊断试验回归评价诊断试验p例例4:某研究者欲观察某生化指标某研究者欲观察某生化指标K和和P对对胃癌的胃癌的诊断价值,以病理检查为金标准划分胃癌和非胃诊断价值,以病理检查为金标准划分胃癌和非胃癌,然后测定两组人群的癌,然后测定两组人群的K和和P指标指标的值的值。p分析分析:p这两个这两个指标指标对胃癌是否有诊断对胃癌是否有诊断价值价值?p两个指标联合是否比单个指标诊断价值更高?两个指标联合是否比单个指标诊断价值更高?p如何找出指标的如何找出指标的cut-off值值?用用logistic回归评价诊断试验回归评价诊断试验p部分数据:部分数据:idKP胃癌10.01248.01否20.04262.94否30.02450.45否40.07283.18否50.05291.52否60.066841.66否70.101357.4否80.02458.23否90.07479.8否100.108343.36否11

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论