第04讲 logistic回归课件_第1页
第04讲 logistic回归课件_第2页
第04讲 logistic回归课件_第3页
第04讲 logistic回归课件_第4页
第04讲 logistic回归课件_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4讲logistic回归第04讲logistic回归logistic的主要内容logistic回归条件logistic回归多类结果的logistic回归有序结果的累计比数logistic回归logistic回归的正确应用第04讲logistic回归logistic回归模型简介传统方法与logistic回归的关系回归系数的解释模型的估计与假设检验建模策略第04讲logistic回归多元线性回归的适用条件计量资料(均数)=计量、等级、分类二分类资料(率)=计量、等级、分类?第04讲logistic回归1模型简介P发病的概率,0≤P≤1。Cox(1970)logit变换第04讲logistic回归logistic函数z-5-4-3-2-10123450.2.4.6.81P第04讲logistic回归logistic回归模型P发病的概率。为“机会”或“优势”(odds)logitP为优势之对数(logodds)第04讲logistic回归logistic回归模型的几种形式第04讲logistic回归2传统方法与logistic回归四格表资料(病例对照)与logistic的关系分层四格表资料与logistic的关系第04讲logistic回归例四格表资料探讨妇女使用雌激素与患子宫内膜癌的病例-对照研究雌激素使用过未使用过病例55(a)128(b)对照19(c)164(d)第04讲logistic回归四格表资料的logistic回归X=1表示使用过雌激素X=0表示未使用过雌激素第04讲logistic回归四格表资料与logistic回归X=1时X=0时第04讲logistic回归例分层四格表资料与logistic回归年龄组X=1,使用过X=0,未使用过Y=1Y=0Y=1Y=01:25~1946222242:30~34933123903:35~39426333304:40~4469653625:45~496593301按年龄分层的心肌梗死与近期口服避孕药的关系第04讲logistic回归Mantel-Haenszel法结果.mhoddsyx[fw=f],by(age)Comparingx==1vs.x==0byage---------------------------------------------------------------age|OddsRatiochi2(1)P>chi2[95%Conf.Interval]------+--------------------------------------------------------1|7.2258066.780.00921.26334041.328772|8.86363628.640.00003.36912823.318813|1.5384620.580.44500.5049524.6873034|3.7128216.580.01031.26658710.883615|3.8838715.530.01871.14749013.14561---------------------------------------------------------------Mantel-Haenszelestimatecontrollingforage----------------------------------------------------------------OddsRatiochi2(1)P>chi2[95%Conf.Interval]----------------------------------------------------------------3.96989534.720.00002.4180416.517702----------------------------------------------------------------TestofhomogeneityofORs(approx):chi2(4)=6.27Pr>chi2=0.1797第04讲logistic回归logistic回归结果.xi:logityxi.age[fw=f]i.age_Iage_1-5(naturallycoded;_Iage_1omitted)LogitestimatesNumberofobs=1976LRchi2(5)=151.47Prob>chi2=0.0000Loglikelihood=-643.06749PseudoR2=0.1054----------------------------------------------------------------y|Coef.Std.Err.zP>|z|

95%CI--------+-------------------------------------------------------x|1.385176.25053235.530.000.89414171.87621_Iage_2|1.138362.47697192.390.017.20351462.07321_Iage_3|1.934401.45838814.220.0001.0359772.832825_Iage_4|2.648059.44977355.890.0001.7665193.529599_Iage_5|3.194293.44753267.140.0002.3171454.07144_cons|-4.36985.4347941-10.050.000-5.222031-3.517669----------------------------------------------------------------第04讲logistic回归logistic回归结果.xi:logisticyxi.age[fw=f]i.age_Iage_1-5(naturallycoded;_Iage_1omitted)LogitestimatesNumberofobs=1976LRchi2(5)=151.47Prob>chi2=0.0000Loglikelihood=-643.06749PseudoR2=0.1054-----------------------------------------------------------------y|OddsRatioStd.Err.zP>|z|[95%CI]---------+-------------------------------------------------------

x|3.9955281.0010095.530.0002.4452366.528714_Iage_2|3.1216521.488942.390.0171.2257037.950304_Iage_3|6.9198973.1719984.220.0002.81785716.9934_Iage_4|14.126596.3537655.890.0005.85045234.11027_Iage_5|24.3929110.916627.140.00010.1466658.64136-----------------------------------------------------------------第04讲logistic回归传统方法与logistic回归的关系单因素病例对照研究的OR,与logistic回归等价;分层病例对照研究的ORMH,与logistic回归结果近似。logistic回归是传统方法的扩展。第04讲logistic回归混杂因素的控制控制某混杂因素,实际上就是将该因素纳入模型。在解释暴露因素的影响时,该混杂因素实际上是控制了。第04讲logistic回归3回归系数的解释logistic回归中的系数

,与OR有关!一个暴露因素时,当暴露为1,非暴露为0时,

=ln(OR)第04讲logistic回归回归系数的解释一个暴露因素时,当暴露为c1,非暴露为c0时,第04讲logistic回归回归系数的解释一个暴露因素:暴露为1,非暴露为0。一个混杂因素时:水平数分别为:1,2,…当x2固定时(取某个值的前提下):第04讲logistic回归例食道癌危险因素研究在食道癌危险因素研究中,采用病例-对照设计,调查了200个食道癌患者和788个非食道癌患者,调查因素及编码如下。

可疑因素变量名

取值年龄(岁)AGE

0=25-34,1=35-44,2=45-54,

3=55-64,4=65-74,5=75+每日饮酒量(g)ALCOHOL

0=0-39,1=40-79,2=80-119,3=120+每日吸烟量(g)TOBACO

0=0-9,1=10-19,2=20-29,3=30+第04讲logistic回归logistic回归系数的解释变量估计系数OR95%CIAGE0.74382.10391.7923~2.4698ALC1.10263.01202.4604~3.6872TOB0.43091.53861.2800~1.8496常数项-4.8868控制了吸烟和饮酒,年龄每增加1个等级,患食道癌的可能性增加1.1倍。控制了年龄和吸烟,饮酒每增加1个等级,患食道癌的可能性增加2.0倍。控制了年龄和饮酒,吸烟每增加1个等级,患食道癌的可能性增加0.54倍。第04讲logistic回归回归系数的解释等级变量:一般以最小等级或最大等级作为参考组,并按等级顺序依次取为0,1,2,…。此时,exp(

)表示X增加一个等级时的优势比,exp(k

)表示增加k个等级时的优势比。连续性变量:表示增加1(个计量单位)时的优势比。第04讲logistic回归回归系数的解释多分类变量:哑变量(dummyvariable)x=1时:D1=0,D2=0,D3=0表示A型血x=2时:D1=1,D2=0,D3=0表示B型血x=3时:D1=0,D2=1,D3=0表示AB型血x=4时:D1=0,D2=0,D3=1表示O型血exp(

1)表示B与A比之OR;exp(

2)表示AB与A比之OR;exp(

3)表示O与A比之OR。第04讲logistic回归回归系数的解释在横断面调查研究中,表示基线状态下,个体的患病率;在队列研究中,表示基线状态下,个体的发病率;在成组病例-对照研究中,表示基线状态下,病例在研究对象中所占比例;在1:1配比病例-对照研究中,

=0,=0.5,表示基线状态下,病例在研究对象中占一半;第04讲logistic回归4模型的估计及假设检验线性模型时,用最小二乘估计(LSE)logistic回归模型,用极大似然估计。

(maximumlikelihoodestimate,MLE)第04讲logistic回归Wald检验Wald检验实际上是比较估计系数与0的差别来进行的,其检验统计量为:Wald的

2检验是z的平方。第04讲logistic回归似然比检验(likelihoodratiotest)似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G(又称Deviance)来进行的,其统计量为:

G=GP-GK

=-2ln(LP)+2ln(LK)

其中,模型P中的变量是模型K中变量的一部分,另一部分就是我们要检验的变量(模型P嵌套在模型K中)。G服从自由度为K-P的

2分布。第04讲logistic回归例分层四格表资料与logistic回归年龄组X=1,使用过X=0,未使用过Y=1Y=0Y=1Y=01:25~1946222242:30~34933123903:35~39426333304:40~4469653625:45~496593301按年龄分层的心肌梗死与近期口服避孕药的关系第04讲logistic回归可能的模型Model1:logitP=常数项Model2:logitP=常数项+口服药Model3:logitP=常数项+口服药+年龄Model4:logitP=常数项+年龄第04讲logistic回归年龄为哑变量的模型.logityxage2-age5[fw=f]LogitestimatesNumberofobs=1976LRchi2(5)=151.47Prob>chi2=0.0000Loglikelihood=-643.06749PseudoR2=0.1054-----------------------------------------------------------------y|Coef.Std.Err.zP>|z|[95%CI]------+----------------------------------------------------------x|-1.385176.2505323-5.530.000-1.87621-.8941417age2|-1.138362.4769719-2.390.017-2.07321-.2035146age3|-1.934401.4583881-4.220.000-2.832825-1.035977age4|-2.648059.4497735-5.890.000-3.529599-1.766519age5|-3.194293.4475326-7.140.000-4.07144-2.317145_cons|4.36985.434794110.050.0003.5176695.222031----------------------------------------------------------------.lrtest,saving(0)第04讲logistic回归不包含年龄的模型.logityx[fw=f]Iteration0:loglikelihood=-718.80399Iteration1:loglikelihood=-716.28407Iteration2:loglikelihood=-716.18551Iteration3:loglikelihood=-716.18543LogitestimatesNumberofobs=1976LRchi2(1)=5.24Prob>chi2=0.0221Loglikelihood=-716.18543PseudoR2=0.0036------------------------------------------------------------------------------y|Coef.Std.Err.zP>|z|[95%Conf.Interval]-------------+----------------------------------------------------------------x|-.5211354.2176934-2.390.017-.9478068-.0944641_cons|2.059114.074164227.760.0001.9137552.204474------------------------------------------------------------------------------.lrtestLogit:likelihood-ratiotestchi2(4)=146.24Prob>chi2=0.00002×716.185433-2×643.06749=146.24第04讲logistic回归检验模型能否以线性形式进入模型.logityxage[fw=f]Iteration0:loglikelihood=-718.80399Iteration1:loglikelihood=-651.41522Iteration2:loglikelihood=-644.33827Iteration3:loglikelihood=-644.2107Iteration4:loglikelihood=-644.2106LogitestimatesNumberofobs=1976LRchi2(2)=149.19Prob>chi2=0.0000Loglikelihood=-644.2106PseudoR2=0.1038------------------------------------------------------------------------------y|Coef.Std.Err.zP>|z|[95%Conf.Interval]-------------+----------------------------------------------------------------x|-1.336405.246982-5.410.000-1.820481-.8523292age|-.7087472.0657999-10.770.000-.8377125-.5797818_cons|4.645473.276615816.790.0004.1033165.18763------------------------------------------------------------------------------.lrtestLogit:likelihood-ratiotestchi2(3)=2.29Prob>chi2=0.51522×644.2106-2×643.06749=2.29第04讲logistic回归似然比检验(likelihoodtest)似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G(又称Deviance)来进行的,其统计量为:

G=GP-GK

=-2ln(LP)+2ln(LK)

其中,模型P中的变量是模型K中变量的一部分,另一部分就是我们要检验的变量(模型P嵌套在模型K中)。G服从自由度为K-P的

2分布。第04讲logistic回归例食道癌危险因素研究在食道癌危险因素研究中,采用病例-对照设计,调查了200个食道癌患者和788个非食道癌患者,调查因素及编码如下。

可疑因素变量名

取值年龄(岁)AGE

0=25-34,1=35-44,2=45-54,

3=55-64,4=65-74,5=75+每日饮酒量(g)ALCOHOL

0=0-39,1=40-79,2=80-119,3=120+每日吸烟量(g)TOBACO

0=0-9,1=10-19,2=20-29,3=30+第04讲logistic回归三个变量的logistic回归结果变量估计系数标准误zP95%CIAGE0.74380.08189.0940.0000.5835~0.9040ALC1.10260.103210.6870.0000.9003~1.3048TOB0.43090.09394.5870.0000.2467~0.6150常数项-4.88680.3361-14.5410.000-5.5455~-4.22810.7438/0.0818第04讲logistic回归12个logistic回归模型及其对数似然函数值

模型编号

模型中变量对数似然函数参数个数自由度1常数项-494.7442119872常数项+AGE-451.0977829863常数项+ALC-422.4246029864常数项+TOB-482.0589629865常数项+AGE+ALC-375.6744839856常数项+AGE+TOB-433.0976539857常数项+ALC+TOB-416.3495939858常数项+AGE+ALC+TOB-365.1567349849常数项+AGE+ALC+TOB+(AGE*ALC)-365数项+AGE+ALC+TOB+(AGE*TOB)-365.01774598311常数项+AGE+ALC+TOB+(ALC*TOB)-364.32995598312常数项+AGE+ALC+TOB+(ALC*TOB)+(AGE*TOB)+(AGE*ALC)-364.300807981第04讲logistic回归似然比检验检验变量ALC是否有统计学意义:

模型3与模型1

G=-2×[-494.74421-(-422.42460)]=144.6392,

=1,P<0.001检验在控制AGE的影响后,变量ALC是否有统计学意义:

模型5与模型2

G=-2×[-451.09778-(-375.674484)]=150.8466,

=1,P<0.001检验在控制AGE和TOB两变量的影响后,ALC是否有统计学意义:

模型7与模型8

G=-2×[-416.34959-(-365.15673)]=102.3858,

=1,P<0.001第04讲logistic回归5建模策略任一建模过程均应从详细的各变量的单因素分析开始。对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适宜尺度,及自变量间的必要的一些变量变换。在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选,在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项。第04讲logistic回归低出生体重儿调查在中国出生缺陷监测网上进行的低出生体重儿(体重<2500g)发生率的调查。分层整群抽样。一年内所抽医院所有的新生儿。共监测2367例无其它系统畸形的新生儿。其中低体重儿为110例,总发生率为4.65%。同时调查了一些可疑因素。目的是探讨哪些因素与新生儿的出生体重有关。第04讲logistic回归调查的有关因素

可疑因素变量名

取值体重WEIGHT1=体重<2500g,0=体重>=2500性别SEX1=男,0=女出生月份MONTH/t1月~12月母亲年龄MAGE岁父亲年龄FAGE岁妊娠次数YC1=第1次,2=第2次,…产次CC1=第1次,2=第2次,…自然流产次数ZRLC1=第1次,2=第2次,…人工流产次数RGLC1=第1次,2=第2次,…孕前三月内母亲是否吸烟MSB0=否,1=偶而,2=经常孕后三月内母亲是否吸烟MSA0=否,1=偶而,2=经常孕前三月内父亲是否吸烟FSB0=否,1=<5支/日,2=5-10支/日孕后三月内父亲是否吸烟FSA3=10-20支/日,4=>20支/日孕前三月内母亲是否饮酒MDB0=节假日,1=偶而,2=经常孕前三月内父亲是否饮酒FDB0=节假日,1=偶而,2=经常孕后三月内母亲是否饮酒MDA0=节假日,1=偶而,2=经常继往病史JWBS0=无,1=有妊娠反应(呕吐)ET0=无,1=有先兆流产XZLC0=无,1=有贫血PX0=否,1=是妊高症RGZ0=无,1=轻,2=中,3=重孕期有无精神创伤JSCS0=无,1=有第04讲logistic回归单因素分析结果变量名回归系数标准误P缺失数SEX0.017860.195570.9270MAGE-0.037360.031680.2340FAGE0.008220.023670.7280YC-0.183020.140110.1910CC0.105570.185750.5701ZRLC-0.615670.458280.17970RGLC-0.344720.255550.17767MSB---163MSA---158FSB-0.074850.085190.38079FSA-0.023790.083100.77565MDB-0.771180.994850.4381FDB-0.008780.135040.9480MDA---1JWBS---135ET0.041230.200870.83780XZLC0.595750.332360.073220PX0.246180.245070.3150RGZ0.485250.383250.011203JSCS---205第04讲logistic回归变量选不进的原因:暴露率过低新生儿体重

孕前三月内母亲是否吸烟

孕后三月内母亲是否吸烟MSB=1MSB=0MSA=1MSA=0低体重WEIGHT=1098099正常体重WEIGHT=0102096102100第04讲logistic回归母亲年龄与低体重发生率的关系MAGE母亲年龄组GMAGE体重>2500g<2500g%<200

8322.2720

1961555.4125

21062413.7230

3221104.3340

45116.67变量选不进的原因:非线性关系第04讲logistic回归母亲年龄与低体重发生率的关系年龄分组012340510152025发生率(%)第04讲logistic回归父亲年龄与低体重发生率的关系FAGE父亲年龄组GFAGE体重>2500g<2500g%<200

20020

1493326.0725

21341553.9430

3393204.8440

42839.68变量选不进的原因:非线性关系第04讲logistic回归选择变量的尺度模型变

量估计系数标准误zP>z1GMAGE1.82960.56483.2390.001GMAGE20.43650.14982.9130.004常数项1.41730.47312.9960.0032GFAGE1.38640.58212.3820.017GFAGE20.31460.13372.3520.019常数项1.67150.58772.8440.0043GMAGE1.51870.62912.4140.016GMAGE20.32860.16891.9450.052GFAGE0.72590.63921.1360.256GFAGE20.19940.14841.3440.179常数项1.03050.63801.6150.106第04讲logistic回归同类性质指标的多元分析模型变量估计系数标准误zP>z4FSB1.34350.44493.0200.003FSA1.28800.44102.9210.003MDB0.70950.99440.7140.476FDB0.04890.15740.3110.756常数项2.91820.164017.7890.0005SMK11.34080.44563.0090.003SMK20.07060.08550.8260.409常数项2.94660.148719.8150.0006CC-0.11280.18770.6010.548RGLC0.34440.25501.3510.177常数项3.11640.252012.3670.000第04讲logistic回归多元逐步回归变量估计系数标准误zPGMAGE-2.20700.6317-3.4940.000GMAGE20.53480.16653.2110.001RGZ0.54390.19442.7980.005XZLC0.69900.35091.9920.046SMK

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论