SAS的logistic回归(正式)_第1页
SAS的logistic回归(正式)_第2页
SAS的logistic回归(正式)_第3页
SAS的logistic回归(正式)_第4页
SAS的logistic回归(正式)_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、华中科技大学公卫学院流行病与卫生统计系蒋红卫蒋红卫Email: JHWCCC21CN.COM学习目标学习目标 了解了解LogisticLogistic回归模型的建立和假设检验;回归模型的建立和假设检验; 了解了解LogisticLogistic回归模型的应用领域;回归模型的应用领域; 掌握掌握LogisticLogistic回归模型系数的解释,及回归系数回归模型系数的解释,及回归系数与与OROR值之间的关系;值之间的关系; 掌握掌握LogisticLogistic回归过程步;回归过程步; 掌握哑变量的设置和结果的解释;掌握哑变量的设置和结果的解释; 掌握多元掌握多元LogisticLogist

2、ic回归模型的逐步过程法和系数回归模型的逐步过程法和系数的解释;的解释; 了解条件了解条件LogisticLogistic回归的应用;回归的应用; 掌握条件掌握条件LogisticLogistic回归的回归的SASSAS程序;程序;概述概述 线性回归模型和广义线性回归模型要求因变量是线性回归模型和广义线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性连续的正态分布变量,且自变量和因变量呈线性关系。当因变量是分类型变量时,且自变量与因关系。当因变量是分类型变量时,且自变量与因变量没有线性关系时,线性回归模型的假设条件变量没有线性关系时,线性回归模型的假设条件遭到破坏。这时,最好的

3、回归模型是遭到破坏。这时,最好的回归模型是LogisticLogistic回回归模型,它对因变量的分布没有要求,从数学角归模型,它对因变量的分布没有要求,从数学角度看,度看,LogisticLogistic回归模型非常巧妙地避开了分类回归模型非常巧妙地避开了分类型变量的分布问题,补充完善了线性回归模型和型变量的分布问题,补充完善了线性回归模型和广义线性回归模型的缺陷。从医学研究角度看,广义线性回归模型的缺陷。从医学研究角度看,LogisticLogistic回归模型解决了一大批实际应用问题,回归模型解决了一大批实际应用问题,对医学的发展起着举足轻重的作用。对医学的发展起着举足轻重的作用。 非条

4、件非条件LogisticLogistic回归回归 LogisticLogistic回归分析在医学回归分析在医学研究研究中应用广泛。中应用广泛。目前目前主要是用于流行病学研究中危险因素主要是用于流行病学研究中危险因素的筛选,但它同时具有良好的判别和预测的筛选,但它同时具有良好的判别和预测功能,尤其是在资料类型不能满足功能,尤其是在资料类型不能满足FisherFisher判别和判别和BayesBayes判别的条件时,更显示出判别的条件时,更显示出LogisticLogistic回归判别的优势和效能。本研究对回归判别的优势和效能。本研究对LogisticLogistic回归方程的判别分析进行了探讨。

5、回归方程的判别分析进行了探讨。非条件非条件LogisticLogistic回归回归 医学研究中经常需要分析分类型变量的问题。比如,生存医学研究中经常需要分析分类型变量的问题。比如,生存与死亡、有病与无病、有效与无效、感染与未感染等二分与死亡、有病与无病、有效与无效、感染与未感染等二分类变量。研究者关心的问题是,哪些因素导致了人群中有类变量。研究者关心的问题是,哪些因素导致了人群中有些人患某种病而有些人不患某种病,哪些因素导致了某种些人患某种病而有些人不患某种病,哪些因素导致了某种治疗方法出现治愈、显效、好转和无效等不同的效果等。治疗方法出现治愈、显效、好转和无效等不同的效果等。这类问题,实质上

6、是一个回归问题,因变量就是上述提到这类问题,实质上是一个回归问题,因变量就是上述提到的这些分类型变量,自变量的这些分类型变量,自变量x x是与之有关的一些因素。但是与之有关的一些因素。但是,这样的问题却不能直接用线性回归分析方法解决,其是,这样的问题却不能直接用线性回归分析方法解决,其根本原因在于因变量是分类型变量,严重违背了线性回归根本原因在于因变量是分类型变量,严重违背了线性回归分析对数据的假设条件。那么应该怎样解决这个问题呢?分析对数据的假设条件。那么应该怎样解决这个问题呢?非条件非条件LogisticLogistic回归回归 研究者将所研究的问题转换一个角度,不研究者将所研究的问题转换

7、一个角度,不是直接分析是直接分析y y与与x x的关系,而是分析的关系,而是分析y y取某个取某个值的概率值的概率P P与与x x的关系。例如,令的关系。例如,令y y为为1 1,0 0变量,变量,y=1y=1表示有病,表示有病,y=0y=0表示未患病;表示未患病;x x是与患病有关的危险因素。如果是与患病有关的危险因素。如果P P表示患病表示患病的概率,即的概率,即P P=prob=prob(y=1y=1),那么研究患),那么研究患病的概率病的概率P P与危险因素与危险因素x x的关系就不是很困的关系就不是很困难的事情了。难的事情了。非条件非条件LogisticLogistic回归回归 分析

8、因变量分析因变量y y取某个值的概率取某个值的概率P P与自变量与自变量x x的关系,就是寻的关系,就是寻找一个连续函数,使得当找一个连续函数,使得当x x变化时,它对应的函数值变化时,它对应的函数值P P不超不超出出00,11范围。数学上这样的函数是存在且不唯一的,范围。数学上这样的函数是存在且不唯一的,LogisticLogistic回归模型就是满足这种要求的函数之一。与线性回归模型就是满足这种要求的函数之一。与线性回归分析相似,回归分析相似,LogisticLogistic回归分析的基本原理就是利用一回归分析的基本原理就是利用一组数据拟合一个组数据拟合一个LogisticLogistic

9、回归模型,然后借助这个模型揭回归模型,然后借助这个模型揭示总体中若干个自变量与一个因变量取某个值的概率之间示总体中若干个自变量与一个因变量取某个值的概率之间的关系。具体地说,的关系。具体地说,LogisticLogistic回归分析可以从统计意义上回归分析可以从统计意义上估计出在其它自变量固定不变的情况下,每个自变量对因估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。变量取某个值的概率的数值影响大小。 LogisticLogistic回归模型有条件与非条件之分,前者适用于配对回归模型有条件与非条件之分,前者适用于配对病例对照资料的分析,后者适用于队列研究或非

10、配对的病病例对照资料的分析,后者适用于队列研究或非配对的病例例- -对照研究成组资料的分析。对照研究成组资料的分析。问题的提出问题的提出 在流行病学研究中,经常遇到因变量为离散型分在流行病学研究中,经常遇到因变量为离散型分类变量的情况。如治疗效果的无效好转、显效、类变量的情况。如治疗效果的无效好转、显效、痊愈;不同染毒剂量下小白鼠的存活或死亡;在痊愈;不同染毒剂量下小白鼠的存活或死亡;在某种暴露下的发病与不发病等。最常见的情况是某种暴露下的发病与不发病等。最常见的情况是因变量为二分变量的问题。因变量为二分变量的问题。 多元线性回归的局限性多元线性回归的局限性 经典流行病学统计分析方法经典流行病

11、学统计分析方法分层分析的局限性分层分析的局限性1.1.两种主要的流行病学设计两种主要的流行病学设计1 1)病历对照研究)病历对照研究2 2)队列研究)队列研究2.2.判断结局(疾病)和暴露(因素)联系强弱的指标判断结局(疾病)和暴露(因素)联系强弱的指标1 1) 相对危险度:相对危险度:RR = p1 / p0 RR = p1 / p0 p1: p1: 暴露于某个危险因素下发病的概率暴露于某个危险因素下发病的概率 p0: p0: 不暴露于某个危险因素下发病的概率(对照)不暴露于某个危险因素下发病的概率(对照)2 2)比值比:)比值比: OR = P(D=1|E=1)/P(D=0|E=1) /

12、OR = P(D=1|E=1)/P(D=0|E=1) / P(D=1|E=0)/P(D=0|E=0) P(D=1|E=0)/P(D=0|E=0) D=1: D=1: 患某种疾病,患某种疾病, D=0D=0:不患某种疾病:不患某种疾病 E=1: E=1: 暴露于某个危险因素,暴露于某个危险因素, E=0: E=0: 不暴露于某个危险因素不暴露于某个危险因素 可以简单地表述成:可以简单地表述成:OR = (p1 / q1) / (p0 / q0) OR = (p1 / q1) / (p0 / q0) p1 : p1 : 暴露于某个危险因素下发病的概率暴露于某个危险因素下发病的概率 q1 : q1

13、: 暴露于某个危险因素下不发病的概率暴露于某个危险因素下不发病的概率 p0 : p0 : 不暴露于某个危险因素下发病的概率不暴露于某个危险因素下发病的概率 q0 : q0 : 不暴露于某个危险因素下不发病的概率不暴露于某个危险因素下不发病的概率 能够描述病因学意义的指标是能够描述病因学意义的指标是RRRR OROR本身没有病因学意义本身没有病因学意义 OROR的病因学意义主要体现在发病率的病因学意义主要体现在发病率/ /患病率比较患病率比较低的情形,此时,低的情形,此时,OROR近似于近似于RRRR OROR值是描述暴露与疾病关联强度的指标值是描述暴露与疾病关联强度的指标l分层分析中,可以分别

14、计算出分层后的分层分析中,可以分别计算出分层后的各层各层OROR值,如果发现与总的值,如果发现与总的OROR有较大有较大的差异,则可以认为该风层因素是混杂的差异,则可以认为该风层因素是混杂因素。必须对该因素进行因素。必须对该因素进行MHMH调整,调调整,调整后的整后的OROR值才能真正反映因素和结局值才能真正反映因素和结局间的关系。间的关系。l如果当分层后各层的如果当分层后各层的OROR值经过一致性值经过一致性检验发现:各层间的检验发现:各层间的OROR值有统计学差值有统计学差异,这时说明分析因素在分层因素的不异,这时说明分析因素在分层因素的不同水平上与结局变量的联系强度是不同同水平上与结局变

15、量的联系强度是不同的,这时分层因素和研究因素存在这交的,这时分层因素和研究因素存在这交互作用(效应修饰作用)。这时应该分互作用(效应修饰作用)。这时应该分层报告层报告OROR值,而不能计算调整值,而不能计算调整OROR值。值。l分层分析的局限性分层分析的局限性l只能控制少数因素(分层因素过多只能控制少数因素(分层因素过多,每个格子中的样本例数太少),每个格子中的样本例数太少)l定量资料需要分组,信息丢失定量资料需要分组,信息丢失l不能对因素作用大小进行定量分析不能对因素作用大小进行定量分析(交互作用)(交互作用) 经过数理统计学家证明:把疾病概率 P 转换成 pp1ln,会使该回归方程的统计性

16、能更好一些。而且,在经过转换以后, pp1ln的值域为-到+,而且这些 pp1ln值都可以和在大于0小于1范围内的P值相对应。统计学中,常把 pp1ln称为 Logit 变换。 yy = logy = log2 2x x01二、二、Logistic Logistic 回归原理回归原理Logistic 回归方程:回归方程: pp1ln = nnxx 110 , 而且有:而且有: )()(1101101nnnnxxxxeep Logistic 模型中系数的意义:模型中系数的意义: 回归系数的流行病学意义是:在其它自变量都回归系数的流行病学意义是:在其它自变量都不变的条件下,当因素不变的条件下,当因

17、素X X变化一个测量单位时所引起的变化一个测量单位时所引起的OROR值自然对数的改变量。值自然对数的改变量。 pp1ln = 11x 111xepp 1XOR= 00111111 XXXXqpqp=001111111.1.xxxxpppp =1111xxee=0111ee = 1e 三、三、Logistic Logistic 回归和回归和OROR值间的关系值间的关系假设建立了如下的假设建立了如下的logisticlogistic回归方程:回归方程:Logit P = Logit P = + x + xx x 为二分变量,当暴露时,取值为为二分变量,当暴露时,取值为1 1; 不暴露时,取值为不暴

18、露时,取值为0 0。所以所以暴露暴露时时, ,Logit(PLogit(P1 1) = ) = + + , 比值比值(odds) = exp( + )(odds) = exp( + )所以所以不暴露不暴露时时, , Logit(PLogit(P0 0) = ) = , 比值比值(odds) = exp()(odds) = exp()则,暴露对于不暴露的比值比则,暴露对于不暴露的比值比(odds ratio)(odds ratio)为:为:OR =OR = exp( + ) / exp() = exp()exp( + ) / exp() = exp()以四格表为例来说明最大似然求解的意义及过程。

19、以四格表为例来说明最大似然求解的意义及过程。四格表的一般表达形式四格表的一般表达形式发病发病(y=1)(y=1)不发病不发病(y=0) (y=0) 暴露暴露(x=1)(x=1)a ab b 不暴露不暴露(x=0)(x=0)c cd d 合计合计a+ca+cb+db+d 暴露者发病概率暴露者发病概率 p p1 1 = a /(a+b); = a /(a+b); 不暴露者发病概率不暴露者发病概率 p p0 0= c/(c+d)= c/(c+d)OR= ad/(bc)OR= ad/(bc)四、四、Logistic Logistic 回归最大似然建模回归最大似然建模用发病概率来表示四格表,可以得到四格

20、表的另外一种表示形式:用发病概率来表示四格表,可以得到四格表的另外一种表示形式:四格表的另外一种表达形式四格表的另外一种表达形式(1)(1)发病发病(y=1)(y=1)不发病不发病(y=0) (y=0) 暴露暴露(x=1)(x=1) p p1 1 1- 1- p p1 1 不暴露不暴露(x=0)(x=0) p p0 0 1- 1- p p0 0 暴露者发病概率暴露者发病概率: p: p1 1 = exp( = exp( + x)/1+ + x)/1+ exp(exp( + x) + x) 暴露者不发病概率暴露者不发病概率: q: q0 0= 1- p= 1- p1 1 = 1/ = 1/ 1+

21、 1+ exp(exp( + x) + x); ;不暴露者发病概率不暴露者发病概率: p: p0 0 = exp( = exp()/1+ )/1+ exp(exp() 不暴露者不发病概率不暴露者不发病概率: q: q0 0= 1- p= 1- p0 0 = 1/ = 1/1+ 1+ exp(exp() ; ;用发病概率来表示四格表,可以得到四格表的另外一种表示形式:用发病概率来表示四格表,可以得到四格表的另外一种表示形式:四格表的另外一种表达形式四格表的另外一种表达形式(2)(2)发病发病(y=1)(y=1)不发病不发病(y=0)(y=0) 暴露暴露(x=1) e(x=1) e( ( + )

22、+ )/1+ /1+ e e ( ( + ) + ) 1/ 1/ 1+ 1+ e e ( ( + ) + ) 不暴露不暴露(x=0) (x=0) e e /1+ /1+ e e 1/ 1/ 1+ 1+ e e 因为四格表的四个实际数为因为四格表的四个实际数为a,b,ca,b,c及及d d, 故可构造似然函数为:故可构造似然函数为:L = L = e e( ( + ) + )/1+ /1+ e e ( ( + ) + ) a a 1/ 1/ 1+ 1+ e e ( ( + ) + ) b be e /1+ /1+ e e c c 1/ 1/ 1+ 1+ e e d d 取对数,有取对数,有Ln

23、(L) = a (Ln (L) = a ( + ) + ) a ln1+e a ln1+e( + )( + ) b ln1+e b ln1+e ( + )( + ) + c + c c ln 1+e c ln 1+e d ln1+e d ln1+e 对以上似然函数分别求对对以上似然函数分别求对 和和 的一阶偏导数,再令两个偏导数为的一阶偏导数,再令两个偏导数为零,就可以解得零,就可以解得 和和 的估计值。的估计值。v在经典流行病学分析里对因素的统计学意义检验在经典流行病学分析里对因素的统计学意义检验是检验是检验OROR值是否为值是否为1 1v对于对于LogisticLogistic回归来说,对

24、模型中变量的统计学回归来说,对模型中变量的统计学检验就是对检验其回归系数是否为检验就是对检验其回归系数是否为0 0v一般常用的方法有三种:似然比检验、一般常用的方法有三种:似然比检验、WaldWald检验检验、比分检验、比分检验五、五、Logistic Logistic 回归模型的统计学回归模型的统计学检验检验1 1)似然比检验)似然比检验似然比检验的原理是通过分析模型中变量似然比检验的原理是通过分析模型中变量变化对似然比的影响,来检验增加变化对似然比的影响,来检验增加/ /减少的自减少的自变量是否对应变量有统计学上的显著意义。变量是否对应变量有统计学上的显著意义。 检验统计量:检验统计量:G

25、 = -2 Ln (LkG = -2 Ln (Lk1) - Ln (Lk) 1) - Ln (Lk) Ln (Lk Ln (Lk1)1)为不包含检验变量时模型的对数为不包含检验变量时模型的对数似然值似然值 Ln (Lk)Ln (Lk)为包含检验变量时模型的对数似然为包含检验变量时模型的对数似然值值v当检验一个变量时则当检验一个变量时则GG服从自由度为服从自由度为1 1的的 2 2 分分布布v当对模型整个进行检验时就是相当于模型中所当对模型整个进行检验时就是相当于模型中所有有n n个变量的回归系数都为个变量的回归系数都为0 0, GG服从自由度服从自由度为为n n的的 2 2 分布分布2 2)W

26、ald Wald 统计量检验回归系数是否为统计量检验回归系数是否为0 0对于方程内单个自变量的检验,采用对于方程内单个自变量的检验,采用Wald Wald 统计量。统计量。W = / SW = / S S S 为为 的标准误。的标准误。其临界值可取标准正态分布的临界值。同时,其临界值可取标准正态分布的临界值。同时,WW2 2遵遵循自由度为循自由度为1 1的卡方分布。的卡方分布。 的的9595可信区间为:可信区间为: ( 1.961.96 S S , 1.961.96 S S )OROR的的9595可信区间为:可信区间为: ( exp( ( exp( 1.961.96 S S ), exp( +

27、 1.96 ), exp( + 1.96 S S ) ) )3 3)比分检验)比分检验 在原有模型的基础上增加一个变量,并假设该在原有模型的基础上增加一个变量,并假设该变量的回归系数为变量的回归系数为0 0,似然函数一阶偏导和信息矩阵,似然函数一阶偏导和信息矩阵的乘积为比分检验统计量的乘积为比分检验统计量S S。S S在样本量较大时服从自在样本量较大时服从自由度为检验参数个数的由度为检验参数个数的 2 2 分布分布l 上述方法中,似然比检验最可靠,上述方法中,似然比检验最可靠,WaldWald检验和比检验和比分检验一致。分检验一致。l WaldWald检验没有考虑变量间的相互影响,当因素间检验

28、没有考虑变量间的相互影响,当因素间相关时(存在共线性)不可靠相关时(存在共线性)不可靠l 参数的可信区间是以参数的可信区间是以WaldWald法计算的,在应用可信法计算的,在应用可信区间时要注意区间时要注意 PROC LOGISTICPROC LOGISTIC过程过程 SASSAS系统中进行系统中进行LogisticLogistic回归分析的过程步是回归分析的过程步是PROC LOGISTICPROC LOGISTIC过程。下面我们先了解以下这过程。下面我们先了解以下这个过程步。个过程步。LOGISTICLOGISTIC过程的语句基本格式如下过程的语句基本格式如下: PROC LOGISTIC

29、 data= descending PROC LOGISTIC data= descending simple order= ;simple order= ; Model Model 因变量自变量因变量自变量/link= noint rsq cl /link= noint rsq cl rl selection= sle= sls=;rl selection= sle= sls=; freq freq 频数变量频数变量; ; output out= pred= output out= pred=变量名;变量名; run;run;PROC LOGISTICPROC LOGISTIC过程过程 DE

30、SCENDINGDESCENDING:指令系统输出因变量取值由大到小的概:指令系统输出因变量取值由大到小的概率,缺省时,系统输出因变量取值由小到大的概率。使用率,缺省时,系统输出因变量取值由小到大的概率。使用和不使用和不使用DESCENDINGDESCENDING语句的回归模型的回归系数绝对语句的回归模型的回归系数绝对值完全相同,但是符号完全相反。值完全相同,但是符号完全相反。 SIMPLESIMPLE:指令系统输出每一个自变量的基本统计量。:指令系统输出每一个自变量的基本统计量。 MODELMODEL:给出模型的因变量和自变量。:给出模型的因变量和自变量。 LINKLINK:指定因变量概率函

31、数的形式:指定因变量概率函数的形式 NOINTNOINT:指令模型不含常数项。:指令模型不含常数项。 RSQRSQ:指定输出确定系数。:指定输出确定系数。PROC LOGISTICPROC LOGISTIC过程过程 CLCL:指定输出参数估计值的可信区间。:指定输出参数估计值的可信区间。 RLRL:指定输出相对危险度(或比数比)的可信区间。:指定输出相对危险度(或比数比)的可信区间。 SELECTIONSELECTION、SLESLE和和SLSSLS:和:和REGREG过程步的对应选项一过程步的对应选项一样,用于逐步回归分析。样,用于逐步回归分析。 FREQFREQ:是否使用,取决于数据的输入

32、方法。当:是否使用,取决于数据的输入方法。当x x和和y y变量变量的观察值被直接输入到的观察值被直接输入到SASSAS数据集时,不需要使用数据集时,不需要使用FREQFREQ语句。但是,当语句。但是,当x x是分类型变量,且是分类型变量,且x x和和y y变量的观察值不变量的观察值不是直接输入到是直接输入到SASSAS数据集时,而是将数据集时,而是将x x和和y y变量的频数输入变量的频数输入到到SASSAS数据集中时,需要使用数据集中时,需要使用FREQFREQ语句。语句。 OUTPUTOUTPUT语句:用来保存指定的分析结果。语句:用来保存指定的分析结果。OutOut选择项用选择项用来给

33、出输出数据集的名字。来给出输出数据集的名字。PredPred选择项用来给出一个预测选择项用来给出一个预测概率的变量名。概率的变量名。例题条件二分类例题条件二分类 某北方城市研究喉癌发病的危险因素,用某北方城市研究喉癌发病的危险因素,用1 12 2配对的病例配对的病例 对照研究方法进行了调查对照研究方法进行了调查。现选取了。现选取了6 6个可能的危险因素,试做条件个可能的危险因素,试做条件logisticlogistic逐步回归分析逐步回归分析 。27)15. 0,10. 0( 出出入入 因素因素变量名变量名赋值说明赋值说明咽炎咽炎X1无无=1,偶尔,偶尔=2,经常,经常=3吸烟量吸烟量(支支/

34、日日)X20=1,1=2,5=3,10=4,20=5声嘶史声嘶史X3无无=1,偶尔,偶尔=2,经常,经常=3摄食新鲜蔬菜摄食新鲜蔬菜X4少少=1,经常,经常=2,每天,每天=3摄食水果摄食水果X5很少很少=1,少量,少量=2,经常,经常=3癌症家族史癌症家族史X6无无=0,有,有=1是否患喉癌是否患喉癌对照对照=0,病例,病例=1Y例题例题2 2多个自变量的二分类多个自变量的二分类 为了探讨冠心病发生的有关危险因素,对为了探讨冠心病发生的有关危险因素,对2626例冠心病病人和例冠心病病人和2828例对照者进行病例例对照者进行病例- -对对照研究,试用照研究,试用logisticlogistic

35、逐步回归分析方法筛逐步回归分析方法筛选危险因素选危险因素 。28因素变量名赋值说明年龄(岁)X145=1,45=2,55=3,65=4高血压史X2无=0,有=1高血压家族史X3无=0,有=1吸烟X4不吸=0,吸=1高血脂史X5无=0,有=1动物脂肪摄入X6低=0,高=1体重指数(BMI)X724=1,24=2,26=3A型性格X8否=0,是=1冠心病Y对照=0,病例=1)15. 0,10. 0( 出出入入 例题例题3 3有序分类有序分类 某研究人员随机选择某研究人员随机选择8484例患某病的病人做例患某病的病人做临床试验,以探讨性别和治疗方法对该病临床试验,以探讨性别和治疗方法对该病疗效的影响

36、。变量赋值为:性别(疗效的影响。变量赋值为:性别( :男:男=0=0,女,女=1=1)、治疗方法()、治疗方法( :传统疗法:传统疗法=0=0,新,新型疗法型疗法=1=1)、疗效()、疗效( :无效:无效=1=1,有效,有效=2=2,痊愈,痊愈=3=3)。请拟合性别、治疗方法对疗)。请拟合性别、治疗方法对疗效的有序效的有序logisticlogistic回归模型。回归模型。29例题例题4 4无序多分类无序多分类 某研究人员欲了解不同社区和性别之间成某研究人员欲了解不同社区和性别之间成年居民获取健康知识途径是否不同,对年居民获取健康知识途径是否不同,对2 2个个社区的社区的314314名成人进行

37、了调查,结果见表名成人进行了调查,结果见表16-1116-11。变量赋值为:社区(。变量赋值为:社区( :社区:社区1=01=0,社区,社区2=12=1)、性别()、性别( :男:男=0=0,女,女=1=1)、)、获取健康知识途径(获取健康知识途径( :传统大众媒介:传统大众媒介=1=1,网络网络=2=2,社区宣传,社区宣传=3=3)。请拟合社区和性)。请拟合社区和性别对居民获取健康知识途径的多分类别对居民获取健康知识途径的多分类logisticlogistic回归模型。回归模型。30条件条件LogisticLogistic回归回归 医学研究中的配对病例对照研究资料可以用条件医学研究中的配对病

38、例对照研究资料可以用条件LogisticLogistic回归模型来分析。条件回归模型来分析。条件LogisticLogistic回归模型回归模型和非条件和非条件LogisticLogistic回归模型的区别在于参数的估回归模型的区别在于参数的估计是否用到了条件概率。所谓的配对病例对照研计是否用到了条件概率。所谓的配对病例对照研究指的是在病例对照研究中,对每一个病例配以究指的是在病例对照研究中,对每一个病例配以性别、年龄或其它条件相似的一个(性别、年龄或其它条件相似的一个(1 1:1 1)或几)或几个(个(1 1:MM)对照,然后分析比较病例组与对照组)对照,然后分析比较病例组与对照组以往暴露于

39、致病因素的经历。分析配对病例对照以往暴露于致病因素的经历。分析配对病例对照研究资料所用的条件研究资料所用的条件LogisticLogistic回归模型中参数的回归模型中参数的估计方法也是采用最大似然估计法,参数和模型估计方法也是采用最大似然估计法,参数和模型的检验方法和非条件的检验方法和非条件LogisticLogistic回归模型也一样。回归模型也一样。条件条件LogisticLogistic回归的回归的SASSAS程序程序 用于条件用于条件LogisticLogistic回归分析的过程步一般借用生回归分析的过程步一般借用生存数据风险回归分析的存数据风险回归分析的PHREGPHREG过程步。

40、实用过程步。实用PHREGPHREG过程步时要注意数据的输入方法和过程过程步时要注意数据的输入方法和过程步语句的写法。步语句的写法。PHREGPHREG过程步的一般格式如下:过程步的一般格式如下: Proc phreg data= ;Proc phreg data= ; Model Model 因变量因变量* *截尾变量截尾变量= =协变量协变量/ / ties=risklimits selection= sle= sls details;ties=risklimits selection= sle= sls details; Strata Strata 分组变量分组变量; ; Run; Ru

41、n;条件条件LogisticLogistic回归的回归的SASSAS程序程序 MODELMODEL语句:用于指定模型的结构,适用于生语句:用于指定模型的结构,适用于生存时间有右截尾的情况,且生存时间变量作为模存时间有右截尾的情况,且生存时间变量作为模型的因变量,协变量作为模型的自变量。型的因变量,协变量作为模型的自变量。 TIESTIES:用来选择处理生存时间结点的方法,每一:用来选择处理生存时间结点的方法,每一种方法使用了不同的公式来计算最大似然值。种方法使用了不同的公式来计算最大似然值。 RISKLIMITSRISKLIMITS:指令输出危险比的:指令输出危险比的9595置信区间置信区间,供选择的有:,供选择的有:backwardbackward、forwardforward、stepwisestepwise、scorescore。条件条件LogisticLogistic回归的回归的SASSAS程序程序 SLESLE:指定协变量进入模型的显著水平,缺省值:指定协变量进入模型的显著水平,缺省值是是0.050.05。 SLSSLS:指定协变量停留在模型中的显著水平,缺:指定协变量停留在模型中的显著水平,缺省值是省值是0.050.05。 DETAILSDETAILS:指令输出逐步回归过程中每一步的详:指令输出逐步回归过程中每一步

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论