多重线性回归分析_第1页
多重线性回归分析_第2页
多重线性回归分析_第3页
多重线性回归分析_第4页
多重线性回归分析_第5页
已阅读5页,还剩148页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多重线性回归分析多重线性回归分析例:例:由于改革开放政策,深圳特区中外来人口大幅度增加,由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深圳特为了考察特区中外来人口对本地经济发展的贡献,深圳特区统计局收集了所属的宝安县在区统计局收集了所属的宝安县在1987年末年末18个镇的人口个镇的人口与工农业总产值数据(与工农业总产值数据(见数据文件见数据文件reg.sav)。此处把工)。此处把工农业总产值当作因变量(农业总产值当作因变量(W),而把外地及本地人口数当),而把外地及本地人口数当作两个自变量(作两个自变量(Z1,Z2)。)。(有关统计方法的原理及计算

2、参见(有关统计方法的原理及计算参见孙尚拱,孙尚拱,医学多变医学多变量统计与统计软件量统计与统计软件,北京医科大学出版社,北京医科大学出版社,2000)数据文件数据文件reg.sav1.如何估计自变量与因变量之间的相互关系?(如何估计自变量与因变量之间的相互关系?(估计回归方程)估计回归方程)2.哪些自变量对因变量有影响?(哪些自变量对因变量有影响?(影响因素分析影响因素分析)3.哪一个自变量对因变量的影响更重要?(哪一个自变量对因变量的影响更重要?(自变量的相对重要性自变量的相对重要性分析分析)4.如何用自变量预测因变量?(如何用自变量预测因变量?(预测分析预测分析)(一)多重回归分析的任务(

3、一)多重回归分析的任务(二)多重回归分析的适用条件(二)多重回归分析的适用条件1.自变量与因变量之间存在线性关系自变量与因变量之间存在线性关系2.残差的正态性残差的正态性3.残差的等方差性残差的等方差性4.剔除强影响点(突出点,剔除强影响点(突出点,outliers)5.自变量之间不应存在共线性自变量之间不应存在共线性6.独立性独立性残差:实际测量值和预测值之间的差异残差:实际测量值和预测值之间的差异关于独立性:关于独立性:所有的观测值是相互独立的。如果受试对象仅被随机所有的观测值是相互独立的。如果受试对象仅被随机观测一次,那么一般都会满足独立性的假定。但是出观测一次,那么一般都会满足独立性的

4、假定。但是出现下列情况时,观测值不是相互独立的:时间序列、现下列情况时,观测值不是相互独立的:时间序列、重复测量(重复测量(某种药物使用后某种药物使用后1个月两个月三个月的疗效个月两个月三个月的疗效)等情况。)等情况。SPSS软件在软件在“Linear Regression:Statistics”对话对话框中,提供了框中,提供了Durbin-Watson统计量统计量d,以检验自相,以检验自相关系数是否为关系数是否为0。当。当d值接近于值接近于2,则残差之间是不相,则残差之间是不相关的(关的(此指标仅作参考。是否可使用多元分析主要依此指标仅作参考。是否可使用多元分析主要依据实验设计据实验设计)。

5、)。1.如何估计自变量与因变量之间的相互关系?(如何估计自变量与因变量之间的相互关系?(估计回归方程估计回归方程)01 122.mmybb xb xb x01 122.mmybb xb xb x其中其中y为实测值,为实测值, 为预测值(为预测值(predicted value) y估计模型中系数的方法:估计模型中系数的方法:最小二乘方法(最小二乘方法(Least Square,LS),即残差平方和最小。),即残差平方和最小。b1, b2. bm称为偏回归系数(称为偏回归系数(partial regression coefficient) :当固定其他变量时(当固定其他变量时(扣除其他自变量的影

6、响,即扣除其他自变量的影响,即Bm就是已经调整了其他影响因素后的回归系数,故名偏就是已经调整了其他影响因素后的回归系数,故名偏),xm每增加一每增加一个单位,个单位,y的增加值都是的增加值都是bm。 (一)多重回归分析的任务(一)多重回归分析的任务为残差模型拟和的优良性指标模型拟和的优良性指标R:复相关系数,反映了复相关系数,反映了Y与与M个自变量的总体相关系数;个自变量的总体相关系数;R2:决定系数(决定系数(R Square)R2c:调整决定系数(调整决定系数(Adjusted R square ),是对决定系),是对决定系数的修正,是数的修正,是更客观更客观的指标。的指标。 (若要做预测

7、分析的话,若要做预测分析的话,R值的要求值的要求较高,应较高,应0.75。0.6凑活,凑活,0.3.,0.4预测效果很差。若只是做影响因素分析的预测效果很差。若只是做影响因素分析的话话0.5之类都还好)之类都还好)这些指标越接近于这些指标越接近于1,说明回归模型拟合越好。,说明回归模型拟合越好。 2.哪些自变量对因变量有影响?(哪些自变量对因变量有影响?(影响因素分析影响因素分析)对回归模型的统计检验对回归模型的统计检验1regSSnmFmSSE当当P0.05,则认为此回归模型有显著性。则认为此回归模型有显著性。对自变量的统计检验对自变量的统计检验/( )iitbse b当当P0.05,则认为

8、此自变量对因变量有影响。则认为此自变量对因变量有影响。自变量的筛选自变量的筛选实际应用中,通常从专业知识出发,建立一个简约实际应用中,通常从专业知识出发,建立一个简约(parsimonious)的回归模型,即用尽可能少的自变量拟)的回归模型,即用尽可能少的自变量拟合模型。合模型。 常用方法(常用方法(最常用的是最常用的是2和和3,1仍然是单变量思想。注意,选入标准仍然是单变量思想。注意,选入标准0.05,剔除标准宽些剔除标准宽些0.10)1.前进法(前进法(Forward):):逐步增加变量到模型中(由少到逐步增加变量到模型中(由少到多),对已经进入的变量不再剔除;多),对已经进入的变量不再剔

9、除;SPSS中默认的选入自中默认的选入自变量的检验水准为变量的检验水准为0.05。2.后退法(后退法(Backward):):从模型中逐步剔除变量(由多到从模型中逐步剔除变量(由多到少),对已经剔除的变量不再进入;少),对已经剔除的变量不再进入;SPSS中默认的剔除自中默认的剔除自变量的检验水准为变量的检验水准为0.10。 3.逐步法(逐步法(Stepwise):):结合了前进法和后退法,变量边进结合了前进法和后退法,变量边进入边剔除。入边剔除。3.哪一个自变量对因变量的影响更重要?(哪一个自变量对因变量的影响更重要?(自变量的相对重要自变量的相对重要性分析性分析)当自变量的量纲相同时,衡量自

10、变量相对重要性的指标:当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变量偏回归系数;若偏回归系数的绝对值越大,则相应自变量对因变量的影响就越大。对因变量的影响就越大。当自变量的量纲不同时,衡量自变量相对重要性的指标当自变量的量纲不同时,衡量自变量相对重要性的指标:(:(偏回偏回归系数有量纲,以下指标无,故可用来衡量归系数有量纲,以下指标无,故可用来衡量)标准化偏回归系数(标准化偏回归系数(Standardized regression coefficient)、)、偏相关系数(偏相关系数(Partial Correlation)和部分相关系数

11、()和部分相关系数(Part Correlation)。)。上述指标的绝对值越大,则相应自变量对因变上述指标的绝对值越大,则相应自变量对因变量的影响就越大。量的影响就越大。 标准化偏回归系数标准化偏回归系数:对自变量、因变量作标准化处理后计算:对自变量、因变量作标准化处理后计算的回归系数。的回归系数。偏相关系数偏相关系数:因变量与自变量均扣除其他自变量影响之后,:因变量与自变量均扣除其他自变量影响之后,二者之间的相关系数。与简单相关系数(二者之间的相关系数。与简单相关系数(Pearson相关系数)相关系数)不同;例如:考察因变量不同;例如:考察因变量Y与自变量与自变量X1 、X2的多元回归分析

12、,的多元回归分析,Y与与X1的偏相关系数为的偏相关系数为扣除扣除X2影响后的影响后的Y与与X1的相关性。的相关性。 Y与与X1的简单相关系数为的简单相关系数为忽略忽略X2影响后的影响后的Y与与X1的相关性。的相关性。部分相关系数:部分相关系数:自变量扣除其他自变量影响之后,因变量与自变量扣除其他自变量影响之后,因变量与自变量之间的相关系数。与偏相关系数不同,部分相关系数自变量之间的相关系数。与偏相关系数不同,部分相关系数中因变量未扣除其他自变量的影响。中因变量未扣除其他自变量的影响。 4.如何用自变量预测因变量?(如何用自变量预测因变量?(预测分析预测分析)000001 122.mmybb x

13、b xb x当自变量取某个数值时,当自变量取某个数值时,y的预测值为的预测值为Y的均数的的均数的95置信区间置信区间个体个体Y值的值的95容许区间容许区间预测分析时,(预测分析时,(x10,x20 xm0)应该在样本的自变)应该在样本的自变量取值范围内。量取值范围内。 1.自变量与因变量之间存在线性关系自变量与因变量之间存在线性关系通过绘制通过绘制y与每个自变量的偏相关散点图,可以判断与每个自变量的偏相关散点图,可以判断y与与自变量之间是否存在线性关系。自变量之间是否存在线性关系。 2.残差的正态性残差的正态性通过绘制标准化残差的直方图以及正态概率图(通过绘制标准化残差的直方图以及正态概率图(

14、P-P图),可以图),可以判断是否服从正态分布。此条件可以放宽,只要不是严重偏离正判断是否服从正态分布。此条件可以放宽,只要不是严重偏离正态即可。态即可。3.残差的等方差性残差的等方差性通过绘制标准化残差与预测值的散点图,若标准化残差在零通过绘制标准化残差与预测值的散点图,若标准化残差在零水平线上下波动,无明显的规律性,则可以判断满足等方差水平线上下波动,无明显的规律性,则可以判断满足等方差的假定。的假定。 (二)多重回归分析的适用条件(二)多重回归分析的适用条件通过标准化残差(通过标准化残差(Standardized Residuals) (服从(服从T分布)分布)、学生氏残差(学生氏残差(

15、Studentlized Residuals) (服从(服从Z分布)分布)来判断来判断强影响点强影响点 。当指标的绝对值大于。当指标的绝对值大于3时,可以认为样本存在时,可以认为样本存在强影响点。强影响点。删除强影响点应该慎重,需要结合专业知识。以下两种情删除强影响点应该慎重,需要结合专业知识。以下两种情况可以考虑删除强影响点:况可以考虑删除强影响点:1.强影响点是由于数据记录错强影响点是由于数据记录错误造成的;误造成的;2.强影响点来自不同的总体。强影响点来自不同的总体。4.剔除强影响点(剔除强影响点(Influential cases;或称为突出点,;或称为突出点,outliers)5.自

16、变量之间不应存在共线性(自变量之间不应存在共线性(Collinear) (可以有一定的相关性,(可以有一定的相关性,因为如果完全不相关,相关系数为因为如果完全不相关,相关系数为0,那么就和单变量分析一样。),那么就和单变量分析一样。)当一个(或几个)自变量可以由其他自变量线性表示时,称当一个(或几个)自变量可以由其他自变量线性表示时,称该自变量与其他自变量间存在共线性关系。常见于:该自变量与其他自变量间存在共线性关系。常见于:1.一个一个变量是由其他变量派生出来的,如:变量是由其他变量派生出来的,如:BMI由身高和体重计算由身高和体重计算得出得出 ;2.一个变量与其他变量存在很强的相关性。一个

17、变量与其他变量存在很强的相关性。当自变量之间存在共线性时,会使回归系数的估计不确定、当自变量之间存在共线性时,会使回归系数的估计不确定、预测值的精度降低以及对预测值的精度降低以及对y有影响的重要自变量不能选入模有影响的重要自变量不能选入模型型 。共线性诊断方法:共线性诊断方法:1.TOL(容许度,(容许度,Tolerance)法:)法:TOL越接近零,共线性越越接近零,共线性越大。大。2.VIF(方差膨胀因子,(方差膨胀因子,Variance Inflation Factor,VIF )法:)法:VIF越大,共线性越大。越大,共线性越大。3.特征根(特征根(Eigenvalue)法:)法:如果

18、自变量相关矩阵的特征根近如果自变量相关矩阵的特征根近似于零,则自变量之间存在共线性。似于零,则自变量之间存在共线性。4.CI(条件指数,(条件指数,Condition Index)法:)法:CI越大,共线性越越大,共线性越大。大。1. 数据预处理:根据经济学专业知识,需要先对数据预处理:根据经济学专业知识,需要先对Z1、Z2、W作对数变换,分别记为作对数变换,分别记为X1、X2、Y。(三)多重线性回归:实例分析(三)多重线性回归:实例分析变换后的数据变换后的数据回归回归线性线性2.多重回归分析多重回归分析因变量因变量自变量自变量Statistics对话框对话框回归系数回归系数的估计的估计模型拟

19、和模型拟和共线性诊断共线性诊断部分相关与偏相关系数部分相关与偏相关系数统计描述统计描述Plots对话框对话框标准化标准化残差图残差图直方图直方图正态概率图,正态概率图,P-P图图绘制所有的绘制所有的偏相关图偏相关图 Save对话框对话框分别给出分别给出Y、X1、X2的均数与标的均数与标准差准差相关系数阵相关系数阵简单相关系数简单相关系数(Pearson相关相关)P值值从简单相关系数可见:从简单相关系数可见:Y与与X1、X2存在较强相关性,存在较强相关性,X1、X2存在中等相关性。存在中等相关性。3.输出结果解释输出结果解释复相关系数复相关系数 决定系数决定系数 调整决定系数调整决定系数F值值P

20、值值此模型的复相关系数为此模型的复相关系数为0.857,调整决定系数为,调整决定系数为0.699,反映此模型拟反映此模型拟和较好和较好;模型经统计学检验,;模型经统计学检验,F=20.738,P0.05,说明此多元回归,说明此多元回归模型有显著性。模型有显著性。非标准化系数非标准化系数 标准化系数标准化系数 t值值 P值值简单相关简单相关 偏相关偏相关 部分相关部分相关TolVIF6.8890.695 10.8382yXX 经统计学检验,经统计学检验,X1与与X2均有显著性,因此回归模型为均有显著性,因此回归模型为 ;根据偏回归系数的大小,根据偏回归系数的大小,可以认为可以认为X2对对Y的影响

21、比的影响比X1大。大。特征根特征根条件指数条件指数, CI方差比例方差比例共线性诊断共线性诊断共线性诊断:共线性诊断:两个自变量之间不存在共线性。两个自变量之间不存在共线性。因为标准化残差、学生化残差的绝对值小于因为标准化残差、学生化残差的绝对值小于3,所以,所以从统计学上从统计学上认为样本不存在强影响点。认为样本不存在强影响点。残差统计量残差统计量学生化残差学生化残差标准化残差标准化残差直方图及直方图及P-P图图从残差直方图及从残差直方图及P-P图可见:残差正态性不太好,图可见:残差正态性不太好,可能与样本量太小有关。可能与样本量太小有关。通过绘制通过绘制y与与X1的偏相关散点图,可以判断的

22、偏相关散点图,可以判断y与与X1之间存之间存在线性关系。在线性关系。 通过绘制通过绘制y与与X2的偏相关散点图,可以判断的偏相关散点图,可以判断y与与X1之间存之间存在线性关系。在线性关系。 检查残差的等方差性:检查残差的等方差性:由图可见:残差满足等方差性。由图可见:残差满足等方差性。提示:提示: 多重线性回归分析允许自变量为分类变量,但多重线性回归分析允许自变量为分类变量,但当自变量为当自变量为多分类变量时,多分类变量时,需要以需要以“哑变量(哑变量(dummy variables)”的的方式引入模型。方式引入模型。 如:某个自变量为如:某个自变量为“文化程度文化程度”:1=文盲,文盲,2

23、=小学,小学,3=中学,中学,4=大学及以上。若以大学及以上。若以“大学及以上大学及以上”为参照,关心文为参照,关心文盲、小学、中学分别与大学及以上的比较,则进行回归分析盲、小学、中学分别与大学及以上的比较,则进行回归分析时,此自变量须用时,此自变量须用3个哑变量表达:个哑变量表达:x1: 1=文盲,文盲,0=其他;其他;x2: 1=小学,小学,0=其他;其他;x3: 1=中学,中学,0=其他。其他。练习练习1以下实例摘自以下实例摘自Hosmer, David W . (2000). Applied logistic regression . John Wiley, New York.研究目的

24、是考察与婴儿低出生体重有关的可能危险因素(当体重低于研究目的是考察与婴儿低出生体重有关的可能危险因素(当体重低于2500g时,认为是低出生体重婴儿)。研究收集了时,认为是低出生体重婴儿)。研究收集了189例妇女的数据,其中例妇女的数据,其中59例分娩低出生体重婴儿,例分娩低出生体重婴儿,130例分娩正常体重婴儿例分娩正常体重婴儿(数据见文件(数据见文件data1.sav)。(一)(一)Logistic回归分析的任务回归分析的任务影响因素分析影响因素分析logistic回归常用于疾病的危险因素分析,回归常用于疾病的危险因素分析,logistic回归回归分析可以提供一个重要的指标:分析可以提供一个

25、重要的指标:OR。(二)(二)Logistic回归分析的基本原理回归分析的基本原理1.变量特点变量特点因变量:因变量:二分类变量,若令因变量为二分类变量,若令因变量为y,则常用,则常用y1表表示示“发病发病”,y0表示表示“不发病不发病”(在病例对照研究中,(在病例对照研究中,分别表示病例组和对照组)。分别表示病例组和对照组)。自变量:自变量:可以为分类变量,也可以为连续变量。可以为分类变量,也可以为连续变量。Logistic回归分析回归分析2.Logistic模型模型P=P(y=1|x),为发病概率;,为发病概率;1-P=P(y=0|x),为不发病概率。,为不发病概率。 0为常数项,为常数项

26、, 1 , 2 . m分别分别为为m个自变量的回归系数。个自变量的回归系数。01 122( ).iimmg xxxxx( )ln1Pg xPexp ( )1 exp ( )g xPg xg(x)是对是对P的变换的变换,称为称为logit变换变换:可以得到:可以得到:模型估计方法:模型估计方法:最大似然法(最大似然法(Maximum Likelihood Method):):构造似然构造似然函数(函数( Likelihood function )L= P(y=1|x) P(y=0|x),通,通过迭代法(默认过迭代法(默认20次以内)估计一组参数(次以内)估计一组参数( 0, 1 , 2 . m)

27、使)使L达到最大。达到最大。3.模型及自变量的统计检验模型及自变量的统计检验模型检验模型检验:H0: 1 2 i m H1:至少有一个:至少有一个 i 0采用似然比检验(采用似然比检验(the likelihood ratio test),当),当P 0.05时,拒绝时,拒绝H0,认为模型有统计学意义,认为模型有统计学意义。自变量自变量检验检验:H0: i0H1: i 0采用采用Wald检验检验,当当P 0.05时,拒绝时,拒绝H0,认为,认为 i不为不为0。4.自变量的筛选自变量的筛选与多元线性回归分析类似,有与多元线性回归分析类似,有Forward法(实际上是逐步向法(实际上是逐步向前法)

28、、前法)、Backward法。默认方法为法。默认方法为Enter,即所有自变量一,即所有自变量一次全部进入方程。次全部进入方程。注注:不同自变量的筛选方法,当结果差别较大时,应该结合不同自变量的筛选方法,当结果差别较大时,应该结合专业知识,用尽可能少的变量拟合一个最佳模型。依据专业知识,用尽可能少的变量拟合一个最佳模型。依据Wald统计量统计量(Wald statistic) 、似然比统计量、似然比统计量(Likelihood ratio)或者条件统计量或者条件统计量(Conditional statistic)剔除变量时,似然比统计量是决定哪个变量应该剔除变量时,似然比统计量是决定哪个变量应

29、该被剔除的最好方法。被剔除的最好方法。5.模型拟合的优良性指标模型拟合的优良性指标(1)拟合分类表()拟合分类表(Classification Table)根据根据Logistic回归模型,对样本重新判别分类,总符合率越回归模型,对样本重新判别分类,总符合率越接近接近100%,则模型拟合越好。,则模型拟合越好。Logistic回归用于判别分类很回归用于判别分类很粗劣,尤其在很多情况下对于小样本的分类效果差粗劣,尤其在很多情况下对于小样本的分类效果差 。(2)Hosmer-Lemeshow 拟合优度统计量拟合优度统计量 (与样本量有关)(与样本量有关)当检验的当检验的P值大于值大于0.1时,则说

30、明模型对样本的拟合是可以接时,则说明模型对样本的拟合是可以接受的。受的。6.OR与与RRLogistic回归模型中回归模型中,OR=exp( )。lnOR= 当某种疾病的发病率或死亡率很低时,当某种疾病的发病率或死亡率很低时,OR RROR的置信区间为:的置信区间为: 1/2exp()zse当自变量为连续变量时,回归系数的解释与变量单位有关。当自变量为连续变量时,回归系数的解释与变量单位有关。当当x改变改变“c个个”单位时,单位时,OR=exp(c ),置信区间为,置信区间为 1/2exp()czcse 例:例:比较新疗法与旧疗法治疗某种疾病的疗效。现对比较新疗法与旧疗法治疗某种疾病的疗效。现

31、对40例患者随机分组,分别接受新疗法和旧疗法治疗。例患者随机分组,分别接受新疗法和旧疗法治疗。根据专业知识,患者的病情严重程度、年龄对疗效也根据专业知识,患者的病情严重程度、年龄对疗效也有影响。如何评价新旧疗法的疗效(有影响。如何评价新旧疗法的疗效(见数据文件见数据文件logistic.sav)?(注:作为举例,本例样本量仅为)?(注:作为举例,本例样本量仅为40例,由于样本量太小,例,由于样本量太小,Logistic回归的结论仅作为参回归的结论仅作为参考)考)变量说明:变量说明:Y:治愈情况,:治愈情况,1=治愈;治愈;0=未治愈;未治愈;X1:病情严重程度,病情严重程度,0=不严重,不严重

32、,1=严重;严重;X2:年龄。:年龄。X3:治疗方法,治疗方法,0=新疗法,新疗法,1=旧疗法。旧疗法。二值二值Logistic回归回归因变量因变量协变量协变量(自变量自变量)注:此处将注:此处将X1、X3看作为连续变量;采用看作为连续变量;采用Enter法。法。OR的的95%置信区间置信区间对模型的检验对模型的检验-2Log likelihood=40.597经统计学检验,模型经统计学检验,模型 2=13.951,P=0.003,Logistic回回归模型有显著性。归模型有显著性。符合率为符合率为70.0%拟合分类表拟合分类表回归系数回归系数 标准误标准误 Wald值值P值值OROR置信区间

33、置信区间根据模型,根据模型,病情严重程度与治疗方法对患者的治愈情况有影响;其病情严重程度与治疗方法对患者的治愈情况有影响;其中病情严重组相对于不严重组,中病情严重组相对于不严重组,OR0.203,95%置信区间为置信区间为(0.038,1.092)(此区间包括此区间包括1,缺乏实际意义,缺乏实际意义);旧疗法组相对于;旧疗法组相对于新疗法组,新疗法组, OR0.103,95%置信区间为置信区间为(0.019,0.553)另法:将另法:将X1、X3指定为分类变量。指定为分类变量。与前述结果相比,与前述结果相比,X1与与X3的回归系数符号发生了变化,结果解释有的回归系数符号发生了变化,结果解释有所

34、不同:所不同:病情不严重组相对于严重组,病情不严重组相对于严重组,OR4.928, 95%置信区间置信区间为为(0.916,26.506) ;新疗法组相对于旧疗法组,;新疗法组相对于旧疗法组, OR9.707, 95%置信区间为置信区间为(1.809,52.103) 。另法:将另法:将X1、X3指定为分类变量。指定为分类变量。注:对于二分类变量,可以当作连续变量处理,也可以指定为注:对于二分类变量,可以当作连续变量处理,也可以指定为分类变量,但要注意结果解释。分类变量,但要注意结果解释。后退法筛选变量后退法筛选变量每步的模型检验、每步的模型检验、-2Log likelihood及拟合分类表及拟

35、合分类表不在模型中的变量不在模型中的变量后退法筛选变量后退法筛选变量逐步前进法筛选变量逐步前进法筛选变量不在模型中的变量不在模型中的变量逐步前进法筛选变量逐步前进法筛选变量应用应用Logistic回归分析时的注意事项回归分析时的注意事项1. Logistic回归是乘法模型,这一点,在结果解释时需回归是乘法模型,这一点,在结果解释时需要慎重。要慎重。对于自变量(对于自变量(X1,X2),),OR12=EXP( 1+ 2)=OR1OR2例:例:某研究调查胃癌发病的危险因素,得到某研究调查胃癌发病的危险因素,得到“有不良饮食习有不良饮食习惯惯”相对于相对于“无不良饮食习惯无不良饮食习惯”的的OR=2

36、.6, “喜吃卤食和喜吃卤食和盐渍食物盐渍食物”相对于相对于“不吃卤食和盐渍食物不吃卤食和盐渍食物”的的OR=2.4。那么。那么根据根据Logistic回归,回归,“有不良饮食习惯且喜吃卤食和盐渍食有不良饮食习惯且喜吃卤食和盐渍食物物”相对于相对于“无不良饮食习惯且不吃卤食和盐渍食物无不良饮食习惯且不吃卤食和盐渍食物”的的OR=2.62.4=6.24,得出此结论时需要考虑从专业知识上是,得出此结论时需要考虑从专业知识上是否合理。否合理。通常情况下,自变量为二分类变量时,可以当作连续变通常情况下,自变量为二分类变量时,可以当作连续变量进入模型(常用量进入模型(常用0、1或者或者1、2赋值),也可

37、以通过赋值),也可以通过“categorical”来指定哑变量。但是,对多分类变量应来指定哑变量。但是,对多分类变量应该通过该通过“categorical”来指定哑变量,而不宜直接作为来指定哑变量,而不宜直接作为连续变量处理。连续变量处理。 当自变量有当自变量有m个分类时,则需要定义个分类时,则需要定义m-1个哑变量。如定义自变量个哑变量。如定义自变量“文化程度文化程度”的哑变量:若以的哑变量:若以“大学及以上大学及以上”为参照,关心文盲、为参照,关心文盲、小学、中学分别与大学及以上的比较,则进行小学、中学分别与大学及以上的比较,则进行Logistic回归分析时,回归分析时,需定义需定义3个哑

38、变量:个哑变量:x1: 1=文盲,文盲,0=其他;其他;x2: 1=小学,小学,0=其他;其他;x3: 1=中学,中学,0=其他;当其他;当x1、x2、x3取值均为取值均为0时,则表示文化程时,则表示文化程度为度为“大学及以上大学及以上”。 附录:经典附录:经典Logistic回归分析的其他应用回归分析的其他应用假设检验的目的假设检验的目的推断多个推断多个总体总体率是否相等率是否相等当当P 0.05,拒绝,拒绝H0时,时,总的说总的说来各组有差别,来各组有差别,但并不意味但并不意味着任何两组都有差别着任何两组都有差别:可能是任何两者间都有差别,也可能:可能是任何两者间都有差别,也可能其中某两者

39、间有差别,而其它组间无差别。目前尚无公认的其中某两者间有差别,而其它组间无差别。目前尚无公认的进一步两两比较的方法(进一步两两比较的方法(可考虑采用可考虑采用Logistic回归回归)。)。结果解释结果解释回顾:回顾:分类变量的假设检验分类变量的假设检验完全随机设计的多个样本比较完全随机设计的多个样本比较例:例:某省从某省从3 3个水中氟含量不同的地区随机抽取个水中氟含量不同的地区随机抽取10101212岁儿童,进行第一恒齿患病率的调查,问岁儿童,进行第一恒齿患病率的调查,问3 3个地区儿童个地区儿童第一恒齿患病率是否不同?第一恒齿患病率是否不同?变量说明:变量说明:group: :组别,组别

40、,1=1=高氟区,高氟区,2=2=干预区,干预区,3 3低低氟区;氟区;effect:1=:1=患龋,患龋,2=2=未患龋;未患龋;freq:频数:频数 。经经 2 2检验,检验, 2 2=10.489=10.489,P=0.005=0.005,可以认为:总的来说三个地区,可以认为:总的来说三个地区患龋情况有差别。患龋情况有差别。PearsonPearson卡方值卡方值P P值值患龋率患龋率如何进一步判断哪两个地区有差别?如何进一步判断哪两个地区有差别?二值二值Logistic回归回归在进行在进行Logistic回归分析之前,需要用回归分析之前,需要用freq变量变量进行加权进行加权以低氟区为

41、参照,其他两个地区与低氟区进行比较。以低氟区为参照,其他两个地区与低氟区进行比较。Categorical对话框对话框Options对话框对话框OR的的95%置信区间置信区间对模型的检验对模型的检验结论:结论:经统计学检验,经统计学检验, 2=11.852,P=0.003,Logistic模型有显著性。模型有显著性。高氟区、干预区与低氟区相比,患病率均有差异(高氟区、干预区与低氟区相比,患病率均有差异(P0.05)。)。 生存分析 生存分析是将事件的结果和出现这一结果所经历的时间,结合起来进行分析的一种统计分析方法。 资料特点(1)通过随访进行收集(2)起始时间(3)事件的结局及时间(4)生存时

42、间的分布十分复杂(5)随访资料常因失访等原因造成某些数据观察不完全 事件:研究者所认定的结局生存时间:开始观察到某终点事件所经历的时间跨度。 (1)完全数据:指从起点至出现认定事件所经历的时间跨度。 (2)截尾数据:从起点至截尾点所经历的时间。 截尾:没有观察到的认定事件。有以下几种情况: 失访、拒绝访问、中途退出等, 死于其它与研究无关的疾病 研究工作结束时事件尚未发生等 完全数据是生存分析的主要依据;截尾数据也提供部分信息,说明病人在某时刻之前没有发生事件。 基本术语生存函数又称生存率S(t) :观察对象活过时点t的概率. S(t)= P(xt) ,为累积生存概率。 有截尾数据,分母就必须

43、分时段校正,故此式一般不能直接应用。 12( )iS tPPP 生存概率和生存率的区别,前者是单位时段生存概率;而后者是多个时段的生存概率,是多个时段的累积的结果。生存率的估计:假定病人在各个时段生存的事件相互独立,则生存率为各时段生存概率之积。 Kaplan-Meier法:适用于小样本资料,生存时间记录要确切。 寿命表法:适用于频数表资料或大样本资料,生存时间分段记录的资料。生存时间的估计和检验例例 某研究者收集一些肺癌病例某研究者收集一些肺癌病例, 数据见数据见survival1.savtime生存时间生存时间(天天)status生存状态生存状态. 0,截尾截尾; 1,死亡死亡type肺癌

44、类型肺癌类型: 1腺癌腺癌, 2大细胞癌大细胞癌, 3小细胞癌小细胞癌, 4鳞癌鳞癌health病人入院时的身体状况病人入院时的身体状况diagtime从诊断为肺癌到开始治疗的时间从诊断为肺癌到开始治疗的时间age病人的年龄病人的年龄sex病人的性别病人的性别试比较不同类型肺癌患者生存时间试比较不同类型肺癌患者生存时间 Kaplan-Meier法SPSS数据文件AnalyzeSurvivalKaplan-MeierTime: time(生存时间变量)Status: status(生存状态变量) Define event: single vaule:1Factor: type(欲比较的分类变量)

45、Compare factor test staticics: 选 log rankOption statistics :survival table plot: 选SurvivalOkSPSS操作K-M主对话框生存率曲线统计学检验 option子对话框腺癌的生存分析表结果腺癌的生存时间的均数、中位数Number of Cases: 18 Censored: 1 ( 5.56%) Events: 17 Survival Time Standard Error 95% Confidence Interval Mean均数: 62 12 ( 38, 86 ) Median中位数: 48 6 ( 36

46、, 60 )218.41,P=0.004,显示四种病理类型患者的生存率曲线分布差别有统计学意义Survival Functions生存时间120010008006004002000-200Cum Survival1.21.0.8.6.4.20.0-.2肺癌类型鳞癌鳞癌-censored小细胞癌小细胞癌-censored大细胞癌大细胞癌-censored腺癌腺癌-censored四种病理类型肺癌患者的生存曲线,鳞癌生存状况较好,其次为大细胞癌,小细胞癌和腺癌的生存状况较差数据特点 寿命表数据,所有病例的随访都是定期(一年)进行的. 为便于录入可使用每个组段的起始年数表示每个组段. 计算的是1年的

47、生存概率,n年的生存率。寿命表法例 某医院对114例胃癌患者术后生存情况进行随访, 见文件lifetb1.sav, 计算胃癌患者术后各年生存率SPSS数据文件数据文件dataweight case;weight case by : freq。OK SPSS操作 (一)SPSS操作(二)AnalyzeSurvivalLife TablesTime框: time(生存时间变量)Display Time Iiterals:10 to 1Status框: died(生存状态变量) Define event: single vaule:1Option选lietable table;plot: 选Surv

48、ival。OkLife table 主对话框其它选项说明:Factor: 分组变量By factor: 分层变量Options对话框 compare levers of first factor overall:几组生存曲线的检验 pairwise:几组生存曲线的两两比较组段下限 初始人数 删失人数 校正人数 事件例数 死亡概率 生存概率 生存率 生存率标准误 概率密度 概率密度标准误 风险率 风险率标准误 0 114 5 111.500 3 .03 .97 .97 .02 .027 .015 .03 .02 1 106 4 104.000 9 .09 .91 .89 .03 .084 .02

49、7 .09 .03 2 93 1 92.500 10 .11 .89 .79 .04 .096 .029 .11 .04 3 82 0 82.000 22 .27 .73 .58 .05 .213 .040 .31 .07 4 60 2 59.000 2 .03 .97 .56 .05 .020 .014 .03 .02 5 56 2 55.000 8 .15 .85 .48 .05 .082 .028 .16 .06 6 46 2 45.000 12 .27 .73 .35 .05 .128 .034 .31 .09 7 32 1 31.500 10 .32 .68 .24 .04 .111

50、 .033 .38 .12 8 21 0 21.000 5 .24 .76 .18 .04 .057 .025 .27 .12 9 16 1 15.500 3 .19 .81 .15 .04 .035 .020 .21 .12 Life Table结果 两组儿童横纹肌瘤治疗后复发时间 处理组9,12,16,19,19,20,20,24,24,30,31,34,42,44,53,59,62 对照组2,3,9,10,10,12,15,15,16,18,24,30,36,40,45 分析两组儿童的生存情况练习1 常用术语 生存函数又称生存率S(t) :观察对象活过时点t的概率. S(t)= P(xt

51、) ,为累积生存概率。 如果有截尾数据,分母就必须分时段校正,故此式一般不能直接应用。Cox 比例风险模型 常用术语 生存概率和生存率的区别,前者是单位时段生存概率;而后者是多个时段的生存概率,是多个时段的累积的结果。 生存率的估计:假定病人在各个时段生存的事件相互独立,则生存率为各时段生存概率之积。 12( )iS tPPP常用术语Cox 比例风险模型 1972年由英国的Cox提出,属半参数模型。 Cox模型的基本形式: h(t,x)为具有协变量x的个体在时刻t的风险函数(风险率, 瞬时死亡率),h0(t)称基准风险率,即所有协变量均为0时,个体时刻t的风险函数 上式的右侧分两部分: h0(

52、t)与时间有关的任意函数,其分布和形状无明确假定,是非参数部分。另一部分是参数部分,其参数可以通过样本估计. 因为无须估计h0(t), 故Cox回归的模型拟和不是直接用生存时间作为因变量,而是以风险函数与基础风险函数的比值为因变量。Cox 比例风险模型1 1220( , )exp()( )pph x txxxh t Cox回归的假定:0( , )( )h x th t与时间t无关 i i 为为回回归归系系数数, , 它它的的估估计计需需借借助助偏偏似似然然函函数数的的方方法法. . i i 的的含含义义为为 x xi i每每改改变变一一个个单单位位时时, , 引引起起的的死死亡亡风风险险改改变

53、变倍倍数数的的自自然然对对数数值值. . e e i i 的的流流行行病病学学含含义义: : x xi i每每改改变变一一个个单单位位, , 死死亡亡风风险险改改变变 e e i i倍倍. .当当 x x 为为 0 0, ,1 1 变变量量时时即即为为相相对对危危险险度度. . Cox 比例风险模型 例 某研究者收集一些肺癌病例,进行Cox回归分析。数据见Survival1.sav数据 time生存时间(天) status生存状态. 0,截尾; 1,死亡 type肺癌类型: 1腺癌, 2大细胞癌, 3小细胞癌, 4鳞癌 health病人入院时的身体状况 diagtime从诊断为肺癌到开始治疗的

54、时间 age病人的年龄 sex病人的性别 试比较不同类型肺癌患者生存时间 SPSS操作 AnalyzeSurvivalCox regression Time: time Status: status Define event: single vaule:1 Covariates: type/ health /diagtime/ age /sex (待筛选的协变量) Categorical :Covariates:type(将肺癌亚型定义为哑变量) Method : forward LR plot: Survival Option : CI for exp() Display model inf

55、ormation: At last step Ok Cox Regression 主对话框 SPSS结果Case Processing SummaryCase Processing Summary6494.1%45.9%68100.0%0.0%0.0%0.0%0.0%68100.0%EventaCensoredTotalCases availablein analysisCases with missingvaluesCases with negative timeCensored cases beforethe earliest event in astratumTotalCases dro

56、ppedTotalNPercentDependent Variable: 生存时间a. 资料基本情况:总例数、删失例数、失访例数及其百分比。资料基本情况:总例数、删失例数、失访例数及其百分比。 Categorical Variable Codingsa,b181.000.000.00012.0001.000.00018.000.0001.00020.000.000.000 1=腺癌 2=大细胞癌 3=小细胞癌 4=鳞癌TYPEFreqency (1) (2) (3)Indicator Parameter Codinga. Category variable: TYPE (肺癌类型)b. 哑哑变

57、变量量的的编编码码情情况况, , 以以鳞鳞癌癌为为基基准准 B Bl lo oc ck k 0 0: : B Be eg gi in nn ni in ng g B Bl lo oc ck k Omnibus Tests of Model Coefficients420.463-2 LogLikelihood 模模型型中中未未引引入入任任何何变变量量时时的的- -2 2倍倍对对数数似似然然比比值值。 B Bl lo oc ck k 1 1: : M Me et th ho od d = = F Fo or rw wa ar rd d S St te ep pw wi is se e ( (L

58、Li ik ke el li ih ho oo od d R Ra at ti io o) ) Omnibus Tests of Model Coefficientsa,b372.26748.7654.00048.1974Step2-2 LogLikelihoodChi-squaredfSig.Overall (score)Chi-squaredfChange From Previous BlockBeginning Block Number 0, initial Log Likelihood function: -2 Log likelihood: -420.463a. Beginning

59、Block Number 1. Method: Forward Stepwise (Likelihood Ratio)b. 上上表表显显示示: :协协变变量量的的引引入入方方式式为为偏偏最最大大似似然然估估计计的的向向前前逐逐步步回回归归. .只只给给出出第第二二步步的的结结果果. . 对对模模型型的的检检验验. . s sc co or re e检检验验 2 2= =4 48 8. .7 76 65 5, ,对对数数似似然然比比检检验验 2 2= =4 48 8. .1 19 97 7, , P P= =0 0. .0 00 00 0, , 模模型型 i i不不全全为为0 0 Variabl

60、es in the Equation12.1733.0031.322.4379.1401.0033.750.819.4143.9111.0482.2681.485.44411.1721.0014.417-.040.00729.0201.000.961TYPETYPE(1)TYPE(2)TYPE(3)HEALTHStep2BSEWalddfSig.Exp(B)回回归归方方 程程各各参参数数的的估估计计, , 腺腺癌癌, ,大大细细胞胞癌癌, , 小小细细胞胞癌癌的的死死亡亡风风 险险是是鳞鳞癌癌的的3 3. .7 75 5, ,2 2. .2 26 68 8, ,4 4. .4 41 17 7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论