




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八章第八章Logistic回归模型 许多社会科学的观察都只分类而不是连续的比如,政治学中经常研究的是否选举某候选人 又如,经济学研究中所涉及的是否销售或购买某种商品、是否签订个合同等等这种选择量度通常分为两类,即“是与“否” 在社会学和人口研究中,人们的社会行为与事件的发生如犯罪、逃学、迁移、结婚、离婚、患病等等都可以按照二分类变量来测量。 线性回归模型在定量分析中也许是最流行的统计分析方法,然而在许多情况下,线性回归会受到限制. 比如,当因变量是一个分类变量,不是一个连续变量时,线性回归就不适用,严重违反假设条件. 分类变量分析通常采用对数线性模型分类变量分析通常采用对数线性模型(Log-
2、linear model), 而因变量为二分变量时而因变量为二分变量时, 对数线性模型就变对数线性模型就变成成Logistic回归模型回归模型.logistic回归是一个回归是一个概率型模型概率型模型,因此可以因此可以利用它预测某事件发生的概率。例如在临床上可以利用它预测某事件发生的概率。例如在临床上可以根据患者的一些检查指标,判断患某种疾病的概率根据患者的一些检查指标,判断患某种疾病的概率有多大。有多大。目的:目的:作出以多个自变量估计作出以多个自变量估计应变量(应变量(结果结果因素)因素)的的logistic回归方程。属于概率型非线回归方程。属于概率型非线性回归。性回归。资料:资料:1.
3、应变量为反映某现象发生与不发生的应变量为反映某现象发生与不发生的二值变量;二值变量;2. 自变量宜全部或大部分为分类自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量变量,可有少数数值变量。分类变量要数量化。化。用途:用途:研究某种现象发生和多个因素(或保护研究某种现象发生和多个因素(或保护因子)的数量关系。因子)的数量关系。用用 检验(或检验(或u检验)的检验)的局限性:局限性: 1.只能研究只能研究1个因素;个因素; 2.只能得出定性结论。只能得出定性结论。21.成组(非条件)成组(非条件)logistic回归方程。回归方程。2.配对(条件)配对(条件)logistic回归方
4、程。回归方程。 第八章 第一节第一节机动 目录 上页 下页 返回 结束 logistic回归(非条件(非条件logistic回归回归 ) 一、基本概念一、基本概念1 0 Y发生应变量未发生12,mXXX自变量,在m个自变量的作用下个自变量的作用下Y=1(发生发生)的概率记作的概率记作:),| 1(21mXXXYPP1P011ZPe若令若令: mmXXXZ2211001122ln=1mmPXXXP0112211 exp ()mmPXXX回回归归模模型型其中0为常数项, m,21为回归系数。 概率概率P:01,logitP:。 取值范围取值范围 logitP logistic函数的图形函数的图形0
5、0.51-4-3-2-10123410.5PZ:, 0, : 0, 0.5, 1PZ模模型型参参数数的的意意义义01122ln=logit1mmPXXXPP常数项常数项 表示暴露剂量为表示暴露剂量为0时个体发病时个体发病与不发病概率之比的自然对数。与不发病概率之比的自然对数。回归系数回归系数 表示自变量表示自变量 改变一个单位时改变一个单位时logitP 的改变量。的改变量。0), 2 , 1(mjjjX流行病学衡量危险因素作用大小的流行病学衡量危险因素作用大小的比数比例比数比例指标。指标。计算公式为:计算公式为:1100/(1)/(1)jPPORPP优势比优势比OR(odds ratio)1
6、11000010010/(1)lnlnlogitlogit/(1)()()()jmmjttjtttjtjjPPORPPPPcXcXcc对对比比某某一一危危险险因因素素两两个个不不同同暴暴露露水水平平1cXj与与0cXj的的发发病病情情况况(假假定定其其它它因因素素的的水水平平相相同同) ,其其优优势势比比的的自自然然对对数数为为: 与与 logisticP 的关系的关系:0, 1 exp, 0, 1 0, 1 jjjjjjOROROROR无作用危险因保子护因子则有101 , 1, 0 jccX暴非若暴露露由 于jOR值 与 模 型 中的 常 数项0无 关 ,0在 危 险 因素 分 析中 通 常
7、视 其 为无 效 参数 。 1100/(1) 1, /(1)PPPORRRPP当则有10 exp()jjORcc即二、二、logisticlogistic回归模型的参数估计回归模型的参数估计 11(1)iinYYiiiLPP 1lnln(1) ln(1)niiiiiLYPYP mbbbb,210 参数估计参数估计 原理:最大似然原理:最大似然( likelihood )估计估计 0112211 exp ()mmPXXX )(exp01ccbROjj)exp(2/jbjSub可反映某一因素两个不同水平(c1,c0)的优势比。 2. 优势比估计优势比估计 例例设有住房及收入情况的统计资料如表 X
8、XY YX XY YX XY Y10100 017171 120201 117171 113130 011110 018181 121211 18 80 014140 016161 117171 112120 012120 016161 19 91 111110 07 70 020201 116161 117171 113130 012120 015151 19 90 011110 010101 119191 116161 125251 112120 011110 015150 04 40 020201 112120 0在SPSS 中估计参数步骤如下:(1)在SPSS 中录入表10-55中数据
9、(变量为Y 和X),并保存数据文件;在主菜单中选择Analyze=Regression=Binary Logistic(2)在Logistic Regression对话框中,选择Y 进入Dependent框作为因变量,选择X 进入Covariates作为自变量击Method的下拉菜单,SPSS 提供了7 种方法: Enter:所有自变量强制进入回归方程; Forward: Conditional:以假定参数为基础作似然比检验,向前逐步选择自变量; Forward: LR:以最大局部似然为基础作似然比检验,向前逐步选择自变量; Forward: Wald:作Wald 概率统计法,向前逐步选择自变
10、量; Backward: Conditional:以假定参数为基础作似然比检验,向后逐步选择自变量; Backward: LR:以最大局部似然为基础作似然比检验,向后逐步选择自变量; Backward: Wald:作Wald 概率统计法,向后逐步选择自变量。( 3)单击Logistic Regression对话框中的Options按钮,在显示的子对话框中选择Classification plots和Hosmer-Lemeshow goodness-of-fit等选项(如图所示),并单击Continue返回主对话框。(4)单击主对话框中OK按钮,输出结果如下:O Om mn ni ib bu u
11、s s T Te es st ts s o of f M Mo od de el l C Co oe ef ff fi ic ci ie en nt ts s35.2071.00035.2071.00035.2071.000StepBlockModelStep 1Chi-squaredfSig.Model SummaryModel Summary38.248a.485.647Step1-2 LoglikelihoodCox & SnellR SquareNagelkerkeR SquareEstimation terminated at iteration number 6 becausepa
12、rameter estimates changed by less than .001.a. Hosmer and Lemeshow TestHosmer and Lemeshow Test12.6447.081Step1Chi-squaredfSig.C Co on nt ti in ng ge en nc cy y T Ta ab bl le e f fo or r H Ho os sm me er r a an nd d L Le em me es sh ho ow w T Te es st t54.9270.073545.6082.392665.2200.780653.93601.06
13、4543.17122.829601.53664.46461.95855.04261.49055.51060.15376.8477123456789Step1ObservedExpectedY = 0ObservedExpectedY = 1TotalClassification TableClassification Tablea a23388.532488.988.7Observed01YOverall PercentageStep 101YPercentageCorrectPredictedThe cut value is .500a. Variables in the EquationV
14、ariables in the Equation.594.14815.9911.0001.811-8.4322.16415.1801.000.000XConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: X.a. 例例: 下表是一个研究吸烟、饮酒与食道癌关系的病下表是一个研究吸烟、饮酒与食道癌关系的病例对照资料,试作例对照资料,试作logistic回归分析。回归分析。 121 0 1 0 1 0 XXY吸 烟不 吸 烟饮 酒不 饮 酒病 例对 照确确定定各各变变量量编编码码 分 层 吸 烟 饮 酒 观 察 例 数 阳
15、 性 数 阴 性 数 g X1 X2 ng dg ng dg 1 0 0 199 63 136 2 0 1 170 63 107 3 1 0 101 44 57 4 1 1 416 265 151 表表 吸烟与食道癌关系的病例对照调查资料吸烟与食道癌关系的病例对照调查资料 经logistic回归计算后得:22exp(1.96)exp(0.5261 1.96 0.1572)(1.24,2.30)bbS2OR的95可信区间: 饮酒与不饮酒的优势比 11expexp0.8856=2.42ORb110.05/2expexp(0.8856 1.96 0.1500)(1.81,3.25)bbuSOR1的9
16、5可信区间 11expexp0.8856=2.42ORb吸烟与不吸烟的优势比: 三、三、logisticlogistic回归模型的假设检验回归模型的假设检验 Wald 检验 将各参数的估计值jb与 0 比较,而用它的标准误jbS作为参照,检验统计量为 2, 1jjjjbbbbuSS2 或 221220111022120.8856 34.860.15000.5261 11.200 :0, :0, 0.05,:0, :0,.157 0 05,2.HHHH 2值均大于 3.84,说明食道癌与吸烟、饮酒有关系,结论同前。 2. Wald检验检验1.1.似然比检验似然比检验方法方法:前进法、后退法和逐步
17、法。检验统计量:检验统计量:不是 F 统计量,而是似然比统计量、 Wald 统计量和计分统计量之一。四、变量筛选四、变量筛选例: 为了探讨冠心病发生的有关危险因素,对为了探讨冠心病发生的有关危险因素,对26例例冠心病病人和冠心病病人和28例对照者进行病例例对照者进行病例 对照研究,各因对照研究,各因素的说明及资料见下两。试用素的说明及资料见下两。试用logistic 逐步回归分析方逐步回归分析方法筛选危险因素。法筛选危险因素。)15. 0,10. 0(出入表冠心病表冠心病8 8个可能的危险因素与赋值个可能的危险因素与赋值序号 X1 X2 X3 X4 X5 X6 X7 X8 Y 1 3 1 0
18、1 0 0 1 1 0 2 2 0 1 1 0 0 1 0 0 3 2 1 0 1 0 0 1 0 0 4 2 0 0 1 0 0 1 0 0 5 3 0 0 1 0 1 1 1 0 6 3 0 1 1 0 0 2 1 0 7 2 0 1 0 0 0 1 0 0 8 3 0 1 1 1 0 1 0 0 9 2 0 0 0 0 0 1 1 0 10 1 0 0 1 0 0 1 0 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2 0 1 1 0 1 2 1 1 52 2 1 1 1 0 0 2 1 1 53 2
19、1 0 1 0 0 1 1 1 54 3 1 1 0 1 0 3 1 1 表表 冠心病危险因素的病例冠心病危险因素的病例 对照调查资料对照调查资料 表方程中的自变量及有关参数的估计值表方程中的自变量及有关参数的估计值 选入 变量 回归系 数 b 标准误 bS Wald 2 P 值 标准回归 系数 b OR 常数项 -4.705 1.543 9.30 0.0023 - - X1 0.924 0.477 3.76 0.0525 0.401 2.52 X5 1.496 0.744 4.04 0.0443 0.406 4.46 X6 3.136 1.249 6.30 0.0121 0.703 23.0
20、0 X8 1.947 0.847 5.29 0.0215 0.523 7.01 例例:某研究人员在探讨肾细胞癌转移的有关临床病理某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取肾癌标本资料,现从中抽取26例资料作为示例进行例资料作为示例进行logistic回归分析回归分析 。 i: 标本序号标本序号 x1:确诊时患者的年龄:确诊时患者的年龄(岁岁) x2:肾细胞癌血管内皮生长因子:肾细胞癌血管内皮生长因子(VEGF),其阳性表,其阳性表述由低到高共述由低到高共3个等级个等级 x3:肾细胞癌
21、组织内微血管数:肾细胞癌组织内微血管数(MVC) x4:肾癌细胞核组织学分级,由低到高共:肾癌细胞核组织学分级,由低到高共4级级 x5:肾细胞癌分期,由低到高共:肾细胞癌分期,由低到高共4期期 y: 肾细胞癌转移情况肾细胞癌转移情况(有转移有转移y=1; 无转移无转移y=0)。 ix1x2x3x4x5y159243.4210236157.211036121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.643113521561101431147.821
22、01536331.63111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431在菜单上选择Analyze=Regression=Binary Logistic.,系统弹出Logistic回归对话框如下: Select钮:用于限定一个筛选条件,只有满足该条件的记录才会被纳入分析,单击它后对话框会展开让你填入相应的条件。不过我觉得该功能纯属多余,和专门的Select对话框的功能重复了。
23、 Categorical钮:如果你的自变量是多分类的(如血型等),你必须要将它用哑变量的方式来分析,那么就要用该按钮将该变量指定为分类变量,如果有必要,可用里面的选择按钮进行详细的定义,如以哪个取值作为基础水平,各水平间比较的方法是什么等。当然,如果你弄不明白,不改也可以,默认的是以最大取值为基础水平,用Deviance做比较。 Save钮:将中间结果存储起来供以后分析,共有预测值、影响强度因子和残差三大类。 Options钮:这一部分非常重要,但又常常被忽视,在这里我们可以对模型作精确定义,还可以选择模型预测情况的描述方式,如Statistics and Plots中的Classificat
24、ion plots就是非常重要的模型预测工具,Correlations of estimates则是重要的模型诊断工具,Iteration history可以看到迭代的具体情况,从而得知你的模型是否在迭代时存在病态,下方则可以确定进入和排除的概率标准,这在逐步回归中是非常有用的。 记录处理情况汇总 Case Processing SummaryCase Processing Summary26100.00.026100.00.026100.0Unweighted CasesaIncluded in AnalysisMissing CasesTotalSelected CasesUnselect
25、ed CasesTotalNPercentIf weight is in effect, see classification table for the totalnumber of cases.a. 应变量分类情况列表 Dependent Variable EncodingDependent Variable Encoding01Original Value01Internal ValueClassification TableClassification Tablea,ba,b170100.090.065.4Observed01yOverall PercentageStep 001yPe
26、rcentageCorrectPredictedConstant is included in the model.a. The cut value is .500b. Block 0拟合的是只有常数的无效模型,上表为分类预测表,可见在17例观察值为0的记录中,共有17例被预测为0,9例1也都被预测为0,总预测准确率为65.4%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。 Variables in the EquationVariables in the Equation-.636.4122.3801.123.529ConstantStep 0BS.E.WalddfSig.Exp(
27、B)Block 0时的变量系数,可见常数的系数值为-0.636。 上表为在Block 0处尚未纳入分析方程的侯选变量,所作的检验表示如果分别将他们纳入方程,则方程的改变是否会有显著意义(根据所用统计量的不同,可能是拟合优度,Deviance值等)。可见如果将X2系列的哑变量纳入方程,则方程的改变是有显著意义的,X4和X5也是如此,由于Stepwise方法是一个一个的进入变量,下一步将会先纳入P值最小的变量X2,然后再重新计算该表,再做选择。 Variables not in the EquationVariables not in the Equation.2601.61013.1731.00
28、0.2331.62912.0921.0018.1641.00417.7405.003x1x2x3x4x5VariablesOverall StatisticsStep0ScoredfSig.此处开始了Block 1的拟合,根据我们的设定,采用的方法为Forward(我们只设定了一个Block,所以后面不会再有Block 2了)。上表为全局检验,对每一步都作了Step、Block和Model的检验,可见6个检验都是有意义的 Omnibus Tests of Model CoefficientsOmnibus Tests of Model Coefficients15.5381.00015.538
29、1.00015.5381.0006.1781.01321.7162.00021.7162.000StepBlockModelStepBlockModelStep 1Step 2Chi-squaredfSig.此处为模型概况汇总,可见从STEP1到STEP2,DEVINCE从18降到11,两种决定系数也都有上升。 Model SummaryModel Summary18.004a.450.62111.826b.566.781Step12-2 LoglikelihoodCox & SnellR SquareNagelkerkeR SquareEstimation terminated at ite
30、ration number 6 becauseparameter estimates changed by less than .001.a. Estimation terminated at iteration number 7 becauseparameter estimates changed by less than .001.b. 此处为每一步的预测情况汇总,可见准确率由Block 0的65%上升到了84%,最后达到96%,效果不错,最终只出现了一例错判。 C Cl la as ss si if fi ic ca at ti io on n T Ta ab bl le ea a152
31、88.22777.884.616194.109100.096.2Observed01yOverall Percentage01yOverall PercentageStep 1Step 201yPercentageCorrectPredictedThe cut value is .500a. 上表为方程中变量检验情况列表,分别给出了Step 1和Step 2的拟合情况。注意X4的P值略大于0.05,但仍然是可以接受的,因为这里用到的是排除标准(默认为0.1),该变量可以留在方程中。以Step 2中的X2为例,可见其系数为2.413,OR值为11。 V Va ar ri ia ab bl le
32、es s i in n t th he e E Eq qu ua at ti io on n2.563.9167.8291.00512.978-6.2562.2897.4681.006.0022.4131.1964.0721.04411.1722.0961.0883.7131.0548.136-12.3285.4315.1541.023.000 x2ConstantStep1ax2x4ConstantStep2bBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: x2.a. Variable(s) entered on step 2: x4.
33、b. 上表为假设将这些变量单独移出方程,则方程的改变有无统计学意义,可见都是有统计学意义的,因此他们应当保留在方程中。 M Mo od de el l i if f T Te er rm m R Re em mo ov ve ed da a-17.73917.4751.000-10.8029.7781.002-10.2138.6011.003Variablex2Step 1x2x4Step 2Model LogLikelihoodChange in-2 LogLikelihooddfSig. of theChangeBased on conditional parameter estimate
34、sa. 最后这个表格说明的是在每一步中,尚未进入方程的变量如果再进入现有方程,则方程的改变有无统计学意义。可见在Step 1时,X4还应该引入,而在Step 2时,其它变量是否引入都无关了。 Variables not in the EquationVariables not in the Equation.8061.369.1881.6646.1991.0133.6891.0558.8764.0641.3981.237.7261.3941.6621.1975.0973.165x1x3x4x5VariablesOverall StatisticsStep1x1x3x5VariablesOver
35、all StatisticsStep2ScoredfSig. 第八章 第二节第二节机动 目录 上页 下页 返回 结束 条件logistic回归 一、原理一、原理 配对资料。最常用的是每组中有一个病例和若干个对照,即1: M配对研究(一般)表表 1: M 条件条件logistic回归数据的格式回归数据的格式 * t = 0 为病例,其他为对照 条件条件 logistic 模型模型0112211 exp (.)iimmPXXX 1,2, inPi表示第i层在一组危险因素作用下发病的概率, 表示各层的效应, 为待估计的参数。 i0m,21i0与非条件logistic 回归模型不同之处在常数项上,不同匹配组的 可以各不相同,但内在假定了每个危险因素的致病能力在不同匹配组中相同。 二、应用实二、应用实例例)15. 0,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二级建造师选择题1
- 高速公路培训管理制度
- 食品委托加工管理制度
- “团队之星”策划书正文
- 企业停送电管理制度
- 食品甲醛检测管理制度
- 配送业务规范管理制度
- 连锁药店培训管理制度
- 车间夜班值班管理制度
- 贸易公司要账管理制度
- 食品原料学学习通超星期末考试答案章节答案2024年
- 中国皮肤结核临床诊疗专家共识(2024版)
- 国开2024年秋《机电控制工程基础》形考任务1-4
- 合理用药管理制度
- 红十字会突发事件应急预案
- 守望(2022年湖北十堰中考语文试卷记叙文阅读题及答案)
- GB 30254-2024高压三相笼型异步电动机能效限定值及能效等级
- 2024至2030年中国紫外光吸收剂行业市场发展现状及潜力分析研究报告
- 重大事故隐患判定标准与相关事故案例培训课件
- 健身房财务管理概述
- GA 2108-2023警鞋礼服男皮鞋
评论
0/150
提交评论