




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.1多元Logistics回归分析.2内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用.3内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用.4 从数学角度看,logistic回归模型非常巧妙地避开了分类型变量的分布问题,补充完善了线性回归模型和广义线性回归分析的缺陷。 因变量y 是分类型变量,自变量x是与之有关的一些因素。但是,这样的问题却不能直接用线性回归分析方法来解决,其根本原因就在于因变量是分类型变量,严重违背了线性回归分析对数据的假设条件。 从数学角度看,很难找到一个函数y=f (x),当x变化时,它对应的函数值y仅取
2、两个或几个有限值。 研究者将所要研究的问题转换了一个角度,不是直接分析y与x的关系,而是分析y取某个值的概率p与x的关系。 分析因变量y取某个值的概率p与自变量x的关系,等价于寻找一个连续函数p=p(x),使得当x变化时,它对应的函数值p不超出0,1范围。数学上这样的函数是存在且不唯一的,logistic回归模型就是满足这种要求的函数之一。 .5根据数据的类型,logistic回归分析分为两种: 一种是条件logistic回归(conditional logistic regression),用于分析配对病例对照研究数据。 另一种是非条件logistic回归(unconditional log
3、istic regression),用于分析成组数据或非配对的病例对照研究。非条件logistic回归分析也简称为logistic回归分析。 .6内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用.7logistic回归模型对变量的要求回归模型对变量的要求 Logistic回归分析要求因变量是分类变量,包括顺序变量和名义变量。不论是哪种变量都要用数字来表示它的取值。自变量可以是数值型连续变量,也可以是顺序型分类变量,如果是名义变量,则需要转换成哑变量来处理。 logistic回归模型的个数回归模型的个数 取决于因变量的取值个数。因为 logistic回归模型描述
4、的是因变量取每个值的概率与自变量的关系,因此因变量的每一个值都对应一个模型。但是由于概率之和为1,所以当因变量是g值变量时,只需要估计g-1个模型 .8二值因变量的二值因变量的 logistic回归模型回归模型 假设因变量 y是一个取值为1和0的二值变量(binary variable),x 是一个影响y 的危险因子(risk factor)。令在x 条件下y=1的概率是 p=p(y=1| x),那么,表达式 :)exp(1exp1)1(xxeexyppxx10 xp0.5-/p=p(x)图7-1 变量 p 与 x 的关系.9多元多元 logistic回归模型回归模型 )exp(1exp)1(
5、22112211kkxkxxxxxxxypp如果对模型的概率 p 进行logit 变换 pppit1ln)(loglogistic回归模型的另一种形式,它给出的是变量z=logit(p)关于x 的线性函数 kkxxxpppit22111ln)(log.10多值变量的多值变量的 logistic回归模型回归模型 kkjjjjxxxpppit22111ln)(logp j = p( y j | x ),它表示了 y 取前 j 个值的累积概率(cumulative probability)。 累积概率函数累积概率函数 gjgjxxxjyppjjj当当, 111,)exp(1)exp()(第一个模型表
6、示了y 取第一个值的概率p1与x的关系;第二个模型表示了y 取前两个值的累积概率p2与x的关系。这两个模型的常数项不同,回归系数完全相同的。 y 取第一个值的概率p(1)=p1 ,y 取第二个值的概率p(2)=p2 -p1,y 取第三个值的概率p(3)=1- p2 。它们的截距不同,斜率相同,所以是g-1条平行直线族。多值因变量logistic回归模型要求进行数据的平行性检验。 .11内容内容 基本原理 数学模型 方法步骤方法步骤 - 参数估计参数估计 - 检验参数检验参数 - 模型检验模型检验 - 平行性检验平行性检验 系数解释 条件Logistics分析 应用.12参数估计参数估计在log
7、istic回归分析模型中,回归系数的估计方法通常是最大似然法(Maximum Likelihood method)。最大似然法就是选取使得总体真参数落在样本观察值领域里的概率达到最大的参数值作为真参数的估计值。 为了得到一个非偏估计(non-biased estimate),需采用重复递推的方法,将最大似然估计值不断修正。软件系统使用的是重复加权最小二乘递推法(iteratively reweighted least squares algorithm)来估计回归系数。 和线性回归分析一样,logistic回归模型的回归系数是自变量对应变量作用大小的一种度量。因为自变量的单位不同,不能用回归系
8、数的估计值来判断哪一个自变量对因变量的影响作用最大。为了要进行比较,需要计算出标准回归系数。计算原理和线性回归分析一样。在标准回归系数估计值中,绝对值最大的标准回归系数对应的 x 变量对 y 变量的影响最大。 .13检验参数检验参数统计假设常用的方法是Ward卡方检验。当大于样本对应的Ward卡方值的概率小于0.05时,在统计意义上可以拒绝上述零假设。即,可以认为第 j个 x 变量对y=1的概率p有显著性影响,其犯第一类错误的可能性不超过5% 。和线性回归分析一样,当自变量个数较多时,可采用逐步回归分析方法来筛选危险因子。 .14模型检验模型检验logistic回归模型的总体检验常用的方法有:
9、 AIC检验法(Akaike Information Criterion)。用于比较同一数据下的不同模型(含自变量个数不同)。AIC值越小,模型越合适。AIC值的计算公式是: )(2)log(2kgLAICSC检验法(Schwarte Coriterion)。和AIC一样,用于比较同一数据下的不同模型(含自变量个数不同)。SC值越小,模型越合适。SC的计算公式是: )log()()log(2nkgLSC似然比检验法(G= -2log L)。用于检验全部自变量(包括常数项)对因变量的联合作用。它的计算公式是: )log(2LG计分检验法(Score)。用于检验全部自变量(不包括常数项)对因变量的
10、联合作用。 .15平行性检验平行性检验当因变量为多值变量时,模型包含多个回归方程。Logistic回归分析要求这多个回归方程中自变量的系数是相等的。因此对于多值变量的logistic回归模型,要求作平行性检验,也称为比例比数假设检验(test for the proportional odds assumption),使用的方法是计分检验法。 当检验结果p0.05时,没有理由拒绝上述无效假设,这时,多值变量的logistic回归模型有统计意义。否则,应当将因变量的某些值合并,减少因变量的取值个数,使得多值变量logistic回归模型的平行性成立。 .16内容内容 基本原理 数学模型 方法步骤
11、系数解释 条件Logistics分析 应用.17复习相关概念复习相关概念相对危险比数比21ppRR 221111ppppOR相对危险RR表示暴露在危险因子下的发病率与不暴露在危险因子下的发病率的比。例如,如果RR=2.5,那么,暴露下的发病率是非暴露下的发病率的2.5倍。比数比OR表示暴露在危险因子下的发病率与不发病率之比与非暴露在危险因子下的发病率与不发病率之比的比。比较以上公式可以看出,当发病率很低时,ORRR。因此,当发病率很低时,OR=2.5也可以解释为:暴露下的发病率是非暴露下的发病率的2.5倍,或暴露下发病的几率比非暴露下发病的几率高150% 。 .18一元一元logistic回归
12、模型系数的解释回归模型系数的解释 当发病率很低时,ORRR,因此这时e RR,也就是说,e 近似地表示了相对危险度,即暴露下的发病率与非暴露下的发病率之比。 有哑变量的有哑变量的logistic回归模型系数的解释回归模型系数的解释 每一个组与对照组的相对危险度的估计值。任意两组间的OR=ei / ej 无交互影响的多元无交互影响的多元Logistic回归模型的系数解释回归模型的系数解释 如果模型中因变量y=1,0分别表示有胃病和无胃病;自变量 x 1 =1,0分别表示吸烟和不吸烟;自变量 x 2 =1,0分别表示饮酒和不饮酒,那么,e1 近似地表示消去了饮酒因素的影响后吸烟者患胃病的几率与不吸
13、烟者患胃病的几率之比。e2 近似地表示消去了吸烟因素的影响后饮酒者患胃病的几率与不饮酒者患胃病的几率之比。 .19设因变量 y 取值1和0,分别表示患病和未患病。设自变量 x 1取值1和0,设自变量 x 2取值1和0。这样 x 1 和 x 2 的交叉水平有四个,它们是(1,1)、(1,0)、(0,1)、(1,1),建立四个哑变量分别代表这四个水平,记为 x11、 x 10、 x 01、 x 00 ,它们表示了四种不同的方式。将前三个哑变量放进模型,则可以得前三种方式相对于最后一种方式患病的相对危险度。 有交互影响的多元有交互影响的多元logistic回归模型的系数解释回归模型的系数解释 多值变
14、量的多值变量的logistic回归模型的系数解释回归模型的系数解释 对于多值因变量模型,平行性假设决定了每个自变量的OR值对于前g-1个模型是相同的。例如,变量x1的OR=5.172,它表示使用第一种的可能性是使用第二种的5.172倍;它也表示使用第一种至少有效的可能性是使用第二种的5.172倍。.20内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用.21共有n个匹配组,1:m配对,p个变量资料的条件似然函数:nimjpiijppiijxxxxL110011111再用最大似然法求解参数估计值,由于匹配关系,在模型中不含常数项。.22数据资料特征数据资料特征.2
15、3内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用.24Logistic回归分析在医学研究中有着相当广泛的应用价值。归纳起来主要的应用有:1)筛选危险因子。它常用在流行病学的病因学研究中。2)校正混杂因子,校正非研究因素对研究因素的混杂作用。如它可以消除性别、年龄、病情等对治疗效果分析的干扰,消除年龄、职业、收入等对生活嗜好与疾病关系分析的干扰等。3)预测疾病或事件发生的概率。非条件logistic回归模型是一个概率模型,它可以用来预测事件发生的概率,如暴露在某些危险因素下得病的概率,这是其它模型不具有特性。4)将样本进行判别分类。它起的作用和判别分析(第十三
16、章,例13-2)一样,但它对数据的分布没有严格要求,在医学研究中使用很方便。5)logistic曲线的拟和。医学中不少指标变量之间的关系呈现如图7-1所示的logistic曲线形状。例如剂量和反应的关系。根据拟和曲线可以作有效剂量估计,剂量反应的趋势分析等。.25内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用应用 - 实例分析实例分析.26某大学医院外科采用两种不同的绷带(bandage-4-layer和convatee)和两种不同的包扎方式(Granuflex和Na)进行腿溃疡的治疗处理。治疗的结果分三种:不愈、有效和痊愈。治疗方式和治疗效果列在表7-6中
17、。试分析治疗方法对治疗效果的影响。设因变量 y 表示治疗效果,0=不愈、1=有效、2=痊愈。设因变量 x 1表示绷带种类,1=bandage-4-layer、2=convatee。自变量 x 2 表示包扎方式,1=Granuflex、2=Na。 治疗效果 (y)绷带 (x1)包扎 (x2)人数 (wt)0001910042002010911082106001211013201201110111102115.27data eg7_6; input y x1 x2 wt ; cards;0 0 0 19 2 1 1 5run;proc logistic descending; model y=x1
18、 x2; weight wt;run; 【SAS程序】程序】.28【SAS输出结果】The LOGISTIC Procedure Response ProfileOrdered Total Value Y Count Weight 1 2 4 15.000000 2 1 4 25.000000 3 0 4 59.000000 Score Test for the Proportional Odds Assumption Chi-Square = 0.7505 with 2 DF (p=0.6871) Model Fitting Information and Testing Global Nu
19、ll Hypothesis BETA=0 Intercept Intercept andCriterion Only Covariates Chi-Square for CovariatesAIC 190.499 178.977 .SC 191.469 180.916 .-2 LOG L 186.499 170.977 15.522 with 2 DF (p=0.0004)Score . . 14.849 with 2 DF (p=0.0006) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standa
20、rdized OddsVariable DF Estimate Error Chi-Square Chi-Square Estimate RatioINTERCP1 1 -2.6680 0.4657 32.8270 0.0001 . .INTERCP2 1 -1.1711 0.3930 8.8820 0.0029 . .X1 1 1.6433 0.4380 14.0736 0.0002 1.358335 5.172X2 1 -0.1903 0.4189 0.2063 0.6496 -0.157280 0.827.29【结果解释】 显示因变量y的排列数序:2,1,0。因此输出的是p(y=2)和p
21、(y=1)的概率模型。 多值logistic回归模型的平行性检验结果:p=0.6871,不能拒绝零假设,即模型的平行性成立。因此下面得到的回归模型具有解释意义。 模型的总体检验结果:p=0.0004,模型具有统计意义。 参数的检验结果:x1 (绷带种类)具有显著性统计意义(p=0.0001),x2 (包扎方式)不具有显著性统计意义(p=0.6496)。.30SPSS -Logistic回归分析.31非条件Logistic回归分析.32.33.34Case Processing SummaryCase Processing Summary121100.00.0121100.00.0121100.
22、0Unweighted CasesaIncluded in AnalysisMissing CasesTotalSelected CasesUnselected CasesTotalNPercentIf weight is in effect, see classification table forthe total number of cases.a. .35Dependent Variable EncodingDependent Variable Encoding01Original Value无有InternalValueC Cl la as ss si if fi ic ca at
23、ti io on n T Ta ab bl le ea a, ,b b650100.0560.053.7Observed无有糖尿病Overall PercentageStep 0无有糖尿病PercentageCorrectPredictedConstant is included in the model.a. The cut value is .500b. .36Omnibus Tests of Model CoefficientsOmnibus Tests of Model Coefficients95.49711.00095.49711.00095.49711.000StepBlockM
24、odelStep 1Chi-squaredfSig.Model SummaryModel Summary71.575a.546.729Step1-2 LoglikelihoodCox & SnellR SquareNagelkerke RSquareEstimation terminated at iteration number7 because parameter estimates changed byless than .001.a. .37C Cl la as ss si if fi ic ca at ti io on n T Ta ab bl le ea a59690.87
25、4987.589.3Observed无有糖尿病Overall PercentageStep 1无有糖尿病PercentageCorrectPredictedThe cut value is .500a. .38Variables in the EquationVariables in the Equation.263.636.1711.6791.301.3744.527.085.0365.5211.0191.0891.0141.168-.699.2985.5131.019.497.277.8911.621.5528.6211.0035.0561.71414.9151.634.6825.7441
26、.0175.1241.34719.4973.126.71419.1741.00022.7875.62392.3411.647.6706.0401.0145.1901.39619.298.606.4721.6471.1991.832.7274.6212.3121.0424.9291.02610.0981.31177.767-.914.4324.4841.034.401.172.934.017.416.0021.9671.017.4502.300-20.2074.65218.8661.000.000性别年龄学历体重指数家族史吸烟血压总胆固醇甘油三脂hdlldlConstantStep1aBS.E.
27、WalddfSig.Exp(B)LowerUpper95.0% C.I.for EXP(B)Variable(s) entered on step 1: 性别, 年龄, 学历, 体重指数, 家族史, 吸烟, 血压, 总胆固醇, 甘油三脂, hdl,ldl.a. .39C Co or rr re el la at ti io on n M Ma at tr ri ix x1.000-.328-.681.006-.556-.379-.518-.443-.284-.304.104-.171-.3281.000.121.042.056.047.195-.027.065-.068.021.002-.68
28、1.1211.000-.004.247.291.032-.164-.014.006.042-.0041.000-.127-.171-.115-.099-.108-.014.122.084-.556.056.247-.1271.000.079.185-.016.093-.379.047.257-.171.0681.000.144.039-.008.252-.314-.054-.518.195.251-.115.246.1441.000.240-.089.320-.181.042-.443-.027.152-.099.208.039.2401.000
29、.156.118-.077-.027-.284.065.091-.108.079-.008-.089.1561.000-.387-.339-.266-.304-.068.032-.020.118-.3871.000-.21-.164.122-.016-.314-.181-.077-.339-.1441.000.511-.171.002-.014.084.093-.054.042-.027-.266.132.5111.000Constant性别年龄学历体重指数家族史吸烟血压总胆固醇甘油三脂hdlldlStep1Constant性别年龄学历体重指数家族史吸烟血压总胆固醇甘油三脂hdlldl.40条件Logistic回归分析.41.42.43Case Processing SummaryCase Proc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国嵌入标志灯数据监测研究报告
- 2025至2030年中国不锈钢立式氧气瓶推车数据监测研究报告
- 河北省衡水市阜城实验中学2024-2025学年高一下学期3月月考物理试题(含答案)
- 2019-2025年军队文职人员招聘之军队文职法学通关题库(附答案)
- 遵守纪律合同范本(2篇)
- 健康产业智能化医疗设备研发方案设计
- 《化学元素周期表制作技巧分享》
- 小学生动物故事集征文
- 设计迭代流程图表
- 基于物联网技术的农产品供应链管理优化方案
- 英语-山东省日照市2022级(2025届)高三校际联合考试(日照一模)试题和答案
- 2024年上半年教师资格证《高中数学》真题及答案
- 电缆敷设施工方案及安全措施范文
- 卡通手绘可爱小兔子PPT模板
- 军事地形学地形图基本知识
- 小儿体格检查(课堂PPT)
- ppt模板:信保专用中国出口信用保险公司课件
- (高清版)建筑塑料复合模板工程技术规程JGJ_T 352-2014
- 人教版八年级数学下册全册教案(完整版)教学设计
- 电机零部件中英文对照表
- GB_T 12736-2021 输送带 机械接头强度的测定 静态试验方法(高清-现行)
评论
0/150
提交评论