Logistic回归(1)_第1页
Logistic回归(1)_第2页
Logistic回归(1)_第3页
Logistic回归(1)_第4页
Logistic回归(1)_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021/3/111 Logistic回归分析 Logistic regression 2021/3/112 讲述内容讲述内容: : 第一节第一节 logisticlogistic回归回归 第二节第二节 条件条件logisticlogistic回归回归 第三节第三节 logisticlogistic回归的应用回归的应用 及其注意事项及其注意事项 2021/3/113 目的:目的:作出以多个自变量(危险因素)估计作出以多个自变量(危险因素)估计 应变量(应变量(结果因素)结果因素)的的logistic回归方程。回归方程。 属于概率型非线性回归。属于概率型非线性回归。 资料:资料:1. 应变量为反

2、映某现象发生与不发生的应变量为反映某现象发生与不发生的 二值变量;二值变量;2. 自变量宜全部或大部分为分类自变量宜全部或大部分为分类 变量,可有少数数值变量。分类变量要数量变量,可有少数数值变量。分类变量要数量 化。化。 2021/3/114 用途:用途:研究某种疾病或现象发生和多个危研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系。险因素(或保护因子)的数量关系。 用用 检验(或检验(或u检验)的检验)的局限性局限性: 1.只能研究只能研究1个危险因素;个危险因素; 2.只能得出定性结论。只能得出定性结论。 2 2021/3/115 种类种类: 1. 成组(非条件)成组(非条

3、件)logistic回归方程。回归方程。 2. 配对(条件)配对(条件)logistic回归方程。回归方程。 2021/3/116 第一节第一节 logistic回归回归 (非条件(非条件logistic回归回归 ) 2021/3/117 (一)基本概念和原理(一)基本概念和原理 1.1.应用背景应用背景 LogisticLogistic回归模型是一种概 率模型,适合于病例对照研究、 随访研究和横断面研究,且结果发 生的变量取值必须是二分的或多项 分类。可用影响结果变量发生的因 素为自变量与因变量,建立回归方 程。 2021/3/118 设资料中有一个因变量y、p 个自变量x1, x2,xp,

4、对每个实 验对象共有n次观测结果,可将原 始资料列成表2形式。 2、LogisticLogistic回归模型的数据结构 2021/3/119 表2 LogisticLogistic回归模型的数据结构 实验对象 y X1 X2 X3 . XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 其中:y取值是二值或多项分类 表3 肺癌与危险因素的调查分析 例号 是否患病 性别 吸烟 年龄 地区 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0

5、0 0 26 1 注:是否患病中,0代表否,1代表是。 性别中1代表男,0代表女,吸烟中1 代表吸烟,0代表不吸烟。地区中,1代 表农村,0代表城市。 2021/3/1111 LogisticLogistic回归回归 - Logistic- Logistic回归与回归与多重多重线性回归联系与区别线性回归联系与区别 联系联系: : 用于分析多个自变量与一个因变量的关用于分析多个自变量与一个因变量的关 系,目的是矫正混杂因素、筛选自变量和更系,目的是矫正混杂因素、筛选自变量和更 精确地对因变量作预测等。精确地对因变量作预测等。 区别区别: : 线性模型中因变量为连续性随机变量,线性模型中因变量为连

6、续性随机变量, 且要求呈正态分布且要求呈正态分布. Logistic. Logistic回归因变量的回归因变量的 取值仅有两个,不满足正态分布。取值仅有两个,不满足正态分布。 2021/3/1112 3 3、 Logistic回归模型 l 令令: y=1 发病(阳性、死亡、治愈等)发病(阳性、死亡、治愈等) l y=0 未发病(阴性、生存、未治愈等)未发病(阴性、生存、未治愈等) l 将发病的概率记为将发病的概率记为P,它与自变量,它与自变量x x1 1, , x x2 2, ,x,xp p之间的之间的Logistic回归模型为:回归模型为: l可知,不发病的概率为:可知,不发病的概率为: l

7、 )exp(1 )exp( 110 110 pp pp XX XX p )exp(1 1 1 110pp XX p 经数学变换得: 定义: 为Logistic变换,即: pp XXpp 110 )1/(ln )1/(ln)(logpppit pp XXpLogit 110 )( 2021/3/1114 4、回归系数i的意义 流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露 人群发病优势与非暴露人群发病优势 之比。 即Xi的优势比为: )1/( )1/( 00 11 PP PP OR iii PitPitORLn )0() 1( )0(log)1 (log)( 00

8、 故对于样本资料OR=exp( ) 95%置信区间为: 可见 是影响因素Xi增加一个单位所引起的对数 优势的增量,反映了其对Y作用大小。 如果要比较不同因素对Y作用大小,需要消 除变量量纲的影响,为此计算标准化回归系数 i b i 的标准差。为 的标准差,为其中 yS XSSSbb y iiyiii ,/* 影响越大。其因素对的估计值,此值越大,为Yb ii )(96. 1exp( ii bSEb 二 、Logistic回归的参数估计及意义 Logistic回归的参数估计及意义 P表示某个体发生某病的概率,自变量表示 m个危险因素,式中的常数项表示在无各危险因 素时的发病概率对不发病概率之比的

9、自然对数, 而logistic回归系数表示当危险因素每变化1个单 位时(其它危险因素取值的变化量。 通常用最大似然估计法求解模型中参数的估计 值 似然函数 n i Y i Y i ii PPL 1 1 )1( 2021/3/1117 5.假设检验 (1)回归方程的假设检验 H0:所有 H1: 某个 计算统计量为:G=-2lnL,服从自由度等于n-p 的 分布 (2)回归系数的假设检验 H0: H1: pi i , 2 , 1 , 0, 0 0 i 2 0 i 0 i 计算统计量为:Wald 2 ,自由度等于1。 2021/3/1118 具体方法是: 先拟合不包含待检验因素的logistic模型

10、,求对 数似然函数值; 再拟合包含待检验因素的logistic模型,求另一 个对数似然函数值; 比较两个对数似然函数值差别的大小 2 d 2ln d GDD 不包含此变量的模型 包含此变量的模型 不含此变量的似然函数 含此变量的似然函数 2021/3/1119 2021/3/1120 2 , 1 jj jj bb bb u SS 2 或 2 值均大于 3.84,说明食道癌与吸烟、饮酒有关系,结论同前。 2. 2021/3/1121 3 score 检验检验 以未包含某个或几个变量的模型计算以未包含某个或几个变量的模型计算 保留模型中参数的估计值,并假设新增保留模型中参数的估计值,并假设新增 参

11、数为零,计算似然函数的一价偏导数参数为零,计算似然函数的一价偏导数 及信息距阵,两者相乘便得比分检验的及信息距阵,两者相乘便得比分检验的 统计量统计量S S 。n n 较大时,较大时, S S近似服从自由近似服从自由 度为待检因素个数的度为待检因素个数的 分布。 分布。 2021/3/1122 以上三种方法中,在多数情况下,似然 比检验是最有效的检验,score检验一般 与它相一致。但两者计算量均较大; Wald检验主要用于对单个回归系数的检 验,但是Wald检验未考虑各因素间的综 合作用,比较保守,在因素间有共线性 存在时,结果不像其它两者可靠。 、似然比检验检验统计量为 )ln(ln2 0

12、1 LLG G服从2分布, 自由度为增加变量的个数。 、Wald检验 检验统计量为 22 ) ) ( ( SE 2021/3/1124 Logistic回归分析一般过程 变量的选择 建立logistic回归模型时,要求进入模型的自 变量应对反应变量有解释能力。通常研究者 根据专业知识和研究的问题,首先确定要研 究的反应变量和自变量 单因素分析(变量的粗略选择) 用单因素分析对自变量进行筛选:卡方检验、 t检验或单因素的logistic回归 2021/3/1125 变量筛选变量筛选 2021/3/1126 解 释 设第i个因素的回归系数为bi,表示当有多 个自变量存在时,其它自变量固定不变的情况

13、 下,自变量Xi每增加一个单位时,所得到的优 势比的自然对数。也就是其它自变量固定不变 的情况下,自变量Xi每增加一个单位时,影响 因变量Y=0发生的倍数。 当bi0时,对应的优势比(odds ratio, 记为ORi):ORi=exp(bi)1,说明该因素是危险 因素;当bi0时,对应的优势比ORi=exp(bi)1, 说明该因素是保护因素。 2021/3/1127 二分类二分类LogisticLogistic回归回归 method method中文名称中文名称剔除依据剔除依据 EnterEnter全部进入全部进入 Forward:condiForward:condi tionaltiona

14、l 向前逐步向前逐步条件参数估计似然比条件参数估计似然比 Forward:LRForward:LR向前逐步向前逐步最大偏似然估计似然比最大偏似然估计似然比 Forward:WaldForward:Wald向前逐步向前逐步WaldWald统计量统计量 Backward:condBackward:cond itionalitional 向后逐步向后逐步条件参数估计似然比条件参数估计似然比 Backward:LRBackward:LR向后逐步向后逐步最大偏似然估计似然比最大偏似然估计似然比 Backward:WaldBackward:Wald 向后逐步向后逐步WaldWald统计量统计量 2021/

15、3/1128 二分类二分类LogisticLogistic回归回归多重比较的方法多重比较的方法 Indicator第一类或最后一类为参照类,每一类与第一类或最后一类为参照类,每一类与 参照类比较参照类比较 Simple-除参照类外,每一类与参照类比较除参照类外,每一类与参照类比较 Difference-除第一类外,每一类与其前各类的平均除第一类外,每一类与其前各类的平均 效应比较,有称反效应比较,有称反HelmertHelmert Helmert-除最后一类外,每一类与其后各类的平均除最后一类外,每一类与其后各类的平均 Repeated相邻两类比较,除第一类外,每类与其前一相邻两类比较,除第一

16、类外,每类与其前一 比较比较 Polynominal正交多名义分类比较,该法假设每一分类正交多名义分类比较,该法假设每一分类 都都 有相等的空间,仅适于数值变量有相等的空间,仅适于数值变量 Deviation除参照类外,每一类与总效应比较除参照类外,每一类与总效应比较 2021/3/1129 为了探讨糖尿病与血压、血脂等因素 的关系,某研究者对56例糖尿病病人 和65例对照者进行病例-对照研究,收 集了性别、年龄、学历、体重指数、 家族史、吸烟、血压、总胆固醇、甘 油三酯、高密度脂蛋白、低密度脂蛋 白11个因素的资料。 例 题 2021/3/1130 性别年龄学历体重指数家族史吸烟血压总胆固醇

17、 甘油三 脂 hdlldl 糖尿 病 160221114.301.50 1.2 4 2.300 148321114.601.32 1.1 5 2.300 263211124.601.15 1.1 5 2.300 168322114.151.43 1.0 7 3.210 145212113.421.22.632.300 145332114.16.96.982.650 159211114.321.02 1.0 5 3.490 168331113.801.42 2.8 6 .850 263221113.871.55 2.4 4 .810 2021/3/1131 表2 糖尿病影响因素赋值说明 因素变量

18、名赋值说明 性别X1 男=1,女=2 年龄X2 学历X3 小学以下=1,小学=2,初中=3,高 中=4,大专及以上=5 体重指数X4 24=1, 2426=2, 26=3 家族史X5 无=1,有=2 吸烟X6 不吸=1,吸=2 血压X7 正常=1,高=2 总胆固醇X8 甘油三酯X9 高密度脂蛋白X10 低密度脂蛋白X11 糖尿病Y 对照=0,病例=1 2021/3/1132 建立数据库 2021/3/1133 单因素logistic回归(分别对性别、年龄、学历等做回归分析) 2021/3/1134 V Va ar ri ia ab bl le es s i in n t th he e E E

19、q qu ua at ti io on n .263.636.1711.6791.301.3744.527 .085.0365.5211.0191.0891.0141.168 -.699.2985.5131.019.497.277.891 1.621.5528.6211.0035.0561.71414.915 1.634.6825.7441.0175.1241.34719.497 3.126.71419.1741.00022.7875.62392.341 1.647.6706.0401.0145.1901.39619.298 .606.4721.6471.1991.832.7274.621 2

20、.3121.0424.9291.02610.0981.31177.767 -.914.4324.4841.034.401.172.934 .017.416.0021.9671.017.4502.300 -20.2074.65218.8661.000.000 性别 年龄 学历 体重指数 家族史 吸烟 血压 总胆固醇 甘油三脂 hdl ldl Constant Step 1 a BS.E.WalddfSig.Exp(B)LowerUpper 95.0% C.I.for EXP(B) Variable(s) entered on step 1: 性别, 年龄, 学历, 体重指数, 家族史, 吸烟, 血压, 总胆固醇, 甘油三脂, hdl, ldl. a. 2021/3/1135 例例2 为了不手术而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论