流行病学常用多因素回归统计分析_第1页
流行病学常用多因素回归统计分析_第2页
流行病学常用多因素回归统计分析_第3页
流行病学常用多因素回归统计分析_第4页
流行病学常用多因素回归统计分析_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

流行病学资料的多因素回归(huíguī)分析郑卫军流行病学(liúxínɡbìnɡxué)与卫生统计学教研室第一页,共七十八页。整理课件diseasesourcegeneenvironmenthealthhabitSESgenderage???Exampleofcomplexityofmedicalstudy第二页,共七十八页。整理课件Exampleofcomplexityinmedicalstudyphysicalactivityeatingdrinkingsmokingsocialeconomicstatusenduredglucosebloodpressureweightcholesteroldiabetescoronaryheartdiseaseenvironmentlifestyleendogeneousfactorsdiseases第三页,共七十八页。整理课件流行病学多变量分析(fēnxī)工具回归多因素、多元线性回归多因素、多元logistic回归COX比例(bǐlì)风险模型主成分分析因子分析聚类判别分析路径分析结构方程模型第四页,共七十八页。整理课件本章(běnzhānɡ)我们来交流点什么?多因素(yīnsù)线性回归多因素logistic回归多因素COX回归第五页,共七十八页。整理课件本讲学习(xuéxí)目标掌握(zhǎngwò)多因素回归的技巧及注意点第六页,共七十八页。整理课件一、多因一果的回归(huíguī)分析方法比较研究实验因素(yīnsù)与疗效实验组VS对照组:t检验、卡方、秩和、方差分析相关性研究相关分析回归分析第七页,共七十八页。整理课件多因素问题常见(chánɡjiàn)情况常见于观察性研究探讨多个因素作用模式(móshì)分析由于分组不均衡造成存在着混杂因素实验性研究也可以遇到。基本的处理方法:多因素回归第八页,共七十八页。举例(jǔlì)

关于胰脏癌病人生存时间的研究。该研究的终点为死亡,包括很多可能影响生存的因素第九页,共七十八页。本例目标分析影响生存的多个因素,因素间地位(dìwèi)平等第十页,共七十八页。举例关于(guānyú)胰脏癌病人生存时间的研究。该研究的终点为死亡,探讨术中放疗对生存的影响第十一页,共七十八页。本例目标探讨术中放疗(fànɡliáo)较未放疗(fànɡliáo)是否影响生存,其它为混杂因素,需要排除混杂干扰第十二页,共七十八页。COX回归分析(fēnxī)结果第十三页,共七十八页。多因素(yīnsù)回归多因素线性回归:因变量定量资料多因素logistic回归:因变量是分类资料(常见二分类)多因素Poisson回归:因变量是泊松分布资料多因素COX比例风险模型:因变量是时间生存(shēngcún)资料多因素回归的自变量:可以是定量,也可以是分类资料第十四页,共七十八页。不同方法的应用(yìngyòng)场合病例对照研究(yánjiū)?队列研究?实验性研究?第十五页,共七十八页。整理课件不同方法的应用(yìngyòng)场合线性回归队列/实验性研究(yánjiū)Logistic回归病例对照/队列/实验性研究Poisson回归

队列COX模型队列/实验性研究第十六页,共七十八页。整理课件思考(sīkǎo):什么样的设计?采用什么样的方法?例1某研究者跟踪随访已发病冠心病病人,研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验(jiǎnyàn)是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异常)与冠心病ca复发是否有关。例1某研究者希望研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否(shìfǒu)异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异常)与冠心病ca发病是否有关。第十七页,共七十八页。整理课件横截面研究可以(kěyǐ)做多因素回归吗?横截面调查的数据疾病:心血管病、高血压相关因素:性别、年龄、红肉日均摄入量、吸烟、饮酒(yǐnjiǔ)、高血糖、血管弹性指数第十八页,共七十八页。整理课件横截面研究可以(kěyǐ)做多因素回归吗?横截面调查的数据疾病:心血管病、高血压相关因素:性别(xìngbié)、年龄、红肉日均摄入量、吸烟、饮酒、高血糖、血管弹性指数哪些因素可以做呢?第十九页,共七十八页。整理课件横截面研究可以做多因素(yīnsù)回归吗?横截面调查的数据疾病:心血管病、高血压相关因素(yīnsù):性别、年龄、红肉日均摄入量、吸烟、饮酒、高血糖、血管弹性指数固有的因素,理论上和结局时间逻辑明确的因素可以开展多因素回归分析第二十页,共七十八页。整理课件多因素回归(huíguī)的注意点样本量回归方程中,因素的筛选(shāixuǎn)多重共线性问题第二十一页,共七十八页。整理课件样本量线性回归:纳入回归模型(móxíng)变量数的5-10倍Logistic回归:阳性数纳入模型变量数的5-10倍,总样本量至少乘以2样本量过少,则导致抽样误差增加,回归模型拟合效果变差第二十二页,共七十八页。整理课件因素(yīnsù)筛选1.常见方法单因素加多因素方法

即单因素回归P值<0.05,<0.1,<0.2的纳入(nàrù)模型分析。

此举是为了减少变量个数,提高拟合效果最优子集方程法(逐步回归法)向前法向后法逐步法单因素加多因素逐步回归法第二十三页,共七十八页。整理课件24(1)前进(qiánjìn)法

(2)后退法

(3)逐步法自变量从无到有、从少到多

先将全部自变量放入方程(fāngchéng),然后逐步剔除

双向筛选:引入有意义的变量(biànliàng)(前进法),剔除无意义变量(biànliàng)(后退法)最优方程筛选第二十四页,共七十八页。整理课件25逐步回归分析的基本思想-拟合(nǐhé)效果线性回归保证(bǎozhèng)纳入因素后,模型的R2值最大Logistic等回归方法AIC值、SC值或-2loglikelihood值越小好第二十五页,共七十八页。整理课件26因素(yīnsù)筛选注意事项如果(rúguǒ)有变量的引入导致具有关键作用的因子其统计学意义发生改变(从无到有,或从有到无),必须发现原因!是否由于样本量过少,变量过多导致是否存在多重共线性是否属于混杂因素是否属于中间变量:回归模型不能同时纳入影响因素及其中间变量第二十六页,共七十八页。整理课件27多重共线性是指在进行多因素回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分(chéngfèn)回归等回归分析方法以避免共线性指标对结果的影响。多重共线性问题(wèntí)第二十七页,共七十八页。整理课件28多重共线性的表现(biǎoxiàn)在实际应用中主要表现为:(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;(2)偏回归系数估计值的方差(fānɡchà)很大;(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释

出现以上情况,提示存在多重共线性问题,应进行多重共线性诊断。第二十八页,共七十八页。整理课件回归(huíguī)案例分析(logistic)某妇幼保健院采用病例对照研究探索乳腺增生的影响因素。随机抽取某年在本院就诊(jiùzhěn)的200名乳腺增生患者及200名非乳腺增生患者,采用问卷调查法对各种可能的影响因素进行调查,以探索乳腺增生的危险因素。第二十九页,共七十八页。整理课件回归(huíguī)案例分析第三十页,共七十八页。整理课件1:单因素(yīnsù)分析回归(huíguī)案例分析第三十一页,共七十八页。整理课件单因素分析初步结论:由于年龄的影响在单因素分析中无统计学意义,且OR值也较为(jiàowéi)接近1,在多因素分析中不再考虑年龄因素,仅对其它4个因素进行分析。回归案例(ànlì)分析第三十二页,共七十八页。整理课件多因素(yīnsù)分析结果:回归案例(ànlì)分析第三十三页,共七十八页。整理课件多因素分析小结:为什么rs变得无统计学意义了?相关分析结果显示,妊娠(rènshēn)次数与流产次数具有较强的相关性(r=0.55,P<0.001)。回归案例(ànlì)分析第三十四页,共七十八页。整理课件多因素分析小结:可以设想,妊娠次数对乳腺增生可能并无影响(yǐngxiǎng)或影响(yǐngxiǎng)很小,单因素中的影响(yǐngxiǎng)可能主要是通过流产次数这一因素起作用的,当多因素分析中校正了流产次数的影响(yǐngxiǎng)后,妊娠次数的影响(yǐngxiǎng)变得无统计学意义。将妊娠次数这一变量去掉,重新拟合方程。回归(huíguī)案例分析第三十五页,共七十八页。整理课件模型中所有变量均有统计学意义(yìyì)。与含rs变量的模型相比,AIC和SC均降低,似然比差别很小。说明去掉rs后模型更优含rs模型不含rs模型回归案例(ànlì)分析第三十六页,共七十八页。整理课件初产年龄与母乳喂养可能存在一定的交互效应为什么mr和chage变得无统计学意义?(注意:即使有统计学意义,也无法反应真实的情况)一旦模型中加入交互项,变量便不再(bùzài)反映主效应,而是单独效应。此时mr反映的是chage=0时的效应,同样,chage反映的是mr=0时的效应。回归案例(ànlì)分析第三十七页,共七十八页。整理课件交互项的进一步解释:对于母乳喂养的人(mr=0),初产年龄(niánlíng)>=25与初产年龄<25岁的人相比,其效应(参数估计值)为0.2717。对于非母乳喂养的人(mr=1),初产年龄>=25与初产年龄<25岁的人相比,其效应(参数估计值)为0.2717+1.4587=1.7304。回归案例(ànlì)分析第三十八页,共七十八页。整理课件本例结论:流产次数多是乳腺增生的危险因素,初产年龄和是否(shìfǒu)母乳喂养的交互作用对乳腺增生的影响也有统计学意义。初产年龄≥25且非母乳喂养的人,其乳腺增生的危险明显增高。而单纯初产年龄<25的人,或单纯非母乳喂养的人,发生乳腺增生的危险并不高。这提示可针对不同人群开展不同的干预措施。回归案例(ànlì)分析第三十九页,共七十八页。整理课件当混杂混入(hùnrù)流行病学匹配(pǐpèi)分层多因素回归多因素回归+匹配多因素回归+倾向得分多因素回归+倾向得分第四十页,共七十八页。整理课件回归中的混杂(hùnzá)因素混杂因素的识别:(1)该因素对结局有影响,可利用单因素回归或χ2检验来验证。(2)该因素在分析因素中的分布不均衡,可用χ2检验验证一下。(3)从专业角度来判断,即该因素不能是分析因素与结局关系的一个中间环节。也就是说,不能是分析因素引起该因素,通过该因素再引起结局。这一点主要根据(gēnjù)专业知识来确定。如果同时满足这三个条件,基本可以断定是混杂因素。如果有一条不满足,该因素就不是混杂因素。第四十一页,共七十八页。整理课件回归中的混杂(hùnzá)因素例2:分析性别、吸烟对幽门螺杆菌(HP)的影响,判断(pànduàn)吸烟是否是混杂因素性别吸烟状况HP阴性HP阳性男不吸烟146343吸烟64178女不吸烟211吸烟110530第四十二页,共七十八页。整理课件回归(huíguī)中的混杂因素(1)判断吸烟是否对Hp有影响:单因素logistic回归提示:吸烟对Hp的发生(fāshēng)有一定影响,吸烟发生(fāshēng)的危险更高一些第四十三页,共七十八页。整理课件回归中的混杂(hùnzá)因素(2)判断吸烟在不同性别(xìngbié)中分布是否不同:卡方检验提示:吸烟在性别中分布不同,男性中比例更高第四十四页,共七十八页。整理课件回归(huíguī)中的混杂因素未校正吸烟因素(yīnsù),性别分析结果校正吸烟(xīyān)因素后,性别分析结果第四十五页,共七十八页。整理课件回归中的混杂(hùnzá)因素不吸烟的人之中,性别的分析(fēnxī)结果吸烟的人之中,性别的分析(fēnxī)结果第四十六页,共七十八页。整理课件胰岛素治疗的2型糖尿病患者(huànzhě)中胰岛素和胰岛素类似物的剂量与癌症之间的关系

混杂因素分析(fēnxī)案例第四十七页,共七十八页。整理课件研究(yánjiū)方法及设计本研究(yánjiū)克服了以往相关研究(yánjiū)的不足1-4

-巢式病例对照研究

-多因素logistic回归分析

-纳入每种胰岛素平均日用剂量作为变量入选标准

-2型糖尿病;入选前5年未用过胰岛素;无恶性肿瘤史患者平均随访75.9月,在此期间患者暴露于甘精胰岛素、地特胰岛素、赖脯胰岛素、门冬胰岛素、人胰岛素(基础、餐时)第四十八页,共七十八页。整理课件第四十九页,共七十八页。整理课件预先计划的比较(bǐjiào)在肿瘤组和对照组之间比较(bǐjiào)使用各种胰岛素的人数所占比例使用各种胰岛素的平均日剂量(

Meandailydose,MDD)使用各种胰岛素的平均日剂量MDD≥0.3IU/kg的人数所占比例Mannuccietal.DiabetesCare.2010Jun14.[Epubaheadofprint]第五十页,共七十八页。整理课件肿瘤风险(fēngxiǎn)与胰岛素日用剂量的关联性病例组甘精胰岛素平均日用(rìyòng)剂量较对照组高(0.24vs0.16IU/kg/day,p=0.036)人胰岛素与其他胰岛素类似物肿瘤发生与平均日用剂量无关

Mannuccietal.DiabetesCare.2010Jun14.[Epubaheadofprint]第五十一页,共七十八页。整理课件肿瘤风险与胰岛素日用剂量(jìliàng)的关联性每种胰岛素“平均日剂量≥0.3IU/day*kg”:“大剂量”经Chalrson同病指数(zhǐshù)、二甲双胍暴露、总胰岛素平均日剂量校正后纳入所有新发肿瘤病例及对照除外随访中首12月内新发肿瘤病例及其对照

Mannuccietal.DiabetesCare.2010Jun14.[Epubaheadofprint]第五十二页,共七十八页。整理课件结论(jiélùn)使用每种胰岛素的人数比例,肿瘤组和对照组之间差异无统计学意义。校正混杂因素之后,高平均日剂量(≥0.3IU/kg)的甘精胰岛素与肿瘤风险有联系,其它(qítā)胰岛素无此现象。当评价胰岛素及其类似物与肿瘤风险的可能联系时,必须考虑剂量。第五十三页,共七十八页。整理课件多因素(yīnsù)回归+匹配常见logistic回归(huíguī)非条件logistic:非匹配条件logistic回归:匹配第五十四页,共七十八页。整理课件条件(tiáojiàn)logistic回归:1:1匹配,可以通过SPSS软件COX回归模块实施1:n匹配,则无法采用SPSS软件,而要SAS或者(huòzhě)其它软件实施第五十五页,共七十八页。整理课件倾向的分法是Rosenbaum和Rubin(1984)年首次提出的,其主要目的是均衡各对比组间各个特征变量的可比性。倾向得分:是指在一定协变量条件下,一个观察对象可能接受某种处理(或暴露)因素的可能性。倾向的分值相同的两个个体,其协变量的分布也趋于一致,即具有(jùyǒu)相同的接受处理/对照的概率。倾向的分主要用来降低选择偏倚。多因素+倾向(qīngxiàng)得分第五十六页,共七十八页。整理课件倾向(qīngxiàng)得分应用方法倾向得分是协变量的一个综合指标,可以校正已测量的混杂因素(yīnsù)。可以作为协变量进行多调整可以作为匹配的因素开展或不开展多因素调整也可以用于分层。第五十七页,共七十八页。整理课件

不同胰岛素促泌剂与二甲双胍在有或无心肌梗

塞史二型糖尿病患者中死亡率和心血管风险

的比较:丹麦(dānmài)研究多因素+倾向(qīngxiàng)得分第五十八页,共七十八页。整理课件数据来源:丹麦国家注册(zhùcè)登记研究所有丹麦居民各有一个唯一、永久的注册号,与国内各种注册相连接.“丹麦国家处方注册”,记录了1995年来所有的处方.“全国患者注册”,1978年以来,所有的住院患者出院时记录了主要诊断(以及必要时,次要(cìyào)诊断).“全国死因注册”,记录死因信息。第五十九页,共七十八页。整理课件研究(yánjiū)人群丹麦居民年龄大于20岁,在1997年至2006年之间应用胰岛素促泌剂或者二甲双胍单药治疗者总人数为107,806;随访时间:中位数3.3年(最长9年)剔除(tīchú)了接受胰岛素单一治疗的8183例和多个药物联合治疗的3434例。入组人群分为有或无心肌梗死病史研究期间允许更改治疗药物77%的患者在研究期间仅使用了一种药物治疗MI,myocardialinfarction第六十页,共七十八页。整理课件研究(yánjiū)设计研究目的:评估与二甲双胍相比,常用的胰岛素促泌剂(包括瑞格列奈)的死亡率和心血管风险(fēngxiǎn)。大型、回顾性、非随机分组的观察性研究。对居住在丹麦、接受单一口服降糖药治疗的T2DM患者的临床注册资料进行统计分析。SlideNo61Date第六十一页,共七十八页。整理课件无心梗史患者的各组基线(jīxiàn)数据二甲双胍格列美脲格列齐特格列本脲格列吡嗪甲苯磺丁脲瑞格列奈N(%)43,340(54.3)36,313(37.0)5,926(6.0)12,495(12.7)6,965(6.1)5,335(5.4)2,513(2.6)年龄(年)52.5

±14.060.9±13.360.0±13.263.2±13.763.0

±13.564.4

±13.557.9

±12.6男性(%)50.955.356.554.454.153.856.0治疗时间(年)1.76±1.582.11±1.752.10±1.752.35±2.082.35±2.082.36±2.131.97±1.76各组基线(jīxiàn)水平不均衡,不具可比性.第六十二页,共七十八页。整理课件既往心梗史患者的各组基线(jīxiàn)数据二甲双胍格列美脲格列齐特格列本脲格列吡嗪甲苯磺丁脲瑞格列奈N(%)2,906(30.2)3,894(43.3)517

(6.9)1168(12.2)660

(7.3)501

(5.6)186

(2.1)年龄(年)65.8±10.770.9±11.070.5±10.970.9±11.070.5±10.471.2±11.468.2±10.3男性(%)73.170.369.370.069.764.970.4治疗时间(年)1.67±1.481.98±1.601.96±1.782.28±1.962.19±1.902.12±1.982.04±1.76各组基线水平不均衡(jūnhéng),不具可比性.第六十三页,共七十八页。整理课件

统计学方法:倾向(qīngxiàng)匹配第六十四页,共七十八页。整理课件倾向得分(défēn)计算第六十五页,共七十八页。整理课件倾向性匹配(pǐpèi)

(propensity-matching)3.每一个个体都有一个"倾向性得分",与该个体出现在两组之中的概率P和1-P有关。4.根据促泌剂组中某患者"倾向性得分",到服用二甲双胍的人群中找一个“对象”,两者“倾向性得分“最接近,若最接近的候选者很多,可随机抽取(chōuqǔ)一位。5.事先规定得分相差多少算"接近";若二甲双胍的人群中没有得分“接近”的对象,促泌剂组中的该成员就找不到"对象"。第六十六页,共七十八页。整理课件第六十七页,共七十八页。整理课件基线(jīxiàn)水平的均衡性有所改善。倾向性匹配(pǐpèi)后,各组人数第六十八页,共七十八页。整理课件第六十九页,共七十八页。整理课

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论