如何通过建模控制混杂因素_第1页
如何通过建模控制混杂因素_第2页
如何通过建模控制混杂因素_第3页
如何通过建模控制混杂因素_第4页
如何通过建模控制混杂因素_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

如何通过建模控制混杂因素

原来前述论文发表后,受到美国癌肿协会和英国统计协会得怀疑,她们派人对该批数据重新做统计分析,其结论就是:“饮水氟化没有发现有致癌作用,相反,却略有保护作用。两个结论差别如此之大,根源在于第一分析法未控制混杂,采用单因素分析法,而后一个结论则把两个城市中得种族、生活环境上得混杂因素进行控制(多元统计分析),再去比较两组城市得癌症患病率。

案例:携带火柴和发生肺癌间有关系?某研究者进行问卷调查,结果发现:就是否携带火柴和肺癌患病率有关,携带火柴得人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌?!

客观事实:携带火柴不可能引起肺癌!混杂因素得影响

携带火柴?肺癌

吸烟

这中间存在混杂因素---吸烟5一、混杂因素混杂(confounding):指在流行病学研究中,由于一个或多个潜在得混杂因素得影响,掩盖或夸大了研究因素与疾病(或事件)之间得联系,从而使两者之间得真正联系被错误地估计,造成混杂。1、概念混杂因素(confoundingfactor):指与研究因素和研究疾病均有关,若在比较得人群中分布不均,可以歪曲研究因素与疾病之间真正联系得因素。62、混杂因素得基本特点:(1)必须与所研究疾病有关(2)必须与所研究因素有关(3)一定不就是研究因素与研究疾病因果链上得中间变量

具备基本条件,如果在比较得人群中分布不均,即可导致偏倚。策略

设计阶段限制进入随机化分组匹配7

分析阶段分层分析标准化多因素分析如何控制混杂因素?二、如何通过建模控制混杂因素

表1数据形式(P≥2)

观察对象X1X2…Xp

Y1a11

a12…a1py12a21a22…a2py2

…nan1an2…anpyn分因变量具体情况:

y就是计量资料,多元线性回归分析

y就是定性资料,尤其就是二值资料,采用

Logistic回归分析

y=t就是生存时间,后面有就是否为完全数据标志,采用

COX回归分析

设在实际研究问题中,含有p个自变量x1,x2,…,xp;1个因变量,n个观察对象。在医学实践中,常会遇到一个应变量与多个自变量数量关系得问题。如医院住院人数不仅与门诊人数有关,而且可能与病床周转次数,床位数等有关;儿童得身高不仅与遗传有关还与生活质量,性别,地区,国别等有关;人得体表面积与体重、身高等有关。11大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流多元线性回归模型

通过实验测得含有p个自变量x1,x2,x3,…,xp及一个因变量y得n个观察对象值,利用最小二乘法原理,建立多元线性回归模型:

其中b0为截距,b1,b2…bp称为偏回归系数、bi表示当将其她p-1个变量得作用加以固定后,Xi改变1个单位时Y将改变bi个单位、

例:27名糖尿病人得性别、年龄、血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖得测量值列于表3中,试建立血糖与其她几项指标关系得多元线性回归方程。多元线性回归分析13表327名糖尿病人得血糖及有关变量得测量结果

1415资料得研究目得就是建立血糖与其她因素得线性回归方程性别和年龄与应变量(血糖)含量有关,也可能与自变量(血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白)有关,因此,怀疑性别、年龄为混杂因素将混杂因素(性别和年龄)放到多元线性回归模型中进行控制,从而更加准确地考察其她自变量与血糖得关系SPSS分析结果结果为扣除性别和年龄两个混杂因素得影响后,各指标与血糖得关系16在医学上,人们更关心疾病就是否发生或发展得影响因素,既因变量就是二值得。

令:y=1发病(阳性、死亡、治愈等)y=0未发病(阴性、生存、未治愈等)Logistic回归模型就是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生得变量取值必须就是二分得或多项分类。可用影响结果变量发生得因素为自变量与因变量,建立回归方程。Logistic回归--Logistic回归种类成组资料的非条件Logistic回归配对资料的条件Logistic回归两分类反应变量的Logistic回归多分类有序反应变量Logistic回归多分类无序反应变量Logistic回归1:1配对资料的条件Logistic回归1:m配对资料的条件Logistic回归n:m配对资料的条件Logistic回归Logistic回归分析表5肺癌与危险因素得调查分析例号就是否患病性别吸烟年龄地区111030021014613000351………………30000261注:就是否患病中,‘0’代表否,‘1’代表就是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。

由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌得发生有影响。所得得回归方程为:Logit(P)=-9、781+2、520X1+3、999X2+0、189X3-1、3067X4解释

设第i个因素得回归系数为bi,表示当有多个自变量存在时,其她自变量固定不变得情况下,自变量Xi每增加一个单位时,所得到得优势比得自然对数。也就就是其她自变量固定不变得情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生得倍数。当bi>0时,对应得优势比(oddsratio,记为ORi):ORi=exp(bi)>1,说明该因素就是危险因素;当bi<0时,对应得优势比ORi=exp(bi)<1,说明该因素就是保护因素。

弗明汉心血管疾病研究

742名居住在弗明汉年龄为40-49岁得男性,在各自暴露不同水平得影响因素(详见下表中得6种因素),经过12年得追踪观察冠心病(CHD)得发病情况。根据此742名受试者每人暴露各项因素得水平和CHD发病与否得资料,采用多因素Logistic回归模型进行分析。22多因素Logistic回归分析资料得研究目得就是探讨CHD发病与否得危险因素血液中得胆固醇水平、血红蛋白浓度、血压水平、

吸烟量因素可能就是CHD发病得危险因素年龄既与胆固醇水平、血红蛋白水平、血压水平等因素相关,又与CHD就是否发病相关,怀疑年龄就是混杂因素使用多因素Logistic回归分析,将年龄放到模型中进行控制,考察CHD发病得危险因素2324SPSS分析结果变量参数估计值

标准误OROR得95%CILowerUpper截距-13、2573年龄0、12160、04371、13001、03661、2303胆固醇(mg/dl)0、00700、00251、01001、00211、0120BP(mmHg)0、00680、00601、01000、99511、0187血红蛋白(g%)-0、00100、00980、99900、98001、0184吸烟(0,1,2,3)0、42230、10311、53001、24641、8671ECG(0,1)0、72060、40092、06000、93694、5103影响生存时间得长短不仅与治疗措施有关,还可能与病人得体质,年龄,病情得轻重等多种因素有关。如何找出她们之间得关系呢?对生存资料不能用多元线性回归分析。1972年英国统计学家CoxDR、提出了一种能处理多因素生存分析数据得比例危险模型(Cox'sproportionalharzardmodel)。COX回归模型分析2024/9/626生存时间(survivaltime):疾病治疗得预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历得时间长短。所经历得时间称为生存时间。完全与不完全数据:一部分研究对象可观察到死亡,从而得到准确得生存时间,所提供得信息就是完全得,称为完全数据;另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因,无法知道确切得生存时间,她提供了不完全得信息,称为不完全数据(截尾数据、删失数据:censordata)。27例:某医师对1988年收治得16例鼻腔淋巴瘤患者随访了13年,信息包括:年龄(X1)、性别(X2)、疾病分期(X3)、鼻血(X4)、放疗(X5)、化疗(X6),数据见表2,试作COX回归分析鼻腔淋巴瘤得危险因素。28

表2鼻腔淋巴瘤患者随访资料编项目登记观察记录整理号性别年龄分期鼻血放疗化疗开始日终止日结局生存天数

1145220188-1-1789-8-171578

2036220188-1-2192-4-1711549

3045201088-2-290-12-3104717……………051221088-12-195-5-2212363

注:性别‘1’为男性;

放疗‘1’表示采用,‘0’表示未采用;

结局‘1’表示死亡。该生存资料得研究目得就是考察鼻腔淋巴瘤得生存时间得危险因素疾病分期(X3)、鼻血(X4)、放疗(X5)、化疗(X6),可能就是鼻腔淋巴瘤患者生存时间得危险因素或者保护因素性别和年龄可能就是鼻腔淋巴瘤患者生存时间得混杂因素因此使用COX回归分析控制混杂因素,探讨鼻腔淋巴瘤患者生存时间得危险因素。2930SPSS分析结果第i个因素得回归系数为bi,对应得风险比(riskratio,记为RRi):RRi=exp(bi),表示在控制其她因素(包括混杂因素)得情况下,该因素每增加一个单位时,风险度改变多少。VariablesintheEquationBSEWalddfSig、RRRR得95%CILowerUpperStep1X41、0840、4216、63010、0102、9571、2956、747Step2X41、3810、5306、79910、0093、9781、40811、244X5-1、5890、6955、22110、0220、2040、0520、79731在本例中放疗X5,取值0和1,b=-1、589,

RR=0、204,表示控制年龄、性别两个混杂因素,以及疾病分期、就是否化疗等因素前提下,化疗(水平1)与不化疗(水平0)比较,样本资料前者得风险度就是后者

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论