版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、流行病学研究中的混杂效应控制,1,流行病学研究中的混杂效应控制,北京协和医学院流行病学教研室 廖苏苏,流行病学研究中的混杂效应控制,2,混杂效应控制,1、设计阶段控制混杂的策略 概述:限制、随机分配、匹配 匹配的概念 在队列研究和病例对照研究中使用匹配的实例 过度匹配 2、分析阶段控制混杂的技术: 分层分析、标化、多因素分析,流行病学研究中的混杂效应控制,3,1. 限制(Restriction) : “简化”研究对象某些可能起到“混杂”作用的特征,或者说,让潜在的混杂变量变为(近似的)“常量” 例如,年龄 2. 随机分配(Randomized allocation):用随机分组方法使可能的混杂
2、变量分布在比较组间平衡; 只能用于实验研究设计,一) 设计阶段控制混杂效应的策略,流行病学研究中的混杂效应控制,4,3. 匹配(matching): 常在病例对照或队列研究中使用; 在实验研究中按照混杂因素分层后再进行随机分组(分层随机)也是一种“频数匹配,一) 设计阶段控制混杂效应的策略(续,流行病学研究中的混杂效应控制,5,什么是匹配(Matching),匹配是一种抽样设计 指从研究对象总体中,以指示系列或指示组(index series/group)某些可能的混杂因素分布为“模板”,选择与之比较的研究对象(比较组或比较系列,comparison series/group),使两组对象在这
3、些混杂因素上相同或近似。 在队列研究中就是按暴露组研究对象某些特征选择非暴露组研究对象; 在病例对照研究中就是按照病例组某些特征选择对照组,流行病学研究中的混杂效应控制,6,匹配方法(1)个体匹配(Individual matching,把指示组中的一个研究对象(病例或暴露者)与比较组中的一个/几个研究对象(非病例或非暴露者)进行匹配;分为: 1:1配对(1:1matching; paired matching); 1:n匹配(1:n matching); 即:给每个病例(/暴露者)选择在一个或多个混杂因素上与之相配的一个或更多个对照(/非暴露者)。 这是分层的特例,即每层只有一个病例(/暴露
4、者)和与之匹配的一个或n个对照(/非暴露者,流行病学研究中的混杂效应控制,7,匹配方法(2)频数匹配(Category / frequency/ stratified matching,在不同研究组(如:病例组和对照组;或暴露组和非暴露组)之间进行匹配; 在一个或多个混杂因素的不同水平上,使比较组(即非暴露组或对照组)的混杂因素分布频数与指示组(即暴露组或病例组)相同,流行病学研究中的混杂效应控制,8,匹配方法(续,匹配实际需要对“指示组”和“比较组”分别“抽样”: 个体匹配:选择一个或几个指示组对象后就给他们匹配比较组 成组匹配:需要在“指示组”收集完成后,再依据频数分别抽取“比较组” 两种
5、匹配设计的一般原则(通过人为的“选择”使比较组间在混杂因素构成分布上相似)是一样的,但是两种匹配设计的分析方法不同。 匹配后,研究样本获得的结果与研究总体的真实情况(即:总体中暴露和结局的关系)一致吗? (真的能去除混杂效应的影响吗,流行病学研究中的混杂效应控制,9,匹配实例: 下表是在一个200万人口的研究对象总体中,不同性别人口的暴露和结局分布情况,流行病学研究中的混杂效应控制,10,在这个研究对象总体中:暴露与疾病结局是否关联,计算粗总相对危险度(暴露组比非暴露组) 计算男性组相对危险度(暴露组比非暴露组) 计算女性组相对危险度(暴露组比非暴露组) 计算结果说明什么,流行病学研究中的混杂
6、效应控制,11,假如从这个研究总体中抽样,用队列研究方法探讨暴露和疾病的关联(1,建立队列的方法(一) 假定根据样本量估算,我们需要从总体中抽取10%的人做样本 如果采用随机抽样的方法从这个总体中抽样,抽到的队列研究样本性别、暴露变量的构成如何? 如果随访一年,暴露和疾病的关联测量结果是什么,流行病学研究中的混杂效应控制,12,粗(总)相对危险度: (460/10万)/(14/10万)=460/14=32.86 男性组相对危险度:0.0050/0.0005=10 女性组相对危险度:0.0010/0.0001=10,流行病学研究中的混杂效应控制,13,假如从这个研究总体中抽样,用队列研究方法探讨
7、暴露和疾病的关联(2,建立队列的方法(二):假如抽样前可以获得总体人群的“暴露”和“非暴露”信息 暴露队列:从暴露人口中抽取10%做样本 非暴露队列: 从非暴露人口中抽取10%;而且 让非暴露队列在性别特征上与暴露队列相匹配。 这是匹配的队列抽样 设 计 ,匹配的目的是? 结果如何,流行病学研究中的混杂效应控制,14,匹配抽样设计的队列研究结果,暴露队列中:男女比例为9:1 非暴露队列中:男女比例为9:1,匹配的 后果,流行病学研究中的混杂效应控制,15,在队列研究实例中匹配抽样对关联测量的影响,在研究总体中,性别是暴露和疾病关联中的混杂因素(在无病人群中ORef不等于1;非暴露人群中,ORf
8、d不等于1。) 随机从总体中抽取研究对象再分成暴露和非暴露队列样本,估算的粗的RR值仍旧带有性别的混杂效应;但是,按照性别进行分层分析后,可以去除性别对暴露和结局关联的混杂效应; 分别抽取暴露和非暴露组,并对性别匹配后,性别的混杂作用得以消除(粗RR=按照性别分层后的RR);所以在队列抽样中,对混杂因素进行匹配设计后,不用分层分析即可以去除混杂因素造成的偏性,流行病学研究中的混杂效应控制,16,假如从这个研究总体中抽样,用病例对照方法探讨暴露和疾病的关联,病例组:200万人总体中得到的全部4740位病人; 对照组:按照与病例组的性别分布频数匹配后,从总体中没有病的研究对象中抽取4740位对照,
9、流行病学研究中的混杂效应控制,17,频数匹配抽样设计的病例对照研究结果,流行病学研究中的混杂效应控制,18,在病例对照研究实例中匹配抽样对关联测量的影响,在总体中,性别对暴露因素与疾病的关联有混杂效应,因此,暴露效应的粗RR(32.9)分层RR(10.00);提示研究总体中性别对暴露和疾病的关联有混杂作用,而且是“正混杂”。 在上述病例对照研究样本中,按照性别分层的两个RR相等,等于总体中的分层RR。然而,样本的粗RR(5.00)样本分层RR(10.00,流行病学研究中的混杂效应控制,19,在病例对照研究实例中匹配抽样对关联测量的影响(续,提示研究样本中性别对暴露和疾病的关联有混杂效应,但是“
10、负混杂”!换言之,样本中观察到的混杂并非是原来总体中的性别混杂效应的反映,而是在匹配过程引入的混杂。 Take-home message (记住)! 在病例对照研究抽样中,如果使用了匹配设计,在分析资料时,必须按照匹配因素进行相应的配对、分层加权或者条件Logistic回归等分析方法才能最终得到真实的暴露效应估计值(OR,流行病学研究中的混杂效应控制,20,匹配设计在混杂效应控制中的作用:总结,匹配抽样设计本身是否能减少或避免混杂因素对暴露与结局变量关联测量上的混杂效应,增加关联测量的真实性(validity) ? 无论是否进行匹配设计,都可能通过恰当的分析方法,得到关联测量的“真实可靠的”结
11、果,只要: 研究测量了所有可能需要考虑的潜在混杂变量; 并且分析中使用恰当的分析技术(例如分层等)控制这些潜在混杂变量的影响,流行病学研究中的混杂效应控制,21,匹配设计在混杂效应控制中的作用:总结(续,仅仅有匹配设计并不都能直接增加研究结果的真实性,甚至在病例对照研究设计中还可能引入混杂; 所以,是否需要匹配,常常考虑的是匹配是否可以改善研究效率(efficiency),使数据分析可以有效地使用分层等技术来控制混杂,从而提高研究的真实性(validity)。 最终是否进行匹配抽样还要从研究实际的考虑出发的,流行病学研究中的混杂效应控制,22,什么时候需要考虑匹配,如果匹配变量与结局变量有很强
12、的相关而且它是简单的变量,特别是研究对象数量很少时,匹配可能取得很好的效率收益。 如果匹配变量是混杂变量而且是多组别的测量值(例如,多个等位基因位点;兄弟姐妹关系;职业等),匹配设计对提高研究效率是非常关键的,流行病学研究中的混杂效应控制,23,匹配可能带来的问题,经过匹配的变量,在研究中无法再研究; 匹配变量过多,会使得部分病例找不到对照,致使可用样本数量减少,使研究的效率反而降低。 如果匹配变量不是混杂因素但是与暴露无关联,匹配毫无必要但也不会导致偏性。 在病例对照调查中匹配不当,会引起过度匹配(overmatching)的问题,掩盖暴露的真实作用(产生负混杂偏性,流行病学研究中的混杂效应
13、控制,24,过度匹配(Overmatching,指对某个与暴露因素关联、但不是(独立的)结局变量危险因素的变量(理论上,该因素不是一个混杂变量)进行匹配。 过度匹配的后果是什么?举例,流行病学研究中的混杂效应控制,25,20万总体人群的情况:性别不是暴露和疾病关系中的混杂因素,因为:男性总体中:暴露率为90%;女性总体中:暴露率10% OREF/非病人= OREF/病人=81(性别与暴露因素关联) 但:ORDF/非暴露 =ORDF/暴露 =1(性别不是疾病危险因素,流行病学研究中的混杂效应控制,26,抽取这个总体中全部1310位病人为病例组 再抽取性别上与病人匹配的1310位非病人为对照进行病
14、例对照研究,流行病学研究中的混杂效应控制,27,过度匹配(续,病例对照研究中过度匹配后,如果分析时不进行分层或者配对分析,暴露-结局关联测量值将产生趋向无效假设的偏性(引入总体中不存在的混杂效应,流行病学研究中的混杂效应控制,28,过度匹配(续,因为过度匹配使病例和对照在暴露史方面趋向一致。 即便在分析时进行分层或者配对分析,由于过度匹配使病例和对照有更多的对子在暴露史上趋向“一致”。这些“暴露史一致”的“对子”在分析中不能使用,因此可以分析的对子数减少,所以过度匹配会降低对关联测量值估计的精度或效率。 是否匹配要仔细权衡,流行病学研究中的混杂效应控制,29,二)分析中控制混杂的技术,1)个体
15、配对病例对照设计的分析 (2)频数匹配的分层分析和关联测量指标的Mantel-Haenszel加权调整 (3)多因素分析模型控制混杂,流行病学研究中的混杂效应控制,30,个体匹配病例对照研究中配对资料的数据表,每个格子表示研究对象的“对子数”) OR=B/C,流行病学研究中的混杂效应控制,31,未匹配/频数匹配 病例对照研究数据表 不分层的粗OR值,OR=(ad)/(bc,流行病学研究中的混杂效应控制,32,分层分析(Stratified analysis) 分层分析需按混杂因素(F)分层后,分别估计暴露与疾病结局的关联(分层的OR或RR值); 使用分层分析法,可以比较分层OR或RR值与不分层
16、的粗关联测量,以评价F的混杂效应以及效应修正作用,未匹配/频数匹配 病例对照研究数据的分析(续,流行病学研究中的混杂效应控制,33,分层分析(续) 如果分层后,各个分层的OR或RR值大致相等,但不等于未分层的OR或RR值(提示分层因素有混杂效应),可以用Mantel-Haenszel方法计算调整的总的暴露-结局关联值(调整OR或调整RR值,未匹配/频数匹配 病例对照研究数据的分析(续,流行病学研究中的混杂效应控制,34,未匹配/频数匹配 病例对照研究数据的分层分析数据表,在F=0层(样本量N0,OR0 = (a0 d0)/( b0 c0,在F=1层(样本量N1,OR1 = (a1 d1)/(
17、b1 c1,流行病学研究中的混杂效应控制,35,计算调整OR值(ORM-H)的公式: (ai di / Ni) ORM-H = - (bi ci / Ni) 式中:ai,bi,ci,di为每一层中四格表中的四个数; Ni为每层观察总人数;i为层数(i = 1 , 2 n,未匹配/频数匹配 病例对照研究数据的分层分析(续) 利用Mantel-Haenszel方法计算调整OR值,流行病学研究中的混杂效应控制,36,1)ORM-H= cOR:F不是混杂因子,cOR不存在混杂偏倚; RRM-H = cRR:F不是混杂因子,cRR不存在混杂偏倚。 (2)ORM-H cOR:F是混杂因子,cOR存在混杂偏
18、倚; RRM-H cRR:F是混杂因子,cRR存在混杂偏倚,流行病学研究中的混杂效应控制,37,分层分析的基本步骤: 1) 初步审阅资料; 2) 计算粗的比值比或相对危险度(cOR 或 cRR); 3) 分层:按怀疑的混杂因子分层,并计算每一层 的比值比或相对危险度(aOR 或 aRR); 4) 比较 cOR 和 aOR (或 cRR 和 aRR); 5) (如果各个层的aOR相等但不等于cOR )用Mantel-Haenszel法计算调整混杂因子影响后总的ORmh 或 RRmh; 6) 进行 X2mh 检验,计算ORmh 或 RRmh 95%可信区间,流行病学研究中的混杂效应控制,38,多因
19、素分析模型控制混杂效应,当用分层的方法同时控制多个混杂因子的混杂效应时,会出现分层过多的现象,以至难于实现对混杂的有效调整,此时便需应用多因素分析的方法来控制混杂因子的影响。 多因素模型的选择与研究设计和结局变量性质和结局指标选择有关,流行病学研究中的混杂效应控制,39,流行病学研究中的混杂效应控制,40,流行病学研究中的混杂效应控制,41,多元Logistic回归分析控制混杂 例1. 定群研究资料分析弗明汉心血管疾病研究 742名居住在弗明汉年龄为40-49岁的男性,在各自暴露不同水平的影响因素(详见下表中的7种因素),经12年追踪观察冠心病(CHD)发病情况。 根据此742名受试者每人暴露
20、各项因素的水平和CHD发病与否的资料,采用多因素LOGISTIC回归模型进行分析,结果见表1,流行病学研究中的混杂效应控制,42,表1. CHD危险因素定群研究(12年追踪观察结果,流行病学研究中的混杂效应控制,43,根据表1结果,可建立的CHD影响因素的Logistic回归模型,公式如下: p=1/1+exp-(-13.2573 + 0.1216x1 + 0.0070 x2 + + 0.7206 x7) (1) 计算描述因素与疾病间联系强度指标OR值的大小: 例如:胆固醇的值为0.0070,根据估计OR值的公式计算CHD与 胆固醇的联系强度为: OR = e3 e0.0070 = 1.007
21、 表明扣除模型中包含的其它因素的影响以后,胆固醇每上升1mg/dl,CHD累积发病危险上升1.007倍。 例如:当ECG的值为0.7206时,根据估计OR值的公式计算CHD与ECG异常的联系强度为: OR = e7 = e7 X1 / e7 X 0 = e7 X (1-0) = e0.7206 = 2.056 表明扣除模型中包含的其它因素的影响以后,ECG异常者(=1)CHD发病是正常者(=0)的2.056倍,流行病学研究中的混杂效应控制,44,2) 预测发病风险: 例1: 一个原来不吸烟且胆固醇为230 mg/dl的人,如果后来每 天改为吸烟1包(x6=2),胆固醇上升到330 mg/dl的
22、话,即 使其他因素的暴露不发生任何不利的改变,其发生冠心 病 的风险在12年间也将会增加4.879倍,即: OR = e3 3306 2 / e3 2306 0 = e0.0070 (330-230) 0.4223 2 4.879,流行病学研究中的混杂效应控制,45,例2. 病例对照研究实例 一项有关口服避孕(OC)药与心肌梗塞(MI)关系的病例对照研究中,MI病例组234人,对照组1742人。研究因素为口服避孕药,混杂因素为年龄和吸烟。多因素Logistic回归分析结果见表2,流行病学研究中的混杂效应控制,46,表2. 口服OC与MI关系的病例对照研究(成组病例对照设计,流行病学研究中的混杂效应控制,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机电设备维修和保养
- 2024年12月4日chinadaily时政类语篇型填空专项训练(学生们在诗歌中找到创造性的出路)-2025届高三英语一轮复习
- (2024年秋季版)七年级道德与法治下册 第四单元 体悟生命价值 第11课 自尊自信 第1框 做人当自尊教学思路 苏教版
- 九年级历史下册 第一单元 殖民地人民的反抗与资本主义制度的扩展 第4课 日本明治维新教学实录4 新人教版
- 2021秋季运动会学生作文十篇
- 2022年初三《平凡的世界》读后感5篇范例
- 大学新生军训心得体会(合集15篇)
- 翠鸟教案模板七篇
- 当幸福来敲门电影观后感范文6篇
- 骆驼祥子读书笔记一至二十四章
- 年终抖音运营述职报告
- 期末教师会议德育副校长讲话:德育需要奉献
- 脑梗死患者的护理常规
- 2024年7月国家开放大学法律事务专科《法律咨询与调解》期末纸质考试试题及答案
- 大学生科学运动与控制体重(黑龙江幼儿师范高等专科学校)知到智慧树答案
- 2023年4月1日江苏省事业单位统考《综合知识和能力素质》(管理岗客观题)原卷+答案
- 诊断复习测试卷含答案
- 【MOOC】电工学-西北工业大学 中国大学慕课MOOC答案
- 护士条例解读
- 检修工(题库)附答案
- 2025届高考语文一轮复习:小说情节结构之伏笔 练习题(含答案)
评论
0/150
提交评论