第十一章常见偏倚及其控制教案_第1页
第十一章常见偏倚及其控制教案_第2页
第十一章常见偏倚及其控制教案_第3页
第十一章常见偏倚及其控制教案_第4页
第十一章常见偏倚及其控制教案_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、常见偏倚及其控制(Biases and Their Control) 流行病学研究结果的真实性(validity)是极其重要的问题,研究的真实性直接关系到能否获得正确的结论。进行流行病学研究时,不论采用任何研究方法,有许多因素可影响其准确性,使研究结果与真实值情况存在偏差,有时相去甚远。造成这种偏差的原因,归纳起来有两个方面:一是随机误差(random error),二是系统误差(systematic error)即偏倚(bias)。因此,研究者应尽可能地采取措施减少这两类误差的发生,减少随机误差以提高研究的精确性(精确度)(precision),减少或避免偏倚以提高研究的真实性(v

2、alidity)。随机误差难以避免,可通过研究设计和统计学方法予以减少与评价。偏倚是随机误差以外的,可导致研究结果与真实情况差异的系统误差,其可发生于研究的各个环节,有方向性,理论上可以避免。偏倚的种类很多,一般将其分为三类,即选择偏倚(selection bias)、信息偏倚(information bias)和混杂偏倚(confounding bias)。 【案例一】某研究者计划研究恶性黑色瘤同高血脂的关系,恶性黑色瘤病例取自医院,同时,他从医院某病区随机抽取相应人数的骨折患者作为对照。在某人群中,发现恶性黑色瘤患者共6000例,骨折患者也是6000例,在恶性黑色瘤患者或骨折患者

3、中各有20%的人同时患有高血脂。并假定恶性黑色瘤、骨折、高血脂三者之间无任何关联,三者的入院率是相对独立。表1  人群恶性黑色瘤、骨折及高血脂的人群分布病种有高血脂无高血脂合 计恶性黑色瘤骨折120012004800480060006000恶性黑色瘤和骨折相对于高血脂:2=0,P>0.05;OR=1200×4800/1200×4800=1.0表明人群中恶性黑色瘤、骨折、高血脂三者之间并无关联。若该人群患恶性黑色瘤、骨折和高血脂的患者入院率分别为60%、25%、 40%,那么以入院病人作为对象来研究恶性黑色瘤与高血脂和骨折与高血脂的关系,就可以得出以下的调查结

4、果。表2  来自医院的恶性黑色瘤和骨折两病及高血脂的病例分布病种有高血脂无高血脂合计恶性黑色瘤(病例)骨折(对照)9126602880120037921860恶性黑色瘤和骨折相对于高血脂:2=81.25,P=0.0000;OR=912×1200/660×2880=0.58表明人群中高血脂是恶性黑色瘤的保护因素,而对骨折是一个危险因素。 【问题的提出】一、流行病学中的偏倚及其种类?研究的真实性或效度(validity)是指研究收集的数据、分析结果和所得结论与客观实际的符合程度。研究结果与客观实际存在不符合的地方,这就是研究误差,它是研究真实性的反面。研究误

5、差可以分为系统误差和随机误差两部分:系统误差是指有固定方向和固定大小的误差,来自于对象选取、测量和统计分析等的方法学缺陷;而随机误差没有固定方向和固定大小,一般呈正态分布,来自于随机抽样变异和测量随机变异等。研究误差中的系统误差部分,称为偏倚(bias)。流行病学研究从研究设计、实施、分析至推断过程中均可发生偏倚。偏倚可存在各种流行病学研究类型,如现况研究、病例对照研究、回顾性或前瞻性队列研究和实验流行病学研究。偏倚发生的环节繁多,形式各异,大致可分为3大类。选择偏倚(selection bias)主要发生在研究的设计阶段,如入院率偏倚、奈曼偏倚和检出症候偏倚等。信息偏倚(informatio

6、n bias)主要发生在研究的实施阶段,如回忆偏倚、报告偏倚和调查者偏倚等。混杂偏倚(confounding bias)主要发生在研究的设计和分析阶段。二、本次研究是否存在偏倚?偏倚在流行病学中的来源如何?社区样本人群中恶性黑色瘤同高血脂本无任何关联,而以医院病例作为样本所得观察结果,高血脂是恶性黑色瘤的保护因素,而对骨折是一个危险因素。则研究中得出的结论与真实情况不符即偏倚。研究结果具有变异性,变异性(variability)指的是结果包括描述性和分析性数据(指标)的变动或波动,变异可存在于不同的水平,包括个体水平、群体水平和样本(研究)水平。变异的来源可以分为两个层次:1.生物学(真实)变

7、异和测量变异,生物学变异反映真实的客观变异,测量的变异反映测量过程的误差;2.随机变异和系统变异,随机变异(误差)的绝对值和方向(符号)交错变化,并呈有界范围的正态分布。系统变异(误差)的绝对值和方向保持恒定。上述的测量误差,就可以再分出随机误差和系统误差。研究误差中的系统误差部分为偏倚。三、本次研究若存在偏倚,其方向如何?本次研究中,本来恶性黑色瘤同高血脂本无任何关联,现在高血脂是恶性黑色瘤的保护因素。则是夸大了其保护效应,或可以说造成了虚假的效应,不管它是危险效应还是保护效应,该偏倚是正偏倚。偏倚是一种系统误差,它或偏向正方向,使原来的真值被夸大了,或偏向负方向,使原来的真值被缩小了,因此

8、偏倚是有方向的。偏倚的方向有两种(如果某一特征的真实值为,而测量值为)正向偏倚:当>>1或<<1时,为正偏倚。正偏倚则会夸大研究的结果;负向偏倚:当1<<或<<1时,为负偏倚。负偏倚则会缩小研究的结果。四、本次研究若存在偏倚,其在流行病学中的类别如何?此次研究的偏倚是选择偏倚中的入院率偏倚,因恶性黑色瘤和骨折入院率不同而导致的偏倚。选择偏倚(selection bias)指被选定的研究对象与未被抽取的人群在某些特征上存在系统差异而出现的误差。主要发生在设计阶段,也产生于资料收集阶段的失访、无应答等。以在病例对照研究与现况研究中为常见。选择偏倚中包

9、括入院率偏倚(admission rate bias)、现患-新发病例偏倚(prevalence-incidence bias)、检出症候偏倚(detection signal bias)、易感性偏倚(susceptibility bias)、排除偏倚(exclusive bias)、无应答偏倚(non-respondent bias)、失访偏倚(loss to follow up bias)、 志愿者偏倚(volunteer bias)和健康工人效应等。入院率偏倚亦称伯克森偏倚(Berksons bias),是指在以医院为基础的病例对照研究中,由于所比较各组入院率的不同而导致的偏倚。五、如何

10、测量此类偏倚或选择偏倚?测量方法 :总人群比值比                                       样本比值比     以、分别代表A、B、C、

11、D的样本选择概率,(=a/A,=b/B,=c/C,=d/D)  选择偏倚=               或   (1)若得值=0,即        =1,则不存在选择偏倚; (2)若得值>0,即        >1,则存在选择偏倚,为正偏

12、倚; (3)若得值<0,即       <1,则存在选择偏倚,为负偏倚。六、流行病学如何控制此类偏倚或选择偏倚?(1)首先研究者对在整个研究中可能会出现的各种选择偏倚应有充分的了解、掌握。(2)严格掌握研究对象纳入与排除的标准。对照的入选原则为:不患所研究的疾病且有暴露于研究因素的可能;不患有与研究因素有关的其他病;在某些方面与病例组的可比等。(3)在研究中采取相应措施,尽量取得研究对象的合作,以获得尽可能高的应答率,减少无应答率及队列研究中的失访和实验性研究中的中途退出等。(4)尽量采用多种对照如在病例对照研究

13、中,理想的研究对象应是人群中的全体病例和非该病病例及正常人,或其有代表性的样本。虽然医院病例容易有Berksons偏倚,但由于方便、易行、应答率高等的优点,在实际研究中常常采用。此时最好选用两个或两个以上的对照,如不同病种对照,其中之一最好取自社区一般人群。通过不同对照的结果,可对是否存在偏倚进行判断,并对结果的真实性进行估计。【案例二】研究者设计病了对照研究中,选取病例组和对照组各100人进行研究,结果表3、4、5。表3   真实的暴露状况 病  例对 照合  计暴  露非暴露6040307090110合  计100100

14、200     注:真实OR=(60×70)/(40×30)=3.5表4  无差异错分的暴露状况错分后暴露状况真  实  暴  露  状  况病  例 对 照暴  露非暴露合  计 暴  露非暴露合  计暴  露非暴露54612286634 27321494852合  计6040100 3070100注:无差异性错分后的OR=(66×52)/(48×

15、;34)=2.1表5  差异性错分的暴露状况错分后暴露状况真  实  暴  露  状  况病  例 对 照暴  露非暴露合  计 暴  露非暴露合  计暴  露非暴露54612286634   计6040100 3070100注:差异性错分后的OR=(66×75)/(25×34)=5.8【问题的提出】一、此研究中可能存在偏倚?此研究中存在信息偏倚,信息偏倚(information b

16、ias),又称观察偏倚(observational bias)或错分偏倚(misclassification bias),是指在研究的实施阶段从研究对象获取研究所需的信息时所产生的系统误差。 由于所收集的有关暴露或疾病的信息不准确或不完整,造成对研究对象的归类错误,这种不准确性在各组中的发生程度可以相同,也可以不同,其对研究结果的影响程度取决于各比较组受累程度的差别。二、此研究中若存在偏倚,其种类和来源如何?信息偏倚的种类包括:回忆偏倚(recall bias)、报告偏倚(reporting bias)、诊断怀疑偏倚(diagnostic suspicion bias)、暴露怀疑偏倚(expo

17、sure suspicion bias)和测量偏倚(detection bias)等等。信息偏倚可来自于研究对象、研究者本身,也可来自用于测量的仪器、设备、方法等。其中不应答偏倚、回忆偏倚、报告偏倚(说谎偏倚)、社会期望偏倚来自于被调查者;诊断怀疑偏倚、暴露怀疑偏倚来自于调查者;测量偏倚来自于测量仪器。三、此研究中表4与表3相比表明什么?此研究中表四表示错分是无差异性的,无差异性错分后的OR值小于真实OR值,说明资料的效应估计值低于实际值,使效应估计值趋于无效值,低估研究因素与疾病之间的联系。无差异错误分(nondifferential misclassfication)指暴露或疾病的错误分类

18、同研究分组无关,即在各比较组间不存在差异。她大多数情况下模糊了研究组间的差异,一般使效应值的估计值偏低。四、此研究中表5表3相比表明什么?此研究中表四表示错分是差异性的,差异性错分后的OR值大于真实OR值,说明资料的效应估计值高于实际值,使效应估计值远离无效值,高估研究因素与疾病之间的联系。差异性错分(differential misclassffication)指暴露或疾病的错误分类同研究分组有关,即在各比较组间存在差异。由于错误分类在组间存在的差异的偏向可能不同,所以它造成高估或低估研究效应值。五、流行病学中此类偏倚如何测量?信息偏倚的测量重测一致性:测量与评价信息偏倚的常用方法是对调查

19、获得的信息予以重复调查(测量),根据调查与重复调查数据计算Kappa (K)值,来评价重测的一致性(consistency),以作为研究结果内部真实性评价的依据。值判断一致性强度的标准,一般认为:>0.8,很好;0.60.8,较好;0.40.6,中度;<0.4,较差。偏倚程度与方向:信息偏倚若得值=0,则不存在信息偏倚;若得值>0,则存在信息偏倚,此时ORO>ORT,为正偏倚;若得值<0,则存在信息偏倚,此时ORO<ort,为负偏倚。< div="">六、在流行病学研究过程中,如何控制此类偏倚?1.研究者对拟进行的研究要制定明

20、细的资料收集方法和严格的质量控制方法2.尽可能采用盲法收集资料3.尽量采用客观指标的信息4.回忆偏倚:可通过一定的调查技巧加以避免,如可选择一个与暴露史有联系的鲜明的记忆目标帮助其联想回忆等等。此外对在条件允许时询问到的暴露史,尽可能的与客观记录核实。   敏感问题:可通过调查知情人或相应的调查技术获取正确的信息。 【案例三】有医生以病例对照研究方法探讨饮酒与高血压的关系。病例组为在某地医院就诊的高血压病人244例,对照组为该地的一个随机样本493例。病例对照的调查应用同一的调查表,调查研究对象过去饮酒情况,同时还调查了年龄、性别、体重指数(BMI>24为超

21、重)等变量。病例组采取当面询问其饮酒的情况,但对照组采用信函调查的方法。结果表6。表6  饮酒与高血压之间的关系饮  酒病  例对 照合  计是否113131161332274463合  计244493737粗OR即cOR=1.78,2 =13.03,P =0.0003考虑到在分析饮酒与高血压之间的关系时,体重指数可能是潜在的混杂因素。首先,我们对体重是否具备混杂因素的条件进行判断。下面表7和表8是对体重指数(F)与高血压(D)和饮酒(E)的关系的分析。表7  饮酒与体重的关系饮 酒超 重不超重合 计是否98214

22、176249274463合 计312425737OR(EF)= 0.65,2 =7.71,P =0.006表8  体重与高血压之间的关系体  重病  例对  照合  计超  重不超  计244493737OR(DF)=1.52,2 =7.00,P =0.008根据表7、8的计算可知,体重符合混杂因素的条件,它有可能成为潜在的混杂因素,歪曲饮酒与高血压的真正关系,应予进一步调查分析。按体重分层后,饮酒与高血压的关系资料见表9。表9  按超重分层后饮

23、酒与高血压之间的关系体重饮酒病例对照2POROR95%CI超重 不超重+-+-48726559501421111906.68 8.740.0098 0.00311.89 1.891.133.17 1.212.94合计 244493    按混杂因素分层后,各层间的比值比相等,这种相等是否可能由于机遇所致呢?如果层与层间的比值比不相等就可能存在效应修正作用,层与层间的比值比的均匀性检验可用对数比值比法(logrithms of odds ration)。本例资料2均匀性检验如下:表10 

24、 按体重分层资料2均匀性检验计算整理表分层ORilnORiWiWilnORiWi(lnORi)2121.891.890.63660.636616.190521.456510.306913.65926.56148.69552= 0.001,P>0.05 【问题的提出】一、此研究中可能存在哪些偏倚?如何控制?此研究中存在选择偏倚、信息偏倚、混杂偏倚。(1)研究者选自医院病人作为病例组,可能存在选择偏倚。应尽可能的从社区中选病例,如果这一点无法做到,可从多个医院中选择病例以减少选择偏倚,另外可采用多种对照,通过不同对照的结果,可对是否存在偏倚进行判断,并对结果的真实性进行估计。(2)

25、病例组采取当面询问其饮酒的情况,但对照组采用信函调查的方法,两组所用的观察方法不同,可能存在信息偏倚,病例组与对照组应采用同样的调查方法,并在调查时应同样重视,不能“厚此薄彼”。(3)可能存在混杂偏倚,体重是混杂因素。可以对体重进行分层分析,或用多因素分析二、一个因素如果是混杂因素,那么它必须具备哪些条件?本课题中的体重是否具备混杂因素的条件?一个因素如果是混杂因素(confounding factor),那么它必须具备的条件为:(1)必须是所研究疾病的独立危险因子;(2)必须与所研究的暴露因素有关;(3)一定不是暴露因素与所研究疾病因果链上的中间变量。本课题中的体重具备混杂因素的条件。理由为

26、:(1)表4计算的OR值=0.65,说明体重与饮酒有关,即体重与暴露因素有关。(2)表5计算的OR值=1.52,说明体重与研究的疾病有关。(3)体重不是饮酒与高血压因果链上的中间变量。三、各层OR与cOR相比有无差异?有差异应如何解释?ORicOR,表明体重是饮酒与高血压关系的混杂因素,cOR存在混杂偏倚。混杂偏倚或称混杂(confounding),是指在流行病学研究中,由于一个或多个潜在的混杂因素的影响,掩盖或夸大了研究因素与疾病(或事件)之间的联系,从而使两者之间的真正联系被错误地估计。层与层间的比值比的均匀性检验表明两层之间的比值比是相等的,提示体重仅仅是饮酒与高血压关系的混杂因素,无效

27、应修正作用。四、本例中ORMH(即aOR),与cOR相比有无差别?试对超重所产生的混杂偏倚的大小方向予以测量。ORMH(即aOR)cOR,即1.891.78。因为aOR>cOR,混杂作用为负混杂,亦称阴性混杂,即由于体重的混杂作用,使cOR低估了饮酒与高血压的关系。混杂偏倚及其方向与程度可用下式测量:混杂偏倚=(cOR-aOR) /aOR= -0.0582,为负值,为负混杂,混杂的程度为0.0582。五、混杂偏倚该如何测量?混杂偏倚测量可通过比较含有该因素时研究因素与疾病的效应估计值,(如RR,OR),与排除该因素后的效应估计值来实现。    设含有某可疑混

28、杂因素(f)时,研究因素与研究疾病的效应估计值为cRR或cOR,称作粗RR或粗OR;按该可疑混杂因素调整后的效应估计值,即排除掉该因素的可能混杂作用后的效应估计值为aRR(f)或aOR(f),称作调整RR或调整OR(可用Mantel-Haenszel分层分析方法计算)混杂偏倚测量方法如下:(1)若cOR=aOR(f) ,则f无混杂作用,cOR不存在f的混杂偏倚。(2)若cORaOR(f),则f有混杂作用,cOR存在f的混杂偏倚。(3)若cOR>aOR(f)为正混杂,亦称阳性混杂,既由于f的混杂作用,使cOR高估了研究因素与研究疾病之间的联系。(4)若cOR<aor(f)为负混杂,亦

29、称阴性混杂,既由于f的混杂作用,使cor低估了研究因素与研究疾病之间的联系。< div="">混杂偏倚及其方向与程度可以下式测量:混杂偏倚=cOR-aOR(f)/aOR(f)若值=0,无混杂。当值0时,若为正值,为正混杂;若为负值,为负混杂。值的大小为混杂的程度。六、在流行病学研究过程中,如何控制混杂因素的混杂作用?在流行病学研究过程中,可以通过下列方法控制混杂因素的混杂作用:(1)限制  在设计阶段,可对研究对象的入选条件进行限制,这样可以获得同质的研究对象,从而可防止某些混杂偏倚。(2)匹配  在为研究对象选择对照时,使对照与研究对象在某

30、个或某些潜在的混杂因素相同或相近,从而消除混杂因素的影响。(3)随机化  运用随机化的原则将研究对象以同等的机率分配在各处理组中,从而使潜在的混杂因素在各组间分布均衡。(4)分层分析  在资料分析阶段,将可疑的或已知的混杂因素按其不同水平分层后,再进行统计分析。使用分层分析法,即可以评价在各层中暴露与疾病的联系,又可以整体估计在分层排除混杂因素后暴露与疾病的总的联系。(5)标化  标化的方法是对分层分析的补充手段。当不同暴露强度组间的混杂因素分布不均匀时,可以选择一种标准构成,来调整原来分步的不均匀。(6)多因素分析  当样本数不够大,不足以分层分析,或

31、希望查考多种因素对疾病的综合影响,可应用多因素分析。在多因素分析中,暴露因素与混杂因素都被放在同等的地位进行分析。常用的多因素分析方法有Logistic回归模型等等。【扩展的知识】一、变异的水平变异性(variability)指的是结果包括描述性和分析性数据(指标)的变动或波动,变异可存在于不同的水平,包括个体水平、群体水平和样本(研究)水平。变异可存在于不同的水平,包括个体水平、群体水平和样本(研究)水平。1.个体水平的变异性是指某个体特征测得值的变化,它可以是个体真值随时间的改变,也可以是由于测量误差引起的变化。2.群体水平的变异性:(1)各个体的累计变异,因为构成群体的各个个体具有不同的

32、遗传素质并受到不同的环境影响;(2)群体的变异程度常常大于个体的变异。一般可根据群体的变异范围来确定“正常值”范围,用于判定个体测得值是否“正常”;(3)群体水平的变异性也受到测量误差的影响。3.样本(研究)水平的变异性是指通过不同样本的研究所得结果的差异性。但是,研究通常不能针对整个总体人群来进行,而是通过样本人群来进行,这就引入了抽样变异(误差)。通过不同样本的研究所得的关于总体结果的估计值会有不同,如果排除测量误差,这些样本的估计值与总体真实值(用各样本估计值的均值代表)的差异,就是抽样误差。当样本含量增大时,抽样误差就会减少。二、偏倚的定义选择偏倚(selection bias)指被选

33、定的研究对象与未被抽取的人群在某些特征上存在系统差异而出现的误差。1.入院率偏倚亦称伯克森偏倚(Berksons bias),是指在以医院为基础的病例对照研究中,由于所比较各组入院率的不同而导致的偏倚。2.现患-新发病例偏倚也称奈曼偏倚(Neyman bias),研究病例一般是现患病人,不包括死亡病例和那些病程短、轻型、不典型的病例,某些病人在患病后,有可能会改变其原来的某些因素的暴露状况,这样用于研究的病例类型(现患病例)与队列研究或实验研究的病例不同,它们多用新病例,由此而产生的偏倚即为现患病例-新病例偏倚。3.检出偏倚或称检出症候偏倚,指某因素与某疾病在病因学上虽无关联,但由于该因素的存在而引起该疾病症状或体征的出现,从而使患者及早就医,接受多种检查,导致该人群较高的检出率,以致得出该因素与该疾病

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论