版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 1 章简介近年来,由于临床医师和统计学家的持续关注,医学荟萃分析(Meta-分析)越来越多见。荟萃分析是将基于相同问题、采用相同方法的不同研究结果综合分析得出一个结论的过程。荟萃分析系一个有助于人们理解医学干预结果的工具,但并非唯一工具,也非最佳工具。为更好的服务于临床,医学综述和指南系一种更新某一临床问题常用且有效的方法。这也反映了临床医生有实践“循证医学”的需求。循证医学引入了明确的规则以严格评价医学文献。荟萃分析在确认和解释临床研究结果中作用不容忽视。换句话说,如果一项设计严谨荟萃分析表明 A 药优于 B 药,一结论是正确的,而且认为无需就这一问题作进一步研究。可以认为这研究结果对于
2、学习至为重要,因为研究结果既是结论,又是进一步研究的起点。事实上,临床试验是将理论付诸实践的过程,完成这一过程需严谨的实验设计来证实临床假说并获得有意义的结果。这些结果新假说的基础,并需要新的临床试验的进一步证实。临床试验结果对医学实践影响很大,特别是那些在著名杂志上的临床研究,或是通过大众传媒传播广泛的临床研究。在科学领域,新疗法影响巨大,带来数量庞大。但确定每一项研究的质量和重要性并非易事。同一问题的不同研究常出现不一致的结论,令读者困惑。为阐明一个问题,常需要的帮助,从而获得不同研究结果的一个综合结论。明显的例子在于明确的结论。和进展类讲座的与日俱增,说明对于极具争议的话题需要一个设计严
3、谨的荟萃分析系获得综合结论的有力。荟萃分析将独立而不同的研究整合起来,并获得一个相同结论。与逐一复习不同研究相比,荟萃分析优势明显,受作者影响小,结论偏倚小。此外,荟萃分析者所得结论相比较。了所有研究的不同结论,读者易于重新计算数据,并与作荟萃分析一词始创于 1976 年,这是一个根据所能得到的已回顾性分析的过程。的文献就一个特定问题进行基于单组数据的分析叫做逐个的荟萃分析。基本的做法是,一旦选择了针对某一问题的最有意义的已的临床试验,常与研究者直接取得联系以获得临床试验所有的资料,而不是仅对的临床做荟萃分析。这样就会产生一组新数据,包括针对这一问题所有或部分信息。逐个在此不做详述。的荟萃分析
4、有其自身评价技术,和有别于本书中所解释的研究目的,认为荟萃分析是一个简单的统计学检验是一个普遍存在的误区。事实上,荟萃分析有其自身的研究领域,按照所有必须的步骤,了解、理解并应用荟萃分析很重要,可规避研究偏倚。这一系统研究产生的结论,意义不一般,因此值得去做。由于每年有大量科技,因此,对这些的文献进行荟萃分析非常有用。1940 年仅有大约 2300 种生物医学期刊,1990年已猛增至 23000 多种,各种、和来信更是不计其数。如此大量的信息常包含着许多分散数据和相互不一致的结论,因此有必要进行文献整合。正确地就某一问题进行系统回顾需要收集和分析所有已的文献,而不光是仅收集那些更能引起读者的,
5、有临床意义的以及易于获得的文献。荟萃分析有两步至为重要:第一步是全面收集已的文献,第二步是对所获文献进行整合。这一整合可以是某一领域的写就的传统意义上的综述,也可以是应用荟萃分析的方法,按照更有组织,更客观的方式写就的系统回顾。一项研究的重要性在于其在某一特定领域所处的位置,也在于其给特定领域所带来的信息量。每项研究均有其内在特征,其结论不具普遍性,也不能与其他研究类比。另一方面,有些研究设计相似,其结论可整合为一个更具普遍意义的结论。因此,必须知道如何获知每一项研究的信息以确保信息可靠,如何在荟萃分析中恰当使用这些信息。系统回顾和荟萃分析可以证实单项研究的结果。给出的例子是几种药物干预研究,
6、荟萃分析有助于证实特定药物在治疗某些疾病的作用,释然单项研究可能带来的疑虑。此外,针对某一问题的系统回顾要求严格检查不同研究中使用的研究方法,以便进一步评价研究数据。这也有助于识别这些临床研究中方法学上的缺陷,从而有助于提高将来研究的质量。荟萃分析及其在生物医学领域的应用正迅速引起人们的注意。简单检索一下 MEDLINE 数据库就可见其一斑。图 1.1 显示了按年统计的文章数量,摘要中均数据分析时采用了这一方法。了荟萃分析一词,提示图 1.1 显示了按年统计的文章数量,摘要中均了这一方法了荟萃分析一词,说明数据分析时采用这清楚表明:荟萃分析在生物医学研究领域的应用稳步提高;生物医学杂志重视运用
7、荟萃分析法写就的。总之,知道如何阅读、理解、评价以及着手一项研究,研究荟萃分析是一个有用的工具。想跟上现代医学研究的步伐,简史Pearson(1904 年)做了第一次荟萃分析,分析了肠热病究的结果。1932 年,Fisher 注意到 P 值自然对数乘以-2 呈卡方分布,接种与率之间关系的五项研度为 2。由此,可以推测m 个 lnP 之和也呈卡方分布,度为 2m:Fisher 通过这一方法自多个研究中的多个 P 值得到一个 P 值。这一方法也就是 Fisher 逆卡方法,该法系第一个旨在计算累及 P 值的方法。这一荟萃分析法适用于有 P 值但不知道事件发生大小的研究,也适用于研究设计不同或治疗方
8、法不同的研究,这类研究可致错误的累及效果。这一方法的在于:不同研究未能根据研究特点进行。无法知道事件多少:P 值仅说明了事件偶然发生率,但并未提供事件多少的任何信息,也未提供临床意义的任何信息。无法分析两个结论不同的研究,也就是说,如果评价两种不同方法 A 和 B 的效果,一项研究发现 A 比 B 好,而另一项研究发现 B 比A 好,很难将这两个研究进行合并,因为合并后得到的结论会引起误导。无法进一步评价研究之间的差异。因为仅有 P 值,并未评价研究质量及其采用的方法学。1976 年,Glass 首次将荟萃分析定义为一项特殊技术。目的临床研究的主要目的之一是获得清晰而可靠的结论以应用于临床并可
9、能指导临床指南的制定。临床研究并非总能达此目的,而且经常得出上些相互有助于达此目的,可对临床研究做出苛刻的评价。荟萃分析有助临床研究的方方面面:增加比较的统计学效能;有助于评估治疗效果;的结论。运用正确的荟萃分析整合结论相互回答新问题;的研究;不同研究中的亚组分析;分析趋势;明确需进一步研究的领域;分析既往的研究是否以及如何影响了人们对某一问题的看法;所有这些方面均可使用这一方法进行评价,荟萃分析法本质是客观的,而意见是的。而且,只要新的文献结论导致对某一问题看法不肯定时,总可以进行再次荟萃分析。第 2 章如何进行荟萃分析研究设计荟萃分析是系统回顾的根本部分。荟萃分析需临床学家和生物医学统计学
10、家的密切合作。为便于理解,荟萃分析按步骤分开来讲。每一步均有其苛刻的规则以避免分析时的偏倚,进而准确评估事件以获得可靠的结论。以临床试验为例,系统回顾需精心设计以规避可能影响结论的偏倚和错误。因此有必要确定分析目的、规则以及方法。确定结果首先要考虑的是确定荟萃分析的结论。最好要明确主要结论,但并非被选中的研究均要考虑到这一问题。选择所选临床试验的特征。对于这一步,最好考虑大样本的研究,也就是在第 2 步时需需根据不同选择研究。确定在哪儿和如何进行检索很重要。最准确的医学数据库是MEDLINE和EMBASE。仅在其中一个数据库中检索某一问题可能仅获得三分之一的文献,因此,应该使用两个数据库以进行
11、准确而全面检索。事实上同时检索两个数据库用得很少,原因在于MEDLINE是免费的,而EMBASE是需要花钱的,因此后者难以得到。手工检索很费时,但不失为一个替法,譬如检索INDEX MDICUS,也可以获得这一领域主要的建议。选择正确的那些以英文以精确确定研究,这样可以提高检索效能。通常仅仅考虑的研究。尽管这一做法无可厚非,但其局限性很明显。实际上有些生物医学领域或临床处理仅在一些非英语国家使用,譬如中国的中医学,再就是俄罗斯的高压疗法。检索完成后,最后看看每篇所的参考文献,在此基础上进行新的检索。两个人进行相同检索是有益的,一个人进行计算机检索,如 MEDLINE,另一个人进行传统检索,如
12、INDEX MEDICUS,然后根据检索到的检索完成后,应估计使用这两种方法未能检索到的中的的参考文献做进一步检索。数量。如果需要更高级的检索,检索标准应该在检索之初就确定下来,研究设计也应该明确定义,并解释做这一选择的原因。就详细描述这一完整过程,因为这是方法学中最重要的部分,并出现在最后的灰色文献中。灰色文献是指由、大学、商业机构以及企业的纸质和电子文献,这些文献不受商业控制,文献也非这些组织的主要目的。大部分生物医学灰色文献包括大会、会议记要、通信、期刊、的摘要和学术报。告等。然而最重要的,也是最易获得的可供荟萃分析的资料是些已仔细考虑下列两个方面后,才可将所获资料纳入荟萃分析。1 资料
13、可靠性。摘要通常仅部分结果,而且会在不止一个会议上。而且,方法学和副作用2提及,仔细评价数据以避免重复纳入病例可解决这一问题。偏倚。学术会议上的随机对照试验,另有三分之一考虑正式,检索不到。如所周知,超过一。估计仅 16%的摘要检索不到。大会报半的摘要将在两年内告和全文性结果的总之,的时间差 1-5 年长短不等,中位数时间是 2.7 年。此外,阳性结果的比阴的早,大会建议:过的比未过的的早。检索应该达至在感的领域的高水平学术会议的摘要;检索摘要应限定在 3-5 年内;仔细评价摘要以避免重复纳入病例;纳入摘要或排除摘要进行荟萃分析以评估对综合结论是否有影响,是如何产生影响的。发现和评价现在,寻找
14、不难,大部分杂志均可在网上获得。但阅读、评估和得到必须的分析数据绝非易事。仔细阅读所有是必须的。还要特别注意根据同组或者其他研究中的亚组甑别论文。非独立人群的荟萃分析可致选择偏倚。可采用不同方法阅读科学:迅速阅读题目和摘要,有助于明确要点以做进一步考虑;仔细阅读,可利用评分系统;正式阅读,仔细检查中提供的数据。每一个读者均有其处理的自己方式,取决于读者的经验和你想要从中获得的信息。然而,如果要做荟萃分析,需仔细阅读以获取有助于理解结果的不同方面,明确研究的多样性,并解释分析中出现的特别问题。荟萃分析也是一个独特的学习经历,独特之处在于并不依赖于原的结果:反复阅读后可以发现一些初次阅读时被忽视的
15、点,可以体会科学语言的技巧,可以发现字里行间作者未道明的涵义,甚至发现被作者为避免可能的结论歧义而故意遗漏掉的一些数据。换句话说,荟萃分析可以帮助学到很多关于如何阅读、如何写作科学的知识。阅读文献应遵循以下方法,有助于挑选必须的以供荟萃分析。图 2.1 是一基于计算机辅助的收集医学以供荟萃分析的示例。表格供荟萃分析时输入数据。下列信息特别要输入整理。1、一般资料:第一作者的,年,杂志名称以及类型(审阅或是摘要),这些信息有助于获取原文献以供进一步评价。临床试验数目应该按顺序排列,中的参考文献也应该出现在参考文献目录中,这是荟萃分析和写作所必须的。2、试验设计:设计信息,如双盲,开放性试验,随机
16、化,随访时间,以及所有关于设计的特征均很重要,有助于详细理解不同研究的设计方法。收集这些信息应该非常仔细而精确,因为常常是研究设计的不同导致了研究结果的不一致。3、研究组和对照组处理:一个试验是两种处理之间的比较,如一种药与安慰剂的比较,一种新药与老药的比较。此外,登记研究中的药物剂量和治疗时间也很重要。同样,药物剂量或治疗时间或是对照组药物使用的不同均可产生不一致的结论。4、两组事件数、高危患者数以及不同结果是荟萃分析计算的基础。收集不同研究的失访病例数也很重要,以便进行逐个方案分析(protocol)以及按精心选择的标准进行荟萃分析,这是考虑到把失访看作治疗失败,亦即意向治疗分析。这样,分
17、析事件类型(成功或失败)将决定失访在研究中的权重:要么是事件数,要么是治疗病例数。5、质量分析是评估荟萃分析中的文献的研究质量,证实文献高质量标志存在的法。如,双盲可评估为 2,单盲可评估为 1,等等。不同作者提出了不同的评分系统,各有优劣,因此,目前尚无一个评价标准。问题:这些评分系统超出了本书的范围,但仍需考虑下列做荟萃分析时,最好不要使用评分系统,这是因为,一来对共识,二来使用某一个评分系统还会带来另外的偏倚;一个标准的评价系统尚无如果要使用一个评分系统,应该按不同亚组中的分类将不同研究进行归类,然后进行敏感性分析(亚组分析)以证实治疗效果在不同亚组间有无不同;这样使用评分系统是可以接受
18、的。总之,需要的是荟萃分析本身已经能够精确而不带偏倚地评价研究质量了。使用评分系统不可避免地会小样本研究,而偏爱大样本研究,这样会低估一些研究结论,也会另一些研究结论。6、小旗子:给每一个研究分配以不同的小旗子以对其特征进行标识以进行敏感性分析(亚组分析)不失为一个好办法。例如,如果评估不同地区胃癌的所有研究,应将这些研究根据不同地区普通人群胃癌风险进行区隔,有必要进行亚组分析以评估因子对不同地区的胃癌的发生是否有不同的影响。可由于一项研究的多重可分配到多个不同小旗子。这样一来可以轻而易举地进行亚组分析,根据这些亚组分析进一步行荟萃分析也非难事了。统计学过程统计学方法将在第 4 章在详述。本手
19、册将解释如何选择恰当的方法,简要描述这一过程。临床试验结果可表达为比数比(OR)或风险差(RD),也就是流行病学中的绝对风险减少值(ARR)。由于荟萃分析是将多个临床试验结果进行整合的综合比数比(ORp)或综合风险差(RDp)。法,因此所获结果应表达为为荟萃不同研究的不同结果,假定,这些不同结果在评价所有试验的相同效应,所评价效应应该是同一分布群体的一部分。这一假设需得到均一统计学检验。如果假定正确,就可以基于这一假定使用固定效应模型做进一步分析。如果不想受到研究是否来自相同群体的限制,因而,型做进一步分析。其他统计学方法如论。结果解释假定结果的不同取决于研究内和研究间的变异,需使用随机效应模
20、偏倚检验、所须治疗例数检验以及累积荟萃分析将在下面的章节中讨解释荟萃分析结果是一系列评价,具体包括汇总效应样本量大小评估、研究不均一性可能原因评估、荟萃分析稳定性评估以及计算所须治疗例数的评估。这些问题将在本手册的工作流程章节中理论讲解有用得多。,因为对于研究而言,举一个实例要比单纯第 3 章荟萃分析研究中的偏倚多种偏倚可改变荟萃分析的结果。知道这些可能的偏倚,对规避这些偏倚或者至少将其影响降至最低。有多种偏倚可影响荟萃分析的结果。研究估或忽视。常仅考虑偏倚,而对于其他偏倚常常被低本章中,抽样偏倚列举出所有可能的偏倚并给出建议如何规避这些偏倚。抽样偏倚是由于难以检索到某一问题的所有研究造成。1
21、偏倚:通常仅那些有显著性意义的研究才会出来,这说明一些完成的研究未能发表,也就不会被纳入荟萃分析。这些研究的结论不同于已有研究的话,荟萃分析结果可能完全不同。然而,未能因此,包括摘要的分析是一个更全面的荟萃分析。的研究,因此,如如果纳入所的研究常在学术大会上交流,偏倚有两种形式:一致偏倚,即如果某一问题已有公认观点,那么与此问题观点一致的易于,反之则不易。与之相对应的是反一致论新颖而易于被录用。偏倚,与现有观点一致的被认为冗余,而不一致的因结偏倚有三个来源:作者、研究组织者、以及杂志社录用政策。作者和与不愿意结果的。而研究组织者也不乐见未能证明其效果的一个新药或一种新干预措施。偏倚无法消除,有
22、几种方法来评价其有无及其重要性。常用的有:A 漏斗图形法,由 Light 和 Pillemer 提出。计算每一项研究的效应和样本量,若不存在偏倚,作出的图应该是一个倒置的漏斗。X 轴和 Y 轴也可以是一些其他参数,如 X 轴可以是风险比、比数比或风险差等。Y 轴可以是样本量、试验精度、变异等。标准图应该是风险比和样本量。其他图有其特定目的,超出了本书的范围。这一方法较为笼统,因为仅靠视觉来判断数据。但这一方法很常用,因为图易作。这一方法仅适用于包含许多研究的荟萃分析,对于仅有不多的几个研究则不宜应用此法。避免仅根据视觉判断来评价偏倚的一个好做法是使用不对称检验。不对称检验下面将到。B Klei
23、n 法:基于以下假说,如果未的研究与已的研究相比,病例数一样,变异也相同,那么需要多少总数量。结果的研究才能影响荟萃分析结论?这一数量也就是上文中的研究其中,人 W 均系 K 个试验权重的均值。该检验并未确切回答有无偏倚,但在处理偏倚这一问题时,间接检验了荟萃分析的可靠性。此外,定量处理也比较好,META 程序中将使用这一检验来评价偏倚。2 如果仅检索ER 网上的信息,还会有其他偏倚:2.1 索引偏倚:这是由于许多研究未被ER 网数据库收录所致。刚的以及刚被收录的尤其如此。在第二阶段,有必要进行核对,错误常常得到纠正。2.2 检索偏倚:这是由于难以检索数据库中所有收录的ER 网。专业检索研究研
24、究检索率 32%-80%,但非专业检索的检出率远低于此。因此,重视检索策略至为重要。请几个同时进行独立检索并比较检索所得大有裨益。3 如果检索既基于ER 网也基于非ER 网数据库,也存在偏倚:3.13.23.3文献参考偏倚:一些研究被频繁,而另一些研究根本未被,这也会导致偏倚。重复偏倚:不同文章相同内容也会导致偏倚。病例重复计数偏倚:同一组人群的不同亚组分析结果的也会导致偏倚。仔细阅读文献可避免这些偏倚。选择偏倚1 纳入标准偏倚:使用某一纳入标准进行检索文献以供荟萃分析可能排除掉上些有意义的研究,从而造成偏倚。标准一旦建立,这上误差很难检测、定量,因而很难避免。2 选择者偏倚:如果研究的一开始
25、未能定义出精确地选择标准,检索可能使用自己的检索标准,从而得到不同结果。避免这些一偏倚的理想方法是精确确定选择标准,严格按照标准而非结果评价不同研究。研究内偏倚选择好后,从研究结论中常常很难得到荟萃分析所致的偏倚抽样偏倚(extractor bias):这一偏倚由于结论需要的数据。确所致,很常见且又难避免。这一偏倚可对分析结论产生很大影响。两个人进行独立阅读很有好处,可以解决评价不一致的情形。1.2分偏倚:如果评价质量的系统未能严格定义,阅读者的个人判断可以对分析结果产生影响。不采用任何评分系统即可避免这一偏倚。2 研究者研究结果确所致的偏倚:2.1偏倚:设计一个临床试验以评价不同结果,但仅仅
26、那些有显著性意义结果才会出来,就会产生偏倚。可与作者联系以获得所有研究的结果。在一项研究中包含未的数据常常意味着研究质量不高。2.2结果所致。发生率大概有 1%。这一偏倚在误差偏倚:这一偏倚是由作者解释荟萃分析中并不重要,因为这是一个随机误差,样本量足够大时尤其如此,对结果影响其他偏倚下列偏倚考虑得少,但其重要性一点也不亚于上述的几种偏倚。1 地理偏倚:最好不同地区的研究结果汇一起,因为不同地区间疾病发生率和危险可对结果产生重要影响。对所有研究结果进行荟萃分析以获得平均效应是不恰当的。恰当的做法是进行敏感性分析,以评价同一地区研究的亚组情况,然后再决定能否将所有的研究结果汇一起。2 随访时间偏
27、倚:如果结果呈时间依赖性,那么随访时间长短就有临床意义。若研究时间长短不一样,那么使用相同药物相同剂量的不同研究可能得到不同结果。如果不考虑时间依赖性效应,这在临附录很常见,会产生平均效应偏倚。附录部分描述了评价检索的完整性一个不错的技术。这一技术提出了可接受的未被检索到的数量,尽管使用了两种不同检索方法。这是个纠正荟萃分析偏倚的重要方法。这是一个“捕获-标记-再捕获”,生物学家用来计算某一地区单一动物种群总体数量的。譬如,如果想知道地中海鲨鱼数量,可以在一段时间内标记所能捕获的所有鲨鱼,可以计数一定时间内标记鲨鱼出现率,以此来然后将其。标记好的鲨鱼游回大海,推断地中海中海鲨鱼总数。假设一定时
28、间内就某一特定问题基于 MEDLINE 进行检索获得M 篇,基于 INDEXMEDICUS 和以及检索工具检索获得n 篇,那么 m 篇文献肯定包括在上述两组获得的文献中。现在可以建立表格了。基于公式计算值,N,也就是的话):N=M(n/m)最大似然估计对小样本部分会受到总数(检索到和未检索到的)应该是(假定文献来源独立,应用 CHAPMAN 法可获得精确结果:N=(M+1)(n+1)/(m+1)-1N 变异是:具有 95%区间。应用捕获和再捕获方法要求来源独立。第 4 章统计学了解统计学过程对于选择何种检验,为什么选择这种检验至为重要。不同包计算出来的不同结果是不同公式采用不同近似法计算的结果
29、。本章包括几个公式对于理解程序大有裨益。本章包括了荟萃分析的根本要素和重要概念,因此,也有助于总体上理解荟萃分析。前已述及,荟萃分析就是把不同研究结果进行汇总的过程。这一汇总过程并非简单将不同研究结果相加,而是根据研究的精确程度权衡每一项研究结果的过程。事实上,如果依离散宽度,也就是变异,来估计精确度,那么每一项研究的权重 i 可表示为变异的倒数:Wi 是权重,Vi 代表研究结果的变异。换句话说,如果一项研究变异大,那么在最后分析结论中所占的权重就会小。而变异小的研究权重就会大。荟萃分析通用公式表示为总结论 D,这是一个平均权重。可以是 n 个研究总和。分子即上文所述概念,分母可将所用权重进行
30、简单标准化。每一项研究结果已根据其精确度进行了权重分析,旋即就要确定在公式中研究中需要怎样的评价。这要么是所研究的两组间事件发生率的差异要么是比数比。计算中所用到的程序可分为两类:固定效应模型和随机效应模型。固定效应模型这一模型基于如下假说:所获得研究可看作一组,是在评价相同的治疗效应,因此,所评估效应可看作相同人群分布的一部分。然而,这一假设需进行统计学“均一性检验”。这一分析允许研究者评价所评估的研究是否是在处理相面参考。“均一性检验”基于如下公式 :如果均一性假设无效,上述方程近似呈卡方分布,度为 m-1,是 j-n 研究中效应评价值,是累积效应估计值,Wj 是 j-n 项研究的权重。分
31、析结果可表示为下表:A+B 是研究中接受某一治疗患者的总数,A 是研究组中有效例数,B 是未达预期效应的例数。C+D 是依据目前标准治疗方案治疗患者的总数,C 是对照组中有效例数,D 是未达预期效应的例数。计算百分差不是一个的计算问题,可采用下列公式进行:或者下面更为通用的公式:O 是观察到的事件数(,并发症等),N 是研究中患者的数量,i 是新疗法,s 是标准疗法。下面公式计算 95%区间:D 是百分差,SE(d)是百分差的标准误,可由下面公式计算出来:计算出每一项研究的百分差和标准误后,应用荟萃分析的通用公式或获得荟萃结论(2),不会与公式中的 D 相(4)。D 的区间算法如下:(7)“均
32、一性检验”算法如下:(8)D 是荟萃效应,di 和 wi 为百分差和 i-n 研究的权重。比数比有必要做进一步详细解释。可根据不同方法计算比数比。Man-Haenszel, Peto 和 Gart几种方法最为常用。一些例子将逐步进行解释以便于大家理解。A)Man-Haenszel 法根据第 25 页表格中的数据,使用下列公式计算比数比:比数比确定每一项研究间所比较获得的结论。对一些特别罕见事件,比数比可看作相对风险估计值,提示多少次可增加事件发生率。这一情况下,AB 约等于 B,CD 约等于 D。据公式(9),显而易见的是,如果表中包括 0,那么估计值可以是 0 或者是无穷大。为避免这一情形,
33、程序中每一格总要填上 0.5。在与其他别。程序比较时,这会导致结果的差比数比 95%区间可用下列标准公式进行计算:(10)SE(Ln OR)为比数比自然对数的标准误、举一个例子示之,两个关于女性吸烟与肺癌关系的研究,看表 4.1.据公式(9)可计算这两个研究的比数比:比数比接近 1 时,使用下列公式计算近似变异:那么:每一项研究的权重为(据公式(1):利用下列公式(Man-Haenszel)计算计算累积比数比估计值:ORM-H 变异可根据一个复杂公式计算获得,本例中结果为 0.019。用公式(10)计算 95%可信区间,其上下限分别为:1.141.95。由于这一方法优点多,精度高,因而使用广泛
34、,并频繁出现在计算机B)Peto 法Peto 法基于改良 Man-Haenszel 法。中。值,采用标准公式,边缘总数乘积除以 n,具体可见表 4.1,第一步是计算每一组事件于是会得到:然后计算实际事件和事件之间的差值:这些定量资料的变异为:于是得到:计算 ORp 自然对数值:于是得到ORp=exp(Ln ORp)=1.46按下列方法计算 95%区间:很容易得到上下限:1.131.90。采用 Peto 法,某一格子中出现 0 不影响计算,因此也就无需进行近似处理。均一性检验Man-Haenszel 法:Peto 法:Q 呈卡方分布,度为 n-1 项研究,如果荟萃分析包括研究不多,其检验效能很低
35、,因此均一性假设常常并非总是一个有效的检验,很难证明正在检测相同分布人群。特别值得注意地是,不同研究显而易见的临床异质性并不能总能得到统计学证实。需要进行敏感性分析以证实临床资料的不同是否影响了荟萃分析结论。随机效应模型这些模型的分析方法无须每项研究假说均来自相同群体,因此,n 项研究可看作不同人群的一个单独部分,各自有其自己的均值。因此,估计值变异有两个来源:研究内和研究间。 DerSimonian-Laird 法适用于 Ors,可进行下列计算:其中S 是研究数目,且,选用固定效应模型还是随机效应模型并无广泛共识。下一章节将在这方面做详细地理论说明。异质性定量详细地理论探讨定量评价异质指标已
36、非本文目的。定量评价异质指标主要有三个:H 是异质性检验卡方值的平方根除以其度。H 描述了与度相比,Q 中相对剩余。R 是随机效应荟萃分析所得均值与固定效应模型荟萃分析所得均值的比值。该值描述了随机效应模型与固定效应模型相比,荟萃估计值区间的夸大程度。I2 是 H 的转换值,该值描述了由于异质性获得的研究估计值总变异中的一部分。这些指标的主要特征以及优势在于:取决于异质性大小;标准恒定;样本恒定。偏倚定量计算截距和 B 系数的过程与回归分析相同。第 5 章 实例分析荟萃分析的实质依赖仔细分析数据,依赖于数学方法,也依赖于标准又不失创造性图形处理。接受统计学的监督,或者至少将所获结果与其进行对于
37、全面理解荟萃分析以及更好地使用统计。本章按分析实例逐步解释如何成功处理荟萃分析过程中遇到。理解下列实用的指南有助于正确地进行荟萃分析,也有助于对别人荟萃分析作出正确地评价。对于后一种情况,分解所有来解释研究如何进行荟萃分析。作为一个新起动项目,可按照下列说明重复已的荟萃分析。按前述的过程完成研究设计、文献检索和研究评估后,就可进行荟萃分析并对结果进行解释。数据准确性一旦录入数据,计算完成,就可进行结果评价。荟萃分析输出结果必须包括原始数据,以便检测输入错误。数据检索必须总是以论著的形式以便独立地进行分析和评价。荟萃分析中缺少原始数据意味着可能的错误,表明作者可能不愿意让其他研究者再次检测其统计
38、方法是否存在这样那样的错误。图 5.1 为例 1 的数据,系一系列临床试验研究西米替叮治疗 4胃溃疡愈合情况。按时间进行排序,这是中一个标准的数据排列方式。特定情况下可用不同表示方法,如根据样本大小或者对照组事件频数评价某一效果。两组有两列数据:使表格易读,先输入对照组数据,再输入研究组数据。数和事件数。为资料收集齐后,就可按程序(PP)进行荟萃分析了,或者有必要进行意向性分析,做意向性分析(ITT)时,失访病例看作治疗失败。程序(PP)分析时,失访病例未进入分析,病人数自动从研究总人数中扣除。做意向性分析时,如果事件是好的,如溃疡愈合,数不作修改,如果事件是坏的,如,溃疡或得发等,失访病例应
39、添加至观察到的事件人数中去。这一程序目前应用在生物医学研究中,但问题在于将某一研究对像分配至所观察到的事件组中去系一系统行为,而非随机方法,这与恰好与意向性分析过程所要求的背道而驰。本文所给的例子中,数据未包括失访病例,在那个年头这是说得通的,西米替叮治疗胃溃疡是一个不小的发明,病例数很少,随访时间也短,只有四周。除一篇摘要外,所以研究均为论著。总之,该荟萃分析采用了 14 个研究,大多样本量小,共有 925 个安慰剂,474 例服用西米替叮。评价每一项研究的输出值,451 例服用使用时,选择菜单中所显示的所有的选项评价输出值。图 5.2 显示了“简化”输出结果,包括了每一项研究根据 Gart
40、 和 Peto 法计算获得的风险差和比数比。对于标准处理过程,这一方法已是绰绰有余。可以发现,单个研究结果相互显而易见:事实上,7 项研究显示西米替叮本例中,显著优于对照组,而另 7 项研究则未能显示这一优势。图 5.2考虑到 75%区间则更为显而易见,如果区间包括比数比或者包括 0(在风险差时),则结果无统计学差异。然而图 5.2间值,无论是比数比还是风险差,均支持西米替叮,与所纳入的研究结果均一致。这表明无统计学意义的结果可能是由于样本量小所致。荟萃分析所获结果可证实一怀疑。图 5.3图 5.4如果需图 5.2 中的详细分析,可选择扩展结果选项,输出结果就会如图 5.3-5.5 所示。图
41、5.3 为两组病例按列组织的风险差(RD)数据,列中还给出了病例数,事件发生率(治愈率),百分差及其相对标准误,风险差(RD)95%区间。图 5.5图 5.4 是根据 Gart 法计算得到的比数比,而图 5.5 是根据 Peto 法计算得到的比数比。Peto是基于研究中值与观察值之差,即使单元格包含 0 也不影响结果。并非每一个荟萃分析均需要扩展结果选项,因为扩展结果选项仅是一些计算细节而已,对于分析本身并不能增加额外信息。评价累积效应显示荟萃分析小结的打印页有两个不同部分。第一部分是根据固定效应模型所做的分析。这一模型要求所有试验的治疗效应估计值来源于相同分布人群,并需要一些程序的证实。首先
42、是 Galbraith 图,将在下面的章节中次是检验统计学异质性,这很精确,因为没有图形所固有的任何近似。本例中数据的累积效应见图 5.6。其Q 代表异质性检验的结果,为一卡方值,其下是度,假设为来自于均一总体。统计学意义位于相同部分(p(Q)。有四种方法进行异质性检验,具体采用哪一种,与所选用的程序,所评价的数据有关。这一方面将在下面到。一旦异质性检验无统计学意义(P0.584),不同研究来自相同群体的假设即可成立,因此就可继续使用表中信息(见图 5.6)。图 5.6如果注意列“百分差”,那么第一行表示平均效应。西米替叮组和安慰剂组平均效应差为 23.3%,95%区间为 17.229.3(最
43、下面一行)。这一效应具有显著意义,从区间不包括 0 可以看出来,也可从第四行的 P 值看出来。其他列为采用前已述及的过程计算获得的比数比。差别,是由于每项检验计算方法不同所致,部分是由于采用了 Gart 和 Man-Haenszel 近似法所致。表中第 1 行至最后一行分别为比数比自然对数值、标准误、Z 值及其相应 P 值、Q 值及其相应 P 值、度、比数比以及区间。异质性其他考虑图 5.6 中给出的例子,异质性检验无统计学意义,荟萃分析时应仅使用前面所列呈的数据。但是,如果异质性检验有统计学差异,必须使用随机效应模型。值得注意地是,当异质性检验有统计学差异时,如何进行评价和解释目前尚无共识。
44、如果异质性检验有统计学差异,表明这些研究不是来自相同群体。需寻找异质性原因并评价这些“异类”研究。还要进行包括和不包括这些“异类”研究的荟萃分析。然而,即使仔细阅读文献也不能发现异质性的原因,还是可以应用随机效应模型,因为这一模型并不要求所有的研究均来自相同群体分布。因此,区间较宽,模型也较为保守。众多观点认为应该使用随机效应模型,因为(1)与固定效应模型相比,当异质性检验无统计学差异时,结论非常接近,(2)随机效应模型所获得的结论相对保守,(3)生物学检测由于变异而具有固有的异质性,而随机效应模型可表现这一变异。荟萃分析的目的不仅仅限于计算平均效应,而是在于获得有意义的处理临床问题的,这些问
45、题目前尚无肯定。基于此,需要再次阅读原文献以理解和解释数据中所包含的信息。研究者同时还要能形成自己的观点,对输出结果存在可能的争论时显得尤其重要,譬如研究的异质性。图 5.7图 5.7 总结了的流程,这一流程显示,如果无统计学异质性,首先考虑使用固定效应模型。然而,由于前已述及原因,使用随机效应模型并不改变结论。出现异质性时,不可以忽视它。反复阅读文献以识别譬如纳入标准、排除标准、研究对像特征等方面可能存在的差异,进而把研究区别开来归入相同群体分布组。如果这一偿试成功的话,使用固定效应模型进行亚组分析可解决异质性问题。另一方面,通过阅读文献,如果发现统计学异质性系研究样本变异的一部分,并非由于
46、研究组的不同或是治疗方法的不同而引起,在这一情况下(也只在这一情况下),建议使用随机效应模型。随机效应模型所获得的结论可使用前面所述的相同标准进行解释。图 5.8 结果与采用固定效应模型所获得的结果非常相似,因其无统计学异质性。如果存在异质性,有几个不同,特别是在比数比的的方法叫 DerSimonian-Laird method。区间大小方面。随机效应模型中用来计算比数比图 5.8异质性定量分析:I2 指数如所周知,Cocharane 异质性 Q 检验当包括不多的研究时其统计效能低。这时,界值设定为10%有统计学意义比较合理,即使犯 I 类错误的可能会增大(假阳性结论)。相反,当荟萃分析包括许
47、多研究,特别是大量研究时,该检验表现卓越工,可检出临不起眼的异质性。此外,该检验可检测各种异质性,不光是由于研究的不同所致的真正的异质性。解决这一问题的一个非常有用的办法就是将所有研究的总变异进行区别,即真异质性和偶然异质性。I2指数为所有研究总变异中由于异质性变异所占的百分比。一些作者武断地将 I2 值 25%,50%和 75%分别看作低,中和高异质性。然而,尽管 I2 指数和 95%性,但这些值并未用于决策判断。程序给出了四种方法计算 Cocharne 异质性 Q 检验的 I2 和其 95%区间有助定量评价异质区间。偏倚检验偏倚已面的章节中做了。当荟萃分析结果有统计学意义时,需检验1Kin
48、 公式法:这一方法未能回答有无偏倚。常用的有下面 3 种方法:偏倚,但回答了,如果存在偏倚,需要多少无效研究或结果的的研究才能使用荟萃分析结果无效。这一数据可自输出结果中自动获得,类似于图 5.9 所示。这一情况下,检验表明 155 项无效研究可使荟萃分析结果无效,因此,认为结果可靠。尚无实际使用这一检验结果的指南,特别值得注意的是,尚无一个界值来证实荟萃分析结果,这时靠的是和实践。图 5.9漏斗图法:这一方法见第 3 章和第 7 章。漏斗图不对称检验:一旦获得了比数比(Y 轴)和精度(X 轴)估计值,可给每一项研究画一条回归线。如果无偏倚,Y 轴截()距必然为 0。如果的 95%可以说不存在
49、偏倚。相反,如果的 95%区间不经过 0,区间经过 0,可以说存在偏倚(见 5354 页)。荟萃分析页给出了截距、95%区间及其 P 值(图 5.9)。所需病例数(NNT)另有一个重要而又有趣的计算是获得荟萃分析有意义的结论所需的病例数。比如,如果荟萃分析的目的是为了评价一个药物对一年生存率或溃疡愈合的效果,那么 NNT 将给出需要治疗多少才能看到两组间一个的差异。再比如,评价西米替叮和安慰剂治疗胃溃疡愈合率,NNT4 意味着与安慰剂比较,需用西米替叮治疗 4 个获得最后的统计学差异。这一信息可用于药物经济学评价。,并有一个额外愈合才能当评价临床试验或荟萃分析的某一个新药效果时,结果将引导得出
50、结论新药是否显著优于标准治疗方案。但并未获得两组治疗方案差别大小(采用率比较),NNT 可定量检测治疗效果。病例数为累积风险差到数,因此,依固定效应模型或随机效应模型出两个不同值,这两个值均由程序计算获得,一并给出 95%示图区间(图 5.9)。这一部分介绍使用图示法给出荟萃分析的结果。数值可来自固定效应模型和随机效应模型。本例中,因未发现异质性,因此使用固定效应模型计算值作图。图 5.10 是一张标准森林图,荟萃分析的中很常见。每一项研究均示以比数比和其区间,以小方盒和小方盒两端的两条线来表示。如果差异。在左侧,方框外面,给出了每一项研究的参考文献。区间跨过垂线,提示结论无统计学尽管均使用自
51、然对数计算 OR 值,但结果易于理解。但刻度须是自然对数值,以便中使用 OR 值而非其自然对数值更为恰当,这样区间的两条线对称地分布在小方盒的两边。图 5.10所有的研究均显示了西米替叮疗效优于安慰剂组的趋势,尽管有些研究未达统计差异,部分原因在于样本量小。在底部,方框外面,累积 OR 值显示西米替叮显著优于安慰剂。尽管此图已成为荟萃分析经典表示方法,但并未给出一项研究的 OR 值及其相应的区间。的信息。事实上,此图仅给出了每结果也可表示为风险差。图 5.11 基于上述相同数据面而做的。需要注意的是,此图中使用了风险差(RD)、刻度为线性的而非对数值,垂线代表 0 而非 1。图 5.11For
52、est 法提供了更为详细的数据信息(图 5.12)。此图中,图形部分与图 5.9 和图 5.10 中的一致,但提供了额外的信息:作者、时间、每一项研究的病例数。这种图也可使用 OR或 RD 形式表示。图 5.12累积荟萃分析图系解决不同问题一个特殊的办法。示例见图 5?4.12。此图中,研究必须按出版时间进行排列。以时间为序,第一个 OR 代表第一项试验,第二个 OR 代表第一和第二项试验累积 OR 值,第三个 OR 代表前三个试验累积 OR 值,余类推。最后一个 OR 值为荟萃了所有研究得到的数值。换句话说,此图表示每一项新研究进入以前的荟萃分析后如何影响荟萃分析结果。图左边列出了每年加进来
53、的数。由此图可以看出,1977一年研究的证实。1978为荟萃分析所解决年最初的两项研究结果已经肯定了西米替叮疗效,这一结论得到下年以后的研究可以看作是不必要的甚至是有害的,这是因为给已经增添了变数。后来的研究增加了的进行荟萃分析,获得了更为精确的 OR 估计值,但依然未改变原有结论。图 5.13累及荟萃分析可以对的文献作回顾性评价,并可能使标准荟萃分析显得无必要。但最终累积 OR 值,无论是采用标准法还是采用累积法,均是一致的。采用百分差来表示时图形类似。解读数据相似,唯刻度是线性的。Galbraith 图Galbraith 图提供丰富信息,图中一个数字代表一项研究。图中 X 轴代表研究精度(
54、图 5.14, a 线),可以是 OR 值比数比的倒数,也可以是离散度的倒数Y 轴代表标准化 OR 值对数(图 5.14,b 线)为效应大小,点靠近原点表明研究提供的信息量差,远离原点的点表明研究精度高,在荟萃分析中具有较高权重。图 5.14对于每一项研究而言,通过原点画一条线指数刻度可获得 OR 值,经过点为该研究(图5.15),c 线)。在原点和 Y2 之间画两条线,对就刻度表上的值,即为近似d 线和e 线)。区间(图 5.15,图 5.15Galbraith 图包括三条连续线(图 5.16,f 线, g 线, h 线)中间一条粗线指向刻度表上的(f 线)累积 OR 值,区间为与刻度表相平
55、行的一段弧(i 段)。程序自动计算出这三条线、弧段,以及 OR 值及其 95%区间。图 5.16始于原点和 Y2 的两条线(图 5.16 中 g 线和 h 线)为均一性区间。如果一个或试验)落在区间之外,说明这些研究存在异质性。点(即如果存在异质性,需按前述方法进行处理。Gallbraith 图与传统方法相比包含了非常丰富的信息:研究精度、均一性区间等。图 5.17 为西米替叮对安慰剂治疗胃溃疡愈合率的 Gallbraith 图。可以发现:1)所有研究均处于均一性区间内;2)所有研究均处于图形上方;3)所有研究均有利于西米替叮;4)几个研究的相对误很大,这几个研究的样本量都很小。图 5.17图
56、 5.18 为为百分差 Gallbraith 图,等效线值为 0,刻度为线性值。IAbbe 图图 5.19 为 IAbbe 图。图中每一个数字代表一项研究。XY 轴对应值为对照组和治疗组实际观察事件发生比例。实线表示两组事件发生率相同。另两条线表示两组间 25%和 50%差异的两个点。含有研究号的圆圈大小与研究样本量大小一致。此图有助于理解某些异质性的原因,下面将给出上些具体的例子。图 5.19漏斗图图 5.20 为一漏斗图,所有研究均绘在 XY 轴上。X 轴为对数刻度,代表 OR 值,Y 轴亦为对数刻度,代表样本量。漏斗图中包含的所有研究沿累积 OR 值呈对称分布。图 5.20图 5.21
57、为一荟萃分析图,研究了某种药物减少的效果。漏斗图显示沿累积 OR 值呈明显不对称分布。由图可知,大样本的研究效果差。这可能是由于这一不对称引起,也可能是由于缺少小样本的以及结果的的研究而造成的。使用这一图形法,需注意结果非定量的,仅靠视觉来判断,有些情况下是显而易见的,有些则不然。图 5.21漏斗图不对称检验图 5.22 为图 5.20 的漏斗图不对称检验。由于截距的 95%偏倚。区间经过 0 点,因此,无图 5.22图 5.23 为图 5.21 漏斗图不对称检验。由于截距的 95%版偏倚。区间不经过 0 点,因此,存在出图 5.23亚组分析图图 5.24 表明亚组分析如何有助于理解样本异质性
58、。许多研究评价了生长抑素预防 ERCP 后胰腺炎作用。荟萃分析表明该药物没有显著疗效,但试验中观察到存在巨大变异令人怀疑是否是因为试验设计中导致了这一巨大差别。因此,试验根据生长抑素给药方法进行了分类:三项研究为静脉弹丸注射给药,另三项研究为缓慢静脉给药,还有五项研究为持续静脉滴注。亚组分析表明,第一类和第三类给药方法有显效,而第二类给药方法与安慰剂相比无显著疗效。这是否真实反映了药物疗效需要临床试验进一步评价,以测试这一明显的差异。由生成的图形易读且可在一张图显示多个荟萃分析数值结果和综合图:分别表示评价的亚组,以及所有组。此外,根据固定效应模型和随机效应模型计算所得的累积 OR 值也可显示
59、出来。朝荟萃修改数据库。输入不同研究时可添加标志以便于识别,这样也易于进行亚组分析,并避免亚组分析是寻找导致研究结果不同的原因的强大工具,这些研究结果不同并非由于药物质量或评价过程不同而引起。图 5.24第 6 章如何阅读、评价和荟萃分析荟萃分析必须包括做了什么,如何做的所有细节。严格遵守规确地进行荟萃分析,就可获得一篇很好的荟萃分析。但为了更好地解释结论,做的还不够。荟萃分析结论。、临床医师、以及所评价课题这一领域的的密切合作才能最佳地解释如何阅读和评价荟萃分析阅读一篇科学文献,不仅要学习研究者的经验,也要评价研究过程和方法对于研究的总体价值。这样有必要提出定性评分。定性评分可用于定量而客观
60、地评价质量。做荟萃分析,特别是临床试验时,需进行严格地临床评价然后才能得出结论。评价荟萃分析最常用的标准见图 61,此图在网上易获得:荟萃分析的十条规则:1、作者是在按照的程序进行写作吗?2、作者仔细回答了荟萃分析所要回答3、研究策略描述清晰吗?吗?4、荟萃分析中的所包括的试验5、信息如何整合?价了吗?6、试验中的患者特征有没有包括进来?7、有没有使用图来表示结果?8、研究了结论的异质性吗?9、总体治疗获益如何?10、考虑到偏倚了吗?这十条规则已包含了荟萃分析的所有技术和方法学,尽管并非所有作者均接受这十条规则。尤其是,规则 4,尽管研究者均注意到荟萃分析所纳入的研究的准确性和科学价值,但均未
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024国际集装箱多式联运合同
- 2024年专业商品混凝土采购合同样本版B版
- 2024年废旧物资交易合同6篇
- 基于二零二四年度计划的共享经济平台运营合同3篇
- 2024年城市供水系统阀门采购合同3篇
- 2024年东莞租赁住宅合同样式指南
- 2024年北京市存量房买卖合同3篇
- 2024版建筑智能化系统升级改造合同2篇
- 2024年新版工艺品交易协议格式版B版
- 物资采购供应承揽合同三篇
- 2024年河北产业投资引导基金管理有限公司招聘笔试参考题库含答案解析
- 放射性物质的辐射剂量监测与评估
- 预防艾滋病梅毒乙肝
- 叉车工年度工作总结报告
- 特种作业人员安全培训
- 如何培训村后备干部课件
- 家具类抖音直播策划方案
- 我的家乡-盐城课件
- 急诊科2023年度急性脑卒中工作总结及计划
- 幼小衔接视野下大班幼儿学习习惯的现状调查及养成策略研究
- 部编人教版五年级上册小学语文全册教案(教学设计)(新课标核心素养教案)
评论
0/150
提交评论