证据质量分级的grice方法_第1页
证据质量分级的grice方法_第2页
证据质量分级的grice方法_第3页
证据质量分级的grice方法_第4页
证据质量分级的grice方法_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

证据质量分级的grice方法

1g三维证据质分级模型在之前的两篇文章中,我们介绍了franet,并总结了整个过程的状态,以及风险总结表和结果总结表(sofs表),以描述创建问题和确定结果的过程。这是第三篇文章,我们将介绍证据质量分级的GRADE方法。目的是提供该方法的一个概念性介绍。更详细并附实例的说明将在那些有关可能导致降低或提高证据质量因素的后续文章中提到。2证据的质量包括什么论及证据质量,证据与意见及证据质量与推荐强度常常引起困惑。因此,我们从解释证据质量不包括什么开始。3专家证据的运用缺乏高质量证据时,临床医生必须寻找较低质量证据以指导其决策。在这种情况下,当指南制定者将“专家意见”作为一类证据时,困惑就出现了。形成推荐总是需要专家们的意见,专家意见基于诊治病人的经验,对生物学及其机制的理解,以及对临床前期、早期临床研究及随机对照试验与观察性研究结果的知识与理解。指南制定者应该总是让专家参与来帮助理解证据,同时他们必须揭示并说明专家意见的证据基础,对该证据进行质量分级,而不是对来自于证据及其解释之后的专家意见进行分级。现举一个实例来阐明证据与专家意见的区别:假设参加医学生及住院医生的小组讨论,某内分泌学家解释了糖尿病严格控制血糖的理由,他的两种断言及其所引用的支持证据见表1。对意见1,他引用的证据完全是他的个人临床经验。对意见2,他引用了自己的经验并参考了临床研究证据(仅仅是一句概括性说明)。似乎有理由认为意见1可能在一定程度上基于仔细的观察。如果述说乏力、多尿或其他症状的病人几天后回来说他们好些了,则开始进行治疗是最可能的解释。而没有述说的病人几天后回来说她有多么好的现象特别令人难忘。遗憾的是,对这些观察存在很多其他可能的解释。该内分泌专家对病人报告有利情况的程度这一印象可能不准确,他可能会忘了病情没有得到好转的病人,或病人的明显好转是由于疾病的自然史或安慰剂效应,问题出在临床医生方面或病人想取悦医生的愿望。最起码地,如果没有用一个严格设计的结构化方法收集数据,我们可以认为该内分泌专家对自己临床经验的报告(而不是他自己对那一经验进行解释后而得出的意见)是来源于无对照病例系列的证据,并将其划归为极低质量。意见1的证据中所蕴含的定义不清的研究设计是一个前后对照研究,意见2则为一个包含严重问题患者的平行对照研究。如果该医生的记忆是准确的(在他的临床实践中,严格控制血糖的病人确实获得了更好的结局),原因可能在于:病人成功控制血糖反映出其基础疾病的差异,而基础疾病与可能患的并发症高度相关。这种未经辨识的预后不平衡及内分泌专家对事件记忆不可靠、不精确而造成偏倚的可能性会使我们再次把他的观察结果判定为极低质量证据。4高质量证据是否可能与强推荐第二个困惑是区分质量评级与作出推荐。本系列后面的文章将详细讨论GRADE方法用于确定推荐的方向与强度。在此,我们将强调把对证据群的质量评估过程从作出推荐的过程中明确地分离出来的重要性,而这些推荐部分是基于那些质量评估。虽然较之较低质量证据,较高质量证据更可能对应强推荐,但某特定质量等级的证据并不意味着特定强度的推荐。有时低或极低质量的证据仍可得出强推荐。例如,考虑用阿司匹林或对乙酰氨基酚治疗患水痘儿童的决策。观察性研究已观察到使用阿司匹林与瑞氏综合症存在关联。由于阿司匹林与对乙酰氨基酚的镇痛和退热作用相似,有关阿司匹林潜在危害的低质量证据并未妨碍对对乙酰氨基酚作出强推荐。同样地,高质量证据并不一定意味着强推荐。例如,对首次出现没有明显刺激因素的深静脉血栓形成(DVT),在抗凝第一个月后患者必须决定是否继续长期服用华法林。高质量随机对照试验表明,继续服用华法林会减少血栓复发的风险,但将以增加出血风险和不便作为代价。由于不同价值观与偏好的患者可能作出不同的选择,指南委员会对患者是否应继续或终止使用华法林可能会提供弱推荐,尽管存在高质量证据。5利益相关者的意见或推荐GRADE将系统评价中的质量评价部分与指南制定过程中的质量评级区分开来。因此,我们提供了证据质量的两种定义。GRADE最佳的运用要求系统评价备选管理方案对所有病人重要结局的影响。系统评价中的证据质量分级反映的是我们认为效应估计值正确的把握程度。形成推荐时,质量分级反映的是我们对效应估计值足以支持某决策或推荐的把握程度。不同定义的原因在于制作系统评价不包括作出严格推荐所需的过程。特别是,除非系统评价小组中包括这样的成员,他们将使用该系统评价作为指南制定的一部分,否则系统评价员通常不会去权衡遵照推荐的有利或不利结果。利益相关者更适合去作出这些判断。如上述DVT的例子,系统评价可提供有症状的血栓栓塞及出血的可靠效应量估计值及其可信区间,及与这两个事件相关的病死率,但系统评价员不能提供关于华法林治疗的获益是否值得冒其风险的可靠判断。这样的判断还必须考虑价值观、费用及利益相关者的有关投入。另一方面,一个指南(或应用系统评价证据的临床医生)作出抗凝决策时必须评估证据质量。考虑到这方面的权衡,指南委员会必须决定是否推荐抗凝(及推荐强度),这种决策需基于对有症状的血栓栓塞风险的影响及其效应估计的可信程度,及相应严重出血风险估计及其可信程度。虽然质量评估的过程一样,系统评价员及指南制定者将有区别地使用这套标准。在本系列第五篇文章中我们将着重讨论这种标准运用上的不同,该文将涉及证据质量分级的精确性评估。6g评论员的研究风险g底,g底临床流行病学文献中使用的“质量”通常是指对单个研究内在效度(如,偏倚风险)的判断。要作出分级,对对照试验而言,评价员考虑这样一些特征如随机、隐蔽分组、盲法及意向治疗分析的运用。对观察性研究,他们考虑恰当地测量暴露与结局及适当控制混杂。对对照试验和观察性研究他们都要考虑失访的问题,及设计、实施与分析中影响偏倚风险的其他因素。GRADE判断不是针对单个研究而是针对证据群,GRADE中的“质量”不仅意味着偏倚风险。证据群(如许多设计与实施良好的试验)可能与低偏倚风险相联系,但我们对效应评估的信心可能会因其他因素而降低(不精确、不一致、间接性及发表偏倚)。尤其与观察性研究有关的另一些因素,包括效应量大小与量效关系的存在可能使我们提高质量评级。GRADE特别使用的术语“质量”与“偏倚风险”(GRADE之前版本称为“研究局限性”)要求作者们在系统评价或指南中描述其发现并进行推论时谨慎使用。实施良好的研究可能作为被定为低质量证据群的一部分,因为这些研究仅为所关心的问题提供了间接或不精确的证据。尽管临床流行病学家和其他人已经赋予了“质量”(通常是偏倚风险)一词其它意思,但我们相信此处更多地是指通常和非专业上对“质量”这个词的理解。7当前定义与之前定义的比较尽管证据质量是连续的,GRADE方法最终将证据群的质量分为高、中、低和极低四类。这四类质量各自的GRADE含义见表2,并将当前定义与之前的定义作了比较。之前的定义侧重证据等级对将来研究的意义(质量越低,则将来的研究越有可能改变我们对效应估计的信心及效应估计值本身)。之前定义的特征受到批评,我们认为是合理的,因为很多情况下我们不可能期待将来会有较高质量的证据。但我们也认为,当有理由相信将可获得新的有力证据时,之前的质量分级特征不失为是一种替代的方法。8病人证据质量及原因评价当我们谈到质量评价时,指的是对所有研究每一重要结果的总体评价。正如本系列前一篇探讨构建问题的文章中所讨论的,评价证据质量之前系统评价员和指南制定者应确定所有可能的病人重要结果,包括有益的、有害的及费用。然后,评价员才评价每一重要结果的证据质量。表3总结了证据质量分级的GRADE方法,该方法始于研究设计(试验或观察性研究),然后列出5个可能降低证据质量的理由及3个可能提高质量的原因。本系列后续文章将会详细地解释这些标准每一条的意思及怎样使用。此处,我们仅讨论了为什么特别确定这些标准作为评估证据群质量的重要指标。9g节拍研究中的信任风险为了对决策者、临床医生及患者有用,系统评价必须不仅要提供对每个结果的效应估计,而且要提供判断这些效应估计值是否可能正确所需要的信息。系统评价中与研究相关的哪些信息会影响到我们认为效应估计正确这一信心?为回答这一问题,兹举一个实例。假设你被告知最近一个Cochrane系统评价报告:对慢性疼痛患者,与安慰剂相比,局部运用水杨酸治疗达临床治愈需要治疗的患者数(NNT)为6,95%CI(4,13)。你还将去寻找哪些附加信息以帮助你决定是否相信这一估计及怎样应用该结果?最明显的问题可能是:合并了多少个研究得出这一估计值?这些研究包括多少例患者?效应估计值的可信区间有多宽?这些研究是随机对照试验吗?这些研究有重要的局限性吗?如盲法缺失或对比组间失访差异巨大或有差异?这些问题迄今与GRADE分类中的不精确及偏倚风险有关。还有其他重要问题:是否有证据表明还开展了更多的研究探讨该疗法,而其中有些无法被评价员所获得?如果是这样,该系统评价结果有多大可能反映了这种疗法的全部经验?试验结果类似或差别很大?是在合适的时间测量结果吗?或研究持续时间太短以致不太适当吗?干预措施涉及身体的哪些部位(由此我们能确信地将这些结果应用于哪些部位)?后面这些问题指的是GRADE分类中的发表偏倚、不一致性和间接性。没有这些问题的答案(或起码的相关信息),就不可能确定对所报告的NNT和可信区间的把握度。GRADE确定了5类因素——偏倚风险、不精确、不一致、间接性及发表偏倚,因为它们几乎涉及到了影响证据质量的所有问题。此外,对任何给定的问题,上述每一类别的相关信息可能对判断估计值正确的可能性很有必要。这些类别是GRADE成员通过基于实例的过程达成的分类,成员们筛选了与评估研究质量相关的广泛的影响话题与因素。所有潜在因素都被考虑到了,并通过反复地讨论与评审,仔细审查所关注问题并聚焦应对措施,从而在这5类上达成了共识。就质量而言,GRADE方法意味着每个系统评价都应提供每一类的相关信息(特定情况下还应包括任何其他相关问题)。决策者,无论是指南制定者或临床医生,均发现很难利用那些没有提供此类信息的系统评价。好的系统评价和临床实践指南一般都运用明确的标准着重评价了偏倚风险(研究局限性)。但评估重点通常是对每个研究的所有结果而不是对所有研究的每一个重要结果。常常未评估其他因素,这些因素决定了在多大程度上可相信效应估计值。采用GRADE之前,系统评价报告标准尚未清晰阐明应如何报告此类信息。GRADE为系统评价和临床实践指南提供了一种结构,以确保其以一贯、系统的方式去探讨与某特定问题相关的所有结果证据质量评价的关键问题。10g评论员间证据质量的主观把握度最后,我们提醒要防止将标准机械地应用于提高或降低证据质量级别。尽管GRADE建议最初分开考虑降低证据质量的5类因素和提高证据质量的3类因素,然后对每一情况作出是否提高或降低质量的决定,但证据整体质量的最终评价是一种连续性的把握度,包括对有效性、精确性、一致性和结果适用性的把握度。从根本上讲

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论