真实世界临床研究证据分级的思考与初步探索-费宇彤_第1页
真实世界临床研究证据分级的思考与初步探索-费宇彤_第2页
真实世界临床研究证据分级的思考与初步探索-费宇彤_第3页
真实世界临床研究证据分级的思考与初步探索-费宇彤_第4页
真实世界临床研究证据分级的思考与初步探索-费宇彤_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

tVolNo·方法学·真实世界临床研究证据分级的1.北京中医药大学循证医学中心(北京100029)2.北京中医药大学国际循证中医药研究院(北京100029)3.北京GRADE中心(北京100029)【摘要】真实世界证据(RWE)的形成、评价及等级的划分,是影响真实世界研究方法深入发展和科学使用的重要因素。本文简要回顾临床医学研究设计等级与证据等级,提出真实世界临床研究证据分级的要点,包括强调内部真实性与外部真实性的综合评价、确定真实世界证据的起评点和使用真实世界证据质量评价方法三个方面;基于国际较为认可的“证据推荐评估、开发与评价分级标准(GRADE)”,结合真实世界证据的分类及特Thinkingandexplorationforgradingreal-worldevidenceformationevaluationandgradedivisionofrealworldevidenceRWEarebottlenecksrestrictingthein-depthdevelopmentandscientificapplicationofreal-worldstudymethods.Thispaperbrieflyreviewedthedesignresearch,includingemphasizingthecomprehensiveevaluationofinternalauthenticityandexternalauthenticity,determiningthe"startingpoint"ofreal-worldevidence,andusingthereal-worldevidencequalityevaluationmethod.Basedontheinternationallyrecognized"gradingofrecommendationsassessment,development,andevaluation(GRADE)",combinedwiththeclassificationandcharacteristicsofreal-worldevidence,apreliminarygradingschemewasKeywordsReal-world;Levelofevidence;GRADE;Gradingsuggestion近年来,随着真实世界数据(real-worlddata,RWD)的不断增多,真实世界研究(real-worldstudy,RWS)已逐渐成为医学研究的关注点之一。国内外监管决策部门和学术组织也对真实世界证据(real-worldevidence,RWE)的使用提出了多个指导原则和发展框架[1-6]。然而,如何对RWE进行评价和对证据等级评估,成为目前亟待解决的问题[7]。本文根据目前临床研究证据等级发展现状,基金项目:国家自然科学基金项目(编号:82074282)通信作者:费宇彤,Email:feiyt@#共同第一作者提出真实世界临床研究证据分级的要点,参考“证据推荐评估、开发与评价分级标准(gradingofrecommendationsassessment,development,andevaluation,GRADE)”对RWE分级进行思考,形成分级建议方案,为未来研究提供一定参考。究的设计等级与证据等级临床研究设计包括了流行病学与临床流行病学所涵盖的各种以人为对象的研究类型。临床研究证据,是围绕一个特定研究问题而形成的研究发现的总和。这些研究发现是经过临床研究设计、实施、统计分析后获得的。一个临床研究的发现是否能够成为某一特定研究问题的证据,取决于该临床研究和各项参数是否与特定研究问题密切相关,是否能对研究问题的解答提供证据支持。临床研究证据分级经历了较为漫长发展,不同组织机构制定了多种多样的证据分级体系[8]。当前最为公认的是2000年由加拿大McMaster大学的GRADE工作组提出的GRADE证据等级体系[9],其已被包括WHO和Cochrane协作网在内的19个国家110多个国际组织、协会采用。该体系以研究设计本身的等级为起评点,同时综合考虑实施质量和外推性来定级。而在此之前,已发表的主要“证据等级”实际上更适合被称作为“设计等级”。这主要因为这些等级系统主要考虑各研究设计类型对偏倚风险的控制能力,而没有考虑研究的实施质量及作为证据应用时的直接性问题。例如,1979年最早由加拿大定期健康体检工作组(CanadianTaskForceonthePeriodicHealthExamination,CTFPHE)形成的医学证据分级体系[10],1998年英国牛津大学循证医学中心(Oxford-CenterforEvidenceBasedMedicine,OCEBM)提出的分级[11](又被称为“牛津标准”),2001年美国纽约州立大学医学中心提出的“新九级标准”[12],2014年美国卫生保健政策研究所 (AgencyforHealthcareResearchandQuality,AHRQ)更新的分级体系[13],澳大利亚JoannaBriggs循证卫生保健中心制定的一系列等级系统[14],及国内学者提出的中医药RWS中观察性研究的分级建目前,上述各证据等级和研究设计等级体系均基于各种经典的临床流行病学研究设计,未将RWS设计类型及其证据纳入考量。经典临床流行病学设计与RWS设计有一定的异同点,简单而言,RWS基于RWD,因此需要在经典临床流行病学设计的基础上经过限定和改良,如RWS不使用安慰剂、很少采用盲法、使用数据多为现实诊疗或日常条件下收集的数据等[6]。RWS包括干预性研究和观察性研究[6]。值得说明的是RWS与随机对照试验(randomizedcontrolledtrial,RCT)并不冲突,实用性RCT、技能型RCT和新型真实世界RCT均属于RWS。观察性研究也是RWS的常见研究类型,包括经典临床流行病学体系内的队列研究(包括前瞻性、回顾性、双向性队列研究)、病例-对照研究、横断面研究、病例系列和病例报告等。根据纳入RWD的特点,扩展形成新型的真实世界队列研究[16]、横断面学、质性研究等基于RWD形成的证据也应属于RWE,并且基于上述原始研究形成的二次研究证据综合也属于RWE。2RWS临床研究证据分级要点2.1强调内部真实性与外部真实性的综合评价内部真实性是指研究结果与研究对象真实情况的符合程度,它回答一个研究本身是否真实或有效。包含参与者(participant,P)、干预措施 (intervention,I)、对照措施(comparator,C)、结局指标(outcome,O)在内的研究要素的标准化和可控化程度越高,其内部真实性越好。内部真实性可通过依照临床试验基本原则达到对偏倚的有力控制来保证。RWS是由经典研究设计改良和限定形成的[6],因此经典研究设计可能潜在的偏倚同样适用于RWE,于此同时,RWE还需要格外注意时间效应偏倚、竞争风险、因果倒置、校正中介作用等特殊的偏倚类型[6]。外部真实性是指研究结果与推论对象真实情况的符合程度,又称为外推性。它回答一个研究能否推广应用到除本研究的研究对象以外人群的问题,此时PICO越接近真实世界越好。RWE在外部真实性方面往往优于理想世界的经典研究设计。“证据分级”的范畴和内涵要远远大于“设计分级”,真正的“证据”不仅要考虑内部真实性,还要考虑外部真实性等更多证据生成和证据应用等实际层面的问题。例如,干预性措施比较的金标准—RCT的初始分级应属于证据金字塔[11-12]靠近顶端的位置,但如果该RCT设计欠佳、实施过程漏洞百出,那么其所形成的证据的真实性、可靠性、可应用性达不到理想状态下的证据级别,其真实的证据等级需要降低。因此“证据分级”是在全面衡量内部真实性和外部真实性之后综合考虑评定的。RWE是基于RWD形成的证据,RWD来源于日常收集的数据,因此,RWE在外部真实性方面要远高于经典研究设计,而在内部真实性方面则存在更多顾虑,这就更加强调RWE分级时内部真实性与外部真实性综合评价的重要性。2.2确定RWE的起评点在GRADE证据分级系统中,不同的研究类型有其各自的起评点,这个起评点也是由证据综合的内部真实性来决定。例如,基于RCT形成的证据在GRADE分级系统中证据级别起评点默认为高级别;观察性研究形成的证据在GRADE分级系统中究证据合起评点*(设计等级)性↓#究证据合起评点*(设计等级)性↓#直接性↓▲偏倚↓▲起评点*(设计等级)偏倚风险↓*性↓#大效应量t*剂量效应t*存在负向混杂t*图1基于GRADE证据等级评定思想而构建的RWE升级降级影响因素起评点默认为低级别[19]。证据综合,是围绕同一具体研究问题而获得的所有相关研究结果的定量合成,主要表达为系统评价的结果。当某一命题下只有一个研究,或有多个无法合并的研究,亦可直接纳入单篇研究的结果作为证据。确定RWE起评点的原则也应如此。在证据评级选择起评点的时候,一方面,可依据上文所述的现有GRADE证据评级的起评点确定方法[19];另一方面,也需要创新,将新型的RWS纳入到起评点划分体系中。详见图1。证据等级评价方法GRADE证据等级评价在起评点的基础上根据若干个升降因素[20-25]进行调整,最后形成综合的证据等级评价结果。例如,RCT在分级系统中最初证据级别默认为高级别,根据证据中的偏倚风险、不一致性、间接性、不精确性和发表偏倚的情况而逐渐降级;观察性研究在分级系统中最初的证据级别默认为低级别,根据证据的大效应量及剂量-效应关系及负向混杂因素情况而逐渐升级。最终证据级别用“高、中、低、极低”来判定[19]。RWE可考虑采用相同的评价思路,但RWE因其自身存在复杂性,在评价时要考虑更多的影响因素。GRADE证据等级评价中第一项内容偏倚风险针对的是经典临床流行病学临床研究设计的内部真实性,因此依照各经典研究设计各自的偏倚风险评价工具进行评价[20],而对于新型RWS的偏倚风险评价方法仅能参考经典研究设计,国际上并未形成非常成熟且公认的评价工具。根据《中医药真实世界研究技术规范:证据质量评价与报告》[6]中提及的评价方法,可将真实世界临床研究偏倚风险评价分为两种类型:一是经典研究设计的评价;二是针对经典研究设计类型改良后形成的真实世界临床研究设计的评价两种类型。关于不一致性、不精确性、间接性及发表偏倚的评价方法请参考GRADE工作组指导性文件[20-25]。3以GRADE为基础的RWS分级建议和应用3.1分级建议在GRADE分级方法的基础上,结合RWS分类和特点,本文提出RWE的分级建议,详见表1。与GRADE体系保持一致,RWE证据等级可分为在RWS的体系内,综合实用性RCT结果形成的证据起评点为高级别;而综合观察性研究、单臂试验及其他非随机试验结果而形成的证据起评点为低级别。当多种设计证据混合应用时,应以其中低级别证据为起评点。关于升级/降级因素,此处建议依据《中医药真实世界研究技术规范:证据质量评价与报告》[6]中的RWS偏倚评价原则及工具使用建议进行评价。值得说明的是,以GRADE为基础的RWS分级建议,不仅可用于RWS证据综合,还可用于RWS单个证据的评价,但其中关于综合证据评估的“不一致性”、“发表偏倚”的评价则不适用于单个证据的评价。此外,如果跳出RWE范畴,将安慰剂对照的解释性RCT纳入证据来源的话,其证据起评点应为高质量证据。3.2应用举例以2018年Stroke发表的《阿哌沙班在房颤卒表1以GRADE为基础的真实世界证据分级建议计等级最初证据级别(起评点)升级/降级因素*对照试验高偏倚风险工具−1严重−2非常严重不一致性(单个证据不评价此项)−1严重−2非常严重−1严重−2非常严重性−1可能−2非常可能发表偏倚(单个证据不评价此项)−1大−2非常大观察性研究/真实世界单臂试验/低(多种设计证据混合应用时,大试验起评点)素*:具体评判方法及使用方法与现在GRADE体系保持一致。中预防中的真实世界应用:系统评价和Meta分析》[26]为例,说明如何应用以GRADE为基础的RWE分级建议。该研究目的是总结和比较阿哌沙班与其他口服抗凝药物预防房颤卒中的效果。最终纳入16个真实世界观察性研究,偏倚风险评价工具为AHRQ。首先根据研究设计判定研究的起评点,该研究属于真实世界的观察性研究的证据综合,因此起评点为“低等级”。以阿哌沙班与华法林相比,在血栓栓塞事件这一指标(9个研究)的评价过程如下:①偏倚风险评价:作者采用AHRQ评价工具对纳入的9个研究进行偏倚风险评价,其中6个为低风险,2个为中风险(所占权重分别为16.5%、16.6%),1个为高风险,经判断高风险研究在Meta分析中所占权重较小(0.7%),但中风险的研究所占权重较大,可能会对结果产生一定影响,故综合判定后考虑降1级。亚组分析结果评价:常规剂量亚组(6个研究)为3个低风险、1个中风险和1个高风险,故降1级;减少剂量亚组(3个)为②不一致性:从森林图可见,总体异质性检验结果显示I2=87%且P<0.01,亚组间的获益方向相反,因此考虑该结果存在显著不一致性,总体结果降2级。亚组分析结果评价:常规剂量亚组,I2=62%且P=0.02,存在不一致性,降1级;减少剂量亚组:I=20且P=0.49,尚不认为存在不一致性,不降级。③间接性:纳入研究均为真实世界观察性研究,纳入人群年龄在70.9~83.9岁之间;该研究未明确目标人群的特征,推测应适用于一般人群,基于此可能存在人群的间接性,故降1级。亚组分析评价:常规剂量亚组和减少剂量亚组均存在上述④不精确性:总体与亚组分析的事件数均满足最优信息样本量(optimalinformationsize,OIS)。在此基础上,总体比较合并效应值OR=0.92[95%CI(0.72,1.17)],虽然95%CI跨过无效线,但其左侧为0.72,对结果仅有较弱影响;而右侧为1.17,对结果几乎无影响,故不予降级。亚组评价,常规剂量亚组合并效应值OR=0.77[95%CI 亚组效应值OR=1.27[95%CI (1.12,1.43)],因其95%CI均未跨过无效线,故不予降级[22,27]。⑤发表偏倚检验:该研究制作了倒漏斗图,并认为主要研究结果未发现明显的发表偏倚,不予降级。但从倒漏斗图可见,两亚组均存在不同程度的发表偏倚,故均降1级。⑥大效应量:阿哌沙班与华法林相比,在任何血栓栓塞事件总体上没有统计学优势,由于其效应值接近1,未能升级。亚组结果显示,常规剂量、减少剂量亚组效应值未在2~5或0.5~0.2之间,未体现大效应量,故均不升级。⑦剂量-效应关系:在常规剂量亚组中,阿哌沙班在任何血栓栓塞事件的风险均显著降低;但减少剂量亚组显示,阿哌沙班在任何血栓栓塞事件中相对风险显著增加;结果似乎表明阿哌沙班剂量增加,血栓栓塞风险降低,常规剂量疗效与华法林相当。这种情况下需要考虑的是,当阿哌沙班劣于华法林时,是否优于不治疗或单纯安慰剂治疗,如果优于不治疗则可能存在剂量-效应关系,但如果劣于不治疗,则否定该剂量-效应关系。但在现实情况下无法获得不治疗数据,所以保守评价没有剂量-效应关系。⑧混杂因素:尽管作者讨论中说明要考虑混杂因素的影响,但并未对混杂因素的内容及对结果的影响进行分析,尚未发现负向混杂因素,因此不予升级。最终总体评价应为“极低”等级,常规剂量亚组为“极低”;减少剂量亚组为“极低”。4讨论本文阐释了临床研究的设计等级与证据等级的区别和联系,设计等级是基于研究设计内部真实性的高低来评价,而研究的总体证据等级在此基础上还要考虑外部真实性等实际层面的问题。RWE的起评点由内部真实性来决定,但最终的RWE等级还需要根据实际情况进行升级和降级的评定。在使用本体系的时候,有几种情况需要特殊关注。首先,当将本体系用于评价由单个研究构成的证据时,GRADE体系中的异质性评价维度不适用,发表偏倚评价维度也无法准确判断。其次,我们建议如果同时纳入多种研究类型(如eRCT、pRCT和队列研究)的系统评价应该根据研究设计类型的不同而设立亚组,或者直接进行各自独立的Meta分析。GRADE体系是要求针对每一个结局指标和整个Meta分析都要独立进行评价。因此,GRADE体系应用于这种情况时并没有障碍。再次,对于一个Meta分析中含有不同设计类型证据的两个或多个亚组的情况,进行整体GRADE评级的时候,对于各项评价维度,均应整体看待。理论上异质性、精确性、发表偏倚、大效应是否存在、剂量-效应关系这5个方面可根据整个Meta分析的数据特征表现直接利用现有规则评价;偏倚风险、直接性、是否存在负向混杂这3个方面则需要评价具备各种特征的研究证据在整体中的占比逐一而论。例如整体证据中,权重占比10%的证据属于低偏倚风险,而占比90%的证据属于高偏倚风险,则整体偏倚风险为高偏倚风险。通常而言,观察性研究的各种偏倚风险和混杂因素更高一些。此外,由于RWS样本量比较大,在不精确性评价时往往很容易满足OIS值。在满足OIS值的同时,需要着重考虑其结果的95%CI区间是否产生有临床意义的变化(即越过最小临床意义界值,minimalclinicalimportantdifference,MCID)以决定精确性是否存在问题。GRADE体系本身就适用于队列研究、病例-对照研究等经典的观察性研究形成的证据,而经典的观察性研究本身就是RWS的设计方案中的主要类别之一。因此,GRADE本身具备一定的对RWS适用的基础,其现有的OIS值的相关方法学要求适用于经典的观察性研究。对于新型的RWS,比如基于日常数据的队列研究等,由于其数据的复杂性大于经典队列研究,在计算OIS的时候有可能需要考虑新的因素,但临床决策阈值的情况也同样具有决定性作用。目前,RWS已广泛应用,基于此形成的原始研究证据及证据综合逐渐增多,若无可参照的证据等级划分标准,可能会导致RWE的不合理应用。虽然RWE的证据质量评价工具及分级方法尚处于较为初级的研制阶段,但以GRADE为基础的RWS分级建议可能是目前可参考使用的较为妥当的分级方法。考文献1汪旻晖,赵杨,邓亚中,等.真实世界数据/真实世界证据应用的政策法规及指导原则的比较研究.中国临床药理学与治疗学,2FoodandDrugAdministration.Useofrealworldevidencetosupportregulatorydecisionmarkingformedicaldevices.Available3HeadsofMedicinesAgencies.Observationaldata(realworlddata)-subgroupreport.Availableat:https://www.ema.europa.eu/en/4AssociationoftheBritishPharmaceuticalIndustry.Thevisionforrealworlddata-HarnessingtheopportunitiesintheUK.Availableat:.uk/publications/vision-for-real-world-5国家药品监督管理局.关于发布真实世界证据支持药物研发与cnWSCLhtml6中华中医药学会.中医药真实世界研究技术规范—证据质量评7黄新余,王益威.“最佳证据"推动人性化医疗.医学与哲学,8陈薇,方赛男,刘建平,等.国际循证医学证据分级体系的发展与9GRADEworkinggroup.WhatisGRADE?Availableat:10Theperiodichealthexamination.CanadiantaskforceontheperiodichealthexaminationCanMedAssocJ193-11PhillipsB.GRADE:levelsofevidenceandgradesofrecommendation.ArchDisChild,2004,89(5):489.12SUNYdownstateEBMTutorial.Guidetoresearchmethods:theevidencepyramid.Availableat:/EBM0.htm.13BerkmanND,LohrKN,AnsariMT,etal.GradingthestrengthofancewhenassessinghealthcareinterventionsanEPC14TheJoannaBriggsInstitute.TheJBIapproach:levelsofevidence.Availableat:/jbi-approach.html#tabbed-15陈薇,陈可冀,刘建平.中医药真实世界研究证据的构成及分级16GräsbeckH,EkroosH,HalonenK,etal.Weaksmokingcessationawarenessinprimaryhealthcarebeforesurgery:areal-world,retrospectivecohortstudy.ScandJPrimHealthCare,2020,38(1):17RicciardoloFLM,LevraS,SprioAE,etal.Asthmainthereal-world:therelevanceofgender.IntArchAllergyImmunol,2020,18HussonO,deRooijBH,KiefferJ,etal.TheEORTCQLQ-C30summaryscoreasprognosticfactorforsurvivalofpatientswithcancerinthe"real-world":resultsfromthepopula

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论