从真实世界数据到临床研究数据的标准转化研究_第1页
从真实世界数据到临床研究数据的标准转化研究_第2页
从真实世界数据到临床研究数据的标准转化研究_第3页
从真实世界数据到临床研究数据的标准转化研究_第4页
从真实世界数据到临床研究数据的标准转化研究_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

16/16从真实世界数据到临床研究数据的标准转化研究摘

要/Abstract

临床研究中电子病例报告表(eCRF)的数据收集,传统上由临床研究协调员(CRC)阅读电子病历(EMR)数据将相关内容手动录入至电子数据采集(EDC)系统。为了减轻CRC的负担,目前已有研究在探索将EMR源数据经过数据标准化转换直接变为研究数据集的方法。EMR中大量的非结构化文本数据导致了数据提取困难,无法直接用于临床研究。本文首先探讨了国内对于真实世界数据应用于临床研究数据标准化的需求及困难,开发了一种数据标准化方法。本方法可以基于EMR源数据,通过数据标准化的方式自动填充临床数据交换标准协会(CDISC)标准的eCRF,并满足监管部门的数据递交要求。本方法采用了我国常见的数据标准、人工智能领域的自然语言处理技术,以及提升数据质量的创新型数据采集模式。其数据转化过程的核心是根据最简化的数据模型制定文本数据标签指南,提高了使用自然语言处理算法的效率,优化了其与临床数据模型的互操作性,以及辅助提取研究中所需要的标准术语库。

Forthedatacollectionofelectroniccasereportform(eCRF)inclinicalresearch,theclinicalresearchcoordinator(CRC)traditionallyreadstheelectronicmedicalrecord(EMR)andmanuallyentersitsrelevantcontentsintotheelectronicdatacollectionsystem(EDC).InordertoreducetheburdenofCRC,methodshasbeenexploredtodirectlytransformEMRsourcedataintoaresearchdatasetthroughdatastandardizationandtransformation.ThelargeamountofunstructuredtextdatainEMRleadstodifficultyindataextraction,whichpreventsdatafrombeingdirectlyusedinclinicalresearch.Thisstudydiscussesthedomesticneedsanddifficultiesofreal-worlddatastandardization,anddevelopsadatastandardizationframeworktosolvethedifficulties.ThedatastandardizationframeworkdevelopedcanbeusedtoautomaticallyfilltheeCRFsbasedontheCDISCstandardusingEMRsourcedatawhilesatisfyingregulatoryrequirementsfordatasubmissionauthorities.TheframeworkconsidersChina'scommondatastandards,naturallanguageprocessingtechnologyinthefieldofartificialintelligence,andinnovativedataacquisitionmodetoimprovedataquality.Thecoreaspectsofthedatatransformationprocessinthestandardizationframeworkincludetheformulationoftextdatalabelguidelinesaccordingtothesimpledatamodels,improvementoftheefficiencyofnaturallanguageprocessingalgorithms,optimizationofinteroperabilitywithclinicaldatamodelsandcaptureofstandardterminologiesusedinclinicalresearch.

关键词/Keywords

真实世界数据;临床研究源数据采集;数据标准化;电子源数据;符合监管提交标准

real-worlddata;collectionofclinicalresearchsourcedata;datastandardization;electronicsourcedata;compliacewithregulatorysubmissionstandard

01、研究背景

真实世界数据(real-worlddata,RWD)是指来源于日常收集的各种与患者健康状况和(或)诊疗及保健有关的数据[1-5]。目前,在我国与真实世界数据源[如电子病历(electronicmedicalrecords,EMR)数据]相关的数据标准已逐渐从临床文档的基本指南演变为更为通用的临床数据模型。如果不从根本上改进阅读EMR的功能、提高临床诊疗的质量,对EMR进行数据标准化将毫无意义。因此,实施真实世界数据标准,通常是使用更标准化的数据收集方法的综合讨论结果。该方法首先要在满足常规临床诊疗数据收集要求的基础上,通过提高数据收集的质量,更好地利用真实世界数据,例如将其用于临床研究和临床决策支持。

2009年12月,原卫生部、国家中医药管理局发布《电子病历基本架构与数据标准(试行)》[6],考虑到中西医结合的病历书写基本规范和现有EMR的信息主要来源,采用目前卫生领域已有的国际、国内普遍应用的成熟标准,构建适用于满足医疗卫生机构间临床诊疗信息共享的数据集以及共享文档标准,推广及评价数据标准的实际应用。2018年,国家卫生健康委办公厅发布《电子病历系统应用水平分级评价标准(试行)》[7]并实施评价医院系统的分级,促使各医院均加强了医院系统功能。政策发布的目的是为使2020年所有3级医院达到分级评价4级以上(全院信息共享、初级医疗决策支持);2级医院达到分级评价3级以上(部门间数据交换)。目前,多数医院信息系统已拥有基础的全院信息共享能力。2020年8月,国家卫生健康委统计信息中心发布了《国家医疗健康信息医院信息互联互通标准化成熟度测评方案(2020年版)》[8],更详细地评价了医院平台互联互通标准化成熟度。互联互通的评价标准,以提到的EMR数据集标准转化成HL7临床文档结构(CDA)标准的电子病例共享文档标准为主,而HL7CDA是以HL7RIM作为主要支撑的数据模型[9-10]。

如果EMR数据变得标准化且更容易获取,临床研究的未来将受益匪浅。然而,由于完全通过使用标准化数据元素收集数据存在一定局限性,为了充分利用EMR,需要考虑结构化和非结构化数据。标准化数据元素的使用应限于特定的用例,例如只是汇总住院患者主页的患者病例报告,而不是扩展到所有数据元素。且标准化数据元素不适合医生在临床诊疗期间描述其完整的思维过程,通常缺乏医生文本汇录所需要的细节颗粒度以及临床判断中的推理过程。一般来说,通过使用越来越具体的数据元素或特定的词汇进行标准化,将减少用于描述医疗活动的思维范围,并增加选择正确选项所需的人力成本。因此,标准化数据的工作最好由能够更快地适应新数据模型和标准词汇表的算法来处理,而不是对生成源数据的人员进行过多培训。

如何提高从文本记录中提取临床研究数据的能力,将可能是未来数据标准化的潜在研究热点。①与基于系统改变整个数据结构的更改相比,改进文本输入的建议更容易实施。②将数据模型约束从源数据结构中分离出来可能会激发更简单的数据建模方法,而不必采用通用数据模型,如观察健康数据科学和信息学OMOP通用数据模型(OMOPCDM)。构建包含所有类型研究模型所付出的努力,将可能因无法实施和审核这些模型情况而失败,或导致使用算法提取所需数据的效率低下。因此,模型就像术语一样,需要具备关注并适应不同研究项目的能力。③可以更有效地捕获新的思维过程或常用的医学术语,并用于快速改进现有的数据模型和术语库。④自然语言处理(naturelanguageprocessing,NLP)算法正在迅速发展,与人工相比,其可以更快地提取数据和数据上下文关系。本文旨在探索临床研究中非结构化文本数据的电子来源(eSource)模式,并将开发一个从真实世界数据到临床研究数据的标准化方法,用于根据临床数据交换标准协会(CDISC)标准填写病例报告表,并满足数据收集中的监管和可追溯性要求。框架中应用了我国常见的数据标准、人工智能领域的自然语言处理技术,以及提升数据质量的创新型数据采集模式。

02、从真实世界数据到临床研究数据标准转化过程的概述

将真实世界数据用于临床研究,理想的方案是能直接从医疗机构中的EMR捕获源数据并将其传输到临床研究电子病例报告表(electroniccasereportform,eCRF)的过程,真正实现电子数据采集(electronicdatacapture,EDC)系统。即需要研发一种能根据临床研究方案中有关研究数据采集要求,在真实医疗环境中完成电子源数据记录(eSourcerecord,ESR)的工具。其功能涵盖临床研究全流程,主要包括了源数据采集、数据提取和治理以及EDC和EMR对接。临床医师根据研究方案制定符合临床习惯的病历书写规则,通过语音输入和病史问诊的病历预填充等功能可以更高效地完成病历记录,利用微信公众号等院外随访功能可以方便地收集院外数据。ESR可以实时自动从完成的病历中抓取数据填充到eCRF中,同时也支持对源数据进行溯源查看。ESR充分考虑了源数据来源的多样性、数据互操作性和数据标准化的挑战。通过创新性地优化临床研究的源数据采集过程,并遵循电子源数据要求理念和药物临床试验质量管理规范(GCP)原则设计,ESR系统还应满足临床研究数据质量标准(ALCOA+CCEA原则),同时提高临床医师撰写EMR的工作效率。通过对接EMR和EDC,ESR可以灵活应对当前医疗信息水平现状,实施更简单且易于落地推广,具有更高的规范性和可持续性。为了更好地将真实世界数据应用于临床研究,ESR系统必须与EMR和EDC系统具有互操作性,并满足有关数据可追溯性的法规要求[11]。

为加强系统之间的互操作性,在ESR系统内部设置了面向不同临床研究角色的工作界面。医生可以选择使用各自医院的EMR系统,或直接使用ESR系统内的电子病历记录模板,即ESR和EMR。此时,若医生希望将数据导出至各自的EMR系统,ESR系统也可实现回传标准化后的EMR文件。

此外,ESR系统还考虑了临床研究开展过程中临床研究协调员(clinicalresearchcoordinator,CRC)记录CRF的工作。ESR系统能够从EDC系统中检索CDISC操作数据模型(CDISCODM)表单并直接展示源数据。在数据标准化的过程完成后,CRC能够审核单个表格的预填数据是否正确,并在签署确认后将CRF发至EDC系统。这样,数据的可追溯性即可通过ESR系统得到保证,因为其记录了整个数据标准化过程的轨迹,并能辅助CRC对每个CRF字段在原始文本里的记录进行溯源。从真实世界数据到临床研究数据的标准化流程如图1所示,通过对原始文本进行分割和标准化,最终生成临床研究数据集。

03、从真实世界数据到临床研究数据标准转化过程的实施

3.1EDC和EMR分别发送CRF和患者临床表单至ESR系统

eSource流程主要涉及3个系统:EMR、ESR和EDC系统。EDC系统以CDISCODM文件的形式传送研究数据集和数据格式的要求,EMR系统则提供所需的患者电子病历。ESR系统的EMR方将负责电子病历的注释,而ESR系统的EDC方将负责填写CRF并生成可追溯的源数据以便CRC审核。

申办方首先通过EDC系统将CRF以文件形式发送至ESR系统,该文件可在ESR系统中呈现。一旦有患者入组,EMR系统可将受试者在研究开始后的所有电子病历发送至ESR系统。

3.2研究数据集的建模及标签生成

建模前须充分了解研究数据集的变量类型及其特征,之后才能同时对研究数据集中每个变量的域及属性进行建模。通常,多个CDISC域可以在更高水平进行合并,且这些域往往包含相同的属性。

建模的第1步是使用类似于比OMOPCDM的定义更为广泛的标准,包括医疗状况发生(conditionoccurrence)、操作发生(procedureoccurrence)、药物暴露(exposureoccurrence)等,相当于对分类更为详细的CDISC域进行了整合[12]。目的是提高标签的提取效率。

第2步是将属性与域分开建模,属性的建模不受域的限制,以避免出现重复使用同一属性描述不同域的现象,减少标签数量。本研究属性是在临床数据获取标准(CDASH)数据元素的类型指导下进行建模。例如手术用药(AG)和伴随用药(CM)中的剂量和频率(DOSFRQ)在CDASH中建模为AG.DOSFRQ和CM.DOSFRQ,属性DOSFRQ是公共属性,将成为通用数据元素(commondataelements,CDE)的属性标签。

第3步是标记并提取章节标题,以明确文本的基本结构。目前,我国的EMR还未能普及HL7CDA类标准文档,最主要的原因是EMR很多都是由非结构化的没有明确文本分段的文本数据组成。如果不对章节进行结构化,数据可能会丢失重要的背景信息,最终导致标签错误、数据质量下降。

3.3模型训练和实体及实体间关系的提取

医学专家和研究人员根据建模中使用的标签编写了标签指南。标签也可以称为实体。标签注释工作人员由2名接受过专业训练的研究人员组成,使用编写好的标签指南对EMR进行注释,包括每个域名标签(如药物名称)、属性标签(如剂量和频率),以及域名称与属性之间的实体关系。域名称与属性之间的实体关系仅限制单向关系,如从域名至属性或是从域名到其他域名称,实体之间不能使用双向链接。使用标签、标签位置和标签之间的关系训练NLP模型。快速标记方法是通过反复进行以下操作:①标记总样本量的10%;②用样本训练NLP模型;③预先标注下一个10%的数据并进行人工修改。当NLP模型被认为足够精准时迭代过程停止,可以将模型应用在剩余的数据提取中。

在实体抽取方面,采用双向变形编码器(BERT)+双向长短期记忆神经网络(BILSTM)+条件随机场(CRF)的命名实体识别(namedentityrecognitionmodel)[13]。实体关系抽取方面,采用生物医学文本挖掘的双向变形编码器(BIO-BERT)的关系抽取模型,监督式学习(supervisedlearning),并使用标注的实体关系进行模型优化[14]。

3.4生成研究专用术语库

研究专用术语库是指标签中实际提取得到的术语和标准术语之间的映射库。建立专病领域研究专用术语库,能够同时满足相关领域内其他研究的术语标准化需求。建立研究专用术语库需要有提取到的标签、CDISCODM特定术语表(codelist)以及国际标准术语[如《国际疾病分类》(第10版)(ICD-10)]。

首先将标签中的提取术语和CDISC代码值整合并进行匹配。术语匹配是通过将通用标准术语库(如ICD-10)使用OpakiBM25的推荐算法算出每个术语中单词的分数、然后使用提取术语作为搜索术语、找到分数最高的标准术语[15]。匹配完成后,每个标准术语将作为一个组,每个单独的组将由医学专家在术语编辑工具内审核,对于标准术语匹配错误的标签提取术语,需要人工手动重新分配标准术语[16]。研究专用术语库最终将生成一个词汇表,包括了标签、标准提取术语、标准术语代码、标准术语代码系统、原始术语、原始术语代码和原始术语代码系统,允许存储可用于填写CRF的预先指定CDISC代码和值。对于标签不是文本类型的数据,例如日期或数值标签,将会制定单独的表格用于记录每个标签所需的标准数据格式,这些格式由CDISCODM文件预先指定或根据数据类型自动分配。

3.5实体提取后,在填充CRF之前的规范化规则

NLP模型的输出主要有2个表,即所有提取出的标签值列表(实体表)和实体之间的关系列表(实体关系表)。

第1项任务是使用特定研究术语库,将每个实体标签标记标准值和标准标签类型。实体表的数据元素,包括实体ID、实体值、实体值存在文本段的位置,实体标签类型、实体标准代码、实体标准值、标准标签类型和跟踪数据。跟踪数据包括患者ID、医疗报告ID、文本段ID和记录日期。

第2项任务是将实体关系表转换为基于域的单条记录。先将关系表转换为各自的数据篮,每个数据篮都须指定数据篮ID和主实体ID。数据篮仅限于实体间的一阶关系,这意味着如果存在实体A→实体B→实体C的关系,数据篮将只包括实体A→实体B,以防止数据篮中存在复杂的嵌套关系。可能会存在一种包含多个主实体的数据篮的情况,原因是其中1个主实体是另1个主实体的适应症,例如1个疾病名称是药物名称实体的适应症(图2)。相应的方法是将对所有主实体预先做网络分析(networkanalysis)、将对于存在关系的主实体,标注相应的主实体链接ID,并将这种关系添加到实体关系表中。

第3项任务是合并相同的数据篮,使得患者的每个主实体有且只有1条记录。EMR可能会重复提及同一个主实体的不同细节,例如可能会2次提及相似的暴露名称,且第2次提及的内容可能包含更多有关剂量和频率的细节。不同数据篮合并不能仅依靠主实体标准代码和医疗报告ID的匹配,例如左眼眼压检查和右眼眼压检查的数据篮无法合并。因此,需要为每个主要的数据域(域标签)分别编写规则。只有检查名称(主实体)和位置实体(属性实体)以及医疗报告ID都匹配才能合并数据篮。数据篮的合并可能出现以下4种情况:①信息不足:是指数据篮无法体现其唯一性。②不同身份信息:是指在有支持不同数据篮合并的属性实体。③冲突信息:是指可以对数据篮进行合并但有些数据互相冲突。④可确认信息:是指可合并的数据篮间的数据存在不同但不属于冲突。以上4种情况中,只有可确认信息和不同身份信息下的数据篮能够合并,并生成最终的事实表。事实表由事实ID、主要实体ID、主要实体标准标签类型、实体ID、实体标签类型、实体标准值和跟踪数据(医疗报告ID和章节文本位置)的元素组成。最后,事实表中根据主要实体标准标签类型和实体标签类型映射到适当的CDISCCDASH数据元素中,用于CRF表的预填充。

04、讨

4.1互操作性方面的注意事项

改进系统间的互操作性是实现RWD标准化的关键。从既往研究的经验来看,确保各系统间传达数据的意义一致的同时简化审核过程,就可以实现互操作性。

在本研究中,EMR和EDC系统通过元数据标准(如HL7CDA和CDISCODM)传递数据。现阶段最大的障碍是医院病历系统供应商早在制定行业标准之前就建立了自己的系统,导致缺乏可用于数据交换的标准。在我国,虽然监管机构一直致力于推进医院数据互联互通,通过对医院数据共享能力进行评级等方式,以期提高其运用标准[17]。但由于医院间数据共享活动并不活跃,HL7CDA标准尚未得到广泛应用。另一方面,CDISCODM在EDC系统中作为表示CRF的方式得到了很好的实现,但由于缺乏要求,可能会偏离CDASH标准命名方法对其数据字段的严格使用。ESR平台已考虑到这些限制,特别是对于EMR数据,通过标记和提取每个报告中的章节完成基本文档的结构化,建立EMR文档所需要的标准HL7形式的元数据。在本研究中,不需要对CDISCODM文件进一步标准化,但未来希望可以通过NLP使用CDASH标准对未标准化的CRF进行注释。

为了确认数据意义是否准确、是否能被研究团队理解,本研究关注了使CRC能够方便审核每个CRF表格、提供可视化的溯源界面、能简单在电子文件上签字并发送回EDC系统。因为系统记录了整个数据标准化过程,可追溯性可以通过ESR平台得到保证,并允许CRC为每个CRF字段显示是从临床文档中何处提取的。目前,本课题组正在致力于通过将临床研究助理(CRA)和数据管理者(DM)的质疑传回ESR系统,以使研究团队能够对源数据或填充的数据提出疑问,从而更好地简化数据审核流程。

4.2临床研究数据建模注意事项

在研究标签的开发过程中,通过对主要实体(域名)进行分类以及重复利用属性实体来减少标签数量。采用这种简单模型能使NLP在提取临床文档实体时更加高效。主要实体(域名)使用定义更广泛的分类不仅增加了标签的通用性,也可通过研究专用术语库保留原始提取术语值的特异性,以确保不会丢失原始重要信息。未来还可以从观测指标标识符逻辑命名与编码系统(LOINC)和临床医学系统术语(SNOMED-CT)等术语系统中学习更多关于不同领域数据辨认实体独特属性的方法。由于ICD-11等标准术语的较新版本通过选择多个属性来识别独特的领域概

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论