加强医学影像数据库建设 推动行业快速发展_第1页
加强医学影像数据库建设 推动行业快速发展_第2页
加强医学影像数据库建设 推动行业快速发展_第3页
加强医学影像数据库建设 推动行业快速发展_第4页
加强医学影像数据库建设 推动行业快速发展_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要高质量医学影像数据库是医疗人工智能(AI)发展的核心资源,是国家战略资源,是临床和教育的支撑,也是医学影像AI产品监管的关键。目前我国缺少大样本、多样性、标准化、高标注数据库;缺少跨学科复合型数据人才;医疗体系内数据孤岛现象严重;数据相关法规、法律和伦理急需健全。本文强调了数据库建设的重要性,简述了数据库建设的主要方法和质量评价要点,指出只有重视和加强医学影像数据库的建设,才能保证和促进医学影像行业健康快速发展。医学数据产生于临床医疗、教学和科研,反过来又是支撑其发展的核心动力。尤其是近年来,人工智能(artificialintelligence,AI)发展迅速,数据是产品优劣的核心因素。影像学作为现代医学主要的诊断手段,贡献了70%的临床诊断信息,也占据了90%的数据量,而且正以每年30%以上的速度增长。与影像数据急剧增长和AI对数据核心需求不适应的是,医学影像数据库建设非常滞后,短板很突出,必须引起同行们的高度重视,并加大建设力度,促进行业快速发展。一、建设医学影像数据库的重要性1.国家战略的需求:世界各国都非常重视数据库的建设,因为数据是生产力,数据涉及国家安全,数据涉及标准制定,数据决定AI的发展。我国大数据和多中心研究整体落后于欧美,急需重视和加强建设力度,支撑行业发展。2.临床发展的需求:基于临床数据库挖掘和分析,可以推动医疗精准化和智能化进程,提升科研和管理水平。首先,将离散数据整合与规范,可探索疾病关联关系,进行诊疗效果比较、疾病特征分析,加深对疾病的认识。其次,通过大量真实世界数据建模,可进行疾病基因、预后、治疗反应等预测,为精准诊疗提供依据。再次,通过对医学图像采集、重建、检出、诊断和报告环节的数据挖掘和分析,可建立医疗质量常态化量化监测评估体系。最后,通过科学的数据设计、收集、标注、随访、挖掘等环节,将建成高质量的多中心大样本高标准数据库,有望促进高水平研究成果的产生。3.教育的需求:基于患者全信息的标准病例库建设,可用于青年医师影像检查、诊断和鉴别诊断的培训;基于图像数据标准化标注的数据库,可以用于AI上下游相关人员的培训、模型研究的教育和学习。4.研发的需求:现阶段基于深度学习的AI在算法和算力没有真正实现突破以前,大样本、多样性、高标准、高标注的数据库是研发的关键。数据对医学影像AI产品的模型构建、模型训练等性能好坏起着决定性的作用。5.监管的需求:基于深度学习的AI产品是否具有很好的灵敏度、特异度和鲁棒性,需要有封闭的、标准化的高标注数据检测才能给出权威的结论。目前我国缺乏第三方类似的数据库,因此建设高标注、高质量的数据库,对于检测医学影像AI产品,支撑国家药监局此类产品的有效监管,制定国家标准、形成相应规范都有着十分重要的意义。二、中国医学影像数据库现状1.中国医院存在大量非标准化影像数据:我国是人口大国,每天生产大量的影像数据。由于采集方式、机器型号、图像参数、图像格式等的不统一,使影像数据虽然很大,但不完整、不标准、不统一,难以进行大数据加工、挖掘和使用。2.缺少大样本、多样性、标准化、高标注数据库:我国现有医学影像数据库多是基于科研课题形成的,一是规模小,数据量多为千例级别,万例级别的很少;二是数据往往是单中心的,没有覆盖全国不同地区,不具备人口多样性,因此代表性较差;三是多数没有标注,出于科研提取的信息具有片面性,没有标注不能用于AI的研究;四是各自为战,缺少有效的组织和协调,数据长期处于静默闲置状态,未能充分发挥数据的价值。3.缺少跨学科复合型数据人才,数据应用能力弱:医学影像数据库建设需要医学影像、计算机、云存储、AI、数据管理与挖掘等各方面人才,甚至具备多方面能力的复合型人才。目前一是人才数量不足;二是人才各自为战,缺少整合;三是人才自学为主,缺乏培训;四是缺乏数据库建设、加工、分析和挖掘工具。因此,关于数据库的建设和应用整体能力较弱,缺乏统筹和整合,也成为建设和应用大型多中心数据库的瓶颈。这就需要医院、高校、研究机构、企业各方加强合作,重视人才培养、合作和应用,加快大数据人才队伍的形成。4.医疗体系内壁垒难以打破,数据孤岛现象严重:医学影像数据互通共享是互联网医疗的迫切需求,也是解决患者看病难的关键环节,更是限制AI发展的瓶颈问题;目前技术层面对于数据的存储、传输和共享并没有障碍,但由于数据所有权的争议,数据利益的不明确,数据拥有者对于形成多中心数据库心存疑虑,医疗机构之间的壁垒依然普遍存在且不易打破。因此国家尽快健全相应法律法规,数据拥有者积极改变观念,为国家战略和患者利益最大化,尽快打破壁垒,加速互通共享,推动大型多中心数据库建设,是所有医疗机构领导者需要认真考虑的问题。5.医学影像数据相关伦理和规范有待健全:目前,国家卫生健康委已发布《国家健康医疗大数据标准、安全和服务管理办法(试行)》,从国家战略层面促进健康医疗大数据的规范管理和开发利用。伴随临床科研对数据的需求量持续增大,医疗大数据的合理规范使用是保障数据安全、保护患者隐私、维护医疗大数据行业秩序的重要内容。医学影像数据库相关的伦理和规范问题也需要尽快形成和完善,以确保医疗影像大数据能够合法、合规、合理、有序地应用。三、医学影像数据库建设的挑战医学影像数据库建设是一个系统复杂的工程,过程艰辛漫长,技术要求高,影响环节多,需要高水平专家队伍和强有力的组织协调才能完成。1.医学影像数据库建设是一个高技术门槛的领域:即使都是医学影像数据,不同部位和种类的数据从采集、清洗脱敏、分割标注、数据库建设、挖掘使用方法等均有很大差异和很大难度。其面对的困难既有共性的也有特有的。(1)数据收集难:存在扫描环节技术不一致、数据溯源不清晰、数据伦理待明确、数据关联性复杂、动态数据周期长等挑战。(2)征象识别难:由于不同部位、不同疾病、不同成像方式放射征象差别巨大,因此对具体单病种数据库涉及的成像方式中图像的定义、识别、定量、分割、分类等,需要首先形成共识并培训,以保证在识别环节容易达成一致。(3)数据标注难:在以上基础上,需要统一标注共识;确定标签内容;选择合适的标注工具;制定标注质量标准;让每个标注可以溯源,然后再启动标注;同一病种根据不同成像模态(如X线、CT、MRI)其图像处理和标注方法也不同。(4)形成易于挖掘的影像数据难:为保证数据可挖掘,需要数据清洗方法、流程、程度和类型规范统一;数据格式、标准、标注统一,才能确保挖掘的结果准确可用。(5)数据库质控管理难:一旦形成数据库后需要形成完整的管理质控体系,确保数据安全,保持数据库动态更新,根据数据集控制等级的要求,产品日常质控、性能独立测试、临床评价等都要求数据封闭。2.医学影像数据库建设是一项高消耗的工作:每一例数据的产生、清洗、标注和入库,需要患者、技师、护士、医师、工程师、数据专家等多环节系列团队成员完成,需要消耗大量人力、财力,建设周期长、投入大;因此需要建设者有充分的思想准备和奉献精神,也需要政府、企业等多方投入更多资源用于数据库建设,才能最终实现目标。3.医学影像数据库建设需适应动态变化的需求:用于AI研发的数据库根据预期具体用途比如模型训练、模型调优、质量控制、性能测试、临床评价等不同,相应的数据库建设和管理方法也不同。同一目的建库,随着时间的变化,其需求也会不断变化;需要组织者根据建库主体、目标、用途、模态等及时调整,才能保证所建数据库达到预期要求。4.医学影像数据库是一个建设周期长、回报大而持久的工作:由于医学影像数据收集加工过程漫长,为了保证质量和多样性,短平快没法完成。建成一个符合要求的数据库少则数年,多则十年以上;但建库是一个持续积累的过程,可以上不封顶,持续增长,形成可持续、可挖掘的成长性数据库非常重要;数据越大其价值越大,虽然不能快速回报,一旦建成则可以持续建设、持续挖掘、持续回报,广泛用于临床、教学、科研和AI等领域,满足国家战略需求,产生巨大的社会经济价值。四、医学影像数据库建设方法为保证数据库建设合法合规,符合要求,需要国家政策引导,加大财政投入,有关部委立项;政产学研用各方共同参与制定建设标准;依靠行业协会专业医师建设;并建立第三方公共数据平台,方便数据使用共享;需要政产学研用通力合作,尤其政府宏观调控,避免散、乱、差和重复建设。在具体建设过程中,要注意把好数据采集、清洗、标注和建库4个环节。1.医学影像数据库构建前期准备:(1)组织机构和顶层设计:要遴选专业性强、有影响力和组织能力的专家作为首席科学家,参与建库的专家要具有地区分布均衡性,每个数据库参与单位必须10个以上;除了影像专家,还需要数据库架构设计专家,必要时需要算法与管理专家共同参与。在确定建库专家团队以后,需要对建库的具体用途和目标进行明确,并根据此目标制定具体方案。按照预期用途可分为模型训练、模型验证、性能独立测试、临床评价、产品质控等类型;按照数据来源可分为公有数据集、私有数据集;按照用户类型可分为自用数据集、他用数据集;按照访问管理方式可分为开放数据集、封闭数据集;按照更新形式可分为静态数据集和动态数据集。(2)制定影像数据库构建标准及影像数据标注专家共识:建库前准备越充分,开始建库后就越顺畅。其中最重要的是形成符合该库建库特点和要求的图像分割和标注专家共识以及建库专家共识。由于不同病种的部位、疾病特点和表现均有很大不同,虽然标注与数据库建设专家共识有基本要素的相似性,但具体内容差别很大,需要针对冠状动脉CTA、肺结节、骨龄、肺炎、肝肿瘤、脑肿瘤等具体疾病库分别请亚专业专家协商形成共识。2.医学影像数据库构建:医学影像数据库建库环节主要包括数据采集、清洗、标注和成库4个主要阶段,需要用统一规范的标准语言描述建库各个环节。(1)医学影像数据采集和清洗:采集前首先需要确定影像数据形态,包括数据模态(X线、CT、MR、PETCT、B超等)、数据格式(DICOM、JPG、AVI等)、数据量和存储方式。其次要确定临床适用场景:包括但不限于影像标注对象组成与比例、流行病学统计分布、受检者人群分布特征、应用场景等。第三要满足以下数据要求:①合规性,提供影像数据来源的合规性陈述,包括伦理审批、伦理豁免等信息;②隐私保护,用于保护受试者隐私的技术手段,包括但不限于影像数据脱敏、影像数据匿名化等清洗手段;③多样性,包括但不限于受检者人群、采集场所、采集设备、参数设置、临床数据采集人员资质、影像数据采集人员资质、采集方法、采集时间;④依从性,影像数据采集依据的法规、技术标准、临床规范、专家共识或其他参考文献;⑤影像数据的入组和排除标准,并对数据的入排情况进行记录。(2)医学影像数据标注:图像采集和清洗结束后,对数据的标注是建库的核心环节。数据的标注必须在亚专业团队形成图像分割与标注共识以后,从多家三甲教学医院征调有经验的5年以上工作经验的影像科医师,集中对共识内容和标注工具进行培训后方可进行标注工作,并对培训人员细分为标注、审核、仲裁、质控、管理等团队,方能保证标注工作保质保量进行。除了标注共识,影像数据的法规、技术标准、临床规范或其他参考文献也可作为参考,必要时应描述参考标准的验证方式。鉴于数据标注工具对数据标注质量和数据安全有重要影响,必须标注前对标注工具进行严格遴选,并推荐能确保标注质量的标注工具,包括功能要求(数据操作、标注操作、业务组织等)、安全要求(网络安全、数据安全等)等。标注应当在专用标片环境下进行,为保证标注医师的准确性和一致性,背景亮度、温度、湿度等环境因素应当进行设计和控制;标注显示器应为满足DICOM标准、符合质控要求的医用专业灰度显示器,分辨率不低于2M像素。(3)医学影像数据成库(集):标注好的医学影像数据包含基于数值和文本类型的临床数据与影像报告数据,也包括基于二进制类型的图像数据,针对不同类别的数据往往采用不同的数据存储方式,包括单机存储、普通网络存储、云存储。数据库中的记录与影像文件需建立一一对应的关系,互相独立的数据存储方式使得影像及其相关数据的使用和分析更加安全。医学影像数据库和数据平台的核心是对集成的影像和临床数据进行统一管理,并提供数据收集、转换、处理、存储、浏览、分析与共享的全生命周期的多中心协作与开放式共享利用,满足日益增长的医学影像AI研究需求。五、医学影像数据库的质量评价医学影像数据库的质量是其价值的关键,其符合性评价包括对说明文档的检查、数据质量特性的评价和数据风险管理文档3部分。数据库说明文档是对数据库的系统描述,同时为质量评价提供依据,旨在帮助用户、监管方充分了解数据库,具体内容包括数据的分类、基本信息、应用场景、数据元属性、元数据属性、标识、质量特性描述等,该说明文档是否全面、清晰、准确,影响用户对数据库的信任度和使用。数据库的质量特性包括准确性、完备性、唯一性、一致性、确实性、时效性、可访问性、依从性、保密性、效率、精度、可追溯性、可理解性、可用性、可移植性、可恢复性、代表性和数据库风险评价等,这些质量特性可分别下沉到数据库生存周期的不同阶段,从不同侧面反映数据库的质量水平。这些特性可通过抽样检验、操作检查、过程验证等方式进行检查。数据库质量符合性评价还应包含对数据库风险管理文档的检查,客观上提醒数据集制造责任方关注对数据集偏倚风险的控制。从数据动态流动管理的角度,数据的角色也会发生变化,高管理等级数据集的数据退役后可流入低

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论