医学影像人工智能临床使用质量控制 - 副本_第1页
医学影像人工智能临床使用质量控制 - 副本_第2页
医学影像人工智能临床使用质量控制 - 副本_第3页
医学影像人工智能临床使用质量控制 - 副本_第4页
医学影像人工智能临床使用质量控制 - 副本_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要

医学影像人工智能(AI)产业发展迅速,产品预期用途日益丰富,临床转化步伐加快。考虑到AI算法模型的快速演化、监督学习对数据质量的依赖以及产品的黑盒特性,相关AI医疗器械的性能与安全可能在临床使用条件下出现不同程度、不同方式的波动,影响最终的收益与风险;而目前国内外尚未建立此类产品临床使用阶段的质量控制与标准规范。为支撑全生命周期监管,有必要在AI医疗器械大规模上市之前,对于临床使用条件下的质量控制方法进行研究,以降低出现不良事件的风险,提升社会经济收益,促进行业健康发展。笔者分析医学影像AI在临床部署与使用的各个阶段可能面临的风险,提出必要的质量控制措施,论述在用产品质量的评价方法与指标,旨在对临床机构的日常使用和管理提供参考,为行业主管部门开展上市后监管工作提供建议,促进AI医疗器械产业的长远发展。近年来,预期用于医学影像的人工智能(artificialintelligence,AI)医疗器械进展迅速,在辅助检测、辅助诊断、辅助治疗、过程优化与赋能、预后评估等方向不断进步,应用场景从医院内部向院外扩展。在行业发展如火如荼的同时,国内的行业标准和使用规范尚未建立,质量评价工作侧重于上市前。然而临床使用阶段的风险来源较多,上市前评价难以全部覆盖,必须在使用阶段加强控制,才能保证产品上市后真正发挥临床价值,因此医学界日益重视临床使用阶段的质量控制,包括产品独立性能和人机结合的评价。围绕临床使用质量,我国药监部门发布过《医疗器械使用质量监督管理办法》(以下简称《管理办法》),也研究过在用医疗器械的检验技术要求。前国家卫生和计划生育委员会在2017年分别发布了《人工智能辅助诊断技术管理规范》和《人工智能辅助诊断技术临床应用质量控制规范》。上述文件从宏观意义上对AI医疗器械的临床使用质量控制提供了重要指导,但具体实施的方法和要点需要进一步清晰和落实,并与时俱进。笔者在此背景下,从医疗器械全生命周期质量控制出发,分析临床使用阶段的各个环节对质量控制工作的要求,提出相应的解决方案,帮助使用者增强对医学影像AI的使用质量的认识和保障能力,提高AI在临床应用过程中的收益,降低质量风险,促进行业长远健康发展。一、临床使用质量控制的工作思路临床使用质量控制的工作思路,首先是明确临床使用质量控制与产品上市前评价的差异,在此基础上,一方面充分借鉴产品上市前评价工作在方法学方面的成果,完成临床使用质量控制的方法学转化和指标的建立;另一方面在实践中帮助使用AI医疗器械的临床机构从人员、设备、材料(数据集)、方法、环境等角度重视影响临床使用质量的具体质控要素,建立有效的质量管理体系。医学影像AI产品临床使用阶段质量评价的主要出发点,是评估临床使用过程中的收益(临床绩效)与风险,确保患者利益,保证临床机构的服务水平。它与产品的上市前评价的差异主要表现为以下3点。1.场景差异:表现为产品上市前评价所针对的临床情景、硬件条件与实际部署环境有差别,产品在临床使用阶段的表现可能与上市前评价不同。2.考核方式与指标差异:目前医学影像AI产品的上市前评价较多关注的是机器判断与参考标准的相似程度,而临床使用质量控制更关注临床绩效,考察AI对医师决策过程和临床诊疗服务的影响。3.动态变化的差异:产品上市前评价所使用的测试数据是相对静态的,而临床使用阶段的质量控制是一个长期面对真实世界考验的动态过程。以上3点差异是医学影像AI产品临床使用质量控制的薄弱之处。笔者建议的工作思路是参考医疗器械全生命周期质量控制的理念,从人员、设备、材料(数据集)、方法、环境等要素入手,结合临床机构实际情况,完成以下3种转变。1.在理解产品技术特性和产品上市前评价方式的基础上,结合特定机构实际情况,建立临床使用质量控制的指标与方法,完成由市场通用到机构专用的评价方式转变。2.在产品独立性能评价的基础上,把临床实际决策过程、使用者的因素纳入临床使用质量控制,明确对临床绩效的要求,完成由产品视角到医师视角的评价方式转变。3.记录、分析和控制来自真实世界的变化,对产品临床表现的变化进行监视和追溯,聚焦产品的泛化能力和鲁棒性,提供有价值的反馈,完成由静态评价到动态过程评价的评价方式转变。二、临床使用质量控制工作要点医学影像AI的临床使用质量控制工作一方面应参考传统医疗器械的通用做法,完成设立质量管理架构、落实人员责任等常规工作,本文不再赘述。另一方面,笔者建议从人员、设备、材料(数据集)、方法、环境5个方面,注意医学影像AI临床使用质量控制的特殊要点。(一)人员1.资质要求:为避免AI医疗器械对人工判断、临床决策的误导,AI医疗器械的相关人员(包括数据采集人员、医护人员、物理师、质控人员等)应当足够了解实际部署场景,具有基本的职业资质和从业经验,对本机构的诊疗相关工作具有丰富的实践经验,有独立根据临床分工进行操作、决策和承担责任的能力。2.培训要求:相关人员应当接受厂家的培训,熟悉产品的技术文件、操作使用、研发遵照的标准规范,了解数据采集的要求和规范,能够理解和转化产品的上市前评价指标。以AI图像辅助分析为例,如果使用者既有的图像判读习惯与产品研发所依据的标准不同,那么产品给出的病灶标注、分类、分割等信息将很可能偏离使用者的预期。如果使用人员不能识别这种差异,那么判断上的分歧就难以化解,甚至产生不良事件的误报。3.能力管理要求:为保证人机协同的效率和效果,建议使用部门关注AI医疗器械使用人员的能力,适当时,进行实验室间比对和人员比对,观测使用者自身的判断能力、稳定性和机构之间的一致性,并采取必要的干预。(二)设备1.硬件要求:医学影像AI相关硬件,包括数据采集、存储、传输、管理、算法部署运行等涉及的硬件应当纳入质量控制范畴,在安全性、有效性、可靠性、复现性、可用性等方面可参照现有医院硬件设备的日常质控规程进行考量。以移动医疗APP形式部署和使用的AI医疗器械,对APP的运行设备同样应进行考量。AI医疗器械的部署、使用、校准、维护、维修等环节应当严格控制和观测相关硬件的变化,以避免产品表现出现波动。2.软件要求:对于独立软件形态的医学影像AI产品,临床使用质量控制需要开展运行效率、并发数、可移植性、网络响应、内存占用、存储空间管理等方面的检查与测试,观测软件在临床实际使用周境下的性能;对于嵌入式软件组件、软硬件一体化产品,应当参考独立软件质控要求,对其可能的变化予以评价和观测。(三)材料(数据集)1.数据标准化:临床使用质量控制的重要材料是数据集,来源包括AI产品供应商、临床机构、第三方机构等,内容包含临床数据、仿真数据和体模数据等。不同数据集的差异对临床使用阶段的产品性能评价结果影响较大,因此需加强数据本身的标准化,在数据格式、数据传输协议、数据预处理、数据集设计、数据集质量管理与评价等方面建立标准规范,保障临床使用质量控制能够依托高质量的数据集。2.标注标准化:医学影像的标注在AI产品的临床使用质量控制中同样具有重要地位。使用同一个数据集对同一产品在不同机构开展临床使用质量评价时,不同机构在标注准确性、稳定性等方面的差异将导致评价结果和感受的不同,因而需要开展标准化标注,在数据标注规则、标注流程设计、标注人员管理、过程质控等方面建立标准规范。(四)方法1.指标:日常质控可以引用上市前评价的部分指标,在日常质控数据集上测试算法性能,如准确率、重复性、鲁棒性等。2.产品性能测试方式:建议以批量处理数据集的形式开展产品算法性能的日常质控,提高效率和可重复性。对用于统计分类的产品,日常质控需要计算混淆矩阵、敏感度、特异度等指标;对用于病灶分割与尺寸测量的产品,日常质控需要实现算法结果可视化、手工尺寸测量、手工边界勾勒、交并比计算等功能,以支持人机比对和金标准比对。3.临床绩效评价:参考国内外现有的医学服务质量控制,建议从以下4个角度评价产品的临床绩效。(1)医疗服务环境的特征。本要素考虑的是影响临床绩效的各种外在因素,例如AI设备单位时间(平均)处理的患者数据量和患者类型(体检、门诊、急诊、住院等)、医师与AI设备比例、医师与患者比例。这些指标反映AI医疗器械使用者的工作量和负荷水平,有助于优化使用者的工作时间,改善医疗服务。(2)医疗服务过程中的表现。本要素衡量的是临床绩效的过程参数,例如平均AI报告等候时间、生理异常与危险事件报警数量。平均AI报告等候时间既包含AI运算的时间,又包含医师审核与纠正结果的时间,能够综合反映AI在医疗服务中的效率。生理异常与危险事件报警数量指的是每天由AI发现的需要及时处理的危重病例数量,反映了AI在挽救患者生命方面的贡献。(3)医疗服务结果。本要素衡量的是临床绩效的结果表现,例如报告的准确率、一致性。这些指标以定量的方式描述AI与医师判断的一致程度,反映了AI辅助医师的能力。一般来说,其评价方法与上市注册的产品技术要求中的方法基本一致,有时需要根据医师的关注点进行调整。例如,某些基于AI的胸部CT肺结节辅助诊断软件声称能够检出长径3~30mm的肺结节,当临床机构只要求在诊断报告中体现5mm以上的检出结果时,日常质控中有关报告的准确率计算也应当侧重5mm以上的检出结果,而与上市注册的产品技术要求的定义不同。(4)人机协同能力。本要素考虑的是AI算法对医师的影响。对于使用AI对医学影像进行辅助分类或辅助探测的产品,建议收集一部分经伦理委员会批准使用的前瞻性数据,用于建立和比较人+AI、人的ROC曲线下面积(areaundercurve,AUC)。当人+AI的AUC大于人的AUC且具有统计学意义时,可以认为AI对于医师的辅助作用是积极显著的。(五)环境在算力、网络带宽等硬件条件满足的前提下,建议日常质控的环境应在日常工作环境与标准化数据标注环境两种条件下进行,以分析使用者的体验和判断是否受环境影响出现差异。例如,基于AI的胸部CT肺结节辅助分析软件产品有必要在日常条件和标准化读片室下比对人工阅片和AI结果,评估人工识别肺结节的召回率、精确度的一致性是否受到显示器分辨率、亮度、图像放大倍数、室内光照、温湿度等环境条件差异的影响。如果影响显著,说明产品与日常工作环境的适配应当加强,以保障产品性能符合预期。三、对临床性能偏离的响应考虑到日常使用环境的变化和患者数据的不确定性,AI医疗器械在临床部署后的性能可能在不同程度上偏离预期,临床使用阶段应当明确对这种偏离的应对措施,这涉及真实世界数据的开发利用。真实世界中AI产品性能的评价,可以看作基于动态前瞻式数据集的性能测试,当真实世界数据的总体和分层的样本量具有统计意义时,即可用于观测实际性能与临床预期的偏离。观测的频率由经济和技术条件决定。出现性能偏离时,建议研究人员进一步分析真实临床使用环境下影响产品性能的因素,例如运行环境、人员操作、患者群体等方面的信息,并关注数据质量管理、数据标注标准规范的演化,综合判断产品能否继续有效执行任务,以采取修复、校准、改进、召回、淘汰等后续整改措施。临床机构发生整改后,应当对产品进行重复性测试,确认算法性能与日常质控结果一致后方可重新启用。上述流程和结果应形成详细记录,反馈给生产厂家。当AI医疗器械在临床绩效、临床使用风险方面出现显著问题时,建议及时报告不良事件。典型问题包括大范围误诊/漏诊、界面崩溃、算力异常、操作异常、质控结果不可重复、数据管理混乱、数据丢失、患者隐私泄露等。四、其他应注意的问题在临床使用阶段,产品的非预期使用带来的风险值得特殊关注,建议临床机构在使用前明确AI医疗器械在临床使用中的角色,例如独立输出诊断结果(直接产生报告)、第一读片人(AI先出结果,再由医师审核)、第二读片人(医师先读数据,然后AI分析数据,提醒医师避免漏诊)等情况,以防止AI的跨角色使用。AI决策与医师决策的结果必须有明确的标识和区分。为避免非预期使用,临床机构应明确产品的适应证范围,防止非预期结果影响医学诊疗(例如,预期仅用于识别肺内结节的AI产品有可能检出胸膜结节)。即使这种非预期结果在个别病例上符合医师的判断,它有可能在其他的病例上作为假阳性的结果干扰医师,从而降低医疗服务质量。预防非预期使用,还应当关注产品关键参数的变化。典型代表是AI进行辅助分类时使用的阈值。阈值的选择,会直接影响产品分类的敏感度和特异度。根据已公开的资料,敏感度、特异度、AUC是产品上市前评价中建议并经常采用的指标,其中敏感度、特异度是针对特定阈值的。如果生产厂家和临床机构认为有必要针对具体场景调整阈值,建议在上市前质量评价阶段进行相应研究,以保证性能的可重复性。从研究的角度看,应鼓励临床机构对客观出现的非预期结果开展分析,寻找规律,促进产品功能扩展。实际上,这种分析属于医学大数据的开发利用,本质上是依托临床数据开展的科研活动。首先在流程上,研究人员应满足临床伦理和科研管理的法规要求,获得相关部门的批准。其次,研究使用的软件、算法、计算平台应当与临床使用中的AI医疗器械软硬件相隔离,避免临床数据在未受控的情况下流入科研平台,同时防止科研产生的数据、结果干扰临床诊疗。五、结论综上所述,医学影像AI的临床使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论