江西省医疗大数据平台技术规范 第八部分人工智能临床预测模型构建规范_第1页
江西省医疗大数据平台技术规范 第八部分人工智能临床预测模型构建规范_第2页
江西省医疗大数据平台技术规范 第八部分人工智能临床预测模型构建规范_第3页
江西省医疗大数据平台技术规范 第八部分人工智能临床预测模型构建规范_第4页
江西省医疗大数据平台技术规范 第八部分人工智能临床预测模型构建规范_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DBXX/TXXX—XXXX

江西省医疗大数据平台技术规范第八部分:人工智能临床预测模型

构建规范

1范围

本标准规定了基于人工智能的临床预测模型构建的相关要求,包括临床预测模型构建的总则、框架、

规定了临床预测模型构建的目标定义、数据的采集、数据预处理和数据理解,特征工程、模型训练、效

果评价、以及模型的扩展与验证等内容。本标准适用于基于人工智能临床预测模型体系的构建。

本规范适用于人工智能临床预测模型的建立;人工智能临床预测模型建立过程的明确,人工智能临

床预测模型实施落地的指导;人工智能临床预测模型的研发和评价。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T5271.31-2006信息技术词汇第31部分:人工智能机器学习

GZBC/T37-2020医疗机构数据治理规范

YD/T3762-2020大数据数据挖掘平台技术要求与测试方法《国家健康医疗大数据标准、安全和服务

管理办法(试行)》(国卫规划发〔2018〕23号)

3术语和定义

下列术语和定义适用于本文件。

3.1

医疗大数据medicalbigdata

在疾病防治过程中产生的与医疗相关的海量数据的集合。

3.2

结构化数据structureddata

一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用

关系模型予以有效描述。

[GB/T35295-2017,定义2.2.13]

3.3

人工智能arificialInteligence

1

DBXX/TXXX—XXXX

研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方

式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

3.4

自然语言处理naturallanguageprocessing

人工智能的分支学科,研究用计算机模拟人的语言交际过程,实现人与计算机之间用自然语言进行

有效通信的各种理论和方法。

3.5

机器学习machinelearning

功能单元通过获取新知识或技能,或通过整理已有的知识或技能来改进其性能的过程。

[GB/T5271.31-2006定义,31.1.2]

3.6

深度学习deeplearning

机器学习中一种基于对数据进行表征学习的方法,通过组合低层特征形成更加抽象的高层表示属

性类别或特征,以发现数据的分布式特征表示。

[GB/TCESA1119-2020定义,3.6]

3.7

有监督学习supervisedlearning

指已有的样本(数据)已经包含自身的特征变量(自变量)及正确的响应变量(因变量)。

3.8

无监督学习unsupervisedlearning

指已有的样本(数据)不包含因变量。

3.9

通用数据模型commondatamodel)

一种从多种来源的电子信息数据库中提取特定信息的结构和框架,它通过建立标准化的变量表单,

从海量数据中准确、快速、有效地提取科学研究或管理所需要的关键信息。

4缩略语

下列缩略语适用于本标准:

——AI人工智能ArificialIntelligence;

——NLP自然语言处理NaturalLanguageProcessing;

——AUC曲线下面积AreaUnderCurve;

——SPE特异度specificity;

2

DBXX/TXXX—XXXX

——SEN灵敏度Sensitivity;

——CNN卷积神经网络ConvolutionalNeuralNetworks;

——RNN循环神经网络RecurrentNeuralNetwork;

——GAN生成式对抗网络GenerativeAdversarialNetworks;

——SVM支持向量机SupportVectorMachine;

——RF随机森林RandomForest;

——XGBoost极端梯度提升树eXtremeGradientBoosting;

——MAE平均绝对误差MeanAbsoluteDeviation;

——MSE均方误差MeanSquaredError;

——RSR方RSquared;

——CDM通用数据模型CommonDataModel。

5总则

5.1概述

临床预测模型主要源于医疗大数据管理及应用、疾病预防的需求,主要包括:

——医疗机构数据产品化、资产化和价值化的要求;

——疾病三级预防的要求,主要为:

疾病预测模型给某病量化风险值(概率),为健康教育和行为干预提供更直观、有力的科

学工具;

疾病诊断,借助无创的、低成本、易采集的指标,给出高灵敏度和特异度的诊断方案;

疾病预后预测,可对疾病的复发、死亡,伤残以及出现并发症的概率给出量化的估算。

5.2目标

5.2.1医疗数据的临床预测模型的目标是保障应用过程中的共同决策、精准筛选、质量管理:

5.2.2共同决策:医生和患者借助临床预测模型可以更好的做出共同决策。

5.2.3精准筛选:临床研究者可以更精准的筛选合适的研究对象。

5.2.4质量管理:卫生管理者更好的进行医疗质量管理,合理的配置医疗资源。

5.3任务

医疗机构应通过目标定义、数据的采集、数据预处理和数据理解,特征工程、模型训练、效果评价、

以及模型的扩展与验证的过程,实施临床预测模型构建的任务,主要包括:

——通过将医疗过程中的问题转化为适合人工智能项目的问题定义,并制定初步计划;

——通过不同数据源采集模型构建所需数据;

——处理数据噪声、数据冗余、数据丢失等问题,对数据进行初步分析与探索;

——通过特征工程获取可解释的优质特征;

——通过模型训练,并进行优化;

——通过评价指标评估模型的性能;

——通过外部验证集对模型验证,并对模型进行不断改进。

5.4原则

医疗临床预测模型应以数据质量为核心、以数据安全为原则,实现应用过程中的共同决策、精准筛

选和质量管理的目标。

3

DBXX/TXXX—XXXX

6构建框架

6.1医学临床预测模型构建框架主要包括目标定义、数据的采集、临床模型构建、模型效果评价、模

型的验证与更新。

图1XXX

6.2目标定义:分析所需解决的实际问题,并制定相应的计划。

6.3数据采集:主要采集医疗业务数据、医疗影像数据、具有时序特征的生理信号数据。

6.4临床预测模型构建。

6.5数据理解:主要审查数据的维度、类型、属性、分布情况、相关性等。

6.6数据预处理:主要包括数据的清洗、数据的变换。

6.7特征工程:主要包括特征提取、特征选择。

6.8模型训练:主要包括机器学习模型、深度学习模型、统计学模型训练。

6.9模型效果评价:借助or值、P值、AUC、SPE、SEN等指标评估模型的性能。

6.10模型的验证与更新:通过对模型的验证,实现模型的更新。

7过程

7.1目标定义

目标定义应该保持和业务规划、信息技术规划一致,并明确目标,并指定实施的策略:

——调研目前疾病预防的业务现状和后续改进方向。

——将疾病预防问题转化成临床预测问题,明确临床预测模型的类型,对于诊断类问题,其预测

因子与结局均在同一时点或很短的时间内,适合采用横断面研究数据构建诊断模型;对于预后

类问题,其预测因子与结局有纵向的时间逻辑,适合采用队列研究数据拟合预后模型。诊断模

型研究中,需要有“金标准”来单独诊断疾病,且“金标准”的诊断应该在“盲法”状态下进

行,即“金标准”的诊断不能借助预测模型中的预测因子信息,以避免诊断评估偏倚(diagnostic

reviewbias)。预后模型研究中,预测因子与结局的本质就是纵向关系,且研究者通常希望

获得在自然状态下疾病的转归,因此前瞻性队列研究是预后模型最常见,也是最佳的研究设计

类型。

——制定临床预测模型各期任务目标责任、实现内容、实施方案等,设计实施中,若为新的研究,

应从研究方案、研究者操作手册、病例报告表、伦理批件等相关文件的准备开始,并进行数据

质控与管理;若为基于既往数据的回顾性研究,也应对数据质量进行评估;

4

DBXX/TXXX—XXXX

——制定技术方案,并明确各阶段的任务、责任和完成时间。

7.2数据的采集

数据的采集应对数据进行治理,保证数据的完整性、唯一性、规范性、准确性、一致性:

——应对采集的数据进行质量控制、数据字典标准化工作。

——应通过自然语言处理对文本数据进行处理,将病历文书内容、影像学报告等非结构化文本进

行批量结构化处理工作。

7.3构建流程

构建流程主要包括数据理解、数据预处理、特征工程、模型选择、模型训练、模型部署,其中主

要为:

——要求对数据缺失情况、数据量、数据类型、数据属性、数据分布、数据类别的平衡性、数据

之间的相关性进行初步了解,并在分析结束后生成数据分析文档。

——主要进行数据清洗和数据变换,数据清洗要求处理数据中的错误点、冗余点、噪声,缺失值,

并尽可能的符合原始数据的分布,数据变换要求根据实际业务情况,对数据进行规范化、离散

化、特征编码等操作,确保能消除量纲和取值范围差异的影响,反应真实数据关系,增强模型

的稳定性,降低过拟合风险。

——主要对特征进行提取和特征选择,数据特征提取和特征选择均要求降低模型训练的时间复杂

度、以较少的特征进行解释模型解释,不同的是,特征提取要求用新的特征去解释原有的理论,

比较适合于医学图像特征提取。而特征选择而是要求用原有的部分特征去解释原有的理论,适

用于各种源数据的筛选。对于特征选择,要有工具可以自动筛选出合适的候选特征,供科研人

员参考。

——模型选择用于从多个备选模型中选择预测准确且表现稳定的模型。对于模型选择,所使用的

建模工具需要包含丰富的深度学习模型、机器学习模型、统计学模型,同时要能根据所选择的

模型自动生成建模过程文档,让科研人员能够能够直观的判断模型是否符合医学认知。

——模型训练适合用于各种模型,包括深度学习模型、机器学习模型、统计学模型。其中深度学

习和机器学习要求对超参数进行优化,直到训练成一个效果较好的模型;统计学模型要求参数

估计,深度学习模型使用的算法包括但不限于CNN、RNN、GAN;机器学习模型使用的算法包括

但不限于:SVM、RF、XGBoost;统计学模型使用的算法包括但不限于Logistic模型、Cox模

型。对于超参数优化,需要有丰富的超参数调优工具来辅助科研人员。

——模型部署后,才能真正让人工智能模型应用于临床实践中。由于并非所有医院都能够提供非

常强大的硬件资源,被部署模型要能提供相应的功能适应硬件配置较低的服务器。需要提供针

对较低配置服务器的训练和部署方案,通过适当牺牲一定的模型效果,完成模型训练和部署工

作。

7.4模型效果评价

不同的模型要求的评价指标不一致,其中:

——如果为机器学习、深度学习分类问题,常用的模型评价指标为准确率、AUC、SPE、SEN、F1-score

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论