江西省医疗大数据平台技术规范 第六部分临床科研系统功能要求_第1页
江西省医疗大数据平台技术规范 第六部分临床科研系统功能要求_第2页
江西省医疗大数据平台技术规范 第六部分临床科研系统功能要求_第3页
江西省医疗大数据平台技术规范 第六部分临床科研系统功能要求_第4页
江西省医疗大数据平台技术规范 第六部分临床科研系统功能要求_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DBXX/TXXX—XXXX

江西省医疗大数据平台技术规范第六部分:临床科研系统功能要求

1范围

本文件规定了临床科研系统的总体功能规范,包括临床科研数据管理要求、科研项目管理要求、临

床科研数据分析要求等方面内容。

本文件适用于各医疗单位、企业构建临床科研系统解决方案的研发、选择和评价,不适用于各医疗

单位、企业硬件要求,也不包括医院整体临床数据中心的要求。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T14396-2016疾病分类与代码

GB/T18391.1—2009信息技术元数据注册系统(MDR)第1部分:框架

GB/T34960.5—2018信息技术服务治理第5部分:数据治理规范

GB/T35295-2017信息技术大数据术语

GB/T37721-2019信息技术临床科研系统功能要求

WS/T303—2009卫生信息数据元标准化规则

WS/T304—2009卫生信息数据模式描述指南

WS363-2011(所有部分)卫生信息数据元目录

WS364-2011(所有部分)卫生信息数据元值域代码

WS445-2014(所有部分)电子病历基本数据集

《国家健康医疗大数据标准、安全和服务管理办法(试行)》(国卫规划发〔2018〕23号)

全国医院数据上报管理方案-医疗业务(试行)“国卫办规划函〔2019)380号”

全国医院数据上报管理方案-医疗数据字典(试行)“国卫办规划函〔2019〕380号”

全国医院数据上报管理方案-医疗业务(试行)“国卫办规划函〔2019)380号”

3术语和定义

下列术语和定义适用于本文件。

3.1

数据生存周期datalifecycle

数据获取、存储、整合、分析、应用、呈现、归档和销毁等各种生存形态演变的过程。

[GB/T34960.5—2018,定义3.7]

3.2

1

DBXX/TXXX—XXXX

医疗大数据medicalbigdata

在疾病防治过程中产生的与医疗相关的海量数据的集合。

3.3

随机对照试验randomizedcontrolledtrial

随机对照试验是一种对医疗卫生服务中的某种疗法或药物的效果进行检测的手段,特别常用于医

学、药学、护理学研究中,在司法、教育、社会科学等其他领域也有所应用。

3.4

数据治理datagovernance

数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。

[GB/T34960.5—2018,定义3.1]

3.5

数据管理datamanagement

数据资源获取、控制、价值提升等活动的集合。

[GB/T34960.5—2018,定义3.2]

3.6

数据资产dataasset

组织拥有和控制的、能够产生效益的数据资源。

[GB/T34960.5—2018,定义3.3]

3.7

数据战略datastrategy

组织开展数据工作的愿景和高阶指引。

[GB/T34960.5—2018,定义3.4]

3.8

数据架构dataarchitecture

数据要素、结构和接口等抽象及其相互关系的框架。

[GB/T34960.5—2018,定义3.5]

3.9

元数据metadata

定义和描述其他数据的数据。

[GB/T18391.1-2009,定义3.2.16]

3.10

2

DBXX/TXXX—XXXX

数据生存周期datalifecycle

数据获取、存储、整合、分析、应用、呈现、归档和销毁等各种生存形态演变的过程。

[GB/T34960.5—2018,定义3.7]

3.11

数据安全datasecurity

数据生存周期的安全管控。

3.12

临床预测模型clinicalpredictionmodel

临床预测模型,又称临床预测规则或者风险评分,是指利用多因素模型估算患者有某种疾病的概率

或者将来发生某结局的概率,主要可分为诊断模型(Diagnosticmodel)和预后模型(Prognosticmodel)。

3.13

数据预处理datapreprocessing

数据预处理,由于真实世界的临床数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖

掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法:

数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数

据挖掘模式的质量,降低实际挖掘所需要的时间。

3.14

特征工程featuresengineering

特征工程,是指用一系列工程化的方式从原始数据中筛选出更好的数据特征,以提升模型的训练效

果。在临床研究中常见的特征工程包括变量筛选:如逐步回归、岭回归、LASSO回归、基于机器学习算

法的重要度排序等,除了变量筛选外还常用到的主成分分析与因子分析进行特征工程。

3.15

模型评价modelevaluation

确定纳入模型的因子和结局变量后,选择不同的模型类型,例如传统的Logistic回归、线性回归、

COX比例风险模型等,也可以使用机器学习算法(SVM、Xgboost等),通过对测试集上预测效果进行模

型的评价,常用的模型评价指标有ROC-AUC、F1-score、召回率、区分度、校准度等模型性能评价指标。

4缩略语

下列缩略语适用于本文件:

——API:应用程序编程接口(ApplicationProgrammingInterface);

——ETL:数据仓库技术,将数据从来源端经过抽取(extract)、转换(transform)、加载(load)

至目的端的过程(Extract-Transform-Load);

——CRF:病例报告表(CaseReportForm);

——PI:主要研究者(principleinvestigator);

3

DBXX/TXXX—XXXX

——CI:合作研究者(co-investigator);

——SI:助理研究者(sub-investigator);

——CSV:逗号分隔值(Comma-SeparatedValues);

——EMRs:电子病历系统(ElectronicMedicalRecordSystem);

——JSON:对象简谱(JavaScriptObjectNotation);

——XML:可扩展标记语言(eXtensibleMarkupLanguage);

——XSL:可扩展样式语言(eXtensibleStylesheetLanguage);

——ML:机器学习(MachineLearning);

——RCT:随机对照试验(RandomizedControlledTrial);

——GCP:药物临床试验管理规范(GoodClinicalPractice);

——COX:比例风险回归模型(proportionalhazardsmodel);

——ROC:接受者操作特性曲线(receiveroperatingcharacteristiccurve);

——PSM:倾向性评分匹配(PropensityScoreMatching);

——One-Hot:独热编码(One-HotEncoding)。

5临床科研系统设计总则

5.1概述

科研工作是医疗机构的一项重要工作,科研水平标志着医疗机构的整体技术水平。随着医疗机构信

息化的逐步完善,医疗机构积累了庞大的医疗数据,挖掘数据价值、促进医疗机构技术水平和医疗质量

的提升成为医疗机构共同的重要发展方向。建设基于人工智能的全院级科研一体化平台,可以对医院临

床病历数据进行结构化、标准化的整合治理,面向医院重点专科提供临床科研数据采集和分析服务,满

足不同临床医生不同的科研诉求,从而促进医疗机构的科研产出实现批量提升。

5.2目标

构建临床科研系统的目的是利用信息技术手段,有效地聚合、分析、管理、利用医疗大数据资源,

打造高质量的临床科研数据中心,提供科研的统计分析工具,嵌套医学常用统计方法,以满足临床科研

对高质量研究与管理的要求。实现医疗大数据的利用效率提升,临床研究中数据收集、数据整理等步骤

的时间成本降低,从而有效加速医疗机构的科研产出、推进智慧医疗建设。

6总体技术要求

6.1概述

主要从系统架构、系统性能、数据标准化、数据与信息安全4个方面规范了临床科研系统的基本技

术要求。

6.2平台架构技术要求

6.2.1系统需采用B/S架构,纯WEB版产品界面,需提供系统界面截图.

6.2.2支持基于kubernetes和docker容器编排的部署方案,需提供系统截图展示容器的运行状态.

6.2.3具备完善应用部署能力,提供应用部署管理平台的界面和部署方案.

6.2.4支持与医院信息系统数据的实时同步,需提供技术方案.

6.2.5支持集成多种数据库,如DB2、PostgreSQL、MySQL、ORACLE和SQLServer.

4

DBXX/TXXX—XXXX

6.2.6提供性能监视器功能,能对设定的关键指标进行监控。

6.3系统性能要求

6.3.1系统支持7*24小时不间断运行。

6.3.2满足20个以上并发用户登录,最大在线会话数应支撑100个。

6.3.3100万条数据OLAP查询分析4级维度下应在10秒内完成。

6.3.410万条数据多维在线基础统计分析应在20秒内完成。

6.4数据标准化要求

6.4.1支持数据集成及整合过程的标准化:实现数据的集成,通过各种数据治理手段,结合标准的医

疗术语的标准规范管理,实现数据的标准化、结构化,并实现数据治理过程中的完整性、自洽性、一致

性;支持科室、病区、诊断编码、疾病、药品、检验、检查等关键业务编码的统一。

6.4.2支持不同数据来源的数据:充分考虑数据源格式的多样性,比如各自不同的数据库格式、文本

文件格式、XML格式、JSON格式等,支持结构化数据、半结构化或非结构化数据。

6.4.3支持不同数据生成阶段的数据:由于数据生成的时期、部门、设备、技术、能力等不同,数据

存储管理极为分散,支持通过采用一种通用的标准和规范,提供统一的数据接口,支持多样的数据源。

6.5数据与信息安全

6.5.1系统仅允许院内部署,数据不可出院,系统仅允许本地维护。

6.5.2与医院信息系统对时应接遵循医院数据管理的要求,对医院生产系统进行只读访问,不对医院

生产系统进行数据写入。

6.5.3所有用户的密码在数据库中,采用摘要算法加密后再保存。

6.5.4支持用户的权限的设置:支持医院管理人员方便的管理各种角色、用户的功能权限、数据访问

和使用权限的定义。

6.5.5支持操作日志的记录:对所有用户操作记录日志,记录访问IP地址、时间、用户名、操作涉及

的模块等信息。

6.5.6支持患者去隐私管理:对于患者隐私,在应用或系统设计时充分考虑相关数据的隐私保护政策。

7总体功能要求

本标准的功能要求主要从样本收集、科研项目管理、数据选取、数据挖掘以及系统管理5个方面对

临床科研系统的基本功能做出要求,各模块间的相互关系,如图1所示。

5

DBXX/TXXX—XXXX

图1临床科研系统框架

8样本收集模块功能要求

8.1概述

样本收集是临床研究的第一步,对于内部样本即存储于医疗大数据平台内的样本,应支持多种形式、

复杂条件的查询进行收集,外部样本主要针对前瞻性研究,应支持手工录入、电子交换或是数据导入的

收集方法。

8.2外部样本采集

外部样本采集功能要求如下:

——应支持手工录入样本信息;

——应支持上传相关图片信息;

——应支持以接口的方式与外部系统进行交互导入数据集,数据提供方应按照接口标准处理需要

导入的数据,如JSON、WebService等方式;

——应支持以ETL(数据仓库技术)的方式从外部系统抽取数据,数据提供方应按照ETL技术标准

对数据进行抽取、清洗、校对等。

8.3内部样本检索

内部样本检索功能要求如下:

——应提供可视化的工具进行各类数据查询统计,同时支持查询结果数据的图形、报表展示

——应支持复杂条件的检索方式,自由构造查询条件以及组合筛选条件,查询条件包括但不限于:

大于、小于、等于、大于等于、小于等于、不等于,包含,不包含等;组合条件包括但不限于:

且、或等;

——应支持多维度的检索,包括但不限于:诊断、检验、体征、时间、就诊信息等;

——应支持病例全文的精确以及模糊检索;

——应支持对疾病名进行归一化搜索,如搜索慢性阻塞性肺疾病或慢阻肺或COPD,搜索到的应是

同一种疾病的相关内容;

——应支持管理人员设置系统使用人的数据可查询范围。

6

DBXX/TXXX—XXXX

9科研项目管理模块功能要求

9.1概述

临床科研项目主要包括前瞻性研究以及回顾性研究,系统功能应满足两类研究的使用需求。

9.2前瞻性研究项目

前瞻性研究功能要求如下:

——应提供科研项目管理功能,包括但不限于项目管理、团队管理、成员管理、多中心管理等;

——应支持受试者(患者)管理功能,包括但不限于筛选、添加、更新、删除受试者(患者)信

息等;

——应提供入组样本的随机分组功能,以满足随机对照试验的要求;

——应提供CRF表单制作功能,应允许用户或管理人员创建编辑CRF表单;

——应提供多终端的表单填写功能,包括但不限于网页填写、收集APP填写、微信小程序填写等;

——应提供可视化的随访管理功能,允许项目成员查看随访对象的随访进度;

——应提供项目的质控。

9.3回顾性研究项目

回顾性研究功能要求如下:

——应提供队列管理功能,包括但不限于删除队列、查询队列、手工增加队列样本等;

——应提供队列的二次筛选功能,包括但不限于队列的并集、交集、对某一指标进行筛选。

9.4科研项目权限管理

科研项目权限管理功能要求如下:

——应支持管理人员设置对项目的增删改查权限;

——系统应提供研究项目背景、数据来源、入排标准、研究设计等文档的录入界面

——支持系统管理者对全部的研究项目进行增删改查。

——支持团队成员权限管理,根据不同权限配置用户角色的功能权限及数据权限,权限包括但不

限于PI、CI、SI等角色的功能权限。

10数据选取功能要求

10.1概述

科研数据选取应提供基线选择、变量选取所需的可视化工具,应提供数据选取的患者信息展示,并

支持最终选取数据的导出。

10.2定义基线

支持可视化定义研究基线,包括但不限于诊断、检验、就诊信息、用药、手术等。

10.3变量选择

10.3.1支持设置数据选取所需的患者信息相关变量,包括但不限于诊断、检验、就诊信息、用药、手

术等。

10.3.2支持选取基于自然语言处理的患者信息。

7

DBXX/TXXX—XXXX

10.3.3支持自定义变量的配置、编辑、删除。

10.3.4支持配置所选变量选取的时间点或时间段。

10.3.5支持保存变量选择模板应用于其他项目。

10.4数据导出

10.4.1应提供患者视图,应提供展示纳入数据选取的患者信息,应提供单个患者整个数据生命周期的

全部数据。

10.4.2应提供数据导出功能,数据使用者或管理者可从将选取的数据以所需的格式导出,格式包括但

不限于CSV、XLS、SAS、Excel、SPSS等多种格式。

11数据挖掘功能要求

11.1概述

数据挖掘功能应满足不同临床研究设计(如:RCT)或临床试验标准(如:GCP)中需要的分析算法,

该模块功能要求主要包括:提供对原始数据以及处理后数据进行数据预处理、数据分析、数据建模以

及数据图表的分析工具库,同时能够输出分析结果、知识或者决策。

11.2数据清洗

数据清洗应模块功能要求如下:

——应提供数据编辑功能,包括但不限于小数点位数修改,变量属性修改(定量数据、定类数据

等),变量名修改,变量删除,变量转化等;

——应提供数据批量清洗功能,包括但不限于缺失值填补、剔除文本、记录替换等;

——提供重编码功能,包括但不限于分组重编码、One-hot编码等;

——应提供数据标准化功能,包括但不限于归一化、正则化等;

——应提供数据筛选功能,使用目标数据集自由构造查询条件以及组合筛选条件,查询条件包括

但不限于:大于、小于、等于、大于等于、小于等于、不等于,包含,不包含等;组合条件包

括但不限于:且、或等。

11.3数据分析

11.3.1提供研究样本的描述功能:包括但不限于最大值、最小值统计、正态检验、交叉表等。

11.3.2提供变量关联分析功能,包括但不限于共线性、相关性分析等。

11.3.3提供组间\组内差异分析功能,包括但不限于非参数检验、T检验、单因素方差分析等。

11.3.4提供临床常用回归\生存分析功能,包括但不限于Logistic回归、COX回归、生存分析、RCS

样条、主成分分析等。

11.3.5提供综合统计分析功能,包括但不限于单因素\多因素分析、多模型回归分析、趋势分析、分

层分析等;支持分析结果的可视化与导出。

11.3.6支持统计任务复用与修改要求。

11.4数据建模

11.4.1应提供临床科研中常用的基于机器学习的分类算法,包括但不限于XGboost分类、RF分类、

KNN分类、SVM分类、logistics分类、朴素贝叶斯分类、ADboost分类、lightGB分类等。

11.4.2应提供临床科研中常用的基于机器学习的回归算法,包括但不限于XGboost回归、RF回归、

KNN回归、SVM回归、线性回归等。

8

DBXX/TXXX—XXXX

11.4.3应提供临床科研中常用的基于机器学习的聚类算法,包括但不限于K-mean聚类、Birch聚类、

高斯混合模型聚类等。

11.4.4应提供临床科研中常用的降维算法,如PCA、LDA等。

11.4.5可支持多种神经网络算法,包括但不限于MLP、DNN、CNN、LSTM等。

11.4.6可支持按照比例划分数据集的训练集、测试集,提供手动设置划分比例的界面。

11.4.7可支持对选定模型的手动调整、自动调整模型参数,提供手工调整参数的界面。

11.4.8可支持多个预测模型间预测效能进行比较,提供测试集以及训练集中预测效能的比较。

11.4.9可支持机器学习流程的其它其它组件,包括特征提取、特征选择、重要度排序、交叉验证等。

11.4.10可提供基于每个建模分析方法产生分析结果的说明和解释。

12系统管理功能要求

12.1概述

系统管理提供用户管理、角色与权限、数据策略、院外访问设置和日志审计功能。

12.2用户管理

12.2.1应支持展示系统用户信息。

12.2.2应支持添加、编辑、删除用户信息。

12.3角色与权限

12.3.1应支持不同角色配置不同功能权限。

12.3.2应支持展示不同角色的权限,并支持新增、删除、编辑角色的权限。

12.4数据安全管理

12.4.1支持数据权限策略与配置,包括根据用户职称、职位(也可以定制化)配置全院、所在科室数

据权限策略。

12.4.2支持对于某一类患者信息(姓名、家庭地址、身份证)进行加密,避免患者隐私泄露。

12.5日志管理

支持系统用户登录/登出/变更、智能搜索、数据导出等操作的日志审计。

9

DBXX/TXXX—XXXX

A

A

附录A

附录B(资料性)

附录C医疗大数据科研平台的实践案例

C.1案例背景

随着医疗机构信息化的不断完善,医疗机构拥有的数据量越来越庞大。在大数据时代,对于研究型

医疗机构,如何释放大数据的价值成为很多医疗机构关注的问题。科研是医疗机构高质量发展的重要基

石,也是发挥大数据价值的主要领域。一方面,借助大数据平台完成数据治理,提升医疗机构数据质量,

提高科研产出效率。另一方面,借助大数据促进医疗机构智慧管理、临床智能应用,加速智慧医疗机构

建设。

C.2痛点和难点

C.2.1痛点

C.2.1.1科研无法直接使用非结构化数据

医疗机构虽然积累了海量数据,但由于80%左右的数据是非结构化的数据,在科研中是无法有效利

用的。医疗机构急需非结构化电子记录的结构化处理能力,采用医疗人工智能技术将医学语境下基于自

然语言描述的医疗记录自动转化为结构化数据,满足临床科研需求。

C.2.1.2缺乏统一的数据标准

在没有统一数据标准的阶段,医疗机构虽然拥有海量的、种类丰富的临床数据,在数据统计等应用

的过程中,发现了很多统计不准确、筛选范围覆盖不完整等问题。例如,搜索“慢性阻塞性肺疾病”的

相关病例,有很大比例的病例应该被搜索出来,但是却没有搜索出来,因为部分患者的临床描述采用的

是COPD、慢阻肺或者其他的描述方式。

C.2.1.3缺乏工具,病例数据采集、统计分析难

C.2.1.3.1传统的病例数据采集是采用的是Excle和人工收集数据的模式,收集数据这种低价值、重

复性劳动占用了临床科研工作大量的宝贵时间。

C.2.1.3.2有了数据后,由于缺乏科研工具,在队列管理、样本纳入、数据分析方面均采用人工处理

方式或借助多种第三方工具,一方面是存在速度慢、效率低的问题,另一方面第三方软件还存在数据泄

露的安全隐患。

C.2.1.4信息安全无保障

C.2.1.4.1医疗机构数据服务缺少数据隐私和脱敏配置功能,无法在对应的服务中进行脱敏处理。

C.2.1.4.2传输过程应当缺少加密配置功能,无法服务的传输过程中对交互数据进行加密处理。

C.2.1.4.3数据访问缺少访问控制与监管的功能,无法做到对每个接入数据服务的系统和数据使用方

都进行登记与注册,以及记录每次访问的情况。

C.2.2难点

C.2.2.1面向未来3~5年的统筹规划及落地方案

10

DBXX/TXXX—XXXX

C.2.2.1.1评估医疗机构内,业务系统和人员能力等现状,分析医疗机构科研发展方向及重点,为医

疗机构数据治理制定可行性方案。

C.2.2.1.2制定医疗机构、科研平台服务商、其他系统服务商之间的规划、治理范围和任务的界定,

以及实施策略、流程的设计。

C.2.2.1.3制作监督执行过程的策略和方式,保证实施进度和质量。

C.2.2.2高质量、可持续的数据治理体系设计

C.2.2.2.1医疗机构数据中心要建立一套可评价的体系,从数据的及时性、完整性、准确性、一致性、

关联性、溯源性等6个维度对数据治理过程进行评价。

C.2.2.2.2及时性:业务数据产生的时间(以数据记录时间或业务时间为准)与数据收集的时间间隔,

应满足一定的时间要求。该评价主要是针对数据治理中数据收集的过程。

C.2.2.2.3完整性:医疗机构数据中心应制定数据完整性相关质量指标,通过业务标准来识别业务关

键数据的完整性,并根据评价情况,对数据质量过程进行持续优化和调整。

C.2.2.2.4完整性:医疗机构数据中心应制定数据准确性相关质量指标,结合业务规则和数据标准来

识别数据的准确程度,并根据评价情况,对数据治理过程进行持续优化和调整。

C.2.2.2.5一致性:医疗机构数据中心应制定数据一致性相关质量指标,结合业务规则和数据标准来

识别数据的一致性程度,并根据评价情况,对数据治理过程进行持续优化和调整。

C.2.2.2.6关联性:医疗机构数据中心应制定数据关联性相关质量指标,结合数据库管理范式要求识

别数据的关联性水平,并根据评价情况,对数据治理过程进行持续优化和调整。

C.3基本情况

C.3.1南昌大学第二附属医疗机构拥有江西省首个医疗大数据工程技术研究中心及国家脑卒中筛查与

防治基地,有在职职工2201人,开放床位3985张,年住院13.4万余人次,年手术6.4万次,年门诊

200万余人次,医疗机构现运行医疗业务子系统100余个,历史使用系统超过200个。在建立大数据平

台、进行数据治理之前,医疗数据使用困难,复杂的科研数据需求、统计分析需求费时费力且难以保障

数据准确性。

C.3.2因此,南昌大学第二附属医疗机构于2019年建立基于分布式计算计算的医疗大数据平台,治理

完成了自2006年到2021年全院包括HIS、EMR、检验检查、护理数据等全量医疗数据,实现数据汇聚、

标准化结构化治理,全面覆盖了医疗机构一百余个业务系统,从根本上解决了医疗机构数据处理能力不

足的问题,为医疗机构数据需求、科学研究提供了较好的数据基础与处理能力。

C.4平台架构

平台架构分为四个层级:

——数据集成:科研平台首先采集院内的临床数据和院外产生的随访、CRF表单等数据。

——数据治理:集成的数据与术语标准体系进行映射或进行标准化转化,支持进行数据合理性校

验,实现将多元性、异源性数据转化为统一标准的高质量科研数据。

——数据中心:将经过治理的数据存放在科研数据中心。

——科研应用:科研人员使用应用系统来建立课题、队列、筛选病历,做回顾性、前瞻性研究。

11

DBXX/TXXX—XXXX

图A.1临床科研系统架构

C.5功能介绍

C.5.1构建ETL平台实现历史与实时数据汇聚,保障数据完整性与整合性。

——规划大数据平台数据池,将所有临床原始数据汇聚进数据池;

——通过Kettle软件实现构建基础ETL平台;

——设置DICOM前置服务器,接入医疗影像、心电等原始数据;

——设置基因数据服务器,通过与测序仪直连方式接收基因测序数据。

C.5.2建立数据脱敏规范,开启平台软硬件结合安全防护,保障数据安全性。

——参照HIPAA定义的18项内容进行脱敏、加密存储;

——平台在院内网部署,接口机纳入堡垒机管理;平台开启Kerberos安全认证以及严格的权限控

制。

C.5.3建立数据质量核查、监控流程,提高基础数据质量。

——历史数据:生成数据质量核查报告,作为后续数据清洗依据;

——新增数据:选取不同检查方法实时监控数据质量及预警。

C.5.4建立数据标准化规范。

提取非结构化数据信息,提高数据可用性对电子病历、MRI\CT报告中文本数据进行自然语言处理,

产生了结构化数据,包括门诊病历数据和住院病历数据。

C.5.5采用分层、分域模型构建医疗大数据模型,采用主题化、层次化方式管理数据,提高数据使用

效率。

——通过构建数据仓库,对全量医疗数据进行集中治理;

——采用分层、分域架构建立数据仓库,形成了接口层、主题层、汇总层、应用层;

——在应用层基础上,通过构建指标集、标签集、应用宽表组成数据集市,为医疗机构运营、机

器学习算法、临床业务提供高效数据支撑。

C.5.6建设科研系统,加强科研数据采集与检索,提升提高科研数据的统计分析能力:

12

DBXX/TXXX—XXXX

——支持多维度科研变量来检索临床历史数据进行回顾性研究,满足自定义eCRF系统自动采集临

床科研数据,实现前瞻性科研的需要。科研数据能直接导出支持SAS/SPSS等第三方统计软件

使用;

——嵌套医学统计中绝大多数的统计方法,能够依据数据类型自动选择最合适的统计方法,并且

自动生成统计报告。其中统计报告包含标准三线表、统计结果描述、统计图形等。

C.6应用效果

C.6.1利用大数据平台,减少科研时间

C.6.1.1回顾性研究方面,改变了传统Excle和人工收集数据的模式,实现了智能检索、变量选择和

智能统计分析。针对前瞻性研究,大数据帮助实现了患者入组、方案设计和随访采集等。

C.6.1.2以智能搜索为例,科研人员检索一位脑出血患者,很快就能发现系统里脑出血患者的人次、

年龄分布等信息,同时支持二次筛选,剔除脑干出血和创伤性出血的患者。

C.6.1.3数据分析方面,由于科研系统中嵌入了相关的统计工具,例如描述性分析和差异性分析。通

过这些统计模型,可以让科研人员很快分析出结果,从而大大节约工作效率。此外,也让很多沉睡的数

据能够得到很好的利用。

C.6.1.4从效率上看,过去医疗机构要做一个回顾性研究,耗时在数周到数月都有可能。医疗机构在

使用了科研大数据平台后,在十分钟之内就可以建立一个科研队列。前瞻性研究同样如此,借助CRF

自动回填、智能随访等功能,可以减少60%左右的科研耗时。

C.6.2批量提升科研产出

医疗机构在平台的助力下,创建科研队列研究1086个,有600多个科研项目在平台上运行,涵盖

全院各个学科。在数据治理方面,医疗机构完成了57个业务系统,总计11.4亿条数据治理,形成清洗

后、结构化、标准化数据9.1亿条。并且,医疗机构还借助数据治理能力,实现了整体数据质量的提升。

13

DBXX/TXXX—XXXX

B

B

附录D

附录E(资料性)

附录F极智分析-医疗大数据科研统计分析平台的实践案例

B.1案例背景

F.1.1一站式临床研究建模平台“极智分析”,是集数据治理、医学统计学、机器学习建模于一体的

全流程临床研究专业分析平台。平台以科研项目为导向,集多种功能于一身,能实现从数据上传到分析

结果一键式、一站式输出的智能平台,在降低使用门槛的同时能够大大提升数据分析及建模效率,为临

床医护人员提供便捷。

F.1.2平台的愿景是让临床研究变得没有门槛,提升临床研究工作者的研究效率,普及机器学习及人

工智能技术在医疗领域的应用,最终推动国内临床研究水平向世界看齐。

F.2痛点和难点

F.2.1痛点

F.2.1.1传统的临床科研数据分析系统例如SPSS、SAS、stats、graphpad等需要前期长时间的培训学

习,耗时长、费用高、效果差;大部分临医生无法完全掌握,分析工具软件种类繁多,没有能够实现功

能整合的分析工具。

F.2.1.2基于机器学习的临床预测模型的研究目前没有数据分析系统能够有效支持,而R\PYTHON等数

据分析编程语言的学习门槛较高且不容易掌握,需要研究人员有一定的编程基础。

F.2.2难点

整合临床研究中常用的数据预处理、数据分析方法;多种机器学习算法的集成,可以在线进行基于

机器学习临床预测模型的构建;解决海量、多线程的数据分析问题。

F.3基本情况

目前平台已完成包括数据治理、基线分析、高级统计分析、智能AI分析、图表制作、分析日志6

大功能模块,40个子模块,100余种分析方法建设,能够满足临床研究的分析及教学工作。

F.4平台架构

平台后端算法采用Python和R语言混编实现,平台后台框架采用Django,同时为满足高并发机器

学习的需求,配置多台服务器做Nginx负载均衡,关系型数据采用的Mysql5.6.49,非关系型数据库

采取的Redis6.0.9存取,前台JinJa2模板渲染和Vue、js实现,如图B.1所示。

14

DBXX/TXXX—XXXX

图B.1极智分析平台系统架构

F.5功能介绍

F.5.1项目管理

分析平台以项目为导向,用户可根据研究方向新增研究项目,项目可上传数据、存储研究标题、研

究方案和研究设计等,如图B.2所示。

图B.2项目管理界面

F.5.2数据治理

针对临床研究研究设计的数据清洗模块,提供缺失数据剔除、相关性\共线性变量剔除、智能数据

填补、数据标准化、PSM倾向性匹配、样本均衡等十大功能模块,如图B.3所示。

图B.3数据治理界面

F.5.3基线分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论