版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1医疗大数据平台技术指南第3部分:数据管理本文件规定了医疗大数据平台数据管理的术语和定义以及相关技术要求,包含数据采集过程、数据存储过程、数据处理过程框架等内容。本文件适用于医疗大数据平台数据管理过程的设计、开发、选型和实施,可作为医疗大数据平台数据采集接入时的评测依据。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T18391.1信息技术元数据注册系统(MDR)第1部分:框架GB/T34960.5信息技术服务治理第5部分:数据治理规范GB/T36345信息技术通用数据导入接口GB/T35295信息技术大数据术语GB/T39725信息安全技术健康医疗数据安全指南GB/T35294信息技术科学数据引用GB/T37722信息技术大数据存储与处理系统功能要求GB/T36073数据管理能力成熟度评估模型WS/T500(所有部分)电子病历共享文档规范WS/T303卫生健康信息数据元标准化规则WS/T304卫生健康信息数据模式描述指南WS/T305卫生健康信息数据集元数据标准WS/T306卫生健康信息数据集分类与编码规则3术语和定义GB/T18391.1、GB/T34960.5、GB/T36345、GB/T35295、GB∕T39725、GB/T35294、GB/T37722、GB/T36073、WS/T500(所有部分)、WS/T303、WS/T304、WS/T305、WS/T306界定的以及下列术语和定义适用于本文件。3.1数据模型Datamodel数据模型为数据采集提供参考依据,由于不同医院的厂商、系统都可能不一致,而且医院也存在更换系统的情况,统一的数据模型可以兼容医院不同厂商的系统,对外统一标准输出。3.22数据映射Datamapping数据映射是指将医院不同厂商的不同系统的业务数据存储的字段与标准模型进行对照,确保数据采集到数据模型对应的内容是一致的。3.3数据标准化Datastandardization数据标准化是指将医疗数据中的多个版本的字典、术语形成统一标准的过程,方便后续使用,目前不同系统、不同时期的数据标准存在较大差异,需要将源数据按照标准数据模型进行转换,符合数据标准要求。3.4主题层存储为实现数据解耦而设计的数据存储方式,根据数据之间的依赖性和业务关联,进行数据主题域划分,降低使用时数据跨表查询复杂度。3.5实时数据存储面向实时性、海量的流式数据的存储方式,支持将数据实时变化传输到流式数据存储。3.6文件存储面向医疗影像数据、文本文件、json对象、XML文件等数据的存储方式。3.7数据治理datagovernance数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。[GB/T34960.5,术语和定义3.1]3.8数据管理datamanagement数据资源获取、控制、价值提升等活动的集合。[GB/T34960.5,术语和定义3.2]3.9数据资产dataasset组织拥有和控制的、能够产生效益的数据资源。[GB/T34960.5,术语和定义3.3]3.103数据架构dataarchitecture数据要素、结构和接口等抽象及其相互关系的框架。[GB/T34960.5,术语和定义3.5]3.11元数据metadata定义和描述其他数据的数据。[GB/T18391.1,定义3.2.16]3.12医院主数据hospitalmasterdata指系统间共享数据(例如,患者、医疗服务项目、财务项目、员工信息、医疗产品服务商/供应商、固定资产/耗材等相关数据)。3.13数据生存周期datalifecycle数据获取、存储、整合、分析、应用、呈现、归档和销毁等各种生存形态演变的过程。[GB/T34960.5,术语和定义3.7]3.14命名实体识别namedentityrecognition识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。3.15实体关系抽取relationextraction根据句子语义信息推测实体间的关系。3.16知识图谱knowledgegraph基于图的数据结构描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的实体关系。4缩略语下列缩略语适用于本文件:HIT:卫生信息技术(HealthcareInformationTechnology);ESB:企业服务总线(EnterpriseServiceBus);ETL:抽取-转换-加载(Extrat-Transform-Load);CDR:临床数据中心(ClinicalDataRepository);4ODR:运营数据中心(OperationDataRepository);RDR:科研数据中心(ResearchDataRepository);BI:运营数据中心的可视化(BusinessIntelligence);AI:人工智能(ArtificialIntelligence);NLP:自然语言处理(NaturalLanguageProcessing);NER:命名实体识别(NamedEntityRecognition);SaaS:软件即服务(Software-as-a-service);PaaS:平台即服务(Platform-as-a-Service);IaaS:基础设施即服务(Infrastructure-as-a-Service);SOA:面向服务的体系结构(Service-OrientedArchitecture);HL7:卫生信息交换标准(HealthLevelSeven);DICOM:医学数字成像和通信(DigitalImagingandCommunicationsinMedicine);LOINC:观测指标标识符逻辑命名与编码系统(LogicalObservationIdentifiersNamesandCodes);SNOMEDCT:医学系统命名法-临床术语(SystematizedNomenclatureofMedicine--ClinicalTerms);ICD:国际疾病分类(InternationalClassificationofDisease);EMR:电子病历(ElectronicMedicalRecord);HIS:医院信息系统(HospitalInformationSystem);CIS:临床信息系统(ClinicalInformationSystem);LIS:实验室信息系统(LaboratoryInformationSystem);RIS:放射学信息系统(RadiologyInformationSystem);PACS:影像归档和通信系统(PictureArchivingandCommunicationSystem);CRF:临床研究表(CaseReportForm);CDSS:临床决策支持系统(ClinicalDecisionSupportSystem)。TTL:生存时间价值(TimeToLive);MPP:大规模并行处理技术(MassivelyParallelProcessingSDK:软件开发工具包(SoftwareDevelopmentKitAPI:应用程序接口(ApplicationProgrammingInterfaceETL:抽取、转换、加载(Extract-Transform-LoadHDFS:分布式文件系统(HadoopDistributedFileSystemRedis:远程字典服务(RemoteDictionaryServerSQL:结构化查询语言(StructuredQueryLanguage)。MNLP:医学自然语言处理技术(MedicineNaturalLanguageProcessing);ETL:抽取、转换、加载(Extract-Transform-LoadLOINC:观测指标标识符逻辑命名与编码系统(LogicalObservationIdentifiersNamesandCodes);SNOMEDCT:医学系统命名法-临床术语(SystematizedNomenclatureofMedicine--ClinicalTerms);NoSQL:泛指非关系型数据库(NotOnlySQL)5数据管理指南5.1数据采集技术指南5.1.1数据采集范围5医疗大数据平台接入数据源宜包括但不限于:HIS、EMR、护理、手术麻醉、LIS、PACS、RIS、病理、心电图、超声、体检、随访EDC、生物样本库等院内临床业务系统,以及基因数据库、物联设备监测数据库、公共卫生数据库等特殊卫生健康数据。数据采集范围包含但不限于:——HIS:患者基本信息(含门急诊、住院)、就诊记录、诊断、医嘱、用药、耗材、手术、输血、检查、检验等临床信息,人员、医疗组、科室、诊断编码、手术编码、项目编码等主数据信息;——EMR:门诊患者的门诊病历,住院患者的入院病历、病程、术前讨论、术后情况、出院小结、会诊记录等全部文书;——病案首页:就诊主索引、临床首页信息和编目首页信息——护理:就诊主索引、护理首页、护理评估、护理记录、护理措施、危重记录、体征、外周血管置管等;——手术麻醉:就诊主索引、麻醉记录单、手术记录单、监控仪器数据;——LIS:就诊主索引、检查项目、检查细项、细项结果及正常值范围;——RIS:就诊主索引、CT/磁共振等检查各类文字报告原始文件;——病理:就诊主索引、检查报告、涂片图像原始文件;——心电图:就诊主索引、检查报告、心电图原始文件或pdf文件;——超声:就诊主索引、检查报告、超声图像原始文件;——体检:患者基本信息(体检)、体检项目清单、各项检查结果及正常值范围、各科室检查结论、终检结论、相关影像原始文件等;——随访:患者基本信息(随访)、临床随访和病案随访数据及院外随访数据;——生物样本:医疗机构生物样本中心采集并留存的生物信息、存储信息;——基因:患者基本信息、患者基因检查结果记录、基因原始数据;——物联网设备健康监测数据:患者基本信息,通过物联网可穿戴健康监测设备采集的实时监测数据、健康监测报告数据;——公共卫生数据:涉及公共卫生应急、疾病预防控制、妇幼保健、精神卫生、卫生监督、健康教育、120、血液等众多卫生健康数据。5.1.2采集作业要求大数据平台数据采集作业管理宜包含作业策略、作业调度、作业监控等基本功能,以保障采集作业高效稳定。采集作业宜完成如下目标:——作业策略宜包括前期处理、执行、任务日志、异常处理;——作业异常处理宜支持自动重试、调用备用任务、手工重试等方式;——作业调度宜对数据采集任务进行全局调用;——作业调度宜在满足业务需求的前提下,最大限度减少数据采集频率,降低数据源负担;——作业监控宜充分考虑各采集任务存在的风险点,制定监控任务,留存任务监控记录;——作业管理宜能够通过短信、邮件等方式进行异常告警,协助运维人员及时准确发现问题;——作业管理者宜定期对数据采集作业监控记录进行分析,制定作业优化方法。5.1.3采集技术5.1.3.1综述医疗大数据平台数据接入方式针对不同业务需求、数据源适配情况常见技术包括业务系统数据库备集成平台等。65.1.3.2备份恢复备份恢复是通过数据库备份技术对生产库进行实时\定期备份后,建立备份数据后通过数据恢复技术将数据恢复至大数据平台,其宜满足如下要求:——宜被应用于大批量数据采集且对时效性要求不高的采集任务;——备份数据库宜在提交给平台前做好数据脱敏、加密处理等必要前期处理后,备份生产库;——数据源备份恢复时间宜避免在业务高峰时期,减少数据源负担。5.1.3.3数据同步数据同步是通过传统关系型数据库自带的数据同步技术进行实时数据同步,其宜满足如下要求:——宜被应用于要求实时数据采集、吞吐量不大的采集任务;——宜支持OracleGoldenGate、MysqlBinlog、SqlserverCDC等数据同步技术;——同步任务宜配置数据量效验规则,防止数据同步过程中的数据丢失;——宜提供秒级的数据延时。5.1.3.4物化视图物化视图是包括一个查询结果的数据库对象,它是远程数据的本地副本,通过物化视图可以实现数据从数据源复制到大数据平台,其宜满足如下要求:——物化视图复制宜包含只读物化视图复制、可更新物化视图复制和可写物化视图复制;——物化视图对数据源侵入性较大、数据源负担大、安全性差,宜在其他方式均无法满足需求时使5.1.3.5ETL采集ETL(ExtractTransformLoad)是一种流式数据采集,是一种高效的实时数据加工工具,可以实现流式数据的抽取、数据转换和加工、数据装载,其宜满足如下要求:——ETL工具宜包括数据抽取、转换、加载功能;——ETL工具宜提供图形化界面,支持拖拽方式配置ETL任务节点;——ETL工具transformation宜包含输入、输出、查询、转化、连接、脚本环节;——ETL工具宜支持自定义数据转换方法,脚本环节宜支持javaScropt、python脚本编写的数据处理程序;——ETL工具宜支持主流数据源对接;——ETL工具宜支持向HIVE、Hbase、Greenplum等主流大数据平台数据库组件导入数据。5.1.3.6集成平台数据提取医院有集成平台可以采用医疗大数据平台从医院集成平台订阅消息,获取实时数据。——集成平台宜符合医疗行业标准接口定义规范;——集成平台消息传输宜该具备应答机制,形成消息闭环;——消息通过接口传输需要进行加密,提高消息传输安全性;——消息需要支持续传,保证大数据平台数据的准确性及完整性。5.1.4采集质控5.1.4.1为了保障数据采集接入时的数据质量,在采集阶段发现数据质量问题,宜在数据采集时根据实际任务要求,完成数据质量基础检查、字段级检查、表级检查,以保障数据采集的完整性、连续性。75.1.4.2基础检查包括:——检查数据采集范围是否符合要求;——检查数据采集实时性是否满足要求;——检查数据采集作业是否连续;——检查数据采集作业是否存在异常;5.1.4.3字段级检查包括:——针对数值型字段可通过计算检查是否存在异常;——针对业务关键字段可通过业务逻辑判断检查是否存在异常;——针对主键、外键等关键字段可通过字段关联检查是否存在异常;5.1.4.4表级检查包括:——表级采集可通过数据量检查是否存在异常;——表级采集可通过数据字段数检查是否存在异常;5.1.4.5为了确保数据质控规则能够协助运维者及时发现数据质量问题,应实时警告数据质量问题,定期生成数据采集质检报告。——数据质控问题宜根据业务进行级别划分,制定不同的告警级别;——数据采集质检报告宜反应报告期间所有采集任务的完成时间、质控检查情况。5.1.5采集安全5.1.5.1数据采集接入时,考虑部分隐私数据或者相关法律法规要求,宜对部分原始数据进行对称加密等安全处理,加密字段范围可参照GB∕T39725-2020《信息安全技术健康医疗数据安全指南》数据加密字段约定范围。5.1.5.2数据加密宜根据实际需求以及安全级别选择对称加密算法AES、DES或者散列算法MD5,对称加密算法支持数据在适当情况进行解密还原,散列算法是不可逆加密,无法复原。5.2数据存储技术指南5.2.1数据存储架构由于医疗大数据平台需要存储的数据量大、类别多且复杂,在存储时宜采用分层分域的存储架构,降低数据之间的耦合性,宜建立包含主题层、汇总层、应用层的数据存储架构。5.2.1.1主题层主题层是在在接口层采集的原始数据基础上进行主题划分,形成关联性强的主题域表,宜包括但不——病人信息;——就诊信息;——医嘱信息;——费用;——诊断;——过敏;——检查;——检验;——手术;——护理;——病案;——病历文书;——肿瘤;——报告卡;——体检;——其他。5.2.1.2汇总层汇总层是在主题层基础上,根据不同数据使用需求,对不同粒度的数据进行一定汇总处理,提高数据使用效率,便于后续使用。其设计宜满足如下原则:——宜保障汇总数据的共用性;——宜能够提高数据使用效率;——宜与原始事实表维度保持一致;常用汇总层表如下:——费用汇总表;——工作量汇总表;——用药汇总表;——医嘱汇总表。5.2.1.3应用层应用层是在汇总层基础上,通过构建指标集、标签集、应用宽表等数据存储形式,以满足各类数据应。其在医疗机构主要支撑建立科研大数据应用平台、人工智能应用平台、运营管理系统等基于大数据的智慧应用。其设计宜满足如下原则:——指标集、标准签集、应用宽表宜以低耦合、高内聚为主要目标,避免重复构建数据集合;——基于大数据的智慧应用宜支持海量数据吞吐、高性能数据处理、快速响应和智能数据挖掘;5.2.2数据存储标准化5.2.2.1原则医疗数据中心中的医疗数据应遵循统一的数据标准并优先采用国家、卫生行业已经制定的相关数据标准作为基准,对非标准数据进行转换处理。若没有相应的国家或卫生行业数据标准可以引用,应按照国家卫生信息标准制定的有关要求完成数据标准制定工作。5.2.2.2通用电子病历数据标准对于医疗机构的主要业务断面和相关数据,应符合系列标准WS/T500(所有部分)电子病历共享文档规范。5.2.2.3未标准数据的标准化对于国家或者卫生行业尚未制定标准的数据,医疗大数据平台数据集应按照WS/T303卫生健康信息数据元标准化规则、WS/T304卫生健康信息数据模式描述指南、WS/T305卫生健康信息数据集元数据标准、WS/T303卫生健康信息数据集分类与编码规则里的有关规定的要求形成标准化数据元,并按照附录A要求构建数据集及标准化存储。95.2.3结构化数据存储技术指南结构化数据存储计算面向的是从结构化数据库采集的海量数据,主要应用于海量结构化数据分析,应用时需满足以下技术要求:——结构化数据存储宜支持关系型数据库或者基于MPP架构实现的分布式列式数据仓库;——宜提供标准的SQL接口,减少传统数据应用迁移成本,降低开发运维人员使用门槛;——宜提供准实时的数据插入,以满足用户对实时数据的实时交互式分析;——宜提供压缩存储,以有效节约存储成本;——宜提供基于多种编程语言(如python、R、Java等)编写的Map/Reduce程序或自定义函数的上传接口,支持定制化数据处理需求;——宜支持多种计算引擎(如HiveSQL、Spark算子、SparkSQL、Map/Reduce等计算引擎)。5.2.4流式数据存储技术指南流式数据存储主要应用于接收医疗生命体征监测仪器、物联网可穿戴设备采集的海量实时数据,由于需要的数据吞吐能力、处理能力更高,传统数据库及处理方式难以满足需求,实时数据存储宜采用分布式流数据处理技术,使其具有高可靠、高可用、高性能和动态扩展的特性,以满足实时医疗大数据的存储要求,应用时需满足以下技术要求:——宜集成通信网关实现数据采集,并通过数据采集网关对接多种医疗/可穿戴监测设备,实现设备海量数据的自动存取;——宜通过分布式消息队列和分布式流计算框架,实现海量流式数据快速处理。5.2.5文件存储技术指南文件存储是面向医疗数据中海量的文档型数据、医学影像数据等以文件形式存储的技术。应用时宜满足以下技术要求:——宜提供上传、下载、读写、复制、移动、删除等基础数据操作功能;——宜提供文件数据压缩和加解密功能;——宜提供访问权限控制功能;——宜提供文件的位置检索、批量操作、回收站、快照等功能;——宜支持弹性扩展功能,支持动态添加、删除存储空间;5.2.6数据存储安全技术指南为保障大数据平台数据存储安全,应按照数据分级分类原则制定不同等级的安全策略,实施时需满足以下技术要求:——数据存储应支持多副本备份,保障数据存储安全;——涉及数据分级分类的,宜按照GB∕T39725-2020信息安全技术健康医疗数据安全指南执行;——涉及网络和系统安全的,宜按照GB/T22081-2016、GB/T22239-2019执行;——涉及基础安全和数据服务安全的,宜按照GB/T35274-2017执行;——涉及云计算安全的,宜按照GB/T31168执行;——应建立数据存储安全应急处置方案,以应对数据存储突发情况,快速恢复备份数据;——数据存储应按照最小权限原则管理,对各数据使用用户进行权限管理,降低数据泄露风险。5.3数据存储管理指南数据存储管理包括数据的分类和标准的命名方法,数据的存储、数据的保密规范和数据的备份要求等。管理要求宜包括以下内容:——宜指定专人负责数据的管理,明确职责;安排专人负责涉密数据资源的传输、存储、共享和使——宜对存储数据的设备及基础设施重点做好安全防护,包括落实数据存储设备的操作终端安全管控措施及接入鉴权机制;——宜设置访问控制策略,定期实施安全风险评估,配置安全基线、部署必要的安全存储技术手段——宜对不同安全等级的数据采用差异化安全存储;——宜根据数据备份制度和策略,按照操作规程进行系统和数据日常备份,在出现异常时根据备份策略进行恢复操作;——宜根据维护计划定期进行数据资源目录、数据库系统维护;——宜加强数据备份介质的管理,对各类介质进行控制和保护;——宜根据所承载的数据和软件的重要程度对介质实行分类和标识,并实行存储环境专人管理。5.4数据治理指南5.4.1综述数据治理是组织中涉及数据使用的一整套管理行为。数据治理的最终目标是提升数据的价值,它是一个管理体系,包括组织、制度、流程、工具,是医院实现数字化转型和数字战略的基础。医疗机构数据治理源于组织的外部监管、内部数据管理及应用的需求,应满足如下要求:——法律法规、行业监管和内部管控等对医疗机构数据及其应用的安全、合规的要求;——医疗机构数据产品化、资产化和价值化的要求;——医疗机构数据生存周期管理及应用过程中数据架构、数据模型、数据标准、数据质量和数据安全等体系建设的要求。——医疗机构“以数据为中心、以医疗机构为单位、以能力成熟度为准则”进行数据安全治理的要5.4.2数据治理框架元数据管理、主数据管理、数据质量管理、数据资产管理、数据安全管理、医学术语标准化指南。5.4.3元数据管理指南5.4.3.1一般要求元数据是描述医疗数据对象属性的数据,是关于数据的组织、数据域与关系的信息。应提供但不限于如下信息:——数据采集信息:数据来源、数据采集日志、数据依赖关系、ETL任务信息;——数据存储信息:数据物理位置、数据结构、数据模型;——数据使用信息:数据稽核日志、数据访问日志。5.4.3.2功能要求元数据管理模块是大数据平台数据治理体系的重要组成部分。元数据管理用于定义和维护元数据,建设将贯穿医院大数据平台建设、使用、运营、维护的全过程,应提供如下功能:——支持常见关系型数据库、大数据NoSQL数据库等不同类型数据源的数据库信息读取,自动采集数据源元数据;——支持元数据列表可视化增、删、改、查;——支持元数据通过发布、审批流程后,生成元数据接口服务,其它系统或模块使用元数据服务;——支持数据元字典可视化,便于内外部更好地了解医院数据概况;——提供全局元数据查询检索,便于快速定位元数据;——提供血缘/影响分析功能,便于数据维护及问题定位;——提供元数据可视化应用,方便终端使用元数据;——提供统一的基于元数据描述的管理产品,集中管理平台开放的内外部API。5.4.4主数据管理指南5.4.4.1一般要求主数据是指一组约束和方法,用来管理医院内跨主题域和多系统的相关数据的含义和质量,以保证医院系统间数据协调和复用正确的业务数据(主数据)。医院主数据应包括如下类型:——机构主数据:机构信息、科室信息、科室分类、医疗组信息、员工信息等;——患者主数据:个人信息(性别、地址、婚姻状况、职业、血型、教育水平)、患者标识类型;——业务主数据:诊断字典、医嘱项目、检查项目、检验项目、手术字典、药学项;——财务主数据:收费项目、费用类型、医疗产品服务商/供应商等。5.4.4.2功能要求主数据维护用于检索、定义、修改、发布服务等功能和数据质量管理,主数据管理应提供以下功能:——主数据标准体系管理:定义、维护、检索数据标准,应为主数据管理和其他信息系统提供值域服务;——主数据维护:应提供主数据新增、删除、检索功能;——主数据导入导出:应提供批量导入和导出;——主数据审核、发布:需要发布的主数据应建立审核流程;——主数据共享:应提供主数据对外查询接口及数据分发功能;——主数据监控及日志:应为跨系统使用主数据情况信息提供监控以及日志管理功能;——主数据版本管理:应提供版本管理工具,支持不同版本切换及对照功能,原始主数据版本不一致应对各版本主数据做对照。5.4.5数据质量管理指南5.4.5.1一般要求数据质量管理包括数据采集质量管理及数据治理质量管理,本节主要对数据治理中的质量管理进行约束。数据质量管理是通过定义数据质量效验规则,定时效验大数据平台数据治理情况,以识别数据质量问题,并定期提供数据质量评估报告与预警。数据质量检查应包括如下方面:——完整性:用于核查数据局部缺失、信息丢失情况;——唯一性;用于核查不规范的重复数据;——准确性:用于核查数据采集、处理过程中可能出现的数据偏差;——规范性:用于核查格式、值域、字典不规范数据;——一致性:用于核查系统、模块间记录、编码、引用不一致。5.4.5.2功能要求在大数据平台建设中,数据质量为其提供洁净、结构清晰的数据,是大数据平台开发数据产品、提供数据服务、发挥大数据价值的必要前提,是医院数据资产管理的关键因素。高效的数据质量管理工具是提高数据质量的重要途径,应提供如下功能:——标准管理:应根据全国信息技术标准化技术委员会的指标(GB/T36344-2018ICS35.24.01)从业务规则规范性设定质量标准,并提供标准查询、定制功能;——自定义规则:应提供可视化规则配置界面,支持对不同数据源进行复杂规则制定,支持实现医疗内涵数据质控;——质量监控:应提供监控任务管理界面,支持对不同质控规则设置具有逻辑关系的监控任务;——考核指标:应根据数据质量标准、质量规则、监控任务设定数据质量验证指标和考核办法;——质量分析:应包含数据质量告警、数据质量分析报告、不定期数据质量检查等分析方式;——数据规整:应包含数据质量问题处理模块,支持对格式异常数据进行转换,脏数据清洗、剔除等功能;——数据补录:应提供便捷的数据补录、更新工具,包括手工修正及自动修正。5.4.6数据资产管理指南5.4.6.1一般要求数据资产化以资产的角度开展数据管理工作,有助于多角度、全方位开展数据的管理,明确数据安全级别,落实资产责任管理,是实现数据变现的必要前提。数据资产管理应对数据进行分级分类管理,建立统一管理的数据资源池,基于主数据、元数据实现全生命周期的数据流管理。5.4.6.2功能要求5.4.6.2.1安全认证数据治理平台应使用统一的身份认证服务,由系统管理员统一管理运维人员、使用人员权限,并支持多重身份认证登录(短信、邮箱等)。5.4.6.2.2权限管理数据治理平台应采用权限最小化原则进行权限授予,且数据权限管理应支持文件、表级、字段级、记录级分配,实现细粒度最小化的权限管理机制。对于隐私、敏感数据应采用更严格的权限审批流程和管理制度,确保数据安全使用。5.4.6.2.3数据加密数据加密应针对不同的数据类型(结构化、非结构化、半结构化)、安全等级,设置不同的加密算法。——在数据存储上,普通数据可以采用明文存储,敏感数据则需要加密后再存储,并附加校验码;——在数据传输上,应部署SSL证书,确保敏感数据传输过程中的安全性;——加密算法选择时,应支持国密加密技术。5.4.6.2.4数据生存周期管理要求数据生存周期管理用于管理系统中数据的流动,覆盖范围从数据的创建、存储、到过时被删除的全过程。应包含但不限于如下功能:——支持数据重要性等级定义与维护,支持重要性与生存周期关联;——每个重要性等级对应的数据生存周期设置,支持根据周期对数据进行禁用、恢复、删除等操作;5.4.6.2.5数据脱敏根据相关法律法规、标准规范以及业务需求,制定敏感数据的脱敏规则,对敏感数据进行脱敏处理,保证数据可用性和安全性,数据脱敏需满足以下要求:——脱敏方法定义:根据应用场景和实现机制,数据脱敏方法可分为静态数据脱敏和动态数据脱敏;——敏感数据分类:在数据脱敏前,首先应完整梳理数据中包含的所有信息分类,然后明确敏感信息,进行敏感级别分类;——数据脱敏策略:首先对数据可用性和数据保密性进行定级,然后设置脱敏策略,各医疗机构在具体场景下设置数据脱敏策略时,应充分考虑数据自身可用性及数据保密性寻求两者间的平衡关系;——脱敏安全审计:在数据脱敏的各个阶段加入安全审计机制,详细记录数据处理过程中的相关信息,形成完整数据处理记录,用于后续问题排查与数据追踪分析。5.4.6.2.6数据分类分级数据治理平台能够支持对数据资产安全进行分级分类管理,根据数据的属性、特征、敏感程度等,将其按照一定的原则和方法进行区分和归类,并支持根据各级别生成对应的数据安全策略。数据分类分级一般包括如下功能:——支持多种敏感数据识别模式,包括预定义模式、自定义模式、相似数据发现模式等;——支持常见的敏感数据类型的脱敏,包括患者姓名、电话号码、邮箱、身份证号码、银行卡号、住址、家属基本信息、患者用药数据、基因检测数据等;——支持对数据进行自定义分类和分级,用户可通过编写不同的识别规则如正则表达、关键字匹配等来识别自定义的敏感数据;——支持相似性敏感数据发现功能,通过对已指定的部分样本数据进行机器学习,从而对其它类似数据进行分类分级;——支持对识别数据进行标记的管理,包括标记自定义、标记设置、标记变更等功能;——应包括数据分类分级的操作、变更过程进行日志的记录和分析功能。5.4.6.3功能要求数据资产的范围和形式应包含医院拥有的各类数据,如表、视图、接口、程序等。同时,随着大数据的发展,还纳入各种非/半结构化的数据形式,如日志、网页、图片、音视频等。数据资产标识是一个有业务含义、分段式、全局唯一的字符串,用来区分识别数据资产的标签。资产标识包含有资产所属业务域、资产类型、提供者等信息。数据资产管理应提供数据全生命周期管理,包括以下内容:——数据资产目录:医疗卫生分类分级标准、业务分类、敏感程度分级等;——数据标准化;应包括数据同趋化处理和无量纲化处理两个方面;——数据资产运营:应从看、选、用、治、评五方面对数据资产进行合理配置和有效利用;——数据资产服务:应包括数据分析与应用管理;——数据资产消费:应提供数据共享服务中心;——数据生命周期管理:应从数据生命周期五阶段提供管理功能;——数据资产管理服务:集中提供数据资产服务对接内外API;——数据血缘管理:应包括数据来源、数据流向、流转路径以及路径中的处理方式。5.4.7数据安全管理指南5.4.7.1一般要求统一数据治理平台必须建立完整的信息安全管理措施和技术方案,加强大数据平台与其它系统之间的数据信息安全管控。——数据安全管理需求:制定数据安全管理目标、方针和策略,并持续改进和优化,确保数据防篡改、防泄露和防损毁;——数据安全管理机构:明确数据安全管理的角色和责任,提升人员意识、能力和素质;——数据安全分类分级:建立满足不同业务场景、不同级别的数据安全规范和保护机制,确保数据的完整性、保密性、可用性以及数据的可追溯性;——数据安全管理视图:识别数据应用过程中的风险,并建立数据泄露、应急响应、沟通协作和责任追究等安全管控机制;——数据权限管理:建立应用过程中的授权、访问和审核机制;——数据安全审计:建立数据安全监测和预警系统,对数据安全管理能力进行监督和风险评估。5.4.8医学术语标准化指南5.4.8.1一般要求5.4.8.1.1术语网络应同时具备处理语义和医学逻辑的能力,为深度学习解决了冷启动的难题。深度学习用于以下方面:——基于上下文环境以自动的方式对知识进行抽取,结合LSTM与CRF来实现,将知识的抽取视为根据文字上下文对文字所扮演概念的角色做序列标注的问题;——预测概念之间的各种关系,包括挖掘概念之间的生成关系和上下文关系、同义关系等。5.4.8.1.2基于通用的知识图谱引擎和技术框架,使用深度学习来优化已有的知识体系,实现高效术语网络建设和知识推理能力。5.4.8.2术语映射技术要求术语网络,宜整合“语义网络”和“本体库”的特点,同时宜具备处理语义和医学逻辑的能力,发展方向宜包括:——术语网络内容(附录A)。依据使用的场景特征不同而分为以下四大类别:.药品库和检验库,分别基于LOINC(观测指标标识符逻辑命名与编码系统,LogicalObservationIdentifiersNamesandCodes)和CFDA药物信息3.0版本构建;CMeSH、ICD-O-3、ICD-10;.心脏超声库、心电图库、胸片库、胸部CT库、脑CT库、脑电图库、乳腺库等,辅助NLP的信息抽取和队列搜索需求;.大量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024山东豆类的种植市场前景及投资研究报告
- 2025至2030年中国菱形提花布数据监测研究报告
- 2025至2030年中国砂仁油数据监测研究报告
- 2025至2030年中国尼龙拉链头数据监测研究报告
- 2025年度专业园艺设计施工合同3篇
- 2024年金融科技服务平台委托合同
- 2025年度餐饮企业食品安全管理体系建设合同范本3篇
- 二零二五年度租赁铲车附带工程验收合同3篇
- 二零二五版企业社会责任LOGO设计合同3篇
- 2024年高标准管沟开挖工程合同
- 2025年工程合作协议书
- 2025年山东省东营市东营区融媒体中心招聘全媒体采编播专业技术人员10人历年高频重点提升(共500题)附带答案详解
- 2025年宜宾人才限公司招聘高频重点提升(共500题)附带答案详解
- KAT1-2023井下探放水技术规范
- 垃圾处理厂工程施工组织设计
- 天疱疮患者护理
- 驾驶证学法减分(学法免分)题库及答案200题完整版
- 2024年四川省泸州市中考英语试题含解析
- 2025届河南省九师联盟商开大联考高一数学第一学期期末学业质量监测模拟试题含解析
- 抚养权起诉状(31篇)
- 2024年“一岗双责”制度(五篇)
评论
0/150
提交评论