




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医疗健康大数据平台质量管理技术要求和测试方法本文件规定了医疗健康大数据平台数据质量管理的技术要求和测试方法,涉及医疗健康数据的数据采集管理、数据处理管理、数据挖掘管理、数据存储管理、数据质量管理、数据安全管理、性能要求、安全性等要求和测试方法本文件适用于医疗健康大数据平台数据质量管理功能的开发、测试、评估与验收等2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T25000.12-2017系统与软件工程系统与软件质量要求和评价(SQuaRE)GB/T39725-2020信息安全技术健康医疗数据安全指南3术语与定义下列术语和定义适用于本文件。医疗健康大数据healthearebigdata个人医疗健康数据以及由个人医疗健康数据加工处理之后得到的健康医疗相关电子数结构化数据structureddata一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。非结构化数据unstructureddata不具有预定义模型或未以定义方式组织的数据。[来源:GB/T35295-2017,定义2.1.25]机器学习machinelearning功能单元通过获取新知识或技能,或通过整理已有的知识或技能来改进其性能的过程。[来源:GB/T522在指定条件下使用时,数据特性满足明确的和隐含的要求的程度。将不一致的数据标准化(即不同业务系统的相同类型的数据统一),或按业务需求的数据粒度进行数据聚合,或按一定的业务规则进行计算。下列缩略语适用于本文件。SQL结构化查询语言Electroniemedical5总体要求医疗健康大数据管理平台用于规范医疗健康数据在采集、存储、使用、加工、流通及服务等方面的基本流程。通过规范在数据采集、数据处理、数据挖掘等维度的数据质量管理能力,保障数据管理的质量。医疗健康大数据管理平台数据质量管理应支持以下能力数据采集管理、数据处理管理、数据挖掘管理、数据存储管理、数据质量管理、数据安全管理、性能要求、安全性等6医疗健康数据类别6.1数据分类分级基本原则按照医疗健康数据对国家安全、公共利益或个人、组织合法权益的影响和重要程度,参考GB/T39725,对医疗健康数据进行分级分类,在医疗健康大数据平台数据质量管理中提供6.2医疗健康数据分类医疗健康数据可以分为个人属性数据、健度状况数据、医疗应用数据、医疗支付数据卫生资源数据与公共卫生数据等5类。各类数据具体内容如表1所示。在卫生信息领域使用的数据元、数据集、值域代码等相关标准可参考相应卫生信息标准。合能够识别特定自然人的1)人口统计信息.包括姓名、出生日期、性别、民族、国籍、职业、3)个人通讯信息,包括个人电话号码、邮箱、账号及关联信息等:所涉及的与费用相关的数1)医疗交易信息,包括医保支付信息、交易金额、指可以反映卫生服务人员、例如不能标识个人身份的数据,各科室医生数据主体造成较高程度的损害。例如可以直接标识个人身份的数据,仅限于4程度的损害。7.1数据采集管理医疗健康大数据平台应具备提供批量、实时多源异构数据的便捷同步或接入能力,提供完善的数据同步任务配置、任务运行监控功能,有效保障数据接入的稳定性和可控性,支持对于多种主要数据来源进行数据采集的能力:a)应支持结构化数据、非结构化数据和半结构化数据汇聚;b)应支持文件汇聚,如excel、csv;c)应支持关系型数据库接入,如MySQL、Oracle、sQL.Server及达梦国产数据库:d)应支持大数据体系,如Hive、HDFS、MongoDB、Postgrese)应支持离线数据导入:支持单表离线任务、批量离线任务的导入:f)应支持实时数据导入:具备实时数据源接口,如Kafka、0rcalaCDC、MysQLbinlog、SQLserverCDC、RabbitMQ等接口:g)应支持全量数据导入和增量数据导入:h)应支持建立数据唯一标识)应支持提供以可视化配置的方式完成数据采集的源端和目标端、管理同步任务以及任务监控等功能:j)应支持源端、目标端数据字段的可视化映射:k)应支持数据标准定义:支持可视化的数据元管理、数据指标管理、数据标准维度管理、数据字典7.2数据处理管理医疗健康大数据平台应具备多种数据处理的能力:a)应支持数据清洗。按照设置的规则来清洗数据,如检验字段类型、最大最小值、字符串最大最小长度、缺失值、数值精度等:b)应支持数据预处理:支持多种预处理能力,如空值插补、去重、字段过滤等:支持对结构化、半结构化、非结构化数据的预处理;支持数据清洗流程控制、质量控制:支持预处理全程自动化执行:c)应支持数据转换:支持离散化处理连续数据:支持稀疏化处理分类数据d)应支持数据字段替换:支持对数据流中的数据(如全部字段或部分字段)进行替换;e)应支持数据字段拆分:支持对数据流中的复合字段根据相应的标准进行分割,并放置到对应的新列中f)应支持去除重复字段:支持对数据流中的数据按照某一或多个字段进行去重;支持全部去重或保留一条,重复数据可输出;g)应支持条件过滤;支持对字段内容按照指定条件进行过滤5h)应支持数据集成:包括关联多数据源的相同实体,去除冗余属性,检测数据值的冲突并给出合理处理:)应支持多表联合:支持实现多表联合。连接方式包括左连接,右连接,全连接,内连j)应支持数据聚合:支持自定义规则,对数据进行聚合:k)应支持数据筛选:支持自定义规则,对数据进行筛选:1)应支持数据模型:支持元数据模板配置、生成,以及基于模板的元数据信息同步:提供医疗健康组织数据模型到标准数据模型的映射功能:支持相同医疗健康组织数据模型的模板复制:m)应支持码值匹配:支持药品、疾病、手术、检验、检查、收费、机构和科室等的码值标准化标注:支持标准到标准的码值映射匹配功能:宜支持基于AI引擎的智能推荐功能n)应支持患者主索引识别:提供基于规则的患者主索引识别功能:支持患者主索引准确度的分级管理:提供基于AI模型的患者主索引识别功能;o)应支持任务调度:提供全量和增量的任务调度,自定义任务执行周期,实现不同数据源之间的数据流转p)应支持自定义规则;支持SQL、Java或其他程序语言的自定义规则配置q)应支持数据校验函数;支持数据处理过程中提供数据质量校验函数自定义,实现数据处理过程中的数据规则快速配置和校验;r)应支持数据统一服务;针对单表或多表提供以类SQL的形式进行查询并返回符合条件的数据;s)应支持针对服务API的生命周期管理的能力:支持可视化的生成管理API的能力;t)应支持服务API报表;提供生成服务API的报表分析的功能;u)应支持数据智能标签:创建标签模型、标签加工、衍生标签管理等功能,支持SQL语言开发,提供编辑、查看、删除功能;v)应支持数据标签运营:标签全生命周期管理,支持标签上线/下线,标签资产公开管w)应支持数据标签服务;以API服务化方式封装标签服务,供内外部应用调用使用;x)应支持数据标签分析支持标签生产和使用情况分析,明确标签总数、API总数、API性能等分析医疗健康大数据平台应具备数据挖掘功能:a)应支持多种统计分析类算法,如协方差矩阵、方差、标准箜等;b)应支持使用多种类型机器学习算法执行任务,如文本分析、分类、聚类、回归、推荐、关联分析等;c)应支持使用多种特征工程类算法处理训练数据,如特征离散、特征向量切割、随机欠抽样等;d)应支持算法工程化复用,平台提供便捷通用的医疗算法,如文本解析、实体识别、实体归一等智能算法,支持数据开发和数据标准化场景:e)应支持以多种评价指标评估算法模型结果支持以多种可视化方式展示已有模型结果f)应支持以模板、案例展示及算法的教程式解释信息指导模型创建;6g)应支持用户自定义算法,如通过直接编写或接口调用的形式:支持模型训练任务执行过程的日志记录:支持多种编程语言进行自定义算法编写的二次开发语言兼容能力,如Python、Java、R等编程语言。7.4数据存储管理医疗健康大数据平台应具备数据存储功能:a)应支持关系型数据库接入:如MySQL、0racle、sQLServer及达梦国产数据库:b)应支持多类数据存储支持结构化、半结构化数据存储,支持关系型数据、文本数据、影像数据的一体化存储和查询功能:c)应支持列式存储:支持列数据存储,列式数据达到毫秒级查询和写入d应支持行式存储:支持行数据存储,并具备元数据异地备份恢复能力:e)应支持文件存储和对象存储:f)应支持弹性伸缩:提供集群的自动弹性伸缩能力。7.5数据质量管理医疗健康大数据平台应具备数据质量管理功能:a)应支持数据质量需求管理;支持有权限用户根据医疗健康数据的应用场景及数据管理目标提出质量管理方案;支持组织自定义质量考核规则和方案;b)应支持规则设置及管理:支持数据稽核规则的设置及应用,包括一致性、准确性、完整性、规范性、及时性及关联性等通用规则;支持自定义数据质量规则分类;支持数据质量规则版本管理:c)应支持任务管理:支持数据质量稽核任务执行;支持配置调度信息,提供检核任务调度功能,可设定检核任务的执行周期;支持对数据质量稽核任务的(实时)监控,支持查看历史任务的执行情况;d)应支持数据质量检查:支持定期或不定期方式执行质量控制任务,并生成相关问题报e)应支持质量报警:支持提示数据质量问题,支持追溯形成机制与适配多种消息推送;)应支持数据内容分析:支持利用医疗知识图谱、人工智能等技术,实现对医疗数据质量的内涵分析,提升数据内容的质量;g)应支持报告生成:支持记录校验结果的质量问题,并生成评分报告;支持数据加工汇聚后形成结果分析,并生成影响报表h)应支持质量结果分析;支持根据检核结果,生成对问题数据的质量提高建议i)应支持数据质量提升;支持构建问题数据分析,包括汇总数据列表、错误汇总列表、质量得分分析、检核规则分析、问题波动分析等;j应支持数据内涵质量规则管理:支持针对数据内涵管理规则实现可视化的配置管理。数据安全管理是结合信息安全的技术手段保证医疗健康数据资产使用和交换共享过程中的安全。为数据提供适当的认证、授权、访问和审计,以防范可能的数据安全隐患。该模块需具备以下基础功能a)应支持数据脱敏:支持脱敏加密规则、算法以及任务的管理:支持静态脱敏,如在非生产环境,将数据脱敏转换后提取到脱敏数据库中;7b)应支持数据分类分级:支持信息安全等级分类和密级分类,包括自动分类分级和人工分类分级:支持基于AI算法的实体识别、文本解析等文本数据的分类分级:c)应支持异常监控:支持数据生存周期的安全监控,并在出现安全隐患时发出预警;d)应支持安全项扫描:支持根据设置的安全词库和安全规则,扫描指定数据源,识别敏感信息;e)应支持引入主动隐私保护技术,构建隐私模型,对具有隐私泄露凤险的数据,进行风险监测、风险评估、主动提醒、责任追测。医疗健康大数据平台应满足以下性能要求:a)应支持适宜的响应时间:用户进行在线实时查询业务操作,支持查询时间低于5秒的秒级搜素:b)应支持适宜的系统容量可存储的医疗健康数据(包括EMR数据、生物样本库数据实验室数据等)满足实际工作需求;c)应支持适宜的系统并发用户数:用户同时并发数量满足协同工作实际需要医疗健康大数据平台应满足以下安全性要求;a)应支持用户身份认证:支持创建用户账户,设置口令和权限;支持定义用户组,设立口令标准、管理用户,口令,用户组等;支持用户身份验证与鉴权;b)应支持角色授权:支持权限配置、查询功能权限的分配情况;支持权限的禁止和互斥关系的配置;c)应支持租户隔离;管理用户、口令、用户组和权限。医疗健康大数据平台应满足以下要求:a)应支持兼容性:兼容不同操作系统、浏览器及主流硬件平台;b)应支持高可用性:无单点故障,具备主节点失效恢复机制;支持软件中的任一构件更新、加载时,在不更新与上下构件的接口的前提下,不影响业务运转和服务;c)应支持易用性:易于安装和使用,用户界面友好;d)应支持可扩展性:采用分布式多处理机结构,支持硬件动态扩展;支持平滑无中断在线扩容或新增业务8.1数据采集管理测试目的:验证医疗健康大数据平台支持对多2)用户注册完成并已分配相应权限,且该用户已登录;1)在数据处理管理页面,分别选择结构化数据、非结构化数据、半结构化数据,导入;2)在数据处理管理页面,选择csy、excel等文件4)在数据处理管理页面,选择Hive、HDFS、MongoDB、Postgres等大数据仓库,导入;CDC、RabbitMQ等实时数据源,执行任务:7)在数据处理管理页面,新建同步任务,配置全量方式同步、增量方式同步,执行任务;8)在数据处理管理页面,查看数据标识详情;9)在数据处理管理页面,添加数据源配置,选择配置数据源、同步任务、示,通过拖拽连线的方式进行自定义字段关系映射;1)在步骤1)中,结构化数据、非结构化数据、半结构化数据导入成功;2)在步骤2)中,文件数据导入成功;3)在步骤3)中,关系型数据库接入成功;4)在步骤4)中,大数据仓库接入成功;5)在步骤5)中,离线同步任务执行成功;6)在步骤6)中,实时同步任务执行成功;7)在步骤7)中,全量方式同步、增量方式同步任务执行成功;8)在步骤8)中,数据具有唯一标识;9)在步骤9)中,数据源配置成功,能够按照数据源配置方式导入数据;拖拽连线的方式进行自定义字段关系映射,并支持同名映射;11)在步骤11)中,数据标准管理配置成功,能够按照配置,查1)数据管理环境能够正常运行;2)用户注册完成并已分配相应权限,且该用户己登录;4)在数据处理管理页面,新建数据字段替换任务,设置替换字段,保存5)在数据处理管理页面,新建数据字段拆分任务,设置拆分标准,保6)在数据处理管理页面,选择某一或多个字段进行去重,7)在数据处理管理页面,选择条件过滤,指定字段内容过滤条件,保存并运行任务;8)在数据处理管理页面,选择数据集成,关联多数据源的相同实体,保存接(左连接,右连接,内连接),输出数据,保存并运行任务:10)在数据处理管理页面,新建数据聚合任务,自定义聚合规则,保存并运行任务:11)在数据处理管理页面,新建数据筛选任务,自定义筛选规则,保存并运行任务;或相同医疗健康组织数据模型的模板复制,保存并运行任务;14)在数据处理管理页面,选择患者主索引识别,配置规则,查看运行结果;16)配置基于SQL、Java或其他程序语言的自定义规则,查看配置结果;17)配置自定义数据质量校验函数,查看数据质量校验结果;18)选择数据统一服务,类sQL的形式进行查询单表或多表,查看返回的数据;19)通过可视化方式生成服务API;20)生成服务API的报表,查看报表分析结果;22)进入标签全生命周期管理页面,选择标签上线/下线等功能,查看运行结果;23)创建标签服务API,查看应用调用结果;24)查看标签生产和使用情况分析列表,查看标签总数、API总数、API性能等分析结果。5)在步骤5)中,数据字段拆分执行成功;6)在步骤6)中,数据去重复字段执行成功;7)在步骤7)中,条件过滤执行成功;9)在步骤9)中,多表联合执行成功;;10)在步骤10)中,数据聚合执行成功;11)在步骤11)中,数据筛选执行成功;13)在步骤13)中,码值匹配执行成功;14)在步骤14)中,患者主索引识别成功;15)在步骤15)中,全量和增量任务调度成功,数据源的数据流转结果正确;16)在步骤16)中,基于SqL、Java或其他程序语言的自定义规则配置成功;18)在步骤18)中,支持数据统一服务,返回的数据正确;19)在步骤19)中,能够通过可视化方式生成服务API;20)在步骤20)中,能够生成服务API的报表分析;21)在步骤21)中,创建数据智能标签成功;22)在步骤22)中,能够进行标签全生23)在步骤23)中,标签服务API创建成功,应用调用结果正确;2)用户注册完成并已分配相应权限,且该用户已登录;任一机器学习类算法,保存并运行任务;6)通过提供的模板或案例创建模型,配置模型,运行算法,记1)在步骤1)中,能够成功运行统计分析类算法;2)在步骤2)中,能够成功运行机器学习类算法;4)在步骤4)中,能够成功运行通用医疗类算法;6)在步骤6)中,根据模板或案例成功创建模型并运行成功;8.4数据存储管理1)数据管理环境能够正常运行;2)用户注册完成并已分配相应权限,且该用户已登录;1)选择MySQL、0racle、SQLServer、达梦国产数据库等关系型数据库,存储;2)分别选择结构化数据、非结构化数据、半结构化数据,存储;3)选择列数据存储;4)选择行数据存储;5)分别选择文件存储
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025兽医执业考试生理学试题及答案
- 中职电子商务市场营销案例分享与分析试题及答案
- 个人经验2024年图书管理员试题及答案
- 2024投资咨询课程的更新试题及答案
- 企业社保补充合同样本
- 一份商品购销合同范本
- 人事局劳动合同范本
- 协助患者翻身操作流程
- 一日保教流程培训
- 2024年五年级英语下册 Unit 2 Can I help you Lesson 7教学实录 人教精通版(三起)
- 第一次月考测试卷(试题)-2023-2024学年人教版六年级数学下册
- 教育实习鉴定表模板(共3页)
- (完整版)污水处理厂运维方案
- 【精选】方剂学清热剂练习题
- 下肢静脉血栓护理查房
- 纳税信用修复申请表
- 最新苏教版五年级数学下册第四单元 数学教案
- 以化妆用品与手法的古今对比探讨昆曲的历史变迁
- 学生资助政策宣传主题班会PPT课件
- 房产继承遗嘱范本
- 山东省自然科学基金资助项目结题报告模板
评论
0/150
提交评论