医学信息处置专家讲座_第1页
医学信息处置专家讲座_第2页
医学信息处置专家讲座_第3页
医学信息处置专家讲座_第4页
医学信息处置专家讲座_第5页
已阅读5页,还剩133页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学信息处理中国医学科学院医学信息研究所医学信息学医学信息处置第1页教学目标2了解什么是医学信息处理熟悉医学信息是怎样在计算机中表示了解医学信息是怎样进行存放管理了解医学信息交换标准及关键技术了解大数据时代医学信息处理医学信息处置第2页教学内容3医学信息处理内涵1医学信息处理关键问题2医学信息处理应用实例3大数据时代医学信息处理4医学信息处置第3页医学信息处理内涵4以案例说明什么是信息处理1医学领域中信息处理2医学信息处置第4页案例(一)案例:厨师王先生为了做菜要采购蔬菜,蔬菜可在农贸市场和超市购置到,但两个地方蔬菜放置方式不一样农贸市场按摊位摆放,每个摊位上摆放各种蔬菜超市按蔬菜品种摆放,每个区域只摆放一个蔬菜,可能来自不一样蔬菜基地王先生分析这种差异原因在于:

二者对待蔬菜处理方式存在差异5医学信息处置第5页案例(二)面向农贸市场蔬菜处理场景6面向超市蔬菜处理场景医学信息处置第6页案例(三)王先生认为:假如有固定买菜摊点,能够选择去农贸市场获取食材假如是购置某类蔬菜,选择以菜品为摆放方式超市会更为方便,不然需要在农贸市场比较若干摊点才能够完成购置工作王先生基于自己需求,选择了适当地点购置到了食材至此,完成了做菜所需原材料前期准备工作7医学信息处置第7页案例分析(一)案例分析:假如将做菜视为一个信息利用,则在做菜之前对蔬菜做全部准备操作,包含蔬菜采摘或采购、运输、加工、存放、购置等方面,都可视为信息处理。

信息处理目标:使信息满足应用需求信息处理是由多步骤组成,是一个过程不一样信息利用需求,信息处理步骤或步骤有所不一样主要包括两类应用场景8可知医学信息处置第8页案例分析(二)将两类蔬菜处理场景与信息处理步骤相对应场景19信息格式统一信息采集方法信息存放方法信息获取方法医学信息处置第9页案例分析(三)场景210信息格式统一清洗规则转换方法……各种异构数据源数据仓库数据集市医学信息处置第10页什么是信息处理(一)由案例分析可知:信息处理包含信息采集、存放、交换、加工和获取信息处理目标是使信息满足应用需求信息处理主要包括两大应用场景场景1:面向初始数据信息处理场景2:面向多数据源信息集成两大应用场景处理流程、要处理关键问题均不一样11医学信息处置第11页什么是信息处理(二)对两大经典信息处理应用场景进行抽象信息处理应用场景1(处理初始数据信息处理,场景2基础)12该场景中需要处理关键问题该场景中信息处理流程医学信息处置第12页什么是信息处理(三)13信息处理应用场景2(处理多信息源集成)该场景中信息处理流程该场景中需要处理关键问题医学信息处置第13页医学信息处理内涵14以案例说明什么是信息处理1医学领域中信息处理2医学信息处置第14页医学信息处理医学信息处理是信息处理在医学领域中应用医学信息处理越来越主要数字化医疗需要需要信息处理将信息表示为计算机可读形式需要经多个孤立信息系统集成起来,使之协调工作,以提升医院信息共享度和工作效率医药卫生决议需要需要信息处理整合多起源、多类型医学信息医学知识发觉需要需要信息处理将无序数据有序化15医学信息处置第15页医学信息处理面临挑战(一)医学信息纷繁复杂,降低了数据可用性各种起源(如医院信息系统、专业数据库、移动设备……)各种类型(数值型、文本型、图像型……)各种格式(数据库、xml、excel……)16仪器设备采集核酸序列数据库手动录入Web采集……数值型数据文本型数据图像型数据……Excel格式数据库格式xml格式……医学信息处置第16页医学信息处理面临挑战(二)医学信息质量不一数据存在缺失值、不一致……如:病人信息中家庭住址缺乏所在区县信息(缺失值)

系统A中病人性别用“男”、“女”表示,系统B用“0”、“1”表示医学信息暴发式增加指数级增加形成医学领域大数据(BigData)17INSDC(国际核酸序列数据库联盟)数据规模这使得医学信息处理具备一定难度医学信息处置第17页教学内容18医学信息处理应用场景1关键问题医学信息处理应用场景2关键问题医学信息处理关键问题医学信息处置第18页应用场景1关键问题应用场景1:面向初始数据信息处理19该场景中需要处理关键问题关键问题围绕医学信息采集方法医学信息交换标准医学信息存放管理医学信息获取方法医学信息处置第19页应用场景1:医学信息采集方法人工录入方法方法:键盘录入、鼠标选择、手写录入等形式:口述转录、扫描识别结构化就诊表、计算机辅助输入数据(如CPOE系统)数据验证:模式检验、逻辑检验机器采集方法:指定信息源,采集器自动、定时地取出用户所需信息利用数字化仪器设备采集包含MRI、CT等数字化采集设备例:利用CT设备采集病人CT图像利用自动识别技术包含利用条形码读卡器、IC卡读卡器等自动识别设备例:利用就诊卡读卡器获取病人信息,输出化验结果单20医学信息处置第20页PACS医学信息采集(一)PACS图像采集界面21医学信息处置第21页PACS医学信息采集(二)PACS图像信息录入界面22医学信息处置第22页医学信息交换标准23互操作:一个系统或应用软件使用其它系统或应用软件产生数据能力。即系统之间能够传输数据,而且这些数据能够被准确、一致地了解功效和语法互操作:两个或多个系统之间经过设定功效和定义消息结构进行信息交换能力语义互操作:两个或多个系统共享信息能够被按原有定义了解能力,信息共享和利用前提条件,包括概念、术语、数据模型,以及信息(数据)框架一致性问题医学信息处置第23页24医学信息交换标准医学信息处置第24页医学信息交换标准医学领域有其特定信息交换标准,是面向医学信息集成目标:将数据传输格式与存放格式相剥离,主要处理操作型数据格式不一致问题常见医学信息交换标准HL7(HealthLevelSeven)——得到广泛应用DICOM

——得到广泛应用IEEEP1157:医疗数据交换标准(medicaldatainterchangestandard,MEDIX)ANSIX12:美国国家标准协会电子数据交换标准……25医学信息处置第25页DICOMDICOM是DigitalImagingandCommunicationsinMedicine英文缩写,即医学数字成像和通信标准统一各种数字化影像设备图像数据格式和数据传输标准最新版本:DICOM3.0要求了各种医学影像格式、内容、存放方法以及交换医学影像信息协议已被世界上主要医学影像设备生产厂商接收应用:图像存档与传输系统(PictureArchivingandCommunicationSystem,PACS)等26医学信息处置第26页DICOM文件格式271.文件头thepatient'sname/idtypeofmedia(CT,MRI,audiorecording,etc.)imagedimensions...2.主体medicalreportsaudiorecordingsimages医学信息处置第27页例:PACS信息交换28对于符合DICOM标准影像设备,能够直接采集获取对于具备数字接口,但格式不符合DICOM标准影像设备,需经过DICOM网关,将这些图像转换为DICOM标准格式对于只具备模拟视频输出老设备,则需将其数字化再经过DICOM网关进行格式转换医学信息处置第28页HL7HL7(HealthLevelSeven)规范医疗机构临床信息、管理信息等电子信息交换将相互割断各个系统经过消息交换方式互联,保持各个系统独立性,易于维护升级最新版本:HL73.0(但v2.4版本是正式公布版本)应用最广、最主要医学信息交换标准之一标准包含了总接口协议及电子病历、药品、治疗方案与结果事物处理、临床观察与初步诊疗、事务处理等协议,确保了这些系统之间信息交流与共享应用:HIS(HospitalInformationSystem,医院信息系统)、PACS等不一样系统之间信息交换29医学信息处置第29页30HL7-enabledsystemReceiverDataNetworkHL7-enabledsystemSenderDataHL7MessageCreationEncodingHL7MessageParsingEncodingHL7V3.0StandardHL7V3.0StandardHL7工作原理医学信息处置第30页HL7消息传输格式31MessageSegmentField医学信息处置第31页例:HL7应用转院患者王海于年12月1日早晨11点12分,由301医院急诊室转往北医三院急诊外科李四。301医院转诊系统转诊确认后2分钟向北医三院发出患者转诊信息和患者基本情况:张三,身份证号男性,住址:海淀区复兴路38号,电话:85591234转成HL7V2.4消息后为:

32MSH|^~\&|005^急诊室|0802^301医院|0052^急诊外科|0801^北医三院|1114|SECURITY|RPA^I08|MSG00001|P|2.4|<cr>EVN|I08|1112||<cr>PID||||张三|19740401|男||C|海淀区^复兴路^38号^100083|8559-1234|||<cr>PV1||急诊外科||||0007^李四|||急诊科|<cr>

MSH是消息头EVN是事件类型PID是病人基本资料PV1是病人住院情况结束标识医学信息处置第32页应用场景1:医学信息存放管理医学信息存放管理主要处理医学信息保留和共享问题,但计算机中数据以二进制表示(0和1),所以首先需要处理医学信息在计算机中表示问题在处理医学信息存放管理时,需要处理存放设备,即硬件问题,还需要处理信息有效组织和管理问题,而数据库技术作为信息系统关键,在医学领域得到广泛应用所以,该关键问题主要围绕:医学信息计算机表示医学信息存放数据库技术33医学信息处置第33页医学信息计算机表示(一)为了便于计算机处理,医学信息需要编码编码:用一定符号体系把事物或概念表示出来字符表示:西文编码标准:如ASCII码(AmericanStandardCodeforInformationInterchange,美国信息交换标准码),

ASCII码包含52个英文大、小写字母,10个阿拉伯数字字符0~9,32个通用控制字符和34个专用字符例:英文单词ComputerASCII编码为010000110110111101101101011100000111010101110100

0110010101110010汉字编码标准:如信息交换用汉字编码字符-基本集(GB2312-80),包含了6763个简体汉字,和682个标准汉字符号;GBK;Big534医学信息处置第34页医学信息计算机表示(二)图像表示:图像需“离散化”取样,视为由M(行)*N(列)个像素(PictureElement,pixel)组成数字矩阵单色图像:可用灰度值矩阵表示(0为黑色,255为白色)彩色图像:可用RGB(红绿蓝)三元组二维矩阵表示(0表示该基色在该像素中没有,255表示取得最大值)35医学信息处置第35页医学信息计算机表示(三)36TLYFIFGIWAGLLGTSLSLMIRTELGQPGSLLNDDQLYNVVVTAHGFIMIFFLVMPIMIGGFGNWLVPLMLGAPDMAFPRMNNMSFWLLPPSLTLLLASSAVESGAGTGWTVYPPLSSNLSHAGPSVDLAIFSLHLAGVSSILGAINFITTILNMRWEGLQMERLPLFAWSVFITAILLLLSLPVLAGAITMLLTDRNFNTTFFDPSGGGDPILYQHLFFlatfile文件各类医学信息可转换为字符、数值、图像等形式,即可经过这些数据形式计算机编码,为计算机所了解如核酸序列数据,经过测序设备获取了原始数据,并表示为Flatfile文件,再依靠字符编码,为计算机可读医学信息处置第36页医学信息存放37信息存放:针对所采集信息进行科学有序存放、保管,方便使用过程表示三层含义:将所采集信息,按照一定规则,统计在对应信息载体上将这些信息载体,按照一定特征和内容性质组成系统有序、可供自己或他人检索集合体应用计算机等先进技术和伎俩,提升信息存放效率和利用水平医学信息存放要充分考虑存放数量、存放方式、存放时间、信息格式、使用方式、调用速度、安全保密等方面医学信息存放需借助信息存放管理技术医学信息处置第37页信息存放管理技术(一)数字存放设备技术包含磁盘阵列、SCSI硬盘、活动硬盘、光盘、磁带库、光盘库等38磁带库磁盘阵列医学信息处置第38页信息存放管理技术(二)并行网络存放技术包含对等存放技术、集群与网格存放技术等数字压缩技术包含有损压缩技术、无损压缩技术:压缩速度、压缩比如数字图像压缩:JPEG标准(JointPhotographicExpertGroup)安全存放技术包含数据备份、灾难恢复技术、高可用存放系统等为了应对硬件故障、软件故障、自然灾害、病毒入侵等突发情况数据库技术关注怎样组织和存放数据、怎样高效获取和处理数据,是信息系统关键技术移动存放技术39医学信息处置第39页信息存放管理技术应用(一)比如:PACS系统图像存放存放方式:通常分层次存放如按图像产生时间分为在线存放(用于存放随时使用图像)、近线存放(用于存放不惯用图像)和离线存放(用于存放要永久保留资料)三类数字存放设备采纳在线图像惯用速度相对较快光纤磁盘阵列近线图像惯用SATA磁盘阵列之类容量很大、速度相对较慢设备离线图像惯用光盘、磁带等40医学信息处置第40页信息存放管理技术应用(二)PACS网络拓扑图41医学信息处置第41页数据库技术42概念模型将现实世界看做由一组实体基本对象以及这些对象之间联络组成用于信息世界建模;是数据库设计有力工具;是现实世界到机器世界中间层次数据模型是数据库系统关键与基础数据模型是一个用于描述数据、数据之间联络、数据语义和数据约束概念工具集合,是现实世界模拟数据库技术关注怎样组织和存放数据、怎样高效获取和处理数据,是信息系统关键技术医学信息处置第42页常见数据模型(一)(1)关系模型(relationalmodel)——使用最广泛用表集合表示数据和数据间联络每个表都被赋予一个唯一名字每个表都包含一组属性(列或字段),并通常存放大量元组(统计或行)关系表中每个元组代表一个对象,被唯一关键字标识,并被一组属性值描述43唯一标识符元组字段医学信息处置第43页常见数据模型(二)(2)基于对象数据模型(object-baseddatamodel)提供更丰富类型系统(包含集合体类型和面向对象)允许表属性为集合体(包含嵌套关系、集合、数组等)允许表继承、对象(元组)引用等对关系数据模型扩展(3)半结构化数据模型(semi-structureddatamodel)允许相同类型数据项含有不一样属性集数据定义数据表示:广泛使用可扩展标识语言(ExtensibleMarkupLanguage,XML)(数据查询语言:XQuery等)44医学信息处置第44页数据库系统与其它概念区分数据(Data):数据库存放对象数据库(Database):依据数据模型组织并存放数据集合数据库管理系统(DatabaseManagementSystem,DBMS):操纵和管理数据库软件,用于建立、使用和维护数据库数据库系统:由数据库及其管理软件组成系统主流数据库系统IBMDB2UniversalDatabaseOracleMicrosoftSQLServerMySQL45医学信息处置第45页应用场景1:医学信息获取方法医学信息获取主要依靠信息检索信息检索是指依据用户检索提问,从信息资源集合中,依据特定相同度判定规则,筛选出满足一定条件统计进行输出反馈给用户过程包含目录检索、关键字检索两种方式目录检索:依据数据信息分级分类目录,逐层浏览、定位所要查找信息关键字检索:将所需信息表示为若干关键字,供检索系统查询在信息系统中数据库是关键,所以信息检索底层实现,主要是应用了数据库查询语言以关系数据查询为例46医学信息处置第46页关系数据查询(一)关系数据库使用关系查询语言(如SQL)进行查询查询能够提取数据一个指定子集比如:查找全部病人姓名

select

Name

from

patient_T;查询结果:47NameJoeSamSue……查询字段名查询表名医学信息处置第47页关系数据查询(二)查询可被转换成一系列关系操作,如连接、选择、投影等,并被优化,以更有效地处理比如:查找全部医生姓名及其所在部门名称

select

name,dept_name

from

doc_T,dept_T

where

doc_T.dept_ID=dept_T.dept_ID;

48dept_IDdept_name0001dermatologynamedept_IDJack0001doc_Tdept_Tnamedept_nameJackdermatology视图连接医学信息处置第48页教学内容49医学信息处理应用场景1关键问题医学信息处理应用场景2关键问题医学信息处理关键问题医学信息处置第49页应用场景2关键问题应用场景2:面向多数据源信息集成50该场景中需要处理关键问题关键问题围绕多源异构数据集成数据仓库构建医学信息获取方法医学信息处置第50页应用场景2:多源异构数据集成该应用场景中,医学信息交换面临问题在于:需要对不一样起源、不一样结构资源进行集成化组织、检索和服务如对多数据无缝集成检索但医学信息系统展现分布、异构特点所以,集成化成为医学信息应用主要内容从信息级、系统级和应用级三个层面上展开包含信息内容集成、信息访问集成、信息服务集成以及相关互操作技术标准协议等方面内容51医学信息处置第51页集成化技术(一)集成化技术包含内容集成技术、集成访问技术和服务集成技术内容集成技术对信息内容和对象集成描述包括复合数字对象描述与打包技术标准如RDF、METS、MPEG-21和SCORM等集成访问技术实现对各种异构资源和数据库查询,并将各系统检索结果聚集起来统一展现如OpenURL(Z39.88)、OAI-PMH(OpenArchivesInitiativeProtocolforMetadataHarvesting)等集成检索技术52医学信息处置第52页集成化技术(二)服务集成技术Web服务(WebServices)技术将软件组件看成一个服务,提供一套描述、公布、查找和调用这些服务技术规范借助HTTP、XML

(ExtensibleMarkupLanguage)、WSDL(WebServicesDescriptionLanguage,web服务描述语言)、UDDI(UniversalDescription,DiscoveryandIntegration,通用描述、发觉与集成服务)、SOAP(SimpleObjectAccessProtocol,简单对象访问协议)等标准和协议来实现信息内容集成、访问集成和服务集成共同底层技术是XML技术53医学信息处置第53页XML(一)XML(ExtensibleMarkupLanguage,可扩展标识语言)要求了用于定义信息内容元素和结构标识语言和语法能够建立一个独立于任何系统、语言和程序信息内容与结构定义交换机制成为数据交换主导格式XML数据结构以元素(element)为基本结构如:<doc_ID>001</doc_ID>为一个元素标签都是成正确(<tag></tag>),而且不指定标签集可依据应用自定义标签集54医学信息处置第54页55<?xmlversion="1.0"?><hospitals><hospital><code>32175000</code><name>江苏省人民医院</name></hospital><hospital><code>32040000</code><name>南京市脑科医院</name></hospital><!--Therearemorehospitals.--></hospitals>处理指令根元素子元素注释内容XML(二)医学信息处置第55页应用场景2:数据仓库构建医药卫生领域常为了决议,集成各种信息起源,数据仓库是常见数据存放管理处理方案所以该关键问题将围绕数据仓库(datawarehouse)内涵概念、与数据库区分、体系结构等数据仓库构建构建关键步骤、数据清理方法、数据转换方法等数据仓库数据模型数据集市56医学信息处置第56页数据仓库内涵(一)什么是数据仓库(datawarehouse)?W.H.Inmon认为数据仓库是面向主题(SubjectOriented)、集成(Integrate)、相对稳定(Non-Volatile)且反应历史改变(TimeVariant)数据集合一个将从多个数据源中搜集来信息,以统一模式存放在单个站点上仓储。提供联机分析处理(OnLineAnalyticalProcessing,OLAP)工具,用于各种粒度多维数据交互分析数据挖掘(如分类、聚类、预测等)功效,都可与OLAP操作集成成为数据分析、OLAP、数据挖掘有效平台57医学信息处置第57页数据仓库内涵(二)数据仓库与数据库区分58医学信息处置第58页数据仓库内涵(三)数据仓库体系结构:59各种数据起源数据仓库关键面向分析需要数据组织(数据获取)医学信息处置第59页数据仓库构建数据仓库构建关键步骤:数据抽取从多个异构外部数据源搜集数据数据清理检测数据中错误,可能时进行修正数据变换将数据由宿主格式转换成数据仓库格式数据装载排序、汇总、合并、计算视图、检验完整性,建立索引和划分数据更新传递从数据源到数据仓库更新其中抽取(extract)、转换(transform)和装载(load)合称为ETL60医学信息处置第60页数据仓库构建:数据抽取(一)数据抽取是从源系统中获取业务数据过程抽取前准备工作:确定业务系统数据情况,了解数据量大小,业务系统中每张表数据结构、字段含义、表之间关系等信息抽取时需要考虑原因:抽取方式包含增量抽取、全量抽取抽取时间尽可能在系统使用低峰时段,如夜间抽取周期依据业务需求制订,如按小时抽取,或按天、月、季度、年等61医学信息处置第61页数据仓库构建:数据抽取(二)数据抽取面临情况:若业务操作型数据库和数据仓库数据库管理系统相同,则建立对应连接关系就能够使用ETL工具直接访问,或者调用对应SQL语句或者存放过程若业务操作型数据库和数据仓库数据库管理系统不相同,可使用ETL工具导出文本文件或者Excel文件,再进行统一数据抽取若需要抽取海量数据,必须考虑增量抽取,通惯用标识位或者时间戳形式,每次抽取首先判断是否是抽取标识位或者是当前最近时间,再将数据源数据抽取出来62医学信息处置第62页数据仓库构建:数据清理(一)为何要进行数据清理?抽取信息常出现不正确、不完整、不一致情况,影响数据质量,降低决议准确率和效率不正确信息搜集信息设备故障、人机录入错误、信息传输错误等不完整信息信息无法获取、信息误操作、设备异常等不一致信息命名约定或所用数据代码不一样、输入格式不一样等如日期格式不一致:“年2月14号”和“/2/14”……63医学信息处置第63页数据仓库构建:数据清理(二)数据清理目标:选择出有问题数据,再将它们正确化和规范化,从而到达用户要求数据质量标准数据清理是一个两步迭代过程:偏差检测(discrepancydetection)发觉噪声、不一致、重复等异常数据依据关于数据性质知识或元数据可借助检测工具数据变换(datatransform)依据数据标准化格式加以转换,可借助ETL等支持数据变换工具64医学信息处置第64页数据清理方法(一)缺失值清理忽略该统计去掉属性手工填写空缺值使用默认值使用属性平均值使用同类样本平均值预测最可能值不一致数据清理人工纠错模式匹配(整合不一样数据源中元数据)匹配来自不一样数据源实体,如:A.cust-id=B.customer_no65医学信息处置第65页数据清理方法(二)噪声数据清理分箱把待处理数据按照一定规则放进一些箱子中,考查每一个箱子中数据,采取某种方法分别对各个箱子中数据进行处理平滑处理(分箱后对数据进行平滑处理)按平均值平滑对同一箱值中数据求平均值,用平均值替换该箱子中全部数据按边界值平滑用距离较小边界值替换箱中每一数据按中值平滑取箱子中值,用来替换箱子中全部数据66医学信息处置第66页数据清理方法(三)噪声数据清理(续)聚类将物理或抽象对象集合分组为由不一样簇,找出并去除那些落在簇之外值(孤立点),这些孤立点被视为噪声回归发觉两个相关变量之间改变模式,经过使数据适合一个函数来平滑数据,即利用拟合函数对数据进行平滑方法:线性回归(简单回归):利用直线建模,将一个变量看作另一个变量线性函数

如:Y=aX+b,其中a、b称为回归系数,可用最小二乘法求得a、b系数非线性回归

67医学信息处置第67页数据转换方法(一)平滑去除噪声,将连续数据离散化,增加粒度分箱聚类回归聚集对数据进行汇总avg(),count(),sum(),min(),max()…如:天天销售额(数据)能够进行累计操作以取得每个月或每年总额能够用来结构数据立方体属性结构利用已经有属性集结构出新属性,并加入到现有属性集合中以帮助挖掘更深层次模式知识,提升挖掘结果准确性如:依据宽、高属性,能够结构一个新属性:面积68医学信息处置第68页数据转换方法(二)数据概化用更抽象(更高层次)概念来取代低层次或数据层数据对象如:街道属性,就能够泛化到“城市、国家”等更高层次概念如:年纪等数值型属性,就能够映射到“年轻、中年和老年”等更高层次概念规范化将数据按百分比进行缩放,使之落入一个特定区域,以消除数值型属性因大小不一而造成挖掘结果偏差如:将工资收入属性值映射到[-1.0,1.0]范围内方法:(1)最小-最大规范化(2)零-均值规范化(z-score规范化)(3)小数定标规范化69医学信息处置第69页数据仓库构建:数据装载数据装载是将已经转换完成数据,存放到目标数据库过程数据装载需要考虑原因:数据装载周期数据装载策略时间戳装载方式:经过对源系统表添加时间戳字段,将系统当前时间和时间戳值进行对比,决定哪些业务数据需要被抽取,可实现数据增量装载全表对比装载方式:在数据装载前,将每条数据都与目标表全部统计进行对比,判断数据是更新还是插入读取日志装载方式:当源数据表发生改变时,不停更新日志表信息,从而作为装载依据全表删除后再插入装载方式:在装载数据前,先删除目标表全部数据,然后再装载全部数据,不能实现数据增量装载,效率较低70医学信息处置第70页数据仓库数据模型(一)数据仓库数据模型:数据立方体(datacube)数据立方体是指由两个或更多个属性来描述或分类数据是多维数据结构,在三维情况下以图形表示含有立方体结构,普通称为数据立方体提供数据多维视图,并允许预计算和快速访问汇总数据71产品地域时间医学信息处置第71页数据仓库数据模型(二)多维数据结构维(度):人们观察数据角度(如时间维、地域维等)层:依据维度细节程度不一样,划分数据在逻辑上等级关系,用来描述唯独各个方面。比如,时间维度包含年、季度、月、日等层次;地域维度包含国家、省、市、县等层次维度组员:维度取值,即维度中各个数据元素取值。比如,地域维度中详细组员有英国、法国、德国等多维数据模型实现模式包含星形模式(Starschema)、雪花模式(Snowflakeschema)等72医学信息处置第72页数据仓库数据模型(三)数据仓库星形模式:73数据仓库雪花模式:在星形模式基础上,一些维表被规范化,分解到附加表中易于维护,节约存放空间每维只使用一个表表示每个表包含一组属性医学信息处置第73页数据集市数据集市(datamart)内涵为了特定应用目标或应用范围,从数据仓库中独立出来一部分数据是数据仓库一个逻辑子集,可了解为“部门级数据仓库”针对选定主题数据集较于数据仓库,规模小、灵活,构建速度快,投资成本低适于采取星形或雪花模式建模74对比内容数据仓库数据集市范围企业级部门级主题企业主题部门或特殊分析主题数据粒度最小粒度较大粒度历史数据大量历史数据适度历史数据优化处理海量数据、数据检索便于访问和分析、快速分析医学信息处置第74页应用场景2:医学信息获取在应用场景2中,采取了以多维数据模型(数据立方体)为数据模型数据仓库,多维数据模型使得从不一样角度观察数据成为可能,而OLAP提供了良好交互数据分析环境OLAP(OnlineAnalyticalProcessing,联机分析处理)目标:从多个角度、多个侧面观察数据库中数据经典操作:上卷(roll-up)下钻(drill-down)切片(slice)切块(dice)……75医学信息处置第75页OLAP操作(一)上卷(Roll-Up)在数据立方体中执行聚集操作,经过在维级别中上升来观察更概括数据76沿着时间维上卷,由“季度”上升到六个月

医学信息处置第76页OLAP操作(二)上卷(续)经过消除一个或多个维来观察愈加概况数据77消除“经济性质”维度

医学信息处置第77页OLAP操作(三)下钻(drill-down)经过在维级别中下降或经过引入某个或一些维来更细致观察数据78沿时间维下钻医学信息处置第78页OLAP操作(四)切片(slice)在给定数据立方体一个维上进行选择操作。切片结果是得到了一个二维平面数据79“时间=1季度”

医学信息处置第79页OLAP操作(五)切块(dice)在给定数据立方体两个或多个维上进行选择操作。切块结果是得到了一个子立方体80(度量值=“正常”

or“次级”)And(时间=“1季度”

or“2季度”)医学信息处置第80页教学内容81医学信息处理内涵1医学信息处理关键问题2医学信息处理应用实例3大数据时代医学信息处理4医学信息处置第81页应用实例:以国家新农合信息系统为例以国家新农合信息系统为例,阐述医学信息处理问题82建设背景建设内容系统实现效果医学信息处置第82页系统建设背景83新农合制度年1月,国务院办公厅转发卫生部等部门关于建立新型农村合作医疗制度意见通知(国办发〔〕3号),新农合制度在全国逐步铺展开来新农合制度经过十年发展,参合农民达8.02亿人,参合率99%;最高支付限额不低于8万元,政策范围内住院费用报销百分比提升到75%左右截止年新农合个人筹资总额不低于340元,各级财政对新农合补助标准提升到每人每年290元(中央政府、省、县级财政),个人缴纳50元医学信息处置第83页系统建设背景84国家新农合信息系统建设需求跨省就医数据共享困难:全国80%以上省份建立省级新农合信息平台,处理了省内新农合数据交换共享,但缺乏跨省数据交换共享防范新农合基金跑冒滴漏:跨省就医费用难以核查,以假发票等形式套取新农合基金事件时有发生方便参合农民跨省就医报销:在外务工人员在务工地就医后,返回当地报销,需要垫付资金,报销手续繁琐,往返路费和误工成本高监控就医与报销赔偿业务,规范医疗服务:省外医院目录外用药(或诊疗项目)多,缺乏有效监管伎俩,参合农民就诊次均费用高,就医负担重新农合报销赔偿政策制订缺乏数据支持:因为就医流向、疾病谱分布、疾病负担等没有准确数据支持,政策制订缺乏科学依据医学信息处置第84页建设内容新农合业务运行监管参合患者跨省就医协同管理新农合报销赔偿等政策制订循证支持85医学信息处置第85页新农合业务运行监管分析各省(直辖市、自治区)参合情况、就医情况、赔偿情况、疾病患病率情况等,监控各地新农合制度运行是否平稳,如国家财政拨款是否到位,新农合基金运行是否合理等86医学信息处置第86页87例:年前9个月综合分析各省新农合数据结果住院受益率经验值在8%左右,当年全省筹资能够负担看病报销费用黑龙江住院受益率为11.95%,提醒基金可能不够用住院赔偿比经验值在在50%左右,说明农民就医报销费用能够得到保障河南省住院赔偿比在47.65%,说明给农民报销费用少住院赔偿比和受益率都很低,可能是中央财政拨款没有及时到位,或者被挪用,需要重点督导医学信息处置第87页关键问题各省新农合信息系统结构不统一,且地理上高度分散设计面向服务体系结构(Service-OrientedArchitecture,SOA),屏蔽各系统差异,又能建立各系统联络数据描述标准规范不统一利用HL7等已经有标准,统一数据描述标准规范海量数据传输问题效率问题:布署消息中间件,对数据进行压缩后传输安全性问题:布署虚拟交换网VPN88医学信息处置第88页89分散系统之间可靠异步、安全消息传递A省系统,Java开发B省系统,.net开发医院信息系统,用Delphi等开发国家新农合信息平台SOA架构提供了插件式接入方式,装配、布署和管理分布式面向服务体系架构,支持国家新农合信息平台和各省之间服务调用、消息和基于事件交互面向服务体系结构医学信息处置第89页90数据集传输接口统一标准规范医疗机构、患者、住院、诊疗、报销赔偿等类型数据利用HL7临床文档架构CDA描述规范组织传输内容医学信息处置第90页91统一数据集医学信息处置第91页92基于CDA数据交换文档描述<!--************************************文档头head--> <realmCodecode="CN"/> <typeIdroot="2.16.840.1.113883.1.3"extension="POCD_MT000040"/> <templateIdxsi:type="II"root="SD.10.1"assigningAuthorityName="住院基本信息表"

extension="DT001"/> <codecode="B0006"codeSystem="SD.6.3"codeSystemName="卫生信息共享文档分类编码系统"

displayName="住院基本信息表"/> <title>住院基本信息表</title> <effectiveTimexsi:type="TS"value="1231154823"/> <confidentialityCodecode="N"codeSystem="2.16.840.1.113883.5.25"codeSystemName="Confidentiality"displayName="普通保密级别"/> <languageCodecode="zh-cn"/>CDA文档头说明该文档基本信息,如文档内容类别、语种、生效日期、保密级别等。医学信息处置第92页93基于CDA数据交换文档描述<!--************************************患者基本信息--> <patientclassCode="PSN"determinerCode="INSTANCE">

<!--患者身份证号--> <idroot="SD.4.2"extension="ID4620011919"/> <name>王小明</name> <administrativeGenderCodecode="M"codeSystem="SD.11.3.4"codeSystemName="生理性别代码表(GB/T2261.1)"/> <birthTimexsi:type="TS"value="0101"/> <maritalStatusCodecode="10"displayName="未婚"

codeSystem="SD.11.3.5"codeSystemName="婚姻情况代码表(GB/T2261.2)"/> <ethnicGroupCodecode="TJ"displayName="土家族"

codeSystem="SD.11.3.3"codeSystemName="民族类别代码表(GB3304)"/> ………… </patient>患者基本信息片段描述患者基本情况,如身份证号、民族、婚姻、健康情况等。医学信息处置第93页94基于CDA数据交换文档描述<!--************************************文档体body--><component> <section> <entry> <codecode="HSDB05.10.103"codeSystem="SD.6.4"codeSystemName="住院病案首页基本数据集"

displayName="综合医疗服务费-普通医疗服务费"/> <valuexsi:type="MO"value="5000"currency="CNY"/> </entry>

...... </section>

......</component>CDA文档体描述了详细内容,如本例中描述总费用中普通医疗服务费,金额为5000元,币种为人民币。医学信息处置第94页95各省/医院业务系统经过调用国家平台布署在前置机端Webservice接口将数据推送至前置机指定目录中各省/医院前置机布署数据交换中间件,将数据批量上传至国家平台镜像库中。消息中间件支持队列管理等功效,有利于传输通道连续稳定工作海量数据传输效率问题WebServices布署简单,不过无法持久保持链接会话状态;消息中间件能够对传输内容进行压缩转换,提升传输效率,并支持断点续传,消息中间件传递速度是webservices10倍以上医学信息处置第95页数据交换流程数据转换:省级新农合信息系统按照国家新农合信息系统数据交换标识语言标准转换数据数据上传:省级新农合信息系统调用当地前置机布署WebService接口程序,将转换好数据上传至前置机数据传输:消息中间件TQ将传到前置机数据经过VPN网络传输到国家新农合信息系统前置机数据清洗:依据数据清洗规则,对传输到国家新农合信息系统端前置机上数据进行清洗,并写入数据采集前置库96医学信息处置第96页数据入库:依据数据入库规则,将符合数据规范数据写入国家新农合信息系统中心数据库数据提取:国家新农合信息系统数据提取程序从国家中心数据库将省级新农合信息系统需要数据(如:跨省费用核查数据等)按照标准格式提取到国家新农合信息系统前置机数据推送:国家新农合信息系统前置机推送程序将省级新农合信息系统需要数据经过VPN网络推送到省级新农合信息系统前置机数据下载:省级新农合信息系统系统调用前置机提供下载接口,将相关数据下载到当地系统97医学信息处置第97页98海量数据传输安全性问题建立基于VPN虚拟通道,该通道传输数据被加密,在国家新农合信息平台端进行解密。虚拟数据交换通道医学信息处置第98页参合患者跨省就医协同管理方便参合农民跨省就医第一阶段费用核查。跨省定点医疗机构定时上传就诊参合农民诊疗和费用信息,当地新农合经办机构能够登录该费用核查子系统查看患者住院费用数据,验证参合农民就诊行为和医药费用真实性第二阶段即时结算。参合农民在省外指定医疗机构住院治疗,出院时由定点医疗机构按要求初审并垫付应给农民新农合赔偿费用,再由定点医疗机构与患者所在统筹地域合作医疗经办机构定时结算过程。99医学信息处置第99页省级新农合平台患者识别国家新农合平台定点医院合管办参合农民按申请单提交核查申请单检索申请单检索核查结果准备患者信息患者信息识别:1、住院号2、医院名称

3、住院时间核查结果费用核查、赔偿信息计算定时自动提交按照申请单数据提取数据推送到县级平台费用核查子系统:各省经过国家平台共享跨省就医数据,预防制作假发票等行为套取新农合基金现象发生。跨省费用核查业务流程分析医学信息处置第100页关键问题业务流程规范性建立业务操作规范,明晰不一样机构职责隐私保护明确跨省就医数据利用目标101医学信息处置第101页102规范费用核查业务流程试点医院识别患者参合身份,上传数据国家新农合信息平台定时接收医院上传数据,并转发至各省省级新农合信息平台定时接收数据,并转发至统筹地域统筹地域经办机构核查患者所持票据真实性医学信息处置第102页患者信息隐私保护披露患者信息唯一目标:供新农合经办机构核查患者报销所持票据真实性,禁止传输医学信息处置第103页新农合决议支持对已搜集新农合基础数据、动态数据等,利用科学合理评价指标体系,对全国各地参合、基金运行、费用支出赔偿、参合农民受益、医疗服务利用以及就医流向等进行综合分析,为决议者提供决议支持。104医学信息处置第104页关键问题海量数据分析子系统系统架构采取数据仓库体系架构,处理分析历史数据数据质量问题语法错误:对其进行清洗、整合语义不一致:关联映射计算、展现等处理性能问题建立分析主题,对展现给用户数据进行离线计算105医学信息处置第105页106数据仓库体系架构基于Kimball数据仓库构建理论,整个体系架构能够分为抽取数据、展现等34个子系统医学信息处置第106页数据清洗:对从源系统抽取而来数据进行清洗和一致化主要数据问题:数据不完整:如医疗机构和患者等在住院基本信息内无法与机构表和患者表进行关联数据不准确:如不符合邮政编码格式数据不一致:如总费用不等于明细费用之和数据不完备:如地域覆盖范围不完备、时间覆盖范围不完备107数据质量问题:语法结构问题医学信息处置第107页108(1)基本格式错误与数据重复清洗:因程序不能解析或因数据库不能正确存放等数据——不予保留(2)元数据错误清洗:依据元数据映射表,逐条逐字段判断数据正当性,并统计下判断结果(3)同时数据:将清洗后数据以批量发送SQL方式,与中心库同时数据质量问题:语法结构问题数据清洗流程医学信息处置第108页为了规范术语,处理数据在语义层面上不一致性采取基于UMLS(UnifiedMedicalLanguageSystem,一体化医学语言系统)字典目录整合机制以概念为中心建立各省新农合目录与国家新农合信息系统字典目录映射字典目录包含疾病、药品、诊疗、行政区域、定点医疗机构等选择适当字典目录作为国家级初始目录,与各省新农合目录进行映射,如疾病,选择北京市医管局制订ICD-10为国家新农合信息系统疾病目录初始化目录实现效果:不一样术语系统之间能够彼此转换109数据质量问题:语义不一致问题医学信息处置第109页对全部数据进行离线处理,构建若干分析主题,对最终用户展示主题分析结果,提升系统访问速度110海量数据计算性能问题企业数据仓库总线,经过矩阵能够系统全方面分解业务和数据。横轴表示是数据种类,纵轴表示是业务操作,横轴和纵轴交点即能够建立分析主题。医学信息处置第110页国家新农合信息系统依据参合农民、医疗机构以及管办机构等构建不一样主题,总体上分为决议支持等主题包含:参合情况监测、住院赔偿监测、门诊赔偿监测、基金筹集监测、基金分配监测、基金支出监测、参合人员就医流向分析、医药费用控制、经办机构建设、疾病谱分析、重大疾病保障分析、新农合筹资赔偿方案设计与调整、药品、诊疗项目以及卫材报销目录等调整等13个主题库111医学信息处置第111页系统实现功效112医学信息处置第112页系统实现效果(一)系统初步实现跨省监管,如参合情况、门诊诊疗与赔偿、住院诊疗与赔偿、基金统筹和支出以及跨省就医流向等进行监管113医学信息处置第113页系统实现效果(二)运行监控:114医学信息处置第114页系统实现效果(三)115跨省协同:医学信息处置第115页系统实现效果(四)决议支持:116医学信息处置第116页教学内容117医学信息处理内涵1医学信息处理关键问题2医学信息处理应用实例3大数据时代医学信息处理4医学信息处置第117页1.Volume2.

Variety3.value4.Velocity结构化数据、半结构化数据和非结构化数据如今数据类型早已不是单一文本形式,订单、日志、音频,能力提出了更高要求沙里淘金,价值密度低以视频为例,一部一小时视频,在连续不间断监控过程中,可能有用数据仅仅只有一两秒。怎样经过强大机器算法更快速地完成数据价值“提纯”是当前大数据汹涌背景下亟待处理难题实时获取需要信息大数据区分于传统数据最显著特征。如今已是ZB时代,在如此海量数据面前,处理数据效率就是企业生命无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理数据集合大数据特点数据量巨大全球在

年正式进入ZB时代,IDC预计到

年,全球将总共拥有35ZB数据量1PB数据相当于50%全美学术研究图书馆藏书资讯内容。而到年为止,人类生产全部印刷材料数据量是200PB,全人类历史上说过全部话数据量大约是5EB。医学信息处置第118页阿里大数据情况淘宝主站(年):30亿店铺、宝贝浏览10亿计在线宝贝数千万量级交易笔数数据产品(年):50G统计汇总结果千万量级数据查询请求平均20.8ms响应时间数据起源:阿里相关技术介绍ppt医学信息处置第119页baidu大数据情况数据起源:

年baidu云计算总工程师林仕鼎讲座《baidu云计算总体介绍》数据起源:.10baidu杨毅讲座《baidu下一代计算系统》医学信息处置第120页大数据处理需求及关键技术121医学信息处置第121页海量结构化数据存放系统(SQL)分布式文件系统海量非结构化数据存放系统(SQL)机器学习大数据应用机器学习分布式文件系统海量数据存放大规模计算智能分析大数据技术架构-模型分布式并行计算系统数据挖掘语义搜索……医学信息处置第122页数据结构改变123结构化数据非结构化数据半非结构化数据定义有数据结构描述信息数据不方便用固定结构来表现数据介于完全结构化数据和完全无结构数据之间数据结构与内容关系先有结构、再有数据只有数据,没有结构先有数据,再有结构示例各类表格图形、图像、音频、视频信息HTML文档,它普通是自描述,数据结构和内容混在一起大数据时代,需要处理结构化数据和非结构化数据医学信息处置第123页数据库技术改变124关系型数据库非关系型数据库定义创建在关系模型基础上,借助于集合代数等数学概念和方法来处理数据库中数据关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成没有标准定义包含:表存放数据库、键值存放数据库、面向文档数据库等接口语言SQL(StructuredQueryLanguage,结构化查询语言),对数据库中数据进行查询、操作和管理无统一标准包含:各自定义API、类SQL、MR等经典案例Oracel、DB2、Sybase、SQLServer、Mysql、Postgresql等新型MPPRDB(Greenplum)也属于关系型数据库Hbase、MongoDB、Redis在大数据处理中"非关系型"数据库技术是必不可少,但关系数据库也是不可或缺医学信息处置第124页数据存放方式变革125传统关系型数据库主要采取行存放模式,海量数据高效存放和访问要求引发了从行存放模式向列存放模式转变行存放用户生日聊天统计日均在线时长用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7列存放用户11981-10-3用户21990-5-15用户1Xxxxyyyy..用户2Mmnnn..用户12用户23.7行存放列存放存放一行中各列一起存放,单行集中存放一行中各列独立存放,单列集中存放索引效率海量数据索引既占用大量空间,且索引

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论