数据挖掘技术在基于XML的电子病历中的应用研究_第1页
数据挖掘技术在基于XML的电子病历中的应用研究_第2页
数据挖掘技术在基于XML的电子病历中的应用研究_第3页
数据挖掘技术在基于XML的电子病历中的应用研究_第4页
数据挖掘技术在基于XML的电子病历中的应用研究_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、武汉理工大学硕士学位论文数据挖掘技术在基于XML的电子病历中的应用研究姓名:吴伶俐申请学位级别:硕士专业:计算机应用技术指导教师:刘洪星20060401武汉理工大学硕士学位论文摘要医院信息系统()在各大医院逐渐投入使用;同时,电子病历()的应用、医疗设备和仪器的数字化,使得医院数据库的信息量不断的增长。然而,目前大多数医院对数据库的处理仅限于数据的录入、修改、查询、删除等基本操作。这些操作属于医院数据库的低端操作,缺乏数据的集成和分析,更谈不上医学决策和知识的自动获取。从海量的医疗信息中运用各种数据挖掘)技术,了解各种疾病之间的相互关系,及其发展规律,总结各种诊治方案的治疗效果,这对疾病的诊断

2、、治疗和医学研究都有巨大的价值和发展前途。本课题是基于某一电子病历系统产生的病历数据来进行研究分析。由于病历数据具有格式自由和结构化相结合的特点,在课题里我们采用了的序列化和反序列化技术,使用中的和两个基础类,最终实现了半结构化特点的电子病历数据的存储与展现。通过这一技术,病历最终以的形式存储在数据库中,以文本形式展现出来。数据挖掘的方法有很多,其中应用最广泛的方法之一就是数据的关联规则挖掘。通过对病历数据的预处理,产生了最终可以进行直接挖掘的事务数据集。通过对事务数据之间的关联规则挖掘,能够发现病历数据之间的有趣关联。基于这一方法,我们针对肾内分泌科糖尿病病人的部分病历数据进行关联分析。本文

3、的主要研究内容如下:介绍数据挖掘技术在医疗领域应用的现状,分析数据挖掘在电子病历中应用的前景;介绍电子病历的背景知识及数据挖掘理论知识,重点分析数据挖掘过程的关键步骤一数据预处理的方法;分析医疗数据挖掘的特点及挖掘过程,研究病历数据的特点及预处理的方法。()分析电子病历系统的实现技术,并重点研究数据的存储及展现的实现方法,为数据挖掘提供数据源;针对糖尿病病人病历信息,抽取了病历中的部分信息作为本文数据挖掘的实例数据,经过预处理形成中间武汉理工大学硕士学位论文数据表:()针对电子病历的挖掘目标,提出了将关联分析作为本课题的数据挖掘方法。重点对两种关联算法和叭进行详细讨论和比较分析。根据本课题的数

4、据特点,论证了采用算法的优越性:()利用算法得出了糖尿病数据的关联规则,分析关联规则特点,并提出改进关联规则的方法:分析挖掘算法的计算效率,证实了口算法的可行性。关键词:电子病历,数据挖掘,数据预处理,关联规则垫堡堡三查堂堡主堂垡丝壅()毫;锄,()础,砒,缸如(),伍】,协,)(印,也昏印印】,王。,砒锄,:()伽,;(),;武汉理工大学硕士学位论文,:(),;,印;(),“;似;,岫;(),印;,髂:,出哇,武汉理工大学硕士学位论文第章绪论论文的选题及其研究意义的应用作为一项突破性技术,正在迅速成为信息交换和存储的通用形式。数据的存储需求引发了对数据库技术的研究和应用,并逐渐成为当前数据库

5、学术界和工业界的一个热点问题。由于支持半结构化的数据存储方式【】,可以随意存取大量的半结构或无结构的数据。而病史记录是随意的、半结构化的数据,这使得在医疗领域方面拥有非常广泛的应用前景。本课题前期研究的主要内容便是支持的数据库技术在电子病历上的应用。数据挖掘是从数据库中提取出隐含的、有潜在价值的数据并最终得到可理解的模式的过程,是知识发现的关键步骤【。它从机器学习发展而来,虽然只有十多年的历史,却已经得到广泛的应用并显示出诱人的应用前景。随着计算机在医学领域中日益普及,用计算机存储病历在许多医院开始推广使用,各医院收集的数据都是病人的具体的真实数据。随着信息量的快速增长,将会产生大量的真实的数

6、据集,在这些数据集中运用各种数据挖掘技术探求各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的诊疗效果,对疾病的诊断、治疗和医学研究有着非常重大的意义。基于上述两方面,本课题的研究目标是通过技术在电子病历中的应用,既而对电子病历所产生的数据信息进行数据挖掘,为支持医疗决策而服务。医院信息系统的发展状况()电子病历将成为医院信息系统的核心医院信息系统的主要功能是为医院的医疗提供信息服务,其各项功能都是建立在病人的病历信息进行处理的基础上。电子病历应该是以病人为中心的、完整的、纵向的、终身的、多媒体的、包含所有重要临床信息的记录。根据()的模型,电子病历应该成为未来医院信息系统的核心,

7、通过标准化接口和其他系统集成。在(武汉理工大学硕士学位论文)中,()定义了电予病历的标准格式,这是设计电子病历的重要依据;()大规模一体化医院信息系统的发展最近多年来,世界各国都面临医疗成本目益增加,医疗供需矛盾目趋扩大,一场几乎是全球范围内的医疗保健制度改革方兴未艾。这就要求必须有一个与之相应的以病人为中心的集管理、医疗为一体的医院信息系统。这个系统的主要功能不能仅停留在原来的收集一般的统计资料和常规行政管理资料上,而应该从病人的基本病历中获得更直接、更丰富、更准确的信息,这些信息不仅为医院所用,也能为其他医院及社会(如医疗保险部门、社区保健单位)所用。而大规模一体化医院信息系统,它积累了丰

8、富的经验,将成为为适应医疗卫生事业的需求和发展的产物。它主要有两个特征:)从面向管理向面向医疗的发展大规模一体化的医院信息系统就是在以管理为主的医院信息系统的基础上,建立的以病人为中心的信息系统,包括计算机化的病人病历、临床信息系统、健康卡系统、医学图像档案管理和通讯系统、医学检验系统、各种管理系统以及辅助诊断系统等等。这类系统一般都具有一定的知识处理能力和决策支持功能,医师可以用计算机处理病史记录和医嘱,为病人开处方;用计算机查询实验报告和影像诊断报告:系统可以根据病人的历次检验结果向医师提出诊治咨询建议;医师可在办公室或病房直接阅读、光、超等图像;计算机不仅可以供医院管理人员进行一般的事物

9、管理处理,也可以提供辅助的决策建议;)从信息服务向智能化服务的发展传统的医院信息系统一般只是提供常规医疗行政、服务、药品、病案首页、医疗统计等方面的信息,是一种被动式的信息服务。新一代的医院信息系统不仅扩大了信息服务的内容、范围和功能,而且开始从信息服务向智能服务发展,主要表现在;日益增多的医院信息系统已经装入各类医学专家系统、辅助诊断系统、使医院信息系统能够为医师和病人所用,直接为医疗服务;将人工智能技术和知识工程技术的应用系统与医院信息系统集成,在管理系统上提供智能服务;武汉理工大学硕士学位论文将医院信息系统通过网络或卫生与一些医学文献和情报检索系统联机,形成医学知识检索门户,及时提供最新

10、的医学文献和情报;研发临床实践指南和临床路径。临床实践指南是将大量的医学经验抽象成为方便和容易使用的一种形式,为临床工作提供任意和可靠的决策信息,使临床决策更加高效准确。临床路径是医生、护士、和其他专业人员对某个诊断或手术所做出的最适当、有顺序性和时间性的诊断计划,以减少康复的延迟与资源的浪费,使服务对象获得最佳的诊疗质量。数据挖掘技术的应用。数据挖掘就是从数据中发现有用知识的过程,它在医疗领域上有着广阔的应用。选题的国内外研究现状在国内,随着医疗改革的深入与发展,医疗信息的综合分析对行政决策的作用已经日益重要。如何有效地管理和良好利用医疗信息资源,以此综合分析宏观的医疗卫生状况,从而提炼出决

11、策依据,是当前医疗信息研究的热点问题。近年来,随着卫生政策研究的深入,简单的统计分析已经不能满足辅助决策的需要,随之出现了数据挖掘的概念。在数据库或数据仓库的基础上进行数据的挖掘和再利用,可以辅助医院决策支持。它应用于医疗行业上,可以从以下几个角度来分析:在管理层,通过数据挖掘技术,可以帮助医院实现业绩分析;了解医生的业绩;提交降低成本的治疗方案;减少治疗费用等等。在财务上,数据挖掘技术可以帮助财务部门进行有关业务处理。例如,可以按病人分类、收入分类和保险分类进行统计;按诊断和治疗进行的成本收入分析等等。在临床上,通过数据挖掘的研究,可以进行专业化的医疗研究及数据分析;使用数据源检查不适当的临

12、床服务;提供给医生疾病发展趋势及专业报表;让专家能够从结果数据来精确其科研数据;辅助制定临床路径等等;医疗数据挖掘当前研究阶段主要集中在临床医疗、生物信息学以及基础医学个典型的领域上。()在临床医疗中的应用】近年来,随着大型医院信息管理系统的发展,有关病人和疾病的电子格武汉理工大学硕士学位论文式的数据日益增多,对临床日常工作和各项检查数据进行的数据挖掘研究也逐年增加。比如已经有专家应用大型的数据挖掘软件,如软件(砒、,)对病房的微生物学数据进行分析,发现了感染和抗药性模式上的变化;还有专家对医院感染和卫生检测数据进行数据挖掘研究;还有以多层次、多角度的数据挖掘来分析门诊住院病人疾病、地区、年龄

13、、职业以及性别等分布,进一步找出哪段时间、哪些人、进行了哪些检查治疗,治疗效果如何等,为流行病学调查和疾病预防提供依据。()在生物信息学上的应用由于基因组学的革命,产生了大量的电子格式的生物信息学数据。数据挖掘成为大量的生物信息学中发现知识的重要工具。目前,生物医学的大量研究主要集中在数据的分析上,它的研究成果已经促进了对许多疾病和残疾的基因成因的发现,及其对疾病的诊断、预防和治疗的新药物、新方法的发现。()在基础医学中的应用【数据挖掘研究在药学和病理学的研究和开发中有着广阔的应用前景,并取得了较为突出的成果。例如,利用趋势选取药物,将某种药物在一定时期内的反应收集起来加以分析;在大型化学数据

14、库中自动寻找药效基团,利用神经网络技术对世界卫生组织的药物副作用数据库的万条报告进行数据挖掘,发现药物间的互相作用等等。数据挖掘技术在临床医疗上的应用,国内有许多大型医院正在研究中,但都处于初级研究阶段。例如,北京协和医院最近开展数据挖掘的研究,主要目的是临床医疗管理,以及医院业务管理等提供支撑,并辅助领导决策。香港医院管理局作为香港公立医院的管理机构,领导着香港以上的大型医疗机构,香港医院管理局充分发挥了资源整合的优势,在智能辅助决策方面做了大量的工作。他们专门成立了知识管理部门,负责信息系统中决策支持的研发工作。医学知识管理比较传统的是临床决策支持,这从更大范围、更深刻地阐明了知识与医院、

15、与计算机应用、与提高医院核心竞争力的关系。数据挖掘在医学上的应用】有其自身的优势。因为医学收集的数据一般是真实可靠、不受其它因素影响,而且数据集的稳定性较强,这些对挖掘结果的维护、不断提高挖掘模式的质量都是非常有利的。由于数据挖掘是面向应用的,因此必须将医学领域的专业知识和挖掘人员的专业知识结合,收集大武汉理工大学硕士学位论文量的数据,反复实践,才能形成一个真正使用的医疗数据挖掘系统。数据挖掘研究对医疗领域的科研分析都有很高的价值,它可以给医生提供疾病发展趋势及专业报表:研究专家能够从结果数据来精确其科研数据;辅助制定医疗决策及临床路径等等。但有关医疗数据挖掘的研究还远远不够,许多问题有待解决

16、【】:()如何快速、有效的自动提取图像的特征值以及如何选择更合适、更先进的数据挖掘方法,以便得到更好的挖掘结果即医学诊断规则;()探讨和开发适合医疗数据库中的数据挖掘和知识发现的一般方法和工具;()开发出性能良好、接近医学专家水平且能投入实际临床使用的计算机辅助诊断系统。因此数据挖掘在临床医学方面的研究在国内还处于探索和研究阶段,还没有一个完整的研究成果,并且在数据挖掘技术方面,国内还是偏重于理论算法和方法上的研究,在它的应用领域方面很少,还处于讨论和探索中。论文的研究内容及组织本课题重点研究了数据库技术及数据挖掘技术在电子病历方面的应用。立足点是从基于的电子病历实例数据出发,抽取某一科室的糖

17、尿病病历诊断数据,对这些数据进行预处理。通过数据挖掘的目标,选择算法,在源数据处理后形成的事务数据集的基础上,来挖掘出知识信息,提供医疗决策支持。论文的组织结构主要分为以下几个部分:第章绪论,介绍了选题背景及其研究意义。第章电子病历的相关知识,阐述了电子病历的基础问题及电子病历的描述语言一的相关技术。第章数据挖掘理论基础,介绍了数据挖掘的概念、数据挖掘的流程及功能、数据挖掘的主要方法及数据挖掘中的关键问题。最后介绍了医疗数据的特点、医疗数据挖掘过程及针对医疗数据特点如何进行病历数据的预处理。本章为课题的研究做了一个详细的理论基础的介绍。第章电子病历数据的预处理,首先介绍了如何实现半结构化病武汉

18、理工大学硕士学位论文历数据的存储与展现;继而针对数据挖掘的关键问题一数据预处理,具体分析电子病历系统的数据结构及数据源,提取半结构化病历中主要病历数据,形成中间数据表;最后对提取后的源数据进行预处理,得到最终要进行数据挖掘的事务数据集。第章关联分析在病历数据中的应用,介绍了关联规则的基本概念,分析了算法和算法。通过对两种算法的综合比较分析,采用了“算法作为病历数据分析的挖掘算法。通过实验,最终得到病历数据属性之间的关联规则,并分析了数据挖掘的结果和算法效率。第章结束语,对全文进行了总结,并指出下一步的研究目标。武汉理工大学硕士学位论文第章电子病历的相关知识电子病历的概念电子病历(,)也叫计算机

19、化的病案系统或称基于计算机的病人记录(,),它是用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的病人的医疗记录,取代手写纸张病历【】。年,美国医学研究所发表了研究委员会的专题报告。报告研究了自年美国开始有病史历程,总结了近年来实现病历记录计算机化的经验,全面论述料发展的各个方面,指出实现系统必须解决的问题。这个报告对当前医院信息系统的发展有着重要的指导意义。年月,在法国马赛召开首次健康卡系统国际会议。研讨健康卡的应用、效益分析、实施策略、安全保密、标准化及发展趋势等问题。在中国,年第届医药信息学大会上,国家卫生部提出“希望到本世界末,全国将有若干医院能够实现完整的系统”。这一切,

20、都表明电子病历已成为医院信息系统发展的首要目标之一。目前医院使用的传统病历主要是记录在纸张和胶片上。传统病历在使用中有许多不同之处,电子病历与传统病历的区别有以下几点】:()传统病历是被动的、静态的、孤立的,电子病历是主动的、动态的、关联的;()传统病历无法保证数据完整,电子病历则可保证完整、准确、及时获得信息资料:()传统病历无法得到必要的释义,电子病历可以做到;()传统病历不能保证及时获取、不能共享,电子病历可以做到。这是发展电子病历的最重要的一个原因,正是由于电子病历数据可以共享,就带来了医学研究的快速发展。因此电子病历的发展成为医院信息系统的必然要求。现阶段,计算机在病历中的应用积累了

21、丰富的实践经验,为实现电子病历打下坚实的基础;高性能微机和网络技术的进步及多媒体技术的应用则武汉理工大学硕士学位论文为实现电子癍历系统创造了薪酌技术条件。电子病历的基础问题由于病人信息类型的多样性和内容的复杂性,在电子病历的发展中,存在着一些基础性问题【。首先是病历内容的表示问题。对病人信息的表示应当是以单个人为中心的,这是病历的使用、存储和交换所要求的;对病人信息内容的描述必须是结构化的,这是电子病历信息后续处理的基本要求。由于病历内容的复杂性和使用上的习惯,对病历很难设计出一个统的结构迸行描述。第二是病历的存储问题。电子病历系统要求病人信息长期保存,随时可以获得。两在传统的医院信息系统中,

22、病人信息以数据库的形式进行存储,这些信息的存储管理是以支持日常业务管理为目的。但由于数据库效率和容量管理方面的考虑,我们不可能长期将历史信息联机保存。如何使病人信息在脱离数据库后仍然能够维持以个人为中心的结构并且随时可以获得,是病历存储要解决的主要问题。第三是各种表格病历和专科病历的处理问题。这些表格或专科病历都有各自的结构。他们的内容是病历的主要组成部分,同时还要求对其内容进行结构化处理。这样的内容类型繁多,很难针对每种情况开发专用的软件,如何在电子病历系统中对其进行统一的处理也是当前必须处理的问题。当然,还有其它的一些闯题。这些问题关系到电子病历系统的基础,是电子病历系统所要解决的主要问题

23、。的出现,对上述问题的解决提供了一种较好的途径。的相关知识年月,波士顿()世界年会产生一项重大变革,与会代表一致同意将目前撰写标准宣告终结,丽采用全新的电子文件格式化通用标准。即可扩展标记语言(锄),是一种基于(标准通明标签语言)的简单灵活的语言。它是一套定义标记的规则,这些标记将文档兮成许多部件并对该部件加以标识。它是元标记语言,能够用来定义与特定武汉理工大学硕士学位论文领域有关的、具有语义信息的结构化的标记语言的句法,从而有利于信息的表达和结构化组织,使数据检索和处理更加有效。可运行在任何平台和操作系统上。咀。的相关技术是由制订的新标准标记语言,其最大的特点是将信息的描述与信息的处理分开,

24、使得数据具有自我描述能力。有很好的扩展性、开放性,而且具有可验证的特性等。与相关的技术主要有以下几种:()用于描述文档结构的与使用(啪文档类型定义)或来描述这些数据的结构,并对文档的合法性进行检查。(,文档类型定义)用来定义文档中可能出现的元素、属性、标记、实体及其相互关系,它用来描述在文档中可以使用哪些元素标记,它们以什么次序出现,哪些元素是包含于其它元素中的,哪些元素可以有属性等。可以包含在它所描述的文档中,或者通过与文档相链接。每个文档都要与其相对照。相同的可以被不同的文档和网站共享。文件包含声明和文档类型声明两个部分,文档类型声明出现在文档中。紧跟在订声明之后,将文档与关联起来。)的功

25、能很多,但它也有缺陷,比如它本身不是用书写的,并且它不支持域名。提供的数据类型也非常有限,它不能表达元素中字符数据的数据类型。的这些缺点促使的产生。现在是的推荐标准。标准是一种描述信息结构的模型,用来定义文档的文本结构和数据类型等文件描述规则且规范了文档中的标记和文本可能的组合形式。它不仅包括了能实现的所有功能,而且它本身就是规范的文档。最重要的是,它能弥补的不足,提供一系列新特色,如:)丰富的数据类型;)可以有用户白定义的数据类型;)属性分组;)原型可以更新;)域名的支持等。()文档的显示描述的是文档的结构和语义,它不描述文档的表现形式。对于浏览器来说,文档中的元素是随意出现的,不可能事先知

26、道如何显示每个元武汉理工大学硕士学位论文素,所以要将文档中的数据部分显示出来必须借助其它的工具,目前用于显示文档的方法主要有两种,即利用(,级联样式单)和(,可扩展的样式语言)。这些样式单随文档发送给用户通过样式单告诉浏览器如何格式化每个元素。()操作文档的与(,文档对象模型)和()是用编程方式操作文档的两种机制。文档对象模型()类是文档的内存中表示形式,它允许能够以编程方式读取、操作和修改文档。而允许在一个文档中使用基于事件的方法读取数据,它是非常快速的、仅向前的和只读的。良好的数据格式、可扩展性、高度结构化、便于网络传输是的主要四大特点,它们决定了其卓越的表现。()设计与特定领域有关的标记

27、语言允许各种不同专业(如音乐、化学、数学等)开发与自己特定领域相关的标记语言,这就使得该领域的人可以交换笔记、数据和信息,而不用担心接收端是否有特定的软件来浏览数据。()不同来源的数据集成由于技术描述文档结构比较自由,显示文档也比较灵活,因此可以将不同来源的数据集成在一起;因此可以同时存储多种复杂类型的数据集合;()异质系统间的通信我们知道要想在异质系统之间进行通信或交换数据,通常需要使用专门的软件。但是自从出现以后,这些必须依靠特殊软件才能进行通信的系统之间可以方便地利用来进行信息交流。的格式非常简单易读,对于各种类型的资料,不论文档还是二元档,都能标注。只要各系统之间安装了解析器,便可解读

28、另外系统中传过来的信息,进而加以利用,从而完成不同系统、不同机型间的通信。()开发灵活的应用软件的扩展性和灵活性允许它描述不同种类应用软件中的数据,且能集】武汉理工大学硕士学位论文成不同来源的数据。这给数据的建立提供了极大的方便;同时由于基于的数据是自我描述的,数据不需要内部描述就能被交换和处理。被发送给客户端后,用户可以使用不同的方法处理数据,也能以多种方式显示,这一切都为开发灵活、高效的曲应用软件奠定了基础。()在上发布数据由予是一个开放的基于文本的格式,可与一样使用进行传递,不需要对现存的网络作任何改变。的压缩性也很好,不会给网络传输增加太大的负担。的内容和样式是分开的,服务器在将内容传

29、给客户的同时也将与之关联的样式发送过来,这样大大减少了服务器与客户的交互,从而减轻了服务器的压力。()更有意义和更准确的搜索的标记含义丰富,与其内容紧密相连,明确地标志所标记的内容,因而使得检索行为更加简单,检索结果也更有意义。儿数据库的基本知识技术从诞生之日就预示了它辉煌的未来,特别是随着近、两年的蓬勃发展,越来越多地活跃在数据交换和存储领域。数据量以指数级的增长,要求更有效的数据管理能力和更快、更精确的查询,这些都促使了数据库的快速发展。数据库是一个能够在应用中管理数据和文档的的数据库系统。一个数据库是文档及其部件的集合,并通过一个具有能力管理和控制这个文档集合本身及其所表示信息的系统来维

30、护。】数据库不仅是结构化数据和半结构化数据的存储库,像管理其它数据一样,持久的数据管理包括数据的独立性、集成性、访问权限、视图、完备性、冗余性、一致性以及数据恢复等。数据库大体可以分为三类:本源数据库()、支持的数据库()和混合数据库。本源数据库是专门设计用于存储和管理文档的数据库,它以文档作为数据库的存储单元进行操作和管理。支持的数据库则是在传统数据库的基础上增加对的支持,以便保存和输出形式的文档,通过适当的对文档进行查询和修改。混合数据库则是通过武汉理工大学硕士学位论文和其它的访问接口对文档进行管理和操作。电子病历的描述语言是一种结构化描述语言。它的优势在于,它不仅是一种标识语言,更是种可

31、以定义描述对象结构的元语言。使用作为病历内容的描述语言有以下理由【:()是一种结构化描述语言;其基本思想是:用元素表示组成文件的逻辑部件,在元素上作标记以标明数据的含义,并且用简单的嵌套和引用来表示元素间的关系。它的优势在于,采用了层次化的面向对象的结构描述方法,可以将多个不同数据源的数据集成在一个文档中:允许医疗卫生行业开发自己特定的标记语言,建立符合医疗市场的词汇集。电子病历的先天结构是树状的,文档非常适合于存储病历这样复杂的内容,在表达能力方面优于关系数据库。()是一种元语言;可以利用和定义描述对象的结构,这适合于病历中不同内容结构的变化;利用可扩展样式语言()和层叠样式表级联样式表单(

32、)可以定义其各自的界面样式及显示格式,将内容和形式分离,实现病历数据展现()的多样化;利用查询语言(,出)”对病历中的数据进行提取和查询。我们很容易将结构化的电子病历理解为在电子文档上以文本形式实现的表格病历,而优点也只限于缩短了书写病历的时间和便于储存。实际上,真正的结构化是将所有医疗文书内容以标准化字段形式存储于数据库中,只有这样才能够更加准确快捷地进行科研查询和统计分析,总结出最科学的临床路径。使用描述病历内容,要先定义病历内容的结构。在此基础上实现业务数据库中病人信息到病历结构的转换,从而实现由以类型为中心的数据库描述到以人为中心,形成的是病历存储管理的基本单位。这就是支持的数据库在电

33、子病历上的应用。总之,技术刮可以实现半结构化病历数据的表达、存储、交换、展现和查询,为电子病历的发展提供了必要的技术支持。武汉理工大学硕士学位论文第章数据挖掘理论基础数据挖掘的概念数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。数据挖掘技术受到多个学科的影响而发展,其中包括数据库系统、可视化、统计学、信息科学、机器学习和其他学科,数据挖掘技术是依赖于具体的应用领域。在年列举了四个主要的技术理由激发了数据挖掘的开发、应用和研究的兴趣:)超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;)先进的计算机技术,例如更快和更大的计算能力和并行体系结构;)对巨大量数据的快速访问;)

34、对这些数据应用精深的统计方法计算的能力。数据仓库技术的发展与数据挖掘有着密切的关系,数据仓库的发展是促进数据挖掘发展的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘知识信息。数据挖掘()就是从大量的、不安全的、有噪声的、模糊的、随机的数据(例如数据库或数据仓库)中,提取隐含在其中的、人们事先不知道的、但又是潜在应用价值的模式,建立模型,提供分析预测。它建立在数据库和数据仓库的基础上,面向非专业用户,支持即兴的联机查询。数据挖掘技术能自动分析数据,进行归纳性推理和联想,寻找数据间内在的某些关联,发掘潜在的、对信息预测和决策行为起着十分重要作用的模式,

35、从而建立新的业务模型,帮助决策者制定市场策略,做出正确的决策。目前国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研究进一步发展,如近年来注重对(贝叶斯)方法的研究和提高:传统的统计学回归法在()中的应用;与数据库的紧密结合。在应用方面包括:商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和销售业。曾做出这样的评论:“全球重要的企业、组织会发现,到世纪数据挖掘技术将是他们商业成功与否的至关重要的影响因素”。国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。武汉理工大学硕士学位论文所涉及的研究领域很多,一般集

36、中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、计划、“九五“计划等,但还没有正式的国内数据挖掘产品的报道。数据挖掘的功能分析数据挖掘功能用于指定数据挖掘任务或者要找的模式类型。数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。预测性数据挖掘任务在当前数据上进行判断,以进行推测。数据挖掘通过预测未来趋势及行为,做出前瞻性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识。数据挖掘功能以及他们可以发现的模式类型有以下几个方面。)概念类描述:特征化和区分口对某

37、类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性;生成区别性描述的方法很多,如决策树方法、遗传算法等。数据特征化是目标类数据的一般特征或特征的汇总。数据特征的输出可以用饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。数据区分是将目标类对象的一般特征与一个和多个对比类对象的一般特征比较。()关联分析【数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。

38、关联分析的目的是找出数据库中隐藏的关联关系。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联分析()发现关联规则,这些规则展示属性值频繁的在给定数据集中一起出现的条件。()分类】【】和预测分类()的过程是试图找出并区分数据类或概念的模型,以便武汉理工大学硕士学位论文能够使用模型预测类标记未知的对象类。分类可以用来预测数据对象的类标记。然而,在某些应用中,人们可能希望预测某些空缺的或者不知道的数据值,而不是类标记。当被预测的值是数值数据时,通常称之为预测()。把握分析对象发展的规律,对未来的趋势做出预见。例如:对疾病的发展趋势做出预测,对个人的健康

39、状况的预测等等;偏差的检测:对分析对象少数的、极端的特例的描述,揭示内在的原因。聚类【】:把一组个体按照相似性归类,它的目的是使属于同一类别的个体之间的距离尽可能地小,而不同类别的个体之间的距离尽可能的大。与分类和预测不同,聚类()分析数据对象,而不考虑已知的类标记。一般情况下,训练数据中不提供类标记,因为不知道从何开始。聚类,可以用于产生这种标记。数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。数据挖掘的主要步骤在传统的决策支持系统中,知识库中的规则是由专家或程序人员建立的,是

40、由系统外部输入的。而数据挖掘任务是发现大量数据中尚未被发现的知识,是从系统内部自动获取知识的过程。数据挖掘是一个复杂的过程,它的整个过程可粗略的分为:问题定义()、数据准备和预处理()、数据挖掘(),以及结果解释和评估()。问题定义数据挖掘是为了在大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也是最重要的一个阶段。在问题定义过程中,数据挖掘人员必须和领域专家以及最终用户紧密协作,一方面明确实际工作对知识发现的要求:另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续的学习算法选择和数据准备都是在此基础上进行的。)数据收集和预处理数据准备可分为三个子步骤:数

41、据选取()、数据预处理(武汉理工大学硕士学位论文)和数据变化(加)。数据选取的目的是确定发现任务的操作对象,即目标数据,是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把数值数据转换为离散型数据,以便于符号归纳,或是把离散型的转换为连续值型的,以便于神经网络)等。当数据挖掘的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时完成了。数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。()数据挖掘数据挖掘阶段首先根据对问题的定义明确挖掘的任务或目的

42、,如分类、聚类、关联规则发现和序列模式发现等。确定了挖掘任务后,就要决定使用什么样的算法。选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识(采用规则表示的数据挖掘方法显然要好于神经网络之类的方法),而有的用户只希望获取预测准确度尽可能高的预测型的知识,并不在意获取的知识是否易于理解。关于数据挖掘所采用的一些常用算法,我们在以后章节将给出详细的描述。()结果解释和评估模式评估根据某种兴趣度度量,识别表示知识的真正有趣的模式。知识表示阶段使用可视化和知识表示技术,向用户提供挖掘的知识。

43、数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户要求,这时则需要整个发现过程回退到前续阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法等等。另外,知识发现由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“”规则。数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性,二是用于挖掘的数据的质量和数量(数据量的大小)。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则挖掘的结果不会好的。整个挖掘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论