(系统工程专业论文)疾病预控数据仓库系统原型研究及预控数据挖掘.pdf_第1页
(系统工程专业论文)疾病预控数据仓库系统原型研究及预控数据挖掘.pdf_第2页
(系统工程专业论文)疾病预控数据仓库系统原型研究及预控数据挖掘.pdf_第3页
(系统工程专业论文)疾病预控数据仓库系统原型研究及预控数据挖掘.pdf_第4页
(系统工程专业论文)疾病预控数据仓库系统原型研究及预控数据挖掘.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 疾病预防控制是采取免疫接种等手段来预防传染病,减少传染病的暴发、流 行。并且在传染病没有暴发的情况下,实施监控和预测报警,用最短时间将疫情 控制住,阻止疫情的暴发。 现在,疾病的预防控制越来越受到人们的关注和重视,国内的疾病预防控制 的信息化程度相对来讲又非常落后,人员素质参差不齐,缺乏现代化的管理手段, 很多地区还存在缺报、误报、虚报等现象,造成各级疾病预防控制机构不能及时、 准确的得到本地区的疾病流行情况,从而很难及时做出正确的决策。 而且,疾病预防控制的手段仍然是上报制度,已经不能满足现在对疾病预防 控制实时化的要求。 信息化程度的加深,信息技术迅速发展,使信息的采集、处理和传播发生了 相应的变化,使得计算机和网络功能等信息技术受到各行各业的高度重视,在日 常管理工作中发挥着重要的作用。随着网络化建设的需要和管理的要求,信息技 术在医疗领域中得到了应用,医院已经推行了网络化管理系统,许多医院已经建 立了医院管理系统,这就使医院管理系统中保存了大量关于来院就诊的病人的健 康状况的信息和数据,这些保留在医院管理系统中的数据,没有得到充分的利用, 仅仅作为历史数据得以保存。 在系统回顾了我国疾病预防控制发展状况后,指出:“预防为主一是至当不 易的疾病预防控制工作方针。疾病预防控制更应“以人为本一。现在的医疗观念 正在从过去的“以病人为中心一的医疗模式走向“人人健康一的健康促进模 式。健康促进是融合诊疗、预防、保健、健康教育为一体的全方位的医学健 康促进服务模式。加强和推动健康教育和健康促进,才是我国疾病预防控制的 主要经验,也是疾病预防控制的基本对策。 整个研究,是在疾病控制的基本对策和主要经验一一健康教育和健康促进的 前提下,以高校医院信息系统的病例数据为例,通过对医院信息系统中存储的大 量数据的分析研究,构建疾病预报控制的数据仓库系统,利用流行的数据挖掘的 数据处理方法,来开发利用存储在医院信息系统中的这些信息资源,获得疾病预 控、健康促进的知识,再通过医院传递出去,以此来达到疾病预防控制的目的。 本研究,一方面对疾病预防控制手段的改进提出一种思路;另一方面,对疾 病预防控制数据仓库系统的构建和数据挖掘在疾病预控中的应用提出解决方案。 在论文的最后部分,本人对研究的主要结论进行了总结和讨论,总结了本文 取得的进展、指出了本研究后续研究方向,并在此基础上对未来研究进行了展望。 关键字:疾病预防控制,健康促进,数据仓库,数据挖掘 a b s t r a c t d i s e a s ep r e v e n t i o na n dc o n t r o la d o p t sm e t h o d so fi m m u n i z a t i o nt oa g a i n s t i n f e c t i o n sd i s e a s e sa n dr e d u c et h eb r e a k i n go u ta n d e p i d e m i co fi n f e c t i o n sd i s e a s e s t o d a y , d i s e a s ep r e v e n t i o na n dc o n t r o li st a k e nm o r es e r i o u s l y t h er e l a t i v e l y b a c k w a r dl e v e lo ft h ei n t e r n a ld i s e a s ep r e v e n t i o na n dc o n t r o li n f o r m a t i o n a l i z a t i o n , t h e f r i n g e do v e r a l lq u a l i t y , t h el a c ko fm o d e mm a n a g e r i a lm e t h o d sa n dt h et e n d e n c i e so f l e s s ,a w k w a r da n de x a g g e r a t es u b m i t t i n g , m a k et h ed i s e a s ep r e v e n t i o na n dc o n t r o l s t r u c t u r ea ta l ll e v e l s 伽n o tg e tl o c a ld i s e a s e ss i t u a t i o nt h et i m e l ya n de x a c t l y , t h e n h a r d l yt om a k et h ec o r r e c td e c i s i o nt i m e l y t h em e t h o do fd i s e a s ep r e v e n t i o na n d c o n t r o li sa l s ou p l o a ds y s t e m ,t h i sm e t h o dc a l ln o ts a t i s f i e df o rn e e d sn o w w i t h d e v e l o p m e n t o fi n f o r m a t i o n t e c h n o l o g y , i n f o r m a t i o na c q u i s i t i o n , p r o c e s s i n ga n db r o a d c a s t i n gh a v eh a dac o r r e s p o n d i n gc h a n g e ,s u c ha sc o m p u t e ra n d i n t e r n e tw h i c hp l a yap a r t i c u l a r l yi m p o r t a n tr o l ei nr o u t i n ea d m i n i s t r a t i v ec h o r e sa r e a t t a c h e dg r e a ti m p o r t a n c eb ya l lt r a d e s w i t ht h er e q u i r e m e n to fn e t w o r kc o n s t r u c t i o n a n dm a n a g e m e n t ,i n f o r m a t i o nt e c h n o l o g yi su s e di nd i s e a s ep r e v e n t i o na n dc o n t r 0 1 n e t w o r km a n a g e m e n ts y s t e m s a r ep r o m o t e di nt h eh o s p i t a la n dm a n yh o s p i t a l sh a v e f o u n d e dh o s p i t a lm a n a g e m e n ts y s t e m s , s om a n yd a t ao ft h ep a t i e n t s p h y s i c a l c o n d i t i o nw o u l db es t o r e d b u tt h e s ed a t aw h i c ha r es t o r e dm e r e l ya sh i s t o r y i n f o r m a t i o n , w e r en o tb ef u l l yu s e d t h i st h e s i ss y s t e m a t i z e dr e v i e w st h ec o n d i t i o no ft ed e v e l o p m e n to fd i s e a s e p r e v e n t i o na n dc o n t r o li no u rc o u n t r ya n dp o i n t so u t :“p r e c a u t i o nc r u c i a l ”i st h e p r i m a r ym e t h o d so fd i s e a s ep r e v e n t i o na n dc o n t r o lw o r k d i s e a s ep r e v e n t i o na n d c o n t r o ls h o u l db em o r e “f o c u so np e o p l e ”t h ep r e s e n tm e d i c a li d e ai st r e n d i n gf r o m “t a k et h ep a t i e n ta st h ec e n t e r i np a s tm e d i c a lp a t t e mt o “e v e r y b o d yh e a l t h ”h e a l t h p r o m o t i o np a t t e r n t h eh e a l t hp r o m o t i o ni sf u s e st r e a t i n g , t h ep r e v e n t i o n ,t h eh e a l t h c a r e ,t h eh e a l t he d u c a t i o nf o ra no m n i d i r v c t i o n a lm e d i c i n es e r v i c ep a t t e r no ft h e h e a l t hp r o m o t i o n i m p r o v i n ga n dp r o m o t i n gt h eh e a l t he d u c a t i o na n dt h eh e a l t h p r o m o t i o ni s t h em a i ne x p e r i e n c e sa n db a s i cm e t h o di no u rc o u n t r yo nd i s e a s e p r e v e n t i o na n dc o n t r 0 1 c o n s e q u e n t l y , t h i st h e s i s ,w h i c hi so nt h eb a s i co f t h em a i ne x p e r i e n c e sa n db a s i c m e t h o do nd i s e a s ep r e v e n t i o na n dc o n t r o l - - h e a l t he d u c a t i o na n dh e a l t hp r o m o t i o n , t a k e sa ne x a m p l eo fh o s p i t a lc a s et oa n a l y z em a n yd a t aw h i c ha r ei nt h eh o s p i t a l i n f o r m a t i o ns y s t e m ,t h e nf o u n da nd a t aw a r e h o u s es y s t e mo fd i s e a s ep r e v e n t i o na n d c o n t r 0 1 t h i ss y s t e mu s e sp o p u l a rd a t am i n i n gm e t h o dt od e v e l o pa n du t i l i z et h e i n f o r m a t i o n ,w h i c hi sn o tu s e d ,t oo b t a i nt h ek n o w l e d g eo fd i s e a s ep r e v e n t i o na n d c o n t r o l ,h e a l t hp r o m o t i o n ,t h e nr e a l i z ed i s e a s ep r e v e n t i o na n dc o n t r 0 1 t h i st h e s i sp r o v i d e sa ni d e ao ft h ed i s e a s ep r e v e n t i o na n dc o n t r o lp r o m o t i o n ;o n t h eo t h e r , i tp r o v i d e sas o l u t i o na b o u tf o u n d i n ga l ld a t aw a r e h o u s es y s t e mo fd i s e a s e p r e v e n t i o na n dc o n t r o la n da p p l y i n gd a t am i n i n gt e c h n o l o g yi nt h ed i s e a s ep r e v e n t i o n a n dc o n t r o l i nt h ee n d , t h et h e s i ss u m su pa n dd i s c u s s e da l lt h er e s e a r c h ,a n df i n d so u tt h e p r o g r e s sa n ds h o r t a g eo ft h er e s e a r c h ,a n dt h e no v e r v i e w sw h a ts h o u l db ed o n ei nt h i s a r e ai nt h ef u t u r e k e yw o r d s :d i s e a s ep r e v e n t i o na n dc o n t r o l ,h e a l t hp r o m o t i o n , d a t aw a r e h o u s e , d a t am i n i n g m 此页若属实,请研究生及导师签名,并装订在学位论文的摘要前。 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 研究生( 签名) : 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保留送 交沦文的复印件允许论文被查阅和借阅;学校可以公布论文的全部内容,可以采用影 印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 研究生( :渔垒师( :塑醐 z 口p 墨午b 武汉理工大学硕士学位论文 第1 章绪论 1 1 研究课题的背景和意义 1 1 1 课题的研究背景 随着现在的医疗观念的改变,人们正在从过去的“以病人为中心 的医疗模 式走向“人人健康 的健康促进模式,疾病预防控制的核心内容也变到,对流行 病、传染病的预警,人群的健康促进上来。 疾病预防控制的手段也不能停留在上报制度上,要求也应该相对提高,手段 应该更加实时化、自动化。 医院作为医疗的前沿机构,更应该负起,加强对人群进行健康教育与健康促 进,疾病预防知识宣传的职责。 在本研究课题中,以校医院病例数据为例,校医院在使用医院信息系统的过 程中,存储了大量的门诊信息,包括病人的基本信息,诊断信息以及药品等各种 明细信息,同时,在系统中还存在药品的库存等基本信息。系统中每天都有大量 的数据存储,但隐藏在这数据中的有价值的信息并没有被发现或者重视,更加没 有利用挖掘方法来找出信息,提供更有价值的服务。 基于此,本研究课题提出了构建疾病预防控制的数据仓库系统,并使用数据 挖掘等分析方法,分析数据仓库中的疾病预防控制主题数据,获取疾病预防控制 的相关知识,并且更加实时的对疾病进行预防控制,旨在使医院能够成为疾病预 防控制、健康促进的重要场所,更好地为人群的健康做出贡献,同时,也希望能 够发展到其他健康促进机构中去。 1 1 2 课题的研究意义 在当代,健康教育学是研究健康促进与健康教育的理论、方法和实践的科学。 其知识体系和研究内容涉及医学、行为学、教育学、心理学、人类学、社会学、 传播学、经济学、管理学、政策学等有关学科领域【1 l 。 健康教育( h e a l t he d u c a t i o n ) 是通过有计划、有组织、有系统的社会和教育 活动,促使人们自愿地改变不良的健康行为和影响健康行为的相关因素,消除或 减轻影晌健康的危险因素,预防疾病,促进健康和提高生活质量。 健康教育的核心问题是促使个体或群体改变不健康的行为和生活方式,尤其 是组织行为改变。诚然,改变行为与生活方式是艰巨的、复杂的过程。许多不良 武汉理工大学硕士学位论文 行为并非属于个人责任,也不是有了个人的愿望就可以改变的,因为许多不良行 为或生活方式受社会习俗、文化背景、经济条件、卫生服务等影响,更广泛的行 为涉及生活状况,如居住条件、饮食习惯、工作条件、市场供应、社会规范、环 境状况等。因此,要改变行为还必须增进有利健康的相关因素,如获得充足的资 源、有效的社区领导和社会的支持以及自我帮助的技能等,此外还要采取各种方 法帮助群众了解他们自己的健康状况并做出自己的选择以改善他们的健康,而不 是强迫他们改变某种行为,所以健康教育必须是有计划、有组织、有系统的教育 过程,才能达到预期的目的。 迄今为止,仍有不少人把健康教育与卫生宣传等同起来,无疑,卫生知识的 传播是十分必要的,但当个体和群体做出健康选择时,更需要得到有利于健康的 政策、物质的、社会的和经济环境的支持、自我保健技能的掌握、可获得一定的 卫生服务等,否则要改变行为是困难的。因此单纯传播卫生知识的卫生宣传是健 康教育的重要手段而不等于健康教育。健康教育应提供改变行为所必须的知识、 技能和服务以促使个体、群体和社会的行为改变。它的意义如下i z j : ( 1 ) 开展医院健康教育和健康促进是医学模式转变和现代医学发展的必然 趋势。 。 ( 2 ) 健康教育是医疗服务的组成部分和有效易行的治疗手段。 ( 3 ) 健康教育是密切医患关系,促进医院精神文明的纽带。 ( 4 ) 健康教育是改善医院管理,提高社会经济效益的有效途径。 健康促进( h e a l t hp r o m o t i o n ) 的概念比健康教育更为完整,健康促进是指一切 能促使行为和生活条件向有益于健康改变的教育与生态学支持的综合体。1 9 8 6 年在加拿大渥太华召开的第一届国际健康促进大会发表的渥太华宪章中指出: “健康促进是促使人们提高、维护和改善他们自身健康的过程。斗这一定义表达 了健康促进的目的和哲理,也强调了范围和方法l 引1 4 j 。 渥太华宪章并提出了健康促进的五点策略,健康促进超越了保健范畴, 它把健康问题提到了各个部门、各级领导的议事日程上,使他们了解他们的决策 对健康后果的影响并承担健康的责任。 健康促进是健康教育发展的结果。健康促进是新的公共卫生方法的精髓,是 “人人享有卫生保健 全球战略的关键要素。 健康促进已经成为了疾病预防控制的核心,疾病预防控制就是要通过健康促 进,使人群提高自身的身体素质,而且掌握一定的疾病预防的方法和知识,最终 达到“人人健康 的健康促进模式。 医院作为医疗服务的重要机构,在疾病预防控制中也起到极其重要的作用。 医院不仅仅是治病救人的场所,更有义务向人群宣传疾病预防的知识,起到健康 2 武汉理工大学硕士学位论文 促进的作用。 随着网络化建设的需要和管理的要求,信息技术在疾病预防控制工作中得到 了应用,特别是数据库技术,许多医院已经推行了网络化管理系统,并且已经建 立了医院管理系统。这就使医院管理系统中保存了大量关于来院就诊的病人的健 康状况的信息和数据,这些保留在医院管理系统中的数据,没有得到充分的利用, 仅仅作为历史数据得以保存。 本研究希望构建一个疾病预防控制数据仓库系统,把这些数据用在健康促进 上来,挖掘这些数据中的隐藏信息,充分发挥这些海量数据的优势,并通过医院, 向人群传递健康促进信息。 当前,疾病预防控制的主要手段仍然是上报制度。上报制度在信息技术 广泛使用的今天,有一定的局限性,课题的研究希望利用构建的疾病预防控制 数据仓库系统,为疾病预防控制更加信息化,自动化提出一种解决思路。 本研究对疾病预防控制,人群了解卫生常识,促进身体健康是很有意义的。 r 2 数据库和数据挖掘技术在医学领域中的发展现状 1 2 1 医院信息管理系统的国内外发展现状 国内的h i s 发展可以分为以下几个阶段p j : ( 1 ) 国内的医院信息管理系统起步于1 9 9 2 年,开始有“自编的系统出现。 ( 2 ) 从1 9 9 5 年开始大型网络版数据库开始替代原有的单机版数据库程序, 有实力的h i s 厂商开始产生并扩张。 ( 3 ) 从1 9 9 9 年至2 0 0 3 年,是国内h i s 厂商巩固生存的攻坚阶段,纷纷推 出了包括医嘱在内的h i s 完整解决方案。在这个阶段中,计算机技术虽然有了 很大发展,比如n t i e r 架构、w e b 等新技术在其他大型应用软件的设计开发中大 行其道的时候,h i s 由于其软件产品的特殊性( 医院的业务相对规范稳定,对系 统的灵活性、扩展性要求不高) ,新技术的应用并不能给h i s 厂商带来满意的营 销影响力,因此各个厂商都在g u i 界面和产品包装上做文章。 ( 4 ) 2 0 0 3 年,h i s 基础软件已经日趋完善,h i s 厂商都在医生工作站和检 验报告系统和影像系统中开始新一轮开发和推广。这是发展到临床信息时代的一 个过渡带。这一过渡带将持续2 0 0 3 2 0 0 5 。由于医院竞争的加剧经营策略需要不 断变化,引起软件的日益复杂和大规模客户定制,使实施周期和成本都急剧上升, 因此这一轮的竞争有力点是实施标准化、产品稳定和可扩展,所以h i s 厂商需 要使产品可扩展,稳定,实施规范化。过渡性产品的竞争是一条主线,但基础 h i s 也在发展,在功能方面,由于医院逐渐的市场化,精确核算的h i s ,成为 3 武汉理工大学硕士学位论文 2 0 0 3 2 0 0 4 的开发重点。 ( 5 ) 2 0 0 5 2 0 0 6 年更重视如何与病人保持长期友好的联系以争夺病人,如何 方便地自动化地快速地给病人提供诊疗反馈信息,如何从多年积累的海量数据中 抽取出对经营决策有指导意义的信息来1 6 】。随着病人的生活质量的提高和要求医 疗的及时性,家庭病床、私人医生的核算和信息记录,医院网站的与病人交互, 手机短信与病人交互成为h i s 外围功能的扩展点。随着i n t e r a c t 的接入,各种病 毒的日益蔓延,医院使用电脑的人员越来越多,h i s 软件的安全,应急系统,也 会成为医院的需求重点。这时的h i s 系统会更加功能细腻,统计系统会逐渐成 为医院需求的重点,但是由于风险资金的不流畅和竞争的生存攻坚战,h i s 软件 商仍然没有实力来使产品做的功能既强,又稳定又易用又实施规范,产品是会有 所提高,但还不能达到用户的所期望的。 ( 6 ) 2 0 0 5 2 0 0 6 ,临床系统也有了较大的发展。这些供应商由于客户的应用 需求,在加深自己产品的专业性的同时,也在和h i s 厂商合作。但是这是合作 是试探性的,如果资金通畅并且行业比较理性发展的话,医疗仪器厂商、h i s 软 件厂商、临床系统厂商会彼此合作合并或并购由于临床系统的医学专业性, 这一块也会成为许多m s 厂商的门槛。 ( 7 ) 2 0 0 6 以后,医生工作站和临床系统和影像系统的建设已经进入成熟期, 过渡带的迅速扩张的时代已经快过去,临床专业系统的建设成为医院关注的重 点,另外由于医疗集团,全科医生,社区医院,民营医院,外资医院、第二代高 速i n t e r a c t 的建设热潮,医保病人在任何一家医院都可看病,医保i c 大容量存储 卡的出现,医院间的医生,费用、病人信息的交换和传递越来越多,电子病历的 萌芽开始更新一轮的竞争。 从国外的发展来看,电子计算机在医院的应用历史已久。6 0 年代初,美国 便开始了h i s 的研究。著名的麻省总医院开发的c o s t a r 系统1 7 1 是6 0 年代初开始 应用并发展到今天成为大规模的临床病人信息系统。随着计算机技术的发展,7 0 年代,h i s 进入大发展时期,美日欧等国的医院,特别是大学医院及医学中心纷 纷开发h i s ,成为医药信息学的形成和发展的基础。 把国内的医院信息化和国外的进行比较:我国医院信息化起步于8 0 年代, 发展于9 0 年代,2 0 0 0 年以后属于诸侯纷争的战国时代。国外以美国为例,医院 信息化起步于6 0 年代,发展于8 0 年代,成熟于9 0 年代,目前正在向纵深领域 扩展。 国内h i s 软件从病案统计入手,逐渐转入。以财务为中心 的收费软件, 近年来又转入“以临床为中心一的电子病历系统【8 j 。美国h i s 软件从病房护理 系统入手,逐渐扩展到财务收费系统、辅助检查系统、行政事务处理系统,9 0 4 武汉理工大学硕士学位论文 年代电子病历系统已经成熟。 以现在比较来看,国内h i s 软件与国外相比,至少晚十年的时间,但由于 医院的特殊性,国外公司进入国内至今没有成功的案例,这也为我国的h i s 公 司提供了发展的平台。 2 0 0 0 年以后,国内h i s 公司数以百计,较出名的却不出1 0 家,平均每家公 司的客户数量约为3 0 0 家,仅占全国县级以上医院总数量的1 8 ,真正形成规模 的h i s 公司尚未出现。并且这1 0 家公司大多数都生存艰难。 我国的h i s 产品及h i s 行业的发展落后与很多发达国家,是我们很多人共 同的感受。在美国有数以千计的h i s 系统,很多h i s 系统规模庞大,应用深入, 不少系统具有很强的社会化区域医疗系统的功能。h b o c 是我们了解的在医疗信 息化系统具有领导资格的大公司;我们熟知的一些系统例子,有波士顿的贝恩 以色列( b e t hi s f a e l ) 医院1 9 l 、儿童医院、布理格姆妇女( b r i g h a m & w o m e n ) 医院。 从美国的情况看,在规模大的医疗机构,几乎完成了临床检查和药剂部门的系统 化,较多机构达到了检查图像信息和信息系统的结合阶段。b r i g h a m & w o m e n 的系统由5 5 台服务器和镜像服务器组成,它支持着院内6 0 0 0 多个用户的日常使 用,3 6 5 天x 2 4 小时可靠运行;功能上包含有电子病历、医嘱自动监视、l i s 、 r i s 、p a c s 等一系列临床功能,以知识库为基础的医嘱应用系统已能有效减少 医药差错;还和另一所同为哈佛大学教学医院的m a s s a c h u s e t t sg e n e r a lh o s p i t a l 等六所医院【1 0 1 联合组建了美国东北部最大的集成医疗网络,网上在线连接着, 达3 万台以上的工作站,其中包括为近5 0 0 万病人提供服务的2 4 0 0 0 名医疗提供 者使用的计算机。 1 2 2 数据挖掘技术的应用研究现状 近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、 器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可 喜的成果。南加州大学脊椎病医院利用i n f o r m a t i o nd i s c o v e r y 进行数据挖掘【1 1 】, 该技术已应用到肿瘤学、肝脏病理学、肝炎的生存几率预测、泌尿学、甲状腺病 例诊断、风湿病学、皮肤病诊断、心脏病学、神经心理学、妇科学、产科学等医 学领域。j i a w e ih a n 和m i c h e l i n ek a m h c rl u 】从异构和分布式基因数据的语义集 成、d n a 序列问相似的搜索和比较、同时发现的基因序列的识别、发现在疾病 不同阶段的致病基因等方面阐述了数据挖掘在d n a 数据分析领域中的应用问 题。m u g g l e t o n 等人提出利用归纳逻辑编程,根据氨基酸序列信息预测蛋白质第 二结构【1 2 】。i g o rk o n o n k o 等从医学诊断的角度阐述了统计或模式识别方法、符号 法则的归纳学习、人造神经网络3 类机器学习算法在医学领域中的应用【1 2 1 。 5 武汉理工大学硕士学位论文 m i r o s l a v k u b a t 等针对心电图、脑电图等医学推测信号的分析,提出使用决策树 来初始化神经络,可以大大提高对测试样本的分类准确率1 1 2 1 。、哆s i s 应用神经网 络技术为药品开发进行蛋白质分析【1 2 1 。r o b c i tg r o t h 对聚类技术在患者术后康复 问题分析的应用进行了研究等1 1 2 1 。在国内,中南大学的陈爱斌、夏利民等利用 b o o s t i n g 机器学习方法对人脸检测进行了研究1 1 3 1 。第四军医大的陈雪峰等利用数 据库和数据挖掘技术建立的恶性血液病数据库分析系统,不仅可辅助医生做出初 步诊断而且对数据具有强大挖掘和分析功制1 3 1 。富春枫等研究了机器学习的分 类方法l o g i t b o o s t 在判别分析中的应用及其在医学领域中的应用前景等【1 4 j 。 数据挖掘在医学上的应用有其自身的优势,因为医学上收集到的数据一般是 真实可靠、不受其他因素影响的,而且数据集的稳定性较强。这些对挖掘结果的 维护、不断提高挖掘模式的质量都是非常有利的条件。随着电子病历的推广,用 计算机存储病案在医院已经比较普遍。如果各医院将收集的数据进一步汇总,数 据总量是相当大的,而且都是病人的真实数扎从这样的数据集中运用各种数据 挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方 案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。 然而,在疾病预防控制方面,利用数据挖掘技术,来帮助医院对人群进行健 康促进的研究不多。我国的h i s 的发展虽然相对落后,但是h i s 系统中已经留 下了大量的历史数据和明细数据,能够为以疾病预防控制,健康促进为目的的数 据挖掘服务。 浙江省疾病预防控制中心的何凡、李欢龙,利用决策树的分析技术进行如何 使用在传染病现场调查的研究【1 4 1 ,他们认为,传染病现场调查可以掌握传染病 疫情的第一手资料,尽早发现可疑的流行因素并及时控制疫情,是一项专业性和 社会实践性很强的工作。统计分析技术是传染病现场调查中一种不可或缺的工 具,它可以有效地帮助现场调查者挖掘出传染病的流行因素,并为结论提供有力 的统计学基础。传统的统计学分析技术( 如多重线性回归、l o g i s l i c 回归等) 由 于受自身条件的限制,在处理具有非线性、高度交互作用及含大量缺失值等特征 的资料的时候,就显得力不从心,所得的结论其可靠性也难以保证,所以利用数 据挖掘技术弥补上述传统的统计学分析方法的缺陷和不足。 1 3 研究内容 本论文主要分六大部分对疾病的预防控制信息系统进行研究。本文的研究是 健康促进理论作为疾病预防控制的重要应用,基于校医院的病例数据,和数据仓 库和数据挖掘的技术方法,构建疾病预防控制信息仓库系统,并最终分析得到疾 病预防控制的相关知识。 6 武汉理工大学硕士学位论文 第一章是绪论。主要介绍研究数据挖掘技术运用在疾病预防控制方面的目的 和意义以及运用数据挖掘技术在疾病预防控制方面的国内外研究现状。本部分作 为本论文研究的起点为下文起铺垫的作用。 第二章是介绍构建数据仓库系统和数据挖掘技术的相关理论。其内容主要是 概括介绍数据挖掘技术的基本理论,概括介绍与其相关的数据仓库和o l a p 技术, 并讨论其关系。本部分为疾病预防控制数据仓库系统的构建起到理论基础性作 用。 第三章是疾病预防控制数据仓库系统的需求分析。主要是从社会、经济、技 术三方面来获取疾病预防控制数据仓库系统的需求。 第四章是疾病预防控制数据仓库系统的构建。主要描述数据仓库系统的核心 疾病预防控制数据仓库的构建。通过对h i s 系统中的病例数据进行清洗, 选择,运用多维数据模型的数据建模方法,建立数据仓库,为实现o l a p 和数据 挖掘创造条件。 第五章是数据挖掘在疾病预防控制中的应用研究,利用由h i s 系统中的病 例数据转换得到的主题数据,进行聚类,关联分析等数据挖掘工作,找到其中的 数据统计规律,并解释得到结果的原因,和如何利用结果指导下一步工作。 第六章是总结与展望,主要是对本论文的全面总结并提出下一步的研究方 向,并展望未来。本部分是论文的结束部分。 1 4 研究方法与目的 本系统的研究是引入健康促进理论来达到疾病预防控制的目的,采用理论探 讨和技术实现相结合的方法。在理论研究与实际调查的情况下,综合考虑各种相 关数据建模方法,用最适合本系统的方法来建立系统模型。对医院信息系统中的 病例数据进行转换,转换成,以疾病预防控制为主题的数据,构建数据仓库,利 用流行的数据挖掘技术分析后,得到疾病预防控制的知识。 本课题研究的目的就是:通过对医院信息系统中生成的大量病例数据的分析 研究,构建疾病预防控制数据仓库系统,并利用数据挖掘技术,来开发这些未利 用的信息资源。 根据对数据的处理分析,一方面,有效利用医院信息系统中的存储数据,获 取疾病预防控制的知识,加强医院在健康促进中的地位和作用,使医院能够更好 地为人们健康做贡献;另一方面,为改善现有的疾病预防控制的手段,提供一种 可行的思路,使疾病预防控制工作能跟上信息化的脚步。 武汉理工大学硕士学位论文 第2 章数据仓库与数据挖掘技术概述 2 1 数据挖掘技术理论 2 1 1 数据挖掘的定义及其发展 数据挖掘( d a t am i n i n g ) 又称数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,k d d ) ,是从大量的数据中,抽取潜在的、有价值的知识( 模型或规 则) 的非平凡过程【1 5 1 。数据挖掘所探寻的模式是一种客观存在的、但隐藏在数 据中暂时未被发现的知识。简单的说,数据挖掘就是从大量数据中提取或“挖掘 知识。 现在,数据库技术的不断发展及数据库管理系统的广泛应用,人们面对前所 未有的信息数量,目前的数据库系统虽然可以高效地实现数据的录入、查询、统 计等功能,却很难发现数据中存在的关系和规则,无法根据现有的数据预测未来 的发展趋势。于是,人们利用数据库存储数据,采用机器学习的方法来分析数据, 挖掘大量数据背后隐藏着的重要信息和知识i 垌。这两者的结合促成了数据库中 数据挖掘技术的产生和发展,实现了对数据库海量信息的更高层次的分析。 随着k d d 在学术界和工业界的影响越来越大,国际k d d 组委会于1 9 9 5 年把 专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第一届k d d 国际学术会 议,以后每年召开一次。近年来,k d d 在研究和应用方面发展迅速,尤其是在商 业和银行领域的应用比研究的发展速度还要快。数据挖掘和知识发现的研究已经 形成了三个强大的技术支柱:数据库、人工智能和数理统计【1 7 1 1 1 s 。因此机器学 习、模式识别、人工智能领域的常规技术,如分类,聚类,决策树,神经网络, 进化计算,以及模糊集,粗糙集等方法经过改进大都可以应用于数据挖掘1 1 9 1 。 但是,数据挖掘系统通常面对的是大量的类型更加复杂的数据,因而,对现有技 术的改进,综合各种方法技术优点的有效的集成以及研究面向数据挖掘的新技术 都是数据挖掘的研究内容。基础理论方面主要包括数据库、数据仓库以及知识管 理等,算法方面包括分类、聚类、关联规则发现等针对特定挖掘任务和知识的有 效方法,随着数据挖掘系统正在逐步走向成熟,许多标准化组织以及企业正在致 力于数据挖掘的标准的制定。 目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研究 进一步发展,如近年来注重对b a y e s ( 贝叶斯) 方法以及b o o s t i n g 方法的研究和 提高;传统的统计学回归法在k d d 中的应用:k d d 与数据库的紧密结合。在应用 8 武汉理工大学硕士学位论文 方面包括:k d d 商业软件工具不断产生和完善,注重建立解决问题的整体系统, 而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和销售业。 国外很多计算机公司非常重视数据挖掘的开发应用,i b m 和微软都成立了相应的 研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国内销售,如 p l a t i n u m 、b o 以及i 酬例- 1 2 s 1 。 国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉 及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关 数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如 国家自然科学基金、8 6 3 计划、一九五计划等,但还没有关于国内数据挖掘产品 的报道。 一份最近的g a r t n e r 报告中列举了在今后3 - - , 5 年内对工业将产生重要影响 的五项关键技术,其中k d d 和人工智能排名第一。同时,这份报告将并行计算机 体系结构研究和k d d 列入今后5 年内公司应该投资的l o 个新技术领域。 可以看出,数据挖掘的研究和应用受到了学术界和实业界越来越多的重视。进行 数据挖掘的开发并不需要太多的积累,国内软件厂家如果进入该领域,将处于和 国外公司实力相差不很多的起跑线上,并且,现在关于数据挖掘的一些研究成果 可以在i n t e r n e t 上免费获取【硎,这更是一个可以利用的条件。我们希望数据挖 掘能够引起国内实业界更多的重视,同时也希望能够有更多的国内软件厂商进入 该领域,一起促进数据挖掘技术在中国的应用。 近年来,在金融、电信、零售、医疗卫生、科学研究等多个领域中得到成功 应用,发挥了巨大作用。当前,k d d 国际研讨会的研究重点逐渐从发现方法等 理论研究转向系统应用研究,注重多种发现策略和技术的集成,以及多种学科之 间的相互渗透,更为医疗卫生事业的发展及医学科研工作提供了有力的武器,开 辟了新的广阔前景。 2 1 2 数据挖掘的分析过程、方法与工具 k d d 的整个过程可以分为3 个阶段:数据准备( d a t ap r e p a r a t i o n ) 、数据挖 掘、挖掘结果的解释与评估( i n t e r p r e t a t i o na n de v a l u a t i o n ) 。如图2 - 1 所示: 9 武汉理工大学硕士学位论文 图2 1 数据库知识发现的过程 ( 1 ) 数据准备 k d d 处理的对象就是大量的数据,这些数据一般存储在数据库系统中,长 期积累的结果。但是往往不不适合直接的在这些数据上面进行知识挖掘,需要做 数据的准备工作,一般包括选择( 选择相关的数据) 、净化( 消除噪音数据) 、推 测( 推算缺失数据) 、转换( 离散数据与连续值数据之间的相互转换、数据值的 分组分类、数据项之间的计算组合等) 、数据缩减( 减少数据量) 刚。这些工作 往往在生成数据仓库时已经准备妥当。数据准备是k d d 的第一个步骤,数据准 备是否做好将影响到数据挖掘的效率和准确席以及虽终槿式的有效件。 ( 2 ) 数据挖掘 数据挖掘是k d d 最关键的步骤,也是技术难点所在,研究k d d 的人员中 大部分都在研究数据挖掘技术,数据挖掘常用的技术方法有特征化规则、关联规 则、分类和预测规则、聚类规则。 特征化规则【3 1 j 是对数据库中原始数据进行分析,获得它们所拥有的共同特 征,又称数据总结。其目的是对数据进行浓缩,给出它的紧凑描述。其方法是根 据属性列的临界值和概括层次树,对原始数据进行概括,合并相同和相似的元组, 最后得到一个或几个“抽象宏记录 即为所挖掘的知识。在特征化规则的发现中, 概括的程度由一个合适的阈值来控制,规则的数量被控制在阈值以内。阈值越大, 发现的规则越多,但规则的概括程度越小。 关联规则挖掘【3 2 l 可以发现大量数据中不同的项目集之间存在的关联或关 系,从所有对象中来决定哪些相关对象应该放在一起。依照不同的标准,关联规 则可以分为布尔的和量化的、单维的和多维的、单层的和多层的关联规则。关联 规则的算法有很多,其中,a p r i o r i 和d h p 是比较成功的两个算法。 1 0 武汉理工大学硕士学位论文 a p r i o r i 算法【3 3 】核心是基于两阶段频集思想的递推算法。该关联规则在分类 上属于单维、单层、布尔关联规则。 算法的基本思想 该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这 一循环方法就是利用k 项集来产生( k + 1 ) 项集。具体做法就是:首先找出频繁 1 项集,记为厶;然后利用厶来挖掘厶,即频繁2 项集;不断如此循环下去直 到发现更多的频繁k 项集为止。每挖掘一层k 就需要扫描整个数据库一遍。为 提高按层次搜索并产生相应频繁项集的处理效率。a p r i o r i 算法利用了一个重要 性质,又称为a p r i o r i 性质来帮助有效缩小频繁项集的搜索空间。a p r i o r i 性质: 一个频繁项集中任一子集也应是频繁项集。 为了解释清楚a p r i o r i 性质是如何应用到频繁集的挖掘中的,这里就以用k l 来产生k 为例来说明具体应用方法。利用k l 来获得k 主要包含两个处理步骤, 即连接和删除操作步骤。 缸连接

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论