版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 数据仓库与数据挖掘 数据仓库与数据挖掘 摘要 数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展。本文阐述了数据仓库及数据挖掘的相关概念做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望。用Data Miner作为对数据挖掘的工具,给出了应用于医院的数据仓库实例。指出了数据挖掘技术在医疗费用管理、医疗诊断管理、医院资源管理中具有的广泛应用性,为支持医院管理者的分析决策作出了积极探索。 Abstract The Data Mine is a burgeoning technology,the research about it is developin
2、g flourishingIn this paper,it expatiates and analyses the concepts of Data Warehouse and Data Mine Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospectThe data warehouse supports the mass data on the further handling and recycling
3、The paper points out the use of data mining in patient charge control,medical quality control, hospital resources allocation management It helps the hospital to make decisions positively 关键字:数据仓库;数据挖掘;医院信息系统 Key words:Data Warehouse;Data Mine;Hospital information system 目录 1 1、数据仓库的概述 . 1数据仓库的特征1.1
4、. 2数据仓库系统1.2 . 2 . 联机分析技术1.3 3、数据挖掘2 . . . 32.1 数据挖掘定义及实现过程 . . 42.2 数据挖掘的分类 . 5.2.3 数据挖掘任务 6、数据挖掘与数据仓库的联系 . 3 . 7、数据挖掘技术在医院管理中的应用4 . 74.1 病人费用构成分析 . 7 同期费用对比分析. 4.2 8. 4.3 病人结构分析 . 8 4.4 病人流动情况分析. 8 4.5 病人就诊时间分析. . 8 4.6 成本效益分析 . 5、总结9 随着信息时代的不断进步,社会正处于数据技术飞速发展的良好状态。但是,在数据信息极度膨胀的同时,并非所有的数据都可被利用,大量的
5、数据浪费,造成各种损失。所以有必要将这些数据转化为有用的信息。而传统的数据处理方法越来越不能满足使用要求,迫切需要一种从大量数据中搜索集中并去 伪存真的技术。20世纪80年代后期至今,高级数据分析 数据挖掘(Data Mining,简称DM)发展起来,是开发信息资源的一套科学方法、算法以及软件工具和环境,是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域。 1、 数据仓库的概述 数据仓库对不同的使用者、不同的操作范围,它有不同的意义。被誉为数据仓库之父的WHInmom将数据仓库Data Warehouse)定义为41:是一个面向主题的、集成的、相对稳定
6、的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 1.1 数据仓库的特征 (1)数据是面向主题的 传统的数据仓库只是单纯的数据的集中,在处理不同事务时执行不 同的操作。而现今的数据仓库是有较强主题组织性的,高层 赶地将数据归类,去除无用的数据。 (2)数据的集成性 因为数据的来源是多方面的,必须根据一定的规则将所有的数据进行重新构造,即数据的集成。 (
7、3)数据的相对稳定性 数据仓库中的数据是历史数据,具有一定的借鉴性,不会有大的变动。 )数据的不易失性(长期性)4( 数据仓库只是物理式的、筛选式的存放数据,不会改变数据本身的性质,那么其数据结构必定包含有时问效果,这样才能更好的体现历史数据的趋势预测性。 1.2 数据仓库系统 目前,数据仓库系统主要以现有的商用数据库管理系统作为数据的存储体,与传统的数据库系统不同,数据仓库系统是以面向主题的、集成的、时变的和稳定的为特点,因此在数据仓库系统的建设中,其主要内容为数据抽取与数据集成。 在数据集成过程中,由于各数据源的类型多样,包括各种类型的关系数据库管理系统、文件系统,甚至还包括来自WEB上的
8、数据,这些数据在模式设计上也是多种多样,数据质量也千差万别,数据内容的来源也不统一,因此在数据集成过程中数据模式的设计、数据清洗和数据的转换、导人和更新方法是主要难点,目前的研究工作也主要集中在这几个方面。 在数据清洗中一个重要的问题是重复数据的发现与删除由于数据来自不同的数据源,所以相同的数据经常会在数据仓库中出现多个复本,但由于各个数据源的数据质量有较大差别,同样的数据在录入时由于拼写错误、不一致的习惯会出现小的差别,从而被认为是不同的数据。为了提高数据仓库中的数据的可靠性,需要将这些可能的重复数据找出来,并进行删除。目前在重复数据的寻找方面主要采用一些标准文本相似性匹配方j去,如编辑距离
9、、Cosine Metric等。但这些方法无法解决语义上的相似性判定问题。 1.3 联机分析技术 联机分析技术是针对数据仓库应用中广泛出现的大量的聚集操作而产生的一种新的技术,总体上讲联机分析技术可以分成两种类型,一种是基于关系数据库系统实现的联机分析系统,简称ROLAP。其基本思想是对数据仓库中的数据模式进行合理组织,直接通过关系查询实现联机分析系统支持的下钻、上翻、分片、分块等操作。目前各个关系数据库厂商均在它们的关系数据库管理系统的产品中提供了相应的查询手段,同时为了提高查询的性能,它们还增加了相 应的索引机制;另一种基于多维模型实现联机分析,简称MOLAP。这种方法基于多维数组实现联机
10、分析系统,其主要研究问题如何减少存储空间,提高查询性能。近年在这两方面均有研究论文发表。与此同时随着OLAP系统应用的推广对基于OLAP系统的体系结构方面的研究也引起了人们的注意,Uwe rohm针对集群 结构的OIAP系统研究了一个对数据的实时性敏感的中间件系统。可在保证系统查询的正确性和一致性的同时充分发挥集群系统的性能。 ROLAP实现技术方面的研究开展了一段时间,目前提高ROLAP的执行效率的方法主要包括两个方面,一方面是采用物化视图的思想,其方法是将用户可能的查询事先计算出来。当用户提交查询的时候,从已经计算出来的视图出发,可以较快地计算出查询结果。这里面的主要问题是物化视图的选择和
11、查询的实现。另一方面是针对OLAP查询的索引结构比较常见的是基于位图的索引和UB-tree等。目前的研究主要集中在对现有方法的改进和新的查询优化技术方面的研究。例如,Nikos Karayannidis等人对基于层次的簇聚方式存储的事实表进行联机的星形查询的实现技术进行了研究,提出了一整套查询过程的实现方法和优化策略,在查询访问计划的实现中充分利用了基于层次的簇聚存储方式带来的优点。 2、数据挖掘 2.1 数据挖掘定义及实现过程 数据挖掘就是用来发现隐含的、事先未知的、潜在的有用知识,提取的知识可以表示成概念、规律、模式等形式。其挖掘对象不仅可以是数据库,也可以是文件系统或组织在一起的数据集合
12、,更主要的是数据仓库。简单的说数据挖掘是提取或“挖掘”知识。目前,数据挖掘是可以从统计学、数据库和机器学习等三个方面进行定义。 从统计学的角度,数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据。 从数据库的角度来看,数据挖掘是指从存储在数据库、数据仓库或其他信 息仓库中的大量数据中发现有趣的知识的过程。 从机器学习的角度数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的有用的信息。可以理解为,数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。图l表示的是典型的数据挖掘系统的结构。 图1 典型的数据挖掘系统的结构 过程表
13、述如下:从数据库或数据仓库等资源库中收集数据,并进行信息的初步筛选;根据用户对数据信息的要求,由服务器提取并传输有用的数据;为了对已经采集到的数据进行更有效的分配,数据挖掘引擎对数据进行特征化、关联、分类等操作;然后将精确划分的数据信息进行模式评估,从而使搜索仅限制在感兴趣的模式上通过图形用户界面,用户可以方便的与数据挖掘系统之间通信实现对数据的使用。 2.2 数据挖掘的分类 数据挖掘是一个交叉性的学科领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、克视化理论和技术等。由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同。从而产生了大量的、各种不同类型的
14、数据挖掘系统。掌握数据挖掘系统的不同非类,可以帮 助用户确定最适合的数据挖掘系统。 (1)根据所挖掘数据库类型的不同来分类:有关系型数据挖掘系统、对象型数据挖掘系统、对象一关系型数据挖掘系统、事务型数据挖掘系统、数据仓库的数据挖掘系统,等等。 (2)根据所挖掘的知识类型来分类:分为特征化、区分、关联、分类、聚 类、孤立点分析f异常数据)和演变分析、偏差分析、相似性分析等分类。 (3)根据所采用技术的分类:有自动数据挖掘系统、证实驱动挖掘系统、发现挖掘系统和交互式数据挖掘系统。 (4)根据数据挖掘方法来分类:如面向数据库的方法、面向数据仓库的方法、机器学习方法、统计学方法、模式识别方法、神经网络
15、方法等。 (5)根据数据挖掘应用的分类:有金融数据的数据挖掘系统、电信行业的数据挖掘系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW 数据挖掘系统等等,不同的应用通常需要集。成对于该应用特别有效果的方法。因此,普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖掘任务。 2.3 数据挖掘任务 数据挖掘任务有六项,分别是:关联分析、时序模式、聚类、偏差、检测、预测。 关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现并且概率很高的时候,就存在某种管理可以建立起这些数据项的关联准则。通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。 数据
16、库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。 分类是数据挖掘中应用最多的任务。分类是找出一个类别的概念描述,它代表了这类信息的整体,即该类的内涵描述。一般用规则或决策树模式表示。 该模式能把数据库中的元组影射到给定类别中的某一个。 数据库中的数据存在很多异常情况。从数据分析中发现这些异常情况也是很重要的,应该引起足够的重视。偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个领域的 值或多个域值的总汇。参照是给定模型的预测、外界提供的标准或另一个观察。 预测
17、是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。近年来,发展起来的神经网络方法,如BP模型,实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但是分类一般用于离散数值;回归预测用于连续数值;神经网络方法预测两者都可用。 3、数据挖掘与数据仓库的联系 既然数据仓库的惟一功能是向终端用户提供信息以支挣决策者,数据挖掘体现了数据仓库的一个最重要的应用。与其他查询工具和应用系统不同,数据挖掘过程向终端用户提供提取隐藏的、非同等常的信息的能力。这种信息虽然很难提取。但能提供更大的商业和科学利益,也能使对“数据仓库和数据挖掘”的投资产出更高的利润。 从数据仓库
18、的观点,数据挖掘可以看作是联机分析处理的高级阶段。但是作为更高级的数据分析技术,数据挖掘比数据仓库的汇总分析要详细和深入的多。数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热门的原因之一。但是,数据挖掘并不一定要有数据仓库的支持,即数据仓库并不是数据挖掘的必要条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息,同时,数据挖掘仍然经常被看做是数据仓库的后期市场产品,因为那些努力建立起来的数据仓库有 最丰富的数据资源可供挖掘。显然,数据仓库被更为广泛地接受将使人们对数据挖掘更感兴趣。 从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的
19、数据清理差不多,如果数据在导人数据仓库时已经清理过,很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经得到解决了。 数据挖掘库可能是数据仓库的一个逻辑子集,而不一定非得是物理上单独的数据库。但如果数据仓库的集中资源已经很紧张,那最好还是建立一个单独 的数据挖掘库。 为了数据挖掘库,也不是一定要建立一个数据库。因为建立一个巨大的数据仓库,要把各个不同资源的数据集中在一起,并解决所有的数据冲突问题,然后把所有的数据导人一个数据仓律内,是一项非常巨大的工程,比较麻烦, 需要时间和金钱的花费如果只是为了数据挖掘可以把一个或几个数据库导到一个只读的数据库中,把它当作数据集合,然后
20、在这上面进行数据挖掘其中如何抽取、集成、筛选并准备数据以解决其最为紧迫的业务问题,将是分析人员在进行数据挖掘时所面临的最大挑战 解决这些问题,不仅是数据挖掘过程中的一个艰巨任务。而且需要 耗费大量的时间。尽管在数据挖掘中并非一定要有数据仓库的支一持,但数据仓库的确为数据集成和准备提供了一个好办法。 4、数据挖掘技术在医院管理中的应用 我们利用数据挖掘软件Data miner从数据仓库中提取有用数据,并且进行微观、中观乃至宏观的统计、综合和推理,发现事物问的相互关联,提供更高层次的数据分析功能,对未来的医院业务进行预测,更好地为医院管理决策提供支持。 4.1 病人费用构成分析 病人费用由手术、治
21、疗、检查、化验、药品等组成。该功能可以分析医院、科室乃至各个病房内的病人费用构成,从而能有针对性地控制费用比例,探究医疗费用项目结构的合理性,使医院管理者有针对性的控制医疗费用。例如:国家对药品占医疗总收人的比例有严格的要求,利用数据仓库内的信息,可以分析在某段时间内,某科室开具处方的药品是否超过了合理的比例,从而为医院合理控制药品比例提供了决策依据。 4.2 同期费用对比分析 该功能可以按不同的时间维度(包括按年综合、按旬综合、按月综合)对各个科室或各个病房同期的各种费用进行对比分析,并以各种专业报表、视图的 形式反映给医院管理者,找出收入增加或减少的原因。例如:各科室、各病房近五年药品收人
22、时间变化趋势,寻找变化的原因,促进有利因素,减少不利因素。 4.3 病人结构分析 我们可以运用秩和比法对医院门诊住院病人的地区分布、性别分布、身份分布、职业分布、年龄分布等方面进行分析,从而得到不同地域、不同性别、不同年龄、不同身份、不同职业病人的经济状况、需求的主要医疗服务类型等信息,使医院管理者了解病人差异对医院收益的影响,能够针对不同类型病人采取一些措施来提高服务质量,增加门诊量和住院收容量。 4.4 病人流动情况分析 该功能可以分析门诊病人从挂号到取药再到离开医院的时间分布以及住院病人从入院到出院各个就医环节的时间分布。分析出病人的就医瓶颈,掌握影响病人诊疗效率的因素,以便能针对这些因素采取措施来帮助医院管理者进行业务流程的更新和改进,提高病人的就诊效率。 4.5 病人就诊时间分析 由于医院病人的入院季节性较强,可以通过分析每月、每季度的门诊人次、住院人次、床位周转率,利用数据仓库,通过时间维度分析,建立数据挖掘中的灰色预测模型,来预测下一时期的门诊和住院人次。根据预测信息,医院管理者可以提出有针对性的措施,确定最优的服务项目时间表,从而作出终止或开拓某种医疗服务项目的决定,以便对人力资源、医疗设施、医疗设备作出适当配置。 4.6 成本效
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024基于非对称的数据加密算法技术规范
- 电冰箱、空调器安装与维护电子教案 2.1 认识选用电冰箱
- 演艺消费季音乐节(演唱会)类演出项目结项审核申报书
- 2024年重庆市九龙坡区杨家坪中学小升初数学试卷
- 河南省郑州市第七高级中学2024-2025学年高二上学期期中考试生物试题(含答案)
- 2024-2025学年内蒙古鄂尔多斯市西四旗高二(上)期中数学试卷(含答案)
- 尿道注射器产业运行及前景预测报告
- 座位名卡市场发展预测和趋势分析
- 发光或机械信号板市场发展预测和趋势分析
- 人教版英语八年级下册 Unit 8 刷题系列
- 苹果和牛顿的故事.ppt
- (2021更新)国家开放大学电大《课程与教学论》形考任务4试题及答案
- 肠套叠实用教案
- 收益法酒店评估(共51页).doc
- 胜利油田钻完井液技术现状及发展趋势钻井院
- 【实用版】一年级上册一年级语文期中复习ppt课件
- 非物质文化遗产对经济发展的影响
- 属鼠的人住几楼最吉利_属猪的人适合住几楼
- 高教版赵耐青卫生统计学习题答案
- 对山西煤矿企业托管经营的思考要点
- 单人临柜操作流程
评论
0/150
提交评论