数据挖掘与知识发现_第1页
数据挖掘与知识发现_第2页
数据挖掘与知识发现_第3页
数据挖掘与知识发现_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与知识发现

1数据挖掘系统随着现代科学技术的快速发展,数据库规模不断扩大。无论是商业、公司、研究机构和政府机构,我们过去在过去八年里积累了大量的、不同形式的数据。由于这些资料十分繁杂,要从中发现有价值的信息或知识,达到为决策服务的目的,成为非常艰巨的任务。人们需要有新的、更为有效的手段对各种信息资源进行挖掘以发挥其应有潜能。数据挖掘(Datamining)与知识发现(Knowledgediscovery)正是在这样的应用需求背景下产生并迅速发展起来的。数据挖掘指的是从大型数据库或数据仓库中提取人们感性趣的知识,这些知识是隐含的、事先未知的潜在有用信息目前国内企业实现数据挖掘的困难在于缺少数据积累,所以还没有关于国内数据挖掘产品的报道!总之,我的研究项目不仅源于学术上的动机,更是实际工作的需要。该项目在已有大量数据积累的商业信息管理系统的基础上实现。数据挖掘系统所涉及的数据库大多为大型数据库,种类繁多,有关系型数据库、事务数据库、工程数据库、多媒体数据库等。现在还不可能做出一种数据开采系统,使它从各种数据库中都能有效地提取知识,大多系统都是针对一种数据库而设计。本文主要讨论从关系数据库中提取知识,因为关系数据库是使用最广泛的数据库。2基于模型的分析数据挖掘的算法是对上述数据挖掘方法的具体实现。所有数据挖掘算法都含有以下三个构件(文中的模型是指从数据库中发现的模型)模型表示.用于描述要发现的模型的语言。如果语言的描述能力较强,就有助于发现精确的数据模型。但要注意的是,能力过强的描述语言却有可能导致所发现的模型的过分一般化,降低了预测的精确度。常用的模型表示方法有决策树、非线性回归、基于事例的推理、贝叶斯网络和归纳逻辑程序设计等方法。模型评价标准.对一个所发现的模型在大多程度上符合发现目的的要求作出定量评价。对预测的模型,可以利用一些测试数据评价其精确度。对描述类的模型,可以在精确度、新颖性、实用性、以及可以理解性等多方面进行评价。发现方法.分为参量发现和模型发现。在上述模型表示和模型评价标准被确定后,数据挖掘就完全变成了一个优化任务,即从数据的描述中发现最适合评价标准的参量或模型。具体的说,参量发现就是在确定数据模型表示之后,寻找最适合模型评价标准的参量;模型发现是一个循环的试探过程,需要不断更改模型表示,最后确定出恰当数量的模型。数据挖掘的深度大体可分为两个层次,在较浅的层次是利用现有数据库管理系统的查询/检索、报表功能与多维分析、统计分析方法相结合,进行所谓的在线分析处理(OLAP:On-LineAnalyticalProcessing),从而得出可供决策参考的统计分析数据。在较深层上,是要求从数据库或大量数据记录中发现隐含的前所未知的知识。严格来说,在线分析在数据挖掘这一新观念产生之前及发展初期,不属于数据挖掘的范畴,但是就决策支持的需要而言,二者可起到相辅相成的作用。3数据选择和数据挖掘数据挖掘的过程一般由3个主要的阶段组成:数据准备、采掘操作、结果表达和解释。知识的发现(KDD)可以描述为这3个阶段的反复过程。数据准备:这个阶段又可以分成3个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。预处理是为了克服目前挖掘工具的局限性。数据采掘:这个阶段进行实际的采掘操作。包括的要点有(1)先要决定如何产生假设,是让数据采掘为用户产生假设,还是用户自己对于数据库中可能包含的知识提出假设。前一种为发现型的数据采掘;后一种为验证型的数据采掘;(2)选择合适的工具;(3)采掘知识的操作;(4)正视发现的知识。结果表述和解释:根据最终用户的决策目的对提取的学信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。因此,这一步骤的任务不仅是把结果表达出来(例如采用信息可视化方法),还要对信息进行过虑处理,如果不能令决策者满意,需要重复以上数据采掘的过程。数据采掘发现的知识通常是用以下形式表示:这些知识可以直接提供给决策者,用以辅助决策过程;或者提供给领域专家,修正专家以有的知识体系;也可以作为新的知识转存到应用系统的知识存储机构中,比如专家系统、规则库等。4数据开采系统架构数据挖掘的目的在于从大量数据中发现那些令人感兴趣的规则,一般的讲,这些规则在表现形式上应比较简洁,并且具有一定程度的概括性。本文提出的数据挖掘模型的思路是,给定目标规则的置信度,从样本数据出发找出结果集;通过机器学习形成决策系统;依据粗糙集理论,发现决策系统在不同简化层次上符合置信度要求的规则;应用得到的规则进行推理或决策,由于问题的信息不一定完备,所以根据现有的信息在模型上逐层匹配,再按照某种优先级判定算法,给出问题的最优解。领域知识和用户输入:有关的领域知识应事先输入知识库,供数据开采方法使用。用户输入用于控制开采过程的进行。文控制部分:控制其他部分的激活和给其他部分提供参数,控制部分解释这些信息并将其用于指导确定焦点、模式提取和评测部分。数据库接口:产生和处理数据库查询。使用查询从数据库管理系统中取数据。数据库管理系统接口是数据库查询产生的地方。本文将使用目前最先进的数据库开发工具Powerbuilder8.0作为前台开发工具,后台数据库采用大型关系型数据库Oracle8.0。确定焦点:这要求指明需要访问哪个数据库,哪一个表,需检索哪些记录。提取模式:模式是指数据库的元素即记录、字段和值之间的任何关系。用于提取模式的算法组成数据开采系统的核心。数据开采系统可使用各种机器挖掘算法和统计分析方法,评测部分:如果一个模式是正确的、新的、就最终用户的知识和目标来说是有用的,则说这个模式是有意义的。决定一个模式有意义的关键是统计有效性。通用的全自动的数据开采的实现还不可能。一般来说,用户必须提供一定的属于系统的控制机制的交互式指导:*选择要展开工作的数据范围;*鉴别相关的字段;*细化目标。5数据复杂,易操作推动数据挖掘的研究不仅源于学术上的动机,更是实际工作的需要。数据复杂性使得需要更多的领域知识,巨大的库对算法的效率提出更高的要求,不断变化的环境和信息种类(如多媒体信息)需要新的发现方法,复杂的问题可能需要多种发现策略协作。尽管人们对数据开采的一些方面,例如找到满足科学数据的简单公式或归纳分类的决策树,已经有了相当的研究,但还有许多其他方面等待研究。这些研究工作不仅是出于学术上的考虑,而且从实际应用方面来说,现在需要分析更多更复杂的数据,包括面向对象的,CAD-CAM,文本的和多媒体的数据库。数据的复杂化使得有必

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论