工智能及专家系统敖志刚第6章数据挖掘与知识发现课件_第1页
工智能及专家系统敖志刚第6章数据挖掘与知识发现课件_第2页
工智能及专家系统敖志刚第6章数据挖掘与知识发现课件_第3页
工智能及专家系统敖志刚第6章数据挖掘与知识发现课件_第4页
工智能及专家系统敖志刚第6章数据挖掘与知识发现课件_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、敖志刚 编制第6章 数据挖掘与知识发现 敖志刚 编制第6章 数据挖掘与知识发现 第6章 数据挖掘与知识发现61 数据挖掘的技术基础611 数据挖掘的概念612 数据挖掘的功能和存在的主要问题613 数据挖掘成功案例62 数据挖掘的方法步骤和语言工具621 数据挖掘的方法622 数据挖掘语言623 数据挖掘的工具624 数据挖掘的流程 第6章 数据挖掘与知识发现63 数据挖掘系统的组构及管理策略631 数据挖掘系统的组成632 数据挖掘系统的架构633 数据挖掘管理系统64 数据挖掘的研究与发展641 数据挖掘系统的开发进展642 数据挖掘未来研究方向 61 数据挖掘的技术基础 611 数据挖掘

2、的概念1. 技术的产生面对信息社会,人们积累的数据越来越多。激增的数据背后隐藏着许多重要信息,人们希望能对其进行更高层次的分析。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 2. 当前数据特点 数据规模巨大; 数据分布存储; 数据来源广; 数据特性未知; 数据包含不确定信息; 数据包含不安全信息; 数据日益增长。 3. 数据挖掘的定义数据挖掘DM(Data Mining)也称为数据库中的知识发现KDD(Knowledge Discover

3、y in Database) 。数据挖掘就是通过采用自动或半自动的手段,对数据进行一定的处理,从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,发现和提取有意义的、隐含在其中的、人们事先不知道的、但又是有效的、新颖的、潜在有用的、最终可被理解的信息和知识的过程。从另外一个方面来说,数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。与数据挖掘相近的同义词有知识提取、数据融合、数据/模式分析、数据考古学、数据捕捞和信息收获等等。此定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准

4、的知识,仅支持特定的发现问题。4. 数据挖掘基本概念的区分 数据挖掘与传统分析方法传统的数据分析如查询、报表、联机应用分析等数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所得到的信息应具有先未知,有效和可实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 数据挖掘和知识发现 知识发现被认为是从数据中发现有用知识的整个过程,是用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后隐藏的知识。知识发现研究的问题有:定性知识和定量知识的发现;知识发现方法;知识发现的应用等。 数据挖掘和数据仓

5、库 数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中(见图6-1)。数据挖掘库是数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。数据源数据挖掘库数据源数据仓库各分公司数据集市分 析数据集市数据挖掘数据集市图6-1 数据挖掘库从数据仓库中得出图6-2 数据挖掘库从事务数据库中得出 数据挖掘与信息处理 信息处理基于查询,可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂

6、的模式,或隐藏在数据库中的规律。 数据挖掘与联机分析(OLAP) OLAP分析过程在本质上是一个演绎推理的过程,是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么,OLAP则更进一步告诉你下一步会怎么样和如果采取这样的措施又会怎么样。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。数据挖掘在本质上是一个归纳推理的过程,与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,OLAP工具能起辅助决策作用。而且在知识发现的早期阶段,OLA

7、P工具用来探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。 数据挖掘与人工智能、统计学 数据挖掘是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。数据挖掘就是充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。数据挖掘分析海量数据。许多数据库都不适合统计学分析需要。 5. 数据挖掘系统的分类 根据数据模型分类,可以分为有关系的、事务的、面向对象的、对象-关系的、或数据仓库的数据挖掘系统

8、。 根据所处理的数据的特定类型分类,可以分为有空间的、时间序列的、文本的、或多媒体的数据挖掘系统,或WWW 数据挖掘系统。 根据数据挖掘的功能,可以分为特征、区分、关联、聚类、局外者、趋势和演化分析、偏差分析、类似性分析等数据挖掘系统。 根据所挖掘的知识的粒度或抽象层进行区分,包括泛化知识(在高抽象层)、原始层知识(在原始数据层)或多层知识(考虑若干抽象层)。一个先进的数据挖掘系统应当支持多抽象层的知识发现。 5. 数据挖掘系统的分类 根据所用的技术分类:这些技术可以根据用户交互程度(例如,自动系统、交互探查系统、查询驱动系统),或所用的数据分析方法(例如,面向数据库或数据仓库的技术,机器学习

9、、统计、可视化、模式识别、神经网络等等)描述。 根据挖掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等。 根据挖掘对象可以分为:关系型数据库挖掘、面向对象数据库挖掘、空间数据库挖掘、时态数据库挖掘、文本数据源挖掘、多媒体数据库挖掘、异质数据库挖掘、遗产数据库挖掘、Web数据库挖掘。6. 数据挖掘的来源一般情况下,数据挖掘在关系数据库、数据仓库、事务数据库、高级数据库系统和信息库四种数据库上进行。 关系数据库关系数据库是表的集合,每个表都赋予一个唯一的名字。每个表包含一组属性(列或字段),并通

10、常存放大量元组(记录或行)。语义数据模型,如实体-联系(ER)数据模型,将数据库作为一组实体和它们之间的联系进行建模。通常为关系数据库构造ER模型。 数据仓库数据仓库是一个集成的、面向主题的、设计用于决策支持功能的数据库的集合,数据中的每一个数据单元在时间上都是和某个时刻相关的。 一般来讲,数据仓库都很巨大,它存储了几百万条记录。在很多情况下,一个组织可能有几个局部或部门的数据仓库,这常常叫做数据集市。 数据仓库包括以下的数据类别:过去细节数据;当前(新)细节数据;轻度综合数据;高度综合数据;元数据(数据目录或向导)。 事务数据库 事务数据库由一个文件组成,其中每个记录代表一个事务。通常,一个

11、事务包含一个唯一的事务标识号(trans_ID),和一个组成事务的项的列表(如,在商店购买的商品)。事务数据库可能有一些与之相关联的附加表,包含关于销售的其它信息,如事务的日期、顾客的ID号、销售者的ID号、销售分店等等。 高级数据库系统和信息库 高级数据库系统和信息库包含以下6个方面: 空间数据库; 时间数据库和时间序列数据库; 流数据; 多媒体数据库; 面向对象数据库和对象-关系数据库; 异种数据库和历史(legacy)数据库; 文本数据库和万维网(WWW)。7. 数据挖掘研究内容和知识类型主要研究内容基础理论、各种挖掘算法和挖掘语言、数据仓库、可视化技术、定性定量互换模型、智能计算和软计

12、算在数据挖掘中的应用、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现、网络数据挖掘以及对已有知识的维护和再利用等。所发现的类型:即广义知识、概括性描述知识、关联知识、分类知识、预测型知识、偏差型知识。 8. 数据挖掘的应用 电信 :客户群体划分、客户流失性分析、客户信用记分、筛选因特网上的新闻; 银行:聚类(细分)、交叉销售、数据库营销、背景分析; 百货公司/超市:购物篮分析 (关联规则)、预测准客户的需要; 保险:细分,交叉销售,流失(原因分析)、欺诈发现; 信用卡: 欺诈探测,细分; 电子商务:网站日志分析; 税务部门:偷漏税行为探测; 警察机关:犯罪行为分析;

13、医学: 医疗保健。 6.1.2 数据挖掘的功能和主要问题1. 数据挖掘的功能 自动预测趋势和行为。如市场预测、预报破产等。 关联分析。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。 聚类。数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类技术主要包括传统的模式识别方法和数学分类学。 概念描述。就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成区别性描述的方法很多,如决策树方法、遗传算法等。 偏差检

14、测。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。2. 实施数据挖掘项目要考虑的问题 超大规模数据库和高维数据问题; 数据丢失问题; 变化的数据和知识问题; 模式的易懂性问题; 非标准格式的数据、多媒体数据、面向对象数据处理问题; 与其他系统的集成问题; 网络与分布式环境下的KDD问题; 个人隐私问题。 3. 数据挖掘存在的主要问题 数据挖掘技术和用户界面问题。 在数据库中挖掘不同类型的知识。 多个抽象层的交互知识挖掘。 结合背景知识。 数据挖掘查询语言和特定的数据挖掘。

15、 数据挖掘结果的表示和显示。 处理噪音和不完全数据。 模式评估兴趣度问题。 3. 数据挖掘存在的主要问题 性能问题。 数据挖掘算法的有效性和可规模性。即对于大型数据库,数据挖掘算法的运行时间必须是可预计的和可接受的。 并行、分布和增量挖掘算法:许多数据库的大容量、数据的广泛分布和一些数据挖掘算法的计算复杂性是促使开发并行和分布式数据挖掘算法的因素。这些算法将数据划分成部分,这些部分可以并行处理,然后合并每部分的结果。此外,有些数据挖掘过程的高花费导致了对增量数据挖掘算法的需要。增量算法与数据库更新结合在一起,而不必重新挖掘全部数据。3. 数据挖掘存在的主要问题 关于数据库类型的多样性问题: 关

16、系的和复杂的数据类型的处理:数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据、或事务数据。对于不同类型的数据,应该有不同的数据挖掘系统。 由异种数据库和全球信息系统挖掘信息:从具有不同数据语义的结构的、半结构的、和无结构的不同数据源发现知识,对数据挖掘提出了巨大挑战。Web 挖掘发现关于Web 连接、Web 使用和Web 动态情况的有趣知识,已经成为数据挖掘的一个非常具有挑战性的领域。此外,超大规模数据库和高维数据问题;数据丢失问题;变化的数据和知识问题;模式的易懂性问题;非标准格式的数据、多媒体数据、面向对象数据处理问题;与其他系统的集成问题;网络与分布式环境下的KDD问

17、题;个人隐私问题也是数据挖掘项目应该考虑的问题。 613 数据挖掘成功案例1. 雅虎数据挖掘成功案例 阅读邮件和阅读新闻的相关性一个例子雅虎电子邮箱。通过对用户使用行为的意外模式分析,发现在每次会话中,人们阅读邮件和阅读新闻的行为之间存在很强的相关关系。研究人员把这个发现传达给雅虎电子邮箱产品小组,他们首先想到的就是验证这种关系的影响。 即时通信对雅虎通的使用情况进行了分析,结果发现,最重要的因素是让用户扩大他们的“好友列表”,至少增加5个新的好友。据此雅虎精心设计了相应的营销活动,鼓励用户增加好友列表中的好友数。 雅虎首页的搜索框一个简单的例子就是发现,在雅虎的首页上,把搜索框放在居中的位置

18、(而不是以前的左侧)将提高用户的用量。这个结果是首先发现Netscape浏览器的用户比IE的用户更多地使用了搜索功能。2. NBA数据挖掘成功案例今天,NBA的教练有了他们的新式武器:数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。Advanced Scout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过

19、搜索NBA比赛的录像来理解统计发现的含义。例如:教练通过Advanced Scout发现本队的球员在与对方一个球星对抗时有犯规纪录,他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作,进而设计合理的防守策略。3. 商业银行数据挖掘成功案例例如,美国Firstar银行等使用的Marksman数据挖掘工具,能读取800到1000个变量并且给它们赋值,可以根据消费者的家庭贷款、赊帐卡、储蓄、投资产品等,将客户分类,进而预测何时向哪类客户提供哪种产品 。Mellon银行使用智能代理数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。Mellon银行销售部在先期数据挖掘项目上使用智能代

20、理寻找信息,主要目的是确定现有Mellon用户购买特定附加产品:家庭普通信贷限额的倾向,利用该工具可生成用于检测的模型。智能代理可帮助用户增强其商业智能,如交往、分类或回归分析,依赖这些能力,可对那些有较高倾向购买银行产品、服务产品和服务的客户进行有目的的推销。4. 沃尔玛的经典案例 一般看来,啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单,一般太太让先生下楼买尿布的时候,先生们一般都会犒劳自己两瓶啤酒。因此啤酒和尿布一起购买的机会是最多的。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据

21、挖掘的诞生。 62 数据挖掘的方法步骤和语言工具 621 数据挖掘的方法 分析和预测方法。数据挖掘中大量采用统计分析方法,如描述统计、概率论、回归分析(线性回归、非线性回归、多元回归、泊松回归、对数回归)、时间序列分析、多元分析等。 粗糙集。把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集。粗糙集理论主要特点在于它恰好反映了人们用粗糙集方法处理不分明问题的常规性,即以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力。 621 数据挖掘的方法 模糊集。模糊集合论用隶属程度来描述差异的中间过渡,是一种用精确

22、的数学语言对模糊性进行描述的方法。定义:论域X=x上的模糊集合A由隶属函数A(x)来表征。其中A(x)在实轴的闭区间0,1中取值,A(x)的大小反映x对于模糊集合A的隶属程度。 A(x)的值接近1,表示x隶属于A的程度很高。 A(x)的值接近0,表示x隶属于A的程度很低。特例,当A的值域取0,1闭区间的两个端点,亦即0和1两个值时,A便退化为一个普通的逻辑子集。隶属函数也就退化为普通逻辑值。 621 数据挖掘的方法 聚类分析。聚类是对物理的或抽象的对象集合分组的过程。聚类生成的组为簇,簇是数据对象的集合。簇内部任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。 主要方

23、法有:划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法。 关联规则。它反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。 发现关联规则需经如下两步: 找出所有频繁项; 由频繁项集生成满足最小信任度阈值的规则。 621 数据挖掘的方法 决策树。它首先通过一批已知的训练数据建立一棵决策树,然后采用建好的决策树对数据进行预测。常用的方法有分类及回归树法、卡方自动交互探测法等。 人工神经网络。一种模仿人脑思考结构的数据分析模式,由输入变量或数值中自我学习并根据学习经验所得的知识不断调整参数,以

24、期得到资料的模式。它可以对大量复杂的数据进行分析,并能完成对人脑或计算机来说极为复杂的模式抽取及趋势分析。比较典型的学习方法是回溯法。通过将输出结果同一些已知值进行一系列比较,加权值不断调整,得到一个新的输出值,再经过不断的学习过程,最后该神经网络得到一个稳定的结果。 多媒体数据挖掘。就是通过综合分析多媒体数据的内容和语义,从大量多媒体数据中发现隐含的、有效的、有价值的、可理解的模式,得出事件的发展趋向和关联关系。 621 数据挖掘的方法 数据可视化。可视化工具可以通过适当的图形来表示数据,并支持多维数据的可视化,为数据分析人员提供很好的帮助。有些工具甚至提供动画功能。 遗传算法。它应用算法的

25、适应函数来决定搜索的方向,运用一些拟生物化的人工运算过程进行一代一代的周而复始的演化,求得一个最佳结果。 近邻算法。依据“Do as your neighbors do”的原则,相邻数据必然有相同的属性或行为。Knearest邻居方法的含义为:K表示某个特定数据的K个邻居,可以通过K个邻居的平均数据来预测该特定数据的某个属性或行为。621 数据挖掘的方法 连机分析处理。简称OLAP,是基于大型数据库或数据仓库的信息分析过程和用户接口部分,其目的是满足决策支持或多维环境特定的查询和报表要求。OLAP主要是对用户当前及历史数据进行分析,辅助决策。其典型的应用有对银行信用卡风险的分析与预测等,主要是

26、进行大量的查询操作,对时间的要求不太严格。 多层次数据概化归纳:数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集合归纳成高概念层次信息的数据挖掘技术被称为数据概化。概念汇总将数据库中的相关数据由低概念层抽象到高概念层,主要有数据立方体和面向属性两种方法。622 数据挖掘语言 数据挖掘语言的研究经历了两个阶段,第一个阶段成果包括DMQL、MSQL和MINE RULE操作器等。第二阶段主要包括数据挖掘组织协会(DMG)提出的预言模型标记语言PMML,以及微软公司提出的OLE DB for Data Mining规范。 根据功能和侧重点不同,可将数据挖掘分为三种类型:数据挖掘查询语言

27、、数据挖掘建模语言、通用数据挖掘语言。第一阶段的数据挖掘语言一般属于查询语言;PMML属于建模语言;OLE DB for DM属于通用数据挖掘语言。下面我们分别介绍其特点和功能。 1. 数据挖掘查询语言 数据挖掘查询语言DMQL(Data Mining Query Language)由数据挖掘原语组成,该原语用来定义一个数据挖掘任务。这些原语有以下几个种类:数据库一部分的规范以及用户感兴趣的数据集(包括感兴趣的数据库属性或数据仓库的维度);挖掘知识的种类;在指导挖掘过程中有用的背景知识;模式估值的兴趣度测量;以及挖掘出的知识如何可视化表示。数据挖掘原语允许用户在挖掘过程中从不同的角度或深度与数

28、据挖掘系统进行交互式地通信。1. 数据挖掘查询语言 五种基本的数据挖掘原语定义: 任务相关数据原语。用户感兴趣的数据集,及表中感兴趣的属性。包括:数据库或数据仓库的名称;数据库表或数据仓库的立方体;数据选择的条件;相关属性或维;数据分组定义。 被挖掘知识的种类原语。该原语指定被执行的数据挖掘的功能,分为五类:特征规则、辨别规则、关联规则、分类/预言、聚集。 背景知识原语。用户能够指定的背景知识。包括:概念层次、对数据关系的用户信任度。 兴趣度测量原语。这个功能是将不感兴趣的模式从知识中排除出去。低于用户指定的支持度和可信度阈值的规则被认为是不感兴趣的。兴趣度测量原语包括:简单性、确定性(比如:

29、可信度)、效用、新颖性等。 被发现模式的表示和可视化原语。这个原语定义被发现的模式显示的方式,用户能够选择不同的知识表示形式。包括:规则、表格、报告、图表、图形、决策树和立方体、向下钻入和向上累积。 1. 数据挖掘查询语言 除了DMQL以外,还有一些其它数据挖掘查询语言。比如基于SQL的多媒体查询语言(MSQL)使用了类似SQL的语法和SQL原语(包括排序、分组、和其它原语),能在数据挖掘中可能产生大量的规则。 MSQL提供了一个称作GetRule和SelectRule的原语,用于规则产生和规则选择。它统一地对待数据和规则,因此,能够在执行数据选择,以及基于查询的规则产生时进行优化工作,同时也

30、能在操纵或者查询产生规则的集合时进行优化。其它在数据挖掘语言设计方面的研究工作包括MINE RULE操作器。它同样遵循类似SQL的语法,是为挖掘关联规则设计的规则产生查询语言。 2. 数据挖掘建模语言 预言模型标记语言PMML(Predictive Model Markup Language)PMML主要目的是允许应用程序和联机分析处理(OLAP)工具能从数据挖掘系统获得模型,而不用独自开发数据挖掘模块。另一个目的是能够收集使用大量潜在的模型,并且统一管理各种模型的集合。PMML是一种基于扩展性标识语言(XML)的语言,用来定义预言模型。通过使用XML解析器,应用程序能够决定模型输入和输出的数

31、据类型、模型详细的格式,并且按照标准的数据挖掘术语来解释模型的结果。 PMML对于那些需要全部学习、部分学习和分布式学习的应用程序,这种语言被证明是非常有用的。特别地,PMML非常适合部分学习、元学习、分布式学习、以及相关领域。使用PMML进行模型定义由以下几部分组成: 头文件;数据模式;数据挖掘模式;预言模型模式;预言模型定义;全体模型定义;选择和联合模型和全体模型的规则;异常处理的规则。3. 通用数据挖掘语言 通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互和特殊的挖掘。 OLE DB for DM归类成通用数据挖掘语言。 OLE

32、 DB for DM的规范包括创建原语以及许多重要数据挖掘模型的定义和使用。它是一个基于SQL预言的协议,为软件商和应用开发人员提供了一个开放的接口。OLE DB for DM扩充了SQL语言语法,使得商业分析和开发人员只是调用单一确定的API(应用程序接口)函数即可实现数据挖掘功能,而不需要特殊的数据挖掘技能。 OLE DB for DM定义了重要的新的概念和特点,包括如下几点: 数据挖掘模型DMM(Data Mining Model)。 预言联接操作。 OLE DB for DM模式行集合。 623 数据挖掘的工具 1. 数据挖掘工具分类数据挖掘工具根据其适用的范围分为两类:专用数据挖掘工

33、具和通用数据挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,采用的是特殊的算法,可以处理特殊的数据,实现特殊的目的,并作了优化;而通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,可以做多种模式的挖掘,挖掘什么和用什么来挖掘都由用户根据自己的应用来选择。 2. 数据挖掘工具的选择根据以下几点选择数据挖掘工具: 数据挖掘的功能性。 数据挖掘工具的可伸缩性。 操作的简易性。 数据挖掘工具的可视化。 数据挖掘工具的开放性。另外对数据挖掘工具还应考虑是否有多种模式、多种算法、多种校验方法,是否有较好的数据选择和转换、较好的操作性能和数据存取能力、接口功能的好

34、坏等。 3. 数据挖掘工具介绍 QUESTQUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,系统具有如下特点: 提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。 各种开采算法具有近似线性计算复杂度,可适用于任意大小的数据库。 算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。 为各种发现功能设计了相应的并行算法。3. 数据挖掘工具介绍 MineSetMineSet是由SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。MineSet集成多种数据挖掘算法和可视化工具,帮助用户直观地

35、、实时地发掘、理解大量数据背后的知识。MineSet有如下特点: MineSet以先进的可视化显示方法闻名于世。 支持多种关系数据库。可以直接从Oracle、Informix、Sybase的表读取数据,也可以通过SQL命令执行查询。 多种数据转换功能。 操作简单、支持国际字符、可以直接发布到Web。3. 数据挖掘工具介绍 DBMinerDBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统。设计目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner系统具有如下特色: 能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化

36、知识、偏离知识等。 综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。 提出了一种交互式的类SQL语言数据开采查询语言DMQL。 能与关系数据库平滑集成。 实现了基于客户/服务器体系结构的Unix和PC(Windows/NT)版本的系统。 3. 数据挖掘工具介绍 Intelligent Miner由美国IBM公司开发的数据挖掘软件Intelligent Miner是一种分别面向数据库和文本信息进行数据挖掘的软件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。前者可以挖掘包含在数据

37、库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等;后者允许企业从文本信息进行数据挖掘,文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。3. 数据挖掘工具介绍 SAS Enterprise Miner这是一种在我国的企业中得到采用的数据挖掘工具,比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。SAS Enterprise Miner是一种通用的数据挖掘工具,按照抽样-探索-转换-建模-评估的方法进行数据挖掘。可以与SAS数据仓库和OLAP集成

38、,实现从提出数据、抓住数据到得到解答的端到端知识发现。3. 数据挖掘工具介绍 SPSS ClementineSPSS Clementine是一个开放式数据挖掘工具,不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准-CRISP-DM。Clementine提供了多种图形化技术,有助理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。其它常用的数据挖掘工具还有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的数据挖掘软件Snob、Ashraf Azmy 的SuperQuery

39、 、WINROSA 、XmdvTool 等。624 数据挖掘的流程1. 数据挖掘环境人们可以对大型数据库中先前未知的数据进行分析、研究、变换、筛选、过滤、综合和预处理。可以通过可视化的工具对挖掘出的规律和模式进行解释、评价和验证,用户可能要使用各类可视化工具来显示有关数据 。数据库数据挖掘工具可视化工具图6-3 数据挖掘环境示意图2. 数据挖掘的过程图6-4 数据挖掘的基本过程和主要步骤3. 数据挖掘需要的人员 数据挖掘在不同的阶段需要有不同专长的人员,他们大体可以分为以下三类: 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 数据分析人

40、员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。 63 数据挖掘系统的组构及管理策略 数据挖掘系统的组成 数据清理 数据集成数据仓库数据 库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库过滤图6-5 数据挖掘的系统组成数据挖掘逻辑模型 挖掘系统管理器DB接口数据选择挖掘引擎抽取算法评价发现描述知 识 库数据库分析员输入领域知识发现图6-6 数据挖掘逻辑模型数据挖掘系统的架构 用户接口挖掘管理器用户转换器挖掘向导模式筛选各种形式的知识挖掘内核分类方法聚类方法关联分析可视化方法其他数据挖掘方法模式表达与解释

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论