17.数据挖掘软件和工具介绍_第1页
17.数据挖掘软件和工具介绍_第2页
17.数据挖掘软件和工具介绍_第3页
17.数据挖掘软件和工具介绍_第4页
17.数据挖掘软件和工具介绍_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘语言、软件和工具介绍王成(副教授)华侨大学计算机科学与技术学院八月 11, 2022DMKD Sides By MAO2数据挖掘语言、软件和工具介绍 内容提要数据挖掘语言数据挖掘软件数据挖掘工具八月 11, 2022DMKD Sides By MAO3数据挖掘语言概述设计理想的数据挖掘语言是一个巨大的挑战。这是因为数据挖掘覆盖的任务宽、包含知识形式广(如数据特征化、关联规则、数据分类、聚集等等)。每个任务都有不同的需求,每种知识表示形式都有不同内涵。一个有效的数据挖掘语言设计需要对各种不同的数据挖掘任务的能力、约束以及运行机制有深入地理解。众所周知,关系查询语言的标准化,发生在关系型数

2、据库开发的早期阶段。经过不懈的努力,以SQL为代表的关系型数据库查询语言的标准化被成功解决。同样,一个好的数据挖掘语言可以有助于数据挖掘系统平台的标准化进程,甚至可以象HTML推动Internet的发展一样,推动数据挖掘行业的开发和发展。数据挖掘语言的发展大致经历了两个阶段:第一个阶段是研究单位和公司自行研究和开发阶段;第二阶段是研究单位和公司组成联盟,研制和开发数据挖掘语言标准化的阶段。 八月 11, 2022DMKD Sides By MAO4数据挖掘语言概述根据功能和侧重点不同,数据挖掘语言可以分为三种类型:数据挖掘查询语言:希望以一种像SQL这样的数据库查询语言完成数据挖掘的任务。 数

3、据挖掘建模语言:对数据挖掘模型进行描述和定义的语言,设计一种标准的数据挖掘建模语言,使得数据挖掘系统在模型定义和描述方面有标准可以遵循。通用数据挖掘语言:通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互式挖掘。通用数据挖掘语言的标准化是目前解决数据挖掘行业出现问题的颇具吸引力的研究方向。八月 11, 2022DMKD Sides By MAO5数据挖掘查询语言J. W. Han等开发的数据挖掘系统DBMiner中数据挖掘查询语言DMQL(Data Mining Query Language)是这类挖掘语言的典型代表。数据挖掘查询语言D

4、MQL由数据挖掘原语组成,数据挖掘原语用来定义一个数据挖掘任务。用户使用数据挖掘原语与数据挖掘系统通信,使得知识发现更有效。这些原语有以下几个种类:数据库部分以及用户感兴趣的数据集(包括感兴趣的数据库属性或数据仓库的维度);挖掘知识的种类;在指导挖掘过程中有用的背景知识;模式估值的兴趣度测量;挖掘出的知识如何可视化表示。数据挖掘查询的基本单位是数据挖掘任务,通过数据挖掘查询语言,数据挖掘任务可以通过查询的形式输入到数据挖掘系统中。一个数据挖掘查询由五种基本的数据挖掘原语定义。 八月 11, 2022DMKD Sides By MAO6数据挖掘建模语言数据挖掘建模语言是对数据挖掘模型进行描述和定

5、义的语言。预言模型标记语言”(Predictive Model Markup Language,PMML)被一个称作数据挖掘协会(The Data Mining Group,DMG)的组织开发。PMML是一种基于XML的语言,用来定义预言模型。PMML允许应用程序和联机分析处理(OLAP)工具能从数据挖掘系统获得模型,而不用独自开发数据挖掘模块。PMML的模型定义由以下几部分组成:头文件(Header);数据模式(Data Schema);数据挖掘模式(Data Mining Schema);预言模型模式(Predictive Model Schema);预言模型定义(Definitions

6、for Predictive Models);全体模型定义(Definitions for Ensembles of Models);选择和联合模型和全体模型的规则(Rules for Selecting and Combining Models and Ensembles of Models);异常处理的规则(Rules for Exception Handling)八月 11, 2022DMKD Sides By MAO7通用数据挖掘语言通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互式挖掘。通用数据挖掘语言的标准化是目前解决数据

7、挖掘行业出现问题的颇具吸引力的研究方向。2000年3月,微软公司推出了一个数据挖掘语言,称作OLE DB for Data Mining(DM),是通用数据挖掘语言中最具代表性的尝试。微软此举的目的是为数据挖掘提供行业标准。只要符合这个标准,都能容易地嵌入应用程序中。OLE DB for DM支持多种流行的数据挖掘算法。使用OLE DB for DM,数据挖掘应用能够通过OLE DB生产者接进任何表格式的数据源。八月 11, 2022DMKD Sides By MAO8DMQL挖掘查询语言介绍DMQL语言的顶层语法DMQL:=;:=|数据挖掘声明(Data_Mining_Statement)语

8、句相关项说明:=use database | use data warehouse use hierarchy for from where in relevance to order by group by having 例子:use database AllElecronics_dbin relevance to e,C.agefrom customer C, item I, purchases P, items_sold Swhere I.item_ID=S.item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_ID and C.c

9、ountry=“Canada”group by P.date;八月 11, 2022DMKD Sides By MAO9DMQL挖掘查询语言介绍(续)挖掘知识指定(Mine_Knowledge_Specification)语句相关项说明:=| := mine characteristics as analyze := mine comparison as for where versus where analyze := mine associations as matching :=mine classification as analyze 八月 11, 2022DMKD Sides By

10、 MAO10DMQL挖掘查询语言介绍(续)概念分层声明(Concept_Hierarchy_Definition_Statement)相关项说明 :=define hierarchy for on as where 例子:define hierarchy age_hierarchy for age on customer aslevel1: young, middle_aged, senior level0:alllevel2: 20, ., 39 level1: younglevel2: 40, ., 59 level1: middle_agedlevel2: 60, ., 89 level

11、1: senior;define hierarchy profit_margin_hierarchy on item as level1: low_profit_margin level_0: all if (price - cost) $50level1: medium-profit_margin $50) and (price - cost) = $250) level1: high_profit_margin $250;八月 11, 2022DMKD Sides By MAO11DMQL挖掘查询语言介绍(续)模式表示和可视化说明的语法 :=display as | ; := roll u

12、p on | drill down on | add | drop ;其中可以是规则、表、交叉表、饼图或条图、判定树、立方体、曲线或曲面等 八月 11, 2022DMKD Sides By MAO12数据挖掘语言、软件和工具介绍 内容提要数据挖掘语言数据挖掘软件数据挖掘工具数据挖掘软件的发展代特征数据挖掘算法集成分布计算模型数据模型第一代作为一个独立的应用支持一个或者多个算法 独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据第三代和预言模型系统集成

13、多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算设备的数据联合 多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型 数据挖掘软件的发展第一代数据挖掘软件特点支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data) 数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统( ) 缺陷如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。数据挖掘软件的发展第一代数据挖掘软件 CBA

14、新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测二、数据挖掘软件的发展第二代数据挖掘软件特点与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发数据挖掘软件的发展第二代数据挖掘软件 DBMiner数据挖掘软件的发展第二代软件

15、SAS Enterprise Miner数据挖掘软件的发展第三代数据挖掘软件特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成 缺陷不能支持移动环境数据挖掘软件的发展第三代软件 SPSS Clementine以PMML的格式提供与预言模型系统的接口二、数据挖掘软件的发展第四代数据挖掘软件特点目前移动计算越发显得重要,将数据挖

16、掘和移动计算相结合是当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。 工业控制技术研究所数据挖掘软件的发展第一代系统

17、与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预测模型的使用和操作型环境的部署 第二代系统提供数据管理系统和数据挖掘系统之间的有效接口 第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如 IBM Intelligent Score Service。第四代数据挖掘原型或商业系统尚未见报导 数据挖掘软件的发展数据挖掘软件发展的三个阶段独立的数据挖掘软件横向的数据挖掘工具集纵向的数

18、据挖掘解决方案数据挖掘软件的发展独立的数据挖掘软件(95年以前)特点独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如C4.5决策树,平行坐标可视化(parallel-coordinate visualization)。 数据挖掘软件的发展横向的数据挖掘工具集(95年开始)发展原因随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:1)数据库和数据仓库;2)多种类型的数据挖掘算法;3)数据清洗、转换等预处理工作。随

19、着数据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展。 现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决 挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型 数据挖掘软件的发展横向的数据挖掘工具集(95年开始)发展过程随着这些需求的出现,1995年左右软件开发商开始提供称之为“工具集”的数据挖掘软件特点此类工具集的特点是提供多种数据挖掘算法 包括数据的转换和可视化 由于此类工具并非面向特定的应用,是通用的算法集合,可以称之为横向的数据挖掘工具(Horizontal Data Mining

20、Tools) 由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具典型的横向工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等 数据挖掘软件的发展横向的数据挖掘工具集(95年开始)IBM Intelligent MinerSPSS的ClementineSAS的Enterprise MinerSGI的MineSetOracle Darwin数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始)发展原因随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型 从1999年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案(Vertical Solution),即针对特定的应用提供完整的数据挖掘方案 对于纵向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题,而嵌入在应用系统中数据挖掘软件的发展

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论