数据挖掘工具及其选择_第1页
数据挖掘工具及其选择_第2页
数据挖掘工具及其选择_第3页
数据挖掘工具及其选择_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘工具及其选择 一、数据挖掘工具 在数据挖掘技术日益发展的同时,许多数据挖掘的商业软件工具也逐渐问世。数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案。在设计算法的时候,充分考虑到数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。例如,IBM 公司的Advanced Scout 系统针对NBA 的数据,帮助教练优化战术组合;加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT 系统,帮助天文学家发现遥远的类星体;芬兰赫尔辛基大学计算机科学系开发的TASA,帮助预测网络通信中的警报。

2、特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,一般提供六种模式。例如,IBM 公司Almaden 研究中心开发的QUEST 系统,SGI 公司开发的MineSet 系统,加拿大Simon Fraser 大学开发的DBMiner 系统。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。    SAS公司的 Enterprise Miner&

3、#160;    IBM公司的 Intelligent Miner     SPSS公司的 Clementine     Statsoft公司的Statistica Data Miner     DB Miner公司的 DBMiner     NCR公司的Teradata Warehouse Miner     Unica公司的Affinium Model 

4、    Insightful公司的Insightful Miner     Data Miner 公司的RIK, EDM and DMSK     Information Discovery 公司的Data Mining Suite     Angoss 公司的 KnowledgeSTUDIO     Data Mining Technologies 公司的 Nuggets   

5、;  Fujitsu公司的 GhostMiner     Oracle公司的 Darwin下面简单介绍几种数据挖掘工具:1. QUEST QUEST 是IBM 公司Almaden 研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:1、提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。2、各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。3、算法具有找全性,即能将所有满足指定类型的模式全部

6、寻找出来。4、为各种发现功能设计了相应的并行算法。2. MineSet MineSet 是由SGI 公司和美国Standford 大学联合开发的多任务数据挖掘系统。MineSet 集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet 2.6 有如下特点:1、MineSet 以先进的可视化显示方法闻名于世。MineSet 2.6 中使用了6 种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果, 以便更好地理解。MineSet 2.6 中的可视化工具有Splat Visualize

7、、Scatter Visualize、Map Visualize、Tree Visualize、Record Viewer、Statistics Visualize、Cluster Visualizer,其中Record Viewer 是二维表,Statistics Visualize 是二维统计图,其余都是三维图形,用户可以任意放大、旋转、移动图形,从不同的角度观看。2、提供多种数据挖掘模式。包括分类器、回归模式、关联规则、聚类归、判断列重要度。3、支持多种关系数据库。可以直接从Oracle、Informix、Sybase 的表读取数据,也可以通过SQL 命令执行查询。4、多种数据转换功能。

8、在进行挖掘前,MineSet 可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。5、操作简单。6、支持国际字符。7、可以直接发布到Web。3. DBMiner DBMiner 是加拿大Simon Fraser 大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner 系统具有如下特色:1、能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。2、综合了多种数据开采技术:面向属性的归纳、统计分析、

9、逐级深化发现多级规则、元规则引导发现等方法。3、提出了一种交互式的类SQL 语言数据开采查询语言DMQL。4、能与关系数据库平滑集成。5、实现了基于客户/ 服务器体系结构的Unix 和PC(Windows/NT)版本的系统。二、数据挖掘工具的选择如何选择满足自己需要的数据挖掘工具呢?评价一个数据挖掘工具,需要从以下几个方面来考虑:1 可产生的模式种类的多少指本专题第一篇文章提到的六种模式。2 解决复杂问题的能力数据量的增大,对模式精细度、准确度要求的增高都会导致问题复杂性的增大。数据挖掘系统可以提供下列方法解决复杂问题:1、多种模式多种类别模式的结合使用有助于发现有用的模式,降低问题复杂性。例

10、如,首先用聚类的方法把数据分组,然后再在各个组上挖掘预测性的模式,将会比单纯在整个数据集上进行操作更有效、准确度更高。2、多种算法很多模式,特别是与分类有关的模式,可以有不同的算法来实现,各有各的优缺点,适用于不同的需求和环境。数据挖掘系统提供多种途径产生同种模式,将更有能力解决复杂问题。3、验证方法在评估模式时,有多种可能的验证方法。比较成熟的方法像N 层交叉验证或Bootstrapping 等可以控制,以达到最大的准确度。4、数据选择和转换模式通常被大量的数据项隐藏。有些数据是冗余的,有些数据是完全无关的。而这些数据项的存在会影响到有价值的模式的发现。数据挖掘系统的一个很重要功能就是能够处

11、理数据复杂性,提供工具,选择正确的数据项和转换数据值。5、可视化可视化工具提供直观、简洁的机制表示大量的信息。这有助于定位重要的数据,评价模式的质量,从而减少建模的复杂性。6、扩展性为了更有效地提高处理大量数据的效率,数据挖掘系统的扩展性十分重要。需要了解的是:数据挖掘系统能否充分利用硬件资源?是否支持并行计算?算法本身设计为并行的或利用了DBMS 的并行性能?支持哪种并行计算机,SMP 服务器还是MPP 服务器?当处理器的数量增加时,计算规模是否相应增长?是否支持数据并行存储?为单处理器的计算机编写的数据挖掘算法不会在并行计算机上自动以更快的速度运行。为充分发挥并行计算的优点,需要编写支持并

12、行计算的算法。3 易操作性易操作性是一个重要的因素。有的工具有图形化界面,引导用户半自动化地执行任务,有的使用脚本语言。有些工具还提供数据挖掘的API,可以嵌入到像C、Visual Basic 、Power Builder 这样的编程语言中。模式可以运用到已存在或新增加的数据上。有的工具有图形化的界面,有的允许通过使用C 这样的程序语言或SQL 中的规则集,把模式导出到程序或数据库中。4 数据存取能力好的数据挖掘工具可以使用SQL 语句直接从DBMS 中读取数据。这样可以简化数据准备工作,并且可以充分利用数据库的优点(比如平行读取)。没有一种工具可以支持大量的DBMS,但可以通过通用的接口连接大多数流行的DBMS。Microsoft 的ODBC 就是一个这样的接口。5 与其他产品的接口有很多别的工具可以帮助用户理解数据,理解结果。这些工具可以是传统的查询工具、可视化工具、OLAP 工具。数据挖掘工具是否能提供与这些工具集成的简

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论