数据挖掘主要工具软件简介_第1页
数据挖掘主要工具软件简介_第2页
数据挖掘主要工具软件简介_第3页
数据挖掘主要工具软件简介_第4页
数据挖掘主要工具软件简介_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘主要工具软件简介Dataminning指一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消赛者喜好和行为的方法。前面介绍了报表软件选购指南,本篇介绍数据挖掘常用工具。市场上的数据挖掘工具一般分为三个组成部分:a、通用型工具;b、综合/DSS/OLAP数据挖掘工具;c、快速发展的面向特定应用的工具。通用型工具占有最大和最成熟的那部分市场。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,其中包括的主要工具有IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统、SASEnterpriseMiner.IBMIntelligentMiner.OracleDarwin.SPSSClementine.UnicaPRW等软件。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。综合数据挖掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。这些综合工具包括CognosScenario和BusinessObjects等。面向特定应用工具这一部分工具正在快速发展,在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向的、贯穿这一领域的方方面面其常用工具有重点应用在零售业的KD1、主要应用在保险业的Option&Choices和针对欺诈行为探查开发的HNC软件。下面简单介绍几种常用的数据挖掘工具:QUESTQUEST是旧M公司Almaden研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。为各种发现功能设计了相应的并行算法。MineSetMineSet是由SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。MineSet集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet2.6有如下特点:MineSet以先进的可视化显示方法闻名于世。MineSet2.6中使用了6种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果,以便更好地理解。MineSet2.6中的可视化工具有SplatVisualize、ScatterVisualize、MapVisualize、TreeVisualize、RecordViewer、StatisticsVisualize、ClusterVisualizer,其中RecordViewer是二维表,StatisticsVisualize是二维统计图,其余都是三维图形,用户可以任意放大、旋转、移动图形,从不同的角度观看。(2) 提供多种数据挖掘模式。包括分类器、回归模式、关联规则、聚类归、判断列重要度。(3) 支持多种关系数据库。可以直接从Oracle、Informix、Sybase的表读取数据,也可以通过SQL命令执行查询。(4) 多种数据转换功能。在进行挖掘前,MineSet可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。(5) 操作简单。(6) 支持国际字符。(7) 可以直接发布到Web。DBMinerDBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner系统具有如下特色:(1) 能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。(2) 综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。(3)提出了一种交互式的类SQL语言一一数据开采查询语言DMQL。(4)能与关系数据库平滑集成。(5)实现了基于客户/服务器体系结构的Unix和PC(Windows/NT)版本的系统。IBMIntelligentMinerRM公司以它在美国及世界各地的研究实验室发展数年的资料探勘解决方案,发展出了一系列包括在人工智能、机制学习、语言分析及知识发掘上的应用和基本研究的精密软件。旧M的IntelligentMiner在资料探勘工具的领导地位上是极具竞争力的,因为它提供了以下的好处:包含了最广泛的资料探勘技术及算法,可容纳相当大的资料量的能力且有强大的计算能力;事实上,这套产品在旧MSP的大量平行硬件系统上执行效率最好,这套产品也可以在RM或非旧M平台上执行丰富的APIs可用来发展自定的资料探勘应用软件;所有资料探勘引擎和资料操作函式可以透过C函式库来存取IntelligentMiner支持classification,prediction,associationrulesgeneration,clustering,sequentialpatterndetection和timeseriesanalysis算法,IntelligentMiner藉由利用精密的资料可视化技术及强大的Java-based使用者接口来增加它的可用性(目标大多锁定在有经验的使用者),IntelligentMiner支持DB2关系型数据库管理系统,并整合大量精密的资料操作函式结论整体而言,IntelligentMiner(forData)是市场上最大容量及功能强大的工具,在顾客评定报告中它的整体效能是最好的,有所算法的效能甚至比其它应用不同的应用软件还要好,IBM将它定位在企业资料探勘解决方案的先锋。SASEnterpriseMinerSASEnterpriseMiner在资料探勘工具市场是非常杰出的工具,它运用了SAS统计模块的力量和影响力,且它增加了一系列的资料探勘算法,SAS使用它的取样、探测、修改、模式、评价(SEMMA)方法提供可以支持广泛的模式,包含合并、丛集、决策树、类神精网络、和统计回归SASEnterpriseMiner适用于初学者及专业使用者,它的GUI接口是以资料流为导向,且它容易了解及使用,它允计分析师藉由使用连结连接资料节点及程序节点的方式建构一视觉数据流程图,除此之外,接口还允许程序码直接嵌入资料流因为支持多重模式。EnterpriseMiner允许使用者比较models和利用评估节点所选择之最适模式,除此之外,EnterpriseMiner提供产生评定模式之评定节点能够存取任何SAS应用软件结论SAS利用它在统计分析软件上的专业来发展全功能、易于使用、可靠且可管理的系统,有大范围的模式选项和算法、设计良好的使用者接口、利用已存在的资料储存能力,和在统计分析上相当大的市场占有率(允许公司取得SAS新增的组件比增加一套新的工作来得好多了),对SAS来说,它在资料探勘市场上终究还是领导者整体而言,这个工具适用于企业在资料探勘的发展及整个CRM的决策支持应用.6、OracleDarwinDarwin常被认为是最早资料探勘工具之一,可见它的知名度,最近,Oracle从ThinkingMachines公司取得Darwin来加强它的产品系列?S别是CRM方面,资料探勘可以扮演一个重要的角色,以下将讨论由ThinkingMachines公司发展和行销的Darwin之特色(Oracle也许决定改变任何组件及工具架构)Darwin资料探勘工具组是一个复杂的产品,包含了三个资料探勘工具:neuralnetworks.decisiontree、和K-nearestneighbor,Darwinneuralnetworktool(Darwin-Net)提供广泛的model建立工具组,它可以处理明确和连续预测因素和目标变量且可以用于分类、预测及预测问题决策树工具(DarwinTree)使用CART算法,且可以用于以明确和连续变量来分类问题解决,K-nearestneighbor工具(DarwinMatch)可用于以明确相依变量,和明确且连续预测变量来分类问题解决虽然每个组件工具有一些缺点,Darwin包含了模式评价的完全功能组,它可对所有模式型态产生summarystatistics、confusionmatrices、lifttablesDarwin提供初学者及专家相当好的使用者接口,虽然接口显得较适合专业使用者从一个大量并行计算机的第一制造者可知,Darwin在处理效能及范围有强大的优势,它的算法对并行计算是最适合的,且有足够的弹性执行平行及循序架构,Oracle当然不会忽视这种能力,且它定位在帮助Oracle成为可以包含到一个大型的全球企业的数据库及应用产品的首要厂商主要使用的算法为neuralnetwork.decisiontrees和K-nearestneighborneuralnetwork-trainingalgorithms包含backpropagation,steepestdescent,modifiedNewton等方法decisiontree使用CARTalgorithms可选择所需的子树数目自动的修改决策树K-nearestneighboralgorithm是memory-basedreasoning(MBR)技术,它可依训练组中K最接近的匹配记录来预测相依变量值结论Darwin的优点是支持多重算法(计画加入基因算法及人工智能逻辑)它可在多种主从式架构上执行,服务器端可以是单处理器、同步多处理器或大量平行处理器,在多处理器服务器上,Darwin可以取得硬件及大范围能力的优势,Darwin证明了强大的效能及大范围的能力,整体而言,Darwin定位在中、大范围的执行.7、Clementine(SPSS)Clementine是SPSS所发行的一种资料探勘工具,此工具结合了多种图形使用者接口的分析技术,包含neuralnetworks、associationrules、及rule-inductiontechniques,这些工具提供容易使用的可视化程序环境来执行这些分析功能。Clementine使用图形象征的方法,就是透过托拉鼠标和连接屏幕上的功能节点,这些节点提供了dataaccess、datamanipulation,datavisualization,machinelearning以及modelanalysis,模式的组成是从一个pallet中选取合适之节点,并放置在屏幕上再连接各节点Clementine有强大的资料存取能力包含flatfile及关系型数据库(经由ODBC),Clementine也可让modeling的结果持续的写回一ODBC的DBMS输入资料的操作包含配对合并及衍生新字段的能力,Clementine的资料可视化能力包含散布图、平面图及Web分析.8、ThoughtandScenario(Cognos)Cognos介绍两个资料探勘工具的组合:4Thought和Scenario来巩固它在OLAP市场的位置,这些工具藉由利用neuralnetworks和CHAID技术提供资料探勘能力,一般而言,Cognos所有平台和特殊用途的窗口环境都支持这些工具,这两个工具都需要电子表格、数据库和ASCII文字文件作为资料来源4Thought可以处理在寻求价格最佳化、需求预测及效能预测及衡量等各种商业问题,4Thought使用multilayerperceptronOLAP、neuralnetwork技术,适用于分析问题,处理non-linearforms、noisydatal及smalldatasets,4Thought提供了两个主要的分析limeseriesanalysis及customerprofiling,timeseriesanalysis寻找周期性的行为趋势,而customerprofiling处理人口统计资料,例如,预测—顾客是否会购买一特定的产品Scenario是设计用来分类及结合问题;它可以找出一资料组中变量间的关系,Scenario使用Chi-squaredAutomaticInteractionDetection(CHAID),且可以产生多种对预测变量划分的方法,Scenari。提供不同的分析策略、自动取样及决策树的产生,然而,Scenario并不是用来处理分类的目标变量,Scenario在资料探测及可视化是十分强大的Scenario及4Thought的共同优点是他们广泛且直觉的使用者接口,他们的目标锁定在初学者,它使用绘图表示univariableanalysis或decisiontreemetaphor,且提供一良好的视觉表达方式来表现在区域间的资料变量,趋势分析及相关因素,Scenario有一template可分析从竞争及每季获利信息Cognos表示它将以它的PowerPlay(OLAP)及Impromptu(reporting)应用软件整合4Thought及Scenario.9、DatabaseMiningWorkstation(HNC)HNC是最成功的资料探勘公司之一,它的DatabaseMiningWorkstation(DMW)是一种广为接受的信用卡诈骗分析应用的neuralnetworktool,DMW由Windows-basedsoftwareapplications和customprocessingboard所组成,其它HNC产品包含Falcon和ProfitMax在财务服务及HNC打算要在通讯业中扩张的AdvancedTelecommunicationsAbuseControlSystem(ATACS)诈骗侦测解决方案之应用DMWneuralnetwork支持backpropagationneuralnetwork且可以自动及手动的模式来作业,它的模式可以使用广泛的统计和计算预测变量和对一相依变量的敏感度之相关性的功能来解释DMW提供大量的使用者定义选项允许在算法修改、资料准备、和操作函式上有很大的弹性,DMW有效的处理明确且连续的变量,并且可以用于预测、分类、及预测问题,DMW提供初学者及有经验使用者包含进阶调整选项及描述能力之接口,DMW也提供可用于直销活动的商业templateDMW在产生精确及有效预测模式上是十分优异的,它的处理效能及范围足以支持主要的信用卡处理需求结论DMW是强大、成熟的产品,且市场接受度非常好,它的诈骗侦测/分类应用可用于实时分析信用卡交易,这是它在范围及效能上最好的证明.10、DecisionSeries(NeoVista)NeoVista解决方案的DecisionSeries是广泛使用的资料探勘工作,这间公司是由大量平行硬件厂商MasPar公司所发展出来的,类似于Darwin,这就具有了强大的理解及可调整范围之执行方式,高效能资料探勘解决方案DecisionSeries是一提供整合可描述及预测分析算法的datamining及knowledgeenvironment,算法在执行由使用者自定的各种控件是非常有效率的,分析能力包含clustering,associationrules,neuralnetworks、及decisiontree,DecisionSeries以资料存取及资料转换弓I擎完全的整合这些算法,因为公司的背景,它可以在公司所宣称达到近线性范围能力的SMP系统中高度的调整并行操作,工具的范围能力可在零售业的存货管理中的调度得到证明,DecisionSeries可用于每周零售商分析销售点资料,资料可表示大约70GB从使用能力的观点来看,DecisionSeries定位在有经验的老手所使用的工具,NeoVista发展易于使用的GUI接口,且提供专家顾问服务(称之为KnowledgeDiscoveryEngineers,或KDE),它们常workingon-site部分的prototype或pilotproject工具的软件架构是由几个组件和以对象导向设计所组成的,资料探勘引擎建立在资料存取及资料转换层的顶端,也提供了另一引擎称为DecisionAccess,资料探勘引擎继承DecisionAccess特性且因此可以容易的连结在一起结论DecisionSeries是一强大的产品,它在架构及资料探勘算法上是十分优异的,且可以调整范围和采取平行硬件架构的优点,在使用者评估上,它在确定的问题类别时,在范围能力、预测精确及处理时间上执行得非常好,整体而言,DecisionSeries定位于大范围分析的执行.KnowledgeSEEKERandKnowledgeStudio(Angoss)AngossSoftware所开发的KnowledgeSEEKER(KS)是一套决策树资料探勘工具,它使用CART及CHAID为决策树的算法用以找出资料组中预测因素和相依变量间的关系,就其本身而论,KS可以明确且连续的相依变量用来分类问题这套工具的主要定位在于资料探测能力,它的使用者接口提供决策树模式的图形表示,使用者可以选择每一个分枝及指定预测变量群,在自动方式下,所有产生的分枝也是可用的,KS提供专业使用者大量的调整能力,包含修改算法或限制树的成长,KS包含它的统计推论引擎的AIP可以用C产生模式和汇入它们的结果到外部应用程序结论KnowledgeSEEKER是在目标行销上可调整顾客范围大小之一套成熟的软件,在顾客的评比中,它的效能和精确度都是适当的为了维持产品的气势Angoss在1998年5月扩充KnowledgeSEEKER成大型分析架构,称为KnowledgeStudio,它整合了各厂商的资料探勘组件成为共同的环境,藉由提供决策树、类神精网络、网页接口及Java的可移植性,Angoss计画将KnowledgeStudio定位成资料仓储发展的关键组件,KnowledgeStudio也利用Windows的兴起,推出了SDK,SDK使用ActiveX技术帮助其将产品嵌入垂直应用软件,Angoss已经和数家厂商发展高度的合作,包含Cognos、MCI/SHL、AT&T及Tandem.Model1andPatternRecognitionWorkbench(Unica)最近在资料探勘市场的调查,Unica估计在旧1^及InformationDiscovery之后有大约9%的市场占有率,这显示出Unica已整合了Model1(原来是Group1)和它自己的PatternRecognitionWorkbench(PRW)•PRW是一般的资料探勘工具,因此Model1对Unica而言是垂直应用软件,而且它在公司中似乎是成长的产品线,Model1是高度自动化的资料探勘工具,它支持大量的目标行销分析能力•Model1工具包含ResponseMode

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论