BI工具调研报告_第1页
BI工具调研报告_第2页
BI工具调研报告_第3页
BI工具调研报告_第4页
BI工具调研报告_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、BI工具调研报告(来源于网络)1. 数据分析11.1 四种前端工具11.2 C/S vs B/S21.3各家产品简介21.3.1 IBM21.3.2 Oracle31.3.3 Sybase31.3.4 Informix41.3.5 CA41.3.6 NCR41.3.7 Microsoft51.3.8 SAS51.3.9 BO51.3.10 Hyperion51.4各家产品比较61.4.1 特色工具61.4.2 成本比较61.4.3 市场份额比较61.4.4 简单与复杂71.4.5 数据存储方式71.4.6 系统开放性82. 数据挖掘82.1 主要功能82.2 常见算法及模型92.3 各厂家产品

2、对比92.4 一般实施步骤112.5 统一模型112.6 应用现状122.7 可能存在的问题121. 数据分析1.1 四种前端工具BI前端应用主要为报表、OLAP以及仪表盘、Portal四种。(1)报表报表的前端主要是面向设计者和浏览者,因此一般报表产品也都会将设计器和浏览器分开。Crystal Report、Cognos ReportNet、Hyperion Brio莫不如此。业界一直流行一个观点国内的报表非常复杂。国外的报表工具在前些年似乎并不适应这种中国式报表,因此也就有了中国本土报表工具的生存之地,诸如润乾、华表等。当然,随着国内企业管理的完善,决策层面对报表的需求也在规范,因此,不论

3、是国外或是国内报表工具,其架构都在趋同。(2)OLAP如果说报表还称不上BI的典型应用的话,那么OLAP就当仁不让了。OLAP的前端主要是将用户的多维分析请求提交给OLAP服务器,并展现返回的数据。这里的多维分析请求主要包括钻取、切片、旋转等操作。在电信行业大规模展开经营分析系统的建设初期,曾经对这项应用寄予很大期望的,不过似乎它不怎么争气。目前已经有标准化组织或企业在定义OLAP前端与服务器数据交换的标准,例如微软、Hyperion、SAS推进的XML,还有基于JAVA API的JOLAP。因此,微软刚收购的ProClarity工具和Hyperion的Brio在OLAP展现上朝这种开放式体系

4、发展也就顺理成章了。(3)仪表盘仪表盘这种前端展现形式随着绩效管理软件的兴起正在流行起来,其界面非常简单,非常适合决策者一目了然了解宏观信息。目前主流的BI厂商BO、Cognos、Hyperion、SAS都有自己的CPM(Corporate Performance Management)产品,当然还有称BPM或EPM的(Business/Enterprise Performance Management)。这种应用主要是向用户展示绩效指标的状态、进度完成情况,提供异常告警等功能。可以说这些前端功能都不复杂,主要的难点还是在于绩效指标的定义以及管理流程的规范上面。(4)Portal1.2 C/S

5、 vs B/S在早期PC机功能尚弱的年代,服务器的计算能力强大,客户端只能做很少的事情;后来,PC机功能逐渐强大,桌面系统的应用变得丰富起来,C/S体系也逐渐成熟;到了90年代,三层结构又逐步取代C/S结构,Web应用大行其道,因为其“零客户端”的部署而备受宠爱;最近几年, AJAX技术出现,应用计算似乎又重新偏向客户端。在整个软件体系的变迁中,BI产品的前端也跟随这个大趋势。如今,几乎每个产品都有自己的Web应用,甚至有些产品出现了将所有的应用前端都转成Web界面的趋势。例如BO,它的报表设计器可以就可以实现在Web上设计报表。 当然,并非所有人都欢迎这种趋势,因为对于决策者,他们希望看到结

6、果,并不需要太多交互,就比较看重界面的简洁;而对于分析师、设计师来说,他们需要的是功能丰富的客户端,方便操纵数据,定制提供给决策者的界面,因此对于报表设计师来说,Web应用倒觉得有些不爽,因为不如传统C/S客户端那样便捷。1.3各家产品简介1.3.1 IBMIBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehou(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。Sybase提供的数据仓库解决方案称为Warehouse Studio,包括数据仓库

7、的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server支持“维”的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAP(Relational

8、 OLAP)服务器,而是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。严格说来,IBM自己并没有提供完整的数据仓库解决方案,该公司采取的是合作伙伴战略。例如,它的前端数据展现工具可以是Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多维分析工具支持Arbor Software的Essbase和IBM(与Arbor联合开发)的DB2 OLAP服务器;统计分析工具采用SAS系统。1.3.2 Oracl

9、eOracle数据仓库解决方案主要包括Oracle Express和Oracle Discoverer两个部分。Oracle Express由四个工具组成:Oracle Express Server是一个MOLAP (多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent通过CGI或Web插件支持基于Web的动态多维数据展现;Oracle Express Objects前端数据分析工具(目前仅支持Windows平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容 Vi

10、sual Basic语法的语言,支持OCX和OLE;Oracle Express Analyzer是通用的、面向最终用户的报告和分析工具(目前仅支持Windows平台)。Oracle Discoverer即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。在Oracle数据仓库解决方案实施过程中,通常把汇总数据存储在Express多维数据库中,而将详细数据存储在Oracle关系数据库中,当需要详细数据时,Express Server通过构造SQL语句访问关系数据库。但目前的Express还不够灵活,数据仓库设计的一个变化往往导致数据库的重构。另外,目前的 Oracle 8i和Expr

11、ess 之间集成度还不够高,Oracle 8i和Express之间需要复制元数据,如果Oracle Discoverer(或BO)需要访问汇总数据,则需要将汇总数据同时存放在Oracle和Express中,系统维护比较困难。值得注意的是,刚刚问世的Oracle 9i把OLAP和数据挖掘作为重要特点。1.3.3 SybaseSybase提供的数据仓库解决方案称为Warehouse Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。其中,Warehouse Architect是PowerDesigner中的一个设计模块,它支持星形模型、雪花模型和

12、ER模型;数据抽取与转换工具包括PowerStage、 Replication Server、Carleton PASSPORT,PowerStage是Sybase提供的可视化数据迁移工具。 Adaptive Server Enterprise是Sybase企业级关系数据库,Adaptive Server IQ是Sybase公司专为数据仓库设计的关系数据库,它为高性能决策支持系统和数据仓库的建立作了优化处理,Sybase IQ支持各种流行的前端展现工具(如Cognos Impromptu、Business Objects、Brio Query等);数据分析与展现工具包括PowerDimensi

13、ons、EnglishWizard、InfoMaker、PowerDynamo等, PowerDimensions是图形化的OLAP分析工具,它支持SMP和多维缓存技术,能够集成异构的关系型数据仓库和分布式数据集市,从而形成单一的、新型的多维模式;数据仓库的维护与管理工具包括Warehouse Control Center、Sybase Central、Distribution Director,其中Warehouse Control Center是为数据仓库开发人员提供的元数据管理工具。 Sybase提供了完整的数据仓库解决方案Quick Start DataMart,具有良好的性能,并支持

14、第三方数据展现工具。从Quick Start DataMart的名称不难看出,它尤其适合于数据集市应用。另外,Sybase可以提供面向电信、金融、保险、医疗保健这4个行业的客户关系管理(CRM)产品,在这4个产品中,有80的功能是共性的,有20的功能需要Sybase与合作伙伴针对不同需求共同开发。1.3.4 InformixInformix于1998和1999年相继收购了国际上享有盛誉的数据仓库供应商Red Brick System和数据管理软件供应商Ardent,并提供了完整、集成的数据仓库解决方案。该解决方案还包括一个“快速启动”咨询服务,能够帮助用户快速完成数据仓库或数据集市的开发。In

15、formix产品能够集成Microsoft IIS或Netscape Enterprise/FastTrack服务器,从而支持基于Web的数据仓库应用。 Informix没有提供自己的报表和数据挖掘工具,但他们与Brio和SAS公司建立了战略联盟,并推出了“Informix商务智能联盟计划”。该计划以Informix为主,结合Brio的前端数据分析和报表功能,以及SAS的数据挖掘功能,形成了一个“BI中心”打包方案。(今年4月Informix Software已被IBM公司收购,此举将给IBM公司数据库及数据仓库产品,从技术和市场占有率上带来极大的提升。)1.3.5 CACA于1999年收购了

16、Platinum Technology公司后,得到了完整的数据仓库解决方案,包括:Erwin数据仓库设计工具、InfoPump数据转换与抽取工具、 InfoBeacon ROLAP服务器、ForestTrees前端数据展现工具、Provision系统监视与作业调度工具和DecisionBase元数据管理工具等。与Informix 解决方案相似,CA解决方案也提供了数据仓库建模、元数据管理、数据抽取与转换、基于关系数据库的在线分析服务器、系统监视与作业调度、前端数据展现等功能,同时还支持Web应用。不同之处是Informix提供了专门为数据仓库设计的高性能目标数据库(Red Birck),而CA

17、解决方案则提供ODBC接口,并将数据存储在第三方关系数据库(如Oracle、Sybase、SQL Server、Informix和IBM DB2等)中,其性能要打一些折扣,但开放性要好些。另外,CA的OLAP服务器目前只能与Microsoft的IIS Web服务器集成。1.3.6 NCRNCR Teradata是高端数据仓库市场最有力的竞争者,主要运行在NCR WorldMark SMP硬件的Unix操作系统平台上。1998年,该公司也提供了基于Windows NT的Teradata,试图开拓数据集市(Data Mart)市场。总的来看,NCR的产品性能很好,Teradata数据仓库在100G

18、B、300GB、1TB和3TB级的TPCD指标测试中均创世界纪录。但是,NCR产品的价格相对较高,中小企业用户难以接受。1.3.7 MicrosoftMicrosoft将OLAP功能集成到Microsoft SQL Server 7.0中,提供可扩充的基于COM的OLAP接口。它通过一系列服务程序支持数据仓库应用。数据传输服务DTS(Data Transformation Services)提供数据输入/输出和自动调度功能,在数据传输过程中可以完成数据的验证、清洗和转换等操作,通过与Microsoft Repository集成,共享有关的元数据;Microsoft Repository存储包括

19、元数据在内的所有中间数据;SQL Server OLAP Services支持在线分析处理;PivotTable Services提供客户端OLAP数据访问功能,通过这一服务,开发人员可以用VB或其他语言开发用户前端数据展现程序,PivotTable Services还允许在本地客户机上存储数据;MMC(Microsoft Management Console)提供日程安排、存储管理、性能监测、报警和通知的核心管理服务;Microsoft Office 2000套件中的Access和Excel可以作为数据展现工具,另外SQL Server还支持第三方数据展现工具。1.3.8 SASSAS公司在

20、20世纪70年代以“统计分析”和“线性数学模型”而享誉业界,90年代以后,SAS公司也加入了数据仓库市场的竞争,并提供了特点鲜明的数据仓库解决方案,包括30多个专用模块。其中,SAS/WA(Warehouse Administrator)是建立数据仓库的集成管理工具,包括定义主题、数据转换与汇总、更新汇总数据、元数据管理、数据集市的实现等; SAS/MDDB是SAS用于在线分析的多维数据库服务器;SAS/AF提供了屏幕设计功能和用于开发的SCL(屏幕控制语言);SAS/ITSV(IT Service Vision)是IT服务的性能评估和管理的软件,这些IT服务包括计算机系统、网络系统、Web服

21、务器和电话系统等。SAS系统的优点是功能强、性能高、特长突出,缺点是系统比较复杂。1.3.9 BOBusiness Objects(BO)是集查询、报表和OLAP技术为一身的智能决策支持系统。它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。虽然BO 在不断增加新的功能,但从严格意义上说,BO只能算是一个前端工具。也许正因为如此,几乎所有的数据仓库解决方案都把BO作为可选的数据展现工具。虽然国内有很多大学和研究机构从事数据仓库技术的研究,但到

22、目前为止,国内基本上没有成熟的数据仓库解决方案。1.3.10 HyperionHyperion Essbase OLAP Server,在上面有超过100个的应用程序,有300多个用Essbase作为平台的开发商。具有几百个计算公式,支持过程的脚本预言,及统计和基于维的计算。强大的OLAP查询能力,利用Essbase Query Designer,商业用户可以不用IT人员的帮助自己构件复杂的查询。广泛的应用支持,可以扩展数据仓库和ERP系统的价值,建立对电子商务、CRM、金融、制造业、零售和CPG(consumer packaged goods)等应用的分析程序。Speed-of-Though

23、t的响应时间,支持多用户同时读写Web-Enabled的,以服务器为中心的体系结构,支持SMP强大的合作伙伴提供完整的解决方案,60多个包装好的解决方案,300多个咨询和实施公司。丰富的前端工具,有30多个前端工具可供选择,其中包括Hyperion自己的Wired for OLAP、Spider-Man Web Application、Objects、Essbase Spreadsheet Add-In、Web Gateway 、 Reporting 。Hyperion Enterprise,为跨国公司提供的财务整合、报告和分析的解决方案。有3000多家组织在使用此套系统。功能丰富:支持多种财

24、务标准US GAAP,Canadian GAAP,UK GAAP,国际会计标准(ISA),FASB,HGB。分公司间交易的自动平帐。FAS52货币转换。FAS94。易用:可通过Excel,Lotus 1-2-3和各种浏览器访问系统。支持公司结构的调整。跨国公司的支持:同时支持6种语言及各个不同国家的法律和税收要求。完整的过程控制和审计跟踪,及安全等级的设置。能与ERP或其他数据源集成Hyperion Pillar,预算和计划工具。全球用户超过1500家,提供基于活动的预算,基于项目的计划,集中式计划,销售预测和综合计划。分布式体系结构。详细计划的制订,允许一线经理制订详细的计划。复杂的建模和分

25、析能力1.4各家产品比较1.4.1 特色工具(1)Cognos & Microstratagy在评比中我们发现Cognos与Microstratagy的产品线较齐全,既有前端展示功能,又有后端数据分析与挖掘功能,二者都能够提供比较集成化的方案。Cognos数据处理速度更快一些,且在预算与规划方面造诣颇深;而Microstratagy在OLAP Server上的优势使其在处理大数据量数据方面更出色。由于Cognos早在1969年就已成立,比其他3家都要早20年,这也决定了他们在技术架构上的差异。不过,Cognos最新的Series7 Version2系列产品是三层构架的BPM和BI工具系统。它的

26、OLAP分析工具PowerPlay,报表制作工具ReportNET以及门户工具Upfront都是完全支持B/S构架的,可以在浏览器里面进行报表定义、Drill Up、Drill Down等操作,而且客户端无须安装任何控件。服务器软件支持.NET和J2EE两个版本,具有良好的跨平台特性。(2) BO & BrioBO与Brio都是在前端展现方面比较突出,用户接受程度较高。但二者均无OLAP Server,导致数据监控功能较弱,虽然也可以与微软或Oracle的OLAP Server挂接,但这样毕竟受制于人,给客户提供的方案也不是最集成的。正是因为这个原因,海波龙才认为对Brio的收购是前端与后端的

27、最完美的结合(不过由于缺少数据挖掘这部分功能,他们所谓的完美似乎也有些牵强)。1.4.2 成本比较单纯从成本角度考虑,微软的产品算是最能节省成本的,Cognos和MicroStrategy则在同一水平线,都比微软贵一些。而Hyperion (Essbase)产品比较独立,也曾占有美国OLAP市场最大的份额,其产品价格又要更高一些。1.4.3 市场份额比较从市场份额来看,就国外的市场报告分析,微软、Cognos、Hyerion三家占据主流。在国内,目前还没有权威的市场报告,如果仅从所接触到的项目来看的话,用Cognos的很多,买Essbase的也不少。这些年都是一些大企业建设BI项目,有足够的预

28、算,多选用Cognos、Essbase;而Microstrategy,进入中国不算早,这几年在政府、金融行业也颇有建树。若论开发应用,微软的产品向来以友好的用户界面著称,上手迅速。在OLAP产品上,微软依然发扬了这一优良传统,并有进一步标准化的趋势,开发了OLE DB for OLAP以及MDX(Multi-Dimensional Express多维表达式);参与XMLA(XML for Analysis)规范制定,也是想作为OLAP服务器和前端分析应用的数据传输标准。1.4.4 简单与复杂而Cognos以桌面OLAP开始,一直以轻便、快捷的操作闻名。所谓桌面OLAP,是可以用客户端将cube

29、下载到本地进行访问。虽然Poweplay早已演变成C/S结构的OLAP服务器,但其轻便的特点还是延续下来,而且提供可以简洁部署且具有交互性的PowerPlay Web Explorer界面。从互联网上,我们可以很快搜索出许多基于PowerPlay Web的分析应用。Essbase作为老牌的OLAP服务器,是一个比较复杂的产品。所谓复杂,有两层意思,一是提供了丰富的API,让你可以充分定制开发;二是开发的难度较大,部署起来不容易。这也是国内很多用户难以将这个产品用好的一大原因。比较Essbase和Powerplay,会发现截然相反的两个特点:Essbase的复杂和Powerplay的简洁。对于这

30、两者,单独说哪一种更好都不够客观,因为当你抱怨Essbase繁杂的接口时,也有人在抱怨Powerplay的定制功能怎么如此之少。这种情形其实跟这两种产品的定位有关,Essbase比较专注于高性能的多维存储服务,而Powerplay则更专注于快捷的多维访问。换句话讲,Essbase之于Powerplay正像专业相机之于傻瓜相机,在选哪一个更好的问题上,不同的人肯定有不一样的答案。当然,如果你想在找复杂和简洁之间找一个中间者,我想微软的 Analysis Service就是这样的产品。不过要注意的是,这个产品和SQL Server绑定得比较紧,这是微软的一贯策略。1.4.5 数据存储方式根据多维数

31、据存储的位置,OLAP一般分为MOLAP(Multi-Dimensional OLAP)和ROLAP(Relational OLAP)两种,此外,还有混合的HOLAP(Hybrid OLAP)。其中, Cognos的Powerplay、Hyperion 的Essbase和微软的Analysis Service这些产品都是MOLAP产品。.这类产品将数据从关系数据库(甚至是文本文件、Excel文件)中抽取出来,存储在自己的数据库中。这种数据库跟平常我们所见的Oracle、DB2这类关系数据库不同之处在于,它是专有格式的,且没有标准的访问接口。因此,这些产品如何实现多维存储也都不尽相同,大致的原理

32、是以编程语言中多维数组的方式存放数据。度量值存放在数组的单元格中,而数组每个维就对应一个维度,其中,维元素就维的坐标。可以想象,多维数据库的单元格跟维度、维元素的多少有莫大关系,而随着维度增加,数据库也迅速膨胀。因此,对于MLOAP产品,多维存储的存储空间、性能自然是比较关键的。Essbase在这方面提供很多优化工作,但有时候也会显得过于复杂。Powerplay也提供某些选项,诸如cube分区等,这是比较简单的优化方法。1.4.6 系统开放性OLAP产品的核心功能是提供多维存储,另外就是能够将OLAP访问操作转换为对数据的请求并返回,这些OLAP访问操作大多是用户通过前端发出的,因此要考虑OL

33、AP产品能够和哪些前端工具对接。Cognos Powerplay是个相对封闭的产品,它有自己的客户端和Web Explorer,你也甭想着用其他前端来访问它。Hyperion和微软都采用开放式接口,提供丰富的访问API,第三方可以用这些API访问其数据库。上文曾提到微软开发的MDX和参与的XMLA(XML for Analysis)规范,事实上,一些第三方的前端工具正是基于这样的标准和OLAP产品对接,比如可以用BO WebI连接Essbase。更有甚者,微软的服务器还提供用MDX来查询多维数据,就像用SQL来访问关系数据库一样。诚然,这看起来的确比较酷,但有一点也要明确:目前虽然有XMLA、

34、MDX这样的标准,但还不是非常成熟,且并非唯一标准。所以即使有第三方前端工具访问这些OLAP服务器,但只能说是多了一些选择,真正在前端功能上,并不能保证比封闭结构更丰富。2. 数据挖掘近十几年,随着科学技术飞速的发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。显然在这些数据中丰富的信息,如何处理这些数据得到有益的信息,人们进行了有益的探索。计算机技术的迅速发展使得处理数据成为可能,这就推动了数据库技术的极大发展,但是面对不断增加如潮水般的数据,人们不再满足于数据库的查询功能,提出了深层次问题:能不能从数据中提取信息或者知识为

35、决策服务。就数据库技术而言已经显得无能为力了,同样,传统的统计技术也面临了极大的挑战。这就急需有新的方法来处理这些海量般的数据。于是,人们结合统计学、数据库、机器学习等技术,提出数据挖掘来解决这一难题。 数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如: SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。 Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。 Hand et al(20

36、00):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。 我们认为:数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。 现今资料流通量之巨大已到了令人咂舌地步,就实际限制而言,便遇到了诸如巨量的纪录,高维的资料增加的传统分析技术上的困难,搜集到的资料仅有5%至10%用来分析,以及资料搜集过程中并不探讨特性等问题,这就让我们不得不利用Data Mining技术。2.1 主要功能数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下:1.分类:按照分析对象的属性、特征,建立不同的组类来描

37、述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。 2.聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。 3.关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。 4.预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。 5.偏差的检

38、测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。2.2 常见算法及模型作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学科的技术。以下是常见和应用最广泛的算法和模型: (1) 传统统计方法: 抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要

39、在理论的指导下进行合理的抽样。 多元统计分析:因子分析,聚类分析等。 统计预测方法,如回归分析,时间序列分析等。 (2) 可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。 (3) 决策树:利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。 (4) 神经网络:模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。 (5) 遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。

40、 (6) 关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1A2AnB1B2Bn”。一般分为两个步骤: 求出大数据项集。 用大数据项集产生关联规则。2.3 各厂家产品对比由于数据挖掘一开始就是面向应用的,是为决策服务,而决策者又不一定具备太多的技术的知识,现许多公司和研究机构开发了一系列的工具用于数据挖掘,见下表。说明: NN=Neural Net(神经网络); DT=Decision Tree(决策树);B=Bayes(贝叶斯方法); kM=k-Means(动态聚类); kNN=k-Nearest Neighbor(最邻近算法); S=Traditional Statist

41、ical Techniques(传统统计技术); P=Prediction(预测); TS=Time Series(时间序列); C=Clustering(聚类方法); A=Association(关联方法); W32=Windows 95/98/NT; U=UNIX; P=Parallel Scalability (in at least one OS)(并行方式); A-S=API or SDK available(API或SDK方法可用); SQL=Uses Special SQL Extensions2.4 一般实施步骤 前面讨论了数据挖掘的定义,方法和工具,现在关键的问题是如何实施,

42、其一般的步骤如下: 问题理解和提出 数据准备 数据整理 建立模型 评价和解释 1.问题理解和提出:在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。 2.数据准备:获取原始的数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是如果企业原来的数据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖掘库。 3.数据整理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘有关的变量,或者转变变量。 4.建立模型:根据数据挖掘的目标和数据的特征,选择合适的模型

43、。5.评价和解释:对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合对结果进行解释。以上的步骤不是一次完成的,可能其中某些步骤或者全部要反复进行。2.5 统一模型许多研究结构和公司结合自己的数据挖掘软件,提出数据挖掘过程模型,值得借鉴的是SAS研究所和SPSS公司提出的方案。 SAS研究所认为数据挖掘是对数据进行选择,探索,调整和建模来揭示数据中未知的模式,开发了图形界面的SAS/EM来进行数据挖掘: (1)Sample 抽样:从大量的数据中抽取与探索问题有关的数据子集,这个样本应该包含足够的信息,又易于处理。(2)Explore 探索:对数据子集进行探索,寻找出与期望的关系和未知的模式(3)Modify 调整:对数据进行探索后,有了初步的了解,就必须对数据进行增减,选择,转化,量化,保证有效进行 (4)Model 建模:应用分析工具,建立模型,进行预测 (5)Assess 评价:评价数据挖掘结果的有效性和可靠性 SPSS公司提出了5A的模型,进行数据挖掘,认为任何数据挖掘方法学都由5个基本元素组成: (1)Assess 正确、彻底的了解业务需求及数据(2)Access 获取数据,做适当的调整(3)Analyze 选择适当的分析、验证方法和工具

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论