版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
BI工具调研汇报(起源于网络)TOC\o"1-3"\h\z1.数据分析 11.1四种前端工具 11.2C/SvsB/S 21.3各家产品介绍 21.3.1IBM 21.3.2Oracle 31.3.3Sybase 31.3.4Informix 41.3.5CA 41.3.6NCR 41.3.7Microsoft 51.3.8SAS 51.3.9BO 51.3.10Hyperion 51.4各家产品比较 61.4.1特色工具 61.4.2成本比较 61.4.3市场份额比较 61.4.4简单与复杂 71.4.5数据存放方式 71.4.6系统开放性 82.数据挖掘 82.1主要功效 82.2常见算法及模型 92.3各厂家产品对比 92.4通常实施步骤 112.5统一模型 112.6应用现实状况 122.7可能存在问题 121.数据分析1.1四种前端工具BI前端应用主要为报表、OLAP以及仪表盘、Portal四种。(1)报表报表前端主要是面向设计者和浏览者,所以通常报表产品也都会将设计器和浏览器分开。CrystalReport、CognosReportNet、HyperionBrio莫不如此。业界一直流行一个观点——国内报表非常复杂。国外报表工具在前些年似乎并不适应这种中国式报表,所以也就有了中国本土报表工具生存之地,诸如润乾、华表等。当然,伴随国内企业管理完善,决议层面对报表需求也在规范,所以,不论是国外或是国内报表工具,其架构都在趋同。(2)OLAP假如说报表还称不上BI经典应用话,那么OLAP就当仁不让了。OLAP前端主要是将用户多维分析请求提交给OLAP服务器,并展现返回数据。这里多维分析请求主要包含钻取、切片、旋转等操作。在电信行业大规模展开经营分析系统建设早期,曾经对这项应用寄予很大期望,不过似乎它不怎么争气。现在已经有标准化组织或企业在定义OLAP前端与服务器数据交换标准,比如微软、Hyperion、SAS推进XML,还有基于JAVAAPIJOLAP。所以,微软刚收购ProClarity工具和HyperionBrio在OLAP展现上朝这种开放式体系发展也就顺理成章了。(3)仪表盘仪表盘这种前端展现形式伴随绩效管理软件兴起正在流行起来,其界面非常简单,非常适合决议者一目了然了解宏观信息。现在主流BI厂商BO、Cognos、Hyperion、SAS都有自己CPM(CorporatePerformanceManagement)产品,当然还有称BPM或EPM(Business/EnterprisePerformanceManagement)。这种应用主要是向用户展示绩效指标状态、进度完成情况,提供异常告警等功效。能够说这些前端功效都不复杂,主要难点还是在于绩效指标定义以及管理流程规范上面。(4)Portal1.2C/SvsB/S在早期PC机功效尚弱年代,服务器计算能力强大,客户端只能做极少事情;日后,PC机功效逐步强大,桌面系统应用变得丰富起来,C/S体系也逐步成熟;到了90年代,三层结构又逐步取代C/S结构,Web应用大行其道,因为其“零客户端”布署而备受溺爱;最近几年,AJAX技术出现,应用计算似乎又重新偏向客户端。在整个软件体系变迁中,BI产品前端也跟随这个大趋势。如今,几乎每个产品都有自己Web应用,甚至有些产品出现了将全部应用前端都转成Web界面趋势。比如BO,它报表设计器能够就能够实现在Web上设计报表。当然,并非全部些人都欢迎这种趋势,因为对于决议者,他们希望看到结果,并不需要太多交互,就比较看重界面简练;而对于分析师、设计师来说,他们需要是功效丰富客户端,方便操纵数据,定制提供给决议者界面,所以对于报表设计师来说,Web应用倒以为有些不爽,因为不如传统C/S客户端那样便捷。1.3各家产品介绍1.3.1IBMIBM企业提供了一套基于可视数据仓库商业智能(BI)处理方案,包含:VisualWarehou(VW)、Essbase/DB2OLAPServer5.0、IBMDB2UDB,以及来自第三方前端数据展现工具(如BO)和数据挖掘工具(如SAS)。Sybase提供数据仓库处理方案称为WarehouseStudio,包含数据仓库建模、数据抽取与转换、数据存放与管理、元数据管理以及可视化数据分析等工具。IBM企业提供了一套基于可视数据仓库商业智能(BI)处理方案,包含:VisualWarehouse(VW)、Essbase/DB2OLAPServer5.0、IBMDB2UDB,以及来自第三方前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW是一个功效很强集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2OLAPServer支持“维”定义和数据装载。Essbase/DB2OLAPServer不是ROLAP(RelationalOLAP)服务器,而是一个(ROLAP和MOLAP)混合HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定DB2UDB数据库中。严格说来,IBM自己并没有提供完整数据仓库处理方案,该企业采取是合作搭档战略。比如,它前端数据展现工具能够是BusinessObjectsBO、LotusApproach、CognosImpromptu或IBMQueryManagementFacility;多维分析工具支持ArborSoftwareEssbase和IBM(与Arbor联合开发)DB2OLAP服务器;统计分析工具采取SAS系统。1.3.2OracleOracle数据仓库处理方案主要包含OracleExpress和OracleDiscoverer两个部分。OracleExpress由四个工具组成:OracleExpressServer是一个MOLAP(多维OLAP)服务器,它利用多维模型,存放和管理多维数据库或多维高速缓存,同时也能够访问多个关系数据库;OracleExpressWebAgent经过CGI或Web插件支持基于Web动态多维数据展现;OracleExpressObjects前端数据分析工具(现在仅支持Windows平台)提供了图形化建模和假设分析功效,支持可视化开发和事件驱动编程技术,提供了兼容VisualBasic语法语言,支持OCX和OLE;OracleExpressAnalyzer是通用、面向最终用户汇报和分析工具(现在仅支持Windows平台)。OracleDiscoverer即席查询工具是专门为最终用户设计,分为最终用户版和管理员版。在Oracle数据仓库处理方案实施过程中,通常把汇总数据存放在Express多维数据库中,而将详细数据存放在Oracle关系数据库中,当需要详细数据时,ExpressServer经过结构SQL语句访问关系数据库。但现在Express还不够灵活,数据仓库设计一个改变往往造成数据库重构。另外,现在Oracle8i和Express之间集成度还不够高,Oracle8i和Express之间需要复制元数据,假如OracleDiscoverer(或BO)需要访问汇总数据,则需要将汇总数据同时存放在Oracle和Express中,系统维护比较困难。值得注意是,刚才问世Oracle9i把OLAP和数据挖掘作为主要特点。1.3.3SybaseSybase提供数据仓库处理方案称为WarehouseStudio,包含数据仓库建模、数据抽取与转换、数据存放与管理、元数据管理以及可视化数据分析等工具。其中,WarehouseArchitect是PowerDesigner中一个设计模块,它支持星形模型、雪花模型和ER模型;数据抽取与转换工具包含PowerStage、ReplicationServer、CarletonPASSPORT,PowerStage是Sybase提供可视化数据迁移工具。AdaptiveServerEnterprise是Sybase企业级关系数据库,AdaptiveServerIQ是Sybase企业专为数据仓库设计关系数据库,它为高性能决议支持系统和数据仓库建立作了优化处理,SybaseIQ支持各种流行前端展现工具(如CognosImpromptu、BusinessObjects、BrioQuery等);数据分析与展现工具包含PowerDimensions、EnglishWizard、InfoMaker、PowerDynamo等,PowerDimensions是图形化OLAP分析工具,它支持SMP和多维缓存技术,能够集成异构关系型数据仓库和分布式数据集市,从而形成单一、新型多维模式;数据仓库维护与管理工具包含WarehouseControlCenter、SybaseCentral、DistributionDirector,其中WarehouseControlCenter是为数据仓库开发人员提供元数据管理工具。Sybase提供了完整数据仓库处理方案QuickStartDataMart,具备良好性能,并支持第三方数据展现工具。从QuickStartDataMart名称不难看出,它尤其适合于数据集市应用。另外,Sybase能够提供面向电信、金融、保险、医疗保健这4个行业客户关系管理(CRM)产品,在这4个产品中,有80%功效是共性,有20%功效需要Sybase与合作搭档针对不一样需求共同开发。1.3.4InformixInformix于1998和1999年相继收购了国际上享受盛誉数据仓库供给商RedBrickSystem和数据管理软件供给商Ardent,并提供了完整、集成数据仓库处理方案。该处理方案还包含一个“快速开启”咨询服务,能够帮助用户快速完成数据仓库或数据集市开发。Informix产品能够集成MicrosoftIIS或NetscapeEnterprise/FastTrack服务器,从而支持基于Web数据仓库应用。Informix没有提供自己报表和数据挖掘工具,但他们与Brio和SAS企业建立了战略联盟,并推出了“Informix商务智能联盟计划”。该计划以Informix为主,结合Brio前端数据分析和报表功效,以及SAS数据挖掘功效,形成了一个“BI中心”打包方案。(今年4月InformixSoftware已被IBM企业收购,此举将给IBM企业数据库及数据仓库产品,从技术和市场拥有率上带来极大提升。)1.3.5CACA于1999年收购了PlatinumTechnology企业后,得到了完整数据仓库处理方案,包含:Erwin数据仓库设计工具、InfoPump数据转换与抽取工具、InfoBeaconROLAP服务器、Forest&Trees前端数据展现工具、Provision系统监视与作业调度工具和DecisionBase元数据管理工具等。与Informix处理方案相同,CA处理方案也提供了数据仓库建模、元数据管理、数据抽取与转换、基于关系数据库在线分析服务器、系统监视与作业调度、前端数据展现等功效,同时还支持Web应用。不一样之处是Informix提供了专门为数据仓库设计高性能目标数据库(RedBirck),而CA处理方案则提供ODBC接口,并将数据存放在第三方关系数据库(如Oracle、Sybase、SQLServer、Informix和IBMDB2等)中,其性能要打一些折扣,但开放性要好些。另外,CAOLAP服务器现在只能与MicrosoftIISWeb服务器集成。1.3.6NCRNCRTeradata是高端数据仓库市场最有力竞争者,主要运行在NCRWorldMarkSMP硬件Unix操作系统平台上。1998年,该企业也提供了基于WindowsNTTeradata,试图开拓数据集市(DataMart)市场。总来看,NCR产品性能很好,Teradata数据仓库在100GB、300GB、1TB和3TB级TPCD指标测试中均创世界纪录。不过,NCR产品价格相对较高,中小企业用户难以接收。1.3.7MicrosoftMicrosoft将OLAP功效集成到MicrosoftSQLServer7.0中,提供可扩充基于COMOLAP接口。它经过一系列服务程序支持数据仓库应用。数据传输服务DTS(DataTransformationServices)提供数据输入/输出和自动调度功效,在数据传输过程中能够完成数据验证、清洗和转换等操作,经过与MicrosoftRepository集成,共享关于元数据;MicrosoftRepository存放包含元数据在内全部中间数据;SQLServerOLAPServices支持在线分析处理;PivotTableServices提供客户端OLAP数据访问功效,经过这一服务,开发人员能够用VB或其余语言开发用户前端数据展现程序,PivotTableServices还允许在当地客户机上存放数据;MMC(MicrosoftManagementConsole)提供日程安排、存放管理、性能监测、报警和通知关键管理服务;MicrosoftOffice套件中Access和Excel能够作为数据展现工具,另外SQLServer还支持第三方数据展现工具。1.3.8SASSAS企业在20世纪70年代以“统计分析”和“线性数学模型”而享誉业界,90年代以后,SAS企业也加入了数据仓库市场竞争,并提供了特点鲜明数据仓库处理方案,包含30多个专用模块。其中,SAS/WA(WarehouseAdministrator)是建立数据仓库集成管理工具,包含定义主题、数据转换与汇总、更新汇总数据、元数据管理、数据集市实现等;SAS/MDDB是SAS用于在线分析多维数据库服务器;SAS/AF提供了屏幕设计功效和用于开发SCL(屏幕控制语言);SAS/ITSV(ITServiceVision)是IT服务性能评定和管理软件,这些IT服务包含计算机系统、网络系统、Web服务器和电话系统等。SAS系统优点是功效强、性能高、专长突出,缺点是系统比较复杂。1.3.9BOBusinessObjects(BO)是集查询、报表和OLAP技术为一身智能决议支持系统。它使用独特“语义层”技术和“动态微立方”技术来表示数据库中多维数据,具备很好查询和报表功效,提供钻取(Drill)等多维分析技术,支持多个数据库,同时它还支持基于Web浏览器查询、报表和分析决议。即使BO在不停增加新功效,但从严格意义上说,BO只能算是一个前端工具。可能正因为如此,几乎全部数据仓库处理方案都把BO作为可选数据展现工具。即使国内有很多大学和研究机构从事数据仓库技术研究,但到现在为止,国内基本上没有成熟数据仓库处理方案。1.3.10HyperionHyperionEssbaseOLAPServer,在上面有超出100个应用程序,有300多个用Essbase作为平台开发商。具备几百个计算公式,支持过程脚本预言,及统计和基于维计算。强大OLAP查询能力,利用EssbaseQueryDesigner,商业用户能够不用IT人员帮助自己构件复杂查询。广泛应用支持,能够扩展数据仓库和ERP系统价值,建立对电子商务、CRM、金融、制造业、零售和CPG(consumerpackagedgoods)等应用分析程序。Speed-of-Thought响应时间,支持多用户同时读写Web-Enabled,以服务器为中心体系结构,支持SMP强大合作搭档提供完整处理方案,60多个包装好处理方案,300多个咨询和实施企业。丰富前端工具,有30多个前端工具可供选择,其中包含Hyperion自己WiredforOLAP、Spider-ManWebApplication、Objects、EssbaseSpreadsheetAdd-In、WebGateway、Reporting。HyperionEnterprise,为跨国企业提供财务整合、汇报和分析处理方案。有3000多家组织在使用此套系统。功效丰富:支持多个财务标准USGAAP,CanadianGAAP,UKGAAP,国际会计标准(ISA),FASB,HGB。分企业间交易自动平帐。FAS52货币转换。FAS94。易用:可经过Excel,Lotus1-2-3和各种浏览器访问系统。支持企业结构调整。跨国企业支持:同时支持6种语言及各个不一样国家法律和税收要求。完整过程控制和审计跟踪,及安全等级设置。能与ERP或其余数据源集成HyperionPillar,预算和计划工具。全球用户超出1500家,提供基于活动预算,基于项目标计划,集中式计划,销售预测和综共计划。分布式体系结构。详细计划制订,允许一线经理制订详细计划。复杂建模和分析能力1.4各家产品比较1.4.1特色工具(1)Cognos&Microstratagy在评选中我们发觉Cognos与Microstratagy产品线较齐全,现有前端展示功效,又有后端数据分析与挖掘功效,二者都能够提供比较集成化方案。Cognos数据处理速度更加快一些,且在预算与规划方面造诣颇深;而Microstratagy在OLAPServer上优势使其在处理大数据量数据方面更出众。因为Cognos早在1969年就已成立,比其余3家都要早,这也决定了他们在技术架构上差异。不过,Cognos最新Series7Version2系列产品是三层构架BPM和BI工具系统。它OLAP分析工具PowerPlay,报表制作工具ReportNET以及门户工具Upfront都是完全支持B/S构架,能够在浏览器里面进行报表定义、DrillUp、DrillDown等操作,而且客户端无须安装任何控件。服务器软件支持.NET和J2EE两个版本,具备良好跨平台特征。(2)BO&BrioBO与Brio都是在前端展现方面比较突出,用户接收程度较高。但二者均无OLAPServer,造成数据监控功效较弱,即使也能够与微软或OracleOLAPServer挂接,但这么毕竟受制于人,给客户提供方案也不是最集成。正是因为这个原因,海波龙才认为对Brio收购是前端与后端最完美结合(不过因为缺乏数据挖掘这部分功效,他们所谓完美似乎也有些牵强)。1.4.2成本比较单纯从成本角度考虑,微软产品算是最能节约成本,Cognos和MicroStrategy则在同一水平线,都比微软贵一些。而Hyperion(Essbase)产品比较独立,也曾占有美国OLAP市场最大份额,其产品价格又要更高一些。1.4.3市场份额比较从市场份额来看,就国外市场汇报分析,微软、Cognos、Hyerion三家占据主流。在国内,现在还没有权威市场汇报,假如仅从所接触到项目来看话,用Cognos很多,买Essbase也不少。这些年都是一些大企业建设BI项目,有足够预算,多项选择取Cognos、Essbase;而Microstrategy,进入中国不算早,这几年在政府、金融行业也颇有建树。若论开发应用,微软产品向来以友好用户界面著称,上手快速。在OLAP产品上,微软依然发扬了这一优良传统,并有深入标准化趋势,开发了OLEDBforOLAP以及MDX(Multi-DimensionalExpress多维表示式);参加XMLA(XMLforAnalysis)规范制订,也是想作为OLAP服务器和前端分析应用数据传输标准。1.4.4简单与复杂而Cognos以桌面OLAP开始,一直以轻便、快捷操作闻名。所谓桌面OLAP,是能够用客户端将cube下载到当地进行访问。即使Poweplay早已演变成C/S结构OLAP服务器,但其轻便特点还是延续下来,而且提供能够简练布署且具备交互性PowerPlayWebExplorer界面。从互联网上,我们能够很快搜索出许多基于PowerPlayWeb分析应用。Essbase作为老牌OLAP服务器,是一个比较复杂产品。所谓复杂,有两层意思,一是提供了丰富API,让你能够充分定制开发;二是开发难度较大,布署起来不轻易。这也是国内很多用户难以将这个产品用好一大原因。比较Essbase和Powerplay,会发觉截然相反两个特点:Essbase复杂和Powerplay简练。对于这二者,单独说哪一个愈加好都不够客观,因为当你埋怨Essbase繁杂接口时,也有些人在埋怨Powerplay定制功效怎么如此之少。这种情形其实跟这两种产品定位关于,Essbase比较专注于高性能多维存放服务,而Powerplay则更专注于快捷多维访问。换句话讲,Essbase之于Powerplay正像专业相机之于傻瓜相机,在选哪一个愈加好问题上,不一样人必定有不一样答案。当然,假如你想在找复杂和简练之间找一个中间者,我想微软AnalysisService就是这么产品。不过要注意是,这个产品和SQLServer绑定得比较紧,这是微软一贯策略。1.4.5数据存放方式依照多维数据存放位置,OLAP通常分为MOLAP(Multi-DimensionalOLAP)和ROLAP(RelationalOLAP)两种,另外,还有混合HOLAP(HybridOLAP)。其中,CognosPowerplay、HyperionEssbase和微软AnalysisService这些产品都是MOLAP产品。.这类产品将数据从关系数据库(甚至是文本文件、Excel文件)中抽取出来,存放在自己数据库中。这种数据库跟日常我们所见Oracle、DB2这类关系数据库不一样之处于于,它是专有格式,且没有标准访问接口。所以,这些产品怎样实现多维存放也都不尽相同,大致原理是以编程语言中多维数组方式存放数据。度量值存放在数组单元格中,而数组每个维就对应一个维度,其中,维元素就维坐标。能够想象,多维数据库单元格跟维度、维元素多少有莫大关系,而伴随维度增加,数据库也快速膨胀。所以,对于MLOAP产品,多维存放存放空间、性能自然是比较关键。Essbase在这方面提供很多优化工作,但有时候也会显得过于复杂。Powerplay也提供一些选项,诸如cube分区等,这是比较简单优化方法。1.4.6系统开放性OLAP产品关键功效是提供多维存放,另外就是能够将OLAP访问操作转换为对数据请求并返回,这些OLAP访问操作大多是用户经过前端发出,所以要考虑OLAP产品能够和哪些前端工具对接。CognosPowerplay是个相对封闭产品,它有自己客户端和WebExplorer,你也甭想着用其余前端来访问它。Hyperion和微软都采取开放式接口,提供丰富访问API,第三方能够用这些API访问其数据库。上文曾提到微软开发MDX和参加XMLA(XMLforAnalysis)规范,实际上,一些第三方前端工具正是基于这么标准和OLAP产品对接,比如能够用BOWebI连接Essbase。更有甚者,微软服务器还提供用MDX来查询多维数据,就像用SQL来访问关系数据库一样。诚然,这看起来确实比较酷,但有一点也要明确:现在即使有XMLA、MDX这么标准,但还不是非常成熟,且并非唯一标准。所以即使有第三方前端工具访问这些OLAP服务器,但只能说是多了一些选择,真正在前端功效上,并不能确保比封闭结构更丰富。2.数据挖掘近十几年,伴随科学技术飞速发展,经济和社会都取得了极大进步,与此同时,在各个领域产生了大量数据,如人类对太空探索,银行天天巨额交易数据。显然在这些数据中丰富信息,怎样处理这些数据得到有益信息,人们进行了有益探索。计算机技术快速发展使得处理数据成为可能,这就推进了数据库技术极大发展,不过面对不停增加如潮水般数据,人们不再满足于数据库查询功效,提出了深层次问题:能不能从数据中提取信息或者知识为决议服务。就数据库技术而言已经显得无能为力了,一样,传统统计技术也面临了极大挑战。这就急需有新方法来处理这些海量般数据。于是,人们结合统计学、数据库、机器学习等技术,提出数据挖掘来处理这一难题。
数据挖掘历史即使较短,但从20世纪90年代以来,它发展速度很快,加之它是多学科综合产物,现在还没有一个完整定义,人们提出了多个数据挖掘定义,比如:
SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型先进方法”。
Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量数据中发觉有意义新关系、模式和趋势过程”。
Handetal():“数据挖掘就是在大型数据库中寻找有意义、有价值信息过程”。
我们认为:数据挖掘就是从海量数据中挖掘出可能有潜在价值信息技术。这些信息是可能有潜在价值,支持决议,能够为企业带来利益,或者为科学研究寻找突破口。
现今资料流通量之巨大已到了令人咂舌地步,就实际限制而言,便碰到了诸如巨量纪录,高维资料增加传统分析技术上困难,搜集到资料仅有5%至10%用来分析,以及资料搜集过程中并不探讨特征等问题,这就让我们不得不利用DataMining技术。2.1主要功效数据挖掘综合了各个学科技术,有很多功效,当前主要功效以下:1.分类:按照分析对象属性、特征,建立不一样组类来描述事物。比如:银行部门依照以前数据将客户分成了不一样类别,现在就能够依照这些来区分新申请贷款客户,以采取对应贷款方案。
2.聚类:识别出分析对内在规则,按照这些规则把对象分成若干类。比如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。
3.关联规则和序列模式发觉:关联是某种事物发生时其余事物会发生这么一个联络。比如:天天购置啤酒人也有可能购置香烟,比重有多大,能够经过关联支持度和可信度来描述。与关联不一样,序列是一个纵向联络。比如:今天银行调整利率,明天股市改变。
4.预测:把握分析对象发展规律,对未来趋势做出预见。比如:对未来经济发展判断。
5.偏差检测:对分析对象少数、极端特例描述,揭示内在原因。比如:在银行100万笔交易中有500例欺诈行为,银行为了稳健经营,就要发觉这500例内在原因,减小以后经营风险。2.2常见算法及模型作为一门处理数据新兴技术,数据挖掘有许多新特征。首先,数据挖掘面正确是海量数据,这也是数据挖掘产生原因。其次,数据可能是不完全、有噪声、随机,有复杂数据结构,维数大。最终,数据挖掘是许多学科交叉,利用了统计学,计算机,数学等学科技术。以下是常见和应用最广泛算法和模型:
(1)传统统计方法:①抽样技术:我们面正确是大量数据,对全部数据进行分析是不可能也是没有必要,就要在理论指导下进行合理抽样。②多元统计分析:因子分析,聚类分析等。③统计预测方法,如回归分析,时间序列分析等。
(2)可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中利用许多描述统计方法。可视化技术面正确一个难题是高维数据可视化。
(3)决议树:利用一系列规则划分,建立树状图,可用于分类和预测。惯用算法有CART、CHAID、ID3、C4.5、C5.0等。
(4)神经网络:模拟人神经元功效,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最终得到结果,用于分类和回归。
(5)遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程一个优化技术。
(6)关联规则挖掘算法:关联规则是描述数据之间存在关系规则,形式为“A1∧A2∧…An→B1∧B2∧…Bn”。通常分为两个步骤:①求出大数据项集。②用大数据项集产生关联规则。2.3各厂家产品对比因为数据挖掘一开始就是面向应用,是为决议服务,而决议者又不一定具备太多技术知识,现许多企业和研究机构开发了一系列工具用于数据挖掘,见下表。说明:NN=NeuralNet(神经网络);DT=DecisionTree(决议树);B=Bayes(贝叶斯方法);kM=k-Means(动态聚类);kNN=k-NearestNeighbor(最邻近算法);S=TraditionalStatisticalTechniques(传统统计技术);P=Prediction(预测);TS=TimeSeries(时间序列);C=Clustering(聚类方法);A=Association(关联方法);W32=Windows95/98/NT;U=UNIX;P=ParallelScalability(inatleastoneOS)(并行方式);A-S=APIorSDKavailable(API或SDK方法可用);SQL=UsesSpecialSQLExtensions2.4通常实施步骤
前面讨论了数据挖掘定义,方法和工具,现在关键问题是怎样实施,其通常步骤以下:
问题了解和提出—>数据准备—>数据整理—>建立模型—>评价和解释
1.问题了解和提出:在开始数据挖掘之前最基础就是了解数据和实际业务问题,在这个基础之上提出问题,对目标有明确定义。
2.数据准备:获取原始数据,并从中抽取一定数量子集,建立数据挖掘库,其中一个问题是假如企业原来数据仓库满足数据挖掘要求,就能够将数据仓库作为数据挖掘库。
3.数据整理:因为数据可能是不完全、有噪声、随机,有复杂数据结构,就要对数据进行初步整理,清洗不完全数据,做初步描述分析,选择与数据挖掘关于变量,或者转变变量。
4.建立模型:依照数据挖掘目标和数据特征,选择适宜模型。5.评价和解释:对数据挖掘结果进行评价,选择最优模型,作出评价,利用于实际问题,而且要和专业知识结合对结果进行解释。以上步骤不是一次完成,可能其中一些步骤或者全部要重复进行。2.5统一模型许多研究结构和企业结合自己数据挖掘软件,提出数据挖掘过程模型,值得借鉴是SAS研究所和SPSS企业提出方案。
SAS研究所认为数据挖掘是对数据进行选择,探索,调整和建模来揭示数据中未知模式,开发了图形界面SAS/EM来进行数据挖掘:
(1)Sample——抽样:从大量数据中抽取与探索问题关于数据子集,这个样本应该包含足够信息,又易于处理。(2)Explore——探索:对数据子集进行探索,寻找出与期望关系和未知模式(3)Modify——调整:对数据进行探索后,有了初步了解,就必须对数据进行增减,选择,转化,量化,确保有效进行
(4)Model——建模:应用分析工具,建立模型,进行预测
(5)Assess——评价:评价数据挖掘结果有效性和可靠性
SPSS企业提出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 土方购销材料协议
- 物业服务合同备案流程详解
- 宠物清洁用品买卖协议
- 管道畅通设备选购指南
- 营销策划服务合同
- 抵押合同解除还款责任退款金额协议
- 定制招聘服务合同范本
- 招标文件应包含的关键信息
- 专业版铺货合同协议
- 修订合同协议彰显合作精神
- 首都经济贸易大学《微积分》2021-2022学年第一学期期末试卷
- 人音版音乐七年级上册《父亲的草原母亲的河》课件
- 2024年度短视频内容创作服务合同3篇
- 介入治疗并发症
- 铸牢中华民族共同体意识-形考任务1-国开(NMG)-参考资料
- 眼科主任年终总结
- 债务优化服务合同范例
- 专题19 重点用法感叹句50道
- 2024-2025学年统编版五年级语文上册第七单元达标检测卷(原卷+答案)
- 2024年光伏住宅能源解决方案协议
- 【初中数学】基本平面图形单元测试 2024-2025学年北师大版数学七年级上册
评论
0/150
提交评论