版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商务智能入门培训
BusinessIntelligence
一、概念念篇实例:沃尔玛的的销售部部在总结结历史销销售记录录的时候候发现,,每到周周末的时时候,啤啤酒和尿尿布的销销量都比比平时要要高很多多,这是是一个巧巧合还是是这个现现象的背背后隐藏藏着一定定的必然然因素??销售人人员展开开了调查查,结果果发现::每到周周末,有有孩子的的家庭主主妇就会会让他们们的丈夫夫去超市市给孩子子买足一一周用的的尿布,,这些丈丈夫们必必然会选选择一些些自己爱爱喝的啤啤酒,以以便周末末在欣赏赏橄榄球球赛和篮篮球赛的的时候可可以和朋朋友们一一起庆祝祝。原因因找到了了之后,,销售部部采取了了措施,,每到周周末将超超市的啤啤酒和尿尿布捆绑绑销售,,这样,,啤酒和和尿布的的销量又又同时增增加了一一成。什么是商商务智能能?二、市场场分析篇篇商务智能能的应用用分为纵纵向商务务智能和和横向商商务智能能。纵向商务务智能是是指企业业分别实实施多个个信息化化系统,,比如财财务系统统中的管管理会计计就是商商务智能能的一部部分,从从以前只只关注运运营报表表,到关关注整个个财务的的运作情情况,像像现金流流、资产产负债等等。而人人力资源源系统可可以称为为智能人人力资源源,关注注员工的的流失率率,分析析从什么么途径招招聘的员员工流失失率最高高,分析析公司人人才结构构、人才才培养方方向等。。总而言言之,企企业有了了核心业业务系统统、管理理信息系系统,在在这些系系统之上上做智能能的分析析,而这这些分析析得到的的信息完完全是来来自单独独的系统统。那么横向向商务智智能指的的是什么么呢?举举例来说说,比如如汽车制制造厂生生产多款款不同的的车型,,公司老老总会问问,生产产哪一款款车型、、生产多多少,企企业的效效率能够够达到最最高?这这样的问问题,不不能通过过分析单单独的系系统得到到,因为为效益最最高取决决于生产产成本、、人力资资源成本本、市场场的需求求、竞争争对手、、市场定定价等多多方面的的信息。。而这些些信息则则分散在在财务系系统、人人力资源源系统、、采购系系统中,,这就需需要系统统和信息息有效的的整合才才能解决决这个问问题,所所以称为为横向商商务智能能。商业智能能应用领领域?商业智能能是一种种整体化化的解决决方案,,他可以以帮助企企业做出出明智的的业务经经营决策策,而依依据则是是企业内内部的各各种数据据,例如如订单、、库存、、交易账账目、客客户和供供应商资资料、行行业数据据和竞争争对手信信息等等等。商业业智能其其实是一一种将企企业信息息数据转转化为决决策的重重要工具具。商业智能能的应用用是需要要一定的的基础的的。实施施商业智智能的企企业至少少应该具具备以下下几个条条件:用用户的数数据已达达到一定定的规模模;用户户面临激激烈的市市场竞争争:用户户在IT方面的资资金能得得到保障障。满足足以上几几点的行行业集中中在重要要的政府府机构((如财务务、税务务、审计计、工商商、海关关等)、、零售业业(连锁锁店、网网上零售售等)、、大型现现代化的的制造业业(如宝宝钢、上上汽集团团等)、、金融((包括银银行、证证券、保保险等))、电信信业(如如中国电电信、中中国网通通、中国国移动等等)、能能源业((电力))、运输输等,这这也是目目前国内内急需要要数据仓仓库和商商业智能能技术来来提升企企业竞争争力的主主要行业业。金融、电电信行业业是BI应用最集集中的行行业,约约占40%的市场分分额,保保险、能能源、烟烟草、政政务行业业约占30%的市场份份额,制制造、零零售行业业约占30%的市场份份额,是是BI应用最具具潜力的的行业。。金融:随随着国内内五大商商业银行行的信息息化不断断发展,,在BI领域投资资稳步增增长,每每年均有有大量的的BI需求,其其中BI已经不仅仅局限于于高层管管理者的的决策,,操作型型BI应用越来来越广泛泛,尤其其是信贷贷评审领领域。中中小型银银行BI需求也不不断涌现现,未来来将是金金融行业业BI市场的主主要增长长点。电信:电电信行业业信息化化程度很很高,对对信息化化依赖很很强,积积累了大大量的数数据,具具有实施施商业智智能项目目的基础础条件和和资金实实力。电电信行业业对于BI深入应用用是最渴渴望的,,在话费费套餐设设置、客客户潜力力分析等等都需要要数据挖挖掘技术术来提供供决策依依据。行业现状状?行业市场场规模??发展趋势势?发展趋势势及预测测移动商业业智能商业智能能系统会会把大量量数据转转变成可可视化形形式(如如图形和和表格)),以便便使用者者详细深深入地分分析潜在在商业趋趋势。因因此如果果为这种种分析赋赋予移动动性——通常利用用功能强强大的智智能终端端,许多多公司就就能与客客户和商商业合作作伙伴进进行实时时互动,,从而改改善服务务、提高高工作效效率。SaaSBI将得到快快速发展展SaaS是基于互互联网提提供软件件服务的的软件应应用模式式,企业业根据实实际需要要,从SaaS提供商租租赁软件件服务。。SaaS模式在CRM领域获得得了成功功,不论论是国外外还是国国内具有有成熟的的产品,,并取得得了不错错的收益益。SAAS在BI领域的应应用的挑挑战是应应用于互互联网上上的SAAS软件无法法处理BI所需的海海量数据据。商业智能能日渐与与业务融融合业务分析析作为商商业智能能领域中中最贴近近业务的的层面,,在2010年成为业业界关注注的重点点,不管管是SAP还是IBM,都将业业务分析析作为今今年的业业务发展展重点。。企业希希望由BI系统带来来的透明明度和洞洞察力能能够帮助助企业降降低成本本,提高高生产率率和业务务敏捷性性。通过过商业智智能,企企业能更更清晰更更深刻的的了解包包括公司司管理、、利润分分析、市市场竞争争、财务务状况等等信息,,而未来来商业智智能的这这种特性性还将继继续加强强。操作型BI应用得到到发展目前商业业智能技技术不仅仅仅应用用于企业业高层管管理者的的决策分分析,越越来越多多的商业业智能分分析结果果正被用用于普通通员工的的日常工工作流程程中,直直接推动动业务的的执行。。例如::在家乐乐福购物物时,收收银员已已经可以以根据顾顾客的购购物篮进进行产品品推荐。。发展趋势势?数据集成成应用得得到重视视在一些大大型企业业中往往往有几十十个甚至至几百个个信息系系统,将将这些数数据整合合到数据据仓库中中,一般般采取ETL工具抽取取多个厂厂商数据据库的数数据,有有些甚至至还包含含非结构构化数据据,例如XML、EXCEL、文本等等。这些些数据往往往需要要加工和和整理放放入ODS(中间库库),最最后以规规范、标标准的格格式存储储到数据据仓库。。在这个个数据集集成的过过程中,,要做到到系统兼兼容性好好、开发发效率高高、处理理性能好好,而且且能够捕捕捉数据据的变化化处理增增量数据据。数据据集成是是建立实实用的数数据仓库库的关键键,而且且数据集集成的过过程占商商业智能能应用中中一半以以上的工工作量,,因此越越是大型型企业越越是重视视数据集集成。中小企业业BI应用逐渐渐扩大市市场份额中国中小小企业逐逐渐呈现现对管理理软件旺旺盛的需需求态势势,很多多厂商发发布了专专门针对对中小企企业的BI套件,例例如CognosExpress等。中小小企业在在实施ERP、CRM产品后,,必将应应用商业业智能,,中小企企业市场场是BI应用非常常重要的的组成部部分。BI企业将在在垄断中中不断新新生中国商业业智能市市场两极极竞争趋趋势日益益加剧。。在高端端市场,,由国际际厂商垄垄断与竞竞争的局局面是2010年的主流流,其中中IBM、Oracle、SAP、Microsoft拥有完整整的BI产品线,,将占据据70%以上的市市场份额额。剩余余的30%市场将由由其他外外资企业业和国内内企业分分享。随随着国内内企业的的成长与与并购,,国内厂厂商的实实力不断断壮大,,但是主主要集中中于中低低端市场场,在2010年优秀的的国产BI产品将开开始不断断向四大大国际厂厂商发起起挑战,,但是竞竞争的过过程将是是极其漫漫长的。。1)国际际BI厂商,如如BO公司(SAP)、Hyperion公司(Oracle)、微软公公司、SAS公司等。。这些国国际厂商商的品牌牌与规模模优势非非常突出出,是国国内大部部分BI厂商难以以与之匹匹敌的。。2)起步步比较早早的国内内BI厂商,如如菲奈特特(成立于1995年10月,从1997年开始进进入BI领域)、先进数数通公司司(成立于2000年)、吉贝克克公司(成立于2002年)等。这些些国内BI厂商凭借借本土化化的优势势以及对对国内BI用户所需需要的应应用的独独特见解解,也在在国内的的BI市场上占占有超过过30%的市场场份额。。3)非专专业BI厂商,主主要有以以下几类类:一、、从事某某些行业业核心业业务系统统建设的的公司;;二、从从事系统统集成的的公司;;三、从从事专业业财务系系统及个个别ERP厂商。商务智能能主要厂厂商有哪哪些?厂商产品及简介IBMDB2以及Cognos、SPSS、DataStage,覆盖BI全部领域。数据仓库产品结合了DB2数据服务器的长处和IBM的商业智能基础设施,集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件,提供了一套基于可视数据仓库的商业智能解决方案。OracleOracle、Hyperion,覆盖BI全部领域,数据挖掘领域有待加强。数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,能够提供一系列的数据仓库工具集和服务,具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP工具的交互能力及快速和便捷的数据移动机制等特性。SAPBusinessObjects、CrystalReports,主要是OLAP和报表领域。Sybase(SAP)提供了称为WarehouseStudio的一整套覆盖整个数据仓库建立周期的产品包,包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。BusinessObjects(SAP)是集查询、报表和OLAP技术为一身的智能决策支持系统,具有较好的查询和报表功能,提供多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。MicrosoftSQLServer,覆盖BI全部领域,适合中小型企业,性价比高。它提供了三大服务和一个工具来实现数据仓库系统的整合,为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能,可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能。TeradataTeradata,主要是数据仓库领域。它提出了可扩展数据仓库基本架构,包括数据装载、数据管理和信息访问几个部分,是高端数据仓库市场最有力竞争者,主要运行在基于Unix操作系统平台的NCR硬件设备上。SASSAS,数据挖掘领域领先。SAS公司的数据仓库解决方案是一个由30多个专用模块构成的架构体系,适应于对企业级的数据进行重新整合,支持多维、快速查询,提供服务于OLAP操作和决策支持的数据采集、管理、处理和展现功能。国内其他菲奈特(BIoffice)、和勤(Hinge)、奥威智动(Power-BI)、科加诺(QlikView)、尚南(BlueQuery),润乾、探智(Trinity)。目前活跃跃在国内内BI市场上的的厂商大大致可分分为以下下三类::商务智能能主要厂厂商产品品链介绍绍?厂商数据库数据仓库设计、管理ETLOLAP数据挖掘报表IBMDB2IBMDWEDesignStudioIBMWebshpereDatastage、DecisionStream(Cognos)IBMDB2OLAPServerIBMIntelligentMiner、SPSSIBMCognosReportOracleOracleOracleWarehouseBuilderOracleWarehouseBuilderOracleExpress/DiscovererOracleDataMinerOracleReportsSAP-BusinessObjectsRapidMartsBusinessObjectsDataIntegratoinBusinessObjectsOLAPIntelligence-BusinessObjectsCrystalReportMicrosoftSQLServerSQLServerManagementStudioSQLServerIntegrationServicesSQLServerAnalysisServicesSQLServerDataMinerSQLServerReportingServicesTeradataTeradataTeradataRDBMS/TeradataMetaDataServicesTeradataETLAutomation-TeradataWarehouseMinerBTEQSybaseSybase
IQPowerDesinger/WarehouseControlCenterDataIntegratoinSuitePowerDimension-InfoMakerSAS-SASWarehouseAdministratorSASETLStudioSASOLAPServerSASEnterpriseMinerSASReportStudio三、技术术篇商务智能能总体解解决方案案财务信息息“ETL”Extract–Transform--Load数据仓库库/数据集市市/ODS商务智能能平台信息展现现*决策者分析员管理者业务员数据查询报表分析多维分析数据挖掘分析门户户数据整合合*OracleDB2SQLServerSybaseTeraData……销售信息息库存信息息DataIntegrationRapidMart商务智能能核心技技术有哪哪些?三.ETL技术二.元数据管管理技术术一.数据仓库技术四.在线联机机分析处处理技术术(OLAP)五.数据挖掘掘技术数据仓库库是一个个面向主主题的、、集成的的、时变变的、非非易失的的数据集集合,支支持管理理部门的的决策过过程。面向主题题的(subject-oriented):数据仓库库围绕一一些主题题,如顾顾客、供供应商、、产品和和销售组组织。数数据仓库库关注决决策者的的数据建建模与分分析,而而不是集集中于组组织机构构的日常常操作和和事务处处理。因因此,数数据仓库库排除对对决策无无用的数数据,提提供特定定主题的的简明视视图。集成的((integrated):通常,构构造数据据仓库是是将多个个异种数数据源,,如关系系数据库库、一般般文件和和联机事事务处理理记录集集成在一一起。使使用数据据清理和和数据集集成技术术,确保保命名约约定、编编码结构构和属性性度量等等指标的的一致性性。时变的((time-variant):数据存储储从历史史的角度度提供信信息。数数据仓库库中的关关键结构构,隐式式或显式式地包含含时间元元素。非易失的的(nonvolatile):数据仓库库的数据据是有历历史保存存意义的的,数据据仓库的的数据也也只使用用添加的的方式,,进入了了数据仓仓库的数数据一般般情况下下是不需需要更新新的,这这样就保保证了数数据的稳稳定性。。通常,,它只需需要三种种数据访访问:数数据的初初始化装装入、数数据的添添加和数数据查询询访问。。数据仓库库定义事实表是用来记记录具体体事件的的,包含含了每个个事件的的具体要要素,以以及具体体发生的的事情;;维度表是对事实实表中事事件的要要素的描描述信息息;
数据仓库库相关概概念一个事实实表和多多个维度度表构成成一个立立方体((主题),一个个或者多多个相关关主题构构成一个个数据集市市,一个或或者多个个数据集集市构成成了数据仓库库。数据仓库库的架构构模型包包括了星型架构构与雪花型架架构两种模式式。星型架构构的中间间为事实实表,四四周为维维度表,,类似星星星;雪花型架架构的中中间为事事实表,,两边的的维度表表可以再再有其关关联子表表,从而而表达了了清晰的的维度层层次关系系。步骤一::确定主主题即确定数数据分析析或前端端展现的的主题。。例如::我们希希望分析析某年某某月某一一地区的的啤酒销销售情况况,这就就是一个个主题。。主题要要体现出出某一方方面的各各分析角角度(维度)和统计数数据(量度)之间的关关系,确确定主题题时要综综合考虑虑。我们们可以形形象的将将一个主主题想象象为一颗颗星星::统计数数据(量度)存在于星星星中间间的事实实表;分分析角度度(维度)是星星的的各个角角;我们们将通过过维度的的组合,,来考察察量度。。那么,,“某年年某月某某一地区区的啤酒酒销售情情况”这这样一个个主题,,就要求求我们通通过时间和地区两个维度度的组合合,来考考察销售情况况这个量度度。步骤二::确定量量度在确定了了主题以以后,我我们将考考虑要分分析的技技术指标标,诸如如年销售售额之类类。它们们一般为为数值,,称为量量度。量量度是统统计的指指标,必必须事先先选择恰恰当,基基于不同同的量度度可以进进行复杂杂关键性性能指标标(KPI)的设计和和计算。。数据仓库库构建步步骤步骤二::确定量量度在确定了了主题以以后,我我们将考考虑要分分析的技技术指标标,诸如如年销售售额之类类。它们们一般为为数值,,称为量量度。量量度是统统计的指指标,必必须事先先选择恰恰当,基基于不同同的量度度可以进进行复杂杂关键性性能指标标(KPI)的设计和和计算。。步骤三::确定事事实数据据粒度在确定了了量度之之后,我我们要考考虑到该该量度的的汇总情情况和不不同维度度下量度度的聚合合情况。。考虑到到量度的的聚合程程度不同同,或采采用“最最小粒度度原则””,即将将量度的的粒度设设置到最最小。数据仓库库构建步步骤步骤四::确定维维度维度是指指分析的的各个角角度。例例如我们们希望按按照时间间,或者者按照地地区,或或者按照照产品进进行分析析,那么么这里的的时间、、地区、、产品就就是相应应的维度度。基于于不同的的维度,,我们可可以看到到各量度度的汇总总情况,,也可以以基于所所有的维维度进行行交叉分分析。步骤五::创建事实实表在确定好好事实数数据和维维度后,,我们将将考虑加加载事实实表。在在公司的的大量数数据堆积积如山时时,我们们想看看看里面究究竟是什什么,结结果发现现里面是是一笔笔笔生产记记录,一一笔笔交交易记录录…那么这些些记录是是我们将将要建立立的事实实表的原原始数据据,即关关于某一一主题的的事实记记录表。。事实表表是数据据仓库的的核心。。数据仓库库构建步步骤商务智能能核心技技术有哪哪些?三.ETL技术二.元数据管管理技术术一.数据仓库库技术四.在线联机机分析处处理技术术(OLAP)五.数据挖掘掘技术元数据通通常定义义“关于数数据的数数据(例例如视图图,查询询SQL,事务,,存储过过程)””,是描描述和管管理数据据仓库自自身内容容对象、、用来表表示数据据项的意意义及其其在系统统各组成成部件之之间的关关系的数数据。元元数据作作用于数数据仓库库的创建建,维护护,管理理和使用用的各个个方面。。是从广广义上来来讲,用用元数据据来描述述数据仓仓库对象象的任何何东西——无论是一一个表、、一个列列、一个个查询、、一个商商业规则则,或者者是数据据仓库内内部的数数据转移移。它在在数据源源的抽取取、数据据加工、、访问与与使用等等过程中中都会存存在。实实现元数数据管理理的主要要目标就就是使企企业内部部元数据据的定义义标准化化。数据据仓库的的维护工工具可以以根据元元数据完完成数据据的抽取取、清洗洗和转换换,并做做适度的的汇总。。数据仓库库的元数数据包括括:(1)数据资资源:包包括各个个数据源源的模型型,描述述源数据据表字段段属性及及业务含含义,源源数据到到数据仓仓库的映映射关系系;(2)数据组组织:数数据仓库库、数据据集市表表的结构构、属性性及业务务含义,,多维结结构等等等;(3)数据应应用:查查询与报报表输出出格式描描述、OLAP、数据挖挖掘等的的数据模模型的信信息展现现;(4)数据管管理:这这里包括括数据仓仓库过程程以及数数据仓库库操作结结果的模模型,包包括描述述数据抽抽取和清清洗规则则、数据据加载控控制、临临时表结结构、用用途和使使用情况况、数据据汇总控控制。元数据分析用户户数据库、、数据仓仓库我想知道道今年、、做得最最好的5个产品数据仓库库中有80张数据表表无语义层层的工作作模式无语义层层的工作作模式以往的两两种主要要的解决决数据访访问问题题的方法法:TheBureauApproach:业务人员技术人员SQLTheSQLEducationApproach:业务人员技术人员SQL透过语义义层访问问数据设计语义义层Universe设计数据据库和数数据安全全机制企业数据据库业务人员员的要求求业务人员员可以基基于语义义层进行行数据查查询和分分析不需要了了解数据据库内部部结构不需要学学习SQL语句股票财经销售IT人员的要要求专注于数数据库维维护专注于语语义层开开发有语义层层的工作作模式商务智能能核心技技术有哪哪些?三.ETL技术二.元数据管管理技术术一.数据仓库库技术四.在线联机机分析处处理技术术(OLAP)五.数据挖掘掘技术商业智能能的核心心内容是是从许多多来自企企业不同同的业务务处理系系统的数数据(分分布的、、异构的的源数据据)中,,提取出出有用的的数据,,进行清清理以保保证数据据的正确确性,然然后经过过抽取((Extraction)、转换换(Transformation)和装载载(Load),即ETL过程(本本质上是是样本提提取的过过程),,整合到到一个企企业级的的数据仓仓库里,,从而得得到企业业信息的的一个全全局视图图,在此此基础上上利用合合适的查查询和分分析工具具、数据据挖掘工工具等对对数据仓仓库里的的数据进进行分析析和处理理,形成成信息,,甚至进进一步把把信息提提炼出辅辅助决策策的知识识,最后后把知识识呈现给给管理者者,为管管理者的的决策过过程提供供支持。。ETL概念ETL特征:以串行/并行方式式,从不不同异构构数据源源流向统统一的目目标数据据,核心心在于转转换过程程(关联联,聚集集),而而抽取和和装载一一般可以以作为转转换的输输入和输输出。ETL元数据主主要包括括每次转转换前后后的数据据结构和和转换的的规则。。数据同步步,数据据ETL是经常性性的活动动,按照照固定周周期运行行,甚至至实时运运行。流程控制制和数据据验证机机制。字段映射射;映射的自自动匹配配;字段的拆拆分;多字段的的混合运运算;跨异构数数据库的的关联;;自定义函函数;多数据类类型支持持;复杂条件件过滤;;支持脏读读;数据的批批量装载载;时间类型型的转换换;对各种码码表的支支持;环境变量量是否可可以动态态修改;;去重复记记录;抽取断点点;记录间合合并或计计算;记录拆分分;抽取的字字段是否否可以动动态修改改;行、列变变换;排序;统计;度量衡等等常用的的转换函函数;代理主键键的生成成;调试功能能;抽取远程程数据;;增量抽取取的处理理方式;;制造样品品数据;;在转换过过程中是是否支持持数据比比较的功功能;数据预览览;性能监控控;数据清洗洗及标准准化;按行、按按列的分分组聚合合等ETL技术功能能清单增量数据据ETL解决方案案比较技术路线相关产品适用场合优点缺点触发器(Trigger)客户自己非常熟悉自己开发的业务系统的数据存储逻辑,而且数据的实时性要求非常高,整表数据量大于100万的情况获取增量数据实时性好;性能好;实现容易容易导致原业务系统不能正常工作;触发器状态不易监控和管理;触发器失效容易造成监控期间的增量数据丢失时间戳客户自己对业务系统数据存储逻辑不是很熟,业务系统安全性要求很高,对增量数据的实时性要求不是很高,整表的数据量不大于100万的情况不需要对原系统进行任何修改;实现容易增量数据的获取和更新机制对目的数据库和源数据库都存在较大性能影响。数据库日志CDC(IBM)在不适合触发器、时间戳的情况下,通过数据库日志的方式通过第三方监听工具实现增量数据的同步不用对业务系统表结构进行直接修改;对数据ETL过程进行监控,有利于后续日常管理需要源数据库支持日志功能,并且修改源数据库的日志监控选项;启动日志监控会适当地影响源数据库的性能;购买专业的数据库监控软件增加项目的成本。ETL技术与数数据库复复制技术术比较序号项目ETL数据库复制1适用场合适合于数据仓库系统,尤其适合于数据抽取中需要进行数据清晰、转换和运算的情况适合数据库的数据复制,可用于数据库系统的备份、数据容灾、以及备份数据的再利用,在备份系统上开发新的业务模块。2性能性能比较低非常高(高两个数量级)3相关产品SSIS,CDC,Datastage等DSGRealsync,QUESTShareplex以及ORACLEDataGuard、HighVolumeReplicator等7、商务智智能核心心技术有有哪些??三.ETL技术二.元数据管管理技术术一.数据仓库库技术四.在线联机机分析处处理技术术(OLAP)五.数据挖掘掘技术联机分析析处理((OLAP)是对立立方体中中的数据据进行在在线的分分析,可可以包括括切片、切切块、钻钻取、旋旋转、钻钻透等分析方方法;根据数据据的存储储模式不不同OLAP可划分为为:MOLAP、ROLAP、HOLAP三种OLAP概念主流的OLAP产品有OracleExpress/Discoverer、SQLServerAnalysisServices、DB2OLAPServer、SASOLAPServer等,这些些产品都都可以生生成多维维数据立立方体,,提供多多维数据据的快速速分析,,支持所所有主流流关系型型数据库库如DB2,Oracle,SQLServer,Sybase等,同时时可读取取关系数数据库中中细节数数据,实实现混合合在线分分析(HOLAP))或关系型型在线分分析(ROLAP))商务智能能核心技技术-OLAP旋转、切切片、钻钻取、钻钻透分析析联动分析析模型预测测分析7、商务智智能核心心技术有有哪些??三.ETL技术二.元数据管管理技术术一.数据仓库库技术四.在线联机机分析处处理技术术(OLAP)五.数据挖掘掘技术数据挖掘掘(DataMining)是采用用数学的的、统计计的、人人工智能能和神经经网络等等领域的的科学方方法,从从大量数数据中挖挖掘出隐隐含的、、先前未未知的、、对决策策有潜在在价值的的关系、、模式和和趋势,,并用这这些知识识和规则则建立用用于决策策支持的的模型,,为商业业智能系系统服务务的各业业务领域域提供预预测性决决策支持持的方法法、工具具和过程程。数据挖掘掘前身是是知识发发现(KDD,KnowledgeDiscoveryinDatabases),属于于机器学学习的范范畴,所所用技术术和工具具主要有有统计分分析(或或数据分分析)和和知识发发现。知知识发现现与数据据挖掘是是人工智智能、机机器学习习与数据据库技术术相结合合的产物物,是从从数据中中发现有有用知识识的整个个过程。。数据挖掘掘概念1.数据选选择数据选择择过程是是根据用用户的挖挖掘目标标,交互互式地完完成对源源数据的的裁减,,使生成成的目标标数据只只集中在在与挖掘掘目标相相一致的的数据上上。目标标数据应应该以适适合于挖挖掘的形形式进行行组织,,常用的的是关系系数据库库或多维维数据立立方体等等形式。。2.模型建建立数据特征征探索、、分析和和预处理理,消除除数据中中的噪声声,然后后建立挖挖掘模型型并实施施对应的的算法。。3.模型验验证不论是自自己建立立挖掘模模型还是是选取或或改进已已有模型型都必须须要进行行验证。。这种验验证最常常用的方方法是样样本学习习。先用用一部分分数据建建立模型型,然后后再用剩剩下的数数据来测测试和验验证这个个模型。。数据挖掘掘是一个个反复的的过程。。通过反反复的交交互式执执行和验验证才能能找到解解决问题题的最好好途径。。通过不不断地产产生、筛筛选和验验证,才才能把把有意义义的知识识集成到到企业的的知识库库或商业业智能系系统中去去。数据挖掘掘三个步步骤分类:样样本分析析贝叶斯分分类贝叶斯分分类是利利用贝叶叶斯公式式,通过过计算每每个特征征下分类类的条件件概率,,来计算算某个特特征组合合实例的的分类概概率,选选取最大大概率的的分类作作为分类类结果,,朴素贝贝叶斯分分类要求求各特征征间是相相互独立立的,对对异常的的反应敏敏感。常常见的贝贝叶斯分分类器有有NaiveBayes,TAN,BAN,,GBN等方法。。KNN法KNN(K-NearestNeighbor)法即K最近邻法法,最初初由Cover和Hart于1968年提出的的,是一一个理论论上比较较成熟的的方法。。该方法法的思路路非常简简单直观观:如果果一个样样本在特特征空间间中的K个最相似似(即特特征空间间中最邻邻近)的的样本中中的大多多数属于于某一个个类别,,则该样样本也属属于这个个类别。。该方法法在定类类决策上上只依据据最邻近近的一个个或者几几个样本本的类别别来决定定待分样样本所属属的类别别。该方方法的不不足之处处是计算算量较大大。SVM法SVM法即支持持向量机机(SupportVectorMachine)法,由由Vapnik等人于1995年提出,,具有相相对优良良的性能能指标。。该方法法是建立立在统计计学习理理论基础础上的机机器学习习方法。。通过学学习算法法,SVM可以自动动寻找出出那些对对分类有有较好区区分能力力的支持持向量,,由此构构造出的的分类器器可以最最大化类类与类的的间隔,,因而有有较好的的适应能能力和较较高的分分准率。。该方法法只需要要由各类类域的边边界样本本的类别别来决定定最后的的分类结结果。数据挖掘掘方法聚类分析析:马氏氏距离,,K距离聚类分析析(Cluster)根据已已知数据据,计算算各观察察个体或或变量之之间亲疏疏关系的的统计量量(距离离或相关关系数))。根据据某种准准则(最最短距离离法、最最长距离离法、中中间距离离法、重重心法等等),使使同一类类内的差差别较小小,而类类与类之之间的差差别较大大,最终终将观察察个体或或变量分分为若干干类。聚类分析析主要用用在客户户和市场场细分方方面。以以客户关关系管理理为例,,利用聚聚类分析析,根据据客户在在不同特特征如性性别、年年龄、收收入水平平、交易易历史、、教育状状况、家家庭情况况等方面面的相似似程度,,对客户户进行分分类。通通过聚类类分析,,企业往往往可以以发现客客户的喜喜好或行行为模式式,了解解客户的的共性,,从而提提供有针针对性的的客户服服务,提提高企业业服务成成功率,,如提供供针对性性的产品品组合等等等。关联分析析:发现现关联规规则,事事件序列列,相似似性时间间序列关联分析析(Association)反映一一个事件件和其它它事件之之间的依依赖或关关联。数数据库中中的数据据关联是是现实世世界中事事物联系系的表现现。关联联可分为为简单关关联、时时序(TimeSeries)关联、、因果关关联、数数量关联联等。这这些关联联并不总总是事先先知道的的,而而是通过过数据库库中数据据的关联联分析获获得的,,因而对对商业决决策具有有新价值值。关联分析析常被用用于市场场购物篮篮分析、、交叉销销售,促促销计划划等。例例如,在在寻求诸诸如当购购买油漆漆时是否否购买刷刷子一类类的模式式过程中中,人们们发现,,如果顾顾客购买买了油漆漆,有20%的可能性性也会购购买刷子子。统计分析析方法非线性回回归分析析(Nonlinearregression)、逻辑辑回归分分析、单单变量分分析、多多变量分分析、时时间序列列分析、、最近邻邻算法。。数据挖掘掘方法T检验假设检验验方法,,主要用用来比较较两个总总体均值值的差异异是否显显著。方差分析析(AnalysisofVariance,ANOVA)超过两个个总体的的均值检检验,也也经常用用于实验验设计后后的检验验问题。。主成分分分析和因因子分析析主成分分分析(PrincipleAnalysis)和因子子分析((FactorAnalysis)目标是是找出多多个潜藏藏的变量量之间的的关系,,主要用用在消费费者行为为态度等等研究、、价值观观态度语语句的分分析、市市场细分分之前的的因子聚聚类等,,问卷的的信度和和效度检检验等,,因子分分析也可可算是数数据的预预处理技技术。主主成分分分析与因因子分析析是两种种方法,,要能够够区分。。主成分分分析可可以消减减变量,,权重等等,主成成分还可可以用作作构建综综合排名名统计分分析方法法。时间序列列分析时间序列列分析((TimeSequence)用于识识别具体体具有先先后次序序的不同同时间之之间的关关联性。。比如,,客户一一月购买买了饭盒盒和帐篷篷,二月月购买了了旅行背背包和录录像带,,三月购购买了睡睡袋。时时间序列列分析查查看所有有记录并并返回如如下规则则:如果果一月的的购买目目标中包包括饭盒盒,则三三月购买买睡袋的的机率是是30%。关联分分析可发发现时间间相关性性。回归分析析回归分析析(RegressionAnalysis)是重要要的认识识多变量量分析的的基础方方法,只只有掌握握了回归归我们才才能进入入多变量量分析,,其它很很多方法法都是变变种。主主要用在在影响研研究、满满意度研研究等,,当然市市场研究究基本上上是解释释性回归归分析,,也就是是不注重重预测而而关注解解释自变变量对因因变量的的影响。。主要把把握R平方、逐逐步回归归、标准准化回归归系数((当作权权重或重重要性))等;回回归也是是预处理理技术,,缺省值值处理等等。数据挖掘掘方法Logistics回归技术术分类技术术,主要要针对因因变量是是0-1情况下的的判别,,该技术术是我们们认识非非线性关关系的重重要基础础,很多多情况下下,我们们需要作作出是与与否的判判断,基基础模型型就是它它了,像像客户离离网分析析、客户户价值分分析、客客户信用用等都用用这个模模型;方方差分析析(AnalysisofVariance,ANOVA)。决策树((Decisiontrees):主要要用于分分类和细细分,分分析事件件分支及及概率分分布。决策树是是将特征征的判别别序列形形成一颗颗树,从从树根到到叶子节节点进行行每个节节点的判判断,叶叶子节点点处对应应某个类类别标号号,就是是最终的的分类结结果。决策树分分类的关关键是树树的构造造,由每每个节点点引申每每个属性性的判别别分支。。如何选选择特征征属性的的判别顺顺序?一一种方法法是利用用每个特特征对最最终分类类结果的的区分度度(训练练集中)),常用用的区分分标准有有卡方,,信息增增益,信信息增益益率。主主要的决决策树算算法有ID3,,C4..5,CHAID,CART,Quest和C5.0。神经网络络方法::正向传传播和反反向传播播神经网络络(Neuralnetworks)方法的的目标是是捕获市市场巴素素(如广广告等促促销手段段)与总总的销售售额间的的复杂关关系,找找出输人人量变化化引起的的输出量量波动之之间的映映射关系系,通过过神经网网络的预预报模型型和敏感感性分析析可能找找出重要要的影响响因子,,此模型型能够在在给定的的短期预预报中取取得良好好的性能能。反向传播播神经网网络适合合于每日日或每周周数据预预报.与反向传传播相比比,正向向传播神神经网络络在速度度方面更更具优势势。遗传算法法(人工工生命))博弈算法法数据挖掘掘方法三、实施施篇商务智能能一个成功功商务智智能案例例需要做做些什么么?商务智能能实施三.商务智能能实施方方法二.商务智能能实施经经验一.商务智能实施层次一、商务务智能实实施层次次实施商务务智能一一定是业业务驱动动,目标标导向。。与ERP等系统最最大的区区别是,,ERP是企业的的运营系系统,管管理企业业的日常常流程,,以流程程为导向向。而商商务智能能是目标标导向,,那么要要做好商商务智能能,企业业要明确确解决什什么问题题。当企企业明确确了要解解决的问问题后,,再分析析为了解解决这些些问题要要采取哪哪些方式式。企业级商商业智能能的构建建是一个个系统工工程,它它有三个个层次,,需要一一步一步步建设。。第一个层层次BusinessInformation-Mode是整个BI工程的基基础;第二个层层次BusinessIntegration是整个BI工程的技技术实现现基础;;第三个层层次BusinessIntelligence才是真正正意义上上的商业业智能的的软件实实现。4、商务智智能实施施三.商务智能能实施方方法一.商务智能能实施层层次二.商务智能实施经验二、商务务智能实实施经验验1)数据据种类少少、数据据量大是是企业实实施商业业智能应应用的最最佳环境境,因为为这将有有利于数数据整合合、转换换、清洗洗、抽取取、装载载及数据据模型的的建立。。2)先导导入ERP有利于数数据整合合,减少少导入BI系统的工工作量,,缺点是是需要增增加ERP的导入周周期。3)首先先确定企企业需求求,定义义明确的的目标和和收益率率,以重重点业务务为突破破口(自自上而下下),选选择合适适的数据据仓库产产品和系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 济宁学院《金融市场学》2021-2022学年第一学期期末试卷
- 二零二四年度新能源汽车生产许可合同
- 2024年班主任家访工作总结
- 全新智能家居系统研发合作合同
- 癫痫的诊断与治疗
- 脉搏的护理操作
- 皮肤伤口护理
- 二零二四年度房屋买卖合同标的房价款和交付时间2篇
- 生态畜牧养殖示范园项目可行性报告 生态畜牧养殖项目实施方案
- 血液病染色体
- 10.1 第十章 31-36个月幼儿的教育活动-教案一
- 北师大版九年级下册数学全册教案完整版教学设计
- 重庆文理学院数据库基础期末样卷(六套试卷)及答案
- 2022年云南大理州住房公积金管理中心选调事业单位工作人员冲刺卷(3套)答案详解㈠
- 实验幼儿园食堂汇报教学课件
- 现代有轨电车课件
- 漆包线基础理论全解课件
- 项目成本分析附表 样本
- 医院认知障碍患者进食问题评估与处理资料
- 第二课 青春的心弦 复习课件-部编版道德与法治七年级下册
- 工程停工申请表和停工报告
评论
0/150
提交评论