商务智能入门培训_第1页
商务智能入门培训_第2页
商务智能入门培训_第3页
商务智能入门培训_第4页
商务智能入门培训_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务智能入门培训

BusinessIntelligence

一、概念篇实例:沃尔玛的销售部在总结历史销售记录的时候发现,每到周末的时候,啤酒和尿布的销量都比平时要高很多,这是一个巧合还是这个现象的背后隐藏着一定的必然因素?销售人员展开了调查,结果发现:每到周末,有孩子的家庭主妇就会让他们的丈夫去超市给孩子买足一周用的尿布,这些丈夫们必然会选择一些自己爱喝的啤酒,以便周末在欣赏橄榄球赛和篮球赛的时候可以和朋友们一起庆祝。原因找到了之后,销售部采取了措施,每到周末将超市的啤酒和尿布捆绑销售,这样,啤酒和尿布的销量又同时增加了一成。什么是商务智能?二、市场分析篇商务智能的应用分为纵向商务智能和横向商务智能。纵向商务智能是指企业分别实施多个信息化系统,比如财务系统中的管理会计就是商务智能的一部分,从以前只关注运营报表,到关注整个财务的运作情况,像现金流、资产负债等。而人力资源系统可以称为智能人力资源,关注员工的流失率,分析从什么途径招聘的员工流失率最高,分析公司人才结构、人才培养方向等。总而言之,企业有了核心业务系统、管理信息系统,在这些系统之上做智能的分析,而这些分析得到的信息完全是来自单独的系统。那么横向商务智能指的是什么呢?举例来说,比如汽车制造厂生产多款不同的车型,公司老总会问,生产哪一款车型、生产多少,企业的效率能够达到最高?这样的问题,不能通过分析单独的系统得到,因为效益最高取决于生产成本、人力资源成本、市场的需求、竞争对手、市场定价等多方面的信息。而这些信息则分散在财务系统、人力资源系统、采购系统中,这就需要系统和信息有效的整合才能解决这个问题,所以称为横向商务智能。商业智能应用领域?商业智能是一种整体化的解决方案,他可以帮助企业做出明智的业务经营决策,而依据则是企业内部的各种数据,例如订单、库存、交易账目、客户和供应商资料、行业数据和竞争对手信息等等。商业智能其实是一种将企业信息数据转化为决策的重要工具。商业智能的应用是需要一定的基础的。实施商业智能的企业至少应该具备以下几个条件:用户的数据已达到一定的规模;用户面临激烈的市场竞争:用户在IT方面的资金能得到保障。满足以上几点的行业集中在重要的政府机构(如财务、税务、审计、工商、海关等)、零售业(连锁店、网上零售等)、大型现代化的制造业(如宝钢、上汽集团等)、金融(包括银行、证券、保险等)、电信业(如中国电信、中国网通、中国移动等)、能源业(电力)、运输等,这也是目前国内急需要数据仓库和商业智能技术来提升企业竞争力的主要行业。金融、电信行业是BI应用最集中的行业,约占40%的市场分额,保险、能源、烟草、政务行业约占30%的市场份额,制造、零售行业约占30%的市场份额,是BI应用最具潜力的行业。金融:随着国内五大商业银行的信息化不断发展,在BI领域投资稳步增长,每年均有大量的BI需求,其中BI已经不仅局限于高层管理者的决策,操作型BI应用越来越广泛,尤其是信贷评审领域。中小型银行BI需求也不断涌现,未来将是金融行业BI市场的主要增长点。电信:电信行业信息化程度很高,对信息化依赖很强,积累了大量的数据,具有实施商业智能项目的基础条件和资金实力。电信行业对于BI深入应用是最渴望的,在话费套餐设置、客户潜力分析等都需要数据挖掘技术来提供决策依据。行业现状?行业市场规模?发展趋势?发展趋势及预测移动商业智能

商业智能系统会把大量数据转变成可视化形式(如图形和表格),以便使用者详细深入地分析潜在商业趋势。因此如果为这种分析赋予移动性——通常利用功能强大的智能终端,许多公司就能与客户和商业合作伙伴进行实时互动,从而改善服务、提高工作效率。SaaSBI将得到快速发展 SaaS是基于互联网提供软件服务的软件应用模式,企业根据实际需要,从SaaS提供商租赁软件服务。SaaS模式在CRM领域获得了成功,不论是国外还是国内具有成熟的产品,并取得了不错的收益。SAAS在BI领域的应用的挑战是应用于互联网上的SAAS软件无法处理BI所需的海量数据。商业智能日渐与业务融合

业务分析作为商业智能领域中最贴近业务的层面,在2010年成为业界关注的重点,不管是SAP还是IBM,都将业务分析作为今年的业务发展重点。企业希望由BI系统带来的透明度和洞察力能够帮助企业降低成本,提高生产率和业务敏捷性。通过商业智能,企业能更清晰更深刻的了解包括公司管理、利润分析、市场竞争、财务状况等信息,而未来商业智能的这种特性还将继续加强。操作型BI应用得到发展

目前商业智能技术不仅仅应用于企业高层管理者的决策分析,越来越多的商业智能分析结果正被用于普通员工的日常工作流程中,直接推动业务的执行。例如:在家乐福购物时,收银员已经可以根据顾客的购物篮进行产品推荐。发展趋势?数据集成应用得到重视

在一些大型企业中往往有几十个甚至几百个信息系统,将这些数据整合到数据仓库中,一般采取ETL工具抽取多个厂商数据库的数据,有些甚至还包含非结构化数据,例如XML、EXCEL、文本等。这些数据往往需要加工和整理放入ODS(中间库),最后以规范、标准的格式存储到数据仓库。在这个数据集成的过程中,要做到系统兼容性好、开发效率高、处理性能好,而且能够捕捉数据的变化处理增量数据。数据集成是建立实用的数据仓库的关键,而且数据集成的过程占商业智能应用中一半以上的工作量,因此越是大型企业越是重视数据集成。中小企业BI应用逐渐扩大市场

份额

中国中小企业逐渐呈现对管理软件旺盛的需求态势,很多厂商发布了专门针对中小企业的BI套件,例如CognosExpress等。中小企业在实施ERP、CRM产品后,必将应用商业智能,中小企业市场是BI应用非常重要的组成部分。BI企业将在垄断中不断新生

中国商业智能市场两极竞争趋势日益加剧。在高端市场,由国际厂商垄断与竞争的局面是2010年的主流,其中IBM、Oracle、SAP、Microsoft拥有完整的BI产品线,将占据70%以上的市场份额。剩余的30%市场将由其他外资企业和国内企业分享。随着国内企业的成长与并购,国内厂商的实力不断壮大,但是主要集中于中低端市场,在2010年优秀的国产BI产品将开始不断向四大国际厂商发起挑战,但是竞争的过程将是极其漫长的。1)国际BI厂商,如BO公司(SAP)、Hyperion公司(Oracle)、微软公司、SAS公司等。这些国际厂商的品牌与规模优势非常突出,是国内大部分BI厂商难以与之匹敌的。2)起步比较早的国内BI厂商,如菲奈特(成立于1995年10月,从1997年开始进入BI领域)、先进数通公司(成立于2000年)、吉贝克公司(成立于2002年)等。这些国内BI厂商凭借本土化的优势以及对国内BI用户所需要的应用的独特见解,也在国内的BI市场上占有超过30%的市场份额。3)非专业BI厂商,主要有以下几类:一、从事某些行业核心业务系统建设的公司;二、从事系统集成的公司;三、从事专业财务系统及个别ERP厂商。商务智能主要厂商有哪些?厂商产品及简介IBMDB2以及Cognos、SPSS、DataStage,覆盖BI全部领域。数据仓库产品结合了DB2数据服务器的长处和IBM的商业智能基础设施,集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件,提供了一套基于可视数据仓库的商业智能解决方案。OracleOracle、Hyperion,覆盖BI全部领域,数据挖掘领域有待加强。数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,能够提供一系列的数据仓库工具集和服务,具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP工具的交互能力及快速和便捷的数据移动机制等特性。SAPBusinessObjects、CrystalReports,主要是OLAP和报表领域。Sybase(SAP)提供了称为WarehouseStudio的一整套覆盖整个数据仓库建立周期的产品包,包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。BusinessObjects(SAP)是集查询、报表和OLAP技术为一身的智能决策支持系统,具有较好的查询和报表功能,提供多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。MicrosoftSQLServer,覆盖BI全部领域,适合中小型企业,性价比高。它提供了三大服务和一个工具来实现数据仓库系统的整合,为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能,可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能。TeradataTeradata,主要是数据仓库领域。它提出了可扩展数据仓库基本架构,包括数据装载、数据管理和信息访问几个部分,是高端数据仓库市场最有力竞争者,主要运行在基于Unix操作系统平台的NCR硬件设备上。SASSAS,数据挖掘领域领先。SAS公司的数据仓库解决方案是一个由30多个专用模块构成的架构体系,适应于对企业级的数据进行重新整合,支持多维、快速查询,提供服务于OLAP操作和决策支持的数据采集、管理、处理和展现功能。国内其他菲奈特(BIoffice)、和勤(Hinge)、奥威智动(Power-BI)、科加诺(QlikView)、尚南(BlueQuery),润乾、探智(Trinity)。目前活跃在国内BI市场上的厂商大致可分为以下三类:商务智能主要要厂商产品链链介绍?厂商数据库数据仓库设计、管理ETLOLAP数据挖掘报表IBMDB2IBMDWEDesignStudioIBMWebshpereDatastage、DecisionStream(Cognos)IBMDB2OLAPServerIBMIntelligentMiner、SPSSIBMCognosReportOracleOracleOracleWarehouseBuilderOracleWarehouseBuilderOracleExpress/DiscovererOracleDataMinerOracleReportsSAP-BusinessObjectsRapidMartsBusinessObjectsDataIntegratoinBusinessObjectsOLAPIntelligence-BusinessObjectsCrystalReportMicrosoftSQLServerSQLServerManagementStudioSQLServerIntegrationServicesSQLServerAnalysisServicesSQLServerDataMinerSQLServerReportingServicesTeradataTeradataTeradataRDBMS/TeradataMetaDataServicesTeradataETLAutomation-TeradataWarehouseMinerBTEQSybaseSybase

IQPowerDesinger/WarehouseControlCenterDataIntegratoinSuitePowerDimension-InfoMakerSAS-SASWarehouseAdministratorSASETLStudioSASOLAPServerSASEnterpriseMinerSASReportStudio三、技术篇商务智能总体体解决方案财务信息“ETL”Extract–Transform-Load数据仓库/数据集市/ODS商务智能平台台信息展现*决策者分析员管理者业务员数据查询报表分析多维分析数据挖掘分析门户数据整合*OracleDB2SQLServerSybaseTeraData……销售信息库存信息DataIntegrationRapidMart商务智能核心心技术有哪些些?三.ETL技术二.元数据管理技技术一.数据仓库技术四.在线联机分析析处理技术((OLAP)五.数据挖掘技术术数据仓库是一一个面向主题题的、集成的的、时变的、、非易失的数数据集合,支支持管理部门门的决策过程程。面向主题的((subject-oriented):数据仓库围绕绕一些主题,,如顾客、供供应商、产品品和销售组织织。数据仓库库关注决策者者的数据建模模与分析,而而不是集中于于组织机构的的日常操作和和事务处理。。因此,数据据仓库排除对对决策无用的的数据,提供供特定主题的的简明视图。。集成的(integrated):通常,构造数数据仓库是将将多个异种数数据源,如关关系数据库、、一般文件和和联机事务处处理记录集成成在一起。使使用数据清理理和数据集成成技术,确保保命名约定、、编码结构和和属性度量等等指标的一致致性。时变的(time-variant):数据存储从历历史的角度提提供信息。数数据仓库中的的关键结构,,隐式或显式式地包含时间间元素。非易失的(nonvolatile):数据仓库的数数据是有历史史保存意义的的,数据仓库库的数据也只只使用添加的的方式,进入入了数据仓库库的数据一般般情况下是不不需要更新的的,这样就保保证了数据的的稳定性。通通常,它只需需要三种数据据访问:数据据的初始化装装入、数据的的添加和数据据查询访问。。数据仓库定义义事实表是用来记录具具体事件的,,包含了每个个事件的具体体要素,以及及具体发生的的事情;维度表是对事实表中中事件的要素素的描述信息息;数据仓库相关关概念一个事实表和和多个维度表表构成一个立立方体(主题),一个或者者多个相关主主题构成一个个数据集市,一个或者多多个数据集市市构成了数据仓库。数据仓库的架架构模型包括括了星型架构与雪花型架构两种模式。星型架构的中中间为事实表表,四周为维维度表,类似似星星;雪花型架构的的中间为事实实表,两边的的维度表可以以再有其关联联子表,从而而表达了清晰晰的维度层次次关系。步骤一:确定定主题即确定数据分分析或前端展展现的主题。。例如:我们们希望分析某某年某月某一一地区的啤酒酒销售情况,,这就是一个个主题。主题题要体现出某某一方面的各各分析角度(维度)和统计数据(量度)之间的关系,,确定主题时时要综合考虑虑。我们可以以形象的将一一个主题想象象为一颗星星星:统计数据据(量度)存在于星星中中间的事实表表;分析角度度(维度)是星星的各个个角;我们将将通过维度的的组合,来考考察量度。那那么,“某年年某月某一地地区的啤酒销销售情况”这这样一个主题题,就要求我我们通过时间和地区两个维度的组组合,来考察察销售情况这个量度。步骤二:确定定量度在确定了主题题以后,我们们将考虑要分分析的技术指指标,诸如年年销售额之类类。它们一般般为数值,称称为量度。量量度是统计的的指标,必须须事先选择恰恰当,基于不不同的量度可可以进行复杂杂关键性能指指标(KPI)的设计和计算算。数据仓库构建建步骤步骤二:确定定量度在确定了主题题以后,我们们将考虑要分分析的技术指指标,诸如年年销售额之类类。它们一般般为数值,称称为量度。量量度是统计的的指标,必须须事先选择恰恰当,基于不不同的量度可可以进行复杂杂关键性能指指标(KPI)的设计和计算算。步骤三:确定定事实数据粒粒度在确定了量度度之后,我们们要考虑到该该量度的汇总总情况和不同同维度下量度度的聚合情况况。考虑到量量度的聚合程程度不同,或或采用“最小小粒度原则””,即将量度度的粒度设置置到最小。数据仓库构建建步骤步骤四:确定定维度维度是指分析析的各个角度度。例如我们们希望按照时时间,或者按按照地区,或或者按照产品品进行分析,,那么这里的的时间、地区区、产品就是是相应的维度度。基于不同同的维度,我我们可以看到到各量度的汇汇总情况,也也可以基于所所有的维度进进行交叉分析析。步骤五:创建事实表在确定好事实实数据和维度度后,我们将将考虑加载事事实表。在公公司的大量数数据堆积如山山时,我们想想看看里面究究竟是什么,,结果发现里里面是一笔笔笔生产记录,,一笔笔交易易记录…那么这些记录录是我们将要要建立的事实实表的原始数数据,即关于于某一主题的的事实记录表表。事实表是是数据仓库的的核心。数据仓库构建建步骤商务智能核心心技术有哪些些?三.ETL技术二.元数据管理技技术一.数据仓库技术术四.在线联机分析析处理技术((OLAP)五.数据挖掘技术术元数据通常定定义“关于数据的的数据(例如如视图,查询询SQL,事务,存储储过程)”,,是描述和管管理数据仓库库自身内容对对象、用来表表示数据项的的意义及其在在系统各组成成部件之间的的关系的数据据。元数据作作用于数据仓仓库的创建,,维护,管理理和使用的各各个方面。是是从广义上来来讲,用元数数据来描述数数据仓库对象象的任何东西西——无论是一个表表、一个列、、一个查询、、一个商业规规则,或者是是数据仓库内内部的数据转转移。它在数数据源的抽取取、数据加工工、访问与使使用等过程中中都会存在。。实现元数据据管理的主要要目标就是使使企业内部元元数据的定义义标准化。数数据仓库的维维护工具可以以根据元数据据完成数据的的抽取、清洗洗和转换,并并做适度的汇汇总。数据仓库的元元数据包括::(1)数据资源::包括各个数数据源的模型型,描述源数数据表字段属属性及业务含含义,源数据据到数据仓库库的映射关系系;(2)数据组织::数据仓库、、数据集市表表的结构、属属性及业务含含义,多维结结构等等;(3)数据应用::查询与报表表输出格式描描述、OLAP、数据挖掘等等的数据模型型的信息展现现;(4)数据管理::这里包括数数据仓库过程程以及数据仓仓库操作结果果的模型,包包括描述数据据抽取和清洗洗规则、数据据加载控制、、临时表结构构、用途和使使用情况、数数据汇总控制制。元数据分析用户数据库、数据据仓库我想知道今年年、做得最好好的5个产品数据仓库中有有80张数据表无语义层的工工作模式无语义层的工工作模式以往的两种主主要的解决数数据访问问题题的方法:TheBureauApproach:业务人员技术人员SQLTheSQLEducationApproach:业务人员技术人员SQL透过语义层访访问数据设计语义层Universe设计数据库和和数据安全机机制企业数据库业务人员的要要求业务人员可以以基于语义层层进行数据查查询和分析不需要了解数数据库内部结结构不需要学习SQL语句股票财经销售IT人员的要求专注于数据库库维护专注于语义层层开发有语义层的工工作模式商务智能核心心技术有哪些些?三.ETL技术二.元数据管理技技术一.数据仓库技术术四.在线联机分析析处理技术((OLAP)五.数据挖掘技术术商业智能的核核心内容是从从许多来自企企业不同的业业务处理系统统的数据(分分布的、异构构的源数据))中,提取出出有用的数据据,进行清理理以保证数据据的正确性,,然后经过抽抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程(本质上上是样本提取取的过程),,整合到一个个企业级的数数据仓库里,,从而得到企企业信息的一一个全局视图图,在此基础础上利用合适适的查询和分分析工具、数数据挖掘工具具等对数据仓仓库里的数据据进行分析和和处理,形成成信息,甚至至进一步把信信息提炼出辅辅助决策的知知识,最后把把知识呈现给给管理者,为为管理者的决决策过程提供供支持。ETL概念ETL特征:以串行/并行方式,从从不同异构数数据源流向统统一的目标数数据,核心在在于转换过程程(关联,聚聚集),而抽抽取和装载一一般可以作为为转换的输入入和输出。ETL元数据主要包包括每次转换换前后的数据据结构和转换换的规则。数据同步,数数据ETL是经常性的活活动,按照固固定周期运行行,甚至实时时运行。流程控制和数数据验证机制制。字段映射;映射的自动匹匹配;字段的拆分;;多字段的混合合运算;跨异构数据库库的关联;自定义函数;;多数据类型支支持;复杂条件过滤滤;支持脏读;数据的批量装装载;时间类型的转转换;对各种码表的的支持;环境变量是否否可以动态修修改;去重复记录;;抽取断点;记录间合并或或计算;记录拆分;抽取的字段是是否可以动态态修改;行、列变换;;排序;统计;度量衡等常用用的转换函数数;代理主键的生生成;调试功能;抽取远程数据据;增量抽取的处处理方式;制造样品数据据;在转换过程中中是否支持数数据比较的功功能;数据预览;性能监控;数据清洗及标标准化;按行、按列的的分组聚合等等ETL技术功能清单单增量数据ETL解决方案比较较技术路线相关产品适用场合优点缺点触发器(Trigger)客户自己非常熟悉自己开发的业务系统的数据存储逻辑,而且数据的实时性要求非常高,整表数据量大于100万的情况获取增量数据实时性好;性能好;实现容易容易导致原业务系统不能正常工作;触发器状态不易监控和管理;触发器失效容易造成监控期间的增量数据丢失时间戳客户自己对业务系统数据存储逻辑不是很熟,业务系统安全性要求很高,对增量数据的实时性要求不是很高,整表的数据量不大于100万的情况不需要对原系统进行任何修改;实现容易增量数据的获取和更新机制对目的数据库和源数据库都存在较大性能影响。数据库日志CDC(IBM)在不适合触发器、时间戳的情况下,通过数据库日志的方式通过第三方监听工具实现增量数据的同步不用对业务系统表结构进行直接修改;对数据ETL过程进行监控,有利于后续日常管理需要源数据库支持日志功能,并且修改源数据库的日志监控选项;启动日志监控会适当地影响源数据库的性能;购买专业的数据库监控软件增加项目的成本。ETL技术与数据库库复制技术比比较序号项目ETL数据库复制1适用场合适合于数据仓库系统,尤其适合于数据抽取中需要进行数据清晰、转换和运算的情况适合数据库的数据复制,可用于数据库系统的备份、数据容灾、以及备份数据的再利用,在备份系统上开发新的业务模块。2性能性能比较低非常高(高两个数量级)3相关产品SSIS,CDC,Datastage等DSGRealsync,QUESTShareplex以及ORACLEDataGuard、HighVolumeReplicator等7、商务智能核核心技术有哪哪些?三.ETL技术二.元数据据管理理技术术一.数据仓仓库技技术四.在线联联机分分析处处理技技术((OLAP)五.数据挖挖掘技技术联机分分析处处理((OLAP)是对对立方方体中中的数数据进进行在在线的的分析析,可可以包包括切片、、切块块、钻钻取、、旋转转、钻钻透等分析析方法法;根据数数据的的存储储模式式不同同OLAP可划分分为:MOLAP、ROLAP、HOLAP三种OLAP概念主流的的OLAP产品有有OracleExpress/Discoverer、SQLServerAnalysisServices、DB2OLAPServer、SASOLAPServer等,这这些产产品都都可以以生成成多维维数据据立方方体,,提供供多维维数据据的快快速分分析,,支持持所有有主流流关系系型数数据库库如DB2,Oracle,SQLServer,Sybase等,同同时可可读取取关系系数据据库中中细节节数据据,实实现混混合在在线分分析(HOLAP)或关系系型在在线分分析(ROLAP)商务智智能核核心技技术-OLAP旋转、、切片片、钻钻取、、钻透透分析析联动分分析模型预预测分分析7、商务务智能能核心心技术术有哪哪些??三.ETL技术二.元数据据管理理技术术一.数据仓仓库技技术四.在线联联机分分析处处理技技术((OLAP)五.数据挖挖掘技技术数据挖挖掘((DataMining)是采采用数数学的的、统统计的的、人人工智智能和和神经经网络络等领领域的的科学学方法法,从从大量量数据据中挖挖掘出出隐含含的、、先前前未知知的、、对决决策有有潜在在价值值的关关系、、模式式和趋趋势,,并用用这些些知识识和规规则建建立用用于决决策支支持的的模型型,为为商业业智能能系统统服务务的各各业务务领域域提供供预测测性决决策支支持的的方法法、工工具和和过程程。数据挖挖掘前前身是是知识识发现现(KDD,KnowledgeDiscoveryinDatabases),属属于机机器学学习的的范畴畴,所所用技技术和和工具具主要要有统统计分分析((或数数据分分析))和知知识发发现。。知识识发现现与数数据挖挖掘是是人工工智能能、机机器学学习与与数据据库技技术相相结合合的产产物,,是从从数据据中发发现有有用知知识的的整个个过程程。数据挖挖掘概概念1.数据据选择择数据选选择过过程是是根据据用户户的挖挖掘目目标,,交互互式地地完成成对源源数据据的裁裁减,,使生生成的的目标标数据据只集集中在在与挖挖掘目目标相相一致致的数数据上上。目目标数数据应应该以以适合合于挖挖掘的的形式式进行行组织织,常常用的的是关关系数数据库库或多多维数数据立立方体体等形形式。。2.模型型建立立数据特特征探探索、、分析析和预预处理理,消消除数数据中中的噪噪声,,然后后建立立挖掘掘模型型并实实施对对应的的算法法。3.模型型验证证不论是是自己己建立立挖掘掘模型型还是是选取取或改改进已已有模模型都都必须须要进进行验验证。。这种种验证证最常常用的的方法法是样样本学学习。。先用用一部部分数数据建建立模模型,,然后后再用用剩下下的数数据来来测试试和验验证这这个模模型。。数据挖挖掘是是一个个反复复的过过程。。通过过反复复的交交互式式执行行和验验证才才能找找到解解决问问题的的最好好途径径。通通过不不断地地产生生、筛筛选和和验证证,才才能能把有有意义义的知知识集集成到到企业业的知知识库库或商商业智智能系系统中中去。。数据挖挖掘三三个步步骤分类::样本本分析析贝叶斯斯分类类贝叶斯斯分类类是利利用贝贝叶斯斯公式式,通通过计计算每每个特特征下下分类类的条条件概概率,,来计计算某某个特特征组组合实实例的的分类类概率率,选选取最最大概概率的的分类类作为为分类类结果果,朴朴素贝贝叶斯斯分类类要求求各特特征间间是相相互独独立的的,对对异常常的反反应敏敏感。。常见见的贝贝叶斯斯分类类器有有NaiveBayes,TAN,BAN,GBN等方法法。KNN法KNN(K-NearestNeighbor)法即即K最近邻邻法,,最初初由Cover和Hart于1968年提出出的,,是一一个理理论上上比较较成熟熟的方方法。。该方方法的的思路路非常常简单单直观观:如如果一一个样样本在在特征征空间间中的的K个最相相似((即特特征空空间中中最邻邻近))的样样本中中的大大多数数属于于某一一个类类别,,则该该样本本也属属于这这个类类别。。该方方法在在定类类决策策上只只依据据最邻邻近的的一个个或者者几个个样本本的类类别来来决定定待分分样本本所属属的类类别。。该方方法的的不足足之处处是计计算量量较大大。SVM法SVM法即支支持向向量机机(SupportVectorMachine)法,,由Vapnik等人于于1995年提出出,具具有相相对优优良的的性能能指标标。该该方法法是建建立在在统计计学习习理论论基础础上的的机器器学习习方法法。通通过学学习算算法,,SVM可以自自动寻寻找出出那些些对分分类有有较好好区分分能力力的支支持向向量,,由此此构造造出的的分类类器可可以最最大化化类与与类的的间隔隔,因因而有有较好好的适适应能能力和和较高高的分分准率率。该该方法法只需需要由由各类类域的的边界界样本本的类类别来来决定定最后后的分分类结结果。。数据挖挖掘方方法聚类分分析::马氏氏距离离,K距离聚类分分析((Cluster)根据据已知知数据据,计计算各各观察察个体体或变变量之之间亲亲疏关关系的的统计计量((距离离或相相关系系数))。根根据某某种准准则((最短短距离离法、、最长长距离离法、、中间间距离离法、、重心心法等等),,使同同一类类内的的差别别较小小,而而类与与类之之间的的差别别较大大,最最终将将观察察个体体或变变量分分为若若干类类。聚类分分析主主要用用在客客户和和市场场细分分方面面。以以客户户关系系管理理为例例,利利用聚聚类分分析,,根据据客户户在不不同特特征如如性别别、年年龄、、收入入水平平、交交易历历史、、教育育状况况、家家庭情情况等等方面面的相相似程程度,,对客客户进进行分分类。。通过过聚类类分析析,企企业往往往可可以发发现客客户的的喜好好或行行为模模式,,了解解客户户的共共性,,从而而提供供有针针对性性的客客户服服务,,提高高企业业服务务成功功率,,如提提供针针对性性的产产品组组合等等等。。关联分分析::发现现关联联规则则,事事件序序列,,相似似性时时间序序列关联分分析((Association)反映映一个个事件件和其其它事事件之之间的的依赖赖或关关联。。数据据库中中的数数据关关联是是现实实世界界中事事物联联系的的表现现。关关联可可分为为简单单关联联、时时序((TimeSeries)关联联、因因果关关联、、数量量关联联等。。这些些关联联并不不总是是事先先知道道的,,而而是通通过数数据库库中数数据的的关联联分析析获得得的,,因而而对商商业决决策具具有新新价值值。关联联分分析析常常被被用用于于市市场场购购物物篮篮分分析析、、交交叉叉销销售售,,促促销销计计划划等等。。例例如如,,在在寻寻求求诸诸如如当当购购买买油油漆漆时时是是否否购购买买刷刷子子一一类类的的模模式式过过程程中中,,人人们们发发现现,,如如果果顾顾客客购购买买了了油油漆漆,,有有20%的可可能能性性也也会会购购买买刷刷子子。。统计计分分析析方方法法非线线性性回回归归分分析析((Nonlinearregression)、、逻逻辑辑回回归归分分析析、、单单变变量量分分析析、、多多变变量量分分析析、、时时间间序序列列分分析析、、最最近近邻邻算算法法。。数据据挖挖掘掘方方法法T检验验假设设检检验验方方法法,,主主要要用用来来比比较较两两个个总总体体均均值值的的差差异异是是否否显显著著。。方差差分分析析((AnalysisofVariance,ANOVA)超过过两两个个总总体体的的均均值值检检验验,,也也经经常常用用于于实实验验设设计计后后的的检检验验问问题题。。主成成分分分分析析和和因因子子分分析析主成成分分分分析析((PrincipleAnalysis)和和因因子子分分析析((FactorAnalysis)目目标标是是找找出出多多个个潜潜藏藏的的变变量量之之间间的的关关系系,,主主要要用用在在消消费费者者行行为为态态度度等等研研究究、、价价值值观观态态度度语语句句的的分分析析、、市市场场细细分分之之前前的的因因子子聚聚类类等等,,问问卷卷的的信信度度和和效效度度检检验验等等,,因因子子分分析析也也可可算算是是数数据据的的预预处处理理技技术术。。主主成成分分分分析析与与因因子子分分析析是是两两种种方方法法,,要要能能够够区区分分。。主主成成分分分分析析可可以以消消减减变变量量,,权权重重等等,,主主成成分分还还可可以以用用作作构构建建综综合合排排名名统统计计分分析析方方法法。。时间间序序列列分分析析时间间序序列列分分析析((TimeSequence)用用于于识识别别具具体体具具有有先先后后次次序序的的不不同同时时间间之之间间的的关关联联性性。。比比如如,,客客户户一一月月购购买买了了饭饭盒盒和和帐帐篷篷,,二二月月购购买买了了旅旅行行背背包包和和录录像像带带,,三三月月购购买买了了睡睡袋袋。。时时间间序序列列分分析析查查看看所所有有记记录录并并返返回回如如下下规规则则::如如果果一一月月的的购购买买目目标标中中包包括括饭饭盒盒,,则则三三月月购购买买睡睡袋袋的的机机率率是是30%。关关联联分分析析可可发发现现时时间间相相关关性性。。回归归分分析析回归归分分析析((RegressionAnalysis)是是重重要要的的认认识识多多变变量量分分析析的的基基础础方方法法,,只只有有掌掌握握了了回回归归我我们们才才能能进进入入多多变变量量分分析析,,其其它它很很多多方方法法都都是是变变种种。。主主要要用用在在影影响响研研究究、、满满意意度度研研究究等等,,当当然然市市场场研研究究基基本本上上是是解解释释性性回回归归分分析析,,也也就就是是不不注注重重预预测测而而关关注注解解释释自自变变量量对对因因变变量量的的影影响响。。主主要要把把握握R平方方、、逐逐步步回回归归、、标标准准化化回回归归系系数数((当当作作权权重重或或重重要要性性))等等;;回回归归也也是是预预处处理理技技术术,,缺缺省省值值处处理理等等。。数据据挖挖掘掘方方法法Logistics回归归技技术术分类类技技术术,,主主要要针针对对因因变变量量是是0-1情况况下下的的判判别别,,该该技技术术是是我我们们认认识识非非线线性性关关系系的的重重要要基基础础,,很很多多情情况况下下,,我我们们需需要要作作出出是是与与否否的的判判断断,,基基础础模模型型就就是是它它了了,,像像客客户户离离网网分分析析、、客客户户价价值值分分析析、、客客户户信信用用等等都都用用这这个个模模型型;;方方差差分分析析((AnalysisofVariance,ANOVA)。。决策策树树((Decisiontrees)::主主要要用用于于分分类类和和细细分分,,分分析析事事件件分分支支及及概概率率分分布布。。决策策树树是是将将特特征征的的判判别别序序列列形形成成一一颗颗树树,,从从树树根根到到叶叶子子节节点点进进行行每每个个节节点点的的判判断断,,叶叶子子节节点点处处对对应应某某个个类类别别标标号号,,就就是是最最终终的的分分类类结结果果。。决策策树树分分类类的的关关键键是是树树的的构构造造,,由由每每个个节节点点引引申申每每个个属属性性的的判判别别分分支支。。如如何何选选择择特特征征属属性性的的判判别别顺顺序序??一一种种方方法法是是利利用用每每个个特特征征对对最最终终分分类类结结果果的的区区分分度度((训训练练集集中中)),,常常用用的的区区分分标标准准有有卡卡方方,,信信息息增增益益,,信信息息增增益益率率。。主主要要的的决决策策树树算算法法有有ID3,C4.5,CHAID,CART,Quest和C5.0。神经经网网络络方方法法::正正向向传传播播和和反反向向传传播播神经经网网络络((Neuralnetworks)方方法法的的目目标标是是捕捕获获市市场场巴巴素素((如如广广告告等等促促销销手手段段))与与总总的的销销售售额额间间的的复复杂杂关关系系,,找找出出输输人人量量变变化化引引起起的的输输出出量量波波动动之之间间的的映映射射关关系系,,通通过过神神经经网网络络的的预预报报模模型型和和敏敏感感性性分分析析可可能能找找出出重重要要的的影影响响因因子子,,此此模模型型能能够够在在给给定定的的短短期期预预报报中中取取得得良良好好的的性性能能。。反向传播播神经网网络适合合于每日日或每周周数据预预报.与反向传传播相比比,正向向传播神神经网络络在速度度方面更更具优势势。遗传算法法(人工工生命))博弈算法法数据挖掘掘方法三、实施施篇商务智能能一个成功功商务智智能案例例需要做做些什么么?商务智能能实施三.商务智能能实施方方法二.商务智能能实施经经验一.商务智能实施层次一、商务务智能实实施层次次实施商务务智能一一定是业业务驱动动,目标标导向。。与ERP等系统最最大的区区别是,,ERP是企业的的运营系系统,管管理企业业的日常常流程,,以流程程为导向向。而商商务智能能是目标标导向,,那么要要做好商商务智能能,企业业要明确确解决什什么问题题。当企企业明确确了要解解决的问问题后,,再分析析为了解解决这些些问题要要采取哪哪些方式式。企业级商商业智能能的构建建是一个个系统工工程,它它有三个个层次,,需要一一步一步步建设。。第一个层层次BusinessInformation-Mode是整个BI工程的基基础;第二个层层次BusinessIntegration是整个BI工程的技技术实现现基础;;第三个层层次BusinessIntelligence才是真正正意义上上的商业业智能的的软件实实现。4、商务智智能实施施三.商务智能能实施方方法一.商务智能能实施层层次二.商务智能实施经验二、商务务智能实实施经验验1)数据据种类少少、数据据量大是是企业实实施商业业智能应应用的最最佳环境境,因为为这将有有利于数数据整合合、转换换、清洗洗、抽取取、装载载及数据据模型的的建立。。2)先导导入ERP有利于数数据整合合,减少少导入BI系统的工工作量,,缺点是是需要增增加ERP的导入周周期。3)首先先确定企企业需求求,定义义明确的的目标和和收益率率,以重重点业务务为突破破口(自自上而下下),选选择合适适的数据据仓库产产品和系系统架构构,迅速速部署,,风险控控制,然然后在使使用中逐逐步调整

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论