商务智能入门培训课件_第1页
商务智能入门培训课件_第2页
商务智能入门培训课件_第3页
商务智能入门培训课件_第4页
商务智能入门培训课件_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务智能入门培训

BusinessIntelligence

商务智能入门培训

BusinessIntelligence1一、概念篇商务智能入门培训课件2实例:沃尔玛的销售部在总结历史销售记录的时候发现,每到周末的时候,啤酒和尿布的销量都比平时要高很多,这是一个巧合还是这个现象的背后隐藏着一定的必然因素?销售人员展开了调查,结果发现:每到周末,有孩子的家庭主妇就会让他们的丈夫去超市给孩子买足一周用的尿布,这些丈夫们必然会选择一些自己爱喝的啤酒,以便周末在欣赏橄榄球赛和篮球赛的时候可以和朋友们一起庆祝。原因找到了之后,销售部采取了措施,每到周末将超市的啤酒和尿布捆绑销售,这样,啤酒和尿布的销量又同时增加了一成。什么是商务智能?实例:沃尔玛的销售部在总结历史销售记录的时候发现,每到周末的3二、市场分析篇商务智能入门培训课件4商务智能的应用分为纵向商务智能和横向商务智能。纵向商务智能是指企业分别实施多个信息化系统,比如财务系统中的管理会计就是商务智能的一部分,从以前只关注运营报表,到关注整个财务的运作情况,像现金流、资产负债等。而人力资源系统可以称为智能人力资源,关注员工的流失率,分析从什么途径招聘的员工流失率最高,分析公司人才结构、人才培养方向等。总而言之,企业有了核心业务系统、管理信息系统,在这些系统之上做智能的分析,而这些分析得到的信息完全是来自单独的系统。那么横向商务智能指的是什么呢?举例来说,比如汽车制造厂生产多款不同的车型,公司老总会问,生产哪一款车型、生产多少,企业的效率能够达到最高?这样的问题,不能通过分析单独的系统得到,因为效益最高取决于生产成本、人力资源成本、市场的需求、竞争对手、市场定价等多方面的信息。而这些信息则分散在财务系统、人力资源系统、采购系统中,这就需要系统和信息有效的整合才能解决这个问题,所以称为横向商务智能。商业智能应用领域?商务智能的应用分为纵向商务智能和横向商务智能。商业智能应用领5商业智能是一种整体化的解决方案,他可以帮助企业做出明智的业务经营决策,而依据则是企业内部的各种数据,例如订单、库存、交易账目、客户和供应商资料、行业数据和竞争对手信息等等。商业智能其实是一种将企业信息数据转化为决策的重要工具。商业智能的应用是需要一定的基础的。实施商业智能的企业至少应该具备以下几个条件:用户的数据已达到一定的规模;用户面临激烈的市场竞争:用户在IT方面的资金能得到保障。满足以上几点的行业集中在重要的政府机构(如财务、税务、审计、工商、海关等)、零售业(连锁店、网上零售等)、大型现代化的制造业(如宝钢、上汽集团等)、金融(包括银行、证券、保险等)、电信业(如中国电信、中国网通、中国移动等)、能源业(电力)、运输等,这也是目前国内急需要数据仓库和商业智能技术来提升企业竞争力的主要行业。金融、电信行业是BI应用最集中的行业,约占40%的市场分额,保险、能源、烟草、政务行业约占30%的市场份额,制造、零售行业约占30%的市场份额,是BI应用最具潜力的行业。金融:随着国内五大商业银行的信息化不断发展,在BI领域投资稳步增长,每年均有大量的BI需求,其中BI已经不仅局限于高层管理者的决策,操作型BI应用越来越广泛,尤其是信贷评审领域。中小型银行BI需求也不断涌现,未来将是金融行业BI市场的主要增长点。电信:电信行业信息化程度很高,对信息化依赖很强,积累了大量的数据,具有实施商业智能项目的基础条件和资金实力。电信行业对于BI深入应用是最渴望的,在话费套餐设置、客户潜力分析等都需要数据挖掘技术来提供决策依据。行业现状?商业智能是一种整体化的解决方案,他可以帮助企业做出明智的业务6行业市场规模?行业市场规模?7发展趋势?发展趋势及预测移动商业智能

商业智能系统会把大量数据转变成可视化形式(如图形和表格),以便使用者详细深入地分析潜在商业趋势。因此如果为这种分析赋予移动性——通常利用功能强大的智能终端,许多公司就能与客户和商业合作伙伴进行实时互动,从而改善服务、提高工作效率。SaaSBI将得到快速发展 SaaS是基于互联网提供软件服务的软件应用模式,企业根据实际需要,从SaaS提供商租赁软件服务。SaaS模式在CRM领域获得了成功,不论是国外还是国内具有成熟的产品,并取得了不错的收益。SAAS在BI领域的应用的挑战是应用于互联网上的SAAS软件无法处理BI所需的海量数据。商业智能日渐与业务融合

业务分析作为商业智能领域中最贴近业务的层面,在2010年成为业界关注的重点,不管是SAP还是IBM,都将业务分析作为今年的业务发展重点。企业希望由BI系统带来的透明度和洞察力能够帮助企业降低成本,提高生产率和业务敏捷性。通过商业智能,企业能更清晰更深刻的了解包括公司管理、利润分析、市场竞争、财务状况等信息,而未来商业智能的这种特性还将继续加强。操作型BI应用得到发展

目前商业智能技术不仅仅应用于企业高层管理者的决策分析,越来越多的商业智能分析结果正被用于普通员工的日常工作流程中,直接推动业务的执行。例如:在家乐福购物时,收银员已经可以根据顾客的购物篮进行产品推荐。发展趋势?发展趋势及预测8发展趋势?数据集成应用得到重视

在一些大型企业中往往有几十个甚至几百个信息系统,将这些数据整合到数据仓库中,一般采取ETL工具抽取多个厂商数据库的数据,有些甚至还包含非结构化数据,例如XML、EXCEL、文本等。这些数据往往需要加工和整理放入ODS(中间库),最后以规范、标准的格式存储到数据仓库。在这个数据集成的过程中,要做到系统兼容性好、开发效率高、处理性能好,而且能够捕捉数据的变化处理增量数据。数据集成是建立实用的数据仓库的关键,而且数据集成的过程占商业智能应用中一半以上的工作量,因此越是大型企业越是重视数据集成。中小企业BI应用逐渐扩大市场

份额

中国中小企业逐渐呈现对管理软件旺盛的需求态势,很多厂商发布了专门针对中小企业的BI套件,例如CognosExpress等。中小企业在实施ERP、CRM产品后,必将应用商业智能,中小企业市场是BI应用非常重要的组成部分。BI企业将在垄断中不断新生

中国商业智能市场两极竞争趋势日益加剧。在高端市场,由国际厂商垄断与竞争的局面是2010年的主流,其中IBM、Oracle、SAP、Microsoft拥有完整的BI产品线,将占据70%以上的市场份额。剩余的30%市场将由其他外资企业和国内企业分享。随着国内企业的成长与并购,国内厂商的实力不断壮大,但是主要集中于中低端市场,在2010年优秀的国产BI产品将开始不断向四大国际厂商发起挑战,但是竞争的过程将是极其漫长的。发展趋势?数据集成应用得到重视91)国际BI厂商,如BO公司(SAP)、Hyperion公司(Oracle)、微软公司、SAS公司等。这些国际厂商的品牌与规模优势非常突出,是国内大部分BI厂商难以与之匹敌的。2)起步比较早的国内BI厂商,如菲奈特(成立于1995年10月,从1997年开始进入BI领域)、先进数通公司(成立于2000年)、吉贝克公司(成立于2002年)等。这些国内BI厂商凭借本土化的优势以及对国内BI用户所需要的应用的独特见解,也在国内的BI市场上占有超过30%的市场份额。3)非专业BI厂商,主要有以下几类:一、从事某些行业核心业务系统建设的公司;二、从事系统集成的公司;三、从事专业财务系统及个别ERP厂商。商务智能主要厂商有哪些?厂商产品及简介IBMDB2以及Cognos、SPSS、DataStage,覆盖BI全部领域。数据仓库产品结合了DB2数据服务器的长处和IBM的商业智能基础设施,集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件,提供了一套基于可视数据仓库的商业智能解决方案。OracleOracle、Hyperion,覆盖BI全部领域,数据挖掘领域有待加强。数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,能够提供一系列的数据仓库工具集和服务,具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP工具的交互能力及快速和便捷的数据移动机制等特性。SAPBusinessObjects、CrystalReports,主要是OLAP和报表领域。Sybase(SAP)提供了称为WarehouseStudio的一整套覆盖整个数据仓库建立周期的产品包,包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。BusinessObjects(SAP)是集查询、报表和OLAP技术为一身的智能决策支持系统,具有较好的查询和报表功能,提供多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。MicrosoftSQLServer,覆盖BI全部领域,适合中小型企业,性价比高。它提供了三大服务和一个工具来实现数据仓库系统的整合,为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能,可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能。TeradataTeradata,主要是数据仓库领域。它提出了可扩展数据仓库基本架构,包括数据装载、数据管理和信息访问几个部分,是高端数据仓库市场最有力竞争者,主要运行在基于Unix操作系统平台的NCR硬件设备上。SASSAS,数据挖掘领域领先。SAS公司的数据仓库解决方案是一个由30多个专用模块构成的架构体系,适应于对企业级的数据进行重新整合,支持多维、快速查询,提供服务于OLAP操作和决策支持的数据采集、管理、处理和展现功能。国内其他菲奈特(BIoffice)、和勤(Hinge)、奥威智动(Power-BI)、科加诺(QlikView)、尚南(BlueQuery),润乾、探智(Trinity)。目前活跃在国内BI市场上的厂商大致可分为以下三类:1)国际BI厂商,如BO公司(SAP)、Hyperion公10商务智能主要厂商产品链介绍?厂商数据库数据仓库设计、管理ETLOLAP数据挖掘报表IBMDB2IBMDWEDesignStudioIBMWebshpereDatastage、DecisionStream(Cognos)IBMDB2OLAPServerIBMIntelligentMiner、SPSSIBMCognosReportOracleOracleOracleWarehouseBuilderOracleWarehouseBuilderOracleExpress/DiscovererOracleDataMinerOracleReportsSAP-BusinessObjectsRapidMartsBusinessObjectsDataIntegratoinBusinessObjectsOLAPIntelligence-BusinessObjectsCrystalReportMicrosoftSQLServerSQLServerManagementStudioSQLServerIntegrationServicesSQLServerAnalysisServicesSQLServerDataMinerSQLServerReportingServicesTeradataTeradataTeradataRDBMS/TeradataMetaDataServicesTeradataETLAutomation-TeradataWarehouseMinerBTEQSybaseSybase

IQPowerDesinger/WarehouseControlCenterDataIntegratoinSuitePowerDimension-InfoMakerSAS-SASWarehouseAdministratorSASETLStudioSASOLAPServerSASEnterpriseMinerSASReportStudio商务智能主要厂商产品链介绍?厂商数据库数据仓库设计、管理ET11三、技术篇商务智能入门培训课件12商务智能总体解决方案财务信息“ETL”Extract–Transform-Load数据仓库/数据集市/ODS商务智能平台信息展现*决策者分析员管理者业务员数据查询报表分析多维分析数据挖掘分析门户数据整合*OracleDB2SQLServerSybaseTeraData……销售信息库存信息DataIntegrationRapidMart商务智能总体解决方案财务信息“ETL”数据仓库/商务智能平台商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一.数据仓库技术四.在线联机分析处理技术(OLAP)五.数据挖掘技术商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一14

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。面向主题的(subject-oriented):数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。因此,数据仓库排除对决策无用的数据,提供特定主题的简明视图。集成的(integrated):通常,构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联机事务处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构和属性度量等指标的一致性。时变的(time-variant):数据存储从历史的角度提供信息。数据仓库中的关键结构,隐式或显式地包含时间元素。非易失的(nonvolatile):数据仓库的数据是有历史保存意义的,数据仓库的数据也只使用添加的方式,进入了数据仓库的数据一般情况下是不需要更新的,这样就保证了数据的稳定性。通常,它只需要三种数据访问:数据的初始化装入、数据的添加和数据查询访问。数据仓库定义 数据仓库是一个面向主题的、集成的、时变的、15事实表是用来记录具体事件的,包含了每个事件的具体要素,以及具体发生的事情;维度表是对事实表中事件的要素的描述信息;

数据仓库相关概念

一个事实表和多个维度表构成一个立方体(主题),一个或者多个相关主题构成一个数据集市,一个或者多个数据集市构成了数据仓库。数据仓库的架构模型包括了星型架构与雪花型架构两种模式。星型架构的中间为事实表,四周为维度表,类似星星;雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰的维度层次关系。数据仓库相关概念一个事实表和多个维度表构成一个立方体16步骤一:确定主题

即确定数据分析或前端展现的主题。例如:我们希望分析某年某月某一地区的啤酒销售情况,这就是一个主题。主题要体现出某一方面的各分析角度(维度)和统计数据(量度)之间的关系,确定主题时要综合考虑。我们可以形象的将一个主题想象为一颗星星:统计数据(量度)存在于星星中间的事实表;分析角度(维度)是星星的各个角;我们将通过维度的组合,来考察量度。那么,“某年某月某一地区的啤酒销售情况”这样一个主题,就要求我们通过时间和地区两个维度的组合,来考察销售情况这个量度。步骤二:确定量度

在确定了主题以后,我们将考虑要分析的技术指标,诸如年销售额之类。它们一般为数值,称为量度。量度是统计的指标,必须事先选择恰当,基于不同的量度可以进行复杂关键性能指标(KPI)的设计和计算。数据仓库构建步骤步骤一:确定主题数据仓库构建步骤17步骤二:确定量度

在确定了主题以后,我们将考虑要分析的技术指标,诸如年销售额之类。它们一般为数值,称为量度。量度是统计的指标,必须事先选择恰当,基于不同的量度可以进行复杂关键性能指标(KPI)的设计和计算。步骤三:确定事实数据粒度

在确定了量度之后,我们要考虑到该量度的汇总情况和不同维度下量度的聚合情况。考虑到量度的聚合程度不同,或采用“最小粒度原则”,即将量度的粒度设置到最小。数据仓库构建步骤步骤二:确定量度数据仓库构建步骤18步骤四:确定维度

维度是指分析的各个角度。例如我们希望按照时间,或者按照地区,或者按照产品进行分析,那么这里的时间、地区、产品就是相应的维度。基于不同的维度,我们可以看到各量度的汇总情况,也可以基于所有的维度进行交叉分析。步骤五:

创建事实表

在确定好事实数据和维度后,我们将考虑加载事实表。在公司的大量数据堆积如山时,我们想看看里面究竟是什么,结果发现里面是一笔笔生产记录,一笔笔交易记录…那么这些记录是我们将要建立的事实表的原始数据,即关于某一主题的事实记录表。事实表是数据仓库的核心。数据仓库构建步骤步骤四:确定维度数据仓库构建步骤19商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一.数据仓库技术四.在线联机分析处理技术(OLAP)五.数据挖掘技术商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一20元数据通常定义

“关于数据的数据(例如视图,查询SQL,事务,存储过程)”,是描述和管理数据仓库自身内容对象、用来表示数据项的意义及其在系统各组成部件之间的关系的数据。元数据作用于数据仓库的创建,维护,管理和使用的各个方面。是从广义上来讲,用元数据来描述数据仓库对象的任何东西——无论是一个表、一个列、一个查询、一个商业规则,或者是数据仓库内部的数据转移。它在数据源的抽取、数据加工、访问与使用等过程中都会存在。实现元数据管理的主要目标就是使企业内部元数据的定义标准化。数据仓库的维护工具可以根据元数据完成数据的抽取、清洗和转换,并做适度的汇总。数据仓库的元数据包括:(1)数据资源:包括各个数据源的模型,描述源数据表字段属性及业务含义,源数据到数据仓库的映射关系;(2)数据组织:数据仓库、数据集市表的结构、属性及业务含义,多维结构等等;(3)数据应用:查询与报表输出格式描述、OLAP、数据挖掘等的数据模型的信息展现;(4)数据管理:这里包括数据仓库过程以及数据仓库操作结果的模型,包括描述数据抽取和清洗规则、数据加载控制、临时表结构、用途和使用情况、数据汇总控制。元数据元数据通常定义元数据21分析用户数据库、数据仓库我想知道今年、做得最好的5个产品数据仓库中有80张数据表无语义层的工作模式分析用户数据库、数据仓库我想知道今年、做得最好的5个产品数据22无语义层的工作模式以往的两种主要的解决数据访问问题的方法:TheBureauApproach:业务人员技术人员SQLTheSQLEducationApproach:业务人员技术人员SQL无语义层的工作模式以往的两种主要的解决数据访问问题的方法:T23透过语义层访问数据设计语义层Universe设计数据库和数据安全机制企业数据库业务人员的要求业务人员可以基于语义层进行数据查询和分析不需要了解数据库内部结构不需要学习SQL语句股票财经销售IT人员的要求专注于数据库维护专注于语义层开发有语义层的工作模式透过语义层访问数据设计语义层Universe设计数据库和数据24商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一.数据仓库技术四.在线联机分析处理技术(OLAP)五.数据挖掘技术商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一25商业智能的核心内容是从许多来自企业不同的业务处理系统的数据(分布的、异构的源数据)中,提取出有用的数据,进行清理以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程(本质上是样本提取的过程),整合到一个企业级的数据仓库里,从而得到企业信息的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具等对数据仓库里的数据进行分析和处理,形成信息,甚至进一步把信息提炼出辅助决策的知识,最后把知识呈现给管理者,为管理者的决策过程提供支持。ETL概念ETL特征:以串行/并行方式,从不同异构数据源流向统一的目标数据,核心在于转换过程(关联,聚集),而抽取和装载一般可以作为转换的输入和输出。ETL元数据主要包括每次转换前后的数据结构和转换的规则。数据同步,数据ETL是经常性的活动,按照固定周期运行,甚至实时运行。流程控制和数据验证机制。商业智能的核心内容是从许多来自企业不同的业务处理系统的数据(26字段映射;映射的自动匹配;字段的拆分;多字段的混合运算;跨异构数据库的关联;自定义函数;多数据类型支持;复杂条件过滤;支持脏读;数据的批量装载;时间类型的转换;对各种码表的支持;环境变量是否可以动态修改;去重复记录;抽取断点;记录间合并或计算;记录拆分;抽取的字段是否可以动态修改;行、列变换;排序;统计;度量衡等常用的转换函数;代理主键的生成;调试功能;抽取远程数据;增量抽取的处理方式;制造样品数据;在转换过程中是否支持数据比较的功能;数据预览;性能监控;数据清洗及标准化;按行、按列的分组聚合等ETL技术功能清单字段映射;记录拆分;ETL技术功能清单27增量数据ETL解决方案比较技术路线相关产品适用场合优点缺点触发器(Trigger)客户自己非常熟悉自己开发的业务系统的数据存储逻辑,而且数据的实时性要求非常高,整表数据量大于100万的情况获取增量数据实时性好;性能好;实现容易容易导致原业务系统不能正常工作;触发器状态不易监控和管理;触发器失效容易造成监控期间的增量数据丢失时间戳客户自己对业务系统数据存储逻辑不是很熟,业务系统安全性要求很高,对增量数据的实时性要求不是很高,整表的数据量不大于100万的情况不需要对原系统进行任何修改;实现容易增量数据的获取和更新机制对目的数据库和源数据库都存在较大性能影响。数据库日志CDC(IBM)在不适合触发器、时间戳的情况下,通过数据库日志的方式通过第三方监听工具实现增量数据的同步不用对业务系统表结构进行直接修改;对数据ETL过程进行监控,有利于后续日常管理需要源数据库支持日志功能,并且修改源数据库的日志监控选项;启动日志监控会适当地影响源数据库的性能;购买专业的数据库监控软件增加项目的成本。增量数据ETL解决方案比较技术路线相关产品适用场合优点缺点触28ETL技术与数据库复制技术比较序号项目ETL数据库复制1适用场合适合于数据仓库系统,尤其适合于数据抽取中需要进行数据清晰、转换和运算的情况适合数据库的数据复制,可用于数据库系统的备份、数据容灾、以及备份数据的再利用,在备份系统上开发新的业务模块。2性能性能比较低非常高(高两个数量级)3相关产品SSIS,CDC,Datastage等DSGRealsync,QUESTShareplex以及ORACLEDataGuard、HighVolumeReplicator等ETL技术与数据库复制技术比较序号项目ETL数据库复制1适用297、商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一.数据仓库技术四.在线联机分析处理技术(OLAP)五.数据挖掘技术7、商务智能核心技术有哪些?三.ETL技术二.元数据管理技30联机分析处理(OLAP)是对立方体中的数据进行在线的分析,可以包括切片、切块、钻取、旋转、钻透等分析方法;根据数据的存储模式不同OLAP可划分为:MOLAP、ROLAP、HOLAP三种OLAP概念联机分析处理(OLAP)是对立方体中的数据进行在线的分析,可31主流的OLAP产品有OracleExpress/Discoverer、SQLServerAnalysisServices、DB2OLAPServer、SASOLAPServer等,这些产品都可以生成多维数据立方体,提供多维数据的快速分析,支持所有主流关系型数据库如DB2,Oracle,SQLServer,Sybase等,同时可读取关系数据库中细节数据,实现混合在线分析(HOLAP)或关系型在线分析(ROLAP)商务智能核心技术-OLAP主流的OLAP产品有OracleExpress/Disc32旋转、切片、钻取、钻透分析旋转、切片、钻取、钻透分析33联动分析联动分析34模型预测分析模型预测分析357、商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一.数据仓库技术四.在线联机分析处理技术(OLAP)五.数据挖掘技术7、商务智能核心技术有哪些?三.ETL技术二.元数据管理技36数据挖掘(DataMining)是采用数学的、统计的、人工智能和神经网络等领域的科学方法,从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,为商业智能系统服务的各业务领域提供预测性决策支持的方法、工具和过程。数据挖掘前身是知识发现(KDD,KnowledgeDiscoveryinDatabases),属于机器学习的范畴,所用技术和工具主要有统计分析(或数据分析)和知识发现。知识发现与数据挖掘是人工智能、机器学习与数据库技术相结合的产物,是从数据中发现有用知识的整个过程。数据挖掘概念数据挖掘(DataMining)是采用数学的、统计的、人工371.数据选择

数据选择过程是根据用户的挖掘目标,交互式地完成对源数据的裁减,使生成的目标数据只集中在与挖掘目标相一致的数据上。目标数据应该以适合于挖掘的形式进行组织,常用的是关系数据库或多维数据立方体等形式。2.模型建立

数据特征探索、分析和预处理,消除数据中的噪声,然后建立挖掘模型并实施对应的算法。3.模型验证

不论是自己建立挖掘模型还是选取或改进已有模型都必须要进行验证。这种验证最常用的方法是样本学习。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个模型。

数据挖掘是一个反复的过程。通过反复的交互式执行和验证才能找到解决问题的最好途径。通过不断地产生、筛选和验证,才能把有意义的知识集成到企业的知识库或商业智能系统中去。数据挖掘三个步骤1.数据选择数据挖掘三个步骤38分类:样本分析贝叶斯分类

贝叶斯分类是利用贝叶斯公式,通过计算每个特征下分类的条件概率,来计算某个特征组合实例的分类概率,选取最大概率的分类作为分类结果,朴素贝叶斯分类要求各特征间是相互独立的,对异常的反应敏感。常见的贝叶斯分类器有NaiveBayes,TAN,BAN,GBN等方法。KNN法 KNN(K-NearestNeighbor)法即K最近邻法,最初由Cover和Hart于1968年提出的,是一个理论上比较成熟的方法。该方法的思路非常简单直观:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。该方法的不足之处是计算量较大。SVM法 SVM法即支持向量机(SupportVectorMachine)法,由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。数据挖掘方法分类:样本分析数据挖掘方法39聚类分析:马氏距离,K距离

聚类分析(Cluster)根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法等),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。

聚类分析主要用在客户和市场细分方面。以客户关系管理为例,利用聚类分析,根据客户在不同特征如性别、年龄、收入水平、交易历史、教育状况、家庭情况等方面的相似程度,对客户进行分类。通过聚类分析,企业往往可以发现客户的喜好或行为模式,了解客户的共性,从而提供有针对性的客户服务,提高企业服务成功率,如提供针对性的产品组合等等。关联分析:发现关联规则,事件序列,相似性时间序列

关联分析(Association)反映一个事件和其它事件之间的依赖或关联。数据库中的数据关联是现实世界中事物联系的表现。关联可分为简单关联、时序(TimeSeries)关联、因果关联、数量关联等。这些关联并不总是事先知道的,而是通过数据库中数据的关联分析获得的,因而对商业决策具有新价值。

关联分析常被用于市场购物篮分析、交叉销售,促销计划等。例如,在寻求诸如当购买油漆时是否购买刷子一类的模式过程中,人们发现,如果顾客购买了油漆,有20%的可能性也会购买刷子。统计分析方法

非线性回归分析(Nonlinearregression)、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法。数据挖掘方法聚类分析:马氏距离,K距离数据挖掘方法40T检验

假设检验方法,主要用来比较两个总体均值的差异是否显著。方差分析(AnalysisofVariance,ANOVA)

超过两个总体的均值检验,也经常用于实验设计后的检验问题。主成分分析和因子分析

主成分分析(PrincipleAnalysis)和因子分析(FactorAnalysis)目标是找出多个潜藏的变量之间的关系,主要用在消费者行为态度等研究、价值观态度语句的分析、市场细分之前的因子聚类等,问卷的信度和效度检验等,因子分析也可算是数据的预处理技术。主成分分析与因子分析是两种方法,要能够区分。主成分分析可以消减变量,权重等,主成分还可以用作构建综合排名统计分析方法。时间序列分析

时间序列分析(TimeSequence)用于识别具体具有先后次序的不同时间之间的关联性。比如,客户一月购买了饭盒和帐篷,二月购买了旅行背包和录像带,三月购买了睡袋。时间序列分析查看所有记录并返回如下规则:如果一月的购买目标中包括饭盒,则三月购买睡袋的机率是30%。关联分析可发现时间相关性。回归分析

回归分析(RegressionAnalysis)是重要的认识多变量分析的基础方法,只有掌握了回归我们才能进入多变量分析,其它很多方法都是变种。主要用在影响研究、满意度研究等,当然市场研究基本上是解释性回归分析,也就是不注重预测而关注解释自变量对因变量的影响。主要把握R平方、逐步回归、标准化回归系数(当作权重或重要性)等;回归也是预处理技术,缺省值处理等。数据挖掘方法T检验数据挖掘方法41Logistics回归技术

分类技术,主要针对因变量是0-1情况下的判别,该技术是我们认识非线性关系的重要基础,很多情况下,我们需要作出是与否的判断,基础模型就是它了,像客户离网分析、客户价值分析、客户信用等都用这个模型;方差分析(AnalysisofVariance,ANOVA)。决策树(Decisiontrees):主要用于分类和细分,分析事件分支及概率分布。

决策树是将特征的判别序列形成一颗树,从树根到叶子节点进行每个节点的判断,叶子节点处对应某个类别标号,就是最终的分类结果。

决策树分类的关键是树的构造,由每个节点引申每个属性的判别分支。如何选择特征属性的判别顺序?一种方法是利用每个特征对最终分类结果的区分度(训练集中),常用的区分标准有卡方,信息增益,信息增益率。主要的决策树算法有ID3,C4.5,CHAID,CART,Quest和C5.0。神经网络方法:正向传播和反向传播

神经网络(Neuralnetworks)方法的目标是捕获市场巴素(如广告等促销手段)与总的销售额间的复杂关系,找出输人量变化引起的输出量波动之间的映射关系,通过神经网络的预报模型和敏感性分析可能找出重要的影响因子,此模型能够在给定的短期预报中取得良好的性能。

反向传播神经网络适合于每日或每周数据预报.与反向传播相比,正向传播神经网络在速度方面更具优势。遗传算法(人工生命)博弈算法数据挖掘方法Logistics回归技术数据挖掘方法42三、实施篇商务智能入门培训课件43商务智能一个成功商务智能案例需要做些什么?商务智能实施商务智能一个成功商务智能案例需要做些什么?商务智能实施44三.商务智能实施方法二.商务智能实施经验一.商务智能实施层次三.商务智能实施方法二.商务智能实施经验一.商务智能实45一、商务智能实施层次实施商务智能一定是业务驱动,目标导向。与ERP等系统最大的区别是,ERP是企业的运营系统,管理企业的日常流程,以流程为导向。而商务智能是目标导向,那么要做好商务智能,企业要明确解决什么问题。当企业明确了要解决的问题后,再分析为了解决这些问题要采取哪些方式。

企业级商业智能的构建是一个系统工程,它有三个层次,需要一步一步建设。

第一个层次BusinessInformation-Mode是整个BI工程的基础;第二个层次BusinessIntegration是整个BI工程的技术实现基础;第三个层次BusinessIntelligence才是真正意义上的商业智能的软件实现。一、商务智能实施层次实施商务智能一定是业务驱464、商务智能实施三.商务智能实施方法一.商务智能实施层次二.商务智能实施经验4、商务智能实施三.商务智能实施方法一.商务智能实施层次47二、商务智能实施经验1)数据种类少、数据量大是企业实施商业智能应用的最佳环境,因为这将有利于数据整合、转换、清洗、抽取、装载及数据模型的建立。2)先导入ERP有利于数据整合,减少导入BI系统的工作量,缺点是需要增加ERP的导入周期。3)首先确定企业需求,定义明确的目标和收益率,以重点业务为突破口(自上而下),选择合适的数据仓库产品和系统架构,迅速部署,风险控制,然后在使用中逐步调整和完善整个BI系统。4)从一开始就采取统一的综合性的措施来建立数据仓库,确保所用的数据是可靠的。5)与主管充分沟通(如果有同业有成功的导入案例,通常是取得主管支持的好方法),系统上线后对使用人员进行必要的培训,鼓励使用。6)设立专门的数据分析师。BI的目的是要从中找出最有价值的数据,如果没有相应的人对其进行跟踪处理,它的价值也就只停留在迅速做出报表的层面了。永远不要因为你认为需要BI就购买BI软件。不要先购买了BI软件再去考虑哪些地方可能需要,而应该是已经明确在哪些地方需要应用BI后再去购买和部署。商业智能项目是一个需要不断优化的循环过程,而不是一个可以一步到位的结果,在整个企业发展商业智能的过程中,重复是很正常的,也是很必然的。二、商务智能实施经验1)数据种类少、数据量大是企业实施商业484、商务智能实施一.商务智能实施层次二.商务智能实施经验三.商务智能实施方法4、商务智能实施一.商务智能实施层次二.商务智能实施经验49三、商务智能实施方法1、自上而下把数据仓库定义为一个大系统,“全局考虑,全面实施”,建立适合企业信息共性需求的完整的数据模型,然后从业务运营系统中提取数据,进行数据的清洗、合并、规范化和合理化,并加载到数据仓库中,形成企业统一的数据集成平台,最后可以根据部门个性需要将数据仓库的数据分发到面向主题的数据集市中。优点:◆企业统一的数据集成平台;◆集中化的控制管理;◆数据容易分发到各个数据集市中;缺点:◆开发过程复杂,费用高;◆开发时间长,难以满足快速变化的业务需求;◆需要进行大量的业务需求分析,需要大量的资源;◆结构比较僵化,比较难以扩展;三、商务智能实施方法1、自上而下优点:缺点:50三、商务智能实施方法2、自下而上大量的旧系统,要想在短时间内进行数据的合理性和完整性统一是相当困难的,而市场变化和企业决策规则变化不允许花大量的时间和精力去建立一个满足日后需求,但不满足现在变化的系统。自下而上的开发方法就是根据特定的业务主题,“分部门考虑,分部门实施”,可以在很短的时间内实现部门级的数据集市,多个数据集市组成企业联邦制的数据仓库。优点:◆可以并行开发;◆见效快;◆分散化的资源和管理控制;缺点:◆很难协调各个数据集市的建设;◆可能存在着部门之间的政治斗争和数据集市归属问题;◆如果采用不同的技术建立起来的数据集市,最终造成多个相互独立、互不兼容的“烟囱式”数据集市,给维护和数据共享带来很大的障碍;◆多种数据源采集系统,可能造成对业务系统的冲击和数据的不一致;三、商务智能实施方法2、自下而上优点:缺点:51三、商务智能实施方法3、元数据驱动元数据管理在商业智能项目开发建设中有很重要的作用。元数据驱动、螺旋上升的数据仓库建立的过程就是“建立元数据――构造数据仓库/集市”的不断循环、不断上升的过程。优点:◆建立企业数据的统一视图;◆有统一的元数据管理;◆具有灵活可扩展的的体系结构;◆分步式开发,螺旋式上升,既能快速看到效果,又保证系统的连续性、一致性缺点:◆真正地实现元数据的驱动则不是一件容易的事情。三、商务智能实施方法3、元数据驱动优点:缺点:52BusinessIntelligenceThankyou!THEENDBusinessIntelligenceThankyou53商务智能入门培训课件54树立质量法制观念、提高全员质量意识。12月-2212月-22Friday,December30,2022人生得意须尽欢,莫使金樽空对月。16:50:2616:50:2616:5012/30/20224:50:26PM安全象只弓,不拉它就松,要想保安全,常把弓弦绷。12月-2216:50:2616:50Dec-2230-Dec-22加强交通建设管理,确保工程建设质量。16:50:2616:50:2616:50Friday,December30,2022安全在于心细,事故出在麻痹。12月-2212月-2216:50:2616:50:26December30,2022踏实肯干,努力奋斗。2022年12月30日4:50下午12月-2212月-22追求至善凭技术开拓市场,凭管理增创效益,凭服务树立形象。30十二月20224:50:26下午16:50:2612月-22严格把控质量关,让生产更加有保障。十二月224:50下午12月-2216:50December30,2022作业标准记得牢,驾轻就熟除烦恼。2022/12/3016:50:2616:50:2630December2022好的事情马上就会到来,一切都是最好的安排。4:50:26下午4:50下午16:50:2612月-22一马当先,全员举绩,梅开二度,业绩保底。12月-2212月-2216:5016:50:2616:50:26Dec-22牢记安全之责,善谋安全之策,力务安全之实。2022/12/3016:50:26Friday,December30,2022相信相信得力量。12月-222022/12/3016:50:2612月-22谢谢大家!树立质量法制观念、提高全员质量意识。12月-2212月-2255生活中的辛苦阻挠不了我对生活的热爱。12月-2212月-22Friday,December30,2022人生得意须尽欢,莫使金樽空对月。16:50:2616:50:2616:5012/30/20224:50:26PM做一枚螺丝钉,那里需要那里上。12月-2216:50:2616:50Dec-2230-Dec-22日复一日的努力只为成就美好的明天。16:50:2616:50:2616:50Friday,December30,2022安全放在第一位,防微杜渐。12月-2212月-2216:50:2616:50:26December30,2022加强自身建设,增强个人的休养。2022年12月30日4:50下午12月-2212月-22精益求精,追求卓越,因为相信而伟大。30十二月20224:50:26下午16:50:2612月-22让自己更加强大,更加专业,这才能让自己更好。十二月224:50下午12月-2216:50December30,2022这些年的努力就为了得到相应的回报。2022/12/3016:50:2616:50:2630December2022科学,你是国力的灵魂;同时又是社会发展的标志。4:50:26下午4:50下午16:50:2612月-22每天都是美好的一天,新的一天开启。12月-2212月-2216:5016:50:2616:50:26Dec-22相信命运,让自己成长,慢慢的长大。2022/12/3016:50:26Friday,December30,2022爱情,亲情,友情,让人无法割舍。12月-222022/12/3016:50:2612月-22谢谢大家!生活中的辛苦阻挠不了我对生活的热爱。12月-2212月-2256商务智能入门培训

BusinessIntelligence

商务智能入门培训

BusinessIntelligence57一、概念篇商务智能入门培训课件58实例:沃尔玛的销售部在总结历史销售记录的时候发现,每到周末的时候,啤酒和尿布的销量都比平时要高很多,这是一个巧合还是这个现象的背后隐藏着一定的必然因素?销售人员展开了调查,结果发现:每到周末,有孩子的家庭主妇就会让他们的丈夫去超市给孩子买足一周用的尿布,这些丈夫们必然会选择一些自己爱喝的啤酒,以便周末在欣赏橄榄球赛和篮球赛的时候可以和朋友们一起庆祝。原因找到了之后,销售部采取了措施,每到周末将超市的啤酒和尿布捆绑销售,这样,啤酒和尿布的销量又同时增加了一成。什么是商务智能?实例:沃尔玛的销售部在总结历史销售记录的时候发现,每到周末的59二、市场分析篇商务智能入门培训课件60商务智能的应用分为纵向商务智能和横向商务智能。纵向商务智能是指企业分别实施多个信息化系统,比如财务系统中的管理会计就是商务智能的一部分,从以前只关注运营报表,到关注整个财务的运作情况,像现金流、资产负债等。而人力资源系统可以称为智能人力资源,关注员工的流失率,分析从什么途径招聘的员工流失率最高,分析公司人才结构、人才培养方向等。总而言之,企业有了核心业务系统、管理信息系统,在这些系统之上做智能的分析,而这些分析得到的信息完全是来自单独的系统。那么横向商务智能指的是什么呢?举例来说,比如汽车制造厂生产多款不同的车型,公司老总会问,生产哪一款车型、生产多少,企业的效率能够达到最高?这样的问题,不能通过分析单独的系统得到,因为效益最高取决于生产成本、人力资源成本、市场的需求、竞争对手、市场定价等多方面的信息。而这些信息则分散在财务系统、人力资源系统、采购系统中,这就需要系统和信息有效的整合才能解决这个问题,所以称为横向商务智能。商业智能应用领域?商务智能的应用分为纵向商务智能和横向商务智能。商业智能应用领61商业智能是一种整体化的解决方案,他可以帮助企业做出明智的业务经营决策,而依据则是企业内部的各种数据,例如订单、库存、交易账目、客户和供应商资料、行业数据和竞争对手信息等等。商业智能其实是一种将企业信息数据转化为决策的重要工具。商业智能的应用是需要一定的基础的。实施商业智能的企业至少应该具备以下几个条件:用户的数据已达到一定的规模;用户面临激烈的市场竞争:用户在IT方面的资金能得到保障。满足以上几点的行业集中在重要的政府机构(如财务、税务、审计、工商、海关等)、零售业(连锁店、网上零售等)、大型现代化的制造业(如宝钢、上汽集团等)、金融(包括银行、证券、保险等)、电信业(如中国电信、中国网通、中国移动等)、能源业(电力)、运输等,这也是目前国内急需要数据仓库和商业智能技术来提升企业竞争力的主要行业。金融、电信行业是BI应用最集中的行业,约占40%的市场分额,保险、能源、烟草、政务行业约占30%的市场份额,制造、零售行业约占30%的市场份额,是BI应用最具潜力的行业。金融:随着国内五大商业银行的信息化不断发展,在BI领域投资稳步增长,每年均有大量的BI需求,其中BI已经不仅局限于高层管理者的决策,操作型BI应用越来越广泛,尤其是信贷评审领域。中小型银行BI需求也不断涌现,未来将是金融行业BI市场的主要增长点。电信:电信行业信息化程度很高,对信息化依赖很强,积累了大量的数据,具有实施商业智能项目的基础条件和资金实力。电信行业对于BI深入应用是最渴望的,在话费套餐设置、客户潜力分析等都需要数据挖掘技术来提供决策依据。行业现状?商业智能是一种整体化的解决方案,他可以帮助企业做出明智的业务62行业市场规模?行业市场规模?63发展趋势?发展趋势及预测移动商业智能

商业智能系统会把大量数据转变成可视化形式(如图形和表格),以便使用者详细深入地分析潜在商业趋势。因此如果为这种分析赋予移动性——通常利用功能强大的智能终端,许多公司就能与客户和商业合作伙伴进行实时互动,从而改善服务、提高工作效率。SaaSBI将得到快速发展 SaaS是基于互联网提供软件服务的软件应用模式,企业根据实际需要,从SaaS提供商租赁软件服务。SaaS模式在CRM领域获得了成功,不论是国外还是国内具有成熟的产品,并取得了不错的收益。SAAS在BI领域的应用的挑战是应用于互联网上的SAAS软件无法处理BI所需的海量数据。商业智能日渐与业务融合

业务分析作为商业智能领域中最贴近业务的层面,在2010年成为业界关注的重点,不管是SAP还是IBM,都将业务分析作为今年的业务发展重点。企业希望由BI系统带来的透明度和洞察力能够帮助企业降低成本,提高生产率和业务敏捷性。通过商业智能,企业能更清晰更深刻的了解包括公司管理、利润分析、市场竞争、财务状况等信息,而未来商业智能的这种特性还将继续加强。操作型BI应用得到发展

目前商业智能技术不仅仅应用于企业高层管理者的决策分析,越来越多的商业智能分析结果正被用于普通员工的日常工作流程中,直接推动业务的执行。例如:在家乐福购物时,收银员已经可以根据顾客的购物篮进行产品推荐。发展趋势?发展趋势及预测64发展趋势?数据集成应用得到重视

在一些大型企业中往往有几十个甚至几百个信息系统,将这些数据整合到数据仓库中,一般采取ETL工具抽取多个厂商数据库的数据,有些甚至还包含非结构化数据,例如XML、EXCEL、文本等。这些数据往往需要加工和整理放入ODS(中间库),最后以规范、标准的格式存储到数据仓库。在这个数据集成的过程中,要做到系统兼容性好、开发效率高、处理性能好,而且能够捕捉数据的变化处理增量数据。数据集成是建立实用的数据仓库的关键,而且数据集成的过程占商业智能应用中一半以上的工作量,因此越是大型企业越是重视数据集成。中小企业BI应用逐渐扩大市场

份额

中国中小企业逐渐呈现对管理软件旺盛的需求态势,很多厂商发布了专门针对中小企业的BI套件,例如CognosExpress等。中小企业在实施ERP、CRM产品后,必将应用商业智能,中小企业市场是BI应用非常重要的组成部分。BI企业将在垄断中不断新生

中国商业智能市场两极竞争趋势日益加剧。在高端市场,由国际厂商垄断与竞争的局面是2010年的主流,其中IBM、Oracle、SAP、Microsoft拥有完整的BI产品线,将占据70%以上的市场份额。剩余的30%市场将由其他外资企业和国内企业分享。随着国内企业的成长与并购,国内厂商的实力不断壮大,但是主要集中于中低端市场,在2010年优秀的国产BI产品将开始不断向四大国际厂商发起挑战,但是竞争的过程将是极其漫长的。发展趋势?数据集成应用得到重视651)国际BI厂商,如BO公司(SAP)、Hyperion公司(Oracle)、微软公司、SAS公司等。这些国际厂商的品牌与规模优势非常突出,是国内大部分BI厂商难以与之匹敌的。2)起步比较早的国内BI厂商,如菲奈特(成立于1995年10月,从1997年开始进入BI领域)、先进数通公司(成立于2000年)、吉贝克公司(成立于2002年)等。这些国内BI厂商凭借本土化的优势以及对国内BI用户所需要的应用的独特见解,也在国内的BI市场上占有超过30%的市场份额。3)非专业BI厂商,主要有以下几类:一、从事某些行业核心业务系统建设的公司;二、从事系统集成的公司;三、从事专业财务系统及个别ERP厂商。商务智能主要厂商有哪些?厂商产品及简介IBMDB2以及Cognos、SPSS、DataStage,覆盖BI全部领域。数据仓库产品结合了DB2数据服务器的长处和IBM的商业智能基础设施,集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件,提供了一套基于可视数据仓库的商业智能解决方案。OracleOracle、Hyperion,覆盖BI全部领域,数据挖掘领域有待加强。数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,能够提供一系列的数据仓库工具集和服务,具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP工具的交互能力及快速和便捷的数据移动机制等特性。SAPBusinessObjects、CrystalReports,主要是OLAP和报表领域。Sybase(SAP)提供了称为WarehouseStudio的一整套覆盖整个数据仓库建立周期的产品包,包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。BusinessObjects(SAP)是集查询、报表和OLAP技术为一身的智能决策支持系统,具有较好的查询和报表功能,提供多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。MicrosoftSQLServer,覆盖BI全部领域,适合中小型企业,性价比高。它提供了三大服务和一个工具来实现数据仓库系统的整合,为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能,可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能。TeradataTeradata,主要是数据仓库领域。它提出了可扩展数据仓库基本架构,包括数据装载、数据管理和信息访问几个部分,是高端数据仓库市场最有力竞争者,主要运行在基于Unix操作系统平台的NCR硬件设备上。SASSAS,数据挖掘领域领先。SAS公司的数据仓库解决方案是一个由30多个专用模块构成的架构体系,适应于对企业级的数据进行重新整合,支持多维、快速查询,提供服务于OLAP操作和决策支持的数据采集、管理、处理和展现功能。国内其他菲奈特(BIoffice)、和勤(Hinge)、奥威智动(Power-BI)、科加诺(QlikView)、尚南(BlueQuery),润乾、探智(Trinity)。目前活跃在国内BI市场上的厂商大致可分为以下三类:1)国际BI厂商,如BO公司(SAP)、Hyperion公66商务智能主要厂商产品链介绍?厂商数据库数据仓库设计、管理ETLOLAP数据挖掘报表IBMDB2IBMDWEDesignStudioIBMWebshpereDatastage、DecisionStream(Cognos)IBMDB2OLAPServerIBMIntelligentMiner、SPSSIBMCognosReportOracleOracleOracleWarehouseBuilderOracleWarehouseBuilderOracleExpress/DiscovererOracleDataMinerOracleReportsSAP-BusinessObjectsRapidMartsBusinessObjectsDataIntegratoinBusinessObjectsOLAPIntelligence-BusinessObjectsCrystalReportMicrosoftSQLServerSQLServerManagementStudioSQLServerIntegrationServicesSQLServerAnalysisServicesSQLServerDataMinerSQLServerReportingServicesTeradataTeradataTeradataRDBMS/TeradataMetaDataServicesTeradataETLAutomation-TeradataWarehouseMinerBTEQSybaseSybase

IQPowerDesinger/WarehouseControlCenterDataIntegratoinSuitePowerDimension-InfoMakerSAS-SASWarehouseAdministratorSASETLStudioSASOLAPServerSASEnterpriseMinerSASReportStudio商务智能主要厂商产品链介绍?厂商数据库数据仓库设计、管理ET67三、技术篇商务智能入门培训课件68商务智能总体解决方案财务信息“ETL”Extract–Transform-Load数据仓库/数据集市/ODS商务智能平台信息展现*决策者分析员管理者业务员数据查询报表分析多维分析数据挖掘分析门户数据整合*OracleDB2SQLServerSybaseTeraData……销售信息库存信息DataIntegrationRapidMart商务智能总体解决方案财务信息“ETL”数据仓库/商务智能平台商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一.数据仓库技术四.在线联机分析处理技术(OLAP)五.数据挖掘技术商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一70

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。面向主题的(subject-oriented):数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。因此,数据仓库排除对决策无用的数据,提供特定主题的简明视图。集成的(integrated):通常,构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联机事务处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构和属性度量等指标的一致性。时变的(time-variant):数据存储从历史的角度提供信息。数据仓库中的关键结构,隐式或显式地包含时间元素。非易失的(nonvolatile):数据仓库的数据是有历史保存意义的,数据仓库的数据也只使用添加的方式,进入了数据仓库的数据一般情况下是不需要更新的,这样就保证了数据的稳定性。通常,它只需要三种数据访问:数据的初始化装入、数据的添加和数据查询访问。数据仓库定义 数据仓库是一个面向主题的、集成的、时变的、71事实表是用来记录具体事件的,包含了每个事件的具体要素,以及具体发生的事情;维度表是对事实表中事件的要素的描述信息;

数据仓库相关概念

一个事实表和多个维度表构成一个立方体(主题),一个或者多个相关主题构成一个数据集市,一个或者多个数据集市构成了数据仓库。数据仓库的架构模型包括了星型架构与雪花型架构两种模式。星型架构的中间为事实表,四周为维度表,类似星星;雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰的维度层次关系。数据仓库相关概念一个事实表和多个维度表构成一个立方体72步骤一:确定主题

即确定数据分析或前端展现的主题。例如:我们希望分析某年某月某一地区的啤酒销售情况,这就是一个主题。主题要体现出某一方面的各分析角度(维度)和统计数据(量度)之间的关系,确定主题时要综合考虑。我们可以形象的将一个主题想象为一颗星星:统计数据(量度)存在于星星中间的事实表;分析角度(维度)是星星的各个角;我们将通过维度的组合,来考察量度。那么,“某年某月某一地区的啤酒销售情况”这样一个主题,就要求我们通过时间和地区两个维度的组合,来考察销售情况这个量度。步骤二:确定量度

在确定了主题以后,我们将考虑要分析的技术指标,诸如年销售额之类。它们一般为数值,称为量度。量度是统计的指标,必须事先选择恰当,基于不同的量度可以进行复杂关键性能指标(KPI)的设计和计算。数据仓库构建步骤步骤一:确定主题数据仓库构建步骤73步骤二:确定量度

在确定了主题以后,我们将考虑要分析的技术指标,诸如年销售额之类。它们一般为数值,称为量度。量度是统计的指标,必须事先选择恰当,基于不同的量度可以进行复杂关键性能指标(KPI)的设计和计算。步骤三:确定事实数据粒度

在确定了量度之后,我们要考虑到该量度的汇总情况和不同维度下量度的聚合情况。考虑到量度的聚合程度不同,或采用“最小粒度原则”,即将量度的粒度设置到最小。数据仓库构建步骤步骤二:确定量度数据仓库构建步骤74步骤四:确定维度

维度是指分析的各个角度。例如我们希望按照时间,或者按照地区,或者按照产品进行分析,那么这里的时间、地区、产品就是相应的维度。基于不同的维度,我们可以看到各量度的汇总情况,也可以基于所有的维度进行交叉分析。步骤五:

创建事实表

在确定好事实数据和维度后,我们将考虑加载事实表。在公司的大量数据堆积如山时,我们想看看里面究竟是什么,结果发现里面是一笔笔生产记录,一笔笔交易记录…那么这些记录是我们将要建立的事实表的原始数据,即关于某一主题的事实记录表。事实表是数据仓库的核心。数据仓库构建步骤步骤四:确定维度数据仓库构建步骤75商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一.数据仓库技术四.在线联机分析处理技术(OLAP)五.数据挖掘技术商务智能核心技术有哪些?三.ETL技术二.元数据管理技术一76元数据通常定义

“关于数据的数据(例如视图,查询SQL,事务,存储过程)”,是描述和管理数据仓库自身内容对象、用来表示数据项的意义及其在系统各组成部件之间的关系的数据。元数据作用于数据仓库的创建,维护,管理和使用的各个方面。是从广义上来讲,用元数据来描述数据仓库对象的任何东西——无论是一个表、一个列、一个查询、一个商业规则,或者是数据仓库内部的数据转移。它在数据源的抽取、数据加工、访问与使用等过程中都会存在。实现元数据管理的主要目标就是使企业内部元数据的定义标准化。数据仓库的维护工具可以根据元数据完成数据的抽取、清洗和转换,并做适度的汇总。数据仓库的元数据包括:(1)数据资源:包括各个数据源的模型,描述源数据表字段属性及业务含义,源数据到数据仓库的映射关系;(2)数据组织:数据仓库、数据集市表的结构、属性及业务含义,多维结构等等;(3)数据应用:查询与报表输出格式描述、OLAP、数据挖掘等的数据模型的信息展现;(4)数据管理:这里包括数据仓库过程以及数据仓库操作结果的模型,包括描述数据抽取和清洗规则、数据加载控制、临时表结构、用途和使用情况、数据汇总控制。元数据元数据通常定义元数据77分析用户数据库、数据仓库我想知道今年、做得最好的5个产品数据仓库中有80张数据表无语义层的工作模式分析用户数据库、数据仓库我想知道今年、做得最好的5个产品数据78无语义层的工作模式以往的两种主要的解决数据访问问题的方法:TheBureauApproach:业务人员技术人员SQLTheSQLEducationApproach:业务人员技术人员SQL无语义层的工作模式以往的两种主要的解决数据访问问题的方法:T79透过语义层访问数据设计语义层Universe设计数据库和数据安全机制企业数据库业务人员的要求业务人员可以基于语义层进行数据查询和分析不需要了解数据库内部结构不需要学习SQL语句股票财经销售IT人员的要求专注于数据库维护专注

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论