商业智能306的知识_第1页
商业智能306的知识_第2页
商业智能306的知识_第3页
商业智能306的知识_第4页
商业智能306的知识_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

什么是商业智能?商业智能指收集、转换、分析和发布数据的过程,目的是为了更好的决策。商业智能是指将数据转化为知识的过程。它包括捕获和分析信息,交流信息,以及利用这些信息开发市场。DataInformationKnowledge如果数据是金钱,商业智能可以...ExistingDataAssets产品或服务分析降低成本分析利润发现销售机会目标市场/动态区隔P=R-C商业智能在行业的应用银行客户利润分析分支行利润分析交叉销售信用风险管理新产品推销收费策略保险欺诈管理收费策略目标市场活动客户挽留客户利润分析零售地区/商店各种货物(品牌,分类等)销售业绩定价和减价市场篮子关系市场需求预测仓储规划通讯客户忠实客户流失模式客户利润分析竞争分析欺诈管理InformationTechnologyinBusinessCollaborativeprocessingsystemsOperational&e-businesssystemsDecisionprocessingsystemsRunandmanagebusinessoperationsAnalyze&modelbusinessoperationsSupportbusinessoperationsTwoInformationTechnologiesHaveProfoundImpactonBusinessTodayWorldWideWeborInternetEnablee-businessEnablerapidlysharebusinessintelligencecompany-wideBusinessIntelligenceEnabledecisionmakerstoaccess,analyzeandshareinformationCoreTechnologiesinBusinessIntelligenceDatawarehousingIntegratedcorporatedatasourcefordecisionsupportOLAPandDSSInformationquery,analysisandreportingDataMiningKnowledgediscoveryfrombusinessdataCustomerRelationshipManagement(CRM)商业智能方案AdministrationDataWarehouseCenterTransformationToolsWarehouseManagerReplicationFamilyETIValityWarehouse/MartDB2FamilyDB2OlapServerAnalysisIntelligentMinerIntelligentDecisionServerDB2OLAPServerMetadataTemplatesAccessToolsDataWarehouseCenterDataJoinerETIClientsBrowsersNotesApproachPartnersMetadataInformationCatalogE-BusinessandBusinessIntelligenceE-business

processing

E-businessdataE-businessapplicationsCollaborativeprocessingOfficesystemsDocumentsWebpagee-mails,etcTransaction,Weblog,Click-streamsOperational

processing

OperationaldataBack-officesystemsFront-officesystemsDecision

processing

DatawarehouseBItools&dataminingETLtoolsExternaldataReport&analysis数据挖掘选择转换挖掘理解转换后数据抽取的信息可理解的信息选择的数据数据仓库CustomerRelationshipManagementCustomersSalesServicesMarketingTargetrightonlinecustomersPersonalizedone-to-onemarketingConvertsitevisitorstocustomersUpsellingCrosssellingCustomerloyaltyChurnreductionCRM=CRMsystem+bestbusinesspracticeBIforCRMSolutions(PilotSoftware)DataMininginCRMWebvisitsOnlineshoppingWebserverCustomerDatabaseDataMiningMarketingCampaignModelCallCenterOutboundEmailsEndCustomerEndCustomerExample:OnlineMarketingAutomation

商业智能概述数据仓库

联机分析处理数据挖掘数据仓库数据仓库的最终目标是把企业范围内的所有数据集成在一个大仓库中,让用户能运行查询、产生报告、执行分析“数据仓库之父”BillInmon给的定义:

数据仓库就是一个用以更好地支持企业或组织的决策分析处理的,面向主题的,集成的,不可更新的,随时间不断变化的数据集合数据仓库的特征面向主题的:主题是一个在较高层次将数据归类的标准,每个主题基本对应一个宏观的分析领域集成的:允许数据来自于跨组织和部门等不同数据源;集成的数据必须是一致的、用户看来是统一的数据视图不可更新的:指一旦某个数据进入数据仓库后,一般情况下将被长期保留(反映历史数据内容)随时间不断变化:库中的信息系统地记录了企业从过去某一点到目前的各阶段的信息数据仓库的体系结构

操作型数据源1报告查询、应用开发和EIS工具

操作型数据源2OLAP工具

n数据挖掘工具

仓库管理器

元数据高度综合数据

轻度综合数据

细节数据

集成管理器查询管理器操作型数据源n现实环境—异质性[DouglasHackney,CustomMarketingDataWarehousePackagedOracleFinancialDataWarehousePackagedI2SupplyChainNon-ArchitectedDataMartSubsetDataMartsOracleFinancialsi2SupplyChainSiebelCRM3rdPartye-Commerce联合型数据仓库/数据集市体系结构RealTimeODSFederatedFinancialDataWarehouseSubsetDataMartsCommonStagingAreaOracleFinancialsi2SupplyChainSiebelCRM3rdPartyFederatedPackagedI2SupplyChainDataMartsAnalyticalApplicationse-CommerceRealTimeDataMiningandAnalyticsRealTimeSegmentation,Classification,Qualification,Offerings,etc.FederatedMarketingDataWarehouse数据仓库的焦点问题-数据的获得、存储和使用

RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterpriseDataWarehouseDatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool数据仓库和集市的加载能力至关重要数据仓库和集市的查询输出能力至关重要自上而下的设计方法BuildEnterprisedatawarehouseCommoncentraldatamodelDatare-engineeringperformedonceMinimizeredundancyandinconsistencyDetailedandhistorydata;globaldatadiscoveryBuilddatamartsfromtheEnterpriseDataWarehouse(EDW)SubsetofEDWrelevanttodepartmentMostlysummarizeddataDirectdependencyonEDWdataavailabilityLocalDataMartExternalDataLocalDataMartOperationalDataEnterpriseWarehouse自底而上设计方法创建部门的数据集市范围局限于一个主题区域快速的ROI--局部的商业需求得到满足本部门自治--设计上具有灵活性对其他部门数据集市是一个好的指导容易复制到其他部门需要为每个部门做数据重建有一定级别的冗余和不一致性一个切实可行的方法扩大到企业数据仓库创建EDB作为一个长期的目标局部数据集市外部数据操作型数据(全部)操作型数据(局部)操作型数据(局部)局部数据集市企业数据仓库EDB数据仓库建模—星型模式ExampleofStarSchemaDateMonthYearDateCustIdCustNameCustCityCustCountryCustSalesFactTable

Date

Product

Store

Customer

unit_sales

dollar_sales

Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore数据仓库建模—雪片模式

DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTable

Date

Product

Store

Customer

unit_sales

dollar_sales

Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStoreExampleofSnowflakeSchema典型的数据仓库解决方案IBM数据仓库解决方案ORACLE数据仓库解决方案SAS数据仓库解决方案…...IBM数据仓库解决方案建立数据仓库包括以下阶段:数据抽取阶段:完成对各种数据源的访问数据转换阶段:完成对数据的清洗、汇总、整合数据分布阶段:完成对结果数据存储的分配

通常此三阶段紧密结合在一个产品中体现

数据仓库的存储:由DB2家族完成数据的呈现:由不同产品完成不同的分析要求管理和维护数据仓库中的数据:

交给VisualWarehouseIBM数据仓库解决方案IBM数据仓库解决方案前三个阶段(抽取、转换、分布):VisualWarehouse、DataJoiner、 DatePropagator数据仓库的存储由DB2家族产品来完成IBM数据仓库解决方案数据的呈现:Approach可进行查询和统计分析IntelligentDecisionServer支持多维分析IntelligentMiner用于数据挖掘用户查找和理解数据仓库中的数据:DataGuide

商业智能概述

数据仓库联机分析处理数据挖掘联机分析处理(OLAP)60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。

OLTP数据OLAP数据

原始数据 导出数据 细节性数据 综合性和提炼性数据 当前值数据 历史数据 可更新 不可更新,但周期性刷新 一次处理的数据量小 一次处理的数据量大 面向应用,事务驱动 面向分析,分析驱动 面向操作人员,支持日面向决策人员,支持管理需要常操作OLTP和OLAP的区别定义1:OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。定义2:OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。什么是OLAP?1.维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。2.维的层次:人们观察数据的某个特定角度(即某个维)可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。3.维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)4.多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,…,维n,变量)。(时间,地区,产品,销售额)5.数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000)相关基本概念(1)快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。

(2)可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。(3)多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持…(4)信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。OLAP特性多维视图

地北京

理多维数据视图

位上海

99

置98年广州97份

彩电

洗衣机

电冰箱产

型9897OLAP多维数据分析 对以多维形式组织起来的数据,采取切片、切块、旋转等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据1.切片和切块(SliceandDice)在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。2.钻取(Drill)钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻取的深度与维所划分的层次相对应。

3.旋转(Rotate)/转轴(Pivot)通过旋转可以得到不同视角的数据。数据分析方法OLAP的分析方法(一)切片、切块OLAP的分析方法(二)钻取按时间维向下钻取按时间维向上钻取60OLAP的分析方法(三)旋转

商业智能概述

数据仓库

联机分析处理

数据挖掘

数据挖掘(DataMining)

数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是指从大型数据库或数据仓库中抽取出潜在的、有价值的知识(模型或规则)的过程数据挖掘的目的:提高市场决策能力;检测异常模式;在过去的经验基础上预言未来趋势等数据挖掘不同的术语和定义:datamining,knowledgediscovery,patterndiscovery,datadredging,dataarcheology.多学科交叉DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearning(AI)Visualization数据挖掘过程模型1.

定义商业问题2.

建立数据挖掘模型3.

分析数据4.

准备数据5.

建立模型6.

评价模型7.

实施数据挖掘和数据仓库数据源数据仓库各分公司数据集市分析数据集市数据挖掘数据集市图1:数据挖掘库从数据仓库中得出数据源数据挖掘库图2:数据挖掘库从事务数据库中得出数据挖掘和联机分析处理OLAP是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(whathappened),OLAP则更进一步告诉你下一步会怎么样(Whatnext)、和如果我采取这样的措施又会怎么样(Whatif)OLAP方法先建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论OLAP分析过程在本质上是一个演绎推理的过程数据挖掘是在数据库中自己寻找模型,在本质上是一个归纳的过程数据挖掘和OLAP具有一定的互补性数据挖掘的任务分类(Classification)估值(Estimation)预言(Prediction)相关性分组或关联规则(Affinitygroupingorassociationrules)聚类(Clustering)描述和可视化(DescriptionandVisualization)数据挖掘模式

直接数据挖掘(预测型数据挖掘Predictive):目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述可以根据数据项的值精确确定某种结果

间接数据挖掘(描述型数据挖掘Descriptive):目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘各种具体模式的简介分类(Classification)首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。例子:a.信用卡申请者,分类为低、中、高风险b.分配客户到预先定义的客户分片注意:类的个数是确定的,预先定义好的常用算法:Decisiontreeinduction、Neuralnetworks、Geneticalgorithms、K-Nearestneighbors、Casebasedreasoning、AssociationRuleModel、DecisionClustermodel、Roughsetclassificationmodel

各种具体模式的简介(续)估值(Estimation)估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。例子:a.根据购买模式,估计一个家庭的孩子个数b.根据购买模式,估计一个家庭的收入c.估计realestate的价值一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score0~1)。然后,根据阈值,将贷款级别分类。各种具体模式的简介(续)预言(Prediction)通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。各种具体模式的简介(续)相关性分组或关联规则(Affinitygroupingorassociationrules)两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式寻找的是事件之间时间上的相关性

例子:a.超市中客户在购买A的同时,经常会购买B,即A=>B(关联规则)b.

客户在购买A后,隔一段时间,会购买B(序列分析)各种具体模式的简介(续)聚类(Clustering)聚类是对记录分组,把相似的记录在一个聚类里。聚类和分类的区别是聚类不依赖于预先定义好的类,不需要训练集。例子:a.一些特定症状的聚类可能预示了一个特定的疾病b.租VCD类型不相似的客户聚类,可能暗示成员属于不同的亚文化群聚类通常作为数据挖掘的第一步。例如,“哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚类,将客户分组在各自的聚类里,然后对每个不同的聚类,回答问题,可能效果更好。各种具体模式的简介(续)描述和可视化(DescriptionandVisualization)是对数据挖掘结果的表示方式。数据挖掘的技术背景1)数据挖掘技术包括三个主要部分:算法和技术、数据、建模能力2)数据挖掘和机器学习(MachineLearning)机器学习是计算机科学和人工智能AI发展的产物机器学习分为两种学习方式:自组织学习(如神经网络);从例子中归纳出规则(如决策树)3)数据挖掘和统计统计也支持数据挖掘。统计本包括预测算法(回归)、抽样、基于经验的设计等4)数据挖掘和决策支持系统数据仓库、OLAP、DataMart、多维数据库DatabaseTechniquesforDataMiningDatabasetechniquesandtools(SQL)areusedforDatastorageAccesstodatasourcesDataselectionandintegrationDatapreprocessingDataminingandalgorithms(AssociationRule)DeploymentenvironmentDataSelectionandExtractionUsefulsteps:Understandthebusinessproblem.Collectthematerialsaboutthedatasourcesandstudythemtounderstandwhatdataisavailable.Identifythedataitemsrelevanttothebusinessproblem,e.g.,tablesandattributes.Makeadataextractionplanandarrangethedataextraction(withDBAs).Calculatethesummarystatisticsoftheextracteddata.DataPreprocessing

FieldselectionSamplingDatacorrectionMissingvaluestreatmentDatatransformation,e.g.,birthdatetoage.DerivenewfieldsDataaggregationStatisticalTechniquesforDataMiningStatisticaltechniquesareusedforDataexplorationDatapre-andpost-processingStatisticalmodelbuildingModeltestandresultverificationDataExplorationUsesomegraphicaltoolstovisuallyinvestigatethecharacteristicsofdata.VisualdataexplorationcanhelpDataunderstandingErrorcorrectionVariableselectionVariabletransformationDataExplorationExamplesHistogramPlottingAssociationFrequencyDistributionMachineLearningTechniquesforDataMiningMachineLearningprovidesusefuldataminingalgorithmssuchasDecisiontreeinductionNeuralnetworksConceptualclusteringGeneticalgorithmsGeneticprogramming

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论