01数据仓库概述_第1页
01数据仓库概述_第2页
01数据仓库概述_第3页
01数据仓库概述_第4页
01数据仓库概述_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 数据仓库概述纲要数据仓库库技术产产生的背背景数据仓库库定义数据仓库库的组成成部件商务智能能2一、数据据仓库技技术产生生的背景景决策信息息的需求求与当前前信息状状况的不不足操作性系系统与分分析性系系统新的数据据环境的的特点3现有的数数据库系系统的侧侧重点现有的数数据库系系统,主主要用于于事务(Transaction)处理一笔存款款(一张张存款单单)一笔取款款(一张张取款单单)一笔转帐帐(一张张转帐单单)一次挂失失(一张张挂失单单)强调多用户并并发环境境,数据据的一致致性、完完整性4企业信息息化建设设现状在数据库库技术的的支持下下,一大大批成熟熟的业务信息息系统投入运行行,为为企业发发展作

2、出出了巨大大贡献各类信息息系统大大多属于于面向事务务处理的的OLTP系统信息系统统多年运运行,积积累了大大量的数数据数据是一一种宝贵贵的资源源,但没没有充分分发挥作作用管理决策策层对数数据分析析基础平平台的需需求日益益强烈5企业信息息化建设设提出了了更高的的要求市场竞争争日益激激烈创造竞争争优势需要及时时、准确确的做出出科学决决策科学决策策必须以以准确、有效的的数据为为基础充分利用用现有数数据,将将它转化化为信息息以客户为为中心的的经营管管理模式式优化客户户关系原有系统统往往以以产品为为中心原有系统统往往以以“单据(票票证)”的处理为为基础转向“以客户为为中心”强调服务务,尤其其是个性化服务个

3、性化数数据6现有数据据库系统统处理“分析型”应用存在的问问题数据可信信性生产率不可能把把数据转转换成信信息数据动态态集成问问题历史数据据问题数据的综综合问题题:非细细节数据据,多种种程度的的综合7分析处理理的需求求例1:今年销销售量下下降的因因素时间:销销售地区:(销售*顾客)顾客地址址所在的的地区,商品:(销售*订单细则则)商品类别别,销售部门门:销售售*员工*部门部门名称称,例2:持卡人人今年的的交易情情况与以以往相比比,有怎怎样的变变化?交交易特点点(存款款、取款款、转帐帐、消费费)是什什么?持持卡人消消费倾向向(宾馆馆、大型型商场、超级市市场等)是什么么?要求:多个子系系统中的的数据(

4、数据集集成)历史数据据汇总、综综合的数数据一致的数数据视图图8分析人员员典型的的信息需需求覆盖企业业内部信信息、合合作伙伴伴信息和和市场信信息覆盖综合合信息和和明细信信息覆盖当前前数据和和历史数数据高可用性性高质量的的数据(一致性性、完整整性)支持各种种不同的的分析方方法数据定义义符合业业务人员员要求9分析决策策人员的的挑战组织内部部横向共享享信息数据的重重构个人授权权服务和质质量管理理组织之间间合作伙伴伴客户驱动动的解决决方案战略联盟盟价值链和和供应链链市场竞争对手手市场分割割实时的市市场行情情全球化10数据可信信性数据没有有同一时时间基准准例如:一一个企业业的两个个部门向向管理者者呈送报报

5、表部门A,于星期期天傍晚晚抽取了了分析所所需的数数据,结结论为业业绩上升升10%部门B,于星期期三下午午抽取了了分析所所需的数数据,结结论为业业绩下降降15%算法不同同部门A使用的是是旧帐号号 部门门B使用的是是大帐号号多次抽取取,扩大大了上述述两个问问题用抽取程程序从数数据库或或文件中中抽取数数据,并并存放起起来,然然后又在在此基础础上再次次进行抽抽取,从从数据进进入系统统到提供供分析往往往经过过8、9次的抽取取。11数据可信信性外部数据据问题一位分析析员把华尔街日日报的数据带带进系统统另一位将将商业周刊刊的数据进进入系统统数据一旦旦进入系系统,往往往已失失去“身份”,并且一一位分析析员也不

6、不知道另另一位分分析员所所输入的的数据开始时就就不是同同一个公公共的数数据源部门A最初来源源于文件件XYZ部门B最初来源源于数据库ABC12生产率为了生成成一个企企业报表:获得源数数据定位和分分析数据据:由于于同名不不同义、同义不不同名,很难准准确定位位和分析析,可能能造成进进一步的的混乱把数据加加工成报报告要写许多多程序,每个程程序必须须客户化化(与客客户环境境有关)程序会涉涉及公司司具有的的各种技技术由于定位位数据困困难,检检索所要要的数据据是一件件很麻烦烦的事完成任务务需要很很长时间间定位数据据+获得数据据+集成报告告,完成成任务所所需时间间较长每份报告告各自需需求不同同,因此此每份报报

7、告所需需要的时时间都很很长。13从数据到到信息例如:“今年的帐帐户情况况与前五五年比较较”涉及大量量应用:储蓄应应用、贷贷款、即即期汇票票管理、信托,而这些些应用并并未集成成。没有足够够的历史史数据:贷款部门门,拥有有二年的的数据银行存折折处理,拥有一一年的数数据即期汇票票管理只只有60天的数据据现金交易易处理具具有18个月的数数据。数据不一一致问题题:同名名不同义义、同义义不同名名,例如如M/F,Male/Female外部数据据和非结结构化数数据14两种报表表的区别别例:就一一个银行行而言出纳员需需要操作型报报表,因为他他需要知知道当天天所有交交易,来来确定一一天结束束时的现现金余额额;银行

8、行长长的长期期战略决决策(如如决定一一个地区区安装ATM机 的数数目)就就需要了了解大量量的内部部和外部部信息,每天的的交易报报表对他他意义不不大,他他更需要要分析型报报表152操作型系系统vs.信息型系系统操作型系系统,OLTP下订单处理呼叫叫装货开发货单单收取现金金预定座位位16信息型系系统给我销售售量最好好的产品品名单告诉我出出问题的的地区告诉我为为什么(向下钻钻取)让我看看看其他的的数据(横向钻钻取)显示最大大利润当一个地地区的销销售低于于目标值值时,提提醒我将数据写写入数据据库从数据库库中读取取战略信信息操作型系系统vs.信息型系系统操作型系统信息型系统数据内容当前值存档的,推导出来

9、的,总结的值数据结构适于事务处理适于复杂查询访问频率高中、低访问连接类型读取、更新、删除读取使用方法可预知的、反复性的特别查询、随机的、启发式的应用响应时间快一般用户大量较少数17操作型环环境和分分析型环环境不同的需需求,要要求将操操作型环环境和分分析型环环境相分离在操作型型环境中中支持分分析应用用太复杂杂、太困困难操作性环环境不支支持域(Domain)之间的的联系,仅仅支支持表之之间的连连接不同的数数据环境境要求从从数据组组织(结结构)和和操作上上进行工工作183数据仓库要解解决的基基本问题题全局范围围内统一一数据视视图数据内容容数据的完完整性数据的准准确性数据的一一致性数据组织织面向分析析

10、决策19数据仓库库的功能能性定义义数据仓库库是一种种信息环境境,它能够够:提供对企企业综合合、完整整的概括括使决策者者所需要要的当前前数据和和历史数数据都方方便易得得无需妨碍碍操作型型系统,也能使使支持决决策的处处理成为为可能使企业的的信息保保持一致致性提供了一一个灵活活的、交交互的战战略信息息来源20数据仓库库是信息息传递的的一种简简单概念念数据仓库库的来源源在于对决策信信息的需求和和对操作作型计算算环境的的不满数据仓库库不“创造”新的数据据数据仓库库概念简简单使用所有有现存的的数据通过清洗洗、转换换提供有用用的决策策信息21数据仓库库是一种种环境,而不是是产品你不可能能买到数数据仓库库但你

11、可以以构建自自己的数数据仓库库数据仓库库新型计计算环境境的特点点数据分析析和决策策支持的的理想环环境不固定,灵活、交互式式操作100用户驱驱动适合”提问回回答再再提问”的模式22纲要要数据仓库库技术产产生的背背景数据仓库库定义数据仓库库的组成成部件商务智能能231数据仓库库定义数据仓库库的创始始者Bill Inmon:“A DataWarehouse is asubjectoriented,integrated,nonvolatile, andtime variantcollectionofdata in supportofmanagements decisions.”“数据仓库库是为支支持管

12、理理决策建建立的,面向主主题的,综合的的,稳定定的,随随时间变变化的数数据集合合”24“面向主题题”的数据在操作型型系统中中,各行行业的数数据集合合都是围围绕单独独的应用用程序进进行组织织的在数据仓仓库中数据是按按主题而而不是按按照应用用程序存存储的。数据是跨跨应用程程序的25订单处理理客户贷款款顾客帐单单可接收帐帐款索赔处理理储蓄帐目目销售产品客户帐户索赔政策操作型应应用程序序数据仓库库主题面向主题题的数据据组织主题:宏观分分析领域域所涉及及的分析析对象面向主题题的数据组组织方式式:在较较高的层层次上对对分析对对象的数数据的一一个完整整、一致致的描述述。采用面向事务务进行数据据组织,其特点点

13、为:充分考虑虑企业的的部门组组织结构构和业务务活动反映企业业内部数数据流动动情况,业务处处理的数数据流程程与业务处处理流程程中的单单据、票票证、文文档有良良好的对对应数据与应应用(数数据的处处理)有有一定的的对应例:保险险公司:面向应用用(操作作):财财产险、寿险、健康险险、意外外险面向主题题:客户户、保单单、保费费、理赔赔(赔款款)。26“综合”的数据数据仓库库中的数数据来自自不同的的数据库库、文件件、数据据段。(内部或或者外部部,不同同的平台台)数据进入入数据仓仓库前,需要进进行的标标准化工工作:命名规则则编码27储蓄帐户户支票帐户户贷款帐户户主题帐帐户来自应用用程序的的数据数据仓库库主题

14、数据特性性度量单位位数据的“时间特性性”数据仓库库中的每每一个数数据结构构都包含含了时间间要素。数据仓库库中的数数据是和和时间变变化相关关的数据据可以对过过去进行行分析与当前的的信息相相关可以对未未来进行行预测28数据的非易变性性(相对对稳定)操作型系系统的数数据实时时地进行行更新,每次交交易发生生都要更更新;数数据仓库库中的数数据非实时性性更新数据仓库库中的数数据是用用来进行行查询和分分析的不能在数数据仓库库中实时时地删除除数据不能在数数据仓库库中修改改数据29决策支持持系统操作型系系统OLTP数据库数据仓库库读取增增加修修改删删除读取2数据仓库库和数据据集市数据仓库库和数据据集市(Data

15、Mart)是一个混淆淆不清的的概念。是学术术界争论论的话题题Bill Inmon(1998):“今年IT经理面对对的最重重要的问问题就是是到底先先建数据据仓库还还是先建建立数据据集市”,今天依依然如此此。在建立数数据仓库库前,我我们需要要考虑下下列这些些问题:采取自上上而下还还是自下下而上的的方法企业范围围还是部部门范围围先建立数数据仓库库还是数数据集市市数据集市市是否相相互独立立30数据仓库库vs.数据集市市数据仓库数据集市完整的,从企业整体考虑的部门的所有数据集市的集合一个单独的商业处理过程从阶段区域得到的数据星型结构通过展示的方式进行查询适合数据连接和分析技术基于公司数据视角的结构基于适

16、合部门数据视角的结构通过实体关系模式进行组织31纲要数据仓库库技术产产生的背背景数据仓库库定义数据仓库库的组成成部件商务智能能32数据仓库库的组成部分分(Component)33源数据部部分主要类别别生产数据据:多个个系统多多种数据据的标准准化、转转换、整整合内部数据据:表格格、文档档存档数据据:旧的的历史的的数据外部数据据:社会会的企业业,社会会的人34数据准备备部分ETL(ETCL )数据抽取取(Extract):多源、异异构数据据的抽取取数据转换换(Transform):清洗( Clean)、标准化化等过程程数据装载载(Load)35数据存储储部分数据仓库库的数据据存储器器是一个个独立的

17、的部分与操作型型的数据据库分开开存储大多数数数据仓库库都采用用关系数数据库管管理系统统36信息传递递部分多种信息息传递方方式特别的报报表复杂的查查询多维分析析统计分析析主管信息息系统的的需求数据挖掘掘37元数据MetaData描述数据据的数据据数据仓库库内容的的一本字字典元数据是是数据仓仓库数据据本身信信息的数数据元数据对对于数据据仓库极极其重要要38纲要数据仓库库技术产产生的背背景数据仓库库定义数据仓库库的组成成部件商务智能能392007年三大并并购案商务智能能开始发发力,渐渐入佳景景Oracle33亿美金收收购HyperionSAP48亿欧元收收购BusinessObjectIBM50亿美

18、金收收购Cognos2006年IDC商务智能能领域10强BO8.94亿美元SAS6.79亿美元微软、Hyperion、Oracle、SAP40厦门大学学软件学学院41国内BI状况厦门大学学软件学学院42Gartner 2013年:中国国BI市场份额额11.75亿美元商务智能能BusinessIntelligenceBI概念提出出:Gartner Group(1996年)BI通常被理理解为将将企业中中现有的的数据转化为知识,帮助企企业做出出明智的的业务经经营决策的工具。数据包括来自自企业业业务系统统的订单单、库存存、交易易账目、客户和和供应商商等来自自企业所所处行业业和竞争争对手的的数据以以及来自自企业所所处的其其他外部部环境中中的各种种数据。商业智能能能够辅助助的业务务经营决决策,既既可以是是操作层层的,也也可以是是战术层层和战略略层的决决策。43为了将数数据转化化为知识识,需要要利用数数据仓库库、联机机分析处处理(OLA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论