数据仓库概述_第1页
数据仓库概述_第2页
数据仓库概述_第3页
数据仓库概述_第4页
数据仓库概述_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章数据仓库概述

第一页,共四十八页。纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能2第二页,共四十八页。一、数据仓库技术产生的背景决策信息的需求与当前信息状况的不足操作性系统与分析性系统新的数据环境的特点3第三页,共四十八页。现有的数据库系统的侧重点现有的数据库系统,主要用于事务(Transaction)处理 一笔存款(一张存款单) 一笔取款(一张取款单) 一笔转帐(一张转帐单) 一次挂失(一张挂失单)强调多用户并发环境,数据的一致性、完整性4第四页,共四十八页。企业信息化建设现状在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展作出了巨大贡献各类信息系统大多属于面向事务处理的OLTP系统信息系统多年运行,积累了大量的数据数据是一种宝贵的资源,但没有充分发挥作用管理决策层对数据分析基础平台的需求日益强烈5第五页,共四十八页。企业信息化建设提出了更高的要求市场竞争日益激烈—

创造竞争优势 需要及时、准确的做出科学决策 科学决策必须以准确、有效的数据为基础 充分利用现有数据,将它转化为信息

以客户为中心的经营管理模式—

优化客户关系 原有系统往往以产品为中心 原有系统往往以“单据(票证)”的处理为基础 转向“以客户为中心” 强调服务,尤其是个性化服务个性化数据6第六页,共四十八页。现有数据库系统处理“分析型”应用

存在的问题

数据可信性生产率不可能把数据转换成信息数据动态集成问题历史数据问题数据的综合问题:非细节数据,多种程度的综合7第七页,共四十八页。分析处理的需求例1:今年销售量下降的因素时间:销售地区:(销售*顾客)[顾客地址所在的地区,……]商品:(销售*订单细则)[商品类别,……]销售部门:销售*员工*部门[部门名称,……]例2:持卡人今年的交易情况与以往相比,有怎样的变化?交易特点(存款、取款、转帐、消费)是什么?持卡人消费倾向(宾馆、大型商场、超级市场等)是什么?要求:多个子系统中的数据(数据集成)历史数据汇总、综合的数据一致的数据视图8第八页,共四十八页。分析人员典型的信息需求覆盖企业内部信息、合作伙伴信息和市场信息覆盖综合信息和明细信息覆盖当前数据和历史数据高可用性高质量的数据(一致性、完整性)支持各种不同的分析方法数据定义符合业务人员要求

9第九页,共四十八页。分析决策人员的挑战

组织内部

横向共享信息

数据的重构

个人授权

服务和质量管理组织之间

合作伙伴

客户驱动的解决方案

战略联盟

价值链和供应链市场

竞争对手

市场分割

实时的市场行情

全球化10第十页,共四十八页。数据可信性数据没有同一时间基准 例如:一个企业的两个部门向管理者呈送报表

部门A,于星期天傍晚抽取了分析所需的数据,结论为业绩上升10%

部门B,于星期三下午抽取了分析所需的数据,结论为业绩下降15%算法不同部门A使用的是旧帐号部门B使用的是大帐号多次抽取,扩大了上述两个问题用抽取程序从数据库或文件中抽取数据,并存放起来,然后又在此基础上再次进行抽取,从数据进入系统到提供分析往往经过8、9次的抽取。11第十一页,共四十八页。数据可信性外部数据问题一位分析员把《华尔街日报》的数据带进系统另一位将《商业周刊》的数据进入系统数据一旦进入系统,往往已失去“身份”,并且一位分析员也不知道另一位分析员所输入的数据开始时就不是同一个公共的数据源部门A最初来源于文件XYZ部门B最初来源于数据库 ABC12第十二页,共四十八页。生产率

为了生成一个企业报表:获得源数据定位和分析数据:由于同名不同义、同义不同名,很难准确定位和分析,可能造成进一步的混乱把数据加工成报告要写许多程序,每个程序必须客户化(与客户环境有关)程序会涉及公司具有的各种技术由于定位数据困难,检索所要的数据是一件很麻烦的事完成任务需要很长时间定位数据+获得数据+集成报告,完成任务所需时间较长每份报告各自需求不同,因此每份报告所需要的时间都很长。13第十三页,共四十八页。从数据到信息例如:“今年的帐户情况与前五年比较”涉及大量应用:储蓄应用、贷款、即期汇票管理、信托,而这些应用并未集成。没有足够的历史数据:贷款部门,拥有二年的数据银行存折处理,拥有一年的数据即期汇票管理只有60天的数据现金交易处理具有18个月的数据。数据不一致问题:同名不同义、同义不同名,例如M/F,Male/Female外部数据和非结构化数据

14第十四页,共四十八页。两种报表的区别例:就一个银行而言 出纳员需要操作型报表,因为他需要知道当天所有交易,来确定一天结束时的现金余额; 银行行长的长期战略决策(如决定一个地区安装ATM机的数目)就需要了解大量的内部和外部信息,每天的交易报表对他意义不大,他更需要分析型报表15第十五页,共四十八页。2操作型系统vs.信息型系统操作型系统,OLTP下订单处理呼叫装货开发货单收取现金预定座位16信息型系统给我销售量最好的产品名单告诉我出问题的地区告诉我为什么(向下钻取)让我看看其他的数据(横向钻取)显示最大利润当一个地区的销售低于目标值时,提醒我将数据写入数据库从数据库中读取战略信息第十六页,共四十八页。操作型系统vs.信息型系统操作型系统信息型系统数据内容当前值存档的,推导出来的,总结的值数据结构适于事务处理适于复杂查询访问频率高中、低访问连接类型读取、更新、删除读取使用方法可预知的、反复性的特别查询、随机的、启发式的应用响应时间快一般用户大量较少数17第十七页,共四十八页。操作型环境和分析型环境不同的需求,要求将操作型环境和分析型环境相分离在操作型环境中支持分析应用太复杂、太困难操作性环境不支持域(Domain)之间的联系,仅仅支持表之间的连接不同的数据环境要求从数据组织(结构)和操作上进行工作18第十八页,共四十八页。3数据仓库要解决的基本问题

全局范围内统一数据视图数据内容数据的完整性数据的准确性数据的一致性数据组织面向分析决策19第十九页,共四十八页。数据仓库的功能性定义数据仓库是一种信息环境,它能够:提供对企业综合、完整的概括使决策者所需要的当前数据和历史数据都方便易得无需妨碍操作型系统,也能使支持决策的处理成为可能使企业的信息保持一致性提供了一个灵活的、交互的战略信息来源20第二十页,共四十八页。数据仓库是信息传递的一种简单概念数据仓库的来源在于对决策信息的需求和对操作型计算环境的不满数据仓库不“创造”新的数据数据仓库概念简单使用所有现存的数据通过清洗、转换提供有用的决策信息21第二十一页,共四十八页。数据仓库是一种环境,而不是产品你不可能买到数据仓库但你可以构建自己的数据仓库数据仓库新型计算环境的特点数据分析和决策支持的理想环境不固定,灵活、交互式操作100%用户驱动适合”提问-回答-再提问”的模式22第二十二页,共四十八页。纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能23第二十三页,共四十八页。1数据仓库定义数据仓库的创始者BillInmon

:

“ADataWarehouseisasubjectoriented,integrated,nonvolatile,andtimevariantcollectionofdatainsupportofmanagement’sdecisions.”“数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合”24第二十四页,共四十八页。“面向主题”的数据在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的在数据仓库中数据是按主题而不是按照应用程序存储的。数据是跨应用程序的25订单处理客户贷款顾客帐单可接收帐款索赔处理储蓄帐目销售产品客户帐户索赔政策操作型应用程序数据仓库主题第二十五页,共四十八页。面向主题的数据组织

主题:宏观分析领域所涉及的分析对象面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整、一致的描述。采用面向事务进行数据组织,其特点为: 充分考虑企业的部门组织结构和业务活动 反映企业内部数据流动情况,业务处理的数据流程 与业务处理流程中的单据、票证、文档有良好的对应 数据与应用(数据的处理)有一定的对应例:保险公司:面向应用(操作):财产险、寿险、健康险、意外险面向主题:客户、保单、保费、理赔(赔款)。26第二十六页,共四十八页。“综合”的数据数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台)数据进入数据仓库前,需要进行的标准化工作:命名规则编码27储蓄帐户支票帐户贷款帐户主题=帐户来自应用程序的数据数据仓库主题数据特性度量单位第二十七页,共四十八页。数据的“时间特性”数据仓库中的每一个数据结构都包含了时间要素。数据仓库中的数据是和时间变化相关的数据可以对过去进行分析与当前的信息相关可以对未来进行预测28第二十八页,共四十八页。数据的非易变性(相对稳定)操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据非实时性更新数据仓库中的数据是用来进行查询和分析的不能在数据仓库中实时地删除数据不能在数据仓库中修改数据29决策支持系统操作型系统OLTP数据库数据仓库读取增加修改删除读取第二十九页,共四十八页。2数据仓库和数据集市数据仓库和数据集市(DataMart)是一个混淆不清的概念。是学术界争论的话题BillInmon(1998):“今年IT经理面对的最重要的问题就是到底先建数据仓库还是先建立数据集市”,今天依然如此。在建立数据仓库前,我们需要考虑下列这些问题:采取自上而下还是自下而上的方法企业范围还是部门范围先建立数据仓库还是数据集市数据集市是否相互独立30第三十页,共四十八页。数据仓库vs.数据集市数据仓库数据集市完整的,从企业整体考虑的部门的所有数据集市的集合一个单独的商业处理过程从阶段区域得到的数据星型结构通过展示的方式进行查询适合数据连接和分析技术基于公司数据视角的结构基于适合部门数据视角的结构通过实体-关系模式进行组织31第三十一页,共四十八页。纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能32第三十二页,共四十八页。数据仓库的组成部分(Component)33第三十三页,共四十八页。源数据部分主要类别生产数据:多个系统多种数据的标准化、转换、整合内部数据:表格、文档存档数据:旧的历史的数据外部数据:社会的企业,社会的人34第三十四页,共四十八页。数据准备部分ETL(ETCL)数据抽取(Extract):多源、异构数据的抽取数据转换(Transform):清洗(Clean)、标准化等过程数据装载(Load)35第三十五页,共四十八页。数据存储部分数据仓库的数据存储器是一个独立的部分与操作型的数据库分开存储大多数数据仓库都采用关系数据库管理系统36第三十六页,共四十八页。信息传递部分多种信息传递方式特别的报表复杂的查询多维分析统计分析主管信息系统的需求数据挖掘37第三十七页,共四十八页。元数据MetaData描述数据的数据数据仓库内容的一本字典元数据是数据仓库数据本身信息的数据元数据对于数据仓库极其重要38第三十八页,共四十八页。纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能39第三十九页,共四十八页。2007年三大并购案商务智能开始发力,渐入佳景Oracle33亿美金收购HyperionSAP48亿欧元收购BusinessObjectIBM50亿美金收购Cognos2006年IDC商务智能领域10强BO8.94亿美元SAS6.79亿美元微软、Hyperion、Oracle、SAP40第四十页,共四十八页。厦门大学软件学院41第四十一页,共四十八页。国内BI状况厦门大学软件学院42Gartner2013年:中国BI市场份额11.75亿美元第四十二页,共四十八页。

商务智能

BusinessIntelligence

BI概念提出:GartnerGroup(1996年)BI通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。43第四十三页,共四十八页。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。BI的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。

BI是一种解决方案。44第四十四页,共四十八页。BI的关键从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取、转换和装载,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论