第四讲 数据仓库_第1页
第四讲 数据仓库_第2页
第四讲 数据仓库_第3页
第四讲 数据仓库_第4页
第四讲 数据仓库_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲数据仓库数据库与数据仓库数据不一致可频繁删除数据存放短期数据(3个月内)存在数据冗余数据仓库概述数据仓库与CRM有着难以割舍的密切关系,客户关系管理的很多工作都是以数据仓库为基础展开的。利用数据仓库,企业可以对客户行为进行分析和预测,从而制定准确的市场策略、发现重点客户和评价市场性能。对于客户量大、市场策略对企业影响较大的企业来说,必须在客户关系管理系统中包含数据仓库。数据仓库的产生早期的数据库主要支持联机事务处理传统数据库不能满足决策支持对数据库的要求(1)事务处理和分析处理的性能特性不同(2)数据集成问题(3)历史数据问题(1)事务处理和分析处理的性能特性不同所有联机事务处理强调的是数据更新处理性能和系统的可靠性。在事务处理环境中,用户的行为特点是数据的存取操作频率高,每次操作处理的时间短。在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。在传统数据库系统基础上的决策支持(DSS)应用程序可能需要连续几个小时,从而消耗大量的系统资源。联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。(2)数据集成问题DSS需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。(3)历史数据问题事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,且不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。DSS对数据在空间和时间上都有了更高的要求,而事务处理环境难以满足这些要求。要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库的数据从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到。它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。数据仓库的概念和特征著名的数据仓库专家在其著作《BuildingtheDataWarehouse》一书中给予如下描述:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。数据仓库概念的两个层次功能上:数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;内容和特征上:数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库特点点-面向主题数据仓库是面面向主题而进进行数据组织织的。主题是是一个在较高高层次上对数数据的抽象,在逻辑意义上上,它是对企业中中某一宏观领领域所涉及的的分析对象,,即将数据组织成成主题域。数据仓库特点点-集成数据仓库中的的数据是集成成的。数据仓仓库中的数据据是在对原有有分散的数据据库数据抽取取、清理的基基础上经过系系统加工、汇汇总和整理得得到的,必须须消除源数据中中的不一致性性,以保证数据据仓库内的信信息是关于整整个企业的一一致的全局信信息。在数据据仓库建设中中,这是最关关键最复杂的的一个步骤,,主要工作有有:一是,进进行数据的综综合和计算;;二是,统一一源数据中所所有不一致和和矛盾的地方方(如同名异义、、异名同义、、字长不一致致、单位不一一致等)。数据仓库四个个特点-相对稳定操作型数据库库中的数据通通常实时更新新,数据根据据需要及时发发生变化。数数据仓库的数数据主要供企企业决策分析析之用,所涉涉及的数据操操作主要是数数据查询,一一旦某个数据据进入数据仓仓库以后,一一般情况下将将被长期保留留,也就是数数据仓库中一一般有大量的查询询操作,但修改和删除操操作很少,通常只需要要定期的加载、、刷新。数据仓库四个个特点-相对稳定的数据仓库四个个特点-反映历史变化化数据仓库中的的数据通常包包含历史信息息,系统记录录了企业从过过去某一时点点(如开始应用数数据仓库的时时点)到目前的各个个阶段的信息息,通过这些些信息,可以以对企业的发发展历程和未未来趋势做出出定量分析和和预测。数据据仓库中的数数据时间期限限要远远长于于操作型系统统中的数据时时间期限。操操作型系统的的时间期限一一般是60~90天,而数据仓库库中数据的时时间期限通常常是5~10年。数据仓库四个个特点-反映历史变化化数据仓库本质质如果说传统数数据库系统的的要求是快速速、准确、安安全、可靠地地将数据存进进数据库中的的话,那么数数据仓库的要要求就是能够够准确、安全全、可靠地从从数据库中取取出数据,经经过加工转换换成有规律信信息之后,再再供管理人员员进行分析使使用。数据仓库所要要研究和解决决的问题就是是从数据库中中获取信息。。数据仓库系统统体系结构数据源数据源是数据据仓库系统的的基础,是整整个系统的数数据源泉。通通常包括企业业内部信息和和外部信息。。内部信息包包括各种业务务处理数据和和各类文档数数据。外部信信息包括各类类法律法规、、市场信息和和竞争对手的的信息等等。。数据的存储与与管理数据的存储与与管理是整个个数据仓库系系统的核心。。针对现有各各业务系统的的数据,进行行抽取、清理理,并有效集集成,按照主主题进行组织织。数据仓库库按照数据的的覆盖范围可可以分为企业业级数据仓库库和部门级数数据仓库(通通常称为数据据集市)。OLAP服务器OLAP服务器对分析析需要的数据据进行有效集集成,按多维维模型予以组组织,以便进进行多角度、、多层次的分分析,并发现现趋势。前端工具前端工具主要要包括各种报报表工具、查查询工具、数数据分析工具具、数据挖掘掘工具以及各各种基于数据据仓库或数据据集市的应用用开发工具。。联机分析处理理(OLAP)联机分析处理理(OLAP)的概念最早早是由关系数数据库之父于1993年提出的。当当时,Codd认为联机事务务处理(OLTP)已不能满足足终端用户对对数据库查询询分析的需要要,SQL对大量数据库库进行的简单单查询也不能能满足用户分分析的需求。。用户的决策策分析需要对对关系数据库库进行大量计计算才能得到到结果,而查查询的结果并并不能满足决决策者提出的的需求。因此此Codd提出了多维数数据分析的概概念即OLAP。联机分析处理理(OLAP)OLAP是一种软件技技术,它使分分析人员能够够迅速、一致致、交互地从从各个方面观观察信息,以以达到深入理理解数据的目目的,这些信信息是从原始始数据直接转转换过来的,,它们以用户户容易理解的的方式反映企企业的真实情情况。OLAP大部分策略都都是将关系型的或或普通的数据据进行多维数数据存贮,以便于进行行分析,从而而达到联机分分析处理的目目的。这种多多维DB也被看作一个个超立方体,,沿着各个维维方向存贮数数据。OLAP的多维数据概概念维是人们观察察问题的特定定角度,例如如:时间维、、地理维、产产品维。假定某某是个个百货零售商商,有一些因因素会影响他他的销售业务务,如商品、、时间、商店店。这里,商商品、时间和和商店都是维维。各个商店店的集合是一一维,时间的的集合是一维维,商品的集集合是一维。。维就是相同同类数据的集集合,也可以以理解为变量量。而每个商商店、每段时时间、每种商商品都是某一一维的一个成成员。每个销销售事实由一一个特定的商商店、特定的的时间和特定定的商品组成成。OLAP的多维数据概概念数据单元。多多维数据集的的取值称为数数据单元。当在多维数据据集的每个维维都选中一个个维成员以后后,这些维成成员的组合就就惟一确定了了观察变量的的值。OLAP多维数据分析析1.切片和切块(SliceandDice)在多维数据结结构中,按二维进行切切片,按三维进行切切块,可得到所需要要的数据。如如在“城市、、产品、时间间”三维立方方体中进行切切块和切片,可得到各城市市、各产品的的销售情况。。2.钻取取(Drill)钻取取包包含含向向下下钻钻取取(Drill-down)和向向上上钻钻取取(Drill-up)/上卷卷(Roll-up)操作作,,钻钻取取的的深深度度与与维维所所划划分分的的层层次次相相对对应应。。3.旋转转(Rotate)/转轴轴(Pivot)通过过旋旋转转可可以以得得到到不不同同视视角角的的数数据据。。案例例说说明明现有有某某企企业业1995和和1996两两年年,,在在广广州州和和上上海海两两个个城城市市的的各各类类电电器器产产品品的的销销售售数数据据。。该组组数数据据就就是是典典型型的的多多维维数数据据,,其其维维度度分分别别为为时时间间、、城城市市、、产产品品。。OLAP的分分析析方方法法(一一)切切片片、、切切块块OLAP的分分析析方方法法(二二)钻钻取取按时时间间维维向向下下钻钻取取按时时间间维维向向上上钻钻取取60OLAP的分分析析方方法法(三三)旋旋转转如果果需需要要比比较较同同一一个个季季度度中中不不同同年年份份的的部部门门销销售售数数据据,,那那么么应应该该如如何何调调整整上上表表的的数数据据组组织织方方式式??OLAP的的分分析析方方法法(三三)旋旋转转练习习一一已有有2000至至2009年年间间全全国国省省会会城城市市的的中中心心城城区区和和郊郊区区的的平平均均房房价价数数据据,,请请问问该该数数据据应应如如何何用用三三维维数数据据立立方方来来表表示示??如果果想想抽抽取取广广州州地地区区2000至至2009年年中中心心城城区区和和郊郊区区的的平平均均房房价价数数据据应应如如何何对对数数据据立立方方进进行行切切片片??如果果想想抽抽取取2005年年全全国国省省会会城城市市的的中中心心城城区区和和郊郊区区的的平平均均房房价价数数据据应应如如何何对对数数据据立立方方进进行行切切片片??年份份城市市地段段000905广州州南京京………中心心城城区区郊区区………………广州州05练习习二二已知知南南京京广广州州武武汉汉三三个个省省会会城城市市的的2008年年平平均均房房价价和和季季度度平平均均房房价价,,请请画画出出数数据据钻钻取取的的表表格格。。2008年平均房价南京广州武汉2008年平均房价第一季度第二季度第三季度第四季度南京广州武汉练习习三三已知知南南京京广广州州武武汉汉三三个个省省会会城城市市2008年和和2009年每每个个季季度度的的平平均均房房价价。。如果果要要比比较较同同一一年年不不同同季季度度的的房房价价,,那那么么应应该该如如何何列列出出数数据据??如果果要要比比较较不不同同年年同同一一季季度度的的房房价价,,那那么么应应该该如如何何列列出出数数据据??2008年2009年第一季度第二季度第三季度第四季度第一季度第二季度第三季度第四季度广州南京武汉第一季度第二季度第三季度第四季度20082009200820092008200920082009广州南京武汉课堂堂练练习习已有有2005至

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论