




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 2 章 数据仓库第2章 数据据仓库主要内容容数据仓库库基本概概念数据仓库库体系结结构数据仓库库元数据据数据仓库库的数据据模式多维分析析高性能物物理数据据仓库设设计第2章 数据仓库主要内容容数据仓库库基本概概念数据仓库库体系结结构数据仓库库元数据据数据仓库库的数据据模式多维分析析高性能物物理数据据仓库设设计第2章 数据仓库数据仓库库基本概概念随着数据据库技术术的应用用普及和和发展,人们不不再仅仅仅满足于于一般的业业务处理理,而对对系统提提出了更更高的要要求:提提供决策策支持(DSS、OLAP)应用背景景及需求求需求一种面向向分析的的环境;一种把相相关的各各种数据据转换成成有商业业价值的的信息
2、的的技术。第2章 数据仓库数据仓库库基本概概念从数据库库到数据据仓库数据库系系统能够够很好的的用于事事务处理理,但它它对分析析处理的的支持一直不不能令人人满意。特别是是当以业业务处理理为主的的联机事事务处理理(OLTP) 应用用和以分分析处理理为主的的DSS应用共存存于一个个数据库库系统时,就就会产生生许多问问题。例如,事事务处理理应用一一般需要要的是当当前数据据,主要要考虑较较短的响应时时间;而而分析处处理应用用需要是是历史的的、综合合的、集集成的数数据,它的的分析处处理过程程可能持持续几个个小时,从而消消耗大量量的系统统资源。人们逐渐渐认识到到直接用用事务处处理环境境来支持持DSS是行不通
3、通的。要提高分分析和决决策的有有效性,分析型型处理及及其数据据必须与与操作型型处理及其其数据分分离。必必须把分分析型数数据从事事务处理理环境中中提取出出来,按照照DSS处理的需需要进行行重新组组织,建建立单独独的分析析处理环环境。数据仓库库技术正正是为了了构建这这种新的的分析处处理环境境而出现现的一种数据据存储和和组织技技术。第2章 数据仓库数据仓库库基本概概念主要通过过以下五五点区分分开来。用户和系系统的面面向性OLTP是面向顾顾客的,用于事务务和查询询处理; OLAP是面向市市场的,用于数据据分析数据内容容OLTP系统管理理当前数数据; OLAP系统管理理大量历历史数据据,提供汇总总和聚集
4、集机制.数据库设设计OLTP采用实体体-联系ER模型和面面向应用用的数据据库设计计;OLAP采用星型型或雪花花模型和和面向主主题的数数据库设设计.视图OLTP主要关注注一个企企业或部部门内部部的当前前数据,不涉及历历史数据据或不同同组织的的数据; OLAP则相反.访问模式式OLTP系统的访访问主要要由短的的原子事事务组成成.这种系统统需要并并行和恢恢复机制制;OLAP系统的访访问大部部分是只只读操作作OLTP(on-line transaction processing)与OLAP(On-Line AnalyticalProcessing)区别第2章 数据仓库操作型数据分析型数据细节的综合的,
5、或提炼的在存取瞬间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期对性能要求高对性能要求宽松一个时刻操作一个单元一个时刻操作一个集合事物驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求第2章 数据仓库数据仓库库基本概概念数据仓库库与决策策支持系系统用户在进进行决策策制定时时需要得得到企业业各方面面的信息息,因此此用户一般首首先根据据各个业业务部门门数据库库中的数数据,创创建数据据仓库,存储各种种历史信信息和汇汇总信息息。对数据仓仓库的进进一步应应用由功功能强大大的分析析工具来来实现。现在主要有有三类
6、分分析工具具可用于于决策支支持。第一类能能够支持持涉及分分组和聚聚集查询询,并能能够对各各种复杂杂的布尔条件件、统计计函数和和时间序序列分析析提供支支持的系系统。主主要由上上述查询组组成的应应用称为为联机分分析处理理,即OLAP。在支持持OLAP查询的系统统中,数数据最好好看成是是一个多多维数组组第2章 数据仓库数据仓库库基本概概念数据仓库库与决策策支持系系统第二类系系统仍为为支持传传统SQL查询的DBMS,但为了了有效地地执行OLAP查询而进进行了特特殊的设设计。这这些系统统可以看看作是为为决策支持应应用进行行了优化化的关系系数据库库系统。许多关关系数据据库厂商商对他们的的产品进进行了扩扩展
7、,并并且随着着时间的的推移,专门的的OLAP系统和支支持决策策支持的的关系数数据库系系统之间间的差别别将逐渐渐取消第2章 数据仓库数据仓库库基本概概念第三类的的分析工工具可用用于在大大量的数数据集合合中,找找到有意意义的数据趋趋势或者者模式,而不是是上面提提到的复复杂数据据查询。在数据据分析过程程中,尽尽管分析析者能够够判定得得到的数数据模式式是否有有意义,但是生成成查询来来得到有有意义的的模式还还是很困困难的。例如,分析者者查看信用用卡使用用记录,希望从从中找出出不正常常的信用用卡使用用行为,以表明是是被滥用用的丢失失的信用用卡;商商人希望望通过查查看客户户记录找找出潜在的的客户来来提高收收
8、益。许许多应用用涉及的的数据量量很大,很难用用人工分析析或者传传统的统统计分析析方法进进行分析析,数据据挖掘的的目的就就是对这种种大量数数据的分分析提供供支持。数据仓库库与决策策支持系系统第2章 数据仓库数据仓库库基本概概念数据仓库库定义及及特征数据仓库库理论的的创始人人W.H.Inmon在其Buildingthe DataWarehouse一书中,给出了了数据仓仓库的四四个基本特征征:面向主题题,数据是集集成的,数据是不不可更新新的,数据是随随时间不不断变化化的第2章 数据仓库数据仓库库基本概概念数据仓库库定义及及特征面向主题题主题是在在较高层层次上对对数据抽抽象;面向主题题的数据据组织分分
9、为两步步骤:-抽取主题题;-确定每个个主题所所包含的的数据内内容每个主题题在数据据仓库中中都是由由一组关关系表实实现的数据仓库库基本概概念数据仓库库定义及及特征面向主题题第2章 数据仓库数据库数据库面向应用用面向主题题汽车人寿健康意外伤害害主题-顾客主题-保单主题-索赔主题-保费第2章 数据仓库数据仓库库基本概概念数据仓库库定义及及特征集成的数据仓库库的数据据是从原原有的分分散数据据库数据据中抽取取来的需要消除除数据表表述的不不一致性性(数据据的清洗洗)数据的综综合第2章 数据仓库数据仓库库基本概概念数据仓库库定义及及特征集成的数据库环环境数据仓库库环境应用A1,0应用B男,女应用CY,N集成
10、映射编码多维数据据库男,女应用ACM应用BInches应用CCM映射转换多维数据据库CM第2章 数据仓库数据仓库库基本概概念数据仓库库的主要要数据操操作是查查询、分分析;不进行一一般意义义上的数数据更新新(过期期数据可可能被删删除)数据仓库库强化查查询、淡淡化并发发控制和和完整性性保护等等技术数据仓库库定义及及特征不可更新新的第2章 数据仓库数据仓库库基本概概念数据仓库库定义及及特征不可更新新的Insert、Update、DeleteSelect数据库环环境数据的逐逐个记录录方式处处理数据仓库库环境数据的批批量载加加载,存存取ETL访问第2章 数据仓库数据仓库库基本概概念不断增加加新的数数据内
11、容容;不断删除除旧的数数据内容容;定时综合合;数据仓库库中数据据表的键键码都包包含时间间项,以以标明数数据的历历史时期期数据仓库库定义及及特征随时间变变化的第2章 数据仓库数据仓库库基本概概念数据仓库库定义及及特征随时间变变化的数据库环环境数据仓库库环境时间期限限:当前前到30-60天记录更新新包含或者者不包含含时间概概念时间期限限:年数据的复复杂快照照包含时间间概念第2章 数据仓库主要内容容数据仓库库基本概概念数据仓库库体系结结构数据仓库库元数据据数据仓库库的数据据模式多维分析析高性能物物理数据据仓库设设计第2章 数据仓库数据仓库库体系结结构用户可视化工工具集多维分析析工具数据挖掘掘工具多维
12、数据据数据仓库库源数据源数据源数据源数据源数据数据来源源数据仓库库层数据仓库库工具层数据仓库库层次结结构第2章 数据仓库RDBMS数据文件件其他综合数据据当前数据据历史数据据元数据抽取、转转换、装装载数据仓库库OLAP工具DM工具查询工具具分析工具具数据源数据仓库库体系结结构第2章 数据仓库数据仓库库体系结结构数据仓库库体系结结构实例例-税务数据据仓库增量抽取取完全抽取取计算算映射射清洗洗业务要求求数据要求求抽取取转换换加载载数据仓库库数据加载载异常情况况处理及及回退机机制作业控制制管理第2章 数据仓库数据仓库库体系结结构数据仓库库体系结结构实例例-税务数据据仓库-ETL第2章 数据仓库OLT
13、P系统RDBMSSybaseORACLESAP/ERP5-10 年过去详细数据据当前详细数据据轻度汇总数据据高度汇总数据据数据集市市分析型CRM业务指标标分析数据仓库库数据仓库库/决策分析析系统EXCEL数据仓库库数据的的组织数据仓库库体系结结构第2章 数据仓库数据由操操作型环环境(综综合)导导入数据据仓库数据具有有不同的的细节早期细节节级(过过期数据据)当前细节节级轻度综合合数据级级(数据据集市)高度综合合数据级级数据仓库库数据的的组织数据仓库库体系结结构第2章 数据仓库数据仓库库体系结结构采购子系系统:订单(订订单号,供应商商号,商商品号,类别,单价。数量,总金额额,日期期,)供应商(供应
14、商商号,供供应商名名,地址址,电话话,)销售子系系统:客户(客客户号,姓名,地址,电话,)销售(客客户号,商品号号,数量量,单价价,日期期,)库存子系系统:进库单(编号,商品号号,数量量,单价价,日期期,)出库单(编号,商品号号,数量量,单价价,日期期,)库存(商商品号, 库房房号,类类别,单单价,库库存数量量,总金额,日期,)数据库系系统模式式(操作作型数据据)第2章 数据仓库数据仓库库体系结结构商品固有有信息:商品号号,类别别,单价价,颜色色,商品采购购信息:商品号号,类别别,供应应商号,供应日日期,单单价,数数量,商品销售售信息:商品号号,客户户号,数数量,单单价,销销售日期期,商品库存
15、存信息:商品号号,库库房号,库存数数量,日日期,)采购子系系统销售子系系统库存子系系统面向主题题的数据据仓库数数据模式式第2章 数据仓库数据仓库库体系结结构1996-2002年销售明细细表20032009年销售明细细表20032009年每月销售售表20032009年每季度销销售表数据仓库库中的数数据组织织数据仓库库中的数数据分为为四个级级别:早早期细节节级,当当前细节节级,轻轻度综合合级,高高度综合合级。第2章 数据仓库数据仓库库体系结结构DW中还有一一类重要要的数据据:元数数据(metedata)。元数据是是“关于于数据的的数据”(RDBMS中的数据据字典就就是一种种元数据据)。数据仓库库中
16、的元元数据描描述了数数据的结结构、内内容、索索引、码码、数据据转换规规则、粒粒度定义义等关于元数数据在数据仓仓库系统统中,元元数据可可以帮助助数据仓仓库管理理员和数据仓库库的开发发人员非非常方便便地找到到他们所所关心的的数据。在数据仓库库系统中中,元数数据机制制主要支支持以下下五类系系统治理理功能:1描述哪些些数据在在数据仓仓库中;2定义要进进入数据据仓库中中的数据据和从数数据仓库库中产生生的数据据;3记录根据据业务事事件发生生而随之之进行的的数据抽抽取工作作时间安安排;4记录并检检测系统统数据一一致性的的要求和和执行情情况;5衡量数据据质量。第2章 数据仓库数据仓库库体系结结构元数据作作用及
17、功功能第2章 数据仓库数据仓库库体系结结构粒度是指数据据仓库的的数据单单位中保保存数据据的细化化或综合合程度的的级别粒度级越越小,细细节程度度越高,综合程程度越低低,回答答查询的的种类越越多粒度影响响数据仓仓库中数数据量的的大小粒度问题题是设计计数据仓仓库的一一个重要要方面双重粒度度在数据仓仓库的细细节级上上创建两两种粒度度短期储存存的低粒粒度(真真实档案案),满满足细节节查询具有综合合的高粒粒度(轻轻度综合合),做做分析数据仓库库的数据据组织第2章 数据仓库数据仓库库体系结结构第2章 数据仓库分割是指把数数据分散散到各自自的物理理单元中中去,以以便能分分别独立立处理,提高数数据处理理效率。是
18、粒度度之后的的第二个个主要设设计问题题两个层次次的分割割系统层:DBMS,一种定定义应用层:开发者者,多种种定义多种分割割的标准准日期:最最常用的的地理位置置组织单位位.第2章 数据仓库数据仓库库体系结结构数据仓库库的数据据组织第2章 数据仓库数据仓库库体系结结构主要内容容数据仓库库基本概概念数据仓库库体系结结构数据仓库库元数据据数据仓库库的数据据模式多维分析析高性能物物理数据据仓库设设计第2章 数据仓库数据仓库库元数据据管理元数据对对数据仓仓库功能能的支持持:数据仓库库内容的的描述;定义数据据抽取和和转换;基于商业业事件的的抽取调调度;描述数据据同步需需求;衡量数据据质量指指标元数据对对数据
19、仓仓库功能能的支持持:(一)数据仓库库内容的的描述描述数据据仓库中中的各种种复杂关关系;(1)I/O对象:支支持数据据仓库I/O操作的各各种对象象。例如如,装入到数数据仓库库中的源源系统文文件及可可被用户户访问表表的数据据均为I/O对象。元元数据要要描述该该I/O对象的定定义、类类型、状状态、存存档(刷新)周期以及及引发初初始存档档的事件件。(2)关系:两两个I/O对象之间间的关联联。这种种关联分分为一对对一、一一对多和和多对多多三种类类型。在在实际工工作中,一般只只考虑两两种类型型。即一一对一和和一对多多的关系系,多对对多可以以用多个个一对多多来表示示。(3)关系成员员 描述述每个关关系中I
20、/O对象的具具体角色色(在一对多多中是父父亲还是是儿子)、关系度度(是一对一一还是一一对多)及约束条条件(是必须满满足还是是可选关关系)。第2章 数据仓库数据仓库库元数据据管理(4)关系关键键字描描述两个个I/O对象是如如何建立立关联的的。每个个关系都都是通过过I/O对象的关键字字来建立立的,元数据要要指明建建立每个个关系相相应对象象的关键键字。(5)域分配将将实际际数据元元素与I/O对象的某某个域相相关联。除了常常规的域域特征外外,还要说明每每个域的的所属源源系统及及访问日日期。这这两个特特征对数数据仓库库都是非非常重要要的(6)数据元素素 描述述数据仓仓库中基基本单元元(字段级)的特征。这
21、些特特征包括括定义、类型、长度度、值域域标识等等。数据据元素要要能支持持多媒体体的大二二进制对对象。元数据描描述了数数据仓库库中有什什么数据据及数据据间的关关系,它们是用用户使用用和系统管理数数据仓库库的基础础。基于于这种组组织的元元数据可可以开发发出各种种通用的的用户接接口,用来支持持用户从从数据仓仓库中获获取数据据。用户户可以提提出所需需的表,系统从从中选择表并得得到表之之间的关关系,重重复这个个过程直直到用户户得到他他们希望望的数据据。不仅仅如此,系系统还有有对某一一特殊表表(I/O对象)及域信息息的描述述功能。用这种种形式组组织的元数据据有利于于数据仓仓库的扩扩充,因因此不必必修改已已
22、存在的的软件就就可在数数据仓库库中增加新新表。第2章 数据仓库数据仓库库元数据据管理元数据对对数据仓仓库功能能的支持持(一)数数据仓库库内容的的描述:描述数数据仓库库中的各各种复杂杂关系(二)定定义数据据抽取和和转换第2章 数据仓库数据仓库库元数据据管理元数据对对数据仓仓库功能能的支持持从源系统统数据到到数据仓仓库中目目标数据据的转移移是一项项复杂工工作,其工作量量占整个个数据仓库库开发的的80%。这里主主要涉及及到以下下两个问问题:(1)抽取工作作间的复复杂关系系,一个抽取取要经过过许多步步骤获取:从从外部或或内部源源数据系系统中获获取对决决策支持持系统用用户有用用的数据据。过滤:过过滤掉不
23、不需要的的内容(如上次抽抽取后一一直没有有改变的的数据)。验证:从从DSS用户的角角度验证证数据的的质量。融合:将将本次抽抽取的数数据与数数据仓库库中的数数据进行行融合;综合:对对数据进进行综合合,生成概要要级数据据。装载:把把新数据据装入到到数据仓仓库中。存档:把把新装入入的数据据单独存存为一个个文件,以便减少少更新操操作的数数据量。(2)源数据与与目标数数据之间间的映射射是一种种复杂的的多对多多关系。元数据据要能够够描述这这些限制制所带来的的一系列列问题。这组元元数据要要定义的的内容有有以下几几点:抽取工作作:描述述每个抽抽取工作作,并为为其标识识源系统统。每一一抽取都都应有一一个刷新新类
24、型代代码,一般有四四种刷新新类型,包括全全仓库替替换、全全仓库附附加、更更新替换换、更新新追加。另外对对每一抽取都都要明确确其刷新新周期(两次抽取取之间的的间隔)和初始触触发事件件(系统环境境中激活活第一次抽取的的事件)。抽取工作作步:定定义抽取取工作中中的步骤骤包括说说明每一一步的类类型(如过滤、验证等等)及其作业业控制语言(Job ControlLanguge,TCL),JCL用来初始始化抽取取工作步步。抽取表映映射:为为每个抽抽取工作作步建立立输入文文件/表和输出出文件/表之间的的关联。它应提提供两种类型的的属性以以满足抽抽取工作作的特殊殊处理要要求。一一类是过过程的输输入数据据集合;另
25、一类是是数据处理过过程标识识及其参参数。这这些属性性用来自自动生成成程序代代码以完完成相应应抽取工工作步。抽取域映映射:为为每个抽抽取工作作步建立立输入表表(文件)的域与输输出表(文件)的域之间间的关联联。其定义的的内容与与抽取表表类似,但是处理理的粒度度是表中中的每个个域。(二)定定义数据据抽取和和转换第2章 数据仓库数据仓库库元数据据管理元数据对对数据仓仓库功能能的支持持记录筛选选规则:提供一一种过滤滤机制,以在抽取取工作的的每一步步骤中进进行记录录的筛选选。如下是一一个规则则的例子子:IFRecord.Last_Update_Date1996_11_01 ORRecord.Create_
26、Date 1996_11_01THEN Reserve(保留)ELSEDelete(删除)这组元数数据可以以用来生生成源代代码以完完成数据据的转换换工作,即完成由由操作型型数据转转换生成以以特殊形形式存放放的、面面向主题题的数据据仓库数数据。元元数据中中的抽取取表映射射和抽取域域映射定定义了进进行实际际抽取转转换工作作的过程程。数据据仓库管管理核心心是:利用该组元数数据所定定义的抽抽取过程程生成某某种语言言的源代代码,然后编译译成可执执行的程程序以完成数数据的抽抽取工作作。其核核心也可可直接以以解释的的方式从从元数据据存储中中读出每每个抽取步步的处理理过程,从而进进行数据据转换。(二)定定义数
27、据据抽取和和转换第2章 数据仓库数据仓库库元数据据管理元数据对对数据仓仓库功能能的支持持(三)基基于商业业事件的的抽取调调度第2章 数据仓库数据仓库库元数据据管理元数据对对数据仓仓库功能能的支持持抽取调度度(ExtractSchedule)是指数据据抽取的的时间安安排,即什么时时间进行行从源数数据到数据仓库库的抽取取工作。抽取调调度的合合理与否否对整个个数据仓仓库的有有效正常常运行影影响很大。元元数据必必须对数数据的抽抽取安排排加以说说明。基基于商业业事件抽抽取调度度的元数数据要定义的的内容有有以下几几点:事件:指指在公司司中能够够引发对对数据进进行处理理的各种种情况。其中有有些是周周期性的的
28、,有些是预预先安排排的,而而有些则则是突发发事件。事件依赖赖:事件件之间的的关系及及描述这这些关系系的时间间规律性性和特征征。一般般要指明明主事件和从从事件以以及两者者的时间间间隔和和最大容容忍时间间。事件日志志:刻画画了事件件发生的的时间安安排,即指明事事件的调调度周期期。系统统应允许许用户定义事件件及相应应的调度度。抽取调度度:对一一个事件件响应后后必须完完成的对对数据抽抽取工作作的安排排。抽取取调度把把事件和相应的的抽取工工作联系系起来。抽取日志志:对每每次抽取取工作进进行记录录,并记下相相关的引引发抽取取事件及及抽取调调度。抽抽取日志可以以用来维维护系统统工作,如输入入和输出出工作。时
29、间戳日日志:记记录下各各表被抽抽取的时时间及表表中被更更新的数数据。时时间戳日日志可以以用来与系统数数据进行行比较以以引发抽抽取工作作。第2章 数据仓库数据仓库库元数据据管理元数据对对数据仓仓库功能能的支持持(四)描述数据据同步需需求在一个公公司各部部门间的的数据协协调中,时间是一一个关键键因素。上述的的抽取调调度是针对熟熟悉公司司各部门门之间数数据同步步关系的的用户而而言的。对不熟熟悉的用用户,则则需要进一一步利用用元数据据来帮助助用户理理解数据据及数据据处理的的同步关关系,以以免误用用数据。尤尤其当数数据仓库库中涉及及到复杂杂关系的的数据而而且抽取取调度受受多个事事件制约约时,这种种附加数
30、数据就更更不可缺缺少。时时间的元元数据要要定义的的内容主主要有:同步视图图:为支支持不同同级别用用户而标标识同步步数据的的时间规规则。同同步视图图可定义为一一个特殊殊功能视视图的名名称和描描述以及及该视图图中的一一系列表表,每个个表与有有关的事件件相关联联。事件件及抽取取调度如如前所述述。同步实例例:当实实际事件件发生时时,记录下不不同系统统同步数数据集合合的更新新轨迹。当一个同同步视图图中的数数据都已已满足时时,元数数据管理理机制就就提醒用用户可用用的数据据已经准备备好,系系统在抽抽取调度度后生成成同步实实例。第2章 数据仓库数据仓库库元数据据管理元数据对对数据仓仓库功能能的支持持(五)衡量
31、数据据质量数据仓库库把数据据从源事事务系统统移到数数据仓库库中的目目的是用用于决策策支持。这就对数据据质量提提出了新新的要求求。若忽忽视这个个问题,则意味着着在坏数据上做做决策,其风险可可想而知知。保证证质量的的第一步步是建立立支持商商业目标标的数据据质量期期望标准准,以及达不不到该标标准所需需冒风险险的大小小。下面面是一组组衡量数数据质量量的公共共参数,包括准确性性、完整整性、一一致性、相关性性、时间间性、唯唯一性、有效性性。在评评价体系系确定以后后,问题题往往变变为是否否把有质质量问题题的数据据放进数数据仓库库中。这这一般由由应用本身身决定。对甲用用户有用用的数据据未必对对乙用户户也有用用
32、。因此此元数据据必须提提供一个机机制,即针对特特定应用用并根据据用户确确立的数数据容忍忍程度来来提醒用用户是否否采用该数据据进行决决策。数据质量量的元数数据要定定义的内内容有以以下几点点:目标质量量特征:是针对对DSS应用的某某一数据据域质量量评价的的期望尺尺度,其基本属属性是目目标特征征值。实际质量量特征:是针对对DSS应用的某某一数据据域质量量评价的的实际尺尺度,其基本属属性是实实际特征征值。用户描述述的VV&C:针对DSS应用需求求,从VV&C(验证、有有效、证证实)对数据质质量进行行衡量。用户功能能:周期期地检查查针对某某一应用用的数据据是否满满足VV&C或目标质质量的要求求。另外,这
33、组元数数据也应应从结构构上提供供记录一一级的管管理,用以保证证数据质质量,消除因不不适当使使用数据据所带来来的不一一致。第2章 数据仓库数据仓库库元数据据管理元数据对对数据仓仓库功能能的支持持(五)衡量数据据质量第2章 数据仓库数据仓库库元数据据管理元数据分分类技术元数数据业务元数数据技术元数数据是存存储关于于数据仓仓库系统统技术细细节的数数据,是是用于开发和和治理数数据仓库库使用的的数据。描述和和设计如如何访问问和处理理数据,包包括查询询、汇总总、递交交等。它它主要包包括以下下信息:1数据仓库库结构的的描述,包括仓仓库模式式、视图图、维、层次结结构和导出出数据的的定义,以及数数据集市市的位置
34、置和内容容;2业务系统统、数据据仓库和和数据集集市的体体系结构构和模式式;3汇总用的的算法,包括度度量和维维定义算算法,数数据粒度度、主题题领域、聚集集、汇总总、预定定义的查查询与报报告;4由操作环环境到数数据仓库库环境的的映射,包括源源数据和和它们的的内容、数据据分割、数据提提取、清清理、转转换规则则和数据据刷新规规则、安安全(用户授授权和存存取控制制)。第2章 数据仓库技术元数数据数据仓库库元数据据管理技术元数数据示例例:用户报表表和查询询访问模模式、频频率和执执行时间间;审计控制制和负载载平衡信信息;数据的技技术结构构;提供给DSS的记录系系统;源数据字字段标识识;从操作型型记录系系统到
35、DSS的映射与与转换;编码/引用表转转换;物理和逻逻辑数据据模型;DSS表名、键键和索引引;域值值;DSS表结构和和属性;数据模型型和DSS之间的关关系;操作型系系统的表表结构和和属性;抽取历史史;DSS表访问模模式;DSS归档;工工作相关关性;程序名和和描述;版本维维护;安安全性;清洗规规则等。第2章 数据仓库数据仓库库元数据据管理业务元数数据从业业务角度度描述了了数据仓仓库中的的数据,它提供供了介于使用用者和实实际系统统之间的的语义层层,使得得不懂计计算机技技术的业业务人员也也能够“读懂”数据仓仓库中的的数据。业务元数数据为DSS分析人员员提供了了访问DSS底层的数数据仓库库和数据集市市中
36、信息息的线路路图。第2章 数据仓库业务元数数据数据仓库库元数据据管理业务元数数据主要要包括以以下信息息:使用用者的业业务术语语所表达达的数据据模型、对象名名和属性性名;访访问数据据的原则则和数据据的来源源;系统统所提供供的分析析方法以以及公式式和报表表的信息息;具体体包括以以下信息息:1企业概念念模型:这是业业务元数数据所应应提供的的重要的的信息,它表示示企业数数据模型型的高层层信息、整个企企业的业业务概念念和相互互关系。以这个个企业模模型为基基础,不不懂数据据库技术术和SQL语句的业业务人员员对数据据仓库中中的数据据也能做做到心中中有数。2多维数据据模型:这是企企业概念念模型的的重要组组成部
37、分分,它告告诉业务务分析人人员在数数据集市市当中有有哪些维维、维的的类别、数据立立方体以以及数据据集市中中的聚合合规则。这里的的数据立立方体表表示某主主题领域域业务事事实表和和维表的的多维组组织形式式。3业务概念念模型和和物理数数据之间间的依靠靠:以上上提到的的业务元元数据只只是表示示出了数数据的业业务视图图,这些些业务视视图与实实际的数数据仓库库或数据据库、多多维数据据库中的的表、字字段、维维、层次次等之间间的对应应关系也也应该在在元数据据知识库库中有所所体现。第2章 数据仓库业务元数数据数据仓库库元数据据管理业务数据据示例:业务分析析员了解解的数据据结构(与技术术用户比比较,产产品体系系对
38、于业务用用户的意意义有所所不同);DSS中信息的的常见访访问例程程;主题领域域(例如如产品、客户、销售等等);表名的业业务定义义;属性名和和业务术术语的定定义;数据质量量的统计计信息;DSS字段映射射、转换换和概要要;下钻、上上钻、钻钻过和钻钻透的规规则;域值;数据负责责人;数据位置置;DSS刷新日期期等。第2章 数据仓库业务元数数据数据仓库库元数据据管理元数据源源元数据存存储元数据用用户ETL工具/处理过程程数据建模模工具业务人员员/文档生产系统统应用数据质量量工具其他元数数据源报表和OLAP工具版本控制制/权限管理理数据仓库库元数据据技术元数数据业务元数数据操作元数数据业务用户户管理员开发
39、人员员第2章 数据仓库关于元数数据数据仓库库元数据据管理第2章 数据仓库数据仓库库元数据据管理元数据主主要工具具常见的元数据位置元数据类型常见工具ETL数据转换规则Ardent Datastage程序任务间的相关性Sagent SolutionDSS负载平衡统计及加载统计Informatic PowermartSAS Institute数据谱系(Data Lineage)数据建模工具逻辑和物理数据模型Oracle Designer 2000技术实体和属性定义Platnum Erwin域值Silverrun报表工具用户访问模式Brio报表执行时间CognosBusiness Objects业务实
40、体、属性、标准定义Informatic Advantage数据质量工具数据质量统计i.d Centric审核控制TrilliumVality生产商应用程序逻辑和物理数据模型PeopleSoft数据字典SAPSiebol Systems主要内容容数据仓库库基本概概念数据仓库库体系结结构数据仓库库元数据据数据仓库库的数据据模式多维分析析高性能物物理数据据仓库设设计多维数据据建模以以直观的的方式组组织数据据,并支支持高性性能的数数据访问。每每一个多多维数据据模型由由多个多多维数据据模式表表示,每每一个多多维数据模模式都是是由一个个事实表表和一组组维表组组成的。多维模模型最常常见的是星星形模式式。在星
41、星形模式式中,事事实表居居中,多多个维表表呈辐射射状分布于于其四周周,并与与事实表表连接。 在星星型的基基础上,发展出出雪花模式。数据仓库库的数据据模式第2章 数据仓库数据仓库库的数据据模式第2章 数据仓库星型模式式(StarSchema)事实表(facttable),存放基基本数据据,相关关主题的的数据主主体(BCNF)维(dimension),影响、分析主主体数据据的因素素量(measure),事实表表中的数数据属性性维表(dimension table),表示维维的各种种表维是量的的取值条条件,维维用外键键表示以事实表表为中心心,加上上若干维维表,组组成星型型数据模模式例:产品品-商店-
42、销售额CustSalesLocationSalesProdSalesTimeSalesSalestime idproduct idlocationidcustomeridsalesrevenueunitssoldProductproduct idmakemodelTimetime iddateyearquartermonthweekLocationlocationidregiondistrictstoreCustomercustomeridcategorygroupSalesfactSalesmeasuresTime dimensionAttributes of thetime dimensi
43、on数据仓库库的数据据模式第2章 数据仓库星型模式式位于星形形中心的的实体是是指标实实体,是是用户最最关心的的基本实实体和查询活活动的中中心,为为数据仓仓库的查查询活动动提供定定量数据据。每个个指标实体体代表一一系列相相关事实实,完成成一项指指定的功功能。位位于星形形图星角上上的实体体是维度度实体,其作用用是限制制用户的的查询结结果,将将数据过滤滤使得从从指标实实体查询询返回较较少的行行,从而而缩小访访问范围围。每个维表表有自己己的属性性,维表表和事实实表通过过关键字字相关联联。星形模式式虽然是是一个关关系模型型,但是是它不是是一个规规范化的的模型。在星星形模式式中,维维度表被被故意地地非规范
44、范化了,这是星星形模式式与OLTP系统中的的关系模模式的基基本区别别。使用星形形模式主主要原因因:提高查询询的效率率。采用用星形模模式设计计的数据仓仓库的优优点是由由于数据据的组织织已经过过预处理理,主要要数据都都在庞大的的事实表表中,所以只要要扫描事事实表就就可以进进行查询询,而不不必把多个庞庞大的表表联接起起来,查查询访问问效率较较高。同同时由于于维表一一般都很小小,甚至可以以放在高高速缓存存中,与事实表表作连接接时其速速度较快;便于用户户理解。对于非非计算机机专业的的用户而而言,星星形模式式比较直观,通通过分析析星形模模式,很很容易组组合出各各种查询询。数据仓库库的数据据模式第2章 数据
45、仓库星型模式式数据仓库库的数据据模式第2章 数据仓库雪花模式式(Snowflake Schema)维一般是是由若干干层次组组成把维按其其层次结结构表示示成若干干个表规范化、节省存存储空间间但需多做做连接操操作定单号销售员号号客户号产品号日期标识识地区名称称数量总价定单号定货日期期客户号客户名称称客户地址址销售员号号姓名城市产品号产品名称称单价日期标识识日月年地区名称称省事实表雪花模式式产品号公司代码码公司代码码公司名称称地址雪花模式式(Snowflake Schema)数据仓库库的数据据模式第2章 数据仓库雪花模式式是对星星形模式式维表的的进一步步层次化化,将某某些维表表扩展成事实实表,这这样
46、既可可以应付付不同级级别用户户的查询询,又可可以将源源数据通过过层次间间的联系系向上综综合,最最大限度度地减少少数据存存储量,因而提高高了查询询功能。数据仓库库的数据据模式第2章 数据仓库星模式与与雪花模模式的区区别主要内容容数据仓库库基本概概念数据仓库库体系结结构数据仓库库元数据据数据仓库库的数据据模式多维分析析高性能物物理数据据仓库设设计1.切片和切切块(SliceandDice)在多维数数据结构构中,按二维进进行切片片,按三维进进行切块块,可得到所所需要的的数据。如在“城市、产产品、时时间”三维立方方体中进进行切块块和切片片,可得到各各城市、各产品品的销售售情况。2.钻取(Drill)钻
47、取包含含向下钻钻取(Drill-down)和向上钻钻取(Drill-up)/上卷(Roll-up)操作,钻钻取的的深度与与维所划划分的层层次相对对应。3.旋转(Rotate)/转轴(Pivot)通过旋转转可以得得到不同同视角的的数据。第2章 数据仓库多维分析析第2章 数据仓库多维分析析OLAP的分析方方法(一)切片片(slicing)、切块(dicing)按时间维维向上钻钻取60按时间维维向下钻钻取OLAP的分析方方法(二二)钻取取(drill-down)第2章 数据仓库多维分析析OLAP的分析方方法(三三)旋转转第2章 数据仓库多维分析析第2章 数据仓库多维分析析多维分析析方法总总结切片是在
48、在一部分分维上选选定值后后,关心心数据在在剩余维维上的数数据度量量。钻取是改改变维的的层次,变换分分析的粒粒度;Roll up是在某一一维上将将低层次的的细节数数据概括括到高层层次的汇汇总数据据;Drilldown则相反,它从汇总总数据深深入到细细节数据据进行观观察。旋转式改改变维的的方向,即在表表格中重重新安排排维的位位置(如如行列互互换)。主要内容容数据仓库库基本概概念数据仓库库体系结结构数据仓库库元数据据数据仓库库的数据据模式多维分析析高性能物物理数据据仓库设设计第2章 数据仓库高性能物物理数据据仓库设设计在OLTP环境中,作业(任务)的特征征是具有有高度选选择性的查询。并且此此查询通通常不(应该)包含大大量的复复杂的全全表扫描和连接接操作。与此相相反,数数据仓库库和数据据集市的的查询通通常包含复杂的的连接操操作和扫扫描大量量的数据据,并且且这些查查询往往往包含重复的成成分。例例如,某某个用户户想查看看各销售售区域的的收入。另一个用户可可能希望望查看在在所有区区域中产产品A的销售量量在各区区销售收入中所所占的比比例。某某个查询询都包含含扫描整整个销售售表格以以分组区域数据据,并计计算区域域总量。在这样的的环境中中数据并并行化和和非规格格化是实实行高性性能计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 虾罐头企业县域市场拓展与下沉战略研究报告
- 食品用淀粉酶企业数字化转型与智慧升级战略研究报告
- 麻醉用内服药品批发企业数字化转型与智慧升级战略研究报告
- 篮球运动鞋企业数字化转型与智慧升级战略研究报告
- 硝酸钇铕企业县域市场拓展与下沉战略研究报告
- 大手拉小手共筑安全城
- T-CERDS 8-2024 企业 ESG报告鉴证指南
- 幼儿英文字母学习家长手册
- 幼儿园尊老爱幼活动
- 永辉超市蔬果工作总结
- GB/T 2565-2014煤的可磨性指数测定方法哈德格罗夫法
- GB/T 17574.11-2006半导体器件集成电路第2-11部分:数字集成电路单电源集成电路电可擦可编程只读存储器空白详细规范
- 快手磁力聚星知识考试题库及答案
- 学校卫生监督协管巡查记录
- 《勾股定理在实际生活中的应用》教学反思
- 游泳池给水排水安装工程识图
- 配位键和配位化合物课件
- 政 审 表打印模板
- 成人心肺复苏(双人)课件
- 苏教版数学二年级下册《认识时分》教案(无锡公开课)
- 《民航地面服务与管理》项目六课件
评论
0/150
提交评论