版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库(三)数据仓库(三)1数据仓库设计大致有如下几个步骤:2.6数据仓库的设计明确主题概念设计技术准备逻辑设计物理设计数据仓库生成数据仓库的运行与维护数据仓库设计大致有如下几个步骤:2.6数据仓库的设计明确2针对每一个选定的当前实施的主题概念模型设计逻辑模型设计物理模型设计数据仓库生成数据仓库运行与维护2.6数据仓库的设计针对每一个选定的当前实施的主题概念模型设计逻辑模型设计物理模32.6数据仓库的设计确定系统边界要做的决策类型有哪些?决策者感兴趣的是什么问题?这些问题需要什么样的信息?要得到这些信息需要包含哪些数据源?概念模型设计确定系统边界确定主要的主题及其内容OLAP设计2.6数据仓库的设计确定系统边界概念模型设计42.6数据仓库的设计确定主要的主题即明确数据仓库的分析对象,然后对每个主题的内容进行较详细的描述,包括:确定主题及其属性信息描述每个属性的取值情况固定不变的半固定的经常变化的确定主题的公共码键主题间的关系:主题间联系及其属性在确定上述内容后,就可以用传统的实体联系模型(E-R模型)来表示数据仓库的概念数据模型。例如:2.6数据仓库的设计确定主要的主题52.6数据仓库的设计主题名公共码键属性信息商品商品号固有信息:商品号,商品名,类别,颜色等采购信息:商品号,供应商号,供应价,供应日期,供应量等销售信息:商品号,顾客号,售价,销售日期,销售量等库存信息:商品号,库房号,库存量,日期等供应商供应商号固有信息:供应商号,供应商名,地址,电话,供应商类型等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等顾客顾客号固有信息:顾客号,姓名,性别,年龄,文化程度,住址,电话等购物信息:顾客号,商品号,售价,购买日期,购买量等2.6数据仓库的设计主题名公共码键属性信息商品商品号固有62.6数据仓库的设计供应商固有信息供应商供应商品信息日期供应商号顾客固有信息顾客号顾客日期顾客购物信息商品采购信息商品销售信息商品商品号日期商品固有信息商品库存信息商品、顾客和供应商之间的E-R图2.6数据仓库的设计供应商固有信息供应商供应商品信息日期72.6数据仓库的设计逻辑模型设计将E-R图转换成关系数据库的二维表定义数据源和数据抽取规则在逻辑模型的设计过程中,需要考虑以下一些问题:适当的粒度划分合理的数据分割策略定义合适的数据来源等2.6数据仓库的设计逻辑模型设计在逻辑模型的设计过程中,82.6数据仓库的设计逻辑模型设计–粒度划分在设计过程中需要考虑数据仓库中数据粒度的划分原则,即数据单元的详细程度和级别。数据越详细,粒度越小,级别就越低数据综合度越高,粒度越大,级别就越高。一般将数据划分为:详细数据、轻度总结、高度总结三种粒度,或者采用更多级的粒度划分方法。例如:根据时间跨度进行的统计有:天,周,月,季度,年对于不适合进行统计的属性值,可以采样获取数据粒度的划分将直接影响到数据仓库中的数据量以及所适合的查询类型,粒度划分是否适当是影响数据仓库性能的一个重要方面。2.6数据仓库的设计逻辑模型设计–粒度划分在设计过程92.6数据仓库的设计商品固有信息:商品表(商品号,商品名,类型,颜色,…)/*细节数据*/商品采购信息:采购表1(商品号,供应商号,供应日期,供应价,…)/*细节数据*/采购表2(商品号,时间段1,采购总量,…)/*综合数据*/……采购表n(商品号,时间段n,采购总量,…)商品销售信息:销售表1(商品号,顾客号,销售日期,售价,销售量,…)/*细节数据*/销售表2(商品号,时间段1,销售总量,…)/*综合数据*/……销售表n(商品号,时间段n,销售总量,…)商品库存信息:库存表1(商品号,库房号,库存量,日期,…)/*细节数据*/库存表2(商品号,库房号,库存量,星期,…)/*样本数据*/……库存表n(商品号,库房号,库存量,年份,…)其它导出数据:……2.6数据仓库的设计商品固有信息:102.6数据仓库的设计逻辑模型设计–数据分割数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的数据单元进行存储(关系),以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。选择数据分割的因素有:数据量的大小数据分析处理的对象(主题)简单易行的数据分割标准数据粒度的划分策略通常采用‘时间’属性作为数据分割的依据数据分割技术类似于数据库中的数据分片技术,其目的是为了提高数据仓库的性能。2.6数据仓库的设计逻辑模型设计–数据分割数据的分割112.6数据仓库的设计逻辑模型设计–定义数据来源及其抽取规则定义数据仓库中数据的来源,以及数据的抽取规则,例如:主题名属性名数据源系统源表名源属性名商品商品号库存子系统商品商品号商品商品名库存子系统商品商品名商品类别采购子系统商品类别…………………………2.6数据仓库的设计逻辑模型设计–定义数据来源及其抽122.6数据仓库的设计物理模型设计在逻辑模型设计基础上确定数据的存储结构、确定索引策略、确定存储分配及数据存放位置等与物理有关的内容,物理模型设计的具体方法与数据库设计中的大致相似。其目的是为了提高数据仓库系统的访问性能。常用的一些技术有:合并表建立数据序列引入冗余表的物理分割生成导出数据建立广义索引2.6数据仓库的设计物理模型设计132.6数据仓库的设计在常见的一些分析处理操作中,可能需要执行多表连接操作。为了节省I/O开销,可以把这些表中的记录混合存放在一起,以减低表的连接操作的代价。这样的技术我们称为合并表。合并表技术与传统关系数据库中的集簇(Clustering)技术类似。物理模型设计–合并表2.6数据仓库的设计在常见的一些分析处理操作中,可能需要142.6数据仓库的设计按照数据的处理顺序调整数据的物理存放位置,以减少减少系统的磁盘I/O的开销。物理模型设计–建立数据序列17584623page1page2page3page42.6数据仓库的设计按照数据的处理顺序调整数据的物理存放152.6数据仓库的设计物理模型设计–建立数据序列12345678page1page2page3page4调整后的存储组织2.6数据仓库的设计物理模型设计–建立数据序列123162.6数据仓库的设计在面向某个主题的分析过程中,通常需要访问不同表中的多个属性,而每个属性又可能参与多个不同主题的分析过程。因此可以通过修改关系模式把某些属性复制到多个不同的主题表中去,从而减少一次分析过程需要访问的表的数量。采用该种数据组织方法回带来大量的数据冗余存储,数据仓库系统必须保证这些冗余数据的一致性。由于数据仓库中的数据是稳定的,很少执行更新操作,不会因此带来过高的数据更新的代价,却可以有效地提高数据仓库系统的性能。物理模型设计–引入冗余2.6数据仓库的设计在面向某个主题的分析过程中,通常需要172.6数据仓库的设计类似于在逻辑设计阶段的数据分割。可以根据表中每个属性数据的访问频率和稳定性程度对表的存储结构进行分割。对于访问频率较高的属性,可以单独考虑其物理存储组织,以便选择合适的索引策略和特定的物理组织方式。对于需要频繁更新的属性,也可以单独组织其物理存储,以免因数据更新而带来的空间重组、重构等工作。物理模型设计–表的物理分割2.6数据仓库的设计类似于在逻辑设计阶段的数据分割。物理182.6数据仓库的设计在原始的细节数据的基础上进行一些统计和计算,生成导出数据,并保存在数据仓库中。采用该方法既可以避免在分析过程中执行过多的统计或计算操作,减少输入/出的次数,又避免了不同用户进行的重复统计操作可能产生的偏差。物理模型设计–生成导出数据2.6数据仓库的设计在原始的细节数据的基础上进行一些统计192.6数据仓库的设计用于记录数据仓库中数据于‘最’有关的统计结果的索引被称为‘广义索引’。如:当月销售额最高的商店?当月销售情况最差的商品?……这样的广义索引的数据量是非常小的,可以在每次进行数据仓库数据加载工作时生成或刷新这样的广义索引。用户可以从已经建立的广义索引里直接获取这些统计信息,而不必对整个数据仓库进行扫描。物理模型设计–建立广义索引2.6数据仓库的设计用于记录数据仓库中数据于‘最’有关的202.6数据仓库的设计数据仓库生成建立数据模式根据逻辑设计与物理设计的设计结果建立数据仓库的数据模式。编制数据抽取程序根据数据仓库元数据中的定义信息,编制抽取程序,将数据源中的数据作加工以形成数据仓库中的数据。数据加载将数据源中的数据,通过数据抽取程序加载到数据仓库的模式中去。2.6数据仓库的设计数据仓库生成建立数据模式212.6数据仓库的设计在数据仓库建立后,就可以建立分析、决策型的应用系统。在应用系统的使用过程中不断加深理解,改进主题,依照原型法的思想使系统更趋完善。在系统的运行过程中,随着数据源中数据的不断变化,需要通过数据刷新操作来维护数据仓库中数据的一致性。数据仓库的使用与维护2.6数据仓库的设计在数据仓库建立后,就可以建立分析、决222.7联机分析处理(OLAP)联机事务处理:OLTPOn-LineTransactionProcessing联机分析处理:OLAPOn-LineAnalyticalProcessing2.7联机分析处理(OLAP)联机事务处理:OLTP232.7联机分析处理(OLAP)OLAP中的几个基本概念:对象(Object)在分析型处理中我们所关心和分析的对象。例如:商品的销售金额维(Dimension)观察分析对象的角度。例如:可以从三个‘维’角度观察‘销售金额’这个对象:时间维:可按时间角度分析、统计其销售金额。商品维:可按不同商品分类角度分析、统计。地域维:可按连锁点不同地域角度分析、统计其销售金额。2.7联机分析处理(OLAP)OLAP中的几个基本概念:242.7联机分析处理(OLAP)OLAP中的几个基本概念:层(Layer)在分析型应用中,对对象可以从不同深度分析与观察并可得到不同结果,因此,“层”反映了对对象观察的深度。一般而言,层是与维相关联的,一个维中可允许存在若干个层,并且可以又不同的层次划分方法。例如:时间维:可以有日、周、月、季、年地域维:可以有市、省、国、洲商品维:商品的分类2.7联机分析处理(OLAP)OLAP中的几个基本概念:252.7联机分析处理(OLAP)OLAP中的几个基本概念:维成员维的一个取值称为该维的一个维成员。如果一个维是多层次的,则该维的维成员是在不同维层次的取值的组合。例如:对时间维来说,‘某年某月某日’、‘某年某月’、‘某月某日’、‘某年’都是其维成员。对一个数据项来说,维成员是该数据项在某维中位置的描述。2.7联机分析处理(OLAP)OLAP中的几个基本概念:262.7联机分析处理(OLAP)OLAP中的几个基本概念:多维数组一个多维数组可以表示为(维1,维2,……,维n,变量),这样可以构成三维、四维及多维的数据表示结构。其中,变量表示我们所观察的数据对象,维1、维2、……、维n分别表示我们观察该数据对象的角度。如(时间,商品种类,商店,销售额),从而构成一个有关商品销售额的三维数组。(‘2000年’,‘家电’,‘南京市’,‘1亿’)(‘2000年7月’,‘女性服装’,‘江苏省’,‘10亿’)2.7联机分析处理(OLAP)OLAP中的几个基本概念:272.7联机分析处理(OLAP)OLAP中的几个基本概念:数据单元(单元格)多维数组的取值称为数据单元。当多维数组的各个维都选中一个维成员,这些维成员的组合就唯一确定了一个观察对象的值,即(维成员1,维成员2,……,维成员n,对象值)。2.7联机分析处理(OLAP)OLAP中的几个基本概念:282.7联机分析处理(OLAP)假设:在一个分析型应用中有若干个分析对象(设为r个),以它们为聚焦点作不同角度(设为m个)与深度(设为n个)的分析,那么可以得到多种不同的统计分析结果(共为(r*m*n)个)。为了方便快速地查到这些统计分析结果,OLAP需要解决以下三个问题:OLAP的基本数据模型OLAP数据构造方式数据立方体(DataCube)与数据超立方体(DataSuperCube)2.7联机分析处理(OLAP)假设:在一个分析型应用中有若292.7联机分析处理(OLAP)OLAP的基本数据模型–星型模式(StarSchema)星形模式是一种多维表结构,它一般有两种不同性质的二维表组成:事实表(facttable):它存放多维表中的主要事实称为量(Measure)维表(DimensionTable):用以建立多维表中之维成员值一般一个n维的多维表往往有n个维表和一个事实表,它们构成了一个星形结构,称为星形模式。在星形模式中主体是事实表,而有关维的细节则构作于维表内以达到简化事实表的目的,事实表与维表间有公共属性相连以使它们构成一个整体。2.7联机分析处理(OLAP)OLAP的基本数据模型–302.7联机分析处理(OLAP)产品标识符商店标识符日期标识符销售金额产品标识符类别大类别日期标识符日月季年商店标识符市名省名国名洲名销售表产品表商店表日期表星型模式示意图2.7联机分析处理(OLAP)产品标识符商店标识符日期标识312.7联机分析处理(OLAP)上述的星型模式可以转化成下面的四个关系:事实表:销售表(产品标识符,商店标识符,日期标识符,销售额)维表1:产品表(产品标识符,类别,大类别)维表2:商店表(商店标识符,市名,省名,国名,洲名)维表3:时间表(时间标识符,日期,月份,季度,年份)2.7联机分析处理(OLAP)上述的星型模式可以转化成下面322.7联机分析处理(OLAP)OLAP的基本数据模型–雪花模式(SnowflakeSchema)如果每个维表也是一个类似星型的模式结构,则称其为雪花模式。例如:上述的‘产品表’也可以是一个星型结构。产品(类别,供应商,顾客)在上述的星型模式中,我们只考虑产品的分类,在这里我们还可以从产品的供应商或购买顾客角度来来考虑对产品进行分析。也可以以其中的‘供应商’为中心再构成一个星型模式。2.7联机分析处理(OLAP)OLAP的基本数据模型–332.7联机分析处理(OLAP)OLAP数据构造方式ROLAP:(RelationalOLAP)用传统的关系数据库管理系统(RDBMS)管理,将星型(雪花型)模式用二维表形式存储,表间用关键字相连,从而构成一个关系模式,它称为ROLAP。用户在ROLAP上的查询操作将被改写成RDBMS中的查询操作并执行获得查询结果。MOLAP:(Multi-DemensionalOLAP)用‘多维数据库管理系统’管理,多维数据库的基本数据模式是一个多维数组。在MOLAP中,事实表被表示成一个多维数组,维的属性值被映射成多维数组下标,而总结数据则作为多维数据值存储在数据单元中。在查询时,可以通过下标值取出相应数组中的总结数据。2.7联机分析处理(OLAP)OLAP数据构造方式342.7联机分析处理(OLAP)OLAP数据构造方式OLAP服务器必须提高对OLAP数据的访问效率,包括:数据抽取、转换及加载的效率OLAP数据查询效率OLAP数据更新效率2.7联机分析处理(OLAP)OLAP数据构造方式352.7联机分析处理(OLAP)目前可有多种方法以提高OLAP中的处理效率,它们是:尽量采用并行操作方式以提高处理速度。采用物化视图方式。将视图这种虚表形式转换成实际存在的二维表,以达到快速取得总结性数据的目的。采用特殊的索引与集簇方式,以加速星型模式内表的连接速度。采用OLAP中的查询优化技术,如共享排序技术等。采用增量技术,在OLAP数据更新时保留不变的数据,仅更改变动的数据以加快数据更新速度。2.7联机分析处理(OLAP)目前可有多种方法以提高OLA362.7联机分析处理(OLAP)数据立方体(DataCube)数据仓库的数据模式通常可以看成是定义在多个数据源上的数据视图。分析数据的基本内容是一些统计数据,获取这些统计数据的常用方法是在视图中用统计函数进行计算,但这种方法的缺点是显见的:时间开销太大。为了提高对统计信息的查询速度,我们可以预先计算好数据视图中的统计信息并保存在数据仓库中,这称为物化视图,即将虚的视图转变成实际的视图。存放物化视图的三维数据模型叫数据立方体。2.7联机分析处理(OLAP)数据立方体(DataCub372.7联机分析处理(OLAP)以上面的星型模式为例,其事实表共有三维,即产品P(product)、商店S(store)及日期D(Date),可以为它们定义一系列的物化视图。(1)PSD视图CREATEVIEWPSD(产品标识符,商店标识符,日期标识符,销售总额)AS(SELECT产品标识符,商店标识符,日期标识符,SUM(销售金额)FROM销售表GROUPBY产品标识符、商店标识符、日期标识符)(2)PS、SD、PD视图CREATEVIEWPS(产品标识符、商品标识符、销售总额)AS(SELECT产品标识符,商品标识符,SUM(销售金额)FROMPSDGROUPBY产品标识符,商店标识符)采用类似的方法也可以定义出SD、PD视图。2.7联机分析处理(OLAP)以上面的星型模式为例,其事实382.7联机分析处理(OLAP)(3)P、S、D视图CREATEVIEWP(产品标识符、销售总额)AS(SELECT产品标识符,SUM(销售金额)FROMPSGROUPBY产品标识符)采用类似的方法也可以定义出S、D视图。(4)ALL视图ALL视图表示不分组,该视图中的销售总额表示销售表中所有销售金额之和。其定义如下:CREATEVIEWALL(销售总额)AS(SELECTSUM(销售总额)FROMPSD)2.7联机分析处理(OLAP)(3)P、S、D视图392.7联机分析处理(OLAP)日期一季度二季度三季度四季度ALL品VCDTV产PCALLNO1NO2NO3ALL商店数据立方体2.7联机分析处理(OLAP)日期一季度二季度三季度402.7联机分析处理(OLAP)数据超立方体(DataSuperCube)在数据立方体中进行的是一个三维的分析应用。但当应用中分析对象超过三维时,则构成一个多维(或称n维,n≥4)应用,此时无法用数据立方体表示其中的数据,而只能通过虚拟的n(n≥4)维空间建立n维立方体,它称为数据超立方体。2.7联机分析处理(OLAP)数据超立方体(DataSu41数据仓库(三)数据仓库(三)42数据仓库设计大致有如下几个步骤:2.6数据仓库的设计明确主题概念设计技术准备逻辑设计物理设计数据仓库生成数据仓库的运行与维护数据仓库设计大致有如下几个步骤:2.6数据仓库的设计明确43针对每一个选定的当前实施的主题概念模型设计逻辑模型设计物理模型设计数据仓库生成数据仓库运行与维护2.6数据仓库的设计针对每一个选定的当前实施的主题概念模型设计逻辑模型设计物理模442.6数据仓库的设计确定系统边界要做的决策类型有哪些?决策者感兴趣的是什么问题?这些问题需要什么样的信息?要得到这些信息需要包含哪些数据源?概念模型设计确定系统边界确定主要的主题及其内容OLAP设计2.6数据仓库的设计确定系统边界概念模型设计452.6数据仓库的设计确定主要的主题即明确数据仓库的分析对象,然后对每个主题的内容进行较详细的描述,包括:确定主题及其属性信息描述每个属性的取值情况固定不变的半固定的经常变化的确定主题的公共码键主题间的关系:主题间联系及其属性在确定上述内容后,就可以用传统的实体联系模型(E-R模型)来表示数据仓库的概念数据模型。例如:2.6数据仓库的设计确定主要的主题462.6数据仓库的设计主题名公共码键属性信息商品商品号固有信息:商品号,商品名,类别,颜色等采购信息:商品号,供应商号,供应价,供应日期,供应量等销售信息:商品号,顾客号,售价,销售日期,销售量等库存信息:商品号,库房号,库存量,日期等供应商供应商号固有信息:供应商号,供应商名,地址,电话,供应商类型等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等顾客顾客号固有信息:顾客号,姓名,性别,年龄,文化程度,住址,电话等购物信息:顾客号,商品号,售价,购买日期,购买量等2.6数据仓库的设计主题名公共码键属性信息商品商品号固有472.6数据仓库的设计供应商固有信息供应商供应商品信息日期供应商号顾客固有信息顾客号顾客日期顾客购物信息商品采购信息商品销售信息商品商品号日期商品固有信息商品库存信息商品、顾客和供应商之间的E-R图2.6数据仓库的设计供应商固有信息供应商供应商品信息日期482.6数据仓库的设计逻辑模型设计将E-R图转换成关系数据库的二维表定义数据源和数据抽取规则在逻辑模型的设计过程中,需要考虑以下一些问题:适当的粒度划分合理的数据分割策略定义合适的数据来源等2.6数据仓库的设计逻辑模型设计在逻辑模型的设计过程中,492.6数据仓库的设计逻辑模型设计–粒度划分在设计过程中需要考虑数据仓库中数据粒度的划分原则,即数据单元的详细程度和级别。数据越详细,粒度越小,级别就越低数据综合度越高,粒度越大,级别就越高。一般将数据划分为:详细数据、轻度总结、高度总结三种粒度,或者采用更多级的粒度划分方法。例如:根据时间跨度进行的统计有:天,周,月,季度,年对于不适合进行统计的属性值,可以采样获取数据粒度的划分将直接影响到数据仓库中的数据量以及所适合的查询类型,粒度划分是否适当是影响数据仓库性能的一个重要方面。2.6数据仓库的设计逻辑模型设计–粒度划分在设计过程502.6数据仓库的设计商品固有信息:商品表(商品号,商品名,类型,颜色,…)/*细节数据*/商品采购信息:采购表1(商品号,供应商号,供应日期,供应价,…)/*细节数据*/采购表2(商品号,时间段1,采购总量,…)/*综合数据*/……采购表n(商品号,时间段n,采购总量,…)商品销售信息:销售表1(商品号,顾客号,销售日期,售价,销售量,…)/*细节数据*/销售表2(商品号,时间段1,销售总量,…)/*综合数据*/……销售表n(商品号,时间段n,销售总量,…)商品库存信息:库存表1(商品号,库房号,库存量,日期,…)/*细节数据*/库存表2(商品号,库房号,库存量,星期,…)/*样本数据*/……库存表n(商品号,库房号,库存量,年份,…)其它导出数据:……2.6数据仓库的设计商品固有信息:512.6数据仓库的设计逻辑模型设计–数据分割数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的数据单元进行存储(关系),以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。选择数据分割的因素有:数据量的大小数据分析处理的对象(主题)简单易行的数据分割标准数据粒度的划分策略通常采用‘时间’属性作为数据分割的依据数据分割技术类似于数据库中的数据分片技术,其目的是为了提高数据仓库的性能。2.6数据仓库的设计逻辑模型设计–数据分割数据的分割522.6数据仓库的设计逻辑模型设计–定义数据来源及其抽取规则定义数据仓库中数据的来源,以及数据的抽取规则,例如:主题名属性名数据源系统源表名源属性名商品商品号库存子系统商品商品号商品商品名库存子系统商品商品名商品类别采购子系统商品类别…………………………2.6数据仓库的设计逻辑模型设计–定义数据来源及其抽532.6数据仓库的设计物理模型设计在逻辑模型设计基础上确定数据的存储结构、确定索引策略、确定存储分配及数据存放位置等与物理有关的内容,物理模型设计的具体方法与数据库设计中的大致相似。其目的是为了提高数据仓库系统的访问性能。常用的一些技术有:合并表建立数据序列引入冗余表的物理分割生成导出数据建立广义索引2.6数据仓库的设计物理模型设计542.6数据仓库的设计在常见的一些分析处理操作中,可能需要执行多表连接操作。为了节省I/O开销,可以把这些表中的记录混合存放在一起,以减低表的连接操作的代价。这样的技术我们称为合并表。合并表技术与传统关系数据库中的集簇(Clustering)技术类似。物理模型设计–合并表2.6数据仓库的设计在常见的一些分析处理操作中,可能需要552.6数据仓库的设计按照数据的处理顺序调整数据的物理存放位置,以减少减少系统的磁盘I/O的开销。物理模型设计–建立数据序列17584623page1page2page3page42.6数据仓库的设计按照数据的处理顺序调整数据的物理存放562.6数据仓库的设计物理模型设计–建立数据序列12345678page1page2page3page4调整后的存储组织2.6数据仓库的设计物理模型设计–建立数据序列123572.6数据仓库的设计在面向某个主题的分析过程中,通常需要访问不同表中的多个属性,而每个属性又可能参与多个不同主题的分析过程。因此可以通过修改关系模式把某些属性复制到多个不同的主题表中去,从而减少一次分析过程需要访问的表的数量。采用该种数据组织方法回带来大量的数据冗余存储,数据仓库系统必须保证这些冗余数据的一致性。由于数据仓库中的数据是稳定的,很少执行更新操作,不会因此带来过高的数据更新的代价,却可以有效地提高数据仓库系统的性能。物理模型设计–引入冗余2.6数据仓库的设计在面向某个主题的分析过程中,通常需要582.6数据仓库的设计类似于在逻辑设计阶段的数据分割。可以根据表中每个属性数据的访问频率和稳定性程度对表的存储结构进行分割。对于访问频率较高的属性,可以单独考虑其物理存储组织,以便选择合适的索引策略和特定的物理组织方式。对于需要频繁更新的属性,也可以单独组织其物理存储,以免因数据更新而带来的空间重组、重构等工作。物理模型设计–表的物理分割2.6数据仓库的设计类似于在逻辑设计阶段的数据分割。物理592.6数据仓库的设计在原始的细节数据的基础上进行一些统计和计算,生成导出数据,并保存在数据仓库中。采用该方法既可以避免在分析过程中执行过多的统计或计算操作,减少输入/出的次数,又避免了不同用户进行的重复统计操作可能产生的偏差。物理模型设计–生成导出数据2.6数据仓库的设计在原始的细节数据的基础上进行一些统计602.6数据仓库的设计用于记录数据仓库中数据于‘最’有关的统计结果的索引被称为‘广义索引’。如:当月销售额最高的商店?当月销售情况最差的商品?……这样的广义索引的数据量是非常小的,可以在每次进行数据仓库数据加载工作时生成或刷新这样的广义索引。用户可以从已经建立的广义索引里直接获取这些统计信息,而不必对整个数据仓库进行扫描。物理模型设计–建立广义索引2.6数据仓库的设计用于记录数据仓库中数据于‘最’有关的612.6数据仓库的设计数据仓库生成建立数据模式根据逻辑设计与物理设计的设计结果建立数据仓库的数据模式。编制数据抽取程序根据数据仓库元数据中的定义信息,编制抽取程序,将数据源中的数据作加工以形成数据仓库中的数据。数据加载将数据源中的数据,通过数据抽取程序加载到数据仓库的模式中去。2.6数据仓库的设计数据仓库生成建立数据模式622.6数据仓库的设计在数据仓库建立后,就可以建立分析、决策型的应用系统。在应用系统的使用过程中不断加深理解,改进主题,依照原型法的思想使系统更趋完善。在系统的运行过程中,随着数据源中数据的不断变化,需要通过数据刷新操作来维护数据仓库中数据的一致性。数据仓库的使用与维护2.6数据仓库的设计在数据仓库建立后,就可以建立分析、决632.7联机分析处理(OLAP)联机事务处理:OLTPOn-LineTransactionProcessing联机分析处理:OLAPOn-LineAnalyticalProcessing2.7联机分析处理(OLAP)联机事务处理:OLTP642.7联机分析处理(OLAP)OLAP中的几个基本概念:对象(Object)在分析型处理中我们所关心和分析的对象。例如:商品的销售金额维(Dimension)观察分析对象的角度。例如:可以从三个‘维’角度观察‘销售金额’这个对象:时间维:可按时间角度分析、统计其销售金额。商品维:可按不同商品分类角度分析、统计。地域维:可按连锁点不同地域角度分析、统计其销售金额。2.7联机分析处理(OLAP)OLAP中的几个基本概念:652.7联机分析处理(OLAP)OLAP中的几个基本概念:层(Layer)在分析型应用中,对对象可以从不同深度分析与观察并可得到不同结果,因此,“层”反映了对对象观察的深度。一般而言,层是与维相关联的,一个维中可允许存在若干个层,并且可以又不同的层次划分方法。例如:时间维:可以有日、周、月、季、年地域维:可以有市、省、国、洲商品维:商品的分类2.7联机分析处理(OLAP)OLAP中的几个基本概念:662.7联机分析处理(OLAP)OLAP中的几个基本概念:维成员维的一个取值称为该维的一个维成员。如果一个维是多层次的,则该维的维成员是在不同维层次的取值的组合。例如:对时间维来说,‘某年某月某日’、‘某年某月’、‘某月某日’、‘某年’都是其维成员。对一个数据项来说,维成员是该数据项在某维中位置的描述。2.7联机分析处理(OLAP)OLAP中的几个基本概念:672.7联机分析处理(OLAP)OLAP中的几个基本概念:多维数组一个多维数组可以表示为(维1,维2,……,维n,变量),这样可以构成三维、四维及多维的数据表示结构。其中,变量表示我们所观察的数据对象,维1、维2、……、维n分别表示我们观察该数据对象的角度。如(时间,商品种类,商店,销售额),从而构成一个有关商品销售额的三维数组。(‘2000年’,‘家电’,‘南京市’,‘1亿’)(‘2000年7月’,‘女性服装’,‘江苏省’,‘10亿’)2.7联机分析处理(OLAP)OLAP中的几个基本概念:682.7联机分析处理(OLAP)OLAP中的几个基本概念:数据单元(单元格)多维数组的取值称为数据单元。当多维数组的各个维都选中一个维成员,这些维成员的组合就唯一确定了一个观察对象的值,即(维成员1,维成员2,……,维成员n,对象值)。2.7联机分析处理(OLAP)OLAP中的几个基本概念:692.7联机分析处理(OLAP)假设:在一个分析型应用中有若干个分析对象(设为r个),以它们为聚焦点作不同角度(设为m个)与深度(设为n个)的分析,那么可以得到多种不同的统计分析结果(共为(r*m*n)个)。为了方便快速地查到这些统计分析结果,OLAP需要解决以下三个问题:OLAP的基本数据模型OLAP数据构造方式数据立方体(DataCube)与数据超立方体(DataSuperCube)2.7联机分析处理(OLAP)假设:在一个分析型应用中有若702.7联机分析处理(OLAP)OLAP的基本数据模型–星型模式(StarSchema)星形模式是一种多维表结构,它一般有两种不同性质的二维表组成:事实表(facttable):它存放多维表中的主要事实称为量(Measure)维表(DimensionTable):用以建立多维表中之维成员值一般一个n维的多维表往往有n个维表和一个事实表,它们构成了一个星形结构,称为星形模式。在星形模式中主体是事实表,而有关维的细节则构作于维表内以达到简化事实表的目的,事实表与维表间有公共属性相连以使它们构成一个整体。2.7联机分析处理(OLAP)OLAP的基本数据模型–712.7联机分析处理(OLAP)产品标识符商店标识符日期标识符销售金额产品标识符类别大类别日期标识符日月季年商店标识符市名省名国名洲名销售表产品表商店表日期表星型模式示意图2.7联机分析处理(OLAP)产品标识符商店标识符日期标识722.7联机分析处理(OLAP)上述的星型模式可以转化成下面的四个关系:事实表:销售表(产品标识符,商店标识符,日期标识符,销售额)维表1:产品表(产品标识符,类别,大类别)维表2:商店表(商店标识符,市名,省名,国名,洲名)维表3:时间表(时间标识符,日期,月份,季度,年份)2.7联机分析处理(OLAP)上述的星型模式可以转化成下面732.7联机分析处理(OLAP)OLAP的基本数据模型–雪花模式(SnowflakeSchema)如果每个维表也是一个类似星型的模式结构,则称其为雪花模式。例如:上述的‘产品表’也可以是一个星型结构。产品(类别,供应商,顾客)在上述的星型模式中,我们只考虑产品的分类,在这里我们还可以从产品的供应商或购买顾客角度来来考虑对产品进行分析。也可以以其中的‘供应商’为中心再构成一个星型模式。2.7联机分析处理(OLAP)OLAP的基本数据模型–742.7联机分析处理(OLAP)OLAP数据构造方式ROLAP:(RelationalOLAP)用传统的关系数据库管理系统(RDBMS)管理,将星型(雪花型)模式用二维表形式存储,表间用关键字相连,从而构成一个关系模式,它称为ROLAP。用户在ROLAP上的查询操作将被改写成RDBMS中的查询操作并执行获得查询结果。MOLAP:(Multi-DemensionalOLAP)用‘多维数据库管理系统’管理,多维数据库的基本数据模式是一个多维数组。在MOLAP中,事实表被表示成一个多维数组,维的属性值被映射成多维数组下标,而总结数据则作为多维数据值存储在数据单元中。在查询时,可以通过下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版集体所有制房屋租赁市场租赁合同纠纷调解员培训合同3篇
- 2025年度消防工程施工安全监理服务合同3篇
- 2025解除终止劳动合同支付经济补偿金参考对照表
- 2025征地劳动合同
- 建筑拆除工程借款合同
- 农业用地租赁合同协议书
- 2025小额贷款居间合同
- 2025年度航空航天材料性能试验检测技术服务合同3篇
- 2025外墙瓷砖供货合同范本
- 广州二手房公积金贷款合同
- 保险公估作业指导书x
- 新人教版八年级数学下册 第18章平行四边形 导学案
- 《生理心理学实验实训》指导书-
- 教练技术三阶段讲义
- GB/T 23799-2021车用甲醇汽油(M85)
- 车工工艺课件(绪论、一章)
- 催收服务工作手册方案
- 信息化系统数据恢复应急演练方案
- 常用有机溶剂性质
- 公司没有出审计报告情况说明解释
- (完整word版)高考英语作文练习纸(标准答题卡)
评论
0/150
提交评论