对数据仓库进行数据建模-IBM_第1页
对数据仓库进行数据建模-IBM_第2页
对数据仓库进行数据建模-IBM_第3页
对数据仓库进行数据建模-IBM_第4页
对数据仓库进行数据建模-IBM_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、对数据仓库进行数据建模IBM2007-11-16 15:00OLTP 与数据仓库-有何差异?在日常生活中,我我们要使用大大量的应用程程序来生成新新的数据、变变更数据、删删除数据,当当然在大多数数的情况下我我们还要查阅阅和分析数据据。就来想象象一个收发 emaill 的简单应应用程序吧。我我们已经存储储了地址信息息,可能还存存储了一些文文档。我们可可以决定是否否存储已经发发送过的邮件件,但是也可可能隔一段时时间后将其删删除,或者删删除已经发送送过的所有邮邮件。那么我我们该如何处处理一段时间间以前删除或或者修改过的的地址呢?我我们再也不会会看到它们了了。Email 程程序大部分都都属于不是很很复杂

2、的数据据库,但是完完全可以将其其看作一个在在单用户环境境下的 OLLTP(在线线事务处理系系统)简单示示例。它使用用了所有的所所谓访问数据据的操作 CCRUD(创创建、读取、更更新、删除)。当当数据存储达达到一定量的的时候,规模模就会几乎保保持不变,因因为可以从存存储中删除过过期数据。数据仓库就完全全是一种不同同种类的应用用程序。它并并不是用来运运行当前的操操作,例如发发送邮件。它它是用来分析析数据并且从从现有数据中中发现新的价价值,主要是是用来预测未未来的情况。数数据仓库并不不是解决所有有问题的通用用结构。它必必须集中于某某一问题领域域,例如航空空服务、顾客客收益等。数据仓库也有有有趣的一面

3、,那那就是数据库库本身是稳定定增长的。数数据没有被删删除,也不发发生变更。我我们不需要将将冗余数据置置于数据库之之外(因为加加入仓库中的的数据经过了了数据净化的的过程,该过过程检查了数数据的正确性性)来减少复复杂性同时增增强读取操作作的性能。为了能够对数据据仓库中的数数据进行分析析,数据存储储于一个多维维结构中,叫叫做星型模式式。如果将星星型模式扩展展,就会得到到雪花模式。本本白皮书将会会阐述如何使使用IBM Ratioonal RRose进行行星型模式建建模和雪花模模式建模。飞行服务数据集集市的例子为了更好地解释释如何对数据据仓库建模,本本白皮书将使使用一个简单单数据集市的的的例子(即即一个

4、数据仓仓库或者数据据仓库的一部部分),来分分析旅客乘坐坐航班 Haappy FFlyingg and Landiing(愉快快飞行平安降降落)的行为为和满意程度度。我们将存储乘客客信息和每个个航班的的相相关数据、选选择的菜单以以及乘客对飞飞行的满意程程度。数据仓库术语表表数据仓库引入了了新的术语,扩扩展了数据建建模的术语表表。为使本文文的阐述能够够完备,下面面我介绍一下下最常用的术术语。数据仓库数据仓库是一个个支持管理决决策的数据集集合。数据是是面向主题的的、集成的、不不易丢失的并并且是时间变变量。数据仓库是所有有操作环境和和外部数据源源的快照集合合。它并不需需要非常精确确,因为它必必须在特定

5、的的时间基础上上从操作环境境中提取出来来。数据集市数据仓库只限于于单个主题的的区域,例如如顾客、部门门、地点等。数数据集市在从从数据仓库获获取数据时可可以依赖于数数据仓库,或或者当它们从从操作系统中中获取数据时时就不依赖于于数据仓库。事实事实是数据仓库库中的信息单单元,也是多多维空间中的的一个单元,受受分析单元的的限制。事实实存储于一张张表中(当使使用关系数据据库时)或者者是多维数据据库中的一个个单元。每个个事实包括关关于事实(收收入、价值、满满意记录等)的的基本信息,并并且与维度相相关。在某些情况下,当当所有的必要要信息都存储储于维度中时时,单纯的事事实出现就是是对于数据仓仓库足够的信信息。

6、我们稍稍后讨论有关关缺无事实的的情况。维度维度是绑定由坐坐标系定义的的空间的坐标标系的轴线。数数据仓库中的的坐标系定义义了数据单元元,其中包含含事实。坐标系的一个例例子就是带有有 x 维度度和 y 维维度的 Caartesiian(笛卡卡尔)坐标系系。在数据仓仓库中,时间间总是维度之之一。数据挖掘在数据仓库的数数据中发现新新信息的过程程被称为数据据挖掘,这些些新信息不会会从操作系统统中获得。分析空间分析空间是数据据仓库中一定定量的数据,用用于进行数据据挖掘以发现现新信息同时时支持管理决决策。切片一种用来在数据据仓库中将一一个维度中的的分析空间限限制为数据子子集的技术。切块一种用来在数据据仓库中

7、将多多个维度中的的分析空间限限制为数据子子集的技术。星型模式一种使用关系数数据库实现多多维分析空间间的模式,称称为星型模式式。星型模式将在本本白皮书中稍稍后进行进一一步讨论。雪花模式不管什么原因,当当星型模式的的维度需要进进行规范化时时,星型模式式就演进为雪雪花模式。使用 IBM Ratioonal RRose 进进行星型模式式建模星型模式的基本本形式必须实实现多维空间间(常常被称称为方块),以以使用关系数数据库的基本本功能。首先,我们需要要理解多维空空间。多维分析空间几何学中的方块块是指一个三三维空间,其其中每个维度度的尺寸都相相同。想象一一个立方体,每每个维度都有有三个单元,我我们即得到相

8、相同结构的33327个个单元。图1 一个具有有 x、y、zz 维度的方方块多维分析空间(或或者数据仓库库方块)与几几何空间中的的方块仅仅存存在细节上的的差异。维度不仅限于 3 维。不不过,处理很很多维度的立立方体也不是是件轻松的事事情,这会导导致大多数的的实现被限制制于 6 或或者 7 维维。不要期盼盼使用图形可可以很好地表表示超过 44 的维度-如果您有有幸能发现一一种方法,别别忘了告诉我我一下。 维度并不具有相相同的规模和和单元。规模模从几个单元元到几百万个个单元,差别别巨大。单元元可以是一天天、一位顾客客、部门等。 单元,相当于子子方块(111等),包包含事实。 图2 一个三维维数据立方

9、体体数据立方体需要要很大的内存存以存储所有有事实。无论论是否包含事事实,都必须须要预留单元元。这就是为什么使使用关系数据据库和星型模模式的原因。使使用它们能够够优化存储并并且保持数据据结构的灵活活性。星型模式星型模式的基本本思想就是保保持立方体的的多维功能,同同时也增加了了小规模数据据存储的灵活活性。图3 一个星型型模式在图3中,星型型模式使用事事实 Fliight 表表示了一个 4 维方块块(Passsengerr、Menuu、Fligght Scchedullet 和 Time)。基基本上,事实实必须指定一一个维度,以以将其放入立立方体的单元元中。我们的例子中的的维度是:Passengge

10、r,描述述了飞行航程程中的每位乘乘客,由经常常飞行号(ffrequeent fllyer nnumberr)指定。不不是经常乘坐坐飞机的乘客客不是数据仓仓库的一部分分。 Flight Scheddule,是是指所有常规规飞行的日程程。 Menu,是用用于飞行的菜菜单。只有对对菜单进行基基本的分类才才会对数据挖挖掘有重要意意义。 Time,是指指飞行的时间间。 事实 Fligght 描述述了乘客在唯唯一的 Tiime 的单单程飞行上选选择 Mennu。分析空间可以是是完整的方块块,或者我们们可以根据维维度将分析空空间分割成小小片。每个维度根据一一个对象进行行描述,对象象可以用类表表示,这些类类就

11、是有关业业务主题的名名称。这一点点对于成功建建立数据仓库库来说是很重重要的,因为为仓库的用户户(经理、分分析员、市场场)对于信息息技术的术语语并不是很熟熟悉。事实本身就是商商业智能的另另一个对象,仍仍然通过类进进行表示。事实指每个维度度。事实与维维度的关联常常常是一对任任意,这也就就意味着每个个事实都与单单个维度的一一个单元准确确对应,而维维度的每个单单元(每个PPassennger、TTime等)可可以与任意数数量的事实发发生关联(包包括0个事实实)。使用 Ratiional Rose 将对象模型型转换为数据据模型即完成成了星型模式式的实现。这这里我们可以以看到转换后后的结果。图4 使用Ra

12、ationaal Rosse实现星型型模式在图4中,没有有显示自动创创建的主键和和外键约束。星型模式的维度度是独立的表表。当对象模模型转换为数数据模型时,RRationnal Roose 可以以生成维度的的主键。事实表指从维度度表中使用键键迁移的维度度,当生成数数据模型时 Ratioonal RRose 可可以生成外键键。在星型模式中切切片和切块是是对维度的限限制(选择)。这这是一个运行行时问题,而而不是建模问问题,但是模模型必须分辨辨其需要。雪花模式基本的星型模式式并不能满足足数据挖掘的的所有需要。我我们需要更复复杂的维度,例例如时间。分分析员希望根根据周、月、季季度等识别模模式。维度必须进

13、行规规范化。我们们不需要冗余余的维度表,这这只会使数据据切片变得更更加复杂。这这种过程中我我们得到的模模式被称为雪雪花模式。我们来看一个简简单的雪花模模式例子。我我们将时间维维度规范化为为周、月和季季度。图5 规范化的的 Timee 维度我们希望能够使使用附加的规规范化维度将将立方体切片片:周、月和和季度。在本本例中,我们们假定季度是是月的平行层层次,这也就就意味着我们们不能将季度度假定为若干干月的聚合。由由于这个原因因,我们将使使用一张范化化表(是对 OLAP 查询的一项项简单附加)预预先选择时间间维度。最终雪花模式添添加了规范化化维度。图6 带有范化化维度的 TTime 和和事实 Flli

14、ght 的雪花模式式当然,所有的维维度都可以像像时间例子那那样进行规范范化,这就导导致了比较复复杂的数据集集市模式的出出现。由 Ratioonal RRose 从从雪花模式中中开发的实现现模式(数据据模型)是完完善的。图7 带有范化化 Timee 维度的雪雪花模式的数数据模型创建的约束在图图中也没有显显示。雪花模式中可以以存在切片,不不仅仅在基本本的 Timme 维度上上,也可以在在规范化的 Week、MMonth 和 Quaarter 维度上。多对多关系在一次飞行中,我我们不仅仅只只吃一顿饭。在在长途飞行中中可能要多次次用餐。在这这种情况下,我我们认为事实实 Fligght 和 Menu 维

15、度不是一一对多的关联联。我们必须须使用多对多多关联。不过过,这种关联联不可能在星星型模式中实实现。雪花模式的一种种特殊形式是是使用一种必必要的数据结结构以满足这这项要求。首先,我们将模模型变更为事事实和维度间间的多对多关关联。使用 Ratioonal RRose,这这只是关联基基数的变更。图8 Menuu 的多对多多维度的星型型模式我们无法在关系系数据库中实实现多对多关关联。实现多多对多关联需需要使用另一一种雪花模式式。在下图中,我们们关注一下已已经开发的雪雪花模式的一一部分,该部部分处理多对对多维度。图9 雪花模式式解决了 MMenu 的的多维度Rationaal Rosse 生成了了附加的

16、维度度表 FliightMeenu,它是是指 Mennu 维度和和 Fligght 事实实。确定关系用于解解决多对多关关联。对于雪花模式的的架构师来说说,最重要的的一点就是识识别多对多关关系。简单对对象视图可能能会使设计员员理解概念,而而生成的数据据视图有助于于进一步深入入有关实现的的问题。层次数据挖掘可以从从隐藏在操作作系统表面下下的数据中发发现信息。我我们想了解的的一个问题就就是选定菜单单与乘客统计计资料之间的的依赖关系。乘客统计资料数数据可以在 Passeenger 维度的层次次上构建。乘乘客可以根据据邮政编码分分组,然后再再按国家进行行分组。图10 乘客的的层次层次通过使用聚聚合来指定

17、。聚聚合定义了所所包括的内容容。Counntry 包包含了 ZIIP 编码,ZZIP 编码码包含了多名名 Passsengerr 信息。最终通过使用外外键实现了聚聚合。图11 雪花模模式实现了 Passeenger 维度的聚合合生成的约束仍然然没有在图中中表示出来。使用聚合,维度度可以在任何何定义的级别别上使用。分分析空间可以以通过 Paassengger、ZIIP Codde或者 CCountrry 进行切切片。一致的维度随着数据仓库架架构师不断地地添加细节内内容,雪花模模式变得越来来越复杂。因因此设计过程程必须在到达达某种程度后后停止以保持持数据仓库运运行良好。星型或者雪花模模式仍然仅仅仅

18、关注于一个个事实-在在本例中就是是Flighht。那么复复杂关系又是是什么情况呢呢?对于每个事实我我们都必须设设计其各自的的模式。如果果我们想要进进行复杂查询询的话,它们们就必须具有有共同的维度度-我们称称其为一致的的维度。让我们使用 PPilot 作为一个维维度,PillotFliight 作作为一个事实实来定义第二二个星型模式式。我们还要要使用附加的的 Fligght Scchedulle 维度和和 Timee 维度。图12 Pillot 星型型模式第二个模式可以以单独使用或或者与 Paassengger 模式式结合使用,从从而根据使用用一致维度的的飞行员维度度来查询 PPassennger 的的满意程度。图13 一致维维度Timee 和 Fllight Scheddule即使在使用一致致维度的数据据仓库的简单单结构中,PPilot 与 Passsengeer 之间的的关系也是简简单的。在开发数据模型型时,数据仓仓库将大量小小型星型模式式与雪花模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论