数据仓库与数据挖掘 第2章资料_第1页
数据仓库与数据挖掘 第2章资料_第2页
数据仓库与数据挖掘 第2章资料_第3页
数据仓库与数据挖掘 第2章资料_第4页
数据仓库与数据挖掘 第2章资料_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、多维数据模型二、数据仓库的系统结构三、数据仓库的实现(shxin)四、基于数据仓库的数据挖掘第二章 数据仓库的OLAP技术(jsh)共五十六页第一节 多维数据模型1. 数据立方体数据仓库和OLAP工具基于多维数据模型,多维数据模型将数据看作数据立方体(data cube)形式。数据立方体允许以多维对数据建模和观察,由维和事实(shsh)定义共五十六页第一节 多维数据模型1. 数据立方体维是关于一个组织想要记录的透视或实体每一个维都有一个表与之相关联,该表称为维表,它进一步描述维多维数据模型围绕中心(zhngxn)主题组织,主题用事实表表示事实是数值的度量,事实表包括事实的名称或度量,以及每

2、个相关维表的关键字共五十六页第一节 多维数据模型1. 数据立方体设某BSEK北星易家连锁公司(n s)由下列关系表描述:Customer(cust_id,name,address,age,)Item(item_id, name,type,price,)Employee (empl_id, name,salary,)purchases(trans_id, cust_id , empl_id ,date,time, method_paid,amount,)Branch(branch_id, name,address)共五十六页第一节 多维数据模型1. 数据立方体例如,BSEK可能创建一个数据仓库s

3、ales,记录商店的销售情况(qngkung),涉及time,item和location。典型3-D立方体如图:timelocationitem共五十六页第一节 多维数据模型2. 多维数据库模式E-R数据模型适用于OLTP,而数据仓库需要(xyo)简明的、面向主题的模式,便于联机数据分析。数据仓库的数据模型采用多维数据模型 星型模式 雪花模式 事实星座模式 共五十六页第一节 多维数据模型2. 多维数据库模式星型模式:是最常见(chn jin)的模型范式。这种模式的数据仓库包含:一个大的事实表和一组小的维表 事实表 包含大批数据和不含冗余的中心表 维表 附属表,每维一个表共五十六页第一节 多维数

4、据模型2. 多维数据库模式(msh)星型模式time_keyitem_keybranch_keylocation_keymoney _soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcitycountryitem_keyitem_namebranchtypetime_keydayWeekmonthSales事实表time维表branch维表location维表item维表共五十六页第一节 多维数据模型2. 多维数据库模式(msh)雪花模式:是星型模式的变种,其中某些维表是规范化的,因而数据被进一步分解到附加的表中

5、雪花模式的规范化维表,可以减少冗余,便于维护,并且节省存储空间;同巨大的事实表相比,空间节省有限 执行查询需要更多连接操作,雪花模型可能降低浏览的性能共五十六页第一节 多维数据模型2. 多维数据库模式(msh)雪花模式time_keyitem_keybranch_keylocation_keymoney _soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonthtype_keytype_namecity_k

6、eycitycountrySales事实表timebranchlocation维表item维表type维表city维表共五十六页第一节 多维数据模型2. 多维数据库模式事实星座模式复杂的应用可能需要多个事实表共享维表,这种模式可以视为星型模式集,因此称为(chn wi)星系模式,或事实星座模式 共五十六页第一节 多维数据模型2. 多维数据库模式(msh)事实星座模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_key

7、item_keyitem_namebranchtype_keytime_keydayWeekmonthitem_keytime_keyfrom_locationshipper_keymoney_costunits_shippedshipper_keyshipper_namelocation_keySales事实表timebranchlocation维表item维表shipping事实表shipper维表共五十六页第一节 多维数据模型3. 度量的分类与计算数据立方体度量是一个数值函数,该函数可以对数据立方体的每一个点求值。通过对给定点的各维-值对聚集数据,计算该点的度量值度量根据所用(su yn

8、)的聚集函数分成三类:分布的度量、代数的度量、整体的度量 共五十六页第一节 多维数据模型3. 度量的分类与计算分布的:一个聚集(jj)函数是分布的,如果它能以如下分布方式进行计算设数据被划分为n个集合,函数在每一部分上的计算得到一个聚集值。如果将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布方式计算。一个度量是分布的,如果它可以用分布聚集函数得到共五十六页第一节 多维数据模型3. 度量的分类与计算代数的:一个聚集函数是代数的,如果(rgu)它能由一个具有M个参数的代数计算(M是一个有界整数),而每个参数都可以用一个分布聚集函数求得一个度量是代数的,如果它可

9、以用代数聚集函数得到共五十六页第一节 多维数据模型3. 度量的分类(fn li)与计算整体的:一个聚集函数是整体的,如果描述它的子聚集所需的存储没有一个常数界,即不存在一个具有M个参数的代数函数进行这一计算(M是常数),而每个参数都可以用一个分布聚集函数求得一个度量是整体的,如果它可以用整体聚集函数得到共五十六页第一节 多维数据模型3. 度量的分类与计算多数数据立方体的应用需要(xyo)有效地计算分布的和代数的度量,存在许多有效的技术;而有效计算整体的度量是很困难的,往往采取计算以满意的结果估计大数据集的中值,不进行精确计算。 例如,median()和mode()共五十六页第一节 多维数据模型

10、4. 多维数据模型上的OLAP操作 上卷(shn jun)(roll-up) 下钻(drill-down) 切片(slice)、切块(dice) 转轴 (pivot) 钻过( drill-across) 钻透( drill-through) 共五十六页第一节 多维数据模型4. 多维数据模型上的OLAP操作概念分层将属性或维组织成渐进的抽象层,它将低层概念映射(yngsh)到更一般的高层概念。概念分层对于多抽象层上的挖掘有用共五十六页第一节 多维数据模型4. 多维数据模型上的OLAP操作上卷:通过一个维的概念分层向上(xingshng)攀升或通过维归约,在数据立方体上进行聚集共五十六页第一节 多

11、维数据模型4 . 多维数据模型上的OLAP操作(cozu) 上卷LocationTimeItem芝加哥纽约芝加哥温哥华一季度二季度三季度四季度家庭娱乐计算机电话安全TimeItem美国加拿大一季度二季度三季度四季度家庭娱乐计算机电话安全Location分层定义(dngy)为全序:“street city province_or_state county ”共五十六页第一节 多维数据模型4. 多维数据模型上的OLAP操作下钻:通过沿维的概念分层向下或引入新的维来实现,它是上卷的逆操作,由不太详细(xingx)的数据到更详细(xingx)的数据共五十六页第一节 多维数据模型4. 多维数据模型上的O

12、LAP操作(cozu) 下钻分层定义(dngy)全序为:“day month quarter year”Location芝加哥纽约芝加哥温哥华Time一季度二季度三季度四季度Item家庭娱乐计算机电话安全Item家庭娱乐计算机电话安全Time1月2月3月4月5月6月7月8月9月10月11月12月Location芝加哥纽约芝加哥温哥华共五十六页第一节 多维数据模型4. 多维数据模型上的OLAP操作(cozu) 切片:切片操作在给定的数据(shj)立方体的一个维上进行选择,导致一个子方共五十六页第一节 多维数据模型4. 多维数据模型上的OLAP操作(cozu) 切片LocationTimeItem

13、芝加哥纽约芝加哥温哥华一季度二季度三季度四季度家庭娱乐计算机电话安全Item芝加哥温哥华家庭娱乐计算机电话安全Location纽约多伦多Time =“Q1”共五十六页第一节 多维数据模型4. 多维数据模型上的OLAP操作(cozu) 切块:切块操作通过对两个或多个(du )维执行选择,定义子方共五十六页第一节 多维数据模型4. 多维数据模型上的OLAP操作(cozu) 切块(location=“Toronto”or“Vancouver”)and (Time=“Q1”or “Q2”) and (item=“home entertainment”or“computer”)LocationTimeI

14、tem芝加哥纽约芝加哥温哥华一季度二季度三季度四季度家庭娱乐计算机电话安全TimeItem多伦多温哥华一季度二季度家庭娱乐计算机Location共五十六页第一节 多维数据模型4. 多维数据模型上的OLAP操作:转轴:是一种目视操作,它转动数据(shj)的视角,提供数据(shj)的替代表示共五十六页第一节 多维数据模型4. 多维数据模型上的OLAP操作(cozu) 转轴Item芝加哥温哥华家庭娱乐计算机电话安全Location纽约多伦多Item家庭娱乐安全芝加哥纽约多伦多温哥华Location计算机电话共五十六页第一节 多维数据模型4. 多维数据模型上的OLAP操作钻过:执行涉及多个事实表的查询

15、钻透:操作使用关系SQL机制,钻到数据立方体的底层,到后端关系表OLAP的许多特征体现在统计数据库(SDB)的早期工作中,而SDB 关注(gunzh)社会经济应用,OLAP旨在商务应用以及有效处理海量数据 共五十六页第二节 数据仓库的系统结构1. 数据仓库的设计步骤数据仓库设计需要考虑的四种视图:自顶向下视图:可以帮助选择数据仓库所需的相关息,这些信息能够满足当前和未来商务的需求数据源视图:揭示(jish)被操作数据库系统捕获、存储和管理的信息数据仓库视图:包括事实表和维表商务查询视图:从最终用户的角度透视数据仓库中的数据共五十六页第二节 数据仓库的系统结构1. 数据仓库的设计步骤数据仓库的设

16、计包括如下步骤:选取待建模的商务(shngw)处理。如果商务(shngw)过程针对整个组织,并涉及多个复杂对象,选用数据仓库模型;如果是某一部门的、或某一类商务(shngw)处理,应选择数据集市。选取商务处理的粒度选取用于每个事实表记录的维选取安放在事实表中的度量共五十六页第二节 数据仓库的系统结构2. 数据仓库的结构数据仓库通常采用三层结构: 底层(d cn):数据仓库服务器 中间层:OLAP服务器 顶层:前端工具共五十六页第二节 数据仓库的系统结构清理(qngl) 转换 集成输出(shch)业务数据库外部信息源数据仓库数据集市OLAP服务器底层:数据仓库服务器顶层:前端工具中间层:OLAP

17、服务器元数据存贮共五十六页第二节 数据仓库的系统结构2. 数据仓库的结构从结构的角度,有三种(sn zhn)数据仓库模型: 企业仓库 数据集市 虚拟仓库共五十六页第二节 数据仓库的系统结构2. 数据仓库的结构 企业仓库企业仓库(Enterprise warehouse)收集跨越(kuyu)整个企业的各个主题的所有信息。它提供全企业的数据集成,数据通常来自多个操作型数据库和外部信息提供者,并且是跨越(kuyu)多个功能范围的。它通常包含详细数据和汇总数据企业数据仓库可以在传统的大型机上实现,例如UNIX超级服务器或并行结构平台。它需要广泛的业务建模,可能需要多年的时间来设计和建造共五十六页第二节

18、 数据仓库的系统结构2. 数据仓库的结构 数据集市数据集市(data mart )包含对特定用户有用的,企业范围数据的一个子集。它的范围限于选定的主题,例如(lr)一个商场的数据集市可能限定它的主题为顾客、商品和销售。数据集市中的数据通常为汇总数据共五十六页第二节 数据仓库的系统结构2. 数据仓库的结构 数据集市实现数据集市的周期一般是数周,而不是数月或数年,然而,如果它的规划不是企业范围的,从长远讲,可能会涉及很复杂的集成根据数据的来源不同,数据集市分为独立的依赖的二类。在独立的数据集市中,数据来自一个或多个操作型数据库或外部信息提供者,或者是一个特定(tdng)的部门或地区本地产生的数据。

19、在依赖的数据集市中,数据直接来自企业数据仓库共五十六页第二节 数据仓库的系统结构2. 数据仓库的结构 虚拟(xn)仓库虚拟仓库(virtual warehouse)是操作型数据库上视图的集合。为了有效地处理查询,只做了一些可能的汇总视图。虚拟仓库易于创建,但需要操作型数据库服务器具有剩余能力共五十六页第二节 数据仓库的系统结构3. OLAP服务器的类型 关系OLAP(ROLAP)服务器 多维OLAP(MOLAP)服务器 混合(hnh)OLAP(HOLAP)服务器 特殊的SQL服务器共五十六页第二节 数据仓库的系统结构4. 关系OLAP(Relational OLAP)ROLAP将分析用的多维数

20、据 存储在关系数据库中,并根据应用需求有选择的定义一批视图作为表存储在关系数据库中。不必要将每一个SQL查询都作为实视图保存,只定义那些应用频率比较(bjio)高、计算工作量比较(bjio)大的查询作为实视图共五十六页4. 关系OLAP(Relational OLAP)对每个针对OLAP服务器的查询,优先利用已经计算(j sun)好的实视图来生成查询结果以提高查询效率。同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube、rollup)等等第二节 数据仓库的系统结构共五十六页第二节 数

21、据仓库的系统结构5. 多维OLAP(Multidimensional OLAP)MOLAP将OLAP分析所用到的多维数据物理上存储(cn ch)为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中共五十六页第二节 数据仓库的系统结构5. 多维OLAP(Multidimensional OLAP)由于MOLAP采用新的存储结构,从物理层实现起,因此又称为(chn wi)物理OLAP(Physical OLAP)而ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(Vi

22、rtual OLAP)共五十六页第二节 数据仓库的系统结构6. ROLAP与MOLAP比对ROLAPMOLAP沿用现有的关系数据库的技术专为OLAP所设计响应速度比MOLAP慢;现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube、rollup)等,性能有所提高性能好、响应速度快数据装载速度快数据装载速度慢存储空间耗费小,维数没有限制需进行预计算,可能导致数据爆炸,无法支持维的公台变化可以通过SQL实现详细数据与概要数据的存储缺乏数据模型和数据访问的标准不支持有关预计算读写操作;SQL无法完成有些计算;无

23、法完成多行计算;无法完成维之间计算支持高性能决策支持计算;扶着跨维计算;多用户读写操作借用RDBMS存储数据,没有文件大小限制受操作系统平台文件大小限制,难达到TB级维护困难管理简便共五十六页第二节 数据仓库的系统结构6. ROLAP与MOLAP比对左边为ROLAP方式(fngsh),右边为MOLAP方式,对应的是同一个三维模型共五十六页第二节 数据仓库的系统结构6. 混合OLAP(Hybird OLAP)混合型OLAP(HOLAP)把MOLAP和ROLAP两种结构的优点结合起来迄今为止,对HOLAP还没有(mi yu)一个正式的定义。但很明显,HOLAP结构不应该是MOLAP与ROLAP结构

24、的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求共五十六页第三节 数据仓库的实现(shxin)1. 数据立方体的有效计算多维数据分析的核心是有效地计算多个维集合上的聚集(jj),类似于SQL中的分组 基本立方操作及实现 部分物化 数据立方体计算中多路数组聚集 共五十六页第三节 数据仓库的实现(shxin)2. 索引OLAP数据(shj) 位图索引 连接索引 复合连接索引 共五十六页第四节 基于(jy)数据仓库的数据挖掘1. 数据仓库的使用(shyng)数据仓库的三种应用: 信息处理 分析处理 数据挖掘共五十六页第四节 基于(jy)数据仓库的数据挖掘1. 数据仓库的使用信息处理:支持查询和基本的统计分析,并使用交叉表、表、图表或图进行报告。数据仓库信息处理的当前趋势是构造低成本的基于Web的存取工具,然后与Web浏览器集成(j chn)在一起共五十六页第四节 基于(jy)数据仓库的数据挖掘1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论