第一章第三节 数据仓库与数据集市_第1页
第一章第三节 数据仓库与数据集市_第2页
第一章第三节 数据仓库与数据集市_第3页
第一章第三节 数据仓库与数据集市_第4页
第一章第三节 数据仓库与数据集市_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.3 数据仓库与数据集市数据仓库与数据集市1.3.1 什么是数据集什么是数据集市市1.3.2 数据集市的类型数据集市的类型1.3.3 数据集市与数据仓库数据集市与数据仓库 的区别的区别1.3.4 数据集市的特点数据集市的特点1.3.5 数据集市的开发方法数据集市的开发方法1.3.6 数据集市的建立数据集市的建立第一章第一章 数据仓库原理数据仓库原理1.3 数据仓库与数据集市数据仓库与数据集市1.3.1 什么是数据集市什么是数据集市 数据集市是一种小型的数据仓库,主要面向部数据集市是一种小型的数据仓库,主要面向部门级业务,并且只面向某个特定的主题,是为满足特门级业务,并且只面向某个特定的主题,

2、是为满足特定用户的需求而建立的一种分析环境。它能够快速地定用户的需求而建立的一种分析环境。它能够快速地解决某些具体的问题,发布特定用户所需的信息。它解决某些具体的问题,发布特定用户所需的信息。它们的投资规模比数据仓库小很多,并且更关注在数据们的投资规模比数据仓库小很多,并且更关注在数据中构建复杂的业务规则来支持功能强大的分析。中构建复杂的业务规则来支持功能强大的分析。第一章第一章 数据仓库原理数据仓库原理 一种比较常见的误解:一种比较常见的误解: 认为数据仓库和数据集市的差别只认为数据仓库和数据集市的差别只是数据量的大小而已。是数据量的大小而已。 实际上数据仓库是企业级的,数据实际上数据仓库是

3、企业级的,数据仓库中存放的是整个企业的信息,并且数仓库中存放的是整个企业的信息,并且数据是按照不同主题来组织的,能为整个企据是按照不同主题来组织的,能为整个企业各个部门的运行提供决策支持手段。业各个部门的运行提供决策支持手段。1.3.1 什么是数据集市什么是数据集市1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理数据集市只存放了某个主题需要的信息,数据集市只存放了某个主题需要的信息,一般只能为某个局部范围内的管理人员服一般只能为某个局部范围内的管理人员服务,因此也成为务,因此也成为“小数据仓库小数据仓库”或或“部门部门级的数据仓库级的数据仓库”。1.3.1 什

4、么是数据集市什么是数据集市1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.1 什么是数据集市什么是数据集市例:例:假设为某个银行构建一个分行级别的数据仓库,再为假设为某个银行构建一个分行级别的数据仓库,再为该分行国际业务部构建从属型数据集市。该分行国际业务部构建从属型数据集市。 数据仓库的数据来源于银行的业务系统,包括储蓄、数据仓库的数据来源于银行的业务系统,包括储蓄、卡、个贷、外汇宝、中间业务等,分析的主题包括卡、个贷、外汇宝、中间业务等,分析的主题包括客户客户、渠道渠道、产品产品等。数据仓库的数据粒度根据分析的需求而定,等。数据仓库的数据粒度根据分

5、析的需求而定,一般包括具体的历史记录。然后,将这些记录汇总到天、一般包括具体的历史记录。然后,将这些记录汇总到天、周、月、季度、年等各个层次,具体数据粒度由分析的需周、月、季度、年等各个层次,具体数据粒度由分析的需求而定。另外,数据仓库还存储一些为分析而计算的指标。求而定。另外,数据仓库还存储一些为分析而计算的指标。比如,客户的价值或客户的忠诚度。这些指标的计算不能比如,客户的价值或客户的忠诚度。这些指标的计算不能通过单一的业务系统取得,它需要从所有业务上综合考虑,通过单一的业务系统取得,它需要从所有业务上综合考虑,这也是数据仓库系统的优点之一。这也是数据仓库系统的优点之一。1.3 数据仓库与

6、数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.1 什么是数据集市什么是数据集市 假设整个分行有假设整个分行有20万个客户,那么数据仓万个客户,那么数据仓库将包含库将包含20万个客户所有业务的历史数据、汇总万个客户所有业务的历史数据、汇总数据以及数据仓库指标数据,数据量将会达到几数据以及数据仓库指标数据,数据量将会达到几十甚至数百十甚至数百G。为了满足全行所有部门用户的查。为了满足全行所有部门用户的查询和分析,数据仓库只能采用范式化设计。这样,询和分析,数据仓库只能采用范式化设计。这样,不管用户有什么查询需求,只要有数据存在就能不管用户有什么查询需求,只要有数据存在就能

7、满足所需。满足所需。1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.1 什么是数据集市什么是数据集市 假设国际业务部门的客户有假设国际业务部门的客户有2万人。如果不构建数万人。如果不构建数据集市,他们会直接在数据仓库上查询相关的信息,比如据集市,他们会直接在数据仓库上查询相关的信息,比如外汇宝客户去年一年外汇交易额在各种交易方式的分布。外汇宝客户去年一年外汇交易额在各种交易方式的分布。这种查询的效率和性能是非常低的,如果各个部门的所有这种查询的效率和性能是非常低的,如果各个部门的所有用户都直接在数据仓库上查询相关的信息,数据仓库的性用户都直接在数据仓库

8、上查询相关的信息,数据仓库的性能会下降,以至于无法满足大多数用户对性能的要求。因能会下降,以至于无法满足大多数用户对性能的要求。因此,构建部门级的数据集市是非常必要的。国际业务部门此,构建部门级的数据集市是非常必要的。国际业务部门的数据集市,集中了数据仓库中与本部门直接相关的业务的数据集市,集中了数据仓库中与本部门直接相关的业务数据,例如数据,例如2万个客户外汇交易的历史数据以及汇总。它万个客户外汇交易的历史数据以及汇总。它采用星型模型,可以方便采用星型模型,可以方便OLAP工具的查询和分析。工具的查询和分析。1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1

9、.3.2 数据集市的类型数据集市的类型数据分析数据分析独立数据集市独立数据集市数据源数据源数据分析数据分析从属数从属数据集市据集市数据源数据源数据仓库数据仓库1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.3 数据集市与数据仓库的区别数据集市与数据仓库的区别数据仓库数据仓库数据集市数据集市范围范围企业级企业级部门级部门级主题主题企业主题企业主题部门或特殊的分析主部门或特殊的分析主题题数据粒度数据粒度最细粒度最细粒度较粗的粒度较粗的粒度历史数据历史数据大量的历史数据大量的历史数据适度的历史数据适度的历史数据优化优化处理海量数据、数据处理海量数据、数据探索

10、探索便于访问和分析、快便于访问和分析、快速查询速查询1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.3 数据集市与数据仓库的区别数据集市与数据仓库的区别关于数据集市,常常存在如下几个误区:关于数据集市,常常存在如下几个误区: 1)单纯用数据量的大小来区分数据集)单纯用数据量的大小来区分数据集市和数据仓库市和数据仓库 2)简单地理解数据集市容易建立)简单地理解数据集市容易建立 3)数据集市很容易升级成为数据仓库)数据集市很容易升级成为数据仓库1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.4 数据集市的特点数据集

11、市的特点 1)规模小、灵活,可以按照多种方式来组织,如)规模小、灵活,可以按照多种方式来组织,如按特定的应用、部门、地域、主题等。按特定的应用、部门、地域、主题等。 2)投资规模小、投资回收期短,风险小。)投资规模小、投资回收期短,风险小。 3)独立数据集市的构建比较快。)独立数据集市的构建比较快。 4)不同的数据集市可以分布在不同的物理平台上,)不同的数据集市可以分布在不同的物理平台上,也可以逻辑地分布在同一物理平台上。这种灵活性使得数也可以逻辑地分布在同一物理平台上。这种灵活性使得数据集市可以独立地实施,因而企业人员可以快速获取信息。据集市可以独立地实施,因而企业人员可以快速获取信息。 5

12、)数据集市的思想同时提供了分布式数据仓库的)数据集市的思想同时提供了分布式数据仓库的思想。如果按照数据的地理分布来组织数据集市,那么就思想。如果按照数据的地理分布来组织数据集市,那么就形成了一个地理上分布的数据仓库。形成了一个地理上分布的数据仓库。1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.4 数据集市的特点数据集市的特点数据集市的缺点:数据集市的缺点: 1)建立各个数据集市的部门是互相隔离的,相互)建立各个数据集市的部门是互相隔离的,相互之间不能就标准、流程、知识及经验教训进行沟通,这将之间不能就标准、流程、知识及经验教训进行沟通,这将导致大量的

13、重复劳动及重复分析。导致大量的重复劳动及重复分析。 2)这些部门一般会选择不同的工具、软件及硬件,)这些部门一般会选择不同的工具、软件及硬件,使企业不得不为支持各种技术而维持一定数量的技术人员,使企业不得不为支持各种技术而维持一定数量的技术人员,造成成本增加。造成成本增加。 3)独立数据集市直接读取操作系统的文件或表,)独立数据集市直接读取操作系统的文件或表,极大限制了极大限制了DSS的伸缩能力。的伸缩能力。 4)数据集市一般是为不同的部门建立的,这些数)数据集市一般是为不同的部门建立的,这些数据集市没有进行集成,而且没有一个会包含了整个企业的据集市没有进行集成,而且没有一个会包含了整个企业的

14、视图。视图。1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.5 数据集市的开发方法数据集市的开发方法 数据集市的开发方法有自上而下和自下而数据集市的开发方法有自上而下和自下而上两种。不同类型的数据集市采用不同的开发方上两种。不同类型的数据集市采用不同的开发方法。法。1、自上而下的开发方法、自上而下的开发方法 从属型的数据集市,采用自上而下的开发从属型的数据集市,采用自上而下的开发方法。首先建立企业级的数据仓库,然后从企业方法。首先建立企业级的数据仓库,然后从企业级的数据仓库中为各个部门抽取必要的数据建立级的数据仓库中为各个部门抽取必要的数据建立部门级的

15、数据集市。部门级的数据集市。1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.5 数据集市的开发方法数据集市的开发方法1、自上而下的开发方法、自上而下的开发方法优点:优点: 有利于维护全局数据的一致性。有利于维护全局数据的一致性。缺点:缺点: 一步建立一个企业级的大规模数据仓库,一步建立一个企业级的大规模数据仓库,项目实施的周期很长,难度和投资都很大,风险项目实施的周期很长,难度和投资都很大,风险高。高。1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.5 数据集市的开发方法数据集市的开发方法2、自下而上的开发方法

16、、自下而上的开发方法 先从数据集市入手,就某一个特定的主题,先从数据集市入手,就某一个特定的主题,先做独立数据集市,当数据集市达到一定规模,先做独立数据集市,当数据集市达到一定规模,再从各个数据集市进行数据的再次抽取建立企业再从各个数据集市进行数据的再次抽取建立企业级数据仓库。级数据仓库。1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.5 数据集市的开发方法数据集市的开发方法2、自下而上的开发方法、自下而上的开发方法优点:优点: 可以先建立重要的数据集市,然后再逐步可以先建立重要的数据集市,然后再逐步扩大,具有实时快速,失败风险小的优点。扩大,具有实时

17、快速,失败风险小的优点。缺点:缺点: 数据集市一般是为不同的部门建立的,每数据集市一般是为不同的部门建立的,每一个数据集市对数据的视角都比较窄,各数据集一个数据集市对数据的视角都比较窄,各数据集市中难免有矛盾和不一致的数据,因此建立数据市中难免有矛盾和不一致的数据,因此建立数据仓库时必须进行数据的再次仓库时必须进行数据的再次ETL转换。转换。1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.5 数据集市的开发方法数据集市的开发方法 著名数据仓库专家著名数据仓库专家Ralph Kimball推崇将推崇将两者结合起来的折中方法,步骤如下:两者结合起来的折中方

18、法,步骤如下: 1)从整个公司的角度来计划和定义需求。)从整个公司的角度来计划和定义需求。 2)为完整的仓库创造一个体系结构。)为完整的仓库创造一个体系结构。 3)使数据内容一致而且标准化。)使数据内容一致而且标准化。 4)将数据仓库作为一组超级数据集市来)将数据仓库作为一组超级数据集市来实施,每次一个。实施,每次一个。 在这种方法中,数据集市是整个数据仓库在这种方法中,数据集市是整个数据仓库系统的逻辑子集,数据仓库是统一化了的数据集系统的逻辑子集,数据仓库是统一化了的数据集市。市。 1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理1.3.6 数据集市的建立数

19、据集市的建立数据集市的建立过程如图:数据集市的建立过程如图:商业目标商业目标信息信息基础设施基础设施 商业目标驱动所需信息,而这两者将共同商业目标驱动所需信息,而这两者将共同决定所需的基础设施。一旦数据集市构建好之后,决定所需的基础设施。一旦数据集市构建好之后,就由基础设施来管理企业用户所需的信息并使之就由基础设施来管理企业用户所需的信息并使之可以访问。可以访问。1.3 数据仓库与数据集市数据仓库与数据集市第一章第一章 数据仓库原理数据仓库原理本节小结:本节小结: 本节介绍了数据集市的概念、类型、特点、设本节介绍了数据集市的概念、类型、特点、设计方法、建立过程以及与数据仓库的区别。计方法、建立过程以及与数据仓库的区别。 数据仓库和数据集市是两个容易混淆的额概念。数据仓库和数据集市是两个容易混淆的额概念。一种比较常见的误解是认为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论