操作数据存储ODS和数据集市详解(1)_第1页
操作数据存储ODS和数据集市详解(1)_第2页
操作数据存储ODS和数据集市详解(1)_第3页
操作数据存储ODS和数据集市详解(1)_第4页
操作数据存储ODS和数据集市详解(1)_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.1 .2 ODSODS的定义和特点的定义和特点 DB-ODS-DWDB-ODS-DW体系结构体系结构 建立建立ODSODS ODSODS案例案例 数据集市的定义数据集市的定义 数据集市的特点数据集市的特点 数据集市与数据仓库的区别数据集市与数据仓库的区别 数据集市的类型数据集市的类型 数据集市的开发方法数据集市的开发方法 数据集市的实施数据集市的实施 操作数据存储(操作数据存储(ODS)和数据集市)和数据集市 第第3章章 .3 ODS的定义和特点的定义和特点 1 ODSODS的由来的由来 1.1 wODS由来由来 DB数据环境:面向应用和联机事务处理,当前的、细节的、数据环境:面向应用和联机

2、事务处理,当前的、细节的、 分散的数据,不能提供集成的统一的数据环境,共享程度低,分散的数据,不能提供集成的统一的数据环境,共享程度低, 不能提供决策支持。不能提供决策支持。 DW数据环境:面向高层、面向分析,可以提供集成、统一的数据环境:面向高层、面向分析,可以提供集成、统一的 数据环境,但是一定量的数据是建立数据环境,但是一定量的数据是建立DW的前提,需要使用历的前提,需要使用历 史数据,数据要体现集成性和历史性史数据,数据要体现集成性和历史性 实际中往往会有实时决策的需求,上述两者都不能满足要求,实际中往往会有实时决策的需求,上述两者都不能满足要求, 因此产生了因此产生了ODS ODS数

3、据环境:一方面提供全局一致的、细节的、当前的数据,数据环境:一方面提供全局一致的、细节的、当前的数据, 可进行联机事务操作型处理。另一方面是一种面向主题的集成可进行联机事务操作型处理。另一方面是一种面向主题的集成 的数据环境。数据量小,可辅助完成日常决策的数据分析处理,的数据环境。数据量小,可辅助完成日常决策的数据分析处理, 同时可以保护投资,保留现有的应用系统。同时可以保护投资,保留现有的应用系统。 .4 ODS的定义和特点的定义和特点 1 ODSODS的定义的定义 1.2 wODS定义定义 ODS是是Operational Data Store的简称,翻译成操作数据存储。的简称,翻译成操作

4、数据存储。 ODS是数据仓库体系结构的一部分,可以根据需要选择是否采用是数据仓库体系结构的一部分,可以根据需要选择是否采用 ODS。 它具备数据仓库的部分特征和它具备数据仓库的部分特征和OLTP的部分特征。的部分特征。 ODS是一个面向主题的、集成的、可变的、当前的是一个面向主题的、集成的、可变的、当前的细节细节数据集合,数据集合, 用于支持企业对于用于支持企业对于即时即时性的、操作性的、集成的全局信息的需求。性的、操作性的、集成的全局信息的需求。 常常被作为数据仓库的过渡。常常被作为数据仓库的过渡。 作为一个中间层次,它既不是联机事务处理,也算不上高层决策作为一个中间层次,它既不是联机事务处

5、理,也算不上高层决策 分析,是不同于分析,是不同于 DB 的一种新的数据环境,是数据仓库扩展后得的一种新的数据环境,是数据仓库扩展后得 到的一个混合形式。到的一个混合形式。 ODS支持对数据的联机修改支持对数据的联机修改增、删与更新等操作增、删与更新等操作 .5 ODS的定义和特点的定义和特点 1 ODSODS的特点的特点 1.3 wODS特点特点 面向主题的(与数据仓库类似)面向主题的(与数据仓库类似) 集成的(与数据仓库类似)集成的(与数据仓库类似) 可变的可变的 w 数据可以联机改变,包括增、删及更新等操作。数据可以联机改变,包括增、删及更新等操作。 数据是当前细节级或接近当前的数据是当

6、前细节级或接近当前的 w 数据在存取时刻是最新的数据在存取时刻是最新的 w 数据是最近一段时间之前得到的。数据是最近一段时间之前得到的。 .6 ODS的定义和特点的定义和特点 1 ODSODS和数据仓库的异同和数据仓库的异同 1.4 w相同点相同点 面向主题的面向主题的 集成的集成的 w不同点不同点 DW是静态数据,而是静态数据,而ODS中的数据是动态的、可更新的中的数据是动态的、可更新的 设计目标不同,设计目标不同,ODS的设计目标是快速执行针对全局信息的少的设计目标是快速执行针对全局信息的少 量数据的简单查询工作,这同数据仓库中的大量数据的简单查询工作,这同数据仓库中的大数据量数据量复杂查

7、询复杂查询 截然不同。截然不同。 数据内容不同,数据内容不同,ODS存储当前或者近期的数据,存储当前或者近期的数据,DW存储历史存储历史 性数据。性数据。ODS就像你的短期记忆,仅仅记录你的近期信息,而就像你的短期记忆,仅仅记录你的近期信息,而 数据仓库就像长期记忆一样,存储相对长久一些的信息数据仓库就像长期记忆一样,存储相对长久一些的信息 数据容量不同,数据容量不同,ODS数据容量级别较小,数据容量级别较小,DW的数据容量很大的数据容量很大 .7 ODS的定义和特点的定义和特点 1 ODSODS的分类的分类 1.5 wODS类别类别 I 类类ODS,与应用系统的数据延迟为,与应用系统的数据延

8、迟为12秒,实时或近似实时秒,实时或近似实时 II 类类ODS,与应用系统的数据延迟为,与应用系统的数据延迟为24小时小时 III 类类ODS,与应用系统的数据延迟为,与应用系统的数据延迟为1224小时小时 IV 类类ODS,数据仓库中部分决策分析数据回流至,数据仓库中部分决策分析数据回流至ODS中中 w不同不同ODS类别的特点类别的特点 数据延迟时间越短,数据延迟时间越短,ODS建设难度越高。建设难度越高。 其中其中I 类类ODS的建设难度最高,建设成本也是最高的。而且由于的建设难度最高,建设成本也是最高的。而且由于I 类类 ODS的实时性,对于技术的要求与其它类型的实时性,对于技术的要求与

9、其它类型ODS也有所不同,一般也有所不同,一般 来讲需要用到来讲需要用到EAI技术,但随着当前企业对数据仓库的实时性要求越技术,但随着当前企业对数据仓库的实时性要求越 来越高,相信来越高,相信I 类类ODS会变得越来越重要。会变得越来越重要。 通常在企业应用架构中,通常在企业应用架构中,ODS是一个可选件,但一旦需要用到是一个可选件,但一旦需要用到ODS 的功能,那么的功能,那么ODS本身就将变得极为重要。本身就将变得极为重要。 目前应用的比较多的是目前应用的比较多的是IV 类类ODS,因为一旦将决策分析结果加载到,因为一旦将决策分析结果加载到 ODS中,重要决策信息的高性能联机支持将成为可能

10、。中,重要决策信息的高性能联机支持将成为可能。 .8 DB-ODS-DW体系结构体系结构 2 简单结构简单结构 2.1 .9 DB-ODS-DW体系结构体系结构 2 复杂结构复杂结构 2.2 Source Databases Hub - Data Extraction, Transformation, load Warehouse Admin. Tools Extract, Transform and Load Data Modeling Tool Central Metadata Architected Data Marts Data Access and Analysis Central

11、Data Ware- house and ODS Central Data Warehouse Mid- Tier RDBMS Data Mart Mid- Tier RDBMS Data Mart Local Metadata Local Metadata Local Metadata Metadata Exchange ODS OLTP Tools Data Cleansing Tool Relational Appl. Package Legacy External MDB End-User DW Tools Source Databases Hub - Data Extraction,

12、 Transformation, load Warehouse Admin. Tools Extract, Transform and Load Data Modeling Tool Central Metadata Hub - Data Extraction, Transformation, load Warehouse Admin. Tools Warehouse Admin. Tools Extract, Transform and Load Data Modeling Tool Data Modeling Tool Central Metadata Architected Data M

13、arts Data Access and Analysis Central Data Ware- house and ODS Central Data Warehouse Mid- Tier RDBMS Data Mart Mid- Tier RDBMS Data Mart Local Metadata Local Metadata Local Metadata Local Metadata Local Metadata Metadata Exchange ODS OLTP Tools Data Cleansing Tool Relational Appl. Package Legacy Ex

14、ternal Data Cleansing Tool Relational Appl. Package Legacy External MDBMDB End-User DW Tools .10 DB-ODS-DW体系结构体系结构 2 ODSODS在体系结构中的几种作用在体系结构中的几种作用 2.3 w在业务系统和数据仓库之间形成一个隔离层在业务系统和数据仓库之间形成一个隔离层 一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放 在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系在不同的地理位置、不同的数据库、不同的

15、应用之中,从这些业务系 统对数据进行抽取并不是一件容易的事。统对数据进行抽取并不是一件容易的事。 ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结用于存放从业务系统直接抽取出来的数据,这些数据从数据结 构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取 过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、 数据量大小、抽取方式等方面的问题。数据量大小、抽取方式等方面的问题。 w转移一部分业务系统细节查询的功能转移一部分业务系统细节查询的功能 在数

16、据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的, 在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的 压力。压力。 ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一的数据从粒度、组织方式等各个方面都保持了与业务系统的一 致,那么原来由业务系统产生的报表、细节数据的查询自然能够从致,那么原来由业务系统产生的报表、细节数据的查询自然能够从 ODS中进行,从而降低业务系统的查询压力。中进行,从而降低业务系统的查询压力。 .11 DB-ODS-DW体系结

17、构体系结构 2 ODSODS在体系结构中的几种作用在体系结构中的几种作用 2.3 w完成数据仓库中不能完成的一些功能完成数据仓库中不能完成的一些功能 一般来说,带有一般来说,带有ODS的数据仓库体系结构中,的数据仓库体系结构中,DW层所存储的层所存储的 数据都是进行汇总过的数据,并不存储每笔交易产生的细节数数据都是进行汇总过的数据,并不存储每笔交易产生的细节数 据,但是在某些特殊的应用中,可能需要对交易细节数据进行据,但是在某些特殊的应用中,可能需要对交易细节数据进行 查询,这时就需要把细节数据查询的功能转移到查询,这时就需要把细节数据查询的功能转移到ODS来完成,来完成, 而且而且ODS的数

18、据模型按照面向主题的方式进行存储,可以方便的数据模型按照面向主题的方式进行存储,可以方便 地支持多维分析等查询功能。地支持多维分析等查询功能。 在一个没有在一个没有ODS层的数据仓库应用系统体系结构中,数据仓库层的数据仓库应用系统体系结构中,数据仓库 中存储的数据粒度是根据需要而确定的,但一般来说,最为细中存储的数据粒度是根据需要而确定的,但一般来说,最为细 节的业务数据也是需要保留的,实际上也就相当于节的业务数据也是需要保留的,实际上也就相当于ODS,但与,但与 ODS所不同的是,这时的细节数据不是所不同的是,这时的细节数据不是“当前、不断变化的当前、不断变化的” 数据,而是数据,而是“历史

19、的,不再变化的历史的,不再变化的”数据。数据。 .12 建立建立ODS 3 ODSODS数据模型设计数据模型设计 3.1 w数据调研数据调研 对与业务系统关联的数据进行调研,弄清楚现有业务系统对应的数据对与业务系统关联的数据进行调研,弄清楚现有业务系统对应的数据 逻辑模型和物理模型逻辑模型和物理模型 w确定数据范围确定数据范围 确定数据范围实际上是对确定数据范围实际上是对ODS进行主题划分的过程,这种划分是基进行主题划分的过程,这种划分是基 于对业务系统的调研的基础上而进行的,并不十分关心整个数据仓库于对业务系统的调研的基础上而进行的,并不十分关心整个数据仓库 系统上端应用需求,但是需要把上端

20、应用需求与系统上端应用需求,但是需要把上端应用需求与ODS数据范围进行数据范围进行 验证,以确保应用所需的数据都已经从业务系统中抽取出来,并且得验证,以确保应用所需的数据都已经从业务系统中抽取出来,并且得 到了很好的组织。到了很好的组织。 一般来讲,主题的划分是以业务系统的信息模型为依据的,设计者需一般来讲,主题的划分是以业务系统的信息模型为依据的,设计者需 要综合各种业务系统的信息模型,并进行宏观的归并,得到企业范围要综合各种业务系统的信息模型,并进行宏观的归并,得到企业范围 内的高层数据视图,并加以抽象,划定几个逻辑的数据主题范围。在内的高层数据视图,并加以抽象,划定几个逻辑的数据主题范围

21、。在 这个阶段,以这个阶段,以ER模型表示数据主题关系最为恰当。模型表示数据主题关系最为恰当。 .13 建立建立ODS 3 ODSODS数据模型设计数据模型设计 3.1 w根据数据范围进行进一步的数据分析和主题根据数据范围进行进一步的数据分析和主题 定义定义 在第一步中定义出来了企业范围内的高层数据视图,以及所收集到的在第一步中定义出来了企业范围内的高层数据视图,以及所收集到的 各种业务系统的资料,在这一步中,需要对大的数据主题进行分解,各种业务系统的资料,在这一步中,需要对大的数据主题进行分解, 并进行主题定义,直到每个主题能够直接对应一个主题数据模型为止。并进行主题定义,直到每个主题能够直

22、接对应一个主题数据模型为止。 在这个阶段,将把第一步生成的每个在这个阶段,将把第一步生成的每个ER图中的实体进行分解,分解图中的实体进行分解,分解 的结果仍以的结果仍以ER表示为佳。表示为佳。 .14 建立建立ODS 3 ODSODS数据模型设计数据模型设计 3.1 w定义主题元素定义主题元素 定义维定义维 w维名称,名称应该能够清晰表示出这个维的业务含义。维名称,名称应该能够清晰表示出这个维的业务含义。 w维成员,也就是这个维所代表的具体的数据维成员,也就是这个维所代表的具体的数据 w维层次,维成员之间的隶属与包含的层次关系,每个维层次,维成员之间的隶属与包含的层次关系,每个 层次需要定义名

23、称层次需要定义名称 定义度量定义度量 w度量名称,名称应该能够清晰标书这个度量的业务含度量名称,名称应该能够清晰标书这个度量的业务含 义义 .15 建立建立ODS 3 ODSODS数据模型设计数据模型设计 3.1 w定义主题元素定义主题元素 定义主题定义主题 w主题名称和含义,说明该主题主要包含哪些数据,用主题名称和含义,说明该主题主要包含哪些数据,用 于什么分析;于什么分析; w主题所包含的维和度量;主题所包含的维和度量; w主题的事实表,以及事实表的数据。主题的事实表,以及事实表的数据。 定义粒度定义粒度 w主题中事实表的数据粒度说明,这种粒度可以通过对主题中事实表的数据粒度说明,这种粒度

24、可以通过对 维的层次限制加以说明,也可以通过对事实表数据的维的层次限制加以说明,也可以通过对事实表数据的 业务细节程度进行说明。业务细节程度进行说明。 定义存储期限定义存储期限 w主题中事实表中的数据存储周期。主题中事实表中的数据存储周期。 .16 建立建立ODS 3 ODSODS数据模型设计数据模型设计 3.1 w迭代,归并维、度量的定义迭代,归并维、度量的定义 在在ODS中,因数据来自于多个系统,数据主题划分时虽中,因数据来自于多个系统,数据主题划分时虽 然对数据概念进行了一定程度上的归并,但具体的业务代然对数据概念进行了一定程度上的归并,但具体的业务代 码所形成的各个维、以及维成员等还需

25、要进一步进行归并,码所形成的各个维、以及维成员等还需要进一步进行归并, 把概念统一的维定义成一个维,不允许同一个维存在不同把概念统一的维定义成一个维,不允许同一个维存在不同 的实体表示(象不同的业务系统中一样)。的实体表示(象不同的业务系统中一样)。 .17 建立建立ODS 3 ODSODS系统设计系统设计 3.2 wODS数据抽取转换层数据抽取转换层 数据转换层由各种转换工具及抽取程序组成,主要完成从数据转换层由各种转换工具及抽取程序组成,主要完成从 源数据系统到源数据系统到ODS系统的数据转换、净化和载入系统的数据转换、净化和载入 wODS数据访问中间件数据访问中间件 ODS系统中间件的一

26、个关键组成部分就是网络中间件。系统中间件的一个关键组成部分就是网络中间件。 中间件的主要作用是提供用户和中间件的主要作用是提供用户和ODS系统数据之间的无系统数据之间的无 缝连接,同时还提供了系统应用程序接口,允许应用程序缝连接,同时还提供了系统应用程序接口,允许应用程序 同本地或异地同本地或异地ODS系统进行通信。系统进行通信。 另一方面,在另一方面,在DBODSDW三层结构中,中间件也是三层结构中,中间件也是 将将ODS中的信息与中的信息与DW系统中的信息相关联的一条途径。系统中的信息相关联的一条途径。 .18 建立建立ODS 3 ODSODS系统设计系统设计 3.2 w物理实现物理实现

27、定义每个主题的数据抽取周期、抽取时间、抽取方式、数定义每个主题的数据抽取周期、抽取时间、抽取方式、数 据接口,抽取流程和规则。据接口,抽取流程和规则。 物理设计不仅仅是物理设计不仅仅是ODS部分的数据库物理实现,设计数部分的数据库物理实现,设计数 据库参数、操作系统参数、数据存储设计之外,有关数据据库参数、操作系统参数、数据存储设计之外,有关数据 抽取接口等问题必须清晰定义。抽取接口等问题必须清晰定义。 .19 ODS案例案例 4 带有带有ODSODS的集团公司的集团公司DWDW结构结构 4.1 信息门户信息门户 应用模块应用模块 技术基础设施技术基础设施 运营系统运营系统 BI 工具, Da

28、ta Mining, OLAP,Q+R Data Warehouse操作数据存储(ODS) 数据采集 (ETL)信息交换 批量数据批量数据实时数据实时数据 ERPO-CRMHROA .20 数据集市的定义数据集市的定义 5 数据集市的产生数据集市的产生 5.1 w数据集市产生原因数据集市产生原因 灵活性:要求数据仓库能够满足所有最终用户的需求,但是各个部门灵活性:要求数据仓库能够满足所有最终用户的需求,但是各个部门 业务不同,需求侧重点不同,且需求也是不断变化的。这就要求数据业务不同,需求侧重点不同,且需求也是不断变化的。这就要求数据 仓库存储的数据具有充分的灵活性,以适应各类用户的查询和分析

29、仓库存储的数据具有充分的灵活性,以适应各类用户的查询和分析 性能:最终用户对信息检索要求是高性能的,即越快越好。性能:最终用户对信息检索要求是高性能的,即越快越好。 对数据仓库而言,灵活性和性能是一对矛盾体。提高灵活性就要存储对数据仓库而言,灵活性和性能是一对矛盾体。提高灵活性就要存储 各种历史数据,但是一个特定查询就要关联很多表,性能就不能保证各种历史数据,但是一个特定查询就要关联很多表,性能就不能保证 为了解决这一矛盾,数据仓库中就增加了数据集市。数据集市存储为为了解决这一矛盾,数据仓库中就增加了数据集市。数据集市存储为 特定用户需求而预先计算好的数据,从而满足用户对性能的要求。特定用户需

30、求而预先计算好的数据,从而满足用户对性能的要求。 数据集市产生的另外一个原因,是数据仓库开发周期较长,投入较大,数据集市产生的另外一个原因,是数据仓库开发周期较长,投入较大, 规模较小的企业无法承担。而数据集市能够快速解决某些问题,而投规模较小的企业无法承担。而数据集市能够快速解决某些问题,而投 资规模也比数据仓库小很多。资规模也比数据仓库小很多。 .21 数据集市的定义数据集市的定义 5 数据集市定义数据集市定义 5.2 w数据集市概念数据集市概念 数据集市的英文名称是数据集市的英文名称是Data Marts。 数据集市是一种小型的部门级的数据仓库,主要面向部门级业数据集市是一种小型的部门级

31、的数据仓库,主要面向部门级业 务,并且只面向某个特定的主题,是为满足特定用户(一般是务,并且只面向某个特定的主题,是为满足特定用户(一般是 部门级别的)的需求而建立的一种分析型环境。部门级别的)的需求而建立的一种分析型环境。 投资规模比较小,更关注在数据中构建复杂的业务规则来支持投资规模比较小,更关注在数据中构建复杂的业务规则来支持 功能强大的分析功能强大的分析 常称为常称为“小数据仓库小数据仓库”或或“部门级数据仓库部门级数据仓库” .22 数据集市的特点数据集市的特点 6 数据集市的优点数据集市的优点 6.1 w优点优点 规模小、灵活,可以按照多种方式来组织,如按特定规模小、灵活,可以按照

32、多种方式来组织,如按特定 的应用、部门、地域、主题等。的应用、部门、地域、主题等。 投资规模小、投资回收期短,风险小投资规模小、投资回收期短,风险小 独立数据集市的构建比较快独立数据集市的构建比较快 不同的数据集市可以分布在不同的物理平台上,也可不同的数据集市可以分布在不同的物理平台上,也可 以逻辑地分布在同一物理平台上。这种灵活性使得数以逻辑地分布在同一物理平台上。这种灵活性使得数 据集市可以独立地实施,企业人员可以快速地获取信据集市可以独立地实施,企业人员可以快速地获取信 息。息。 数据集市的思想同时提供了分布式数据仓库的思想。数据集市的思想同时提供了分布式数据仓库的思想。 如果按照数据的

33、地理分布来组织数据集市,那么就形如果按照数据的地理分布来组织数据集市,那么就形 成了一个地理上分布的数据仓库。成了一个地理上分布的数据仓库。 .23 数据集市的特点数据集市的特点 6 数据集市的缺点数据集市的缺点 6.2 w缺点缺点 建立数据集市的部门是互相隔离的,互相之间不能就标准、流建立数据集市的部门是互相隔离的,互相之间不能就标准、流 程、知识及经验教训进行沟通,这将导致大量的重复劳动及重程、知识及经验教训进行沟通,这将导致大量的重复劳动及重 复分析。复分析。 这些部门可能会选择不同的工具、软件和硬件,使企业不得不这些部门可能会选择不同的工具、软件和硬件,使企业不得不 为支持各种技术而维

34、持一定数量的技术人员,造成成本增加。为支持各种技术而维持一定数量的技术人员,造成成本增加。 独立数据集市,分别读取业务系统数据库中的表,极大地限制独立数据集市,分别读取业务系统数据库中的表,极大地限制 了了DSS的伸缩能力。如,五个独立的数据集市都需要客户信息,的伸缩能力。如,五个独立的数据集市都需要客户信息, 将造成对客户管理系统的将造成对客户管理系统的5次数据抽取,而数据仓库则只需要次数据抽取,而数据仓库则只需要 抽取一次。抽取一次。 数据集市一般是为不同的部门建立的,这些数据集市没有进行数据集市一般是为不同的部门建立的,这些数据集市没有进行 集成,没有一个会包含整个企业的视图。因此不同数

35、据集市对集成,没有一个会包含整个企业的视图。因此不同数据集市对 相同问题的分析可能会产生不同的结果。相同问题的分析可能会产生不同的结果。 .24 数据集市与数据仓库的区别数据集市与数据仓库的区别 7 数据集市与数据仓库的比较数据集市与数据仓库的比较 7.1 便于访问和分析、快速分析便于访问和分析、快速分析处理海量数据、数据检处理海量数据、数据检 索索 优化优化 适度的历史数据适度的历史数据大量的历史数据大量的历史数据历史数据历史数据 较大的粒度较大的粒度最小的粒度最小的粒度数据粒度数据粒度 部门或特殊的分析主题部门或特殊的分析主题企业主题企业主题主题主题 部门级部门级企业级企业级范围范围 数据

36、集市数据集市数据仓库数据仓库对比内容对比内容 .25 w单纯用数据量大小来区分数据集市和数据仓库单纯用数据量大小来区分数据集市和数据仓库 这种判断方法是片面的这种判断方法是片面的 尺寸大小不是数据集市的主要特征尺寸大小不是数据集市的主要特征 w数据集市容易建立数据集市容易建立 一个单纯的数据集市确实数据仓库复杂程度低一些,它只针对某一需一个单纯的数据集市确实数据仓库复杂程度低一些,它只针对某一需 要解决的特定商业问题,但是围绕数据获取的很多复杂问题并没有减要解决的特定商业问题,但是围绕数据获取的很多复杂问题并没有减 少。少。 数据集市往往要从多个数据源中提取数据,过程和数据仓库类似。数据集市往

37、往要从多个数据源中提取数据,过程和数据仓库类似。 7 关于数据集市的误区关于数据集市的误区 7.2 数据集市与数据仓库的区别数据集市与数据仓库的区别 独立的数据集市独立的数据集市 业务系统业务系统 .26 w数据集市容易升级到数据仓库数据集市容易升级到数据仓库 数据集市针对特殊的业务需要,采取特定应用的数据模型,不可能很数据集市针对特殊的业务需要,采取特定应用的数据模型,不可能很 容易的伸缩,因此追加数据、扩展数据都将非常困难容易的伸缩,因此追加数据、扩展数据都将非常困难 随着数据集市的增多,只会增加一些信息孤岛,仍然不能以整个企业随着数据集市的增多,只会增加一些信息孤岛,仍然不能以整个企业

38、的视图分析数据。的视图分析数据。 Inmon的比喻:不可能把大海里的小鱼堆在一起就构成了一条大鲸鱼的比喻:不可能把大海里的小鱼堆在一起就构成了一条大鲸鱼 7 关于数据集市的误区关于数据集市的误区 7.2 数据集市与数据仓库的区别数据集市与数据仓库的区别 .27 数据集市的类型数据集市的类型 8 从属型数据集市从属型数据集市 8.1 w定义定义 从属型数据集市,是指它的数据杀戒来自于企业级数据仓库,从属型数据集市,是指它的数据杀戒来自于企业级数据仓库, 是企业级数据仓库的子集。是企业级数据仓库的子集。 各数据集市中数据的组织、格式和结构在整个系统中保持一致各数据集市中数据的组织、格式和结构在整个

39、系统中保持一致 一般为那些访问数据仓库十分频繁的关键业务部门建立从属型一般为那些访问数据仓库十分频繁的关键业务部门建立从属型 数据集市,这样可以更好地提高查询反应速度。数据集市,这样可以更好地提高查询反应速度。 数据源数据源 数据仓库数据仓库 数据集市数据集市 从从 属属 型型 数数 据据 集集 市市 .28 数据集市的类型数据集市的类型 8 独立型数据集市独立型数据集市 8.2 w定义定义 独立型数据集市,是指它的数据直接来源于各操作数据环境,独立型数据集市,是指它的数据直接来源于各操作数据环境, 当为各个部门建立相关数据集市后,这些数据集市之间相互独当为各个部门建立相关数据集市后,这些数据

40、集市之间相互独 立,可能具有不同的数据存储类型。立,可能具有不同的数据存储类型。 许多企业出于投资方面的考虑,往往建立的是这种类型的数据许多企业出于投资方面的考虑,往往建立的是这种类型的数据 集市。集市。 独独 立立 型型 数数 据据 集集 市市 数据源数据源 数据集市数据集市 .29 数据集市开发方法数据集市开发方法 9 自上而下方法自上而下方法 9.1 w自上而下方法自上而下方法 对于从属型数据集市,采用自上而下方法对于从属型数据集市,采用自上而下方法 首先建立企业级的数据仓库首先建立企业级的数据仓库 然后从企业级数据仓库中为各个部门抽取必要的数据建立部门级的数然后从企业级数据仓库中为各个

41、部门抽取必要的数据建立部门级的数 据集市据集市 这种方法对于维护全局数据的一致性非常有利这种方法对于维护全局数据的一致性非常有利 所有数据在进入数据仓库之后都进行了清洗和整理,而后才分发到数所有数据在进入数据仓库之后都进行了清洗和整理,而后才分发到数 据集市中据集市中 .30 数据集市开发方法数据集市开发方法 9 自上而下方法自上而下方法 9.1 外部数据外部数据 局部数据集市局部数据集市 操作型数据操作型数据 企业数据仓库企业数据仓库 .31 数据集市开发方法数据集市开发方法 9 自下而上方法自下而上方法 9.2 w自下而上方法自下而上方法 对于独立型数据集市,采用自下而上方法对于独立型数据

42、集市,采用自下而上方法 首先就某一个特定的主题先做独立的数据集市首先就某一个特定的主题先做独立的数据集市 当数据集市达到一定的规模,再从各个数据集市进行数据的再次抽取当数据集市达到一定的规模,再从各个数据集市进行数据的再次抽取 建立企业级数据仓库建立企业级数据仓库 有一定级别的冗余和不一致性有一定级别的冗余和不一致性 不过是一个切实可行的方法不过是一个切实可行的方法 .32 数据集市开发方法数据集市开发方法 9 自下而上方法自下而上方法 9.2 局部数据集市局部数据集市 外部数据外部数据 操作型数据操作型数据 (全部全部) 操作型数据操作型数据 (局部局部) 操作型数据操作型数据 (局部局部)

43、 局部数据集市局部数据集市 .33 数据集市开发方法数据集市开发方法 9 混合方法混合方法 9.3 w前面两种方法都有优缺点前面两种方法都有优缺点 自上而下方法自上而下方法 w 建设之初很难提出比较清晰的需求,需求难以确定;建设之初很难提出比较清晰的需求,需求难以确定; w 项目实施周期较长,难度和投资巨大,风险高项目实施周期较长,难度和投资巨大,风险高 自下而上方法自下而上方法 w 开始建立的数据集市之间矛盾和不一致的数据开始建立的数据集市之间矛盾和不一致的数据 w 建立数据仓库时,需要再次抽取、转换、清洗和集成,工作量大建立数据仓库时,需要再次抽取、转换、清洗和集成,工作量大 w混合方法(混合方法(Ralph Kimball) 从整个公司角度来计划和定义需求从整个公司角度来计划和定义需求 为完整的数据仓库设计一个体系结构为完整的数据仓库设计一个体系结构 使数据内容一致而且标准化使数据内容一致而且标准化 将数据仓库作为一组超级数据集市来实施,每次一个将数据仓库作为一组超级数据集市来实施,每次一个 .34 数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论