第5章数据仓库的工具_第1页
第5章数据仓库的工具_第2页
第5章数据仓库的工具_第3页
第5章数据仓库的工具_第4页
第5章数据仓库的工具_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 李志刚 教授本章要点:本章要点:如何选择数据仓库产品如何选择数据仓库产品一般数据仓库产品的组成一般数据仓库产品的组成1. 常见的数据仓库产品常见的数据仓库产品李志刚 教授 5.1.1 数据仓库产品的组成数据仓库产品的组成 5.1.2 数据仓库产品应具备的关键技术数据仓库产品应具备的关键技术 5.1.3 数据仓库的发展趋势数据仓库的发展趋势 5.1.4 如何选取数据仓库工具如何选取数据仓库工具李志刚 教授 数据集市数据集市 关系数据库关系数据库 数据源数据源 数据准备区数据准备区 各种服务工具等等。各种服务工具等等。李志刚 教授 数据集市是数据仓库的子集,是按主题从数据仓数据集市是数据仓库的子

2、集,是按主题从数据仓库中划分出来的数据集合。库中划分出来的数据集合。 数据集市通常按数据集市通常按职能部门职能部门为单位为其提供数据,为单位为其提供数据,例如,销售部门、财务部门、库存部门等的数据例如,销售部门、财务部门、库存部门等的数据集市。由于数据集市中只包含面向某个主题的数集市。由于数据集市中只包含面向某个主题的数据,因此数据量比较小,方便与各种分析工具建据,因此数据量比较小,方便与各种分析工具建立连接,利于用户使用。立连接,利于用户使用。李志刚 教授 关系数据库是数据仓库中非常重要的组成部分,关系数据库是数据仓库中非常重要的组成部分,数据仓库要想发挥出真正的威力必须由关系数据数据仓库要

3、想发挥出真正的威力必须由关系数据库为其提供强大的基础引擎。库为其提供强大的基础引擎。 在数据仓库的应用过程中关系数据库为其提供了在数据仓库的应用过程中关系数据库为其提供了许多必不可少的功能,如在数据准备数据库中临许多必不可少的功能,如在数据准备数据库中临时储存、清理、转换传入的数据;为数据仓库提时储存、清理、转换传入的数据;为数据仓库提供存储引擎、快速传输和修改、以及灵活的索引供存储引擎、快速传输和修改、以及灵活的索引机制,容纳和管理数据仓库中海量的数据并支持机制,容纳和管理数据仓库中海量的数据并支持数据集市。数据集市。李志刚 教授 使用数据仓库的最根本目的是为了向企业决策者提供各种使用数据仓

4、库的最根本目的是为了向企业决策者提供各种决策信息,因此数据仓库必须要将企业内部或外部的各种决策信息,因此数据仓库必须要将企业内部或外部的各种信息集中起来,合并为一致的数据集。信息集中起来,合并为一致的数据集。 这些数据的来源各不相同,可以来自这些数据的来源各不相同,可以来自关系型数据库关系型数据库中的数中的数据,也可以来自各种据,也可以来自各种电子表格电子表格,甚至是,甚至是文本数据文本数据。在一个。在一个大型企业中通常会存在大型企业中通常会存在多个多个OLTP系统系统来捕获日常业务运来捕获日常业务运作情况,这些作情况,这些OLTP系统由不同的部门设计并使用不同的系统由不同的部门设计并使用不同

5、的数据结构和数据元素,虽然这些数据源的数据不能直接用数据结构和数据元素,虽然这些数据源的数据不能直接用于决策支持,但是也必须将它们捕获到数据仓库中,因为于决策支持,但是也必须将它们捕获到数据仓库中,因为这些长期积累的数据是建立数据仓库的重要基础这些长期积累的数据是建立数据仓库的重要基础李志刚 教授 数据仓库从不同的数据源抽取数据后,需要对这些数据进数据仓库从不同的数据源抽取数据后,需要对这些数据进行清理和格式化以保证与其他保存在数据仓库中数据的一行清理和格式化以保证与其他保存在数据仓库中数据的一致性。数据准备区又被称为数据中间存储区,实际上数据致性。数据准备区又被称为数据中间存储区,实际上数据

6、准备区也是一个关系型数据库,数据仓库从其他数据源提准备区也是一个关系型数据库,数据仓库从其他数据源提出的数据首先要保存在这个关系型数据库中,在这里将数出的数据首先要保存在这个关系型数据库中,在这里将数据转化为数据仓库要求的统一格式,并检查数据的一致性据转化为数据仓库要求的统一格式,并检查数据的一致性和引用完整性,并准备装载入数据仓库的数据库中。和引用完整性,并准备装载入数据仓库的数据库中。 通常情况下,数据准备区和数据仓库是分开的,但是如果通常情况下,数据准备区和数据仓库是分开的,但是如果对数据的清洗和转换操作不影响到数据仓库为最终用户提对数据的清洗和转换操作不影响到数据仓库为最终用户提供服务

7、的性能,数据准备区和数据仓库也是可以合并在一供服务的性能,数据准备区和数据仓库也是可以合并在一起的。起的。李志刚 教授 建设数据仓库的目的是为决策者提供必要的决策建设数据仓库的目的是为决策者提供必要的决策数据,因此根据决策者的要求为了提供决策者所数据,因此根据决策者的要求为了提供决策者所需要的信息,数据仓库必须使用相关工具来帮助需要的信息,数据仓库必须使用相关工具来帮助它分析和评估数据仓库中浩瀚的数据,例如它分析和评估数据仓库中浩瀚的数据,例如在线在线分析处理(分析处理(OLAP)、数据挖掘工具、预定义报表)、数据挖掘工具、预定义报表等等。另外,数据仓库也必须留有相关的应用程等等。另外,数据仓

8、库也必须留有相关的应用程序接口(序接口(API)以支持用户开发自定义的数据仓库)以支持用户开发自定义的数据仓库服务工具。服务工具。李志刚 教授1海量数据的管理能力海量数据的管理能力 数据仓库为了支持决策分析存储了海量的数据以用来分析计算,因数据仓库为了支持决策分析存储了海量的数据以用来分析计算,因此数据仓库产品中最关键的技术就是如何来管理这些海量的数据,通此数据仓库产品中最关键的技术就是如何来管理这些海量的数据,通过索管理、有效溢出管理等技术能够实现对数据仓库中大量数据的管过索管理、有效溢出管理等技术能够实现对数据仓库中大量数据的管理要求,通常用户在选购数据仓库产品时首先考虑的就是数据仓库产理

9、要求,通常用户在选购数据仓库产品时首先考虑的就是数据仓库产品对海量数据的管理能力能否满足自身的要求。品对海量数据的管理能力能否满足自身的要求。2强大的索引管理功能强大的索引管理功能 一个高质量的数据仓库产品必须能够对数据进行方便一个高质量的数据仓库产品必须能够对数据进行方便快捷高速高效的访问,这就要求数据仓库产品能够使用索快捷高速高效的访问,这就要求数据仓库产品能够使用索引技术建立适当的关键数据索引,如二级索引、临时索引、引技术建立适当的关键数据索引,如二级索引、临时索引、稀疏索引等索引技术,同时还要能够保证建立、使用和管稀疏索引等索引技术,同时还要能够保证建立、使用和管理这些索引所付出的代价

10、不能太高。理这些索引所付出的代价不能太高。李志刚 教授3对数据的监控能力对数据的监控能力如果数据仓库产品希望在大型的应用环境中使用,如果数据仓库产品希望在大型的应用环境中使用,那么它必须具备对数据的监控能力。在数据仓库运行的过那么它必须具备对数据的监控能力。在数据仓库运行的过程中,数据监控组件要一直对数据仓库中的数据进行实时程中,数据监控组件要一直对数据仓库中的数据进行实时的监视,通过收集数据访问信息区分出那些数据是经常被的监视,通过收集数据访问信息区分出那些数据是经常被使用的,那些是很少被使用的、那些索引建立的不恰当、使用的,那些是很少被使用的、那些索引建立的不恰当、那些数据应该进行重新的分

11、类组合等等。而且数据监控组那些数据应该进行重新的分类组合等等。而且数据监控组件还要对硬件系统资源的使用情况进行跟踪监控,如内存件还要对硬件系统资源的使用情况进行跟踪监控,如内存和和cpu的使用率、硬盘空间的剩余情况、并发用户的数据、的使用率、硬盘空间的剩余情况、并发用户的数据、并发线程的数量等。并发线程的数量等。李志刚 教授4对多种存储介质的管理能力对多种存储介质的管理能力在数据仓库中有很多因素会影响到数据存储介质的选在数据仓库中有很多因素会影响到数据存储介质的选择问题,如数据的使用率、数据粒度的选择等等,对于那择问题,如数据的使用率、数据粒度的选择等等,对于那些经常使用的数据必须存放在存取数

12、据很快的介质上以提些经常使用的数据必须存放在存取数据很快的介质上以提高数据仓库系统的反映时间,但通常来说,存储介质速度高数据仓库系统的反映时间,但通常来说,存储介质速度的快慢要与其价格成正比,这样对于那些不会被经常使用的快慢要与其价格成正比,这样对于那些不会被经常使用到的数据就需要放在低速介质上来降低整体成本。因此数到的数据就需要放在低速介质上来降低整体成本。因此数据仓库产品必须能够提供对多种不同存储介质的管理能力,据仓库产品必须能够提供对多种不同存储介质的管理能力,这也是实现数据仓库存储多样性的必然要求。这也是实现数据仓库存储多样性的必然要求。在目前常用的存储介质中价格昂贵但存取速度非常快在

13、目前常用的存储介质中价格昂贵但存取速度非常快的有系统内存、高速缓存;价格较贵存取速度较快的有各的有系统内存、高速缓存;价格较贵存取速度较快的有各种硬盘设备;价格较低但存取速度也较慢的有光盘和磁带种硬盘设备;价格较低但存取速度也较慢的有光盘和磁带等。等。李志刚 教授5对元数据的管理对元数据的管理元数据是元数据是“关于数据的数据关于数据的数据”,它与数据仓库中数据,它与数据仓库中数据的生命周期有关,因此在数据仓库中占有非常重要的地位。的生命周期有关,因此在数据仓库中占有非常重要的地位。数据仓库的开发设计与实现并不是一劳永逸的,而是一个数据仓库的开发设计与实现并不是一劳永逸的,而是一个不断重复,逐渐

14、完善的过程,因此管理好元数据为今后对不断重复,逐渐完善的过程,因此管理好元数据为今后对数据仓库的修补、新功能的添加等提供了重要的保证。数据仓库的修补、新功能的添加等提供了重要的保证。元数据的主要内容包括数据仓库中表的结构、属性、元数据的主要内容包括数据仓库中表的结构、属性、数据仓库的记录系统、从记录系统到数据仓库的映射关系、数据仓库的记录系统、从记录系统到数据仓库的映射关系、数据的抽取日志、访问数据的例行程序、数据模型的说明数据的抽取日志、访问数据的例行程序、数据模型的说明等。等。李志刚 教授、从数据仓库技术的发展角度分析、从数据仓库技术的发展角度分析 数据仓库技术的发展包括数据仓库技术的发展

15、包括数据抽取、存储管理、数据表现和方法数据抽取、存储管理、数据表现和方法论论等方面。等方面。 在数据抽取方面,未来的技术发展将集中在在数据抽取方面,未来的技术发展将集中在系统集成化系统集成化方面。它方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。据仓库本身或数据源可能的变化,使系统更便于管理和维护。 在数据管理方面,未来的发展将使数据库厂商明确推出在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库数据仓库引擎引擎,作为服务器产品与数据库服务器并驾齐驱。在这

16、一方面,带有,作为服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的决策支持扩展的并行关系数据库并行关系数据库将最具发展潜力。将最具发展潜力。 在数据表现方面,在数据表现方面,数理统计数理统计的算法和功能将普遍集成到联机分析的算法和功能将普遍集成到联机分析产品中,同时与产品中,同时与Internet/Web技术紧密结合,推出适用于技术紧密结合,推出适用于Intranet、终、终端免维护的数据仓库访问前端。在这个方面,按行业应用特征细化的端免维护的数据仓库访问前端。在这个方面,按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库用户前端软件将成为

17、产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备。确分支,成为管理信息系统设计的必备。李志刚 教授2、从企业角度分析、从企业角度分析 未来的发展将是不提供完整解决方案的厂商可能被其他公司收购,未来的发展将是不提供完整解决方案的厂商可能被其他公司收购,例如从事数据抽取、提供专用工具的软件公司很可能并入大型数据库例如从事数据抽取、提供专用工具的软件公司很可能并入大型数据库厂商而去构建完整的解决方案。能够持续发展的厂商大致有两类:一厂商而去构建完整的解决方案。能

18、够持续发展的厂商大致有两类:一是拥有强大的数据库、数据管理背景的公司;二是专门提供面向具体是拥有强大的数据库、数据管理背景的公司;二是专门提供面向具体行业的、关于数据仓库实施的技术咨询的公司。行业的、关于数据仓库实施的技术咨询的公司。3、从用户的角度分析、从用户的角度分析 数据管理的传统领域,如金融、保险、电信等行业中的特定应用,数据管理的传统领域,如金融、保险、电信等行业中的特定应用,如信用分析、风险分析、欺诈检测等,是数据仓库的主要市场之外,如信用分析、风险分析、欺诈检测等,是数据仓库的主要市场之外,数据仓库的应用随着现代社会商业模式的变革而进一步普及和深入。数据仓库的应用随着现代社会商业

19、模式的变革而进一步普及和深入。大规模的定制不仅是一种制造过程、后勤系统、或者推销策略,它很大规模的定制不仅是一种制造过程、后勤系统、或者推销策略,它很可能成为下一世纪企业生产的组织原则,就像成批生产是本世纪的组可能成为下一世纪企业生产的组织原则,就像成批生产是本世纪的组织原则一样。在未来大规模定制经济环境下,数据仓库将成为企业获织原则一样。在未来大规模定制经济环境下,数据仓库将成为企业获得竞争优势的关键武器。得竞争优势的关键武器。李志刚 教授1、了解企业的商业需求。、了解企业的商业需求。 第一步就是要了解企业对数据仓库第一步就是要了解企业对数据仓库产品的应用范围产品的应用范围,是要,是要建立企

20、业级数据仓库、部门级数据仓库还是个人级数据仓建立企业级数据仓库、部门级数据仓库还是个人级数据仓库?库? 接下来我们需要了解数据仓库产品的接下来我们需要了解数据仓库产品的用户用户群体有哪些、预群体有哪些、预期的用户数量有多少、用户的地理分布是集中还是分散。期的用户数量有多少、用户的地理分布是集中还是分散。 然后我们要弄清楚企业建立数据仓库的然后我们要弄清楚企业建立数据仓库的用途和功能用途和功能,充分,充分了解用户需要利用数据仓库进行哪些领域的工作,需要哪了解用户需要利用数据仓库进行哪些领域的工作,需要哪些特殊功能,是只需要简单的数据查询,还是需要利用多些特殊功能,是只需要简单的数据查询,还是需要

21、利用多维数据分析,甚至是复杂的数据挖掘。维数据分析,甚至是复杂的数据挖掘。 最后我们要了解目前企业进行数据分析的最后我们要了解目前企业进行数据分析的工作流程工作流程是怎样是怎样的,目前分析中有哪些困难和有哪些急需解决的问题等等。的,目前分析中有哪些困难和有哪些急需解决的问题等等。李志刚 教授2、需要了解数据仓库系统的需求。、需要了解数据仓库系统的需求。 在充分了解商业需求的基础上我们需要进一步了解数在充分了解商业需求的基础上我们需要进一步了解数据仓库系统本身的需求信息。例如需要据仓库系统本身的需求信息。例如需要估算系统可容纳数估算系统可容纳数据的数量据的数量,了解,了解数据的稳定性数据的稳定性

22、以及以及刷新的速度刷新的速度等。特别需等。特别需要强调的是,在数据仓库系统中要强调的是,在数据仓库系统中元数据的维护元数据的维护是非常重要是非常重要的,如果元数据是由非专业的用户来维护,那么系统需求的,如果元数据是由非专业的用户来维护,那么系统需求就要强调维护工具表达的直观性;如元数据由专业的技术就要强调维护工具表达的直观性;如元数据由专业的技术人员来维护则把需求重点放在维护工具的效率上面。人员来维护则把需求重点放在维护工具的效率上面。3、对各种数据仓库产品做出功能评估、对各种数据仓库产品做出功能评估李志刚 教授功能评估应该包括以下几个方面:功能评估应该包括以下几个方面:(1)系统结构:系统的

23、跨平台型、系统的安全性、可靠性、系统的备)系统结构:系统的跨平台型、系统的安全性、可靠性、系统的备份恢复能力等。份恢复能力等。(2)数据抽取能力:数据转化功能的强弱、定时调度能力、数据抽取)数据抽取能力:数据转化功能的强弱、定时调度能力、数据抽取的速率等。的速率等。(3)数据存取呈现能力:支持多维查询能力、是否具有良好的用户端)数据存取呈现能力:支持多维查询能力、是否具有良好的用户端界面、是否支持界面、是否支持OLAP分析能力等等。分析能力等等。(4)应用支持:系统提供的可重用软件成分的多少、软件的跨平台性、)应用支持:系统提供的可重用软件成分的多少、软件的跨平台性、是否有良好的应用程序开发语

24、言、数据库对存储过程的支持情况等。是否有良好的应用程序开发语言、数据库对存储过程的支持情况等。(5)用户接口:用户界面的美观性、易用性、对)用户接口:用户界面的美观性、易用性、对WEB平台的支持程度平台的支持程度等。等。(6)工具的互操作性:数据库、数据仓库、)工具的互操作性:数据库、数据仓库、OLAP分析、数据挖掘以及分析、数据挖掘以及前端展示工具间的互通情况。前端展示工具间的互通情况。李志刚 教授 Oracle 9i NCR TeraData IBM DB2 SAS Microsoft SQL Server 2005的数据仓库工具的数据仓库工具李志刚 教授1、Oracle 9i数据仓库的新

25、特性数据仓库的新特性 Oracle数据仓库作为一种企业级关系型数据仓库管理系统在信息管理、企业数据处理、因特网及电子商务等领域被广泛的应用。随着2001年Oracle 9i系列产品的推出,Oracle将产品的重心向电子商务环境转移并继续关注于Internet,为此Oracle 9i提供了许多新功能新特性。(1)可管理性 可管理性是Oracle 9i数据仓库产品的关键改进方面之一,Oracle 9i采取的管理方法有4个方面: 改进和流线化的数据仓库操作管理 端到端的系统管理解决方案 简化任务和减少管理时间 关键领域数据库的自我管理李志刚 教授(2)Internet内容管理 Oracle 9i大大

26、增强了Oracle 8i数据仓库的功能,以充当创建、管理和传递Internet内容的平台,允许客户将所有类型的多媒体内容存储、管理和聚集到单一数据库中,另外还包括: 支持随时可移动的内容 存储和管理所有类型的内容 有效的搜索和索引所有类型的内容 为协作项目组织内容李志刚 教授(3)提供端到端的安全体系结构 Oracle 9i为用户提供了目前为止业界最安全的应用程序开发和部署平台,其中包括以下几个部分: 提供强壮的三层安全 保证托管环境的安全 深层数据库保护 改进的企业用户安全(Enterprise User Security) 数据加密和标签安全(Oracle Label Security)

27、基于标准的公共密钥体系结构(PKI)李志刚 教授 (4)点击智能服务 点击智能服务依靠Oracle Clickstream Intelligence 组件来实现,作为Oracle 9i Application Server的一个组件它能够分析网站数据和企业数据并用以来提高网站效率和企业用户忠诚度。它利用Oracle数据仓库开发工具的开放数据模型来提供一个预先建立的、公开的数据集,并使用Oracle的门户框架提供一套预先建立的报表。Oracle Clickstream Intelligence能够满足电子商务的苛刻要求,包括快速实施、可伸缩性、可操作性、可用性和可管理性等等。李志刚 教授(5)实

28、时的个性化处理 Oracle 9i可以支持实时的个性化处理,它通过使用数据挖掘技术能够从网络上搜集来的大量的客户点击、交易和图表统计中找出用户真正需要的电子商务数据,并且它能够在分析大量客户信息的同时,保持每个客户关系的独特性,这就为电子商务提供个性化的、一对一的定制服务提供了保证。李志刚 教授(6)灵活的可移植性 Oracle 9i数据仓库可以在不同的操作系统上运行,且不同的操作系统的Oracle应用软件可相互移植,更为重要的是根据Oracle公司公布的资料显示移植时的代码修改率仅为4%,从一种操作系统移植到另一种操作系统时只需要修改少量代码甚至不需要修改代码。同时,Oracle 9i支持工

29、业标注的操作系统,通过SQL*NET、NET*8、NET8i,Oracle 9i Net服务允许不同类型的计算机、操作系统通过网络实现互联。 李志刚 教授5-1 Oracle数据仓库的结构框架图数据仓库的结构框架图李志刚 教授 在框架中数据仓库服务器与展示层之间为在框架中数据仓库服务器与展示层之间为C/S结构,而数结构,而数据仓库工具则分布于结构中的各个部分,其中:据仓库工具则分布于结构中的各个部分,其中: OWB(Oracle Warehouse Builder)位于服务器中,是位于服务器中,是构建数据仓库的主要工具。构建数据仓库的主要工具。 Express是是OLAP分析工具,核心部分位于

30、服务器中,其分析工具,核心部分位于服务器中,其他部分如他部分如Express Object、Express Analyzer则位于客户则位于客户机中。机中。 Reports、Discoverer顾名思义是位于客户机中用于展示顾名思义是位于客户机中用于展示的工具集。的工具集。 DMS(Data Mining Suite)这是一套数据挖掘工具,也这是一套数据挖掘工具,也位于客户机中,另外,在位于客户机中,另外,在DMS之中也具有一定的展示功能。之中也具有一定的展示功能。李志刚 教授 NCR Teradata是是高端数据仓库市场高端数据仓库市场最有力的竞争最有力的竞争者,主要运行在者,主要运行在NC

31、R WorldMark SMP硬件的硬件的Unix操作系统平台上。操作系统平台上。1998年,该公司也提供了年,该公司也提供了基于基于Windows NT的的Teradata,试图开拓数据集,试图开拓数据集市(市(Data Mart)市场。总的来看,)市场。总的来看,NCR的产品性的产品性能很好,能很好,Teradata数据仓库在数据仓库在100GB、300GB、1TB和和3TB级的级的TPC-D指标测试中均创世界纪录。指标测试中均创世界纪录。但是,但是,NCR产品的价格相对较高,中小企业用户产品的价格相对较高,中小企业用户难以接受。难以接受。 相比之下相比之下TeraData数据仓库有如下几

32、数据仓库有如下几大特点:大特点:李志刚 教授(1)丰富的应用程序接口)丰富的应用程序接口 TeraData数据仓库提供了非常丰富的标准化应用程序接口,其中包括:数据仓库提供了非常丰富的标准化应用程序接口,其中包括: ODBC Driver for Teradata, JDBC Driver for Teradata, the OLE DB Data Provider for Teradata, Microsoft .NET Data Provider for Teradata, the Teradata Call-Level Interface (CLI), TS/API等等。另等等。另外还包

33、括许多第三方的应用程序接口,例如外还包括许多第三方的应用程序接口,例如 Sybase Open Server and Open Client。(2)开发语言预处理器)开发语言预处理器 TeraData内置了多种开发语言预处理器,方便用户能够更便捷的使用内置了多种开发语言预处理器,方便用户能够更便捷的使用各种开发语言创建自己的应用程序,如各种开发语言创建自己的应用程序,如COBOL、C和和PL/1等等。通过等等。通过使用这些预处理器内置的函数库,开发者们可以开发出能够直接操作使用这些预处理器内置的函数库,开发者们可以开发出能够直接操作TeraData数据仓库管理系统的增强型客户端程序或者数据仓库

34、管理系统的增强型客户端程序或者host-based类型类型的应用程序。的应用程序。李志刚 教授(3)强大的数据加载单元)强大的数据加载单元 TeraDataTeraData数据仓库不单支持一次性的数据加载更可以支持实时地加数据仓库不单支持一次性的数据加载更可以支持实时地加载要求。载要求。TeraDataTeraData数据加载单元包括以下组件:数据加载单元包括以下组件:FastLoad, MultiLoad, FastLoad, MultiLoad, FastExport, TPump, Teradata Parallel Transporter, Teradata FastExport, T

35、Pump, Teradata Parallel Transporter, Teradata Replication Solutions and Basic Teradata Query facility Replication Solutions and Basic Teradata Query facility (BTEQ)(BTEQ)。TeraDataTeraData数据加载工具都可以满足用户的个性化需求将用户数据加载工具都可以满足用户的个性化需求将用户分散在不同数据源的数据无缝的集中加载到分散在不同数据源的数据无缝的集中加载到TeraDataTeraData数据仓库之中。数据仓库之中。(

36、4)全方位的数据库管理工具)全方位的数据库管理工具 TeraData数据库管理系统包含了很多工具软件来帮助用户来实现对数数据库管理系统包含了很多工具软件来帮助用户来实现对数据库的操作管理、用户权限管理和数据维护。例如据库的操作管理、用户权限管理和数据维护。例如ASF/2用来实现对用来实现对数据的备份、存档以及数据恢复功能;数据的备份、存档以及数据恢复功能;Database Window(DBW)则可以为用户提供数据库的性能、运行状态和各种统计数据;则可以为用户提供数据库的性能、运行状态和各种统计数据;Administration Workstation(AWS)工具为拥有相关权限的用户提)工具

37、为拥有相关权限的用户提供了对整个数据库系统的操作控制能力。供了对整个数据库系统的操作控制能力。李志刚 教授 IBM DB2数据仓库系统是一套数据仓库系统是一套基于可视数据仓库基于可视数据仓库的商的商业智能(业智能(BI)解决方案,包括:)解决方案,包括:Visual Warehouse(VW)、)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如,以及来自第三方的前端数据展现工具(如BO)和)和数据挖掘工具(如数据挖掘工具(如SAS)。)。DB2数据仓库是数据仓库是IBM电子业务电子业务软件战略中的重要组成部分软件战略中的重要

38、组成部分,DB2家族中的产品可以运行在家族中的产品可以运行在包括手持设备、包括手持设备、Intel、UNIX、iSeries以及大型机平台在以及大型机平台在内的很多机型上。可以支持的操作系统包括:内的很多机型上。可以支持的操作系统包括:Linux、Windows 2000/NT/XP/ .NET、AIX、HP-UX、Sun Solaris、OS/400、VSE/VM和和OS/390。李志刚 教授 企业服务器版企业服务器版 通常用于构建通常用于构建电子业务应用程序电子业务应用程序和支持和支持大规模的部门及大型企业级大规模的部门及大型企业级数据仓库,它提供了最大程度的连通性,并且可以与异构平台上的

39、数据仓库,它提供了最大程度的连通性,并且可以与异构平台上的DB2数据库和第三方厂商的数据库产品共享数据资源。数据库和第三方厂商的数据库产品共享数据资源。 工作组服务器版工作组服务器版 该版本通常用于支持该版本通常用于支持小规模的部门级小规模的部门级应用程序或者支持那些不需要应用程序或者支持那些不需要存取在存取在OS/400、VM/VSE和和OS/390平台上的远程数据库的应用程序。平台上的远程数据库的应用程序。 个人版个人版 该版本通常被该版本通常被单机用户单机用户使用,功能完善但是不能响应远程的数据使用,功能完善但是不能响应远程的数据库请求。该版本只能运行在库请求。该版本只能运行在Linux

40、和和Windows操作系统上。操作系统上。 Everyplace 这是针对这是针对移动计算机环境移动计算机环境而设计的版本,它允许移动用户通过个而设计的版本,它允许移动用户通过个人数据助理或掌上电脑等手持移动设备存取企业中的人数据助理或掌上电脑等手持移动设备存取企业中的DB2数据源。数据源。DB2 Everyplace可以运行在包括可以运行在包括Palm OS、Linux、Windows CE、Neutrino、PocketPC和和Symbian在内的多种移动操作系统上。在内的多种移动操作系统上。李志刚 教授 SAS公司在公司在20世纪世纪70年代以年代以“统计分析统计分析”和和“线性数线性数

41、学模型学模型”而享誉业界,而享誉业界,90年代以后,年代以后,SAS公司也加入了数公司也加入了数据仓库市场的竞争,并提供了特点鲜明的数据仓库解决方据仓库市场的竞争,并提供了特点鲜明的数据仓库解决方案,包括案,包括30多个专用模块。其中,多个专用模块。其中,SAS/WA(Warehouse Administrator)是建立数据仓库的集成管理工具,包括定是建立数据仓库的集成管理工具,包括定义主题、数据转换与汇总、更新汇总数据、元数据管理、义主题、数据转换与汇总、更新汇总数据、元数据管理、数据集市的实现等;数据集市的实现等;SAS/MDDB是是SAS用于在线分析的多用于在线分析的多维数据库服务器;

42、维数据库服务器;SAS/AF提供了屏幕设计功能和用于开提供了屏幕设计功能和用于开发的发的SCL(屏幕控制语言);(屏幕控制语言);SAS/ITSV(IT Service Vision)是是IT服务的性能评估和管理的软件,这些服务的性能评估和管理的软件,这些IT服务服务包括计算机系统、网络系统、包括计算机系统、网络系统、Web服务器和电话系统等。服务器和电话系统等。SAS系统的优点是功能强、性能高、特长突出,缺点是系系统的优点是功能强、性能高、特长突出,缺点是系统比较复杂。统比较复杂。李志刚 教授 Microsoft SQL Server 2005是基于客户机/服务器(client/server

43、)模型的关系型数据库管理系统(DBMS),能够为多种应用提供解决方案,如电子商务、数据分析、数据挖掘等,被各类大中小型企业广泛的使用。 在Microsoft SQL Server 2005系统中提供了大量的数据仓库设计、建立、数据加载、数据使用以及数据挖掘等强大的工具。其中常用的工具有如下几种:李志刚 教授关系型数据库:作为数据仓库设计、构造和维护的基础。数据转换服务(DTS):用于向数据仓库中加载数据。数据复制:用于分布式数据仓库分布和加载数据。Analysis Services:用于采集和分析数据仓库中的数据。English Query:提供使用自然英语语言查询数据仓库。OLE DB:提供

44、应用程序与数据源的接口API。PivotTable服务:用于定制操作多维数据的客户接口。Meta Data Services:浏览数据仓库中的元数据。李志刚 教授 SQL Server数据仓库的框架 连接数据源 建数据源视图 创建和部署多维数据集 李志刚 教授SQL Server数据仓库的框架图数据仓库的框架图李志刚 教授 在SQL Server上建立的数据仓库或数据集市通过数据转换服务利用OLE DB这个应用程序接口来有效的访问异构数据。系统的不同组件之间通过微软中心库(Repository)共享元数据。前端工具可以使用Internet Explorer、Access、Excel、Engli

45、sh Query等的呢个来通过OLE DB存取数据仓库的数据。李志刚 教授 数据源是数据仓库将要分析的数据来源,在数据源是数据仓库将要分析的数据来源,在每个数据库中都可以指定一个或多个立方体、数每个数据库中都可以指定一个或多个立方体、数据挖掘模型等对象提供数据的数据源。在连接数据挖掘模型等对象提供数据的数据源。在连接数据源时我们需要先启动据源时我们需要先启动Microsoft SQL Server 2005中的中的SQL Server Business Intelligence Development Studio工具,创建新的数据挖掘项工具,创建新的数据挖掘项目,命名为目,命名为Advent

46、ure Works,打开该,打开该项目的解项目的解决方案资源管理器决方案资源管理器。李志刚 教授532 连接数据源连接数据源李志刚 教授 在在“数据源数据源”上单击鼠标右键,这时弹出一个如图上单击鼠标右键,这时弹出一个如图5-4所示所示的快捷菜单,左键单击的快捷菜单,左键单击“新数据源新数据源”。李志刚 教授在在“提供程序提供程序”列表中,确保已选中列表中,确保已选中“本机本机 OLE DBMicrosoft OLE DB Provider for SQL Server”。“连接连接”选项卡中的内容根据在选项卡中的内容根据在“OLE DB 提供提供程序程序”选择的数据源的不同也会有所差异。在这

47、选择的数据源的不同也会有所差异。在这里我们的里我们的“连接连接”选项卡由选项卡由3个部分组成:个部分组成: 1、 “选择或输入服务器名称选择或输入服务器名称”,在这里我们可在这里我们可以在下拉列表框中指定将要连接的服务器名称或以在下拉列表框中指定将要连接的服务器名称或者手动输入服务器名称。者手动输入服务器名称。李志刚 教授 2、“登陆到服务器登陆到服务器”,这里可以有这里可以有2种选项供用户选择,分别是种选项供用户选择,分别是“使使用用Windows 身份验证身份验证”和和“使用使用SQL Server身份验证身份验证”。如果选择如果选择“使用使用Windows 身份验证身份验证”,那么就表示

48、使用,那么就表示使用Windows 操作系统的操作系统的用户可以直接登录到用户可以直接登录到SQL Server系统中而无需再次认证。如选择系统中而无需再次认证。如选择“使使用用SQL Server身份验证身份验证”则表示使用则表示使用SQL Server认证模式,即用户认证模式,即用户在登录在登录SQL Server系统时需要输入事先设定的用户名和密码。这里我系统时需要输入事先设定的用户名和密码。这里我们选择了们选择了“使用使用Windows 身份验证身份验证”选项。复选框选项。复选框“空白密码空白密码”表表示禁止用户输入密码,复选框示禁止用户输入密码,复选框“保存密码保存密码”则表示允许系

49、统自动保存则表示允许系统自动保存用户密码,当用户再次登陆的时候就不必再次输入密码。用户密码,当用户再次登陆的时候就不必再次输入密码。 3、选择一个数据库、选择一个数据库来连接到数据源上,这里可以选择来连接到数据源上,这里可以选择“在服务器上选在服务器上选择数据库择数据库”这样我们就可以从下拉列表中选择或手动输入数据库名称。这样我们就可以从下拉列表中选择或手动输入数据库名称。如果用户选择如果用户选择“附加一个数据库文件作为数据库名附加一个数据库文件作为数据库名”那么用户就可以那么用户就可以在文本框中输入一个数据库名称然后在在文本框中输入一个数据库名称然后在“使用文件名使用文件名”文本框中输入文本

50、框中输入将要连接的数据库文件名称就可以了。将要连接的数据库文件名称就可以了。李志刚 教授 最后我们可以单击最后我们可以单击“测试连接测试连接”按钮来测按钮来测试连接是否成功,如果连接顺利的话则会出试连接是否成功,如果连接顺利的话则会出现如图所示的对话框。现如图所示的对话框。李志刚 教授点击点击“确定确定”后,出现后,出现“完成向导完成向导”,单击,单击“完成完成”以创建名为以创建名为 Adventure Works DW 的新数据源。的新数据源。李志刚 教授 在解决方案资源管理器中,右键单击在解决方案资源管理器中,右键单击“数据数据源视图源视图”,再单击,再单击“新建数据源视图新建数据源视图李

51、志刚 教授 此时将打开数据源视图向导此时将打开数据源视图向导在在“欢迎使用数据源视欢迎使用数据源视图向导图向导”页中,单击页中,单击“下一步下一步”。李志刚 教授此时将显示此时将显示“选择数据源选择数据源”页。页。“关系数据源关系数据源”下的下的 Adventure Works DW 数数据源已被选中。据源已被选中。李志刚 教授 单击单击“下一步下一步”。 此时将显示此时将显示“选择表和视图选择表和视图”页。在此页中,可以页。在此页中,可以从选定的数据源提供的对象列表中选择表和视图。可以筛选此列表,从选定的数据源提供的对象列表中选择表和视图。可以筛选此列表,为选择表和视图提供帮助。在为选择表和

52、视图提供帮助。在“可用对象可用对象”列表中,选择下列表(同列表中,选择下列表(同时按下时按下 Ctrl 键可选择多个表):键可选择多个表): DimCustomer、DimGeography、 DimProduct、DimTime、FactInternetSale。将选中的表添加到。将选中的表添加到“包包含的对象含的对象”列表中。列表中。李志刚 教授 单击单击“下一步下一步”,再单击,再单击“完成完成”以定义以定义 Adventure Works DW 数数据源视图。此时,数据源视图据源视图。此时,数据源视图 Adventure Works DW 将在解决方案将在解决方案资源管理器的资源管理器

53、的“数据源视图数据源视图”文件夹中显示。同时,数据源视图的内文件夹中显示。同时,数据源视图的内容也将在容也将在 Business Intelligence Development Studio 的数据源视图的数据源视图设计器中显示。设计器中显示。李志刚 教授 创建多维数据集仍然需要解决方案资源管理器,首先在树创建多维数据集仍然需要解决方案资源管理器,首先在树形结构中形结构中Adventure Works 项目节点下的项目节点下的“多维数据集多维数据集”图标上单击鼠标右键,在弹出的快捷菜单中选择图标上单击鼠标右键,在弹出的快捷菜单中选择“新建多新建多维数据集维数据集”,如图,如图5-13所示。所

54、示。李志刚 教授 接下来会出现接下来会出现“多维数据集向导多维数据集向导”欢迎对话框,如图欢迎对话框,如图5-14所示,单击所示,单击对话框中的对话框中的“下一步下一步”按钮,在按钮,在“选择生成方法选择生成方法”页上,确认已选中页上,确认已选中“使用数据源生成多维数据集使用数据源生成多维数据集”选项和选项和“自动生成自动生成”选项,然后单击选项,然后单击“下一步下一步”。 在在“选择数据源视图选择数据源视图”页上,确认已选中页上,确认已选中 Adventure Works DW 数据源视图,然后单击数据源视图,然后单击“下一步下一步”。李志刚 教授 该向导扫描在数据源对象中定义的数据库中的表

55、,以标识事实数据表该向导扫描在数据源对象中定义的数据库中的表,以标识事实数据表和维度表。事实数据表包含相关的度量值,如售出的部件数等。维度和维度表。事实数据表包含相关的度量值,如售出的部件数等。维度表包含有关这些度量值的信息,如售出产品、售出该产品的月份等。表包含有关这些度量值的信息,如售出产品、售出该产品的月份等。 李志刚 教授李志刚 教授 在在“标识事实数据表和维度表页上,将显示该向导所标识标识事实数据表和维度表页上,将显示该向导所标识的事实数据表和维度表。对于的事实数据表和维度表。对于 本项目,该向导标识四个维本项目,该向导标识四个维度表和一个事实数据表。为该事实数据表定义了一个度量度表

56、和一个事实数据表。为该事实数据表定义了一个度量值组。值组。 每个维度表必须链接到多维数据集中的一个事实数每个维度表必须链接到多维数据集中的一个事实数据表。维度表具有下列关系类型之一:据表。维度表具有下列关系类型之一: 与事实数据表的直与事实数据表的直接主键接主键-外键关系,这称为外键关系,这称为“星型架构星型架构”;通过某个其他表;通过某个其他表与事实数据表的间接主键与事实数据表的间接主键-外键关系,这称为外键关系,这称为“雪花型架雪花型架构构”。 需注意,表既可以用作事实数据表,又可以用作维需注意,表既可以用作事实数据表,又可以用作维度表。度表。 在在“标识事实数据表和维度表标识事实数据表和

57、维度表”页上,还可以指定时间维页上,还可以指定时间维度表,然后将时间属性与指定维度表中的列相关联。时间度表,然后将时间属性与指定维度表中的列相关联。时间属性与指定时间维度表中的列相关联是基于时间的多维表属性与指定时间维度表中的列相关联是基于时间的多维表达式达式 (MDX) 计算(如计算(如 YTD 和和 ParallelPeriod)所必需的,)所必需的,而且时间智能向导将使用这一关联定义与时间相关的计算而且时间智能向导将使用这一关联定义与时间相关的计算成员。成员。 李志刚 教授下图显示了该向导的“标识事实数据表和维度表”页,其中为 Adventure Works项目选择了事实数据表和维度表

58、李志刚 教授 在在“标识事实数据表和维度表标识事实数据表和维度表”页的页的“时间维度时间维度表表”列表中,选择列表中,选择 Time,然后单击,然后单击“下一步下一步”。在在“选择时间段选择时间段”页上,将时间属性名称映射到页上,将时间属性名称映射到以指定为以指定为“时间时间”维度的维度为基础的维度表中维度的维度为基础的维度表中的相应列。根据以下列表映射这些属性:将的相应列。根据以下列表映射这些属性:将 Year 属性映射到属性映射到 CalendarYear 列。将列。将 Half Year 属性属性映射到映射到 CalendarSemester 列。将列。将 Quarter 属性属性映射到

59、映射到 CalendarQuarter 列。将列。将 Month 属性映属性映射到射到 EnglishMonthName 列。将列。将 Date 属性映射属性映射到到 FullDateAlternateKey 列。列。李志刚 教授 下图演示了该向导中的这些列映射。下图演示了该向导中的这些列映射。李志刚 教授 单击单击“下一步下一步”按钮进入向导的下一页。按钮进入向导的下一页。 随即会出现随即会出现“选择度量值选择度量值”页,其中显示了该向导所选择的度量值。页,其中显示了该向导所选择的度量值。该向导选择它标识为事实数据表的表中的各数值数据类型该向导选择它标识为事实数据表的表中的各数值数据类型列作

60、为度量值。本例只定义了一个度量值组。在列作为度量值。本例只定义了一个度量值组。在“选择度选择度量值量值”页上,查看在页上,查看在“Internet 销售销售”度量值组中选择的度量值组中选择的度量值,然后清除下列度量值的复选框:度量值,然后清除下列度量值的复选框: 促销关键字、货促销关键字、货币关键字、销售区域关键字、修订号。币关键字、销售区域关键字、修订号。 该向导选择事实数据表中未链接到维度的所有数值列作该向导选择事实数据表中未链接到维度的所有数值列作为度量值。但这四列不是实际的度量值。前三列是将事实为度量值。但这四列不是实际的度量值。前三列是将事实数据表与未在此多维数据集的初始版本中使用的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论