商务智能ppt第二章 数据仓库_第1页
商务智能ppt第二章 数据仓库_第2页
商务智能ppt第二章 数据仓库_第3页
商务智能ppt第二章 数据仓库_第4页
商务智能ppt第二章 数据仓库_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章数据仓库【学习目标】

理解ETL的组成;理解数据仓库系统的结构和原理;了解制作信息包图的步骤;了解多维数据模型展示;理解和掌握如何使用Hive数据仓库。2.1数据仓库基本概念

数据仓库的核心思想和传统的数据库系统不同的是,传统的数据块系统主要体现在数据的完整性、对数据进行操作的便捷性;而数据仓库主要体现在分析型数据处理的要求和性能之上。数据仓库是在数据库已经保存了大量的各种业务数据的基础上,为了更加深入地进行数据分析、知识发现和满足商务决策需要而产生的。最终目的是用系统中的数据来发现知识从而构建商务智能。数据仓库的主要特点数据仓库是有主题性的。传统数据库中的数据组织是面向事务处理的,业务系统之间是相互分离的,而数据仓库中的数据则按照一定的主题领域进行组织。主题是指用户使用数据仓库进行决策时所关心的方向或者应用场景,一个主题常常与多个传统数据库系统相关联。数据仓库是集成的。数据长裤中的数据来源于不同的数据源,而这些数据往往是分散的,多种格式的,并且有很多无用数据。因此,需要从原始的操作型数据中抽取出所需要的数据,并进行数据的再次加工、整理等集成工作。数据经过统一规划后,才能进入数据仓库,以使数据仓库信息与全局信息保持一致性。数据仓库是保持增量的。数据仓库里的数据根据时间的变化而不断增长和变化的,很少有进行删减动作。传统关系型数据库比较适合存储和处理表格化的数据,能够较好满足基本的商务报表工作需求,会进行一定程度的修改和删减。而数据仓库中的数据是稳定的,一旦加入数据仓库,就会成为只读格式。数据仓库的主要特点数据仓库是相对稳定的。数据仓库中的数据一般是历史数据,主要供给企业进行决策分析使用,其数据操作主要是增加和查询。某个数据进入数据仓库后,一般情况下将被长期保存。通常数据仓库中有大量的查询操作,因此需要定期的加载和更新。数据仓库的可扩展性。数据仓库的数据量一般都非常大,并且需要一定的冗余处理能力,所以需要考虑数据仓库在未来的可扩展性。另外,企业对数据分析结果的实时性要求较高,这就需要扩展当今数据仓库的功能,要求数据仓库有一定的可扩展性。数据仓库的实时性。许多企业使用数据仓库,对其数据分析结果的实时性要求较高,这就需要数据仓库能够高效率地抽取、转换、装载数据并能及时分析数据的功能。数据仓库的主要特点数据仓库建立的目的不是取代传统的关系型数据库,数据仓库也不是一种综合性的大型数据库。从数据库到数据仓库,不是数据量的变化,而是数据应用场景的变化,即从以操作型处理为主转变为以分析型处理为主,即从数据库联机日常操作转变为面向主题的历史数据分析,为智能分析和决策提供支持2.2.1数据仓库的数据结构

2.2.2数据仓库的系统构成

数据仓库是联机分析数理和数据挖掘的基础,其作用主要体现在两个方面:一是数据仓库提供了海量的经过处理和整理的数据,二是数据仓库提供了数据处理、数据访问和数据分析等技术手段。数据仓库系统包括数据获取模块、数据存储和管理模块和数据访问模块三个部分数据获取模块

数据获取是从数据源获得数据的过程,是数据仓库的基础,该模块负责是整个系统的数据来源。数据源通常包括内部信息和外部信息。内部信息主要包括数据库中各种业务数据和各类文档;外部信息主要包括市场信息、统计信息、竞争对手信息等。数据仓库数据按照粒度的不同分为四个级别:早期细节级、当前细节级、轻度细节级和高度综合级。元数据经过综合,首先进入当前细节级,并根据具体需要和实践推移进行进一步综合,进入轻度综合级乃至高度综合级;老化的数据将进入早期细节级(历史细节级)。数据仓库中的粒度是指不同的综合级别,粒度越大,以为着细节程度越低而综合程度越高。数据存储和管理

数据是数据仓库系统的核心,数据存储和管理是数据仓库系统的关键,数据仓库的组织和管理方式是其区别于传统数据库的决定因素。数据仓库针对现有业务系统的数据进行抽取、清理、转换和集成,并按照主题对其进行组织和管理。元数据是描述数据仓库数据结构和建立方法的数据,为用户访问数据仓库提供目录和说明。元数据是数据仓库运行和维护的中心,也是数据仓库服务器运行和用户访问的主要依据。元数据按照其用户的不同可以分为两类:技术元数据和商业元数据。技术元数据用户来发和管理数据仓库中的数据,包括数据源信息、数据转换的描述、数据仓库内对象和数据结构的定义、数据清理和数据更新时用的规则、源数据到目的数据的映射、用户访问权限、数据备份历史记录、数据导入历史记录、信息发布历史记录等。商业元数据从业务的角度描述了数据仓库中的数据、包括各种业务主题的描述、所含数据的描述、查询和报表等。数据仓库对数据的管理还包括安全管理、权限管理、数据更新跟踪、数据质量检查、元数据管理和更新,删除数据、复制、分割和分发数据,备份和回复、审计等。数据访问

数据访问为用户访问数据仓库提供了手段。它主要包括各种查询工具、报表工具、应用开发工具、联机分析处理工具、数据挖掘工具以及各种基于数据仓库的应用开发工具。此外,还包括信息发布系统和基于网络的联机分析界面等。2.2.3数据仓库系统开发步骤(1)

收集和分析业务需求。用户需求往往不确定,在数据仓库环境中,决策支持、数据分析人员往往是企业中的中上层管理人员,他们对决策分析的需求不能预先作出规范说明。因为企业的中上层管理人员一般对数据的定义及规范性等专业性技术不太关注,而是对于业务问题和需求比较关心和了解。因此,数据仓库应该在海量的数据中为用户提供有用、及时、全面的信息,以帮助用户做出正确的决策。2.2.3数据仓库系统开发步骤(2)建立数据模型和数据仓库的物理设计。通过设计数据仓库的概念模型、逻辑模型和物理模型,可以得到企业或事业数据的完整而清晰的描述信息。数据仓库的数据模型通常是面向主题建立的,同时又为多个面向应用的数据源的集成提供统一的标准。数据仓库的核心内容包括组织的各个主题域、主题域之间的联系、描述主题的码和属性等。2.2.3数据仓库系统开发步骤(3)定义数据源。也叫作定义记录系统,往往会形成一个操作型数据存储区,数据仓库中的数据来源于多个已有的操作型业务系统。一方面,各个系统的数据都是面向应用的,不能完整地描述企业中的主题域;另外一方面,多个数据源的数据之间存在着许多的不一致型,比如命名:有些系统把性别描述成sex,可能另外一个系统描述成gender.比如结构:有些系统是年/月/日。而另外一个系统可能是年-月-日。比如单位:有些系统是米,另外一个系统是英尺。所以,记录系统是一个内容正确并在多个数据源间起决定作用的操作型数据源。该数据源的数据最精确、最完整,以及由于可以实时更新,它的内容也是最及时的。2.2.3数据仓库系统开发步骤(4)选择数据仓库技术和平台。技术和平台选择对建设数据仓库来说非常重要,而且一旦选定,在数据仓库系统实施完成后很难进行改变,由于数据仓库的建成是需要数据源及数据模型的先期定义,所以更改平台和技术的切换成本非常高,所以选择型号和框架要充分重视,前期需要做大量工作为基础进行选择。2.2.3数据仓库系统开发步骤(5)从操作型数据库中抽取、清洗和转换数据到数据仓库。2.2.3数据仓库系统开发步骤(5)根据用户的具体情况及其分析需求和数据量的大小等因素进行选择访问和报表工具,选择数据库连接软件,选择数据分析和可视化软件。2.2.3数据仓库系统开发步骤(6)更新数据仓库。确定数据仓库的更新策略,开发和配置数据仓库更新子系统,实现数据仓库数据的自动更新。2.2.3数据仓库系统开发步骤(7)更新数据仓库。确定数据仓库的更新策略,开发和配置数据仓库更新子系统,实现数据仓库数据的自动更新。2.2.4数据仓库系统的生命周期

数据仓库系统的开发和设计师一个动态的反馈和循环过程。一方面,需要和用户不同沟通,理解用户需求,设计出能够满足客户要求,使得用户能做出更准确、更有用的决策分析。另外一方面,数据仓库的数据结构、模型、粒度、内容及其他物理设计根据用户的反馈需要不断地调整和完善,以提高系统的效率和性能2.2.4数据仓库系统的生命周期一个数据仓库系统包括两个部分:一是存储系统,用户存储数据仓库的数据;二是分析应用系统,用于分析存储在数据仓库中的数据。根据上述两个部分的描述,数据仓库系统主要基于数据存储系统和数据应用系统来建设。2.2.4数据仓库系统的生命周期首先,系统的设计开发是基于数据仓库的规划、需求分析和数据模型建立等前期工作的,数据仓库系统在经过分析与设计两个重要阶段后,就会进入数据仓库系统的实施阶段,实施完成后便转入系统使用和维护阶段。数据仓库系统是一边使用一边做维护的工作,在使用过程中,用户势必会提出新的需求,因此数据仓库系统在用户使用建议和新需求确认的基础之上,进入新一轮的分析、设计开发、实施与维护的迭代中。所以说,数据仓库系统是一个不断迭代的过程,当该数据仓库系统由于新技术的出现,或者由于前期设计的架构无法实现新需求的时候,该数据仓库系统的生命周期就会进入末期。数据仓库系统设计调研

实际上,企业每个部门都有观察企业业务的不同视角,这是需求多样性的一个方面。比如对于一个公司而言,销售部门、采购部门、人力部门、仓库管理部门等都有对应及不同的视角,尽管这些业务是相关的,但是对数据的需求,特别是对分析数据的需求必然有所不同。业务目标:部门的职责和目标是什么?要达到这些目标需要哪些部门的配合?怎样将这些目标整合到公司的目标中?实现这些目标有哪些障碍?数据库的数据来源有哪些?需要购买外部数据么?当前信息源和日常报表需求:在现有的日常报表过程中,当前传递了哪些信息?从何处获取这些分析数据?现在是如何加工处理的?这些信息的详细程度怎样?是太详细了?还是太粗略了?哪些操作会产生关于重要主题领域的数据和信息?关键性能指标:不同的用户会有不同的看法。例如,部门的绩效是怎样监测的?部门内部提供哪些关键的指标?信息频率:可以从用户处理信息的时间灵敏度获得信息频率。如用户需要多长间对数据更新一次?适当的时间结构是什么?在数据仓库中,对信息有实时性需求吗?2.2.5信息包图设计概念模型

由于数据仓库的多维性,利用传统的数据流图进行需求分析已不能满足需要。因此,数据仓库的建模包括超立方体(hypercube)法及信息包图法。超立方体法也是采用自上而下的方法设计,其步骤如下:确定模型中需要抓住的业务过程,例如销售活动或销售过程。确定需要捕获的度量值,例如销售数量或成本。确定数据的粒度,即需要捕获的最低一级的详细信息。信息包图信息包图定义主题内容和主要性能指标之间的关系,其目标就是在概念层满足用户需求。信息包图拥有三个重要对象:(度量)指标、维度和类别。利用信息包图设计概念模型就是要确定这三个方面的内容。信息包图的三个重要对象(1)确定指标。(度量)指标表明在维度空间衡量业务信息的一种方法,是访问数据库的关键所在,是用户最关心的信息。成功的信息包可以保证用户从信息包中获取需要的各个性能指标参数。(2)确定维度。维度提供了用户访问数据仓库信息的途径,对应超立方体的每一面,位于信息包图第一行的每一个栏目中。(3)确定类别。类别是在一个维度内为了提供详细分类而定义的,其成员是为了辨别和区分特定数据而设,它说明一个维度包含的详细信息,一个维度内最底层的可用分类又称为详细分类。信息包图:维度信息包图:销售分析类

别时间维区域维度产品维度客户维度季度(20)省(20)类别(100)年龄分组(15)日(1800)城市(500)名称(1000)输入分组(20)

度量指标:实际销售额、计划销售额、计划完成率销售分析的信息包示意图设计基于主题域的概念模型包图实际上确定了数据仓库的主题和大部分元数据。所谓主题,就是指在较高层次上将业务数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对于业务的一个分析领域。如在前面信息包图所示中,“销售分析“就是一个分析领域,也称为一个应用主题。面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整且一致的描述,能刻画分析对象所涉及的各项业务数据,以及数据之间的联系。数据仓库中的数据是面向主题组织的。如一个数据仓库系统涉及的主题可能是产品销售分析、货物发送分析等。主题是根据分析需求确定的。如在生产企业中,对于材料供应,数据仓库关心材料的不同采购渠道和材料供应是否及时、材料质量状况等。典型的领域包括顾客、产品、订单和财务或是其他某项活动。主题域是对某个主题进行分析后确定的主题边界。某公司的分析主题及主题域结构2.3多维数据模型

数据模型一般由两个层次,概念层和物理层。逻辑数据模型是从概念角度抽象出显示世界的内在规律,如业务流程、数据架构等;物理数据模型则侧重于特定环境下的具体实现,如效率、安全性等。多维数据模型是一个逻辑概念,该模型主要解决如何对大量数据进行快速查询和多角度展示,一遍得出有利于管理决策的信息和知识。多维数据模型的应用领域主要有数据仓库、OLAP和数据挖掘方面。其中多维数据结构是OLAP的核心。2.3.1多维数据建模

多维数据模型以直观的方式组织数据,并支持高性能的数据访问。一个多维数据模型可由多个多维数据模式表示,每一个多维数据模式都是由一个事实表和一组维表组成的。多维数据建模是以维度为中心的建模,以便于从多个维分析有关数据(度量值),星型、雪花性是其主要的存在形式。1.星型模式

多维模型最常见的是星型模式。在星型模式中,事实表居中,多个维表呈包围状分布于其四周,并与事实表连接。事实表在星型中心,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。位于星型模式四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。每个维表都有自己的属性,维表和事实表通过关键字(ID)相关联。星型模式虽然是一个关系模型,但是它不一定是一个规范化的关系模型。在星型模式中,维表可能是非规范化的,这是面向数据仓库的星型模式与OLTP系统中的关系模式的基本区别。使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中,所以查询主要是扫描事实表,而不必像OLTP系统那样通常需要连接多个庞大的数据表,因而查询访问效率非常高。由于维表一般都很小,通常可以放在高速缓存中,与事实表做连接时其速度较快;另外一方面,星型模式便于用户理解,对于非技术人员来说,星型模式比较直观,通过分析星型模式,很容易组合出各种查询。星型模型2.雪花型模式

雪花型模式是对星型模式维表的进一步层次化和规范化,从而消除冗余的数据。通过最大限度地减少数据存储量以及把分解后更小的规范化表联合在一起以改善查询性能。由于采取规范化的维表,各维表拥有较低的粒度,因此雪花型模式增加了应用程序的灵活性。但是另一方面,雪花型模式也增加了用户需要处理的表的数量,增加了查询的复杂性,而且用户不容易理解,有时额外的连接将使查询性能下降。因此在数据仓库系统中,通常不推荐使用雪花型模式,因为对数据仓库系统的查询性能相对传统的关系型数据库系统来说更加重要。而雪花性模式由于本身的特点通常会降低数据仓库系统的性能。雪花模型2.3.2事实表、维表和键的设计

事实表和维表是多维建模技术中的两个基本概念。事实表是数据分析所对应的主要数据项,一般是企业或事业组织内的某项业务或在某个事件。事实表中的事实一般具有数据特性和可加性,这种特征对于分析型应用而言是非常重要的。在这类应用中,人们所关心的不是单一的单条记录,而是在乎综合性的、聚合的数据。因此,一次性检索的记录可能是几百条、几千条甚至是几百万条、几千万条,而且还可能要求可以按照不同的粒度进行汇总。事实表中可以存储不同粒度的数据,同一主题中不同粒度的数据一般存储在不同的事实表中。在数据仓库中,对于比较简单地主题,一般一个主题对于一个事实表;对于比较复杂的分析主题,很可能一个主题对应多个事实表。2.3.2事实表、维表和键的设计事实表是对分析主题的度量,包含与各维度表相关联的外键,并通过连接方式与维表相连,事实表的度量一般是数值类型,且记录数会不断增加,表规模逐渐增大。维表中包含的一般是描述性的文本信息,这些文本信息将成为事实表的检索条件,如按照地区分类查询销售信息,或按季度考察销售变化趋势等。所以,维表的属性长度可能出现过宽的情况,但它们的数据行数往往很小,在数据仓库中占用的存储空间也比较小。维表中的维属性应该具体明确,体现出维层次的划分,能够成为分析型查询的约束条件,这是数据库与操作型应用在数据模型设计上的一个不同点。维表层次的级别数量取决于查询的粒度。在实际业务环境中,多维数据模型一般含有十几个维。在具体实施工作中,一定要根据企业的实际情况确定相应的维。2.3.2事实表、维表和键的设计在多维模型中,事实表的主键是组合键,即多个维表的主键,维表的主键是简单键,事实表中与维表主键相对应的各个组成部分是外键。事实表通过与各维表相对应的外键值同维表联系在一起。维度表一般由主键、分类层次和属性描述组成。对于主键的选择一般存在两种观点,一种是采用自然键,即操作型业务系统使用的具有一定内置含义的标识符。另一种是采用代理键,即由装载程序或者数据库系统所赋子的一个数值,该数值按顺序分配,没有内置含义但可以作为一行维度信息记录的唯一标识。随着企业的发展,生产系统中的产品名称、产品分类、组织机构几乎不可避免地会发生调整,有时甚至自然键本身也会发生变化。就像身份证号码从15位升到18位。如果采用代理键,这些变化会被屏蔽在维度表内,需要记录历史轨迹的就贴上时间标签,不需要的就直接更新掉,变化的过程不会对事实表产生任何冲击。星型2.4在线分析处理

随着数据库技术的飞速发展及存储设备的单价下降,数据库的数据存储从以前的兆字节(MB),现在已经发展到现在的(TB)和(PB)级别。同时,用户查询的需求也变得越来越高,查询或操作的结果不仅仅涉及一张表或者其中的一条记录,而是涉及多张表,并且需要对多张表进行聚合、分析之后得到的查询结果。对于这样的高的要求,传统的关系型数据库已经很难从根本上满足上述的要求。2.4.1OLAP概况

在线分析处理(OLAP)一种基于数据仓库的数据分析和处理技术,也可以将它堪称是基于数据仓库软件的一种工具。它为支持复杂的分析操作而设计,主要是为企业的各层决策者、管理者提供决策支持。在线分析处理针对分析人员提出的各种要求,在大量的数据中进行快速而灵活的查询,最后将查询结果以一种简单明了的形式提供给决策者和管理者,他们就可以通过这些信息全方位地掌握企业的状况,并根据当前对象的需求,制定正确的执行方案。2.4.1OLAP概况

在线分析处理可以实现多维信息共享,而且可以针对特定问题进行联机数据访问和分析。它通过多种维度和可能性对信息进行快速、交互的存取,允许管理者和决策者对数据进行深层次的挖掘、分析和观察。决策的结果不是单一数据而是多维数据,所以多维数据就成为决策的主要内容。在线分析处理有很多有点,如分析功能灵活、数据操作直观、分析结果可视化等优点,这使得用户对海量的数据的分析变得容易而且高效,便于决策者能快速定位问题,准确做出判断主要区别DataWarehouse(OLAP)OperationalDatabase(OLTP)信息类型历史信息处理即时信息处理使用者执行官、经理、分析员店员、数据库管理员、技术人员使用场景分析企业运行企业聚焦输出数据输入数据数据模型雪花模型、星型模型实体关系模型数据历史数据当前数据数据类型总结性数据细节数据数据视图多维立体详细和数据关系使用者数量几百几千、几万记录数几百万条几十条数据库大小1TB~1PB100MB~1GB系统瓶颈灵活度高高性能2.4.2在线分析处理的基本概念和典型操作

维(Dimension)。维是指人们观察数据的特定角度,是反映问题的某一类属性,这些属性的集合构成一个维(如地点维,产品维)。维的层次(Level)。维的层次是指人们在某个特定角度(某个维)观察数据的时候,还可以根据细节程度的不同来描述该维的各个方面。维的成员(Member)。维的成员是指维的任意一个取值,是对数据项在某一维上位置的描述(比如,“某国家某地区某城市”,是在地点维上的描述)度量(Measure)。度量是指多维数组的取值,如销售额、利润等。在线分析处理操作分类:在线分析处理基于多维视图对数据仓库进行操作,其主要的多维分析操作有钻取(drill),切片(slice),切块(dice)和旋转(pivot)操作。1.钻取。钻取即通过改变维的层次,变换分析的粒度。它分为向下钻取(drill-down)和向上钻取(drill-up)两种。向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数,可以向上钻取为上半年的信息;而向下钻取则与向上钻取相反,它从汇总数据深入细节数据进行观察,或者增加新维。2.切片和切块。人们在一部分维上选定之后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,如果有三个或者三个以上,则是切块。3.旋转。旋转是指变换维的方向,比如行列转换。2.4.3在线分析处理的分类

根据数据的存储格式,在线分析处理系统可以分为关系联机分析处理(RLOAP),多维在线分析处理(MOLAP)类型ROLAPROLAP将分析用的多维数据存储在关系数据库中,并根据实际需要选择性地定义一批实视图,将其也同样存储在关系数据库中。但是并不是将每一个SQL查询都作为实时图保存,只有那些使用频率比较高、计算量比较大的查询才被保存为实是图。为了提高效率,对于每个针对OLAP服务器的查询,有限利用已经计算好的实视图来生成查询结果。同时,用作ROLAP存储器的关系数据库管理系统也针对联机分析处理进行了相应的优化,如并行存储、并行查询、并行数据管理等。2.4.3在线分析处理的分类MOLAPMOLAP将在线分析处理所用到的多维数据物理上存储为多维数组的形式,形成多维立方体的结构。多维数组的下标值或者下标值的范围是维的属性值得映射,而汇总数据作为多维数组的值存储在数组的单元中。MOLAP由于采用了新的存储结构,从物理层开始实现,所以又称为物理在线分析处理;而ROLAP主要通过一些软件工具或者中间件软件实现,物理层仍然采用关系型数据库的存储结构,,又称为虚拟在线分析处理。2.5Hive的概念

Hive是建立在Hadoop文件系统上的数据仓库,它提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论