数据仓库培训_第1页
数据仓库培训_第2页
数据仓库培训_第3页
数据仓库培训_第4页
数据仓库培训_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据中心内部知识培训,数据仓库与数据中心概述,OLTP与OLAP,多维数据分析模型,数据整合,应用介绍,数据仓库与数据中心概述,数据仓库的起因,数据库方式,数据仓库方式,数据与应用分离,以实现数据高度共享、支持日常业务处理过程为目的(OLTP),以支持经营管理过程中的决策制定为目的(DSS,OLAP,DM),什么是数据仓库,数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用于支持经营管理过程中的决策制定。,W.H.Inmon,数据仓库与数据中心概述,数据仓库与数据中心概述,数据仓库的四个特征,数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用于支持经营管理过程中的决策制定。,W.H.Inmon,数据仓库与数据中心概述,特征一面向主题,主题是用户使用数据仓库进行决策时所关心的重点方面,每一个主题基本对应一个宏观的分析领域。,如:CRM优质客户的挖掘潜在大客户的发现,ERP合同管理物资库存的管理,面向主题是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息。,传统数据库中的数据是原始、基础数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成,数据仓库中的主题有时会因用户主观要求的变化而变化,数据仓库与数据中心概述,特征二集成,数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。,统一消除不同数据源之间的数据不一致的现象,综合对原有数据进行综合和计算,数据仓库与数据中心概述,特征三不可更新,数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是查询操作,一般情况下不执行更新操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。,需要更新的情况,进行新的决策时需要抽取和更新新的数据,通过删除丢弃一些过时的数据,数据仓库与数据中心概述,特征四随时间不断变化,数据仓库中的信息并不只是关于企业当时或某一时点的信息,而是系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息可以对企业的发展历程和未来趋势作出定量分析和预测。,时间属性,数据仓库中的数据通常都带有时间属性,数据统一更新以时间段为单位,什么是数据中心,数据中心是公司一体化信息平台的重要组成部分。,数据仓库与数据中心概述,广义企业业务应用与数据资源进行集中、集成、共享、分析的场所、工具、流程等的有机组合,狭义应用层面的数据中心,具体包括数据仓库和建立在数据仓库之上的决策分析应用、数据ETL、ODS数据库、数据仓库、商务智能应用和元数据管理等,数据仓库与数据中心概述,数据中心的定位,数据中心是企业一体化信息平台的基础,它可以为应用系统的整合与数据共享提供有效的解决方案,保障企业数据的一致性、及时性、完整性、安全性、有效性和准确性,提高企业信息系统的统一性,消除企业普遍存在的信息孤岛,解决信息系统沟通不畅的问题。,数据仓库与数据中心概述,数据中心的逻辑架构(广义),数据仓库与数据中心概述,数据中心的功能单元,数据仓库与数据中心概述,OLTP与OLAP,多维数据分析模型,数据整合,应用介绍,也叫事务处理,是指对数据库的日常联机访问操作,通常是对一个或一组记录的查询和修改,主要是为企业特定的应用服务的。也叫联机事务处理(OLTP)。,操作型处理,OLTP:On-LineTransactionProcessing,特点,1、通常仅仅是对一个或一组记录的查询或修改,2、执行频率高,3、关心处理的响应时间、数据安全性和完整性等指标,OLTP与OLAP,也叫做信息型处理,主要用于企业管理人员的决策分析,为制订企业的未来经营管理计划提供辅助决策信息。也叫做联机分析处理(OLAP)。,分析型处理,OLAP:On-LineAnalyticalProcessing,特点,1、需要对大量的事务型数据进行统计、归纳和分析,2、需要访问大量的历史数据,3、执行频率和对响应时间的要求都不高,典型的OLAP,决策支持系统(DSS-DecisionSupportSystem),OLTP与OLAP,OLTP与OLAP在应用上的差异,OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如电费交易,OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,OLTP与OLAP,OLTP环境不适宜OLAP应用的原因,在OLTP中直接构建OLAP应用是不合适的,要提高分析处理和决策支持的效率和有效性,必须将OLAP及其所需的综合性数据从传统的OLTP和细节性数据中分离出来,按照DSS的需要重新进行组织,建立单独的分析处理环境。,原因有六条:,1、事务处理和分析处理的性能特性不同,2、数据集成问题,3、数据的动态集成问题,4、历史数据问题,5、数据的综合问题,6、数据的访问问题,OLTP与OLAP,原因一、事务处理和分析处理的性能特性不同,OLTP每次操作处理的时间短,存取数据量小,但操作频率高,并发程度大。,OLAP每次分析可能需要连续运行很长的时间,存取数据量大,但很少做这样的分析处理,也没有并发执行的要求。,OLTP与OLAP,原因二、数据集成问题,OLTP一般只需要与本部门业务有关的当前细节数据,而对整个企业范围内的集成应用考虑很少,这就造成大部分企业内部的数据是分散而非集成的。,造成上述状况的原因,1、事务处理应用的分散性,2、数据不一致问题,3、缺少分析所需的外部及非结构化数据,OLAP需要集成的数据,包括整个企业内部各部门的相关数据,以及企业外部、竞争对手等处的相关数据。因此用于分析处理的数据可能来自多种不同的数据源,OLTP与OLAP,原因三、数据动态集成问题,对所需数据进行一次集成,以后就不再发生变化,称为静态集成,对集成后的数据进行周期性刷新,称为动态集成,在采用静态集成策略时,如果数据源中的数据发生了变化,那么这些变化就不能反映给决策者,导致决策使用的是过时的数据。因此集成数据必须以一定的周期进行刷新(即采用动态集成策略),但传统的OLTP环境并不具备动态集成的能力。,OLTP与OLAP,原因四、历史数据问题,OLTP一般只需要当前数据,在数据库中一般也只存储短期数据(3-6个月),且不同数据的保存期限也不一样,OLAP更看重历史数据(5-10年),可以通过对大量历史数据的详细分析来把握企业的发展趋势,历史数据对于事务处理作用不大,但对于决策分析而言,如果没有历史数据的支撑,就变成了“无源之水”、“无本之木”。,OLTP与OLAP,原因五、数据的综合问题,OLTP需要的是当前的细节性操作数据,OLAP需要的往往是大量的总结性分析型数据,而非数据库中的细节性操作型数据,OLTP系统中积累的是大量的细节数据,而OLAP并不对这些细节数据进行分析,其原因是,1、细节数据量太大,影响处理效率,2、不利于分析人员将注意力集中于有用的信息上,这就是常说的数据库中“数据丰富、信息贫困”现象。因此,在分析前往往需要对细节数据进行不同程度的综合,传统的事务处理系统不具备这种综合能力,而且在数据库系统中,这种综合还往往因为是一种数据冗余而被限制。,OLTP与OLAP,原因六、数据的访问问题,OLTP需要提供多种不同类型的数据访问操作,且对于需要修改的数据必须实时更新数据库,OLAP数据的访问操作以读操作为主,且不需要实时的更新操作,只需要定时刷新,OLTP与OLAP,OLAP与OLTP分离的好处,1、提高两个系统的性能,2、提高操作型数据库的事务吞吐量,3、避免两个系统中数据的结构、内容和用法的不同带来的困扰,建立数据仓库的目的并不是要代替传统的事务处理系统(数据库),而是为了适应因市场商业经营行为的改变和精细化管理而进行的DSS的需要。,数据仓库技术正成为企业信息集成和辅助决策应用的关键技术之一,OLTP与OLAP,数据仓库与数据中心概述,OLTP与OLAP,多维数据分析模型,数据整合,应用介绍,基本概念对象(Object)和度量值(Measure),对象是我们所关心和分析的内容,观察对象又称为度量值,度量值是一组值,而且通常为数字值,度量值的选择取决于最终用户所请求的信息类型。一些常见的度量值有销售电量库存量发生金额职工人数线损率发现缺陷数量,多维数据分析模型,基本概念维度(Dimension),维度是我们观察分析对象的角度,例如:我们可以从三个“维度”来观察“发现缺陷”这个对象时间维度缺陷类型缺陷等级,多维数据分析模型,基本概念层(Layer),对分析对象可以在不同的深度层面上进行分析与观察,并可能得到不同的分析结果。因此,层反映了对分析对象的观察深度,一般而言,层是与维相关联的。在一个维中可允许存在若干个层,并且可以采用多种不同的层次划分方法,日期维1、日期月份季度年2、日期周年,多维数据分析模型,基本概念维度成员(DimensionMember),维度的一个取值称为该维度的一个“维度成员”,如果一个维度是多层次的,则该维度的“维度成员”可以是1、在不同维度层次上的取值的组合2、在某个维度层次上的取值,对一个数据项来说,维度成员是该数据项在某维度中位置的描述。,多维数据分析模型,基本概念多维数据集(Multi-DimensionalDataset),一个多维数据集可以表示为(维1,维2,,维n,变量)变量表示我们观察的数据对象维1,维2,,维n分别表示我们观察的各个角度,如(时间,单位,缺陷类别,缺陷等级,发现缺陷数量)是一个有关“发现缺陷”的四维数据集,其数据成员可表示为:(2008年,江苏,线路缺陷,类缺陷,300)(2008年1月,南京,设备缺陷,类缺陷,35),多维数据分析模型,多维数据分析模型,事实表:销售表(产品标识符,商店标识符,日期标识符,销售额)维表1:产品表(产品标识符,类别,大类别)维表2:商店表(商店标识符,市名,省名,国名,洲名)维表3:时间表(时间标识符,日期,月份,季度,年份),多维数据分析模型,数据立方体(DataCube),存放数据视图的多维数据模型称为数据立方体,数据立方体可以是物理存在的,也可以是一个逻辑定义,三个维度以上的数据立方体也称为数据超立方体,超过三个维度的信息难以实现全维度的同时展现,多维数据分析模型,多维数据分析,多维数据分析是指对以多维形式组织起来的数据采取切片、切块、旋转、钻取等各种分析动作,以求剖析数据,使最终用户能从多个角度、多个侧面地观察数据,从而深入地了解被包含在数据中的信息、内涵。,切片(Slice)根据某一维上的某个维成员值选择统计数据进行分析,切块(Dice)根据某一维上的某个维成员取值的区间选择统计数据进行分析,旋转调整维的排列次序的动作称为旋转,钻取上钻:也称数据概括(rollup)下钻:也称数据细化(drilldown),多维数据分析模型,多维数据分析,数据概括(rollup)将多维下标的取值提升到较高的概念层次上,从而形成新的统计查询结果,并进行分析。,数据细化(drilldown)将多维下标的取值降低到较低的概念层次上,从而形成更细致的统计查询结果,并进行分析。,多维数据分析模型,利用切片和切块(sliceanddice)功能、逐层细化(drill)功能、维旋转功能等,可以轻松地完成传统方法难以完成的工作,多维数据分析,以“产品、城市、时间”三维数据为例,切片对三维数据,通过“切片”和“旋转”(选择特定切割方向),分别从城市到产品等不同的角度观察各年的销售情况,钻取沿时间维下钻,可以从年销售量出发进而观察各季度的销售情况,旋转变换观察角度,可以从各时间段每种产品的销售情况转而分析各类产品在不同城市间的销售情况,多维数据分析模型,数据仓库与数据中心概述,OLTP与OLAP,多维数据分析模型,数据整合,应用介绍,系统功能模块概述系统功能模块可根据面向系统管理员、开发人员和公司级管理人员等不同角色进行划分。面向用户系统管理员、开发人员的功能模块面向公司级管理人员的功能模块面向开发人员的功能模块,应用介绍,业务描述,通过OLAP建模工具构建多维数据分析模型,以报表、查询、动态分析等段实现对指标数据的分析和展现。,应用介绍,设计方案概述系统以查询、动态分析等手段实现对指标数据的分析和展现。,应用介绍,主要业务功能数据组织功能数据应用功能数据管理功能,应用介绍,数据组织功能数据仓库数据仓库的定义数据仓库的作用数据仓库的数据存储分类,应用介绍,数据应用功能指标管理指标分类数据组织指标配置主题分析主题定义与指标配置即席查询,应用介绍,指标分类基础指标基础指标是数据仓库中指标的最小单元,是实际业务的反应。衍生指标衍生指标是以一个指标自身所包含的信息为依据,利用不同的衍生方式产生的具有一定业务含义的数据集合。复合指标复合指标是以一组基础指标、衍生指标或已有的复合指标所包含的信息为依据,利用维度间存在的关联关系,通过对不同的指标数据进行组合运算产生的具有分析意义的数据集合。,应用介绍,数据组织从业务数据到操作数据区从操作数据区到数据仓库从数据仓库到数据集市,应用介绍,从业务数据到操作数据区通过ETL过程,对业务系统的数据进行适当的编码转换,进入操作数据区,形成构建基础指标所必需的基础数据项。,应用介绍,从操作数据区到数据仓库根据管理分析的需求,确定基础指标的度量、维度及维度的层次结构等数据组织模型;依据数据模型在数据仓库中创建相应的数据实体(该数据实体称为基础数据集);对操作数据区中的基础数据项进行抽取、转换、过滤、聚合等操作,并将操作后所获得的数据集加载至数据仓库中的相应数据实体,完成基础指标的基础数据集建设。,应用介绍,从数据仓库到数据集市平台层根据数据集市所针对的业务需求特性,确定一组指标作为产生衍生指标、复合指标的基础,并在此基础上确定衍生指标、复合指标的度量、度量运算规则、维度及维度的层次结构等数据组织模型;依据数据模型在数据集市中创建相应的数据实体;对数据仓库中的基础指标进行关联、过滤、聚合、运算等操作,并将操作后所获得的数据集加载至数据集市中的相应数据实体,完成衍生指标及复合指标的事实表和维度表建设。,应用介绍,指标配置指标定义关联性设置,应用介绍,指标定义指标定义实现了指标在系统中的创建,根据指标数据来源及数据加工过程的不同,分别完成对基础指标、衍生指标和复合指标的定义。,应用介绍,关联性设置指标从技术角度来看都是具有关联性的,对于指标总会存一个到两个相同的维度,而在业务人员来看,不同的指标之间存在的关系并不唯一,关联性的设置就是提供这样的一个个性化的指标关联设置,用于解决不同业务人员对于指标间关系的不用界定。,应用介绍,主题分析主题定义与配置即席查询,应用介绍,主题定义与配置主题是由一组面向特定管理分析需求的指标、查询方案及报表所构成的。主题的名称可由用户自行定义。主题可包含若干个子主题,主题及若干级子主题构成主题树。,应用介绍,即席查询即席查询是基于指标进行主题分析的一项高级应用,应用介绍,数据管理功能,元数据资源库ETL过程安全设计,应用介绍,元数据资源库,元数据管理ETL元数据同步元数据完整性检查,应用介绍,ETL过程,ETL任务的分类ETL任务配置ETL任务管理,应用介绍,安全分级应用权限控制,数据安全,应用介绍,主要分析下钻该功能用于在图形组件中,对用户选中的某个图形区域所对应的维度层次的子层次的明细数据的查询展现。用户双击某个数据区或在右键菜单中选择下钻项,如选中的单元格对应单个维度,图形组件直接以刷新原图形的方式展现子层次明细数据。如选中的单元格对应多个维度,则图形组件先弹出选择对话框由用户选择下钻的维度,再以刷新原图形的方式展现子层次明细数据。仪表盘不能执行下钻操作。,应用介绍,上钻该功能用于在图形组件中,对用户选中的某个图形区域所对应的维度层次的父层次的统计数据的查询展现。用户单击某个数据区,在右键菜单中选择上钻项,如选中的单元格对应单个维度,图形组件直接以刷新原图形的方式展现父层次统计数据。如选中的单元格对应多个维度,则图形组件先弹出选择对话框由用户选择上钻的维度,再以刷新原图形的方式展现父层次统计数据。仪表盘不能执行上钻操作。,应用介绍,旋转该功能用于将数据集中的位于行表头和列表头上的维度属性或度量互换。用户点击右键,在右键菜单中选择旋转操作,根据旋转后的数据系统自动使用适合的图形展现方式重绘图形展现。排序该功能用于指标在某个维度上的排名的分析,如按地区排名。,应用介绍,条件查询该功能用于对现状分析中的分析切片的简单的维度过滤查询及部分分析方式的指定,如地区和时间维度的过滤,在排序中指定TopN、BottomN或平均线等。,应用介绍,同比分析该功能用于指标本期与去年同期的比较情况的分析,通常用同比增长量和同比增长率来反映,同比分析在分析中以弹出框的方式显示,由系统根据指标特性自动分析完成。,应用介绍,环比分析该功能用于指标本期与上期的比较情况的分析,通常用环比增长量和环比增长率来反映,环比分析在分析中以弹出框的方该功能用于指标本期与上期的比较情况的分析,通常用环比增长量和环比增长率来反映,环比分析在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论