数据仓库入门_第1页
数据仓库入门_第2页
数据仓库入门_第3页
数据仓库入门_第4页
数据仓库入门_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库入门第1页,课件共36页,创作于2023年2月数据仓库管理的历史时期人工管理方式:这一时期是在20世纪50年代中期以前,这一阶段的计算机应用主要用于科学计算,外存只有纸带、磁带、卡片等,数据处理的方式基本上是批处理。这一时期数据管理的特点是:数据不保存;没有专用的数据管理软件,每个应用都必须自己完成存储结构、存取方法、输入输入输出等数据管理功能;一组数据对应一个应用,这使得程序之间可能有重复的数据。文件系统管理这一阶段在20世纪50年代后期至60年代中后期,计算机应用开始用于信息管理,由于数据存储、检索和维护等需求,使得相应的研究开展起来了,在硬件和软件方面都得到了发展,磁盘磁鼓出现,操作系统也产生。这一时期数据管理的特点主要是::数据保存,数据可以长期保存在磁盘上;有操作系统的文件管理系统,文件结构化,数据的物理结构和逻辑结构有了区别;有了存储文件后,数据可以不再仅仅属于某一个应用,而能进行一定程度的复用。但文件系统在数据管理方面存在缺陷,表现在数据冗余度大,数据和程序之间缺乏独立性,容易造成数据的不一致性。数据库系统(60年代末开始)2023/7/24第2页,课件共36页,创作于2023年2月数据仓库的发展的动力业务需求驱动主要是详细的分析科学的经营市场活动的细化和实施等数据驱动数据量不断扩大没有数据仓库等相关技术很难全面了解企业项目驱动2023/7/24第3页,课件共36页,创作于2023年2月数据仓库定义Inmon的定义:DataWarehouseisasubject-oriented,integrated,time-variant,andnonvolatilecollectionofdatainsupportofmanagement’sdecisionmakingprocess数据仓库的特点数据仓库的数据是面向主题的

数据仓库的数据是集成的

数据仓库的数据是与时间相关的

数据仓库的数据是稳定的

2023/7/24第4页,课件共36页,创作于2023年2月简单的数据仓库架构2023/7/24第5页,课件共36页,创作于2023年2月数据仓库实际应用例子2023/7/24第6页,课件共36页,创作于2023年2月数据集成企业全面的经营数据OLTP分散在各个不同系统中(事件独立)银行:卡、储蓄、信贷、会计、中间业务等等系统BOSS+增值业务+财务集成数据建立关联事件关联(业务之间是相互关联)客户数据统一历史数据大量历史数据的保存问题中国建设银行一个中等规模的省产生每天的交易详细记录大约200M通常在业务系统中只保存当日数据历史数据查询困难2023/7/24第7页,课件共36页,创作于2023年2月数据仓库数据处理流程数据格式检查源数据清洁、抽取、转换ODS数据抽取、转换装载数据到DW装载到OLAP报表展现业务系统数据/外部数据DW数据抽取、转换DW数据生成报表装载数据到ODS分析性查询2023/7/24第8页,课件共36页,创作于2023年2月ETL简述2023/7/24第9页,课件共36页,创作于2023年2月ETL定义ETL:Extract-Transform-Load数据抽取(Extract)、转换(Transform)、装载(Load)的过程。ETL是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤2023/7/24第10页,课件共36页,创作于2023年2月ETL应用过程数据抽取抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取的定义。(数据源和文件等多种形式)数据传输数据传输是通过网络负责把远程的数据到本地目录下。

2023/7/24第11页,课件共36页,创作于2023年2月ETL应用过程数据的清洗和转换转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,清楚的监控数据转换的状态。数据转换是真正将源数据变为目标数据的关键环节,它包括数据格式转,换数据类型转换、数据汇总计算、数据拼接等等。清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应的清洗操作。2023/7/24第12页,课件共36页,创作于2023年2月ETL应用过程数据加载入库

数据加载主要是将经过转换和清洗的数据加载到数据仓库里面,即入库,可以通过数据文件直接装载或直连数据库的方式来进行数据装载,可以充分体现高效性ETL调度ETL的调度控制方式有两种:自动方式由系统每天定时或准实时启动后台程序,自动完成数据仓库ETL处理流程。手动方式用户可以通过前台监控平台,对单个目标或批量目标进行手工调度。2023/7/24第13页,课件共36页,创作于2023年2月ETL应用过程监控主要是监控ETL的整个过程,通过扫描ETL各模块的日志中的关键值,如记录时间等信息与当前的状态作比较,如果超过某一个值,则认为该模块运行可能出现问提,应告警。2023/7/24第14页,课件共36页,创作于2023年2月ETL工具框架2023/7/24第15页,课件共36页,创作于2023年2月OLAP简述2023/7/24第16页,课件共36页,创作于2023年2月OLAP&OLTP(on-linetransactionprocessing)OLTPOLAP用户操作人员,低层管理人员决策人员,高级管理人员功能日常操作处理分析决策DB设计面向应用面向主题数据当前的,最新的细节的,二维的分立的历史的,聚集的,多维的集成的,统一的存取读/写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百个DB大小100MB-GB100GB-TB2023/7/24第17页,课件共36页,创作于2023年2月什么是OLAP定义1:OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。定义2:OLAP(联机分析处理)

是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。2023/7/24第18页,课件共36页,创作于2023年2月相关基本概念1.维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。2.维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。3.维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)4.多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,…,维n,变量)。(时间,地区,产品,销售额)5.数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000)2023/7/24第19页,课件共36页,创作于2023年2月OLAP特性(1)快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。

(2)可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。(3)多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。。(4)信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。2023/7/24第20页,课件共36页,创作于2023年2月OLAP表现方式钻取改变维的层次,变换分析的粒度向上钻取(rollup)和向下钻取(drilldown)切片和切块在一部分维上选定值后,关心度量数据在剩余维上的分布如果剩余的维只有两个,则是切片;如果有三个,则是切块旋转(pivot)旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)2023/7/24第21页,课件共36页,创作于2023年2月OLAP的分析方法(一)切片、切块2023/7/24第22页,课件共36页,创作于2023年2月OLAP的分析方法(二)钻取按时间维向下钻取按时间维向上钻取602023/7/24第23页,课件共36页,创作于2023年2月OLAP的分析方法(三)旋转2023/7/24第24页,课件共36页,创作于2023年2月OLAP分类按照存储方式OLAPMOLAPHOLAPROLAP按照处理地点ClientOLAPServerOLAP2023/7/24第25页,课件共36页,创作于2023年2月OLAP实现方法ROLAP数据存储:基于关系数据库结构分类事实表:用来存储数据和维关键字维度表:每个维至少使用一个表来存放维的层次、成员类别等维的描述信息

数据模型星型模式雪花模式

MOLAP(MultidimensionalOLAP)数据存储:使用多维数组存储数据基于多维数据组织的OLAP实现以多维数据组织方式为核心结构分类:立方块(Cube)HOLAP(HybridOLAP)数据存储:基于混合数据组织的OLAP实现其他实现方法2023/7/24第26页,课件共36页,创作于2023年2月OLTP、ROLAP与MOLAP模式2023/7/24第27页,课件共36页,创作于2023年2月ROLAP的星型模式(StarSchema)事实表:用来存储事实的度量值和各个维的码值。维表:用来存放维的元数据(维的层次、成员类别等描述信息)。Time_idSalesTableDiscount%DollarsUnits"FactTable"Market_idProduct_idScenarioProduct_idProductTableSizeBrandProduct_Desc"DimensionTable"Time_idYearQuarterPeriod_DescPeriodTable"DimensionTable"ScenarioTableActualProfitScenario"DimensionTable"Market_idMarketTableRegionDistrictMarket_Desc"DimensionTable"2023/7/24第28页,课件共36页,创作于2023年2月MOLAP的多维立方体(Multicube)2023/7/24第29页,课件共36页,创作于2023年2月ROLAP与MOLAP比较ROLAP优势没有大小限制现有的关系数据库的技术可以沿用.可以通过SQL实现详细数据与概要数据的存储现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等大大提高ROALP的速度MOLAP优势性能好、响应速度快专为OLAP所设计支持高性能的决策支持计算复杂的跨维计算多用户的读写操作行级的计算2023/7/24第30页,课件共36页,创作于2023年2月ROLAP与MOLAP比较(续)ROLAP缺点一般比MDD响应速度慢不支持有关预计算的读写操作SQL无法完成部分计算无法完成多行的计算无法完成维之间的计算MOLAP缺点增加系统复杂度,增加系统培训与维护费用受操作系统平台中文件大小的限制,难以达到TB级(只能10~20G)需要进行预计算,可能导致数据爆炸无法支持维的动态变化缺乏数据模型和数据访问的标准2023/7/24第31页,课件共36页,创作于2023年2月OLAP体系结构ROLAPArchitectureMOLAPArchitectureSQLResultSetInfo.RequestResultSetDatabaseServer

RDBMSFront-endToolROALPArchitectureROLAPServerMetadataRequestProcessingSQLResultSetInfo.RequestResultSetLoadDatabaseServer

RDBMSFront-endToolMOALPArchitectureMOLAPServerMetadataRequestProcessing2023/7/24第32页,课件共36页,创作于2023年2月OLAP体系结构(续)HOLAPArchitectureResultSetORSQLQuerySQLResultSetInfo.RequestResultSetLoadDatabaseServer

RDBMSFront-endToolHybridArchitectureMOLAPServer2023/7/24第33页,课件共36页,创作于2023年2月流行的OLAP工具介绍OLAP产品HyperionEssbaseOracleExpressIBMDB2OLAPServerSybaseP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论