数据仓库概述和设计_第1页
数据仓库概述和设计_第2页
数据仓库概述和设计_第3页
数据仓库概述和设计_第4页
数据仓库概述和设计_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2/5/2023大数据培训-数据仓库概述讲师:杨勇2015年7月电话:133820447282/5/2023数据仓库提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)2/5/2023基本概念—数据仓库产生背景数据仓库技术是随着人们对大型数据库系统研究的不断深入,在传统数据库技术基础之上发展而来的,其主要目的就是为决策提供支持,为OLAP、数据挖掘深层次的分析提供平台。数据仓库是一个和实际应用密不可分的研究领域,与传统数据库相比,数据仓库不仅引入了许多新的概念,而且在体系结构、数据组织等方面,均有其自身的特点。2/5/2023基本概念—数据仓库定义数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,主要用于支持管理决策和信息的全局共享。-----------数据仓库之父BillInmon在1991年出版的“BuildingtheDataWarehouse”(《建立数据仓库》)

2/5/2023基本概念—数据仓库特征 [Inmon,1996]面向主题一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;…)典型的主题领域:客户;产品;交易;帐目主题领域以一组相关的表来具体实现相关的表通过公共的键码联系起来(如:顾客标识号CustomerID)每个键码都有时间元素(从日期到日期;每月累积;单独日期…)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)集成数据提取、净化、转换、装载稳定性批处理增加,仓库已经存在的数据不会改变随时间而变化(时间维)管理决策支持2/5/2023基本概念—DataMart,ODSDataMart数据集市--

小型的,面向部门或工作组级数据仓库。OperationDataStore操作数据存储—ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。2/5/2023基本概念—ETL,元数据,粒度,分割ETL(也有ELT)ETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。MicrosoftDTS;IBMVisualWarehouseetc.元数据关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。分割数据分散到各自的物理单元中去,它们能独立地处理。2/5/2023数据

数据仓库是一个建设过程,而不是一个产品。数据仓库是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现方法来帮助决策支持。数据仓库最新理解数据信息知识决策获取管理使用2/5/2023数据仓库提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)2/5/2023数据仓库体系结构及组件体系结构ETL工具元数据库(Repository)及元数据管理数据访问和分析工具2/5/2023体系结构

源数据库系统数据抽取、转换加载WarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadata数据集市数据访问与分析中央数据仓库CentralDataWarehouseMid-TierMid-TierDataMartDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS2/5/2023带ODS的体系结构源数据库系统数据抽取、转换、加载WarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadata数据集市数据访问与分析中央数据仓库和ODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDWTools2/5/2023一个实际的数据仓库的完整架构数据转换中央数据仓库信息展现业务用户源数据数据获取数据管理数据使用项目管理数据仓库实施指导方法论业务规划信息评估逻辑数据模型设计物理数据模型设计数据库管理元数据管理应用开发顾问咨询知识转移营销系统财务系统物资系统PMS系统抽取转化过滤加载随即查询报表多维分析数据挖掘Portal集成RelationalTransformationOLAPDataMining数据集市企业级EDW直接用户(客户端)Olap用户Web用户应用服务器决策者分析员研究员查询人员2/5/2023数据仓库的焦点问题-数据的获得、存储和使用数据仓库和集市的加载能力至关重要数据仓库和集市的查询输出能力至关重要RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterpriseDataWarehouseDatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool2/5/2023ETL工具去掉操作型数据库中的不需要的数据统一转换数据的名称和定义计算汇总数据和派生数据估计遗失数据的缺省值调节源数据的定义变化

2/5/2023ETL工具体系结构2/5/2023元数据库及元数据管理元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-[AlexBersonetc,1999]技术元数据包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括:数据源信息转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)目标数据的仓库对象和数据结构定义数据清洗和数据增加的规则数据映射操作访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等2/5/2023元数据库及元数据管理

商业元数据给用户易于理解的信息,包括:主题区和信息对象类型,包括查询、报表、图像、音频、视频等Internet主页支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等数据仓库操作型信息例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法

2/5/2023数据访问和分析工具报表OLAP数据挖掘2/5/2023数据仓库设计自上而下(Top-Down)自底而上(BottomUp)混合的方法数据仓库建模2/5/2023自上而下设计方法建立企业数据仓库通用数据模型数据重新执行减少冗余和不一致

详细和历史数据;

全局数据知识发现根据企业数据仓库(EDW)建立数据集市部门级数据仓库主要为汇总数据直接依赖有效的数据仓库本地数据集市外部数据本地数据集市操作数据企业数据仓库2/5/2023自底而上设计方法创建部门的数据集市范围局限于一个主题区域快速的ROI--局部的商业需求得到满足本部门自治--设计上具有灵活性对其他部门数据集市是一个好的指导容易复制到其他部门需要为每个部门做数据重建有一定级别的冗余和不一致性一个切实可行的方法扩大到企业数据仓库创建EDB作为一个长期的目标局部数据集市外部数据操作型数据(全部)操作型数据(局部)操作型数据(局部)局部数据集市企业数据仓库EDB2/5/2023数据仓库建模—星型模式DateMonthYearDateCustIdCustNameCustCityCustCountryCust销售事实表

Date

Product

Store

Customer

unit_sales

dollar_sales

Yen_sales度量ProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore2/5/2023数据仓库建模—雪花模式

DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTable

Date

Product

Store

Customer

unit_sales

dollar_sales

Yen_sales度量ProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStore2/5/2023提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)2/5/2023数据仓库技术管理大量数据能够管理大量数据的能力能够管理好的能力管理多介质(层次)主存、扩展内存、高速缓存、DASD、光盘、缩微胶片监视数据决定是否应数据重组决定索引是否建立得不恰当决定是否有太多数据溢出决定剩余的可用空间利用多种技术获得和传送数据批模式,联机模式并不非常有用程序员/设计者对数据存放位置的控制(块/页)数据的并行存储/管理元数据管理2/5/2023数据仓库技术数据仓库语言接口能够一次访问一组数据能够一次访问一条记录支持一个或多个索引有SQL接口数据的高效装入高效索引的利用用位映像的方法、多级索引等数据压缩I/O资源比CPU资源少得多,因此数据解压缩不是主要问题复合键码(因为数据随时间变化)变长数据加锁管理(程序员能显式控制锁管理程序)单独索引处理(查看索引就能提供某些服务)快速恢复2/5/2023数据仓库技术其他技术特征,传统技术起很小作用事务集成性、高速缓存、行/页级锁定、参照完整性、数据视图传统DBMS与数据仓库DBMS区别为数据仓库和决策支持优化设计管理更多数据:10GB/100GB/TB传统DBMS适合记录级更新,提供:锁定Lock、提交Commit、检测点CheckPoint、日志处理Log、死锁处理DeadLock、回退Roolback.基本数据管理,如:块管理,传统DBMS需要预留空间索引区别:传统DBMS限制索引数量,数据仓库DBMS没有限制通用DBMS物理上优化便于事务访问处理,而数据仓库便于DSS访问分析改变DBMS技术多维DBMS和数据仓库多维DBMS作为数据仓库的数据库技术,这种想法是不正确的多维DBMS(OLAP)是一种技术,数据仓库是一种体系结构的基础双重粒度级别(DASD/磁带)2/5/2023数据仓库技术其他技术特征,传统技术起很小作用事务集成性、高速缓存、行/页级锁定、参照完整性、数据视图传统DBMS与数据仓库DBMS区别为数据仓库和决策支持优化设计管理更多数据:10GB/100GB/TB传统DBMS适合记录级更新,提供:锁定Lock、提交Co

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论