数据仓库概念设计应用_第1页
数据仓库概念设计应用_第2页
数据仓库概念设计应用_第3页
数据仓库概念设计应用_第4页
数据仓库概念设计应用_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DataWarehouse

数据仓库概念、设计及应用报告人:曹顺良2001年11月12日提纲1.为什么要建立数据仓库2.

数据仓库的概念及特性3.数据仓库的结构4.数据仓库的设计5.数据仓库的开发过程6.数据仓库的典型应用事务处理环境不适宜DSS应用的原因

事务处理和分析处理的性能特性不同操作型处理对数据的存取操作频率高而每次操作处理的时间短;

在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。数据集成问题数据动态集成问题历史数据问题数据的综合问题

抽取程序用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析数据时就与联机事务处理性能不发生冲突。用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。蜘蛛网问题数据缺乏可信性数据无时基数据算法上的差异抽取的多层次外部数据问题无起始的公共数据源生产率低根据全部数据生成企业报表定位数据需要浏览大量文件抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。数据转化为信息的不可行性数据没有集成化缺乏将数据转化为信息所需的历史数据体系结构设计环境的层次数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;数据的部门层几乎只存放导出数据;在数据个体层中完成大多数启发式分析操作层原子/数据仓库层部门层个体层数据仓库的概念

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。[WilliamH.Inmon]与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。数据仓库的特性

面向主题典型的主题领域:客户;产品;交易;帐目集成的数据提取、净化、转换、装载非易失的数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新随时间的变化性数据仓库中的时间期限要远远长于操作型系统中的时间期限(5~10年);数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库的键码结构总是包含某时间元素。数据仓库的结构早期细节级当前细节级轻度综合级数据集市高度综合级元数据操作型转换

数据仓库设计中的几个重要概念

ETLETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。元数据关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。分割结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。典型的元数数据包括::数据仓库表表的结构数据仓库表表的属性数据仓库的的源数据((记录系统统)从记录系统统到数据仓仓库的映射射数据模型的的规格说明明抽取日志访问数据的的公用例行行程序数据仓库设设计中的几几个重要概概念(续)DataMart数据集市--小小型的,面面向部门或或工作组级级数据仓库库。OperationDataStore操作数据存存储—ODS是能支持企企业日常的的全局应用用的数据集集合,是不不同于DB的一种新的的数据环境境,是DW扩展后得到到的一个混混合形式。。四个基本本特点:面面向主题的的(Subject-Oriented)、集成的、可可变的、当当前或接接近当前的的。datamodel数据模型--(1)逻辑数据据结构,包包括由DBMS为有效进行行数据库处处理提供的的操作和约约束;(2)用于表示示数据的系系统(例如如,ERD或关系型模模型)。artifact人工关系--在DSS环境中用于于表示参照照完整性的的一种设计计技术。企业数据模模型到数据据仓库数据据模型的转转换除去去纯纯粹粹用用于于操操作作型型环环境境的的数数据据在企企业业键键码码结结构构中中增增加加时时间间元元素素增加加导导出出数数据据创建建人人工工关关系系数据据模模型型的的规规范范化化/反反规规范范化化为了了减减少少程程序序在在表表中中的的跳跳转转、、节节省省I/O,,需将将多多个个相相关关的的表表合合并并;;引入入冗冗余余数数据据;;当访访问问概概率率有有很很大大悬悬殊殊时时,,要要对对数数据据做做进进一一步步分分离离;;在物物理理数数据据库库的的设设计计中中引引入入导导出出数数据据可可以以减减少少I/O;;建立立所所谓谓的的““创创造造的的””索索引引或或创创造造的的简简要要记记录录((如如卷卷中中的的前前十十名名顾顾客客是是————))数据仓库体系结构OLTP数据源数据仓库数据集市?数据采集及整合数据的映射规则、模型。。。

(元数据管理)数据仓库项目流程管理及系统性能管理和监控?数据展现及决策生产财务结算外部航线分析总量分析市场分析InfoPump数据分析、DM终端用户终端用户从操操作作型型的的现现存存系系统统到到数数据据仓仓库库中中数数据据转转换换工工作作的的难难点点现有有系系统统缺缺乏乏数数据据集集成成,,跨跨越越不不同同应应用用的的数数据据集集成成性性很很差差存取取现现存存系系统统的的效效率率,,扫扫描描已已有有文文件件成成了了数数据据仓仓库库体体系系结结构构设设计计者者主主要要面面对对的的问问题题时基的的变化化数据要要浓缩缩概念:数据周周期、、简要要记录录数据周周期::是指从从操作作型数数据发发生改改变起起,到到这个个变化化反映映到数数据仓仓库中中所用用的时时间。从操作作型环环境知知道数数据的的改变变到这这个变变化反反映到到数据据仓库库中至至少应应该经经历24小小时。。简要记记录::或聚集集记录录,是是把不不同操操作型型数据据的详详细信信息聚聚集在在一个个记录录中而而形成成的记记录。。好处::①减减少数数据量量;②为用用户的的访问问和分分析提提供了了一种种紧凑凑的方方便的的数据据组织织形式式;缺点::信息息的详详细程程度将将会降降低。。数据仓仓库的的建模模数据模模型所有的的实体体都是是平等等关系系。仅仅从从数据据模型型的角角度来来着手手设计计数据据仓库库会产产生一一种““平面面”效效应。。星型连连接事实表表:位于星星型连连接的的中央央,它它是被被大量量载入入数据据的实实体。。维表::周围围的其其它实实体。。在很多多情况况下::文本本数据据与数数值数数据是是分离离开的的。通过数数据预预连接接和建建立有有选择择的数数据冗冗余,,设计计者为为访问问和分分析过过程大大大简简化了了数据据。星型连连接应应用于于设计计数据据仓库库中很很大的的实体体,而而数据据模型型则应应用于于数据据仓库库中较较小的的实体体。VendordataVendordataVendordatavendor_id供应商cust_id客户order_id发货OrderdataOrderdataorder_id订单CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata产品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid数据建建模的的十条条戒律律①必须须回答答紧迫迫的问问题;;②必须须有正正确的的事实实表;;③将有有正确确的维维表,,描述述必须须按最最终用用户的的业务务术语语表达达;④必须须理解解数据据仓库库所影影响的的公司司过程程或影影响数数据仓仓库的的公司司过程程;⑤对于于事实实表,,应该该有正正确的的“粒粒度””;⑥根据据需要要存储储正确确长度度的公公司历历史数数据;;⑦以一一种对对于公公司有有意义义的方方式来来集成成所有有必要要的数数据;;⑧创建建必要要的总总结表表;⑨创建建必要要的索索引;;⑩能够够加载载数据据仓库库数据据库并并使它它以一一种适适宜的的方式式可用用。数据集集市外部数数据用自顶顶向下下的方方法构构建数数据仓仓库数据集集市建造企企业数数据仓仓库建设中中心数数据模模型一次性性的完完成数数据的的重构构工作作最小化化数据据冗余余度和和不一一致性性存储详详细的的历史史数据据从企业业数据据仓库库中建建造数数据集集市得到大大部分分的集集成数数据直接依依赖于于数据据仓库库的可可用性性操作数数据问题投资效效益的的时间间?建设中中心数数据模模型的的必要要性和和可能能性?初始费费用?企业数据仓库用自底底向上上的方方法构构建数数据仓仓库数据集集市建立部部门数数据集集市限制在在一个个主题题区域域快速投投资收收益区域自自治––设设计计的可可伸缩缩性强强对相关关部门门的应应用容容易复复制对每个个数据据集市市需要要数据据重构构存在一一定的的冗余余及不不一直直性逐步扩扩展到到企业业数据据仓库库(EDW)把建造造EDW作为一一个长长期的的目标标存在的的问题题:数据集集市的的数据据都是是可用用的吗吗?能生成成数据据模型型吗?如何解解决不不一致致性?外部数据操作数据(全局)&操作数据(局部)操作数数据(局部)数据集集市企业数数据仓仓库数据仓仓库的的开发发过程程建立或或获得得企业业的数数据模模型;;定义记记录系系统;;设计数数据仓仓库并并按主主题领领域进进行组组织;;设计和和建立立操作作型环环境中中的记记录系系统和和数据据仓库库之间间的接接口,,这些些接口口能保保证数数据仓仓库的的载入入工作作能有有序的的进行行;开始载载入第第一个个主题题领域域,进进入载载入和和反馈馈过程程,数数据仓仓库中中的数数据在在此过过程中中也在在不断断地改改变。。数据模模型的的内容容标识主主要主主题领领域。。各个主主要主主题之之间的的各种种关系系。清晰地地定义义模型型的边边界。。把原始始数据据和导导出数数据分分离。。每个主主题领领域需需要标标识键码属性属性分分组之之间的的关系系多重出出现的的数据据数据的的类型型表达数数据模模型的的最好好数据据最实时时最准确确最完备备与外部部数据据源最最近最具结结构兼兼容性性定义记记录系系统就就是找找出现现存系系统所所具有有的最最好的的数据据将数据据模型型变为为数据据仓库库要做做的主主要工工作如果原原先没没有时时间元元素的的话,,时间间元素素必须须加入入到键键码结结构中中必须清清除所所有的的纯操操作型型数据据需要将将参照照完整整性关关系转转换成成“人人工关关系””将经常常需要要用到到的到到处数数据假假如到到设计计中对数据据的结结构进进行调调整增加数数据阵阵列增加数数据冗冗余在合适适的情情况下下进一一步分分离数数据在合适适的时时候合合并数数据表表需要做做数据据的稳稳定性性分析析在接口口中需需完成成的工工作数据抽抽取对来自自操作作型、、面向向应用用型环环境的的数据据的集集成数据时时基的的变更更数据压压缩对现存存系统统环境境的有有效扫扫描数据仓仓库开开发成成功的的关键键关键::是数数据体体系结结构设设计者者和DSS分析者者之间间的反反馈循循环。。有几点点观察察结果果对数数据仓仓库环环境的的成功功建立立是至至关重重要的的问题题:DSS分析人人员一一定要要严格格遵循循“给给我我我所要要的东东西,,然后后我能能告诉诉你我我真正正需要要的东东西””的工工作模模式;;反馈循循环的的周期期越短短,越越有可可能成成功;;需要调调整的的数据据量越越大,,反馈馈循环环所需需要的的周期期就越越长数据仓仓库的的应用用在证券业业的应应用:可处理理客户户分析析、帐帐户分分析、、证券券交易易数据据分析析、非非资金金交易易分析析等多多个业业界关关心的的主题题,为为客户户提供供针对对其个个人习习惯、、投资资组合合的投投资建建议,,从而而真正正作到到对客客户的的贴心心服务务。在银行行领

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论