版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DataWarehouse
数据仓库概念、设计及应用报告人:曹顺良2001年11月12日提纲1.为什么要建立数据仓库2.数据仓库的概念及特性3.数据仓库的结构4.数据仓库的设计5.数据仓库的开发过程6.数据仓库的典型应用事务处理环境不适宜DSS应用的原因
事务处理和分析处理的性能特性不同操作型处理对数据的存取操作频率高而每次操作处理的时间短;
在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。数据集成问题数据动态集成问题历史数据问题数据的综合问题
抽取程序用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析数据时就与联机事务处理性能不发生冲突。用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。蜘蛛网问题数据缺乏可信性数据无时基数据算法上的差异抽取的多层次外部数据问题无起始的公共数据源生产率低根据全部数据生成企业报表定位数据需要浏览大量文件抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。数据转化为信息的不可行性数据没有集成化缺乏将数据转化为信息所需的历史数据体系结构设计环境的层次数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;数据的部门层几乎只存放导出数据;在数据个体层中完成大多数启发式分析操作层原子/数据仓库层部门层个体层数据仓库的概念
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。[WilliamH.Inmon]与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。数据仓库的特性
面向主题典型的主题领域:客户;产品;交易;帐目集成的数据提取、净化、转换、装载非易失的数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新随时间的变化性数据仓库中的时间期限要远远长于操作型系统中的时间期限(5~10年);数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库的键码结构总是包含某时间元素。数据仓库的结构早期细节级当前细节级轻度综合级数据集市高度综合级元数据操作型转换
数据仓库设计中的几个重要概念
ETLETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。元数据关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。分割结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。典型的元数数据包括::数据仓库表表的结构数据仓库表表的属性数据仓库的的源数据((记录系统统)从记录系统统到数据仓仓库的映射射数据模型的的规格说明明抽取日志访问数据的的公用例行行程序数据仓库设设计中的几几个重要概概念(续)DataMart数据集市--小小型的,面面向部门或或工作组级级数据仓库库。OperationDataStore操作数据存存储—ODS是能支持企企业日常的的全局应用用的数据集集合,是不不同于DB的一种新的的数据环境境,是DW扩展后得到到的一个混混合形式。。四个基本本特点:面面向主题的的(Subject-Oriented)、集成的、可可变的、当当前或接接近当前的的。datamodel数据模型--(1)逻辑数据据结构,包包括由DBMS为有效进行行数据库处处理提供的的操作和约约束;(2)用于表示示数据的系系统(例如如,ERD或关系型模模型)。artifact人工关系--在DSS环境中用于于表示参照照完整性的的一种设计计技术。企业数据模模型到数据据仓库数据据模型的转转换除去纯粹用用于操作型型环境的数数据在企业键码码结构中增增加时间元元素增加导出数数据创建人工关关系数据模型的的规范化/反规范化化为了减少程程序在表中中的跳转、、节省I/O,需将多个相相关的表合合并;引入冗余数数据;当访问概率率有很大悬悬殊时,要要对数据做做进一步分分离;在物理数据据库的设计计中引入导导出数据可可以减少I/O;建立所谓的的“创造的的”索引或或创造的简简要记录((如卷中的的前十名顾顾客是———)数据仓库体系结构OLTP数据源数据仓库数据集市?数据采集及整合数据的映射规则、模型。。。
(元数据管理)数据仓库项目流程管理及系统性能管理和监控?数据展现及决策生产财务结算外部航线分析总量分析市场分析InfoPump数据分析、DM终端用户终端用户从操作型的现现存系统到数数据仓库中数数据转换工作作的难点现有系统缺乏乏数据集成,,跨越不同应应用的数据集集成性很差存取现存系统统的效率,扫扫描已有文件件成了数据仓仓库体系结构构设计者主要要面对的问题题时基的变化数据要浓缩概念:数据周期、简简要记录数据周期:是指从操作型型数据发生改改变起,到这这个变化反映映到数据仓库库中所用的时时间。从操作型环境境知道数据的的改变到这个个变化反映到到数据仓库中中至少应该经经历24小时时。简要记录:或聚集记录,,是把不同操操作型数据的的详细信息聚聚集在一个记记录中而形成成的记录。好处:①减少少数据量;②为用户的访访问和分析提提供了一种紧紧凑的方便的的数据组织形形式;缺点:信息的的详细程度将将会降低。数据仓库的建建模数据模型所有的实体都都是平等关系系。仅仅从数据模模型的角度来来着手设计数数据仓库会产产生一种“平平面”效应。。星型连接事实表:位于星型连接接的中央,它它是被大量载载入数据的实实体。维表:周围的的其它实体。。在很多情况下下:文本数据据与数值数据据是分离开的的。通过数据预连连接和建立有有选择的数据据冗余,设计计者为访问和和分析过程大大大简化了数数据。星型连接应用用于设计数据据仓库中很大大的实体,而而数据模型则则应用于数据据仓库中较小小的实体。VendordataVendordataVendordatavendor_id供应商cust_id客户order_id发货OrderdataOrderdataorder_id订单CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata产品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid数据建模的十十条戒律①必须回答紧紧迫的问题;;②必须有正确确的事实表;;③将有正确的的维表,描述述必须按最终终用户的业务务术语表达;;④必须理解数数据仓库所影影响的公司过过程或影响数数据仓库的公公司过程;⑤对于事实表表,应该有正正确的“粒度度”;⑥根据需要存存储正确长度度的公司历史史数据;⑦以一种对于于公司有意义义的方式来集集成所有必要要的数据;⑧创建必要的的总结表;⑨创建必要的的索引;⑩能够加载数数据仓库数据据库并使它以以一种适宜的的方式可用。。数据集市外部数据用自顶向下的的方法构建数数据仓库数据集市建造企业数据据仓库建设中心数据据模型一次性的完成成数据的重构构工作最小化数据冗冗余度和不一一致性存储详细的历历史数据从企业数据仓仓库中建造数数据集市得到大部分的的集成数据直接依赖于数数据仓库的可可用性操作数据问题投资效益的时时间?建设中心数据据模型的必要要性和可能性性?初始费用?企业数据仓库用自底向上的的方法构建数数据仓库数据集市建立部门数据据集市限制在一个主主题区域快速投资收益益区域自治––设计的可可伸缩性强对相关部门的的应用容易复复制对每个数据集集市需要数据据重构存在一定的冗冗余及不一直直性逐步扩展到企企业数据仓库库(EDW)把建造EDW作为一个长期期的目标存在的问题:数据集市的数数据都是可用用的吗?能生成数据模模型吗?如何解决不一一致性?外部数据操作数据(全局)&操作数据(局部)操作数据(局部)数据集市企业数据仓库库数据仓库的开开发过程建立或获得企企业的数据模模型;定义记录系统统;设计数据仓库库并按主题领领域进行组织织;设计和建立操操作型环境中中的记录系统统和数据仓库库之间的接口口,这些接口口能保证数据据仓库的载入入工作能有序序的进行;开始载入第一一个主题领域域,进入载入入和反馈过程程,数据仓库库中的数据在在此过程中也也在不断地改改变。数据模型的内内容标识主要主题题领域。各个主要主题题之间的各种种关系。清晰地定义模模型的边界。。把原始数据和和导出数据分分离。每个主题领域域需要标识键码属性属性分组之间间的关系多重出现的数数据数据的类型表达数据模型型的最好数据据最实时最准确最完备与外部数据源源最近最具结构兼容容性定义记录系统统就是找出现现存系统所具具有的最好的的数据将数据模型变变为数据仓库库要做的主要要工作如果原先没有有时间元素的的话,时间元元素必须加入入到键码结构构中必须清除所有有的纯操作型型数据需要将参照完完整性关系转转换成“人工工关系”将经常需要用用到的到处数数据假如到设设计中对数据的结构构进行调整增加数据阵列列增加数据冗余余在合适的情况况下进一步分分离数据在合适的时候候合并数据表表需要做数据据的稳定性性分析在接口中需需完成的工工作数据抽取对来自操作作型、面向向应用型环环境的数据据的集成数据时基的的变更数据压缩对现存系统统环境的有有效扫描数据仓库开开发成功的的关键关键:是数数据体系结结构设计者者和DSS分析者之间间的反馈循循环。有几点观察察结果对数数据仓库环环境的成功功建立是至至关重要的的问题:DSS分析人员一一定要严格格遵循“给给我我所要要的东西,,然后我能能告诉你我我真正需要要的东西””的工作模模式;反馈循环的的周期越短短,越有可可能成功;;需要调整的的数据量越越大,反馈馈循环所需需要的周期期就越长数据仓库的的应用在证券业的应应用:可处理客户户分析、帐帐户分析、、证券交易易数据分析析、非资金金交易分析析等多个业业界关心的的主题,为为客户提供供针对其个个人习惯、、投资组合合的投资建建议,从而而真正作到到对客户的的贴心服务务。在银行领域域的应用:防范银行的的经营风险险、实现科科学管理以以及进行决决策.在税务领域域的应用::可以解决三三个方面的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 开业庆典致辞(集合15篇)
- 客服年度个人工作总结(15篇)
- 幼儿园饮早茶主题活动
- 2015山西道法试卷+答案+解析
- 建行的收入证明15篇
- 山东省潍坊市高三上学年阶段性监测语文试题(含答案)
- 智研咨询重磅发布:2024年中国6C超充电池行业供需态势、市场现状及发展前景预测报告
- 2024年中国液氢容器行业投资前景分析、未来发展趋势研究报告(智研咨询发布)
- 基于深度强化学习的视觉SLAM参数自适应研究
- 钢铁行业客服工作总结
- 2025年个人土地承包合同样本(2篇)
- (完整版)高考英语词汇3500词(精校版)
- 我的家乡琼海
- (2025)专业技术人员继续教育公需课题库(附含答案)
- 《互联网现状和发展》课件
- 2024-2025年突发紧急事故(急救护理学)基础知识考试题库与答案
- 【MOOC】计算机组成原理-电子科技大学 中国大学慕课MOOC答案
- 左心耳封堵术护理
- 2024年部编版八年级语文上册电子课本(高清版)
- 2024年上海健康医学院单招职业适应性测试题库及答案解析
- 2024年湖北省武汉市中考语文适应性试卷
评论
0/150
提交评论