




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库数据仓库库技术概概述1.1数据库到到数据仓仓库1.2数据仓库库的概念念和特征征1.3数据仓库库中的数数据组织织1.4数据仓库库体系结结构2传统的数数据环境境:以数据库库为中心心,数据据资源组组织方式式单一。数据处理理不断有有新需求求,从事事务处理理,批处处理到决决策分析析等,且且不同类类型的数数据处理理有不同同的处理理特点。人们认识识到:当数据处处理方式式发生变变化,而而数据组组织方式式并没有有改变时时,就会会出现数数据处理理方式和和数据环环境不相相适应,从而使使得数据据处理不不能获得得理想的的结果。结论:以单一的的数据组组织方式式进行组组织的数数据库,不能满满足数据据处理多多样化的的
2、要求,数据仓仓库技术术应运而而生。1.1从从数据据库到数数据仓库库31.1从从数据据库到数数据仓库库数据处理理具有多多层次的的特点,可分为为两大类类:操作型处处理On-Line Transaction Processing联机事务务处理系统(OLTP)也称为面面向交易易的处理理系统,其基本本特征是是用户的的原始数数据可以以立即传传送到计计算中心心进行处处理,并并在很短短的时间间内给出出处理结结果。这这样做的的最大优优点是可可以即时时地处理理输入的的数据,及时地地回答。也称为为实时系系统(Realtime System)。衡量联联机事务处理理系统的一个重重要性能能指标是是系统性性能,具具体体现现
3、为实时时响应时时间(ResponseTime),即用户户在终端端上送入入数据之之后,到到计算机机对这个个请求给给出答复复所需要要的时间间。OLTP数据库旨旨在使事事务应用用程序仅仅写入所所需的数数据,以以便尽快快处理单单个事务务。41.1从从数据据库到数数据仓库库分析型处处理用于管理理人员的的决策分分析,经经常要访访问大量量的历史史数据,而很少少对数据据库进行行写操作作,除非非对数据据库进行行更新或或装入时时。两种不同同类型的的数据处处理存在在巨大差差异,从从应用的的对象到数据的的结构、内容和用法都不相同同。51.1从从数据据库到数数据仓库库(1)事事务处理理和分析析处理的的性能特特征不同同事
4、务处理理环境:用户的行行为特点点是数据据的存取取操作频频率高,而每次次操作处处理的时时间短。因此系系统可以以允许多多个用户户按分时时方式使使用系统统资源,同时保保持较短短的响应应时间。分析处理理环境:用户的行行为模式式与上面面完全不不同,一一个分析析处理程程序可能能要连续续运行几几个小时时,从而而消耗大大量系统统资源。61.1从从数据据库到数数据仓库库【例】在OLTP系统中,事务的的吞吐量量比率通通常使用用TPS或TPM来表示。TPS:TransactionsPer Second,即服务务器每秒秒处理的的事务数数。TPM:TransactionsPer Minute,tpm值在国内内外被广广泛
5、用于于衡量计计算机系系统的事事务处理理能力。在DSS中,吞吐吐量通常常用每小时处处理的查查询数QPH来表示。这些查查询数量量庞大,在它完完成前,占用绝绝大部分分机器资资源。一个OLTP系统即使使很大,也不过过300GB左右,而而一个大大型DSS的规模可可以轻易易达到1TB。(1TB=1000GB)71.1从从数据据库到数数据仓库库(2)数数据集成成问题事务处理理:目的在于于使业务务处理自自动化,一般只只需要与与本部门门业务相相关的当当前数据据,而对对整个企企业范围围内的集集成应用用考虑很很少。分析处理理:需要集成成的数据据,不仅仅需要整整个企业业内部各各部门的的相关数数据,还还需要企企业外部部
6、、竞争争对手等等的相关关数据。81.1从从数据据库到数数据仓库库当前绝大大多数企企业内部部数据的的真正状状况是分分散而非非集成的的,主要要原因:事务处理理应用的的分散“蜘蛛网网”问题题数据不一一致问题题9101112131415161.1从从数据据库到数数据仓库库(3)历史数数据问题题事务处理理:一般只需需当前数数据。数数据库中中也只存存储短期期数据,并且不不同数据据保存期期也不相相同。即即使有历历史数据据保存,也不利利用。分析处理理:对决策者者而言,历史数数据相当当重要,许多分分析方法法必须以以大量历历史数据据为依托托,没有有对历史史数据的的详细分分析,很很难把握握企业的的发展趋趋势。171
7、.1从从数据据库到数数据仓库库(4)数据的的综合问问题事务处理理积累了了大量的的细节数数据,一一般DSS不对细节节数据分分析。一一是细节节数据量量大,严严重影响响分析效效率;二二是太多多的细节节数据不不利于分分析人员员将注意意力集中中在有用用信息上上。因此此,分析析处理前前经常要要综合,而事务务处理系系统不具具备这种种综合能能力。18第一章数数据仓仓库技术术概述1.1数据库到到数据仓仓库1.2数据仓库库的概念念和特征征1.3数据仓库库中的数数据组织织1.4数据仓库库体系结结构191.2数数据仓仓库的概概念和特特征数据仓库库系统构构造方面面的领头头设计师师W.H.Inmen对数据仓仓库的定定义为
8、:数据仓库库是面向向主题的的、集成成的、具具有时间间特征的的、稳定定的数据据集合,用于支支持经营营管理中中的决策策制定过过程。201.2数数据仓仓库的概概念和特特征从定义可可看出:DW是明确为为决策支支持服务务,而DB是为事务务处理服服务。数据仓库库的主要要特征:数据仓库库的数据据是面向向主题的的数据仓库库的数据据是集成成的数据仓库库的数据据是不可可更新的的数据仓库库的数据据是随时时间不断断变化的的下面讨论论数据仓仓库的关关键特征征:211.2数数据仓仓库的概概念和特特征1.数据据仓库的的数据是是面向主主题的从逻辑意意义上讲讲,主题题是企业业中某一一宏观分分析领域域所涉及及的分析析对象。主题是
9、是一个抽抽象的概概念,是是在较高高层次上上将企业业信息系系统中的的数据综综合、归归类并进进行分析析利用的的抽象。所谓较较高层次次是相对对面向应应用的数数据组织织方式而而言的,是指按按照主题题进行数数据组织织的方式式具有更更高的数数据抽象象级别。221.2数数据仓仓库的概概念和特特征DW的数据是是面向主主题的面向应用用的数据据经常会会随着各各种经营营环境的的改变而而发生变变化,面面向主题题的数据据则因为为比应用用具有更更高的抽抽象层次次而比较较稳定。但数据的的产生都都是基于于应用而而产生,因此数数据在进进入数据据仓库之之前,要要经过加加工和集集成,将将原始数数据结构构做一个个从面向向应用到到面向
10、主主题的转转变。231.2数数据仓仓库的概概念和特特征DW的数据是是面向主主题的【例】一家采用用“会员员制”经经营方式式的商场场,按业业务建立立起若干干子系统统,并按按业务处处理要求求建立各各自数据据库模式式:采购子系系统:订单(订单号号,供应应商号,总金额额,日期期)订单细则则(订单号号,商品品号,类类别,单单价,数数量)供应商(供应商商号,供供应商名名,地址址,电话话)销售子系系统:顾客(顾客号号,姓名名,性别别,年龄龄,文化化程度,地址,电话)销售(员工号号,顾客客号,商商品号,数量,单价,日期)241.2数数据仓仓库的概概念和特特征DW的数据是是面向主主题的人事管理理子系统统:员工(员
11、工号号,姓名名,性别别,年龄龄,文化化程度,部门号号)部门(部门号,部门名名称,部部门主管管,电话话)库存管理理子系统统:领料单(领料单单号,领领料人,商品号号,数量量,日期期)进料单(进料单单号,订订单号,进料人人,收料料人,日日期)库存(商品号号,库房房号,库库存量,日期)库房(库房号号,仓库库管理员员,地点点,库存存商品描描述)251.2数数据仓仓库的概概念和特特征DW的数据是是面向主主题的传统的面面向应用用进行数数据组织织方式的的特征为为:重点在“数据”和“处处理”;通常要反反映一个个企业内内数据的的动态特特征;所生成的的各项数数据库模模式与企企业实际际的业务务处理流流程中所所涉及的的
12、单据及及文档,有很好好的对应应关系;并没有真真正体现现数据与与数据处处理的分分离。261.2数数据仓仓库的概概念和特特征DW的数据是是面向主主题的面向应用用到面向向主题的的转变:面向主题题的数据据组织方方式应分分为两个个步骤:抽取主题题确定每个个主题所所包含的的数据内内容27抽取主题题应该是按按照分析析的要求求来确定定主题。1.在OLTP数据库中中进行数数据组织织时要考考虑如何何更好地地记录下下每一笔笔采购业业务的情情况,我我们用“订单”、“订订单细则则”以及及“供应应商”三三个数据据库模式式来描述述一笔采采购业务务所涉及及的数据据内容,这就是是面向应应用来进进行数据据组织的的方式;282.在
13、数据仓仓库中,对于商商品采购购的分析析活动主主要是要要了解各各供应商商的情况况,显然然“供应应商”是是采购分分析的对对象。我我们并不不需要象象“订单单”和“订单细细则”这这样的数数据库模模式,因因为它们们包含的的是纯操操作型的的数据;但是仅仅仅只用用OLTP数据库的的“供应应商”中中的数据据又是不不够的,因而要要重新组组织“供供应商”这个主主题。29确定主题题的数据据内容概括各种种分析对对象,我我们抽取取了商场场的供应应商、商商品、顾顾客三个个主题。然后确确定每个个主题所所应包含含的数据据内容。以“商商品”主主题为例例,应该该包括两两个方面面的内容容:第一,商商品固有有信息,如商品品名称,商品
14、类类别以及及型号、颜色等等描述信信息;第二,商商品的流流动信息息,如某某商品采采购信息息、商品品销售信信息及商商品库存存信息等等。301.2数数据仓仓库的概概念和特特征DW的数据是是面向主主题的商品:商品固有有信息:商品号,商品名名,类别别,颜色色等商品采购购信息:商品号,供应商商号,供供应价,供应日期,供应量量等商品销售售信息:商品号,顾客号号,售价价,销售售日期,销售售量等商品库存存信息:商品号,库房号号,库存存量,日日期等311.2数数据仓仓库的概概念和特特征DW的数据是是面向主主题的供应商:供应商固固有信息息:供应商号号,供应应商名,地址,电话等。供应商品品信息:供应商号号,供应应价,
15、供供应日期期,供应量等等。顾客:顾客固有有信息:顾客号,顾客名名,性别别,年龄龄,文化程度度,住址址,电话话等。顾客购物物信息:顾客号,商品号号,售价价,购买买日期,购买买量等。32比照商场场原有数数据库的的数据模模式,我我们可以以看到:首先,在在从面向向应用到到面向主主题的转转变过程程中,丢丢弃了与与分析活活动关系系不大的的信息。其次,在在原有的的数据库库模式中中,关于于商品的的信息分分散在各各子系统统中。33面向主题题的数据据组织方方式是根根据分析析要求将将数据组组织成一一个完备备的分析析领域,即主题域域。主题题域应该该具有:1.独立性,它必须具具有独立立内涵。2.完备性,就是要求求对任何
16、何一个对对商品的的分析处处理要求求,我们应该该能在“商品”这一主主题内找找到该分分析处理理所要求求的内容容。不同主题题之间也也有重叠叠的内容容,但只只是逻辑辑上的重重叠,细细节级上上的重叠叠。供应商顾 客商 品34主题是一一个在较较高层次次上对数数据的抽抽象,这使得面面向主题题的数据据组织可可以独立立于数据据的处理理逻辑,因而可以以在这种种数据环环境上方方便地开开发新的的分析型型应用;同时这这种独立立性也是是建设企企业全局局数据库库所要求求的,所以面向向主题不不仅是适适用于分分析型数数据环境境的数据据组织方方式,同时也是是适用于于建设企企业全局局数据库库的组织织。351.2数数据仓仓库的概概念
17、和特特征DW的数据是是面向主主题的主题的实实现:一个主题题可划分分成多个个表,基基于一个个主题的的所有表表都有一一个公共共码,作作为主码码的一部部分,将将各表统统一起来来,体现现它们是是属于一一个主题题。例如实现现商品主主题:361.2数数据仓仓库的概概念和特特征DW的数据是是面向主主题的主题:商品公共码键键:商品号商品表(商品号,商品名名,类型型,颜色色,)采购表1(商品号,供应商商号,供供应日期期,供应应价,)采购表2(商品号,时间段段,采购购总量,):采购表n(商品号,时间段段,采购购总量,)描述的是是商品的的固有信信息描述的是是商品的的采购细细节信息息时间段不不等的采采购综合合表371
18、.2数数据仓仓库的概概念和特特征DW的数据是是面向主主题的销售表1(商品号,顾客号号,销售售日期,售价,销售量,)销售表2(商品号,时间段段,销售售总量,):销售表n(商品号,时间段段,销售售总量,)库存表1(商品号,库房号号,库存存量,日日期,)库存表2(商品号,库房号号,库存存量,月月份,):库存表n(,)381.2数数据仓仓库的概概念和特特征2.数据据仓库的的数据是是集成的的通常,构构造数据据仓库是是将多个个异种数数据源(如关系系DB、一般文件件和联机机事务处处理记录录)集成在一一起,使使用数据据清理和和数据集集成技术术,确保保命名约约定、编编码结构构、属性性度量等等的一致致性。主要做两两个工作作统一源数据中所有矛盾之处进行数据综合和计算391.2数数据仓仓库的概概念和特特征3.数据据仓库的的数据是是稳定的的数据仓库库的数据据反映的的是一段段相当长长时间内内的历史史数据,是不同同时点的的数据库库快照的的集合,以及基于于这些快快照进行行统计、综合和和重组的的导出数数据,而而不是联联机处理理的数据据。OLTP数据库中中的数据据经过抽抽取(Extrac
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 运动服装生产中的快速响应生产模式考核试卷
- 草原割草与草地碳氮平衡考核试卷
- 纸品加工技术考核试卷
- 实践中遇到的嵌入式问题试题及答案
- 碳酸饮料配方设计考核试卷
- 数据库性能监控的关键指标试题及答案
- 公路工程资本运作试题及答案
- 纳米技术在印刷包装中的应用考核试卷
- 行政组织理论的统计分析方法及2025年试题及答案
- 嵌入式技术的改进与趋势试题及答案
- 眼球的结构与功能
- 《社会主义制度在中国的确立》示范课教学设计【高中思想政治人教版必修1中国特色社会主义】
- 立方米卧式浓硫酸储罐设计
- 三乙胺安全标签
- GB/T 4490-2021织物芯输送带宽度和长度
- GB/T 28650-2012公路防撞桶
- GB/T 17793-1999一般用途的加工铜及铜合金板带材外形尺寸及允许偏差
- ICU常见检查项目及课件
- 土地荒漠化的防治(公开课)课件
- MSA量测系统分析RMSA量测系统分析课件
- 中考备考应对中考历史学科的复习策略和解题技巧课件
评论
0/150
提交评论