版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
UNITfour
数据仓库技术
1 学完本讲后,你应该能够了解:数据仓库中没有联机更新,因而数据仓库比数据库需要一系列更简单的技术;但数据仓库有很多特殊的技术上的需求;数据仓库的专用DBMS与通用DBMS的区别;多维DBMS和数据仓库之间的互补关系;数据仓库环境中的元数据与操作型环境中的元数据所扮演的角色不同;为了理解和解释一段时期内的信息,数据仓库需要一个全新的上下文维数据仓库的高效刷新方法:”数据复制”和”变化数据捕捉”本讲主要目标2
一.数据仓库的技术需求 二.数据仓库专用DBMS 三.多维DBMS和数据仓库 四.数据仓库环境中的元数据 五.上下文维和上下文信息 六.建立数据仓库 七.数据仓库的数据刷新内容提纲3数据仓库的技术需求4数据仓库的技术需求数据仓库与数据库技术需求不同的原因:数据仓库中没有联机数据更新 比数据库的技术需求更简单数据仓库中的数据量非常大 要考虑大量和不同数据的存储和查询的技术和效率数据仓库的数据来源于现有的系统,而现有的各个系统可能使用不同的技术 不同来源数据的集成、转换和传送5数据仓库的技术需求数据仓库的技术需求管理大量数据管理各种各样介质上的数据方便的索引和监视数据大量接口技术允许程序员将数据直接放在物理存储设备上数据的并行存储和访问数据仓库的元数据控制高效地装入数据仓库有效地使用索引以压缩方式存储数据支持复合键码有效地管理变长数据有选择地关闭锁管理单独索引处理从大容量存储器迅速恢复6数据仓库的技术需求管理大量数据分四个方面基本的管理技术效率存储的费用处理的费用7数据仓库的技术需求管理各种各样介质上的数据 考虑访问速度和存储费用,一个满载的数据仓库应该放在多种存储介质上:8数据仓库的技术需求方便的索引和监视数据成功的数据仓库必须能方便和有效地检索数据成功的数据仓库的数据必须能被随意地监视监视数据仓库的数据的理由:决定是否应数据重组决定索引是否建立得恰当决定是否有太多数据溢出决定数据的统计成分决定剩余的可用空间9数据仓库的技术需求大量接口技术能够用各种不同的技术获得和传送数据接口不仅要高效,还要便于使用能够在批模式下运行10数据仓库的的技术需求求允许程序员员将数据直直接放在物物理存储设设备上为了对数据据进行高效效地访问和和更新,程程序员需要要在物理的的块/页的的一级上对对数据的存存放进行特特殊的控制制11数据仓库的的技术需求求数据的并行行存储和访访问当数据被并并行存储和和管理时,性能会提提高很多12数据仓库的的技术需求求数据仓库的的元数据控控制数据仓库的的用户应该该能够对元元数据进行行准确和实实时的访问问典型的元数数据数据仓库表表的结构数据仓库表表的属性数据仓库的的源数据(记录系统统)从记录系统统到数据仓仓库的映射射数据模型的的规格说明明抽取日志访问数据的的公用例行行程序13数据仓库的的技术需求求数据仓库要要有多种语语言接口数据仓库需需要有非常常丰富的语语言接口数据仓库接接口语言需需要能够一次访访问一组数数据能够一次访访问一条记记录特别要保证证,为了满满足某个访访问要求,能够支持持一个或多多个索引能够插入、删除、更新数据14数据仓库的的技术需求求高效地装入入数据仓库库在装入数据据的同时,索引也要要高效地装装入15数据仓库的的技术需求求有效地使用用索引数据仓库技技术不仅必必须能够方方便地支持持新索引的的创建和装装入,而且且要能够高高效地访问问这些索引引高效访问索索引的方法法位映象的方方法多级索引将部分或全全部索引装装入内存当被索引的的数据的次次序允许压压缩时,对对索引项进进行压缩创建选择索索引或范围围索引16数据仓库的的技术需求求以压缩方式式存储数据据数据仓库中中的数据很很少更新,数据压缩缩的管理很很简单解压缩的开开销是CPU开销,不是I/O资源的的开销17数据仓库的的技术需求求支持复合键键码复合键码在在数据仓库库中随处可可见18数据仓库的的技术需求求有效地管理理变长数据据在数据仓库库中,变长长数据很稳稳定,没有有数据库中中变长数据据的固有性性能问题19数据仓库的的技术需求求有选择地关关闭锁管理理应用加锁管管理程序的的后果之一一是它消耗耗了相当的的资源,即即使数据不不被更新也也是一样20数据仓库的的技术需求求单独索引处处理当只通过查查看一下索索引就可以以满足某些些请求时,由于用不不着查看数数据的最初初数据源而而会更加有有效21数据仓库的的技术需求求从大容量存存储器迅速速恢复指能够从非非直接存取取存储设备备快速地恢恢复数据仓仓库表.当当可以从二二级存储设设备上恢复复时,就可可以节约大大量开支22数据仓库专专用DBMS23数据仓库专专用DBMS数据仓库专专用数据库库管理系统统--是特特别为数据据仓库和决决策支持而而优化设计计的管理系系统.与通用DBMS的区区别专用DBMS的处理理类型为装装入和访问问,而通用用DBMS必须适合合于记录级级的数据更更新专用DBMS不需要要自由空间间,而通用用DBMS对数据在在块级上的的管理要包包括一些附附加空间专用DBMS可以使使用更完善善的索引结结构,而通通用DBMS限制有有限数量的的索引专用DBMS物理上上优化数据据是为了便便于访问和和分析,而而通用DBMS优化化数据是为为了事务的的访问24数据仓库专专用DBMS是否应该改改变DBMS技术?是当今可用的的DBMS技术,当当数据仓库库首次载入入数据时并并不合适数据仓库已已经变得非非常之大,以至于应应该提出新新的技术方方法数据仓库的的利用已经经提高许多多,也改变变了许多,使得现在在的数据仓仓库的DBMS技术术已经不适适用了25数据仓库专专用DBMS是否应该考考虑找一种种新的DBMS技术术?新的DBMS技术是是否满足可可预知的需需求?从旧的DBMS向新新的DBMS的转换换应该怎样样去做?转换的程序序应该怎样样改变?26多维DBMS和数据仓库27多维DBMS和数据据仓库多维DBMS(有时时也叫”数数据集市””)多维DBMS提供一一种信息系系统结构,使得对数数据的访问问非常灵活活,可以以以多种方法法对数据进进行分片、分割,动态地考察察汇总数据据和细节数数据的关系系多维DBMS不仅提提供了灵活活性,还可可以对终端端用户进行行管理多维DBMS和数据据仓库有互互补关系28多维DBMS和数据据仓库多维DBMS数据集集市的关系系型基础优能支持大量量数据能支持数据据的动态连连接已被证实是是有效的技技术如果对数据据的使用模模型不清楚楚的话,关关系型结构构与其他任任何结构一一样好劣性能上不是是最好的不能单独对对访问处理理进行优化化29多维DBMS和数据据仓库多维DBMS数据集集市的“立立方体”基基础优对于DSS处理性能能上是优化化的能够对数据据的快速访访问进行优优化如果已知数数据访问的的模式,则则数据的结结构可以优优化能够很轻松松地”切片片和分块””可以用多种种方法检测测劣几乎不能处处理像标准准的关系模模型那么多多的数据不支持通用用的更新处处理装入的时间间很长如果对路径径的访问不不被数据设设计所支持持的话,这这种结构就就显得不灵灵活对数据的动动态连接的的支持是有有问题的30数据仓库中中的元数据31数据仓库中中的元数据据数据仓库中中的元数据据包括两大大部分:有关集成的的信息数据仓库字字典32数据仓库中中的元数据据数据仓库中中元数据特特点服务于DSS专业人人员,而不不仅仅是IT人员33数据仓库中中的元数据据数据仓库中中元数据特特点涉及到从操操作型环境境到数据仓仓库环境的的映射34数据仓库中中的元数据据数据仓库中中元数据特特点数据会存在在一段很长长的时间35上下文维和和上下文信息息36上下文维和和上下文信信息数据仓库中中需要上下下文维数据仓库的的一个重要要特征是能能够对一段段时间的信信息进行存存储和管理理为了理解和和解释一段段时间内的的信息,需需要信息发发生的背景景三个级别的的上下文信信息简单上下文文信息复杂上下文文信息外部上下文文信息37上下文维和和上下文信信息简单上下文文信息与数据本身身的基本结结构有关,包括数据的结构构数据的编码码数据的命名名约定描述数据据的度量量数据的多多少数据增长长速度数据的哪哪一部分分增长数据是怎怎样被使使用的简单上下下文以往往是用字字典,目目录,系系统监视视器等管管理的38上下文维维和上下下文信息息复杂上下下文信息息描述的是是和简单单上下文文相同的的数据,但从不不同的侧侧面描述,其强强调下面面几点产品定义义市场领域域定价包装组织结构构分发复杂上下下文信息息非常有有用但基基本,但但非常难难以捉摸摸,它令令人难以以捉摸是是因为它它是想当当然的,并存在在于背景景环境中中39上下文维维和上下下文信息息外部上下下文信息息是公司以以外的,但在理理解随时时间变化化的信息息方面起起重要作作用的信信息,实实例包括括经济预测测通货膨胀胀金融税务经济增长长政治信息息竞争信息息技术进展展40上下文维维和上下下文信息息捕获和管管理上下下文信息息复杂上下下文信息息和外部部上下文文信息是是非结构构化的上下文信信息变化化很快以往管理理上下文文信息的的方法的的缺点信息的管管理针对对信息系系统的开开发者,而不是是最终用用户对上下文文管理的的意图是是被动的的对上下文文管理的的意图在在很多情情况下会会从开发发计划中中删除掉掉对上下文文管理的的意图仅仅局限于于简单上上下文41建立数据仓库库42建立数据仓库库建立数据仓库库的任务就是是将数据源中中的数据整理理后按照数据据仓库的结构构,放入数据据仓库的物理理存储介质中中数据仓库的建建立分为三个个子任务:抽取数据(extractingdata)转换数据(transformingdata)加载数据(transporting/loadingdata)因此,建立数数据仓库的过过程也称为ETT过程或或ETL过程程43建立数据仓库库ETT过程ExtractsourcedataTransform/cleandataIndexandsummarizeLoaddataintoWHDetectchangesRefreshdataProgramsToolsETTOperational
systemsWarehouseBrowser:http://HollywoodX+Customers:arecorofasX+Customers:Browser:http://HollywoodBrowser:http://HollywoodX+Gateways44数据仓库的数据刷新45数据仓库的数数据刷新数据仓库的数数据定期刷新新是一项巨大大的开销数据刷新的方方法直接读取老的的传统的数据据库
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年防洪工程承包商建设借款合同3篇
- 事业单位人力资源聘用合同(2024版)版B版
- 2024离婚协议房产
- 2025年度高级软件开发与技术服务合同2篇
- 二零二五版辣椒种子生产与辣椒苗代销合作协议2篇
- 2024版工程协议监管及进度记录台账一
- 二零二五版航空航天设备研发与采购合同范本3篇
- 2024年版砖结构建筑劳务合作模板协议版B版
- 二零二五年度烧烤餐饮业商铺租赁合同书3篇
- 二零二五版宠物伤害赔偿及责任承担协议3篇
- 生物医药大数据分析平台建设
- EPC总承包项目中的质量管理体系
- 沪教版小学语文古诗(1-4)年级教材
- 外科医生年终述职总结报告
- CT设备维保服务售后服务方案
- 重症血液净化血管通路的建立与应用中国专家共识(2023版)
- 儿科课件:急性细菌性脑膜炎
- 柜类家具结构设计课件
- 陶瓷瓷砖企业(陶瓷厂)全套安全生产操作规程
- 煤炭运输安全保障措施提升运输安全保障措施
- JTGT-3833-2018-公路工程机械台班费用定额
评论
0/150
提交评论