版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
UNITfour
数据仓库技术
1 学完本讲后,你应该能够了解:数据仓库中没有联机更新,因而数据仓库比数据库需要一系列更简单的技术;但数据仓库有很多特殊的技术上的需求;数据仓库的专用DBMS与通用DBMS的区别;多维DBMS和数据仓库之间的互补关系;数据仓库环境中的元数据与操作型环境中的元数据所扮演的角色不同;为了理解和解释一段时期内的信息,数据仓库需要一个全新的上下文维数据仓库的高效刷新方法:”数据复制”和”变化数据捕捉”本讲主要目标2
一.数据仓库的技术需求 二.数据仓库专用DBMS 三.多维DBMS和数据仓库 四.数据仓库环境中的元数据 五.上下文维和上下文信息 六.建立数据仓库 七.数据仓库的数据刷新内容提纲3数据仓库的技术需求4数据仓库的技术需求数据仓库与数据库技术需求不同的原因:数据仓库中没有联机数据更新 比数据库的技术需求更简单数据仓库中的数据量非常大 要考虑大量和不同数据的存储和查询的技术和效率数据仓库的数据来源于现有的系统,而现有的各个系统可能使用不同的技术 不同来源数据的集成、转换和传送5数据仓库的技术需求数据仓库的技术需求管理大量数据管理各种各样介质上的数据方便的索引和监视数据大量接口技术允许程序员将数据直接放在物理存储设备上数据的并行存储和访问数据仓库的元数据控制高效地装入数据仓库有效地使用索引以压缩方式存储数据支持复合键码有效地管理变长数据有选择地关闭锁管理单独索引处理从大容量存储器迅速恢复6数据仓库的技术需求管理大量数据分四个方面基本的管理技术效率存储的费用处理的费用7数据仓库的技术需求管理各种各样介质上的数据 考虑访问速度和存储费用,一个满载的数据仓库应该放在多种存储介质上:8数据仓库的技术需求方便的索引和监视数据成功的数据仓库必须能方便和有效地检索数据成功的数据仓库的数据必须能被随意地监视监视数据仓库的数据的理由:决定是否应数据重组决定索引是否建立得恰当决定是否有太多数据溢出决定数据的统计成分决定剩余的可用空间9数据仓库的技术需求大量接口技术能够用各种不同的技术获得和传送数据接口不仅要高效,还要便于使用能够在批模式下运行10数据仓库的技技术需求允许程序员将将数据直接放放在物理存储储设备上为了对数据进进行高效地访访问和更新,程序员需要要在物理的块块/页的一级级上对数据的的存放进行特特殊的控制11数据仓库的技技术需求数据的并行存存储和访问当数据被并行行存储和管理理时,性能会会提高很多12数据仓库的技技术需求数据仓库的元元数据控制数据仓库的用用户应该能够够对元数据进进行准确和实实时的访问典型的元数据据数据仓库表的的结构数据仓库表的的属性数据仓库的源源数据(记录录系统)从记录系统到到数据仓库的的映射数据模型的规规格说明抽取日志访问数据的公公用例行程序序13数据仓库的技技术需求数据仓库要有有多种语言接接口数据仓库需要要有非常丰富富的语言接口口数据仓库接口口语言需要能够一次访问问一组数据能够一次访问问一条记录特别要保证,为了满足某某个访问要求求,能够支持持一个或多个个索引能够插入、删除、更新数据14数据仓库的技技术需求高效地装入数数据仓库在装入数据的的同时,索引引也要高效地地装入15数据仓库的技技术需求有效地使用索索引数据仓库技术术不仅必须能能够方便地支支持新索引的的创建和装入入,而且要能能够高效地访访问这些索引引高效访问索引引的方法位映象的方法法多级索引将部分或全部部索引装入内内存当被索引的数数据的次序允允许压缩时,对索引项进进行压缩创建选择索引引或范围索引引16数据仓库的技技术需求以压缩方式存存储数据数据仓库中的的数据很少更更新,数据压压缩的管理很很简单解压缩的开销销是CPU开开销,不是I/O资源的的开销17数据仓库的技技术需求支持复合键码码复合键码在数数据仓库中随随处可见18数据仓库的技技术需求有效地管理变变长数据在数据仓库中中,变长数据据很稳定,没没有数据库中中变长数据的的固有性能问问题19数据仓库的技技术需求有选择地关闭闭锁管理应用加锁管理理程序的后果果之一是它消消耗了相当的的资源,即使使数据不被更更新也是一样样20数据仓库的技技术需求单独索引处理理当只通过查看看一下索引就就可以满足某某些请求时,由于用不着着查看数据的的最初数据源源而会更加有有效21数据仓库的技技术需求从大容量存储储器迅速恢复复指能够从非直直接存取存储储设备快速地地恢复数据仓仓库表.当可可以从二级存存储设备上恢恢复时,就可可以节约大量量开支22数据仓库专用用DBMS23数据仓库专用用DBMS数据仓库专用用数据库管理理系统--是特别别为数据仓库库和决策支持持而优化设计计的管理系统统.与通用DBMS的区别专用DBMS的处理类型型为装入和访访问,而通用用DBMS必必须适合于记记录级的数据据更新专用DBMS不需要自由由空间,而通通用DBMS对数据在块块级上的管理理要包括一些些附加空间专用DBMS可以使用更更完善的索引引结构,而通通用DBMS限制有限数数量的索引专用DBMS物理上优化化数据是为了了便于访问和和分析,而通通用DBMS优化数据是是为了事务的的访问24数据仓库专用用DBMS是否应该改变变DBMS技技术?是当今可用的DBMS技术术,当数据仓仓库首次载入入数据时并不不合适数据仓库已经经变得非常之之大,以至于于应该提出新新的技术方法法数据仓库的利利用已经提高高许多,也改改变了许多,使得现在的的数据仓库的的DBMS技技术已经不适适用了25数据仓库专用用DBMS是否应该考虑虑找一种新的的DBMS技技术?新的DBMS技术是否满满足可预知的的需求?从旧的DBMS向新的DBMS的转转换应该怎样样去做?转换的程序应应该怎样改变变?26多维DBMS和数据仓库27多维DBMS和数据仓库库多维DBMS(有时也叫叫”数据集市市”)多维DBMS提供一种信信息系统结构构,使得对数数据的访问非非常灵活,可可以以多种方方法对数据进进行分片、分割,动态地考察汇汇总数据和细细节数据的关关系多维DBMS不仅提供了了灵活性,还还可以对终端端用户进行管管理多维DBMS和数据仓库库有互补关系系28多维DBMS和数据仓库库多维DBMS数据集市的的关系型基础础优能支持大量数数据能支持数据的的动态连接已被证实是有有效的技术如果对数据的的使用模型不不清楚的话,关系型结构构与其他任何何结构一样好好劣性能上不是最最好的不能单独对访访问处理进行行优化29多维DBMS和数据仓库库多维DBMS数据集市的的“立方体””基础优对于DSS处处理性能上是是优化的能够对数据的的快速访问进进行优化如果已知数据据访问的模式式,则数据的的结构可以优优化能够很轻松地地”切片和分分块”可以用多种方方法检测劣几乎不能处理理像标准的关关系模型那么么多的数据不支持通用的的更新处理装入的时间很很长如果对路径的的访问不被数数据设计所支支持的话,这这种结构就显显得不灵活对数据的动态态连接的支持持是有问题的的30数据仓库中的的元数据31数据仓库中的的元数据数据仓库中的的元数据包括括两大部分::有关集成的信信息数据仓库字典典32数据仓库中的的元数据数据仓库中元元数据特点服务于DSS专业人员,而不仅仅是是IT人员33数据仓库中的的元数据数据仓库中元元数据特点涉及到从操作作型环境到数数据仓库环境境的映射34数据仓库中的的元数据数据仓库中元元数据特点数据会存在一一段很长的时时间35上下文维和上下文信息36上下文维和上上下文信息数据仓库中需需要上下文维维数据仓库的一一个重要特征征是能够对一一段时间的信信息进行存储储和管理为了理解和解解释一段时间间内的信息,需要信息发发生的背景三个级别的上上下文信息简单上下文信信息复杂上下文信信息外部上下文信信息37上下文维和上上下文信息简单上下文信信息与数据本身的的基本结构有有关,包括数据的结构数据的编码数据的命名约约定描述数据的度度量数据的多少数据增长速度度数据的哪一部部分增长数据是怎样被被使用的简单上下文以以往是用字典典,目录,系系统监视器等等管理的38上下文维和上上下文信息复杂上下文信信息描述的是和简简单上下文相相同的数据,但从不同的的侧面描述,其强调下下面几点产品定义市场领域定价包装组织结构分发复杂上下文信信息非常有用用但基本,但但非常难以捉捉摸,它令人人难以捉摸是是因为它是想想当然的,并并存在于背景景环境中39上下文维和上上下文信息外部上下文信信息是公司以外的的,但在理解解随时间变化化的信息方面面起重要作用用的信息,实实例包括经济预测通货膨胀金融税务经济增长政治信息竞争信息技术进展40上下文维和上上下文信息捕获和管理上上下文信息复杂上下文信信息和外部上上下文信息是是非结构化的的上下文信息变变化很快以往管理上下下文信息的方方法的缺点信息的管理针针对信息系统统的开发者,而不是最终终用户对上下文管理理的意图是被被动的对上下文管理理的意图在很很多情况下会会从开发计划划中删除掉对上下文管理理的意图仅局局限于简单上上下文41建立数据仓库库42建立数据仓库库建立数据仓库库的任务就是是将数据源中中的数据整理理后按照数据据仓库的结构构,放入数据据仓库的物理理存储介质中中数据仓库的建建立分为三个个子任务:抽取数据(extractingdata)转换数据(transformingdata)加载数据(transporting/loadingdata)因此,建立数数据仓库的过过程也称为ETT过程或或ETL过程程43建立数据仓库库ETT过程ExtractsourcedataTransform/cleandataIndexandsummarizeLoaddataintoWHDetectchangesRefreshdataProgramsToolsETTOperational
systemsWarehouseBrowser:http://HollywoodX+Customers:arecorofasX+Customers:Browser:http://HollywoodBrowser:http://HollywoodX+Gateways44数据仓库的数据刷新45数据仓库的数数据刷新数据仓库的数数据定期刷新新是一项巨大大的开销数据刷新的方方法直接读取老的的传统的数据据库--开销非非常大在传统环境中中捕捉正在修修改的数据数据复制--改变发发生时数据被被捕获,设置置一个”触发发器”来捕获获数据的更新新活动变化数据捕获获--将发生生了的改变从从在联机更新新时生成的日日志中提取出出来46学完本讲后,,你应该能够够了解:数据仓库中没没有联机更新新,因而数据据仓库比数据据库需要一系系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024届海南省临高县新盈中学高三假期自主综合能力测试(一)数学试题
- 餐饮住房合同
- 不动产买卖合同解除协议模板
- 毕业生就业协议书入户地址
- 手术对骨骼健康的影响
- 防溺水模拟演练课件
- 山东省烟台招远市(五四制)2024-2025学年九年级上学期期中考试化学试题(含答案)
- 河北省石家庄市栾城区2024-2025学年七年级上学期期中生物学试题(含答案)
- 《化妆棉》规范要求
- 福建省泉州市安溪县2024-2025学年高三上学期11月期中测评试题 数学(含解析)
- 大学生职业生涯规划(师范类)
- 部编版四年级语文上册课内阅读复习试题含答案全套
- 大学生就业指导-面试技巧课件
- 人教版八年级语文上册《苏州园林》评课稿
- 建设工程第三方质量安全巡查标准
- 混凝土超声检测缺陷报告
- 枫桥式乡镇派出所事迹材料
- 燃气锅炉房安全风险分级清单
- 牙体牙髓学课件 五年制牙髓病
- 教师个人成长档案电子模板
- 工厂供配电系统的动力方案及选型原则
评论
0/150
提交评论