已阅读5页,还剩80页未读, 继续免费阅读
(计算机软件与理论专业论文)数据仓库历史数据归档与重构的策略研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文 摘要 数据仓库历史数据归档与重构的策略研究 摘要 随着时间的推移和主题的变化,数据仓库系统中大量的细节级数据成为过期 的数据, 但是这些数据并不是无用的数据。 为了保证当前的联机分析处理 ( o l a p ) 和数据挖掘 ( d m) 应用程序的效率和质量, 过期的大量的细节级数据必须归档为 历史数据, 存储在离线的存储设备中或者存储在较低级的存储设备中。归档的历 史数据具有访问频率低,甚至可能在相当长的时间内 访问频率为零:数据量极大, 保存时 间 相 对较 长, 有 些 数 据甚 至 需 要 保 存期 十 年 左右; 数 据必 须是 可以 利用的 和有效的等特点。 可 扩展标记 语言x m l ( e x t e n d m a r k u p l a n g u a g e ) 是本文 研究工作的 一个重 要基础。 本文提出了 将x m l 技术应用于数据仓库历史数据的归档, 改变关系数据 库存储归档历史数据的方式,同时保证数据的可访问性、可利用性和有效性,避 免了因系统和平台的差异所造成的数据无效问 题, 并通过实验证明了 采用x ml 文 档方式存储归档历史数据,有利于存储空间的节省。 本文着重探讨了关系模式与x m l 模式之间的关系和相互转换的方法, 实现了 关系模式与x m l 模式之间的映射以及数据的传递。 关系数据库与x ml 文档之间 的模式转换保证其元数据的基本一致,而数据传递则保证其数据的可访问性、可 用性和有效性。 本文又进一步研究了 数据仓库历史数据的归档和重构过程中的代码问题。考 虑到当前数据系统结构和归档数据系统结构的不同, 对数据之间的差异进行了分 析,指出了 解决代码差异是数据访问的关键,并对此提出了具体的解决方法。 在 数据库数据向) g a l文档传递数据时, 主要利用代码回替技术, 将代码的实际意义 归入到x m l 文档中,以 满足今后的访问。 在x m l 文档重构为当前数据仓库系 统的分析数据时, 通过代码提取、代码重置和代码扩充等技术,保证重构的分析 数据与当前数据的一致性。 关键词 数据仓库 联机分析 数据挖掘历史数据 数据归档 数据重构 东北大学硕士学位论文ab s t r act s t udy on hi s t ori c al dat a arc hi vi ng and re cons t ruct i ng s t rat e gy i n dat a ware hous e ab s t r a c t i n a d a t a wa r e h o u s e s y s t e m , w i t h t h e t i m e p a s s i n g a n d s u b j e c t c h a n g i n g , l a r g e n u mb e r s o f d e t a i l d a t a b e c a m e t h e o v e r d u e d a t a , b u t t h e s e d a t a a r e n o t u s e l e s s . f o r t h e q u a l i t y o f a p p l i c a t i o n s o n o l a p a n d d m, o v e r d u e a n d s u b s t a n t i v e d e t a i l d a t a m u s t b e a r c h i v e d t o b e h i s t o r i c a l d a t a , s t o r e d i n t o t h e s t o r a g e e q u i p m e n t w h i c h i s o ff l i n e o r a t l o w e r l e v e l . a r c h i v i n g d a t a h a v e s o m e c h a r a c t e r i s t i c s u c h a s l o w a c c e s s fr e q u e n c y , e v e n , a c c e s s f re q u e n c y d u r i n g a l o n g t i m e , t h e q u a n t i t y i s v e r y l a r g e a n d t h e s t o r a g e t i m e i s v e ry l o n g , e v e n s o m e d a t a h a v e t o b e k e p t a b o u t t e n y e a r s , d a t a m u s t b e a v a i l a b l e a n d v a l i d . x m l ( e x t e n d m a r k u p l a n g u a g e ) s e r v e s a s a n s i g n i fi c a n t f o u n d a t i o n o f t h e r e s e a r c h i n t h i s t h e s i s . t h i s t h e s i s a p p l i e s t h e t e c h n o l o g y o f x ml i n t o t h e a r c h i v i n g o f h i s t o r i c a l d a t a in d a t a wa r e h o u s e , c h a n g i n g t h e s t o r a g e m o d e o f r e l a t i o n a l d a t a b a s e f o r a r c h i v i n g o f h i s t o r i c a l d a t a , i n t h e m e a n t i m e , t o e n s u r e t h a t t h e d a t a a r e a c c e s s i b l e , a v a i l a b l e a n d v a l i d , a n d t o a v o i d t h e i n e f f i c a c y o f d a t a c a u s e d b y d i f f e r e n c e s o f s y s t e m s a n d p l a t f o r m s . f u r th e r m o r e , w e p r o v e b y e x p e r i m e n t s t h a t t h e m e t h o d c a n s a v e s t o r a g e s p a c e f o r a r c h i v i n g h i s t o r i c a l d a t a . t h i s t h e s i s d i s c u s s e s p a r t ic u l a r l y t h e m e t h o d o f t r a n s f o r m i n g b e t w e e n r e l a t i o n a l s c h e m a a n d x ml s c h e m a , r e a l i z e d t h e s c h e m a m a p p i n g a n d d a t a t r a n s f e r r i n g . t h e m a p p i n g e n s u r e d t h e c o n s i s t e n c y o f m e t a d a t a , t h e t r a n s f e r r i n g e n s u r e t h e a c c e s s ib i li t y , a v a i l a b i l it y a n d v a l i d ity . f u r t h e r m o re , t h i s t h e s i s r e s e a r c h e s t h e c o d e p r o b l e m o f h i s t o r i c a l d a t a a r c h i v i n g a n d r e c o n s t r u c t in g . c o n s i d e r i n g th e d a t a s t r u c t u r e d i ff e r e n c e s b e t w e e n c u r r e n t s y s t e m a n d a r c h i v i n g s y s t e m , t h i s t h e s i s a n a l y z e s t h e d a t a d i ff e r e n c e s , p o i n t s o u t i t i s p i v o t a l f o r d a t a a c c e s s t o s o l v e c o d e d i ff e r e n c e s , a n d p r o p o s e s c o n c r e t e m e t h o d f o r i t . m a i n l y a p p l i e s c o d e r e c o v e ry t e c h n o l o g y i n t o t h e t r a n s f e r r i n g fr o m d a t a b a s e t o x n 几d o c u m e n t , i n o r d e r t o l o a d p r a c t i c a l m e a n in g i n t o x ml d o c u m e n t f o r t h e l a t e r a c c e s s . t h r o u g h t e c h n o l o g y o f c o d e p i c k - u p , c o d e r e s e tt i n g a n d c o d e e x p a n s i o n i n t h e r e c o n s t r u c t i n g x ml d o c u m e n t i n t o a n a l y ti c a l d a t a i n d a t a wa r e h o u s e s s y s t e m , e n s u r e s t h e c o n s i s t e n c y b e t w e e n r e c o n s t r u c t i n g a n a l州c a l a n d c u r r e n t a n a l y t i c a l d a t a . k e y w o r d s d a t a wa r e h o u s e , o l a p , d m, h i s t o r i c a l d a t a , d a t a a r c h i v i n g , d a t a r e c o n s t r u c t i n g i i i 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或 撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 学 位 论 文 作 者 本 人 签 名 : 滩 日期:.) i , , . 弓 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人授权东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流口 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。) 学 位 论 文 储签 名 : 琳 签 字日 期: l o o t , / . 3 导师签名: 签字日期: 于写 知, 夕 1 、 乡 东北大学硕士学位论文第一章引言 i r a一 音al 省 7 p - = f - j 1 q 数据库技术是建立和管理大量数据的强大而有效的工具,它能够以数据库为 信息资源,实现从事务处理到决策分析等各种类型的数据处理,已 经成为企业各 项业务的基础。 然而,随着计算机技术的飞速发展和企业不断提出新的需求, 数 据库技术己经表现出了其技术的局限性,主要表现在以数据库这种单一的数据组 织方式,不能很好地满足所有类型的数据处理的要求。数据仓库技术就是为了 更 好地解决决策分析的数据处理问题而产生的。 1 . 1研究背景与问题提出 一般地,当前的数据处理可以 大致地划分为两大类:操作型处理和分析型处 理。操作型处理也叫事务处理,通常是对一个或一组记录进行查询和修改,是对 数据库联机的日 常操作,主要应用于企业的各项基本业务。分析型处理通常是对 大量的当前以 及历史数据进行访问、提取和处理,主要应用于企业管理人员的决 策分析。 数据库系统作为数据管理手段,主要用于事务处理,并且在此方面获得了巨 大的成功,但它对分析处理的支持却不尽如人意,尤其是当以业务处理为主的联 机事务处理应用与以 分析处理为主的决策分析应用共同存在于同一个数据库系统 中时,这两种类型的处理发生了明显的冲突。具体说来,可以概括为以下几个方 面: ( 1 ) 事务处理和分析处理的 性能 特性不同。 在事务处理环境中, 系统允许多个 用户按分时方式使用系统资源,同时保证较短的响应时间。在分析处理环境中, 一 个应用程序可能需要连续运行数小时,占 用大量的 系统资 源d l ( z ) 数据的集成问 题。事务处理的目 的 在于业务处理的自 动化, 一般只需要与 本部门业务有关的当前数据.而在分析处理环境中,需要将细节数据统一为一个 整体,也就是对所需要的纷杂的数据进行集成,这将导致极低的系统处理效率。 另外,集成数据必须以一定的周期进行刷新,显然事务处理系统不具备这种数据 动 态 集 成 能 力 川 。 ( 3 ) 数据的综合问 题。在事务处理系统中积累了 大量的细节数据,但由 于细节 数据数量太大,会严重影响分析效率,因此在分析处理系统中,需要对细节数据 进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论, 这种综合还往往因为是一种数据冗余而加以限 制 1 l ( 4 ) 历史数据问 题。 事务处理一般只需要当前数据, 在数据库中一般也只存储 东北大学硕士学位论文第一章引言 i r a一 音al 省 7 p - = f - j 1 q 数据库技术是建立和管理大量数据的强大而有效的工具,它能够以数据库为 信息资源,实现从事务处理到决策分析等各种类型的数据处理,已 经成为企业各 项业务的基础。 然而,随着计算机技术的飞速发展和企业不断提出新的需求, 数 据库技术己经表现出了其技术的局限性,主要表现在以数据库这种单一的数据组 织方式,不能很好地满足所有类型的数据处理的要求。数据仓库技术就是为了 更 好地解决决策分析的数据处理问题而产生的。 1 . 1研究背景与问题提出 一般地,当前的数据处理可以 大致地划分为两大类:操作型处理和分析型处 理。操作型处理也叫事务处理,通常是对一个或一组记录进行查询和修改,是对 数据库联机的日 常操作,主要应用于企业的各项基本业务。分析型处理通常是对 大量的当前以 及历史数据进行访问、提取和处理,主要应用于企业管理人员的决 策分析。 数据库系统作为数据管理手段,主要用于事务处理,并且在此方面获得了巨 大的成功,但它对分析处理的支持却不尽如人意,尤其是当以业务处理为主的联 机事务处理应用与以 分析处理为主的决策分析应用共同存在于同一个数据库系统 中时,这两种类型的处理发生了明显的冲突。具体说来,可以概括为以下几个方 面: ( 1 ) 事务处理和分析处理的 性能 特性不同。 在事务处理环境中, 系统允许多个 用户按分时方式使用系统资源,同时保证较短的响应时间。在分析处理环境中, 一 个应用程序可能需要连续运行数小时,占 用大量的 系统资 源d l ( z ) 数据的集成问 题。事务处理的目 的 在于业务处理的自 动化, 一般只需要与 本部门业务有关的当前数据.而在分析处理环境中,需要将细节数据统一为一个 整体,也就是对所需要的纷杂的数据进行集成,这将导致极低的系统处理效率。 另外,集成数据必须以一定的周期进行刷新,显然事务处理系统不具备这种数据 动 态 集 成 能 力 川 。 ( 3 ) 数据的综合问 题。在事务处理系统中积累了 大量的细节数据,但由 于细节 数据数量太大,会严重影响分析效率,因此在分析处理系统中,需要对细节数据 进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论, 这种综合还往往因为是一种数据冗余而加以限 制 1 l ( 4 ) 历史数据问 题。 事务处理一般只需要当前数据, 在数据库中一般也只存储 东北大学硕士学位论文 第一章引言 短期数据,即使一些历史数据保存下来了,也不会得到充分的利用。但对于分析 决策而言,许多分析方法必须以大量的历史数据为依据,没有对历史数据的详细 分 析, 是 难以 把 握企 业的 发 展 趋势的 1 11 为了提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处 理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照分析决 策的需要进行重新组织,建立独立的分析处理环境,数据仓库就是为了构建这种 新的分析处理环境而出 现的一种数据存储和组织技术1 1 1 目 前,数据仓库 ( d a t a w a re h o u s e ,简记为d w) 技术以及建立在其基础上的 联机分析处理( o n - l i n e a n a l y t i c a l p r o c e s s i n g , 简记为o l a p ) 技术和数据挖掘( d a t a m i n i n g , 简记为 d m) 技术已 经从 理论 研究逐步 走向 实 用化阶段, 许多企 事 业单位 从建立d w系统的策略中获取了极大的收益。但由于d w中存储了大量的内部的/ 外部的、历史的/ 当前的以及细节的/ 综合的数据,同时伴随着历史数据的不断积累 以 及新主题的不断引进 ( 为满足新的分析需求) , 数据仓库中的数据会不断发生变 化,且数据量也会不断增加,因而系统的可用性也会不断降低,同时系统的运行 和维护代价也会不断提高。 d w中 所保存的 数据既与 传统的 o l t p ( o n - l i n e t r a n s a c t i o n p r o c e s s i n g , 联机 事务处理) 数据库中保存的数据有密切的联系, 但同时也存在很大的差异。 d w中 通常要保存较长时间内的信息,而且从理论上讲,数据仓库系统中的数据量越大, 保存数据的详细程度越高,o l a p 和d m的应用效果会越好,所得到的决策支持信 息会越准确,但联机存储系统的容量毕竟有限。另外,考虑到系统和数据的安全 性、可靠性等问 题以 及o l ”和d m的运行代价和效率, 数据仓库系统必须包含有 效的历史数据的归档系统。 另一方面, 许多特殊的 联机分析处理( o l a p ) 和数据挖掘( d m ) 应用需求需要访 问 数据仓库( d w ) 中的归档的 历史数据, 这必然涉及到归 档的历史数据的重构问 题。 为了能够访问这些归档的历史数据,应用系统必须设计专门的实用程序集合。 在气象、 地震、水文等行业以及大型企事业单位中, 历史数据对于其进行预测 和分析研究都起着非常重要的作用。这些用户可以利用历史数据的归档和重构技 术将大量的静态历史数据存放到较低层次的存储设备中,同时保证研究人员随时 可以获得所需的数据资料,完成预测和分析工作。 1 .2数据仓库中历史数据的归档与重构 1 . 2 . 1 数据仓库的 特征 数据仓库是一个用以 更好地支持企业或组织的决策分析处理的、面向主题的、 集成的、不可更新的、随时间不断变化的数据集合。它具有以下四个基本特征: ( 1 ) 面向主题。 东北大学硕士学位论文 第一章引言 短期数据,即使一些历史数据保存下来了,也不会得到充分的利用。但对于分析 决策而言,许多分析方法必须以大量的历史数据为依据,没有对历史数据的详细 分 析, 是 难以 把 握企 业的 发 展 趋势的 1 11 为了提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处 理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照分析决 策的需要进行重新组织,建立独立的分析处理环境,数据仓库就是为了构建这种 新的分析处理环境而出 现的一种数据存储和组织技术1 1 1 目 前,数据仓库 ( d a t a w a re h o u s e ,简记为d w) 技术以及建立在其基础上的 联机分析处理( o n - l i n e a n a l y t i c a l p r o c e s s i n g , 简记为o l a p ) 技术和数据挖掘( d a t a m i n i n g , 简记为 d m) 技术已 经从 理论 研究逐步 走向 实 用化阶段, 许多企 事 业单位 从建立d w系统的策略中获取了极大的收益。但由于d w中存储了大量的内部的/ 外部的、历史的/ 当前的以及细节的/ 综合的数据,同时伴随着历史数据的不断积累 以 及新主题的不断引进 ( 为满足新的分析需求) , 数据仓库中的数据会不断发生变 化,且数据量也会不断增加,因而系统的可用性也会不断降低,同时系统的运行 和维护代价也会不断提高。 d w中 所保存的 数据既与 传统的 o l t p ( o n - l i n e t r a n s a c t i o n p r o c e s s i n g , 联机 事务处理) 数据库中保存的数据有密切的联系, 但同时也存在很大的差异。 d w中 通常要保存较长时间内的信息,而且从理论上讲,数据仓库系统中的数据量越大, 保存数据的详细程度越高,o l a p 和d m的应用效果会越好,所得到的决策支持信 息会越准确,但联机存储系统的容量毕竟有限。另外,考虑到系统和数据的安全 性、可靠性等问 题以 及o l ”和d m的运行代价和效率, 数据仓库系统必须包含有 效的历史数据的归档系统。 另一方面, 许多特殊的 联机分析处理( o l a p ) 和数据挖掘( d m ) 应用需求需要访 问 数据仓库( d w ) 中的归档的 历史数据, 这必然涉及到归 档的历史数据的重构问 题。 为了能够访问这些归档的历史数据,应用系统必须设计专门的实用程序集合。 在气象、 地震、水文等行业以及大型企事业单位中, 历史数据对于其进行预测 和分析研究都起着非常重要的作用。这些用户可以利用历史数据的归档和重构技 术将大量的静态历史数据存放到较低层次的存储设备中,同时保证研究人员随时 可以获得所需的数据资料,完成预测和分析工作。 1 .2数据仓库中历史数据的归档与重构 1 . 2 . 1 数据仓库的 特征 数据仓库是一个用以 更好地支持企业或组织的决策分析处理的、面向主题的、 集成的、不可更新的、随时间不断变化的数据集合。它具有以下四个基本特征: ( 1 ) 面向主题。 东北大学硕士学位论文 第一章引言 短期数据,即使一些历史数据保存下来了,也不会得到充分的利用。但对于分析 决策而言,许多分析方法必须以大量的历史数据为依据,没有对历史数据的详细 分 析, 是 难以 把 握企 业的 发 展 趋势的 1 11 为了提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处 理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照分析决 策的需要进行重新组织,建立独立的分析处理环境,数据仓库就是为了构建这种 新的分析处理环境而出 现的一种数据存储和组织技术1 1 1 目 前,数据仓库 ( d a t a w a re h o u s e ,简记为d w) 技术以及建立在其基础上的 联机分析处理( o n - l i n e a n a l y t i c a l p r o c e s s i n g , 简记为o l a p ) 技术和数据挖掘( d a t a m i n i n g , 简记为 d m) 技术已 经从 理论 研究逐步 走向 实 用化阶段, 许多企 事 业单位 从建立d w系统的策略中获取了极大的收益。但由于d w中存储了大量的内部的/ 外部的、历史的/ 当前的以及细节的/ 综合的数据,同时伴随着历史数据的不断积累 以 及新主题的不断引进 ( 为满足新的分析需求) , 数据仓库中的数据会不断发生变 化,且数据量也会不断增加,因而系统的可用性也会不断降低,同时系统的运行 和维护代价也会不断提高。 d w中 所保存的 数据既与 传统的 o l t p ( o n - l i n e t r a n s a c t i o n p r o c e s s i n g , 联机 事务处理) 数据库中保存的数据有密切的联系, 但同时也存在很大的差异。 d w中 通常要保存较长时间内的信息,而且从理论上讲,数据仓库系统中的数据量越大, 保存数据的详细程度越高,o l a p 和d m的应用效果会越好,所得到的决策支持信 息会越准确,但联机存储系统的容量毕竟有限。另外,考虑到系统和数据的安全 性、可靠性等问 题以 及o l ”和d m的运行代价和效率, 数据仓库系统必须包含有 效的历史数据的归档系统。 另一方面, 许多特殊的 联机分析处理( o l a p ) 和数据挖掘( d m ) 应用需求需要访 问 数据仓库( d w ) 中的归档的 历史数据, 这必然涉及到归 档的历史数据的重构问 题。 为了能够访问这些归档的历史数据,应用系统必须设计专门的实用程序集合。 在气象、 地震、水文等行业以及大型企事业单位中, 历史数据对于其进行预测 和分析研究都起着非常重要的作用。这些用户可以利用历史数据的归档和重构技 术将大量的静态历史数据存放到较低层次的存储设备中,同时保证研究人员随时 可以获得所需的数据资料,完成预测和分析工作。 1 .2数据仓库中历史数据的归档与重构 1 . 2 . 1 数据仓库的 特征 数据仓库是一个用以 更好地支持企业或组织的决策分析处理的、面向主题的、 集成的、不可更新的、随时间不断变化的数据集合。它具有以下四个基本特征: ( 1 ) 面向主题。 东北大学硕士学位论文第一章引言 与传统数据库面向 应用进行数据组织的特点相对应,数据仓库中的数据是面 向主题进行组织的。主题是一个抽象的概念,是在较高层次上将企业信息系统中 的数据综合、归类并进行分析利用的抽象。在逻辑意义是,它是对应企业中某一 宏观分析领域所涉及的分析对象。 ( 2 ) 数据的集成性。 数据仓库的数据是从原有的分散的数据库数据中抽取来的。数据仓库的每一 个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的地方,且 来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起。另外,数据仓库 中的综合数据不能从原有的数据库系统直接得到。所以,数据进入数据仓库之前 或之后,必须要进行统一和综合,这一步是数据仓库建设中最关键、最复杂的一 步。 ( 3 ) 数据的稳定性。 数据仓库的数据主要供企业进行决策分析,所涉及的数据操作主要是数据查 询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间 内的历史数据内 容,是不同时间点的数据库快照的集合,以及基于这些快照进行 统计、综合和重组的导出数据。 ( 4 ) 数据是随时间 变化的。 数据仓库的数据是随时间的变化不断变化的,这一特征表现以下三个方面: 数据仓库随时间变化不断增加新的内容,即数据仓库中的数据必须以一定 的周期进行刷新,以便分析决策时能够使用到最新的数据。 数据仓库随时间变化不断删除旧的数据内 容,即如果数据仓库中数据超过 了数据生存期,就要被删除。只是数据仓库的数据通常具有很长的数据存储期限。 数据仓库中包含有大量的综合数据,这些综合数据都具有时间属性,以标 明数据的历史时期,即数据经常按照时间段进行综合,或按照不同的时间片进行 抽样等。 1 . 2 .2数据仓库中的数据组织 ( 1 ) 数据仓库的数据组织结构 在数据仓库中,数据分成四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级,如图1 . 1 所示。源数据经过集成后,首先进入当前细节级,然后根据 应用的需求,通过预运算将数据聚合成轻度综合级乃至高级综合级,很少被使用 的 老化数据进入早期细节级 1 1 。 通常为了 节省 系 统存储空间 和 提高 系统运行效 率, 早期细节级数据将被存储到较低级的存储设备上。 ( 2 ) 数据的粒度和分割 粒度 数据仓库是面向 o l a p ( o n - l i n e a n a l y t i c a l p r o c e s s i n g , 联机分析处理) 和d m 东北大学硕士学位论文第一章引言 与传统数据库面向 应用进行数据组织的特点相对应,数据仓库中的数据是面 向主题进行组织的。主题是一个抽象的概念,是在较高层次上将企业信息系统中 的数据综合、归类并进行分析利用的抽象。在逻辑意义是,它是对应企业中某一 宏观分析领域所涉及的分析对象。 ( 2 ) 数据的集成性。 数据仓库的数据是从原有的分散的数据库数据中抽取来的。数据仓库的每一 个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的地方,且 来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起。另外,数据仓库 中的综合数据不能从原有的数据库系统直接得到。所以,数据进入数据仓库之前 或之后,必须要进行统一和综合,这一步是数据仓库建设中最关键、最复杂的一 步。 ( 3 ) 数据的稳定性。 数据仓库的数据主要供企业进行决策分析,所涉及的数据操作主要是数据查 询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间 内的历史数据内 容,是不同时间点的数据库快照的集合,以及基于这些快照进行 统计、综合和重组的导出数据。 ( 4 ) 数据是随时间 变化的。 数据仓库的数据是随时间的变化不断变化的,这一特征表现以下三个方面: 数据仓库随时间变化不断增加新的内容,即数据仓库中的数据必须以一定 的周期进行刷新,以便分析决策时能够使用到最新的数据。 数据仓库随时间变化不断删除旧的数据内 容,即如果数据仓库中数据超过 了数据生存期,就要被删除。只是数据仓库的数据通常具有很长的数据存储期限。 数据仓库中包含有大量的综合数据,这些综合数据都具有时间属性,以标 明数据的历史时期,即数据经常按照时间段进行综合,或按照不同的时间片进行 抽样等。 1 . 2 .2数据仓库中的数据组织 ( 1 ) 数据仓库的数据组织结构 在数据仓库中,数据分成四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级,如图1 . 1 所示。源数据经过集成后,首先进入当前细节级,然后根据 应用的需求,通过预运算将数据聚合成轻度综合级乃至高级综合级,很少被使用 的 老化数据进入早期细节级 1 1 。 通常为了 节省 系 统存储空间 和 提高 系统运行效 率, 早期细节级数据将被存储到较低级的存储设备上。 ( 2 ) 数据的粒度和分割 粒度 数据仓库是面向 o l a p ( o n - l i n e a n a l y t i c a l p r o c e s s i n g , 联机分析处理) 和d m 东北大学硕士学位论文 第一章引言 ( d a t a m i n i n g , 数据挖掘) 的, 对于 o l a p 和d m, 数据粒度有不同的 含义。 通常 粒度可以 分成两种形式,第一种粒度是对数据仓库中的数据的综合程度高低的一 个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能进行的查询 的种类和速度。 粒度的第二种形式是针对d m的, 它指的是数据仓库的 数据的抽样 率。 考虑到d m的时间和空间复杂度, 一般需要对数据仓库的数据进行抽样, 形成 样本数据库, d m是在样本数据库中进行的, 且以 循环的方式, 不断利用源数据建 立和 改 进 分 析 模型 f l 。 分割 分割是指将数据分散到各自的物理单元中去以便能分别地独立处理, 以提高数 据处理效率。数据的分割没有固定的标准,应当根据实际情况来确定,分割的方 法常常可以选择时间、地点、业务领域来划分,也可以按照问 题的需求从多个角 度 进 行 分 割 111 高度综合级 轻度综合级 当前细节级 早期细节级 图1 .1 数据仓库的数 据组织结 构 f i g . 1 . 1 o r g a n i z i n g s t r u c t u r e o f d a t a i n d a t a w a r e h o u s e 1 . 2 .3数据仓库中的数据组织形式 ( 1 ) 简单堆积文件, 它将每日 由 数 据库中 提取并 加工的 数 据逐 天积累 地存储 起 来1 1 ( 2 ) 简化直接文件, 它类似于简单堆积文件, 但它是间隔一定时间的数据库快 照1 1 1 ( 3 ) 轮转综合文件, 数据存储单位分成日 、 周、 旬、 月、 季度、 年等多个级别。 数据被逐一地添加到每天的数据集合中,当一个星期过去了,每天数据被综合成 周数据,以此类推,周数据被综合成月数据由于数据被进行综合,所以数据 的量级减小. 但数据细节在综合中 损失了 i l l 东北大学硕士学位论文 第一章引言 ( d a t a m i n i n g , 数据挖掘) 的, 对于 o l a p 和d m, 数据粒度有不同的 含义。 通常 粒度可以 分成两种形式,第一种粒度是对数据仓库中的数据的综合程度高低的一 个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能进行的查询 的种类和速度。 粒度的第二种形式是针对d m的, 它指的是数据仓库的 数据的抽样 率。 考虑到d m的时间和空间复杂度, 一般需要对数据仓库的数据进行抽样, 形成 样本数据库, d m是在样本数据库中进行的, 且以 循环的方式, 不断利用源数据建 立和 改 进 分 析 模型 f l 。 分割 分割是指将数据分散到各自的物理单元中去以便能分别地独立处理, 以提高数 据处理效率。数据的分割没有固定的标准,应当根据实际情况来确定,分割的方 法常常可以选择时间、地点、业务领域来划分,也可以按照问 题的需求从多个角 度 进 行 分 割 111 高度综合级 轻度综合级 当前细节级 早期细节级 图1 .1 数据仓库的数 据组织结 构 f i g . 1 . 1 o r g a n i z i n g s t r u c t u r e o f d a t a i n d a t a w a r e h o u s e 1 . 2 .3数据仓库中的数据组织形式 ( 1 ) 简单堆积文件, 它将每日 由 数 据库中 提取并 加工的 数 据逐 天积累 地存储 起 来1 1 ( 2 ) 简化直接文件, 它类似于简单堆积文件, 但它是间隔一定时间的数据库快 照1 1 1 ( 3 ) 轮转综合文件, 数据存储单位分成日 、 周、 旬、 月、 季度、 年等多个级别。 数据被逐一地添加到每天的数据集合中,当一个星期过去了,每天数据被综合成 周数据,以此类推,周数据被综合成月数据由于数据被进行综合,所以数据 的量级减小. 但数据细节在综合中 损失了 i l l 东北大学硕士学位论文 第一章引言 ( 4 ) 连续文件,它是通过比 较两个连续的简化直接文件的不同或已 有的连续文 件与 新的 简 化 直接 文件的 不同 而生 成的 11 对于上述各种文件结构的最终实现,仍然要依靠 “ 表”这种结构,也就是说, 目 前数据仓库仍然采用关系数据库技术实现,数据仓库的数据最终也表现为关系 2 1 1 . 2 .4数据仓库中历史数据的归档与重构 数 据仓 库中 历史 数据 是 指o u t 、 即 时o l a p ( u p - t o th e s e c o n d o l a p ) 以 及 一般意义上的o l a p 和d m已经使用完毕的数据,但考虑联机分析处理长期历史 数据的特殊需求,这些数据仍然是可利用的和有效的。同时,为了提高当前d w 系统的运行效率、节省联机存储设备的空间,应将这些数据从当前的d w系统中 迁移到较低层次或脱机存储设备中进行保存,即历史数据归档。 在某些情况下, 特殊o l a p 和d m实用程序集对归档的历史数据的访问 是独立 的 ( 如档案性数据查询) ,并不涉及到当前联机数据。此时,d w a只要根据访问 需求将存储在脱机存储介质上相关数据准备完毕就可满足实用程序的需要。 图2 . 1 数据仓库系统中的 数据流 f ti g . 2 . 1 d a t a fl o w o f d a t a w a r e h o u s e s y s t e m 但在许多特殊情况下,某些o l a p 和d m实用程序集需要同时将当前联机数据 和归档的历史数据进行综合分析使用,它们之间的关系可用图2 . 1 简单描述,考虑 到数据一致性和访问效率, 就必须将全部或部分归档的历史数据重构为当前数据。 东北大学硕士学位论文 第一章引言 ( 4 ) 连续文件,它是通过比 较两个连续的简化直接文件的不同或已 有的连续文 件与 新的 简 化 直接 文件的 不同 而生 成的 11 对于上述各种文件结构的最终实现,仍然要依靠 “ 表”这种结构,也就是说, 目 前数据仓库仍然采用关系数据库技术实现,数据仓库的数据最终也表现为关系 2 1 1 . 2 .4数据仓库中历史数据的归档与重构 数 据仓 库中 历史 数据 是 指o u t 、 即 时o l a p ( u p - t o th e s e c o n d o l a p ) 以 及 一般意义上的o l a p 和d m已经使用完毕的数据,但考虑联机分析处理长期历史 数据的特殊需求,这些数据仍然是可利用的和有效的。同时,为了提高当前d w 系统的运行效率、节省联机存储设备的空间,应将这些数据从当前的d w系统中 迁移到较低层次或脱机存储设备中进行保存,即历史数据归档。 在某些情况下, 特殊o l a p 和d m实用程序集对归档的历史数据的访问 是独立 的 ( 如档案性数据查询) ,并不涉及到当前联机数据。此时,d w a只要根据访问 需求将存储在脱机存储介质上相关数据准备完毕就可满足实用程序的需要。 图2 . 1 数据仓库系统中的 数据流 f ti g . 2 . 1 d a t a fl o w o f d a t a w a r e h o u s e s y s t e m 但在许多特殊情况下,某些o l a p 和d m实用程序集需要同时将当前联机数据 和归档的历史数据进行综合分析使用,它们之间的关系可用图2 . 1 简单描述,考虑 到数据一致性和访问效率, 就必须将全部或部分归档的历史数据重构为当前数据。 东北大学硕士学位论文 第一章引言 总之, 历史数据归档( a r c h i v e ) 是指定期将不再使用的旧 数据存入备存媒体, 但 是这些数据在以后的时间内,可能需要访问。历史数据重构 ( r e c o n s t r u c t )是指对 于一些情况的o l a p 和d m,将已 归档的历史数据重新恢复成在线的 分析数据, 该过程即为历史数据重构。 1 . 3研究现状 目前,对该项目的研究还很少,大多数的研究只局限于对此问题的理论性探 讨。 如v j .h .i n m o n 和r .d .h a c k a t h o m就曾 提出这个问 题, 他们指出 某些特殊需求 需 要 分析 更 低的 且己 经 转 储到 其它 存 储介 质的 历 史 数 据, 访问 历史 数 据 将是昂 贵 的、 麻烦的 和复 杂的 事 情, 但这些 特殊需求是不可 避免的 3 ) 相对于历史数据的归档和重构的研究较少的情况,各大数据库厂商推出的 d b ms 都配置了功能强大的备份和恢复机制。但在大多数据情况下, 备份和恢复 的意义不能完全等同于归档和重构意义。数据仓库的备份就是制作数据仓库结构 和数据的拷贝,实际上是构成数据仓库的数据库的备份。而且,数据仓库的 备份 机制是为了消除系统遭到灾难性或非灾难性破坏等不安全因素的影响而采取的联 机备份策略,是将整个系统的数据或状态保存下来,通常称为当前数据映像。可 以说,备份技术只保证数据可以恢复,不注重数据的重构 ( 数据的在线使用) . 另外, 归档文件的组织与存储缺少优化策略, 特别是如x ml 这样的数据存储 和组织技术没有在数据仓库历史数据的归档中得到充分的利用,给数据的迁移和 重构预留了必须面对和解决的问题。 1 .4全文组织结构 历史数据的归档与重构是数据仓库系统中的一个重要的组成部分,其策略的 优劣将对数据仓库的o l a p 和d m等应用产生极大的影响。本文主要研究了数据 仓库中历史数据的归档和重构的策略。 第一章介绍了问 题提出的背景、数据仓库基本概念以 及问题研究的现状。其 中,重点介绍了历史数据的存储和组织方式,指出了数据仓库的历史数据是以关 系模式存储的,提出了归档文件的组织与存储缺少优化策略,应该将历史数据归 档和重构综合进行考虑的问题。 第二章介绍了x ml技术、 x ml与数据库之间的关系以及x ml技术在历史数 据的归档中的 应用。 其中, 重点介绍了x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度上海房产买卖合同智能家居系统配套范本3篇
- 2024版郑州玻璃岗亭生产与供应链管理合同
- 2025年智能电网建设项目资金投入合同3篇
- 二零二五版豆腐品牌连锁加盟合同3篇
- 二零二五年度企业商业信用贷款还款合同3篇
- 二零二四年医疗器械生产许可合同
- 2025年绿色建筑项目瓦工力工劳务分包及节能减排合同3篇
- 2025年度大型活动临时演员招募服务合同4篇
- 年度豆浆粉战略市场规划报告
- 年度电子厨房秤竞争策略分析报告
- 2024年高标准农田建设土地承包服务协议3篇
- 阅读理解(专项训练)-2024-2025学年湘少版英语六年级上册
- 2024-2025学年人教版数学六年级上册 期末综合试卷(含答案)
- 无创通气基本模式
- 飞行原理(第二版) 课件 第4章 飞机的平衡、稳定性和操纵性
- 收养能力评分表
- 暨南大学珠海校区财务办招考财务工作人员易考易错模拟试题(共500题)试卷后附参考答案
- 山东省桓台第一中学2024-2025学年高一上学期期中考试物理试卷(拓展部)(无答案)
- 2024年全国统一高考英语试卷(新课标Ⅰ卷)含答案
- 2024年认证行业法律法规及认证基础知识 CCAA年度确认 试题与答案
- 燃烧机论文定型机加热论文:天然气直燃热风技术在定型机中的应用
评论
0/150
提交评论