




已阅读5页,还剩62页未读, 继续免费阅读
(计算机软件与理论专业论文)基于再生树模型的备份集管理研究及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
林锋:基于再生树模型的备份浆管理研究及其应用中山大学硕士学位论文 基于再生树模型的备份集管理研究及其应用 计算机软件与理论 硕士生:林锋 指导教师:倪德明副教授 摘要 本文的研究背景是中山大学软件研究所与广州威腾网络科技有限公司合作 开发的数据备份与恢复系统n e t b u n k e r 。本文分析和比较了目前国内外著名备份 管理系统优缺点。针对此类产品中备份索引表达力弱,忽视备份数据问内在联系 而导致备份数据管理g u i 视图的友好性差、误操作高,恢复代理自主性弱等问题, 提出了一种基于备份恢复机制的再生树模型( r e i n c a r n a t et r e em o d e l ) 以高效管 理备份数据、提高备份数据的可恢复性与易用性。 本文首先通过一个简单例子引出为备份数据建立基于其本身备份恢复机制 的依赖关系的必要性。接着提出了再生树数据模型,定义再生树存储格式、性质 并给出关键算法。最后给出再生树模型在网络数据备份与恢复产品n e t b u n k e r 中的具体应用和实现。通过为每一个备份资源建立并维护该再生树,达到1 ) 分 层有序的组织备份集,增强g u i 恢复界面友好性2 ) 自动化数据恢复流程,解决 恢复路径问题3 ) 优化备份集管理4 ) 保护备份数据完整性的目标。 关键词:数据备份,再生树模型,恢复路径,备份集管理 林锋:基于w 生树模型的备份集管理研究及其应用中山大学硕士学位论文 ar e s e a r c ho nb a c k u ps e tm a n a g e m e n ta n di t s a p p l i c a t i o n sb a s e do nr e i n c a r n a t et r e em o d e l c o m p u t e rs o f t w a r ea n dt h e o r y n a m e :f e n gl i n s u p e r v i s o r :a s s o c i a t ep r o f d e m i n gn i a b s t r a c t t h er e s e a r c ho ft h i s p a p e ri sb a s e do nab a c k u ps y s t e mn a m e dn e t b u n k e r , w h i c hi su n d e rd e v e l o p i n gi no u rl a b o r a t o r y t h i sp a p e ra n a l y s et h el i m i t a t i o ni n n o w a d a yb a c k u ps y s t e m s ,s u c ha s :1 ) t h ew e a ke x p r e s s i o ni nb a c k u pi n d e x2 ) t h e u n f r i e n d l yv i e wi ng u ia n df r e q u e n tm i s o p e r a t i o n sb e c a u s eo ft h ei g n o r a n c eo f b a c k u p r e s t o r em e c h a n i s mi nb a c k u pd a t am a n a g e m e n t3 ) t h ew e a k n e s so fr e s t o r e a g e n t a n dt h e n ,w ep r o p o s ear e i n c a r n a t et r e em o d e lb a s e do nb a c k u p r e s t o r e m e c h a n i s mt h a te f f i c i e n t l ym a n a g ea n di m p r o v et h er e c o v e r a b i l i t ya n dw e l l o p e r a t e d o fb a c k u pd a t a i nt h ep a p e r ,t h en e c e s s i t yo fb u i l d i n gu pt h ed e p e n dr e l a t i o n s h i pb a s e do n b a c k u p r e s t o r em e c h a n i s ma m o n gb a c k u pd a t ai sf i r s ti n t r o d u c e dt h r o u g has i m p l e e x a m p l e s e c o n d l y ,ab a s i cm o d e lo fr e i n c a r n a t et r e ei sc o n s t r u c t e d ,a n dt h ed a t a s t o r a g es t r u c t u r eo fr e i n c a r n a t et r e en o d e s ,t h ep r o p e r t ya n dt h em a j o ra r i t h m e t i ca r e a l s op r e s e n t e d f i n a l l y t h ea p p l i c a t i o na n di m p l e m e n t a t i o no ft h er e i n c a r n a t et r e e m o d e li nn e t b u u k e r 2a l ed e t a i l e d b yc o n s t r u c t i n ga n dm a i n t a i n i n gar e i n c a r n a t e t r e et oe a c hb a c k u pr e s o u r c e ,w ea c c o m p l i s ht h ef o l l o w i n ga d v a n c e m e n t :1 ) t ow e l l o r g a n i z eb a c k u pd a t aa n di m p r o v et h eg u iv i e wo fb a c k u pd a t a2 ) t oa u t o m a t et h e r e s t o r ep r o c e d u r ea n ds o l v et h er e s t o r ep a t hp r o b l e m3 ) t oo p t i m i z et h em a n a g e m e n to f b a c k u pd a t a 钔t op r o t e c tt h ec o m p l e t e n e s so fb a c k u pd a t a k e yw o r d s :d a t ab a c k u p ,r e i n c a r n a t et r e em o d e l ,r e s t o r ep a t h , s t o r a g em a n a g e m e n t i i i 林锋:基于再生树模型的备份集管理研究段h 心j h 中山大学硕士学位论文 1 1 数据备份的意义 第1 章引言 随着计算机管理技术和网络技术的发展,为了提高企业业务管理水平、增强 企业市场竞争能力,越来越多的企业丌始使用计算机来处理内部日常事务和外部 业务往来,从而使得这些企业越来越依赖于系统管理数据和业务信息。尤其是在 企业业务不断增加、数据量成倍增长乃至出现数据膨胀现象时,由此引发从企业 数据膨胀,到计算机性能提高,再导致新一轮数据膨胀的循环不断加剧,进而在 企业中引起新的数据安全恐慌。数据失效问题时有发生。 对数据进行备份就是在于防止一些灾难性的小概率事件可能对集中式信息 系统造成的不可恢复的原始数据的丢失。这些灾难性事件可能包括为火灾、地震、 电源故障及一些人为的操作失误等。对重要数据进行及时的备份有如下的意义: 重要业务数据在灾难发生中得以有效保护; 重要业务在灾难发生后可以在规定的时问内恢复,从而实现业务的连续 运行; 业务计算机系统抵御突发性灾难的能力和级别提高: 进步提高企业声誉,增强客户及潜在客户的信心: 扩大对同行业竞争对手的优势。 1 2 数据备份的发展历程 从数据备份的发展过程而言,一句话可以概括为,备份的发展贯穿了计算机 的发展史,各份发展史是计算机发展史的缩影,它经历了三个阶段: ( 1 ) 计算机网络出现以前的单机备份:在此阶段是“单机处理,软盘交流” 的个人行为。想起或记起来时才去备份,是典型的拍脑袋的行为,随机性很大, 备份没有得到重视。备份的形式通常就是将需备份的文件复制至硬盘的另一个位 置或者软盘上,数据得不到有效的保护。 林锋:基十w 生树模型的备份集管理研究投其应用中山大学硕士学位论文 ( 2 ) 局域网环境下的备份:在此阶段,由于网络的出现,数据共享显得r 益 重要。数据备份得到了应有的重视,成为系统管理员或应用操作员日常工作的一 部分。备份的数据是网络中整个企业的数据,介质阱磁带为主,不再是以前的盘 对盘的备份,但依然是系统管理员的手工作业。备份形式通常为通过备份工具或 是备份命令脚本进行人机交互执行,效率不高。备份慢慢成为系统管理员工作领 域中繁重的负担。商业化备份软件尚未出现,研究性备份系统开始诞生。 ( 3 ) 基于i n t e r n e t i n lr a l _ l e t 的应用环境下的备份:这期间的典型表现是整 个企业业务流程依赖于i n t e r n e t i n t r a n e t 网络环境。网络应用更加复杂化,计 算模式由c s 至b s 到p e e r t o - p e e r 复杂多变,数据种类增加,异种数据库、 多种文件系统和操作平台呈现在异构的企业计算机网络中:数据量剧增,存储空 间增大;数据存储位置变得分散:出现n a s 和s a n 存储机制,备份技术在结构上 也得到了长足的发展,从l a nf r e e 备份到无服务器备份,基本工作机制也逐步得 到更新。 网络环境和应用系统的目趋复杂化,汁算机数据处理出现了许多的问题: 数据管理工作难以形成制度化,数据丢失现象难以避免; 数据分散在不同的主机、应用系统上,管理分散,安全性得不到保障; 难以实现数据库数据的高教在线备份; 运行着的系统使得维护人员寸步难离,业务人员:( 作效率下降; 存储介质管理困难; 历史数据保存困难: 非计算机系统因素的隐患。 尤其鹰用环境发生了革命性的变化,数据备份工作随之变革的结果就是企业 级备份软件的出现。备份软件针对上述问题,需要适应新环境下的备份需求: 需要克服数据的分散给备份带来的困难; 需要应付种类繁多的数据类型; 需要大容量的存储介质并列存储介质进行更好的管理; 备份不能影响企业应用系统的可用性: 备份日志信息应能有效管理并在此基础上的提供报表分析功能: 林锋:挂于再生树模型的备份集管埋研究及其应用中山大学硕士学位论文 备份操作应该简单易行。 1 3 数据备份的分类 1 3 1 按照备份操作的方式分类 备份可分为完全备份,差异备份和增量备份 1 】【2 】。 完全备份( f u ub a c k u p ) 是刘整个需要备份的系统进行备份,包括服务器操作 系统和应用程序生成的数据。这利t 备份方式的特点为备份的数据最全顽、最完整。 当发生数据丢失的灾难时,只要用一盘磁带就可以恢复全部数据。不足之处在于: 由于是对整个服务器系统进行备份,因此数据量非常大,占用备份的磁带设备比 较多,备份时间比较长。如果每天进行这种完全备份,则在备份数据中会有大量 内容是完全重复的,会增加成本。这种备份方式通常只是在备份计划中的最开始 一、两天采用。 差异备份( d i f f e r e n t i a lb a c k u p ) 是指每次备份的数据是相对于上一次完全备 份之后新增加的和修改过的数据。差异备份所需时问短,并节省磁带空间,它的 灾难恢复也很方便,系统管理员只需两盘磁带,即系统全备份的磁带与发生灾难 前一天的备份磁带,就可以将系统完全恢复。这种备份方式适用于进行了完全备 份后的后续备份。 增量备份( i n c r e a m e n t a lb a c k u p ) 是指每次备份的数据只是相当于上一次备 份( 完全备份或者差异备份) 后增加的和修改过的数据。其优点在于:没有重复的 备份数据,节省磁带空间,又缩短了备份时间。缺点在于当发生灾难时,恢复数 掘比较麻烦。这种备份方式也适用于进行了完全备份后的后续备份。 1 3 2 ,按照备份数据对现有应用产生的影响程度分类 可分为离线备份和在线备份【2 】。 离线备份( o f f - l i n eb a c k u p ) ,它是在进行备份操作时,服务器不再接受来自 用户或应用对数据的更新。离线备份可以很好地解决在备份过程中数据的完整性 林锋:基于再生树模型的备份集管理研究厦其应用中山大学顺十学位论文 的问题,是防止破坏、敌意病毒袭击、应用失漠等的有效方式,但严重影响了业 务的正常执行。 在线备份( o n - l i n eb a c k u p ) ,即在用户和应用正在更新数据时对系统进行备 份。在线备份最大的难点是如何保持数据的完整性。为了保护数据的完整性,可 以采用两种技术:锁和快照。锁技术就是系统在备份某一文件时拒绝对该文件和 目录的任何修改命令,因而锁技术会对数掂可用性产生一定的影响,在应用持续 的同时进行备份不可避免地降低了系统性能。快照是通过内存作为缓冲区( 快照 c a c h e ) ,由软件提供系统磁盘存储的即时数据映像。目前,在线备份大多采用快 照技术。 1 3 3 根据备份数据所处的位置分类 可分为本地备份和远程备份【2 1 。 本地备份( l o c a lb a c k u p ) ,即通过存储网络将数据备份在局域网范围内的备 份。这种方式可利用现有的各种资源和技术来达到高速的备份。它的性能可以很 好地满足实际需要,如数据一致性、容错等要求,而且性能是最高的。 远程备份( r e m o t eb a c k u p ) ,在数据高可用性的网络环境中,异地数据备份 是个必不可少的手段。当本地应用受到灾难性破坏时,通过远程备份和容灾, 来保护和恢复数据,使损失降低到最小。在远程备份过程中,数据传输要跨越校 园网、城域网甚至广域网,这时,必须要考虑网络的传输速度对备份性能的影响。 延迟也是影响远程各份性能的重要因索,特别是广域网的数据库备份,可以通过 异步的方式来解决。另外,在远程备份中还要解决数据的完整性和一致性问题, 解决这个问题比较成熟的技术是采用快照和镜像相结合的方法。 1 4 存储资源管理 存储资源管理是一类应用程序,它们管理和监控物理及逻辑层次上的存储资 源,从而简化了管理,提高了数据的可用性,被管理的资源包括物理上的磁盘子 系统、磁带、光介质系统等存储硬件以及卷、文件、用户和i o 等逻辑资源。存 储资源管理能够监控存储系统的健康状况、可用性、性能表现咀及配置情况,从 林锩:基于再生树模型的备份集管理研究及其应用中山大学硕士学位论文 而提供优化策略。此外,存储资源管理还包括容量和配置管理、数据、设备和介 质的迁移管理以及事件报警和策略管n 3 1 1 4 1 1 5 】。 存储资源管理多年来直主要应用于大型机中,普通的企业信息平台很少 涉及。然而,当耗资几十万美元的s a n 出现在人们面前、系统在扩展过程中必 须进行服务器整合的时候,以及受电子商务、e r p 、c r m 等应用的影响而急需 增加容量的时候,存储再一次成为企业重要的i t 成本之一,成为资源管理的重 要对象。存储资源管理的问题也再次成为焦点。 一般来说,存储资源管理主要包括两个方面:一是以整体规划为重点,强 调科学地规划、配置企业存储设备;二是以消耗管理为重心,强调对现有存储系 统的增值。因此,存储资源管理的核心思想就是一个,即降低企业的总体拥有成 本。 需要强调的一点是,存储资源管理一定要具有管理多厂商存储设备的功能。 存储资源管理工具必须能够为管理员提供一个集中管理接口,通过这个接口将各 种资源作为一个统一的整体进行管理。如果不能对来自各厂商、各类型存储设备 进行集中管理,就不可能带来效率的提高以及成本的降低。 存储资源管理的主要任务 供应对于存储资源管理的供应方面,主要包括怎样合理安排物理资源并 将其提供给用户群。在磁盘上创建分区或卷,受限于一组物理介质的范围,也受 限于固定的大小,如果想对这些限制进行改变,就不得不关闭系统。r a i d ( 独立 冗余磁盘阵列) 技术虽然对于容错和往能改善有一定作用,但对于突破这些限制 也是无能为力。还比如,在有些高端存储系统中,对相应系统作出调整有时会需 要一定的“计划”停机时间,在停机时间内不能向用户提供存储的供应。这些情况 都有待改进。 与存储资源管理相关的供应策略就是怎样将物理资源组织为适当的逻辑资 源,以及怎样将这些逻辑资源合理提供给用户群使用。 控制资源进行控制意味着必须对用户或对象消耗的空间数量设定限额, 同时还要对能放入其中的内容进行管理。没有限额管理,一个粗心的用户、一个 失控的进程就将消耗掉所有的可用空间,使其他用户不能得到存储资源。另外, 林锋:基于再生树模型的并份集管理研究及其应用中lj j 大学硕j 一学位论文 存储限制还可以使用户养成良好的使用习惯,人们会考虑到限额的问题而谨慎使 用资源,避免造成浪费。 性能监视和管理在建立了存储资源并以可控的方式提供给用户群之后,必 须对其可用性和性能进行维护。首先要设定一个性能标准,并且用一个恰当的机 制来检验其服务是否达到了目标,然后还需要恢复机制以便当情况变糟时能够及 时恢复到原先的服务质量。只有管理最好的用户才有合适的存储性能评估标准和 测量工具。不进行维护的话,存储性能必将恶化。 数据管理和数据保护没有任何网络是不需要备份技术的。备份的主要问 题在于如何经济地进行管理。尽管一个磁带也许只值几百元,但每年用于维护一 个磁带数据的开支却可能达到数千元。存储管理中,不论是在线还是离线的,都 不是免费的,必须确定所备份的都是有必要的,除此之外都不作备份,另外也可 以采用分级存储管理来降低成本。 林锋:幕于再生树模型的备份集管理研究及其应用中山大学硕士学位论文 第2 章存在问题及研究现状 2 1 问题的提出 数据备份是保护数据的最重要手段。数据备份系统存在的意义在于能够迅速 利用备份将数据从某种灾难中恢复,尽最大可能的减少因为数据丢失而造成的损 失。不管是使用一个本地解决方案来建立备份数据上的普通索引,还是使用一个 具有b 树索引的商业各份工具,都要求能够快速的恢复备份【6 。本文中将对备 份对象进行选择,移动,格式转换等操作之后得到的目标对象集称为备份集。备 份数据的组织情况对于一个好的灾难恢复计划来说是非常关键的。如果有成百上 千的备份集,但在需要他们的时候却找不到,各份数据有什么用昵? 为了能够保 证随时找到需要的备份数据,可以通过以下方式跟踪备份数据: 1 ) 为备份数据建立唯一字母数字卷序列号; 2 ) 建立备份索引数据库,记录用于跟踪备份数据的序列号,名字,类型, 使用日期,地点以及”临时借出情况”; 3 ) 条形码系统。 然而上述方法忽略了一个非常重要的因素:备份集间基于备份机制的内在联 系。以中山大学软件研究所和广州威腾网络公司共同研发的网络数据备份与恢复 产n e t b u n k e r 7 为例,用户在定义m i c r o s o f ts o l s e r v e r 2 0 0 0 数据库的恢复作 业时,需要手动在众多备份集中选择需要恢复的相关备份集。对于任一备份集, 可由一全局唯i du u i d 对其标识,然而该i d 在用户面前显然只是字符串, 其本身不带有更多的信息。通过建立备份索引数据库,可以为备份集提供更多的 描述信息。为了让备份集名自身可携带更多的信息,本文用一个五元组标谚 备份 集,记为b a c k u p s e t 。 b a c k u p s e t = ( 公式2 1 ) 其中 s 表示该备份集的数据源,即备份对象: p 表示该备份的粒度,例如在m ss q l s e r v e r 数据库中按备份粒度可以分 为备份数据库( d a t a b a s e ) ,备份文件组( f i l e g r o u p ) ,备份文件( f i l e ) , 日志( o g ) 等; 朴锋:壮于再生树模型的备份集管理研究及其应用中山人学硕l 学位沦文 b t 表示备份类型,在m ss q l s e r v e r 数据库中有完全备份类型( f u 】1 ) 与差 异各份类型( d j f f e r e n t i a l ) ; 1 表示备份时间; i du u i d ,全局唯一标识备份集,该1d 无需显示予终端用户。 囚此一个比较好的备份集标识的名称实例是: n o r ih w i n d d b d i f f e r e r t i a l 2 0 0 6 0 3 j 9 2 0 :3 0 。 该名称说明该备份集是在时间2 0 0 6 0 3 1 9 2 0 :3 0 对数据库n o r t h w i n d 进行的 数据库差异各份。然而本文认为该五元组依然忽视了备份集间疗勺依赖关系,随着 备份集的急剧增加,问题随之而来: 1 ) 从最终用户角度出发 当数据库出现灾难故障的时候,最终用户关心的是如何迅速将数据库恢复 至最近可用状态。通过备份集实例名中的t 元素,用户可以确定数据库能恢 复至的最新时间。假设用户期望将数据库恢复至备份集 n o r t h w i n d d b d i f f e r e n t i a l - 2 0 0 6 0 3 一f 9 2 0 :3 0 状态,但依照m s s o l s e r v e r 数据库恢复原理,用户必须先恢复该差异备份所基于的上一次数据库完全备 份。因此,用户不得不在大量备份集中搜寻期望的数据库完全备份集,这无 疑增加了用户的负担。在m ss q l s e r v e r 数据库中,恢复差异备份前应先恢复 完全备份的性质,从一侧面反映了备份集问基于数据库备份恢复机制的依赖 关系。特别地,在利用事务日志进行恢复的情况下,备份集问的依赖关系变 得更为明显和复杂。 2 ) 从恢复代理角度出发 关于代理( a g e n t ) ,目前学术界还没有一个被普遍接受的定义,每个研究 者根据自己的理解都可能赋予它不同的定义。下面是引自w o o l d r i d g e 平n j e n n i n g s 8 的定义:代理是处在某个环境中的计算机系统,该系统有能力 在这个环境中自主行动以实现其设计目标。本文中借用代理这一概念,将 与恢复相关的一系列活动,用恢复代理这一概念综合整理起来。这里本文强 凋代理的自主性,即代理应在人和其他代理不介入或者少量介入的的情况 下,完成其火部分问题求解任务,且应能够在一定程度上控制他们自身行为 和内部状态。结合 = :述例子即恢复代理能自丰的根据用户指定的备份集,递 林锋:基十再生树模型的备份集管理研究及其应h 3中山大学硕上学位论义 归找出该备份集所依赖的其他备份集,并且按照数据库恢复机制要求依次对 备份集进行恢复。从提高恢复代理自主性出发,为备份集建立基于备份恢复 机制的联系是十分有必要的。 3 ) 从介质管理员角度出发 企业中,数据总是无限制的增长,然而可供数据存储的空间相对大小固 定。实际备份系统的另一个功能性要求是要能够实现卷的循环使用。提出这 样一个要求,是为了解决资源的有限性与对资源需求的无限性之间的矛盾。 从备份的角度来说,应该事先对备份的数据量做出评估,在这个评估的 基础上确定应该分配的存储空间,而所有的备份数据都应该有个生存期。也 就是说,在备份过程中如果出现所分配的存储空间已满,如果允许卷的循环 使用,则将备份数据写入到序列号最小的那个卷上,覆盖原有数据。这种循 环利用卷的策略,在一定程度上缓解了存储介质有限性的压力,但本文认为 并不是最佳策略。假设现在介质上保存着n o r t h w i n d 数据库的数据库完全各 份a 和基于a 的数据库差异备份b 。倘若在a 的生存期结束后,介质管理程 序释放备份集a 所占空间。b 备份集依然安全无恙的存储于介质中,占用着 宝贵的介质空间,但由于失去了其所依赖的数据库完全备份a ,它在数据库 n o r t h ,v i n d 出现故障时将不起任何作用。因此,如果在介质管理中能加入备 份集问依赖关系因素,在对备份集a 进行操作同时考虑依赖于a 的其他备 份集,将更简洁、高效管理介质空间。 2 2 研究现状 从功能角度出发,上述提出的为备份集的管理加入基于备份恢复机制的依赖 关系属于存储资源管理范畴。近些年来存储管理技术已取得了显著进步,策略性 的管理系统不断出现。尽管不同的用户需要对存储资源管理技术作出各自的决 策,但这类技术和工具对于每个企业来说都是必需的,这将使他们从中受益。 c ab f i g h t s t o rs r m 和其相联的自动化过程可引发动作或者基于闽值的修复 事件,主动地管理存储资源并在问题导致系统宕机以前定位这些问题1 9 1 。e m c c o n t r o lc e n t e r 软件可以查看整个i t 基础架构的各个组成元素( 包括硬件和软件) , 它了解用户的基础架构t f 在以何种方式发挥作用,以确保达到服务级5 j u ,获取更 高性能,提高生产力并降低成本 1 0 1 。富士通s o f l e ks t o r a g em a n a g e r 具各下列功 林锋:基于再生树模型的备份集管理研究及其应用中i 】j 大学颂十学位论文 能,可以解决i t 经理在存储管理上面对的难题:集中管理存储资源,通过单一的 中央控制台。集中查看并管理所有存储资源;实用汇报功能,查看不同层面,衡 量存储资源使用情况,并确认在物理层及逻辑层两方面的趋势f 1 1 】。h po p c n v i e w s t o r a g ea r e am a n a g e rr s a m ) 产品套件利用集成的工具支持企业存储公用设施 s t o r a g eu t i l i t y 服务,可以帮助l t 部门降低存储管理成本,保护现有存储,有效 地利用资源并向客户、合作伙伴和员:i :提供保证质量的服务f 1 2 1 。i b mt i v o l i s t o r a g er e s o u r c em a n a g e r 是一个用于存储环境的智能控制台,提供了一系列的 策略驱动的自动化工具,这些工具用于管理企业环境中的存储容量、可用性、事 件、性能以及资产,包括d a s 、n a s 和s a n 技术 1 3 1 。 然而s r m 作为一种系统架构,捆绑了极其丰富的功能,但是事实上,这种 复杂的架构违背了简单就是美的原则。大型企业引入架构机制后,仅仅是把事情 搞的更复杂更难以理解,即使是实施最简单的管理解决方案,比如说安装一个简 单的事件控制台( e v e n lc o n s o l e ) 软件,都需要与架构供应商们反复磋商才行。i d c 目前公布了最近个季度的存储软件销量统计报告,数据保护类工具的销量远远 超过了存储资源管理f s r m ) 工具,从另个侧面反映出“数据安全”和“循规” 才是企业用户现阶段最关注的焦点。“当初存储厂商们在推广存储资源管理 ( s r m ) 3 = = 具时,打的宣传旗号是“s r m 将会让存储管理变得更简单”。事实证 明,这只是一种宣传手段而已,s r m 实际部署和使用起来都相当复杂,i d c 公 司的分析师,同时也是该报告的撰写人r h o d ap h i l i p s 介绍说,“相比之下,循 规软件和数据保护软件更受欢迎一些。” 另一方面,虽然大多数公司提出了详尽的存储资源管理方案,但就为备份数 据引入基于备份恢复机制的内在联系这一问题领域,尚缺少研究。例如:1 ) m s s q ls e r v e r 2 0 0 0 的企业管理器工具,该【具对历史备份数据给予统一的g u i 视图。然而各份数据在该视图中只是简单的罗列,这就要求数据库管理员必须清 晰知道每一个备份集包含的数据内容以及它所依赖的前驱备份集。当一个数据库 管理员需要同时管理数十个备份对象,数百个备份集的的时候,这样的要求是相 当苛刻的;2 ) 国外最为成熟的备份软件v e r l t a sn e t b a c k u p 1 4 是一个功能强大 的企业级数据备份管理软件,它为w i n d o w sn t 、u n i x 和n e t w a r e 环境提供了完 整的数据保护机制,具有保护仑业中从 作组到企业级服务器的所有数据的能 力。但通过实际应用,本文发现了同样的问题:备份数据单一线性罗列。 林锋:基于再生树模型的备份集管理研究及其应朋中山人学硕上学位论文 2 3 前期研究工作 中山大学软件研究所数据备份项目小组于2 0 0 3 年成立,对数据备份领域内的 问题和系统实现技术进行研究。研究的主要内容包括:建立理论模型,调度策略 和算法,备份代理技术,应用级的通讯协议,流式文本过滤技术,数据通道技术, 介质访问技术和网络安全和认证等。 其中与本文研究相关的前期主要研究工作有: ( 1 ) 研究了在备份系统的研制中所遇到的关键技术问题,建立了基于测度概 念的理论模型,并给出了一个周期性备份的性能评估模型 1 5 1 ; ( 2 1 研究了数据备份系统的备份索引,重点的研究内容是备份结点生长树同 步映射的备份索引的表示和设计方法,克n t 现有的备份索引表达能力弱, 适应性不强的缺点 1 6 1 : ( 3 ) 对异构系统中的存储模型的研究 1 7 1 : ( 4 ) 研究定义了一种具有自描述特征的卷的格式,并讨论了该格式三个方 面,即在正常备份与恢复、灾难恢复、数据远程迁移这三种情况下的应用 1 8 j ; ( 5 ) 研究列树结构按照结点顺序进行流式处理的技术 1 9 1 ; ( 6 ) 研究了面向用户的子树选取策略其在周期备份中的应用 2 0 1 。 2 4 本文的主要内容及写作结构 本文分析比较了目前国内外著名备份管理系统,针对此类产品中因备份数据 间组织性差、缺少基于备份恢复机制的依赖关系而导致备份集管理g u i 视图的 友好性差、可操作性不强,恢复代理自主性弱等问题提出了再生树模型。通过为 每一个备份资源建立并维护该再生树,最终实现1 ) 分层有序的组织备份集,增 强g u l 恢复界面友好性2 ) 优化备份集管理3 ) 保护备份数据完整性的目标4 ) 自动化数据恢复流程,解决恢复路径问题。 本文后续写作结构如下:第三章提出再生树模型,分别给出完全数据再生树 以及事务曰志再生树的定义、性质、数据结构以及关键算法,在章节最后讨论再 生树的x m l 文档存储方法及相关的处理。第四章介绍了利用再生树模型在广州 林锋:基于弭生树模型的备份集管理研究及韭应用中山大学删一学位论文2 0 0 6 - - 5 市威腾备份与容灾系统中的具体应用及效果分析。第五章对该文的总结和下一步 工作。 林饽:基于再生科桉型的蔷份集管理研究及其应用中山大学硕士学位论文 第3 章再生树模型设计 3 1 再生树模型的提出 3 1 1 基于备份策略的备份集分类 数据备份是保护数据的最重要手段。而备份数据本身也是一种数据,也有保 护和使用的要求。合理的组织不同类型的备份数据,保护备份数据,是一个备份 系统重要的组成部分。本文将备份后所生成的新的数据实体称为备份集( b a c k u p s e t ) 。根据备份集内容及各份时基于的备份策略不同,本文将其分成四种类型。 a ) 完全类型备份集 完全备份集是指可以单独对其进行恢复操作的备份集。例如对文件系统或者 数据库进行一次完全备份所产生的备份集。本文将完全类型备份集记为f b ,并 用圆圈。表示。 b ) 差异类型备份集 差异类型的备份集不能单独恢复,差异类型备份集的还原操作当且仅当在还 原了完全类型备份集后进行。例如,数掘库m s s ( ) l s e r v e r 2 0 0 0 还原数据库差异备 份前必须先还原数据库完全备份。本文将差异类型备份集记为d b ,并用正三角 表示。 c ) 增量类型备份集 增量类型备份集与差异类型备份集情况类似。增量类型备份集的还原操作当 且仅当在还原了其上一次成功备份后生成的备份集后进行。增量类型的备份集包 括增量备份所产生的各份集,它们通常是一个有序的队列,必须严格按照备份先 后顺序依次恢复。例如,用户对o r a c l e 数据库星期一做了一次数据库完全备份, 星期二、三分别做了一次增量备份,假设数据库管理员星期四时候希望将数据库 恢复至星期三时状态,那么用户必须首先还原星期一所做的数据库完全备份,接 下来,依次恢复星期二、三所做的增量备份。本文将增量类型备份集记为i b , 并用正四边形口表示。 4 木锋:基于再生树模型的备份集管理研究及其应用 中山a 学坝十学位论文 d ) 事务日志类型备份集 事务曰志类型备份集本质上也应属于种增量类型备份集,但它具有一般增 量备份集不同的特点,表现为可利用事务日志类型备份集进行时间点的恢复。例 如,用户对m s s q l s e r v e r 2 0 0 0 的数据库n o r t h w i n d 星期一做了一次数据库完全备 份星期二、三分别做了一次事务日志备份,假设数据库管理员星期四时候希望 将数据库恢复至星期三时状态,那么用户必须首先还原星期一所做的数据库完全 备份,接下来,依次恢复星期二、三所做的事务f | 志备份。这里表现的性质与恢 复增量类型的备份集很象,不同的是,用户可以将数据库恢复至已做事务日志备 份时问段中的任一时问点。本文将事务目志类型备份集记为l b ,并用菱形表 7 “。 3 1 2 备份集间基于备份恢复机制的依赖关系 a ) 连续增量备份之间关系 增量备份,只备份自从某一时刻以来改变过的数据。这个过程的实现要求记 录备份对象内部各组成部分的变化状态,现实中,一介具有正常备份功能的产品 都具备此性质。接下来,本文考察o r a c l e 数据库和u n i x 文件系统的备份原理。 o r a d e 数据库为了执行增量备份,使用了系统改变号0 y s t e mc h a n g en u m b e 0 号, 记录数据块的变化状态 2 l l ; 而在u n i x 文件系统中,u n i x 的a l i m e ,m t i m e , c t i m e 等文件属性则是起到相同的作用。在o r a c l e 数据库中,最重要的一个概念 就是检查点改变号细e c k p o i n tc h a n g en u m b e 0 ,数据库里面每一次发生的事务都 将会使系统改变号增加,而备份或者恢复的目标就是以检查点改变号为度量。在 此,本文发现,无论是o r a c l e 数据库的系统改变号,还是u n i x 的文件的a t i m e 属性【6 】,它们抽象后的本质就是一个全序集合。对于连续多个的增量备份本文 可以用n 元有序偶表示其关系( 忸,舾:,腰。妇。) ,其图形化表示如图3 1 。 j 。1 。一 目 林锋:基于再生树幞型的备份集管理研究及其应用中山大学硕士学位论文 b ) 事务日志备份之间关系 事务日志备份对是自上次备份事务日志后对数据库执行的所有事务的一系 列记录的备份。普遍数据库都提供事务日志备份功能。以m i c r o s o f t s q l s e r v e r t ”2 0 0 0 为例。事务同志按逻辑运行,就好象是一串连续的日志记录一样。 每条日志记录由一个闩志序号( l s n ) 标识 2 2 】。每条新日志记录用一个比以前 记录的l s n 更高的l s n 写入同志的逻辑末端。因此事务日志备份集之间本质 上也是一个全序集。对于连续多个的事务日志备份本文也可以用1 3 元有序偶表示 其关系( l d 。,l b :,l b 上日。) ,其图形化表示见图3 - 2 。 一一一 图3 2 连续事务日志备份间的线性序关系 c ) 完全备份与差异,增量备份之间关系 差异备份只创建数据自上一次完全备份之后修改过的所有页的复本。因此完 全备份与差异备份的关系为一对有序偶,例如: ( f b ,d b ,) ,( f b ,d b :) ,( f b ,d b :) ( f b ,d b ) ,差异备份本身之间不存在序关系,其 图形化表示如图3 3 。 么么途么途么蠢 图3 - 3 完全备份与差异备份间的关系图 林悖堆于生树模型的备份集管理研究及j e 应用中山大学硕士学位论文 增量备份是自对上次的最近一次成功备份( 完全、增量或差异) 后发生更改 的所有数据厍数据的备份。本文也用有序偶表示增各与其依赖备份的关系,例如 ( f b ,腰。) ,( d b ,膪,) ,( 佃,鹏:) ,图形化表示如图3 - 4 所示。 团 网同网 图3 4 增量备份与完全、增量或差异备份的关系 3 。1 。3 。备份集问依赖关系的再生 现在假设有这样的一个备份计划: 每个星期一早上5 点对数据库做一次完全备份; 星期二,四,六早上5 点对数据库进行增量备份: 星期三,五,日早上5 点对数据库进行差异备份; 并且为了能在出现故障时能糙确的将据库恢复至故障点,每天晚上l o 点对 数据库进行一次事务日志备份; 倘若数据库无故障运行,那么该各份计划在一周内将会产生1 4 各备份集,分别 记为f b , ,1 8 2 ,馏。,1 b 。,d b ,d b 5 ,d b ,l b l ,l b :上岛。简明起见,备份集下标表示 备份的日期,例如i b 。表示星期六所做的增量备份。备份集之间为序偶关系 ( f b ,1 b :) ,( f b ,d b ) ) ,( d b 。,i b 。) ,( f b ,d b 5 ) ,( d b 5 ,馏6 ) ,( f b 。,d b 7 ) , ( l b 。,l b 2 ) ,( l b :,l b :) ,( l b 3 ,l b 。) ,( l b 。,l b s ) ,0 b s ,l b 6 ) ,曰6 ,l b 。) 。 上面的举例只是对一个备份对象一星期所做备份产生备份集关系的描述。 在网络环境下,面对神类繁多的备份资源、急剧增加的备份集,备份集问的关系 将显得更加凌乱。如何组织这些不同备份资源、不同类型的备份集以方便检索成 为需要解决的第一个问题。这里,本文提出以树结构组织备份集。由于事务日志 类型备份集与f b ,i b ,d b 类型备份集不存在直接序关系,本文将其分离出来 组织成树。依据上小节中讨论的结果,不同备份集可组织成如图3 5 示树。 林锋:基于再生树模型的斋份集管理研究及其应用 中山大学硕:扛学位论文 园 o f u l lb a c k u p 口l a c r e a m e n t a lb a c k u p d i f f e r e n t i a lb a c k u p l o g b a c k u p 图3 5 备份集生长树 图3 5 描述了理想状态下,各份计划成功执行而生成的备份集备份集生长树 图。假设该数据库继续无故障运行,那么数据库的事务日志类型备份集组织树始 终为单线性树,即退化为单链表;非事务日志备份集生长树也有规律的生长。然 而现实的灾难总会不经意的发生,恢复操作将破坏备份集生长树的生长规律。考 虑如下情形: 星期五做完差异备份后( 未做当天的事务日志备份) ,用户发现数据库数据 数据异常,希望能够将数据库状态恢复至星期三晚上1 0 点状态。 数据库管理员依次恢复备份集f b :,d b ,l b ,将数据库恢复至星期三晚 上1 0 点状态。 恢复操作在星期五晚上8 点完成,备份计划继续执行。 这种情况下,备份集生长树按备份计划生长的方式被破坏。最终备份集闻关系 如图3 - 6 示: 金竭 ,1 金自 林锋:基十再生树模型的备份集管理研究发其应用 中山大学硕:i 1 学位论文 冒 厂l r 一。 i 线i b6 i 佃。f 6 i j i 一 n f u l lb a c k u p 口l n c r e a m e n t a lb a c k u p d i f f e r e n t i a lb a c k u p l o g b a c k u p 图3 6 备份集关系再生树 可见,首先用于描述备份集关系的生长树会随着备份操作的进行而不断生 长,本文称之为可生长性;在经过恢复操作后,备份集生长树原有的生长方式遭 破坏而生成新的备份集关系树。备份集生氏树中的这种不确定性和不稳定性,本 文称之为再生性。再生性质会产生以下问题: 1 ) 破坏了l b 备份集生长树的生长方式,产生分支,从进导致了恢复路径问题; 2 ) 增大了i b 备份集间,d b 备份集与i b 备份集问关系的复杂性: 3 ) 增加了开发备份集关系管理g u l 的复杂性; 4 ) 加大了开发具有自动恢复功能代理程序的复杂性: 5 ) 为介质管理提供了机遇与挑战。 林锋:基于n 生树模型的备份集管理研究及其应用中山大学硕上学位论文 3 2 基本元素定义 定义3 - 1 备份对象( b a c k u po b j e c o 备份对象泛指网络环境中任何需要保存的信息。如一个局域网子网中的所有 文件服务器,一个广域网中的某个o r a c l e 域,一台p c 机的文件系统,一个o r a c l e 服务器上的某个表空间等。本文是指备份客户中所有的数据。 备份对象可分为三类: ( 1 ) 元数据对象( m e t ad a t a o b j e c t ) , 记录了实体数据,日志数掘的各种属性: 如位置,大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 费用控制管理计划
- 肿瘤科工作回顾与多学科合作计划
- 班主任的家庭教育指导计划
- 铸铜铜像合同范本
- 2025年初级卫生专业技术资格重点试题带答案
- 2025网络设备采购合同协议(范本)
- 2025年购车贷款购车保证合同书
- 租赁个人商铺合同
- 银行质押担保借款合同
- 2024年西医临床研究方法的革新试题及答案
- 2024年高考英语训练动词(谓语、非谓语)单句语法填空50题
- 《包装结构设计》完整课件
- 抽样调查典型案例分析报告
- 海口市国土空间总体规划(2020-2035)(公众版)
- 从电影《第二十条》中学习刑法
- (高清版)TDT 1036-2013 土地复垦质量控制标准
- 华润认知能力测评题
- 大学生朋辈心理辅导智慧树知到期末考试答案2024年
- 社会稳定风险评估 投标方案(技术标)
- 两位数除以一位数(有余数)计算题200道
- 婚姻家庭指导服务工作方案
评论
0/150
提交评论