(计算机科学与技术专业论文)海量数据库的远程异构容灾技术研究.pdf_第1页
(计算机科学与技术专业论文)海量数据库的远程异构容灾技术研究.pdf_第2页
(计算机科学与技术专业论文)海量数据库的远程异构容灾技术研究.pdf_第3页
(计算机科学与技术专业论文)海量数据库的远程异构容灾技术研究.pdf_第4页
(计算机科学与技术专业论文)海量数据库的远程异构容灾技术研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机科学与技术专业论文)海量数据库的远程异构容灾技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机技术的飞速发展,社会信息化程度的不断提高,计算机信息系统已伸入 到社会的各个领域,并逐渐成为企业核心业务运行的基础。信息系统的安全性和可靠性已 越来越受到人们的关注。数据库系统是计算机信息系统的核心。如何确保数据库系统的高 可靠性和高可用性是一个很有现实意义的研究课题。 本文以国防科大计算机学院6 1 3 教研室开发的海量数据库系统的异地容灾为背景, 研究了数据库系统的异地、异构容灾技术,在此基础上为海量数据库系统的异地、异构容 灾提出了一个完整的解决方案。本文的主要工作包括: 1 分析比较了现有几种主流数据容灾技术方案,针对海量数据库容灾的需求指出了 它们的不足。 2 对海量数据库系统异地、异构容灾的相关技术进行了深入研究,这些技术包括分 布对象中间件技术、数据远程复制技术、网络传输技术等。 3 提出了一种基于分布对象中间件的远程数据复制技术策略,该策略既能满足海量 数据规模又解决了数据库系统异构问题。 4 深入分析了海量数据库的特点,并在此基础上设计了个基于中间件的海量数据 库异地异构容灾模型f r i - i d i d d 。 5 基于s t a r b u s 平台完成了f r h d m d 的实现。对f r h d m d 进行了功能和性能测试,测 试表明f r h d m d 能够正确地完成海量数据库系统容灾的各项功能,性能上也是可 以接受的。 关键字:容灾,海量数据库,中间件,c o r b a ,远程数据复制 奉1 课题得到国家自然科学綦金_ ( 9 0 1 0 4 0 2 0 ) 和国采8 6 3 计划资助项目( 2 0 0 1 a a l l 3 0 2 0 ) 支持 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rt e c h n o l o g ya n dt h ec o n s t a n ti m p r o v e m e n to ft h e s o c i e t yi n f o r m a t i o n l i z a t i o n ,t h ec o m p u t e ri n f o r m a t i o ns y s t e mh a sc o m ei n t ov a r i o u sf i e l d si n t h ew o r l da n db e c o m et h eb a s e m e n to ft h ek e yb u s i n e s si nc o r p o r a t i o n sg r a d u a l l y p e o p l e sp a y m o r ea n dm o r ea t t e n t i o nt ot h es e c u r i t ya n dr e l i a b i l i t yo ft h ei n f o r m a t i o ns y s t e m d a t a b a s e s y s t e mi st h ek e r n e lo ft h ec o m p u t e ri n f o r m a t i o ns y s t e m i ti sap r a c t i c a la n du s e f u ls u b j e c tt o s t u d yh o wt oi m p r o v es y s t e mr e l i a b i l i t ya n da v a i l a b i l i t y t h i st h e s i ss t u d i e si s s u eo fr e m o t eh e t e r o g e n e o u sd i s a s t e r - t o l e r a n tt e c h n o l o g yf o rm a s s i v e d a t a b a s e b a s e do nt h em a s s i v ed a t a b a s ed e v e l o p e db y6 1 3 # s t a f f r o o mo f t h ec o m p u t e rs c h o o l o f n a t i o n a lu n i v e r s i t yo fd e f e n s et e c h n o l o g y , w ed e s i g n e dar e m o t eh e t e r o g e n e o u s d i s a s t e r - t o l e r a n ts y s t e mf o rt h em a s s i v ed a t a b a s e t h ep r i m a r yw o r k so f t h i st h e s i si n c l u d e : 1 w ea n a l y z e da n dc o m p a r e dt h em a i n s t r e a m r e m o t ed i s a s t e r - t o l e r a n tt e c h n o l o g y a n dp o i n t e do u tt h ed e f i c i e n c i e si ns u c ht e c h n o l o g yf o rt h em a s s i v ed a t a b a s e r e m o t eh e t e r o g e n e o u sd i s a s t e r t o l e r a n c er e q u i r e m e n t 2 w es t u d i e d t e c h n o l o g y o fm a s s i v ed a t a b a s er e m o t e h e t e r o g e n e o u s d i s a s t e r - t o l e r a n c e ,i n c l u d i n g d i s t r i b u t e d o b j e c t m i d d l e w a r e ,r e m o t ed a t a c o p y ,n e t w o r kc o n n e c t i o n sa n ds oo n 3 ar e m o t ed a t ac o p y y i n gp o l i c yb a s e do nd i s t r i b u t e do b j e c tm i d d l e w a r ei sp r o p o s e d t h i sp o l i c yc a ns u p p o r cm a s s i v ed a t aa n dh e t e r o g e n e o u sd a t a b a s e 4 a f t e rs t u d yd e e p l yo f 妇c h a r a c t e r i s t i c so ft h em a s s i v ed a t a b a s e w ed e s i g n e da f r a m e w o r ko fr e m o t e h e t e r o g e n e o u sd i s a s t e r - t o l e r a n c e f o rm a s s i v e d a t a b a s c ( f r h d m d ) b a s e do nt h em i d d l e - w a r e 5 f i n a l l yw ei m p l e m e n t e df r h d m db a s e do ns t a r b u s t h ee x p e r i m e n to nt h e f u n c t i o n a l i t ya n dt h ep e r f o r m a n c eo ff r h d m ds h o w st h a te a c hf u n c t i o n o f f r h d m dh a v eb e e ni m p l e m e n t e dc o r r e c t l y ,a n dt h ep e r f o r m a n c eo ff r h d m di s a c c e p t a b l e k e yw o r d s :d i s a s t e r - t o l e r a n c e ,m a s s i v ed a t a b a s e ,m i d d l e w a r e ,c o r b & r e l i i o t ed a t ac o p y 图目录 图卜l 海量数据库系统 图1 2p p r c 容灾方案拓扑结构 图卜3i b mb a g e o 容灾方案拓扑结构 图1 - 4 惠普容灾方案拓扑图, 图1 - 5v e r i t a s 容灾组件的关系 图2 - 1c o r b a 的对象管理体系结构 图2 - 2 负载平衡服务体系结构 图2 3a f l s 应用模型, 图2 4 基于磁盘系统的同步异地数据复制原理一 图2 5 基于逻辑卷的同步异地数据复制原理 图2 6 基于r e d ol o g 的逻辑复制原理, 图3 1 海量数据库容灾系统状态 图3 2 容灾系统应用模型 图3 3 海量数据库系统逻辑结构示意图 图3 - 4 海量事务处理中间件内部结构图 图3 - 5f r h d m d 抽象模型一 图3 6f r h d m d 系统的功能组件 图3 7 远程数据复制传输模型 图3 8 数据迁移原理 图3 - 9 数据恢复原理。 图3 - 1 0 ( a ) 系统正常状态下的加载示意图 图3 1 0 ( b ) 系统容灾状态下的加载示意图 图4 - 1f r i t b m d 内部对象关系 图4 - 2 数据远程同步备份流程 图4 - 3 数据预处理服务的类关系图, 图4 4 批量记录提交加载流程图 图4 5 查询服务内部对象关系 图4 - 6 查询服务的类关系图。 图4 - 7 查询服务工作流程 图4 - 8 数据迁移流程图,。 图5 - 1 灾各数据库系统性能测试环境 2 7 8 8 9 1 3 1 4 1 5 1 5 1 6 1 7 2 0 2 1 2 3 2 4 2 6 2 7 3 0 3 1 3 2 3 3 3 3 3 5 3 6 4 0 4 1 4 2 4 3 4 4 4 5 4 7 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:连量数量虚的亟蕉昱掏窒塞撞盔盟壅 学位论文作者签名 辎- 址坶 日期:2 0 0 5 年3 月1 0 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 叉档,允许论又被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论又题目:连量麴堡压的鎏焦显塑奎塞垫盎婴窒 学位论文作者签名: 醋:熏茜渔p 日期:2 0 0 5 年3 月l o 日 吒门 作者指导教师签名:盗边 日期:zo - o s - 年了月1 i 日 垦堕坠耋堡垄叁耋里l 塞尘鳖童耋丝圣 第一章绪论 1 1 应用需求 随着企业信息系统的普及和整个社会电子商务的发展,现代企业的运作越来越依赖 于信息技术。越来越多的关键数据被存储在计算机系统中,这些数据的丢失和损坏将对企 业造成难以估量的损失。同时企业对于数据可用性的要求也大为提高,因为即使是短时间 的系统停机也将造成业务停顿和经济损失。 传统的数据备份技术和服务器集群( c l u s t e r ) 技术在一定程度上避免了由于各种软 硬件故障、人为操作失误和病毒侵袭所造成的破坏,保障数据和系统安全;但当面i 临大范 围灾害性突发事件,如地震、火灾、恐怖袭击时,上述技术就无能为力了。此时若想迅速 恢复应用系统的数据,保持企业的正常运行,就必须建立异地灾难备份系统容灾 ( d i s a s t e r - t o l e r a n t ) 系统。比如在美国“9 1 1 ”事件中,驻扎其间的几千家跨国企业集团的 电脑系统数据资料顷刻问化为乌有,很多公司多年积累的经营数据毁于一旦,公司处于崩 溃的边缘;而一些建立了容灾系统的公司,却在第二天就恢复了正常运转。此次事件再次 唤起了人们对数据安全性和容灾技术的重视。 一旦i t 系统和数据遭到灾难性打击,企业将面临破产的威胁,因此数据资料的完好 保存是企业在灾难后能够继续生存的保证。虽然企业不能控制或防止灾难的发生,但如果 灾难发生时已做好了相应的准备,已将业务数据备份存储在距离主要业务中心数里之外 ( 或更远) 的远程备份中心,就可以保护重要数据,就可以保持企业的持续运作,从而轻 松面对各种灾难。 为了满足现实应用需求,有必要对容灾技术进行深入研究,为此,我们选取了本课题 组已开发完成的某海量数据库系统( 现已应用到国家某项目中) 作为我们的研究平台。该 项目对数据的安全性和业务的可用性要求较高,要求数据库系统不仅能抵御来自系统外部 的区域性的灾难( 如火灾、水灾、地震、战争等) ,而且也能预防因系统软件遭病毒或网 络攻击而导致数据库系统的瘫痪。因此,必须对海量数据库系统实施异地异构容灾。 如图卜一l 所示海量数据库系统是一个采用三层体系结构的数据库系统,其中间件 采用c o i u ;a 技术来构建,使用符合c o r b a 2 _ 3 标准的s t a r b u s 4 0 作为系统开发和运行 平台,对外支持高速加载业务,查询分析业务以及其它业务,适用于网络监测与管理、核 模拟、气象分析等持续产生大量数据的应用,其后台使用多个局部自治的数据库管理系统, 通过它们的并行加载和存储,达到海量的加载速度和存储规模。海量数据库的中间件部分 我们称其为海量事务处理中间件。 第l 砸 图1 - 1 海量数据库系统 1 2 技术背景 1 2 1 容灾基本概念 1 2 1 1 容灾的概念 从广义上讲,任何提高系统可用性的努力都可称之为容灾【i 】。主机集群就是一种本地 容灾。我们通常说的容灾一般指的是异地远程容灾。 远程容灾【”是指为了防止火灾、水灾、地震、人为破坏等原因带来的区域性灾难而导 致系统瘫痪、数据丢失、业务中断,而在原有生产系统之外的另一地点建立备份系统,备 份系统具有与原生产系统相同或相似的主机及网络和存储设各。通常称原生产系统为主中 心,备用系统为灾备中心。系统正常运行时,容灾应用会将数据同时写入主中心和灾备中 心的存储设备,并保证二者的一致性。当主中心发生灾难时,容灾应用能够快速地切换到 灾备中心,从而保证数据的完整性和业务的连续性。当主中心系统恢复后,主中心会向备 份中心进行数据重新同步,然后容灾应用切换回主中心。 由此可见,容灾是通过在异地建立和维护一个备份系统,利用地理上的分离来保证系 统和数据对灾难性事件的抵御能力。 1 2 1 2 容灾与容错 许多用户对容灾系统和容错系统这两个概念容易混淆,其实这是两个完全不同的概 念 17 1 。 容错是指一个系统在发生故障时仍能j 下确完成指定任务的能力【 2 1 。在硬件失效或软 件错误的情况下,仍能够继续完成指定任务的系统称为容错系统吲。容错技术是指系统 对故障的容忍技术,也就是指处于工作状态的系统中一个或多个关键部分发生故障或差错 第2 页 时,能自动检测与诊断,并能采取相应措施保证系统维持其规定功能或保持其功能在可按 受的范围内的技术【2 “。所有的容错手段都必须依赖于“保护性冗余”,即依赖于系统中冗 余的部件和算法。所谓“冗余”指的是:如果系统是无缺陷的,那么这些部件和算法是不 需要的。 虽然容灾和容错都是为了保证系统的安全可靠,并且都是采用提供冗余系统资源来 保证系统的安全可靠,但是,它们所防范的导致系统不可靠的原因不同,容错是为防止来 自系统内各部件或子系统的故障导致系统失效,而容灾主要是为防范来自系统外部的区域 性的灾难( 如地震、水灾、战争等) 而导致系统的不可用;容错通常是采用提供关键子系统 或部件的冗余或备份资源来提高系统可靠性,而容灾是要提供整个应用系统或数据库系统 的冗余或备份来保证系统的可靠性。 与容灾系统相比,容错系统的提出已经有很长时间。二者的共同之处都是为了保证 系统的安全可靠,并且都采用了冗余技术,而主要区别就是所针对的导致系统中断的原因 不同,容错是为了防止系统或网络内部的某些子系统出现故障,而容灾是为了防止自然灾 害、战争、人为攻击等区域性灾难事件导致的整个系统的全部或大部分发生问题【1 7 l 。虽 然容灾和容错都是以冗余为前提,但异地的系统级的冗余比本地的部件级的冗余需要面临 更多的技术问题和经济问题( 例如,网络数据传输、存储技术、投资回报率等) 。容灾系统 所面临的存储、网络传输等问题比容错系统复杂得多。 1 2 。1 3 容灾与数据备份 数据备份口 【”i ,是指为防止系统出现操作失误或系统故障导致数据丢失或损坏,而将 全系统或部分数据集合从应用主机的硬盘或磁盘阵列复制到其它的存储介质的过程。备份 数据是离线存储的,当操作失误或系统发生故障时,再把数据从备份设备恢复到应用系统 的磁盘中。 远程容灾,是为防止本地数据库系统因各种灾难事件丽崩溃从而导致数据服务中断, 在异地建立一套与本地数据系统相当的冗余系统,当灾难出现后,远程系统可迅速承接本 地数据库系统提供数据服务,保证服务基本不中断。数据容灾的目的不仅要保护数据,更 重要的是要能及时恢复系统运行,保证数据服务的连续性。 远程容灾与数据备份的主要区别:数据远程容灾要求主数据中心与容灾数据中心之间 必须保证一定的安全距离,而数据备份没有这个要求;数据远程容灾不仅保护数据,更重 要目的在于保证业务的连续性,而数据各份系统只保护数据的安全性;远程容灾系统可以 保证数据的完整性,而数据备份系统则只能恢复出备份时间点以前的数据;容灾是在线过 程,数据备份是离线过程;数据容灾系统的灾难恢复时问比数据备份系统短得多。 1 2 _ 1 4 容灾是一项系统工程 容灾不只是技术,它是一项工程【2 9 l 。在建立容灾系统之前,首先要进行全面的系统分 析,其中包括业务系统风险分析、容灾系统对业务系统的影响分析和投资效益分析。 风险分析是检查那些可能造成数据损失或者系统瘫痪的外在和内在因素。建立容灾系 第3 负 统的最终目的是保证在灾难造成对业务数据破坏后,业务数据的可恢复性,所以。首先要 分析影响i t 业务系统数据安全性的灾难有哪些,以便于针对可能发生的灾难准备相应的 容灾对策。 数据复制操作的发起来自业务系统,不论来自系统的计算层、网络层还是存储层,都 会影响到业务系统的性能,对于那些要求高性能的业务系统或者已经是高负荷运行的业务 系统,必须分析建立容灾系统对业务系统性能的影响。不同容灾技术对业务系统的影响不 同,比如一个采用同步数据复制技术的容灾解决方案,如果容灾备份中心与业务中心距 离超过l o o 公里以上,需要考虑数据传输的时延对业务系统i o 性能造成的影响,距离越 远业务系统i o 性能下降的速度越快。 容灾系统包括传输数据的网络,由于网络传输拥堵或者中断等原因,数据复制同样会 造成业务系统性能的下降甚至业务运行的中断,当等待传输的数据溢出数据复制发起端的 缓冲区时,有可能造成数据的丢失,或者数据传输次序的混乱,破坏备份数据库的一致性 使得数据库不可恢复。 通常情况下,容灾系统投资较大,使用概率较低,因此,需要对总体投入成本( t c o ) 和投资回报率( r o i ) 进行认真的分析和计算。首先,要考虑准备建设的容灾系统与正在 运行的业务系统的延续性,保护前期投资,为了建立新容灾系统而对原有业务系统进行大 规模改造的情况,应该尽量避免;其次,要考虑业务系统扩展对容灾系统的影响,特别是 存储容量增加的影响和通信线路负荷的影响。 1 2 。1 5 容灾系统的设计指标 设计容灾系统必须提出容灾系统设计指标,作为衡量和选择容灾解决方案的参数。目 前,国际上通用的异地远程容灾的评审标准【9 1 为1 9 9 2 年a n a h e i m 的s h a r e 7 8 : 备份恢复的范围 灾难恢复计划的状态 业务中心与容灾中心之间的距离 业务中心与容灾中心之间如何相互连接 数据是怎样在两个中心之间传送的 允许有多少数据被丢失 怎样保证更新的数据在容灾中心被更新 容灾中心可以开始容灾进程的能力 s h a r e 7 8 根据上述几个方面所达到的程度将容灾方案分为七级( 参见文献【8 1 ) ,即从 低到高有七种不同层次的容灾解决方案。用户可以根据其数据和业务的重要性以及数据和 业务需要恢复的速度和程度,来设计、选择并实现具体的容灾方案。s h a r e 7 8 只是建立容 灾系统的一种评审标准,在设计容灾系统时,还需要提供更加具体的设计指标【8 l 。 建立容灾系统的最终目的,是为了在灾难发生后能够以最快的速度恢复数据服务,所 籀4 虹 以,容灾中心的设计指标主要与容灾系统的数掘恢复能力有关。最常见的设计指标是: r t o ( r e c o v e r yt i m eo b j e c t i v e ) 和r p o ( r e c o v e r yp o i n to b j e c t i v e ) 。 r t o 表示容灾系统在灾难发生后数据或者系统恢复所用的时间。r p o 表示灾难发生时 已经备份的数据与生产中心数据的时浏差,是反映恢复数据完整性的指标。在同步数据复 制方式下,r p o 等于数据传输时延的时间,在异步数据复制方式下,r p o 基本为异步传 输数据排队的时间。实际应用中,考虑到数据传输因素,业务数据库与容灾备份数据库的 致性( s c n ) 是不相同的,r p o 表示业务数据库与容灾备份数据库的s c n 的时间差。 发生灾难后,启动容灾系统完成数据恢复,r p o 就是新恢复业务系统的数据损失量。从 技术的角度来说,r t o 和r p o 这两个指标越小越好,但相应的资金投入也越大。 设计容灾系统不能只看r t o 和r p o ,对于不同的业务系统和用户特殊的要求,其他 一些指标有可能成为选择容灾解决方案的主要因素。譬如,某些地区为了防范一些特定自 然灾害的风险,要求容灾备份中心与业务中心保持足够的距离,在这种情况下,容灾备份 甲心与业务甲心阴炬禺璺求,成为晷灭糸统的蔓萤指标。义如,通信网络是窨灭系统的组 成部分,通信线路的质量也是容灾系统的性能指标之一,其中包括网络的数据传输带宽、 网络传输通道的冗余和网络服务商的服务水平( 网络年中断率) 。再如,由于业务的不同 模式,i t 系统在升级过程中会采用新技术和新产品,业务系统任何变动都会引起容灾系 统相应的变化,势必加大系统升级的投入,要想把这种变化的影响降低到最小,容灾系统 的灵活性和兼容性也应该是十分重要的指标。 综上所述,进行容灾系统设计时,必须根据1 t 业务系统的使用情况,综合考虑地理环 境、网络条件、投资规模、业务系统长远发展规划等各种因素,制定合理的可行的容灾系 统设计指标。 1 2 2 容灾技术的一般方案 容灾解决方案的基本原理就是在工作站点一定距离的地方设立备份站点,然后通过网 络将工作站点和备份站点连接起来,以实现实时的或非实时的数据同步。 用于构建容灾系统的技术统称为容灾技术 1 0 1 1 2 9 1 ,对于不同的i t 业务系统,应该选择 不同的容灾技术,每种容灾技术都有自身的技术特点和某些应用局限性。异地容灾解决方 案以远程数据复制( 或称远程数据备份) 为核心。构建异地容灾系统涉及到多种技术或多 种技术的组合,如:网络技术、存储技术、远程数据复制技术、容灾方案等。一般来说, 异地容灾的技术思路分为如下两类: 1 1 基于主机系统的远程数据复制容灾技术方案 基于主机系统的远程数据复制容灾技术是通过软件形式来实现的。这类技术方案定期 地、在线地把数据复制到远程站点的机器上去,能够较好地保证数据的一致性,但需要消 耗大量的主机资源。在数据同步复制中,要求系统将任何一个对数据的操作或操作结果都 实时地发送到远程站点中,等远程操作结束后再执行下一数据操作,实际当中很难做到这 一点,只能做异步的数据复制。这类技术方案严格来讲很难做到主、备两系统数据的实时 同步,只能做到异步的数据复制。这一类技术方案又根据在系统中实施数据远程备份的位 第5 页 置不同分为基于逻辑磁盘卷的远程数据复制技术、基于数据库r e d ol o g 的远程数据复制技 术( 我们将在第二章对这两种技术作进一步讨论) 。 2 1 基于智能存储系统的远程数据复制容灾技术方案 基于智能存储系统的远程数据复制容灾技术是由智能存储系统自身实现数据的远程复制 和同步,即智能存储系统将对本系统中的存储器u o 操作请求复制到远端的存储系统中并 执行,保证数据的一致性。由于这种方式下数据复制软件运行在存贮系统内,因此,较容 易实现主中心和容灾备份中心的操作系统、数据库、系统库和目录的实时拷贝维护能力, 且不会影响主中心主机系统的性能。如果在系统恢复场所具备了实时数据,那么就可能做 到在灾难发生的同时及时开始应用处理过程的恢复。但这类方案具有开放性差( 不同厂家 的存储设备系统一般不能配合使用) 、对于主备中心之间的网络条件( 稳定性、带宽、链 路空间距离) 要求较苛刻等缺点。 1 3 研究现状 信息系统容灾的核心是数据容灾。针对企业用户对信息系统异地容灾的应用需求, 目前一些数据存储厂以及一些独立软件开发商纷纷推出自己的容灾方案,i b m 公司、惠 普公司和v e r i t a s 公司( 维尔软件有限公司) 是三家极具实力和代表性的厂商。下面我 们简单地分析这三家公司推出的数据容灾方案。 1 3 。1m m 的异地容灾方案 针对不同类型的用户需求,i b m 公司推出了多种异地容灾方案,它的数据备份技术 和容灾方案处于全球领先地位。下面我们介绍i b m 公司两种典型的容灾方案。 一、数据级灾各p p r c i b m 的p p r c l 27 】( p e e rt op e e rr e m o t ec o p y ,点对点远程复制) 复制技术是基于e s s 企业级数据存储服务器,通过e s c o n ( e n t e r p r i s es y s t e m sc o n n e c t i o n ,企业管理系统连 接,是一种光纤通道) 通道建立配对的逻辑卷容灾技术。这是i b m 的最高级别容灾方案, 它的网络结构如图1 2 所示。 在图中数据中心a 和数据中心b 可以是两相隔上百公里的网络系统,既可以单独把 某个数据中心的数据备份到另一个远程数据中心中,也可以实现相互远程备份。 在标准的实时备份方案中,服务器主机通过s a n 与i b m 企业存储服务器e s s 相连 接,两台e s s 之间通过e s c o n 通道实现同步远程拷贝。受e s c o n 传输距离的限制,当 主、备机房的距离超过2 公里时,需要加光纤延伸器。在光纤延伸器的帮助下,p p r c 数 据备份可达到l o o 公里以上。在这种容灾方案中,核心设备就是i b m 的e s s 的企业级存 储服务器。 该方案用的是纯硬件方法,具有很好的数据传输性能,而且适用于几乎所有的主流 系统操作平台和i b m 的硬件服务器平台。但其缺点也是明显的:由于它是基于i b m 的硬 件的,无法整合其它厂商的设备,不仅投资成本高,而且灵活性差;再则该方案受距离限 第6 页 里堕塾耋丝垄叁堂堡蜜尘堡鍪丝墼塞 制。 图1 2p p r c 容灾方案拓扑结构 二、应用级灾备h a g e o i b m 的h a g e o 【2 ”( h i g l la v a i l a b i l i t yg e o g r a p h y ) 是基于i b ma i x 平台的实时灾难 备份软件。前面介绍的p p r c 方案主要是通过硬件来实现的,h a g e o 方案则主要是通过 软件实现的,相对来说比较经济,但对硬件的配置也比较苛刻,要求最好全套采用i b m 的硬件。 这种备份方案理论上对备份中心距离没有限制,利用工p 网络,不需要专用光纤;对 应用程序、数据库类型和存储设备类型都是透明的,即在h a g e o 下应用程序不需修改。 但性能较以上介绍的p p r c 方案差些。 h a g e o 可以为客户的数据和应用提供同步实时镜像,其中增强型同步( m w c ) 模 式可以提供数据的原始性和一致性,同时h a g e o 也提供异步模式。h a g e o 和应用程序 紧密结合,不仅仅实现数据的实时镜像,同时也可以实现应用的自动接管。h a g e o 可以 做到零数据丢失,灾难恢复时间一般在半个小时左右( 指应用恢复) 。 i b mh a g e o 容灾方案的基本思想是:生产环境是两台r s 6 0 0 0 服务器,组成一个 本地的双机热备环境。当本地的一台服务器发生故障时,应用会自动切换到本地另外一台 服务器上。在备份地点,由一台r s 6 0 0 0 服务器作为备份服务器。当生产环境中的两台服 务器都不能工作时,备份地点的服务器自动启动应用,恢复正常的生产环境,( 如图1 3 所示) 。 该方案的缺点也是显然的:它是为i b ma i xu n i x 服务器专门开发的,而且要求全 套采用i b m 的硬件,所以其灵活性较差,并且投资成本高。 第7 页 图1 - 3i b mh a g e o 容灾方案拓扑结构 1 3 2 赢普容灾方案 惠普目前根据各类企业容灾需要也推出了多种数据容灾方案,这里我们介绍它的极 具代表性的一种容灾方案1 2 ”。 惠普容灾方案是由主数据中心和备份中心组成。备份数据中心与主中心通过光纤或 电信网相连接。主中心系统配置主机包括两台或多台h pu n i x 服务器以及其他相关服务 器,通过安装惠普公司的m c s e r v i c e o u a r d 软件组成多机高可靠性环境。数据存储在主中 心存储磁盘阵列x p 4 8 或x p 5 1 2 中。同时在异地备份中心配置相同结构的存储磁盘阵列 x p 4 8 x p 5 1 2 和一台或多台备份服务器。主、备中心距离少于4 3 公里时,主中心存储磁 盘阵列x p 5 1 2 可以通过光纤直接与备份中,t l , 的磁盘阵列x p 5 1 2 连接,通过惠普提供的灾 难恢复软件( k i p c o n t i n u o u s a c c e s s x p ) 可以自动实现主中心存储数据与备份中心数据实 图1 4 惠普容灾方案拓扑图 第8 畎 时完全备份。距离较远时,可租用电信的e l e 3 信道。通过惠普提供的灾难恢复软件可以 自动实现主中心存储数据与备份中心数据实时完全备份。网络结构( 如图1 - 4 所示) 。在 这个方案中最核心的设备就是h p 的磁盘阵列,它与传统的磁盘阵列不完全一样,它是一 个完整的存储平台,就像i b m 的e s s 存储服务器一样。 该方案的缺点跟i b m 的p p r c 方案类似,它也是基于h p 的专用存储设备的,不能 充分整合其他厂商的硬件设备,灵活性差,用户投资成本高。 1 3 3v e r i t a s 公司容灾方案 v e r i t a s 的容灾方案p l l 是纯软件的解决方案,它是一个完整的解决方案。该方案包 括三个功能:主节点到灾备节点的数据远程实时复制、本地应用服务和数据复制服务的切 换保护、应用远程容灾切换,这三个功能模块分别由如下三组软件完成: v o l u m e m a n a g e r + v o l u m er e p l i c a t o r ,v e r i t a sc l u s t e rs e r v e r 和g l o b a lc l u s t e rm a n a g e r 。 在整个方案中,这些软件产品之间的关系如图l 一5 ,上层依赖于下层,每层实现其相应的 功能。每组软件产品的功能介绍如下 g l d o a lc 轴t e rm a n a g e r c i u 蛐s e r v e r v d u m er q a l i z a l o t v 。i t i l l * 叼 图1 - 5v e r i t a s 容灾组件的关系 1 v o l u m em a n a g e r :它在物理磁盘上建立多个或一个逻辑卷( v o l u m e ) ,以裸设备的方式使 用卷,或在卷上建立文件系统。将数据( 特别是需要进行远程复制的相关文件系统、 数据库) 存放在卷上。由于数据复制是基于卷的,所以,v o l u m e 是进行复制的基础。 2 v o l u m er e p l i c a t o r :它负责远程数据复制,数据复制基于v o l u m e 进行。复制的数据可以 是数据库中的数据( 文件方式或裸设备方式) 和文件。它的基本工作原理是捕获逻辑 卷上的i o ,然后将其复制到远程结点再次执行。由于它仅仅将v o l u m e 上每次i o 的实 际数据实时复制到远程节点,所以,大大减少了网络线路上传输的数据量,节省了网 络带宽。 3 c l u s t e rs e r v e r :是用于本地系统容错的集群软件,可支持多达3 2 个节点的应用级切换, 保证本地业务系统的软硬件高可用性。 4 g l o b nc l u s t e rs e r v e r :它是一个集群软件,可以称为c l u s t e r sc l u s t e r ( 集群的集群) 。 它负责对多个不同地点的多达3 2 个集群系统进行监控和管理,在发生严重灾难时,进 行应用的远程切换。 该公司的方案对主、备节点之间的网络连接没有特殊要求,可以是f c 连接,也可以 是t c p i p 连接,而且它是一个比较完全的容灾方案,它既考虑了本地集群容错,又考虑 了异地远程容灾。但该方案也有一定的局5 艮性。首先,它实际上是在操作系统与磁盘存储 系统之间增加了一个逻辑卷管理层,对主机性能带来较大的影响,特别当数据量较大时; 第9 页 其次,它虽然屏蔽了底层存储系统的硬件设备,但仍然要求主、备节点数据库系统同构。 无法实现多数据库产品之间的相互容灾。 1 3 f 4 小结 通过对上述几种当前最具代表性的容灾解决方案的研究,我们发现,这些方案都各 有特点,同时也都不同程度地存在一些局限性,综合起来主要表现在以下几个方面。 ( 1 ) 对系统硬件要求苛刻,多数厂商的方案都是只支持自己的硬件设备( 如磁盘阵列1 。 例如,i b m 的容灾方案中都要求全套设备最好采用i b m 自己的,而惠普的容灾方 案是以它自己的磁盘阵列为核一t l , 的。这些方案往往需要昂贵的高端磁盘阵列和光 纤远程连接设备,因此,投资巨大,而且在整合其他品牌的硬件设备的应用场合 受到许多限制。 ( 2 ) 这些方案基本上都要求主、备系统同构即主节点和灾备节点采用的是完全相同的 硬件系统和软件系统,特别是数据库系统及其上层的软件,这对软件内部设计缺 陷带来的灾难( 如,针对某一操作系统或数据库系统的网络攻击) 缺乏足够的抵 御能力。 由此可见,现有的容灾方案都不适合本系统的异构容灾需求。 1 4 本文工作 由1 3 节的分析可知,目前还没有一种现成的容灾方案能够满足本课题组研制的海 量数据库系统的远程异构容灾需求。鉴于此,针对海量数据库系统的特点,本文基于 c o r b a 3 2 】【3 3 i 3 4 1 平台,研究并实现了一个海量数据库系统的同城异构容灾方案 f r h d m d ( f r a m e w o r ko fr e m o t eh e t e r o g e n e o u sd i s a s t e r t o l e r a n c e o ft h em a s s i r e d a t a b a s e ) ,该方案不仅屏蔽了底层的存储系统,而且也屏蔽了数据库系统。主要工作包 含以下几个方面: ( 1 ) 分析了数据库系统异地容灾目前的研究状况; ( 2 ) 着重研究了异地容灾涉及的远程数据备份技术,并结合本课题组研制的海量数据库 系统的特点,提出了基于中间件层的远程数据复制的方法; ( 3 ) 设计并实现了一个异构的海量数据库访问中间件,以此为基础设计并实现了基于中 间件的远程数据灾备方案; ( 4 ) 将分布对象中间件中对象管理服务充分运用到容灾系统中,设计实现了一套数据灾 难恢复工具。 1 5 论文组织 本文共分为六章。 第一章:绪论,主要介绍课题的背景、研究现状、本课题的研究内容与目标以及论 文的组织情况。 第二章:讨论了海量数据库系统异构容灾的相关技术和策略。包括分布式中间件技 术、远程数据复制与同步、网络传输等。 第三章:介绍了海量数据库容灾系统f r h d m d 的设计思想和体系结构,并着重介绍了 f r h d m d 设计的关键问题及其解决办法。 第四章:介绍了f r h d m d 的具体实现。包括系统关键数据同步、容灾数据库并行加载 服务、容灾数据并行库查询服务和灾后数据的恢复。 第五章:对f r h d m d 进行了功能和性能测试。测试结果表明,f r h d m d 按设计目标正确 地实现了各项功能,并且达到了性能要求。 第六章:对全文进行了总结,并指出了下一步的工作方向。 第“ ! i ! 垦堕墼耋丝垄叁:篓堑塞尘堕耋垡鎏奎 第二章相关技术 在异地建立备份站点是防范区域性灾难,提高系统可靠性的有效方法,主、备系统 异构则是确保主、备系统不会因病毒或网络攻击而同时崩溃的有效手段。建立异地备份站 点需要考虑如何进行高效可靠的远程数据复制,以及相关的远程镜像问题。为了保证主、 备系统的异构,则必须考虑容灾系统本身的平台无关性,所以我们重点对当前的主流分布 对象中间件技术c o r b a 进行探讨。在本章中,将对以上内容进行详尽的介绍。 2 1 分布对象中间件技术 2 1 1 分布对象中间件技术 分布式对象中阊件是处于应用软件和系统软件之间的一类软件,是伴随网络而发展 起来的一种面向对象的技术。以前的计算机系统多是单机系统,多个用户是通过联机终 端来访问的,没有网络的概念。网络出现后,产生了c l i e n t s e r v e r 的计算服务模式,多个 客户端可以共享数据库服务器和打印服务器等等。随着网络的更进一步发展,许多软件 需要在不同厂家的网络产品、硬件平台、网络协议异构环境下运行,应用的规模也从局 域网发展到广域网。在这种情况下,c l i e n t s e r v e r 模式的局限性也就暴露出来了,于是分 布式对象中间件应运而生。分布式对象中间件是位于操作系统和应用软件之间的通用服 务,它的主要作用是用来屏蔽网络硬件平台的差异性和操作系统与网络协议的异构性, 使应用软件能够比较平滑地运行于不同平台上。同时分布式对象中间件在负载平衡、连 接管理和调度方面起了很大的作用,使企业级应用的性能得到大幅提升,满足了关键业 务的需求。 在基于分布对象中间件构建的信息系统中,分布对象中间件提供以下主要功能或服 务: 1 应用服务对象的命名和查找 2 应用服务对象的动态注册 3 应用服务对象的负载平衡和容错 4 应用服务对象的生命周期管理 5 安全服务,时间服务,事件通告服务,事务服务,持久性服务 由于分布对象中间件已经提供了众多的与底层平台实现细节无关的服务,所以构建 基于分布对象中间件的信息系统一方面变得简单易行,另一方面,这些信息系统由于使用 了分布对象中间件的丰富的服务,还具有以下几方面的优点: 良好的可伸缩性:包含应用业务的伸缩和系统规模伸缩两方面。当有新的应用业 务需要增加到已有系统中时,由于应用服务对象可以动态注册,所以新的应用业 务服务对象可以轻易的加入到已有系统中,而客户对象也可以通过名字服务找到 新增的应用服务。当系统规模需要扩展时,即后台信息资源存储增加,要求增加 新的数据存储资源( 如数据库) 时,只需更新相关应用服务对象

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论