




已阅读5页,还剩48页未读, 继续免费阅读
(通信与信息系统专业论文)高性能路由器主控软件高可用性关键技术研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 随着计算机系统与网络的发展,研制具有高可用性的网络设备、提高网络安全性能、 增强网络服务质量( 0 0 s ) 已成为下一代网络建设的目标。t 比特路由器作为下一代网络中 的核心节点设备,其性能好坏直接影响到整个网络的运行情况,因此研究路由器软件系统 的高可用性具有重要的现实意义。 容错与热备份是实现系统高可用性的关键技术。本文在综合了各种高可用性系统和热 备份容错技术的基础上,结合高性能t 比特路由器对主控软件系统的高可用性需求,详细 分析了导致路由器主控软件故障的主要原因,设计了一种新型的单机双主控板容错热备系 统。测试结果表明,采用该系统后,t 比特路由器主控软件系统的高可用性达到5 n i n e s “” 的要求。 本文中所作的主要工作包括如下几个方面: 分析了高可用性系统和热备份容错技术的现状,并研究了t 比特路由器对主控软 件系统的高可用性需求。研究表明传统的单机双机热备份容错系统难以满足t 比特路由 器对主控软件系统的高可用性需求,并以此为基础,分析了设计开发适用于t 比特路由器 主控软件的单机双主控板容错热备系统的可行性。 提出了一种适用于t 比特路由器主控软件系统的容错设计方案,开发出单机双主 控板容错热备系统,并应用于主控软件系统中,较好地改善了该系统的容错性能和故障恢 复能力。通过分析当前几种路由器系统常用的容错技术链路故障容错、设备故障容错 和交换网络容错的工作原理,研究导致路由器主控软件故障的主要因素,提出了采用硬件 冗余和软件容错相结合,热备与双工相结合的工作方式来代替传统的容错热备份技术的t 比特路由器高可用性方案,设计并实现了单机双主控板容错热备系统。测试结果表明,该 系统极大地提高了主控软件系统的容错性能和故障恢复能力,能够满足t 比特路由器对主 控软件系统的高可用性需求。 提出类v r r p 主控板组的概念,将其用于t 比特路由器主控软件系统中并进行性 能测试。性能测试结果表明:采用了类v r r p 设计的t 比特路由器主控系统性能优越,可 用性和可靠性有了很大的提高。 关键字:高可用性;系统容错;冗余;热备份;心跳探测;类v r r p 设计 第1 页 a b s t r a c t r e q u e s tm o n gw i t ht h ed e v e l o p m e n t t r e n do ft h ec o m p u t e rs y s t e ma n dt h en e t w o r k ,r a i s i n g s y s t e ms a f ef u n c t i o n , s t r e n g t h e n i n gt h en e t w o r ks e r v i c eq u a l i t y ( q o s ) ,s e t t i n gu pac o m p u t e r s y s t e mw i t hh i g h a v a i b i l i t yh a sa l r e a d yb e c o m eac o n s e n s u s t e r a b i tr o u t e r , a st h eg o r en o d e e q u i p m e n ti n t h en e x tg e n e r a t i o nn e t w o r k , i t sf u n c t i o nq u a l i t yi n f l u e n c e st h em o v e m e n t c i r c u m s t a n c eo ft h ew h o l en e t w o r kd i r e c t l y s t u d y i n gt h eh i g ha v a i l a b i l i t yo fr o u t e rs o f t w a r e s y s t e mc a nh a v eg r e a ts i g n i f i c a n c e f a u l t - t o l e r a n c ea n dh o t - b a c k u pt e c h n i q u e sa r et h ed o m i n a t i n gf a c t o r st oc a r r yo u ts y s t e m h i 【g ha v a i l a b i l i t y i nt h i sp a p e r , b yr e s e a r c h i n gv a r i o u sh i g h a v a i l a b i l i t ys y s t e m sa n dh o t - s t a n d b y f a u l t - t o l e r a n c et e c h n i q u e ,c o m b i n i n gw i t ht h eh i g h - a v a i l a b i l i t yr e q u i r e m e n t so ft e r a b i tr o u t e r s o f t w a r es y s t e m 。b a s e do nt h es t r u c t u r eo ft e r a b i tr o u t e rs o f t w a r es y s t e m ,i ta n a l y z e sd e e p l yt h e d o m i n a t i n gf a c t o r st h a tl e a dt o r o u t e rs o f t w a r eb r e a k d o w na n dt h ec o r r e s p o n d i n gs o l v i n g s c h e m e s ,t h e nb r i n g sf o r w a r dan e ws i n g l e - m a c h i n ed o u b l e b o a r ds y s t e mw i t hf a u l t - t o l e r a n c e a n dh o t b a c k u pf u n c t i o nb ym o d i f y i n gt h eo l dd e s i g n so ff a u l t - t o l e r a n c ea n dh o t - s t a n b yp r o j e c t t h er e s u l t ss h o wt h a ta f t e ra p p l y i n gt h i ss y s t e m ,t h eh i g ha v a i l a b i l i t yo ft e r a b i tr o u t e rs o f t w a r e s y s t e ma c h i e v e s5 n 1 n e sl e v e l t h em a i nw o r ki nt h i sp a p e rc a nb eo u t l i n e da sf o l l o w i n g : t h i sp a p e ra n a l y s e st h ep r e s e n tc o n d i t i o no fh i g h a v a i b i l i t ys y s t e m ,h o t - b a c k u pa n d f a u l t t o l e r a n c et e c h n i q u e s ,r e s e a r c h e st h eh i g h a v a i l i b i l i t yp e r f o r m a c eo fs o f t w a r es y s t e mt h a t t e r a b i tr o u t e rr e q u i r e s n l er e s e a r c he x p r e s s e st h a t t r a d i t i o n a l s i n g l e d o u b l e m a c h i n e f a u l t - t o l e r a n c ea n dh o t b a c k u ps y s t e m sc a n n ts a t i s f yt h er e q u i r e m e n t so ft e r a b i tr o u t e li tp u t s f o r w a r dt h a tt h et e r a b i tr o u t e rs o f t w a r es y s t e ms h o u l db ed e v e l o p e do nt h eb a s i co ft h es y s t e m d e v e l o p e di nt h i sp a p e r t h i sp a p e rp r o p o s e st h ed e s i g no ff a u l t - t o l e r a n c ea n dh o t - b a c k u pu s e di nt e r a b i tr o u t e r s o f t w a r es y s t e m ,p u t sf o r w a r dt h ed e s i g no fs i n g l e - m a c h i n ed o u b l e - b o a r ds y s t e mw i t h f a u l t - t o l e r a n c ea n dh o t - b a c k u pf u n c t i o n , a n da p p l yi ti nt e r a b i tr o u t e rs o f t w a r es y s t e m i ts h o w s t h a tt h es y s t e mi n d e e di m p r o v e st h ef a u l t t o l e r a n c ea n df a u l t r e c o v e r yf u n c t i o n i nt h i sp a p e r , w e a n a l y s es o m ef a u l t t o l e r a n c et e c h n i q u e sc o m m o n l yu s e d i nr o u t e r s y s t e m ,i n c l u d i n g t h e f a u l t - t o l e r a n c et e c h n i q u e sf o rl i n kc i r c u i t e q u i p m e n t sa n ds w i t c h i n gf a b r i cf a i l u r e ,t h em a i n f a c t o r st h a tl c a dt or o u t e rs o r w a r eb r e a k d o w n a f t e rt h a t ,t h i sp a p e rc r e a t i v e l yp r o p o s e st h e d e s i g no ff a u l t - t o l e r a n c ea n dh o t - b a c k u pu s e di nt e r a b i tr o u t e rs o f t w a r es y s t e m ,a d o p t saw o r k m e t h o dw h i c hc o m b i n e sh a r d w a r e r e d u n d a n c ya n ds o f t w a r ef a u l t t o l e r a n c e ,h o t - b a c k u pa n d d u p l e x i n gt o g e t h e rt or e p l a c et r a d i t i o n a lt e c h n i q u e t h er e s u l t so f p e r f o r m a n c e t e s ts h o wt h a tt h e s y s t e mi n d e e di m p r o v e st h ef a u l t t o l e r a n c ea n df a u l t - r e c o v e r yf u n c t i o n a n di t c a ns a t i s f yt h e h i g h - a v a i l a b i l i t yr e q u i r e m e n t so f t e r a b i tr o u t e rs o f t w a r es y s t e m f i n a l l y w ep r o p o s et h ec o n c e p to fs i m i l a r - v r r pm a i n b o a r dg r o u p ,a p p l yt h ed e s i g no f s i m i l a rv r r pi nt e r a b i tr o u t e rs o f t w a r es y s t e m ,a n dt e s ti t sp e r f o r m a n c e 1 1 1 er e s u l t ss h o wt h a t a f t e ra p p l y i n gs i m i l a r - v r r pd e s i g n , f u n c t i o no ft e r a b i tr o u t e rs o f t w a r es y s t e mi sm o r es u p e r i o r , 第1 i 页 a n dc 趾h a v eb e t t e rh i 曲a v a i l a b i l i t ya n dc r e d i b i l i t y k e yw o r d s :h i g ha v a i l a b i l i t y ;s y s t e mf a u l tt o l e r a n c e ;r e d u n d a n c y ;h o tb a c k u p h e a r t b e a td e t e c t i n g ;s i m i l a r - v r r pd e s i g n 第1 i i 页 信息t 程大学硕十学付论文 表目录 表1 路由器故障诊断表1 7 表2 高可用性模块工作流程中的事件说明2 2 表3 高可用性模块工作流程中的状态说明2 3 表4 高可用性模块工作流程中的状态转换表2 4 表5 高可用性模块与板问通信模块之间接口的数据结构3 l 表6 高可用性模块与系统数据维护模块之间接口的数据结构一3 2 表7 高可用性模块与系统数据维护模块之间接口的数据结构二3 2 表8t c p 通信报文格式。3 3 表9u d p 通信报文格式3 3 表1 0t e p 通信报文各数据域说明3 3 表l lu d p 通信报文各数据域说明3 4 表1 2 性能测试结果比较3 9 第v i 页 笪:垦! :登盔堂塑堂笪丝塞 图目录 图1 双机容错热备份系统示意图1 0 图2t 比特路由器主控软件子系统硬件运行环境。1 3 图3t 比特路由器主控软件基本总体结构图。1 4 图4 双主控a s 容错系统总体结构图1 8 图5a s 系统设计功能模块图1 9 图6 高可用性模块工作流程图2 1 图7 主控板状态机转换图2 5 图8 心跳间隔时间模拟测试图2 7 图9 死亡间隔时间模拟测试图2 8 图1 0 主备协商流程图2 8 图l1 主备切换流程图2 9 图1 2 主用对k e e p a l i v e 报文丢失的处理过程2 9 图1 3 各个任务的容错调度流程图3 l 图1 4a s 通信模块与其他模块之间的接口3 3 图1 5 防振荡定时器工作过程3 5 图1 6v r r p 交换网拓扑结构。3 7 图1 7 类v r r p 设计的主控软件系统3 8 图1 8 主控软件性能模拟测试环境3 9 第v i i 页 独创性声明 所提交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中标注和致谢的相关内容外,论文中不包含其他个人或集体已经公开的研究成 果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文题目: 直丝能蹬由矍圭控筮仕直互用丝羞毽撞盔班冠皇塞理 学位论文作者签名: 2 蜀竭 日期:加6 年月“日 学位论文版权使用授权书 本人完全了解信息工程大学有关保留、使用学位论文的规定。本人授权信息工程大学 可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允许论文被查阅和借 阅;可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 涉密学位论文在解密后适用本授权书。) 学位论文作者签名: l 至l 面 日期:珈6 年6 月“日 作者指导教师签名:纽凼日期:抄年厂月形日 信息丁稃大学硕+ 学伊论文 第一章绪论 1 1 课题的学术背景 信息科学技术的快速发展和广泛渗透已经成为当今社会的一个重要的时代特征,作为 信息处理与传播的主要工具,计算机在信息社会中占据了非常重要的地位,而因特网的出 现则进一步促进了信息的共享。在信息的汪洋大海中,如果说计算机是灯塔,人们在它的 指引下在信息的海洋中邀游;那么因特网就像是航道,连接着各个站点。在目前的信息社 会中,信息的重要性引起了大多数企业、商家、公司等各大机构的足够重视,他们都采用 计算机通过网络来收集信息数据,进而分析决策,勿庸置疑信息数据在这些应用中的重要 地位,一旦数据丢失将造成企业停产、公司丢失市场、机构瘫痪等严重后果。任何事物都 不是永恒的:计算机会死机,网络会阻塞,路由器也会罢工一旦出现了这些问题该如 何及时处理、挽救,以最大地减少损失,这才是我们研究的重点所在。 目前,计算机系统已经普及到了社会生活的各个领域。从工程设计、科学计算,到天 气预报、地震预报和各种c a d 工作站;从城市交通规划管理、调度,到海运、空运的交 通控制;从银行系统到国防、航空航天等领域,计算机系统都占据非常重要的地位。一台 缺乏可靠性和安全性的计算机系统投入运行将会给社会造成无法估量的损失,甚至会带来 巨大的灾难。如何高效可靠地存储、处理数据,提高计算机系统的安全性和可靠性成为一 个关键的技术要求,这种要求有时甚至比提高系统的性能更为重要。研究可靠性技术,构 建高可用性计算机系统已经成为提高系统安全性能、增加工作时长和减少损失的有效途 径。 1 2 高可用性系统及容错技术简介 i 2 1 高可用性系统概述 高可用性其实并没有一个非常明确的定义,也没有固定的标准来判定一个系统是否达 到了该标准。高可用性仅仅是一个设计目标,而不是实际目标:当设计一个系统时,如果 系统是按照要求设计的,则是具有高可用性的;设计要求是不断提高的,所以系统的高可 用性也是无止境的。广义地讲,高可用性是以下两种因素之间的权衡:停机故障损失和为 了减少停机故障所采用各种措施的成本。其计算公式为:高可用性a = 阻止系统发生故障 ( 阻止系统发生故障+ 缩短出现故障的恢复时间) “1 。其中阻止系统发生故障的取值为平 均故障间隔时间,出现故障的恢复时间为停机时间,二者都取同样的时间单位。事实上, 阻止系统发生故障是不可能实现的,至少不可能得到永久的保证! 因此,通常致力于缩短 出现故障时的恢复时间来提高系统的可用性。 对于计算机系统来说,高可用性”1 是指对关键应用程序停止服务的时间最少,使得计 第1 页 信息丁稃大学硕十学位论文 划和计划外的中断对客户请求处理的影响最小。在高可用性计算机系统中,万一部分系统 发生故障,其余的应用程序要能够继续有效地处理客户的请求。对于多机系统可以通过提 供附加进程和硬件隔离来提高可用性,进程和硬件隔离可以改进安全性、故障转移支持和 可管理性;但对于单机系统口0 1 ,单个机器仍是配置中的单一故障点,无法通过创建多机器 配置、采用多个应用程序服务器来确保高可靠性,只能通过提高单机系统本身的硬件可靠 性和软件可靠性来实现系统的高可用性。 在单机系统中,硬件的设计问题相对软件而言要简单得多,硬件系统的故障“”主要来 自于生产过程和使用过程,因此硬件容错可以通过相同部件的重复设置来实现;而软件系 统的设计问题非常复杂,软件方面的故障主要来自于说明、设计和实现阶段,程序的重复 设置不能实现容错计算,只能通过冗余设计提高软件可靠性。 1 2 2 容错技术简介 1 2 2 1 容错的基本概禽 避错汹1 ( 又称排错) 和容错技术是构建高可用性系统的常用关键技术。避错即避免出 错,通过采用正确的设计和质量控制方法,对组成系统的部件进行严格的筛选、对系统进 行严格的测试、对系统进行屏蔽以减少外界的干扰,尽量避免将错误引入技术、避免故障 等方法来提高系统的可靠性。实践证明,利用避错技术来提高系统的可靠性有一定限度, 超过这个限度将使系统的成本急剧上升。要想进一步提高系统可用性必须采用容错技术。 容错是高可用性的最高级别。容错( f a u l t - t o l e r a n c e ) 是指在出现有限数目的硬件或软件故 障的情况下,系统仍可提供连续正确执行的内在能力。设计与分析容错计算机系统的各种 技术称为容错技术1 。容错技术从系统结构出发来提高系统的可靠性,与排错技术相互补 充,可为顾客提供占全部运行时间比例超过9 9 9 “1 的正常运行时间,基本上可以达到连 续可用,构成高可信度的系统。 1 2 2 2 容错技术的发展概况 1 2 2 2 1 国外发展概况 在计算机容错技术领域,国外的研究工作开展较早,在第一代计算机“6 1 ( 1 9 4 6 一一1 9 5 7 年) 期间,人们就已经将容错技术应用到计算机中。当时第一代计算机采用电子管、继电 器及延迟线存储器为主要元件,运行过程中出现的问题主要是元件的失效率相当高,并易 受瞬时故障的影响,采用了特别设置的硬件故障检测和人工恢复技术实现计算机容错。 第二代计算机采用晶体管及磁芯存储器为主要元件,失效率比第一代计算机元件大为 降低,在容错设计方面避错技术占统治地位,对故障一般采用诊断程序进行脱机检测。 第三代计算机采用集成电路,元件的失效率继续降低,但计算机应用范围扩大,对计 算机系统的可信性要求更高看了,此时容错技术重新提出,并得到了较快的发展,出现了 许多容错计算机。 第2 页 信息下稃大学硕士学位论文 随着第四代计算机的出现,大规模和超大规模集成电路在计算机中的使用大大提高了 硬件可靠度,而价格却大幅度降低,容错技术进入蓬勃发展的时期。其应用范围从宇航领 域迅速扩展到银行事务处理及各种实时控制系统,甚至许多通用计算机系统也采用了容错 技术。 1 9 7 1 年,i e e e 计算机学会成立了容错计算技术委员会,并且每年召开一次国际容错计 算学术会议( f t c s ) 。在该组织发展了3 0 年之际,2 0 0 0 年i e e e 国际容错计算会议与国际 信息处理联合会( i f i p ) 的1 0 4 工作组主持的关键应用可信计算工作会议合并,并改名为 i e e e 可信系统与网络国际会议( i c d s n ) 。i c d s n s2 0 0 0 于纽约召开,它标志着本领域的 研究,无论从内容、方法和组织方面都有重大调整,也充分说明了国际上对容错技术的重 视程度。 1 2 2 2 2 国内发展概况 我国研究容错系统起步较晚。8 0 年代派遣一批学者出国从事容错方面的研究,回国后 成为该领域的学术带头人。现在我国在容错研究领域某些方面已经居于国际前沿。1 9 8 7 年 1 月我国计算机学会也成立了自己的容错计算专业委员会,召开了多次全国性的容错计算 机学术会议。 在应用方面,我国容错系统的应用领域非常广泛,i b m 、s f f a t u s 、天腾、d e c 等公司 的容错产品大量传入我国,在银行、证券、航天及核技术领域得到了普遍的应用。在产品 研发上,虽然我国目前还没有形成通用的计算机容错产品,但各行各业在各自领域中自行 开发研制了一些高可用系统,如用于铁路运输中的铁路微机连锁系统。铁路、航空航天部 门也纷纷成立了自己的软件测试中心,由此可见人们已经充分意识到了容错的重要性。 如今容错已经形成了一个独立的分支专业系统一一容错系统,很多厂家也有了相应的 产品。最初的容错系统只是主要应用于国家安全部门和社会重要部门,是一种成本高昂的 专用系统。但是随着计算机的普及发展和网络在日常生活中的广泛应用,人们的日常生活、 工作、学习与计算机、网络、数据信息联系越来越紧密,对计算机的可靠性要求也随着对 计算机的依赖程度而提高,由此加大了对容错系统的需求和关注,推动了容错技术的发展。 1 2 2 3 硬件与软件容错技术 容错技术包括硬件容错和软件容错。1 。在实际应用中,一般采用硬件容错。硬件容错 是通过计算机系统中主要硬件和组件的多重化来实现系统的高可用性,即硬件冗余;在同 一时刻,双份的容错硬件部件运行相同的指令,当其中之一发生故障时,可以在瞬间自动 切换发生故障部分的模块,确保系统不停机不丢失数据、更长期地稳定可靠运行和数据安 全。有的甚至可以支持1 0 0 热插拔,可以在不停机状态下自动切换发生故障的模块。目前 采用的硬件容错技术包括磁盘阵列技术和硬盘镜像技术器1 ,为网络设置的双服务器、双电 源,无论主服务器何时出问题,从服务器都可替代主服务器,保证系统在出现故障时能够 连续运行,而且替代过程是瞬时完成的,网络用户感觉不到。 第3 页 信息丁稃大学硕十学位论文 软件容错技术则较为复杂,它是通过提供足够的冗余信息与算法程序,使系统在实际 运行过程中能够容许错误并预见、判别和纠正运行中可能出现的错误,恢复和保持系统的 正常运行。各类专门论述容错软件的文献对容错软件的定义形式众多,但基本可以分为四 大类: 一定程度上对自身故障的作用有屏蔽能力; 一定程度上能从故障状态自动恢复到正常状态; 因为软件的功能不足或隐藏的b u g 而出现故障时,仍能在一定程度上完成预期功能; 一定程度上具有容错能力。 可见,软件的容错功能是相对的,而且是有限度的,即使是容错软件有时也会失效, 或者只能维持部分功能降级运行;容错软件对于运行过程中出现的故障进行处理,一般是 通过故障检测算法和故障恢复算法调动软件冗余备份来实现的。容错软件中所说的冗余备 份,并不一定要求是软件的全部功能,可以是某些功能块、予程序或者程序段,这些备份 和检测程序、恢复程序一起统称为容错资源。一个容错软件是由实现规定功能的常规软件 所需要的资源和容错资源共同来支持的。 i 2 2 4 容错技术的发展趋势 容错技术的应用是网络时代电子商务的客观需求,全天候无停机时间运行、客户的高 要求、急剧增长的业务量使得安全保护措施成为保护全球电子商务系统以及客户隐私的关 键。在这种环境中,可用性是必须的,所以容错服务器成为网络时代电子商务运营商构造 自己系统时的首要选择。 软件容错技术将会有较大进展。软件系统发展到今天,规模与复杂度之大有目共睹, 但是可靠性却令人担忧。很多人已经从理论上开始研究软件可靠性并提出了一些算法。不 久将会出现初级容错软件的设计方法,应用软件方面的容错设计将会产生一些实用工具。 硬件容错、操作系统容错相结合的容错设计方法将备受重视:硬件冗余的容错计算机不会 有那么多的系统开销,且纠错速度快;而软件方法实现容错,对硬件不提过高要求,系统 灵活,资源利用比较合理。一个通用操作系统和硬件相结合的容错方法,将出现在新的容 错计算机设计中,这种方法将会收到重视。目前的v l s i 容错设计就是一种深入到芯片内 部的容错技术的研究,将成为容错研究的一大分支。 1 3 课题来源及主要研究内容 1 3 1 课题来源 由国家数字交换系统工程技术研究中心承担的国家8 6 3 重大项目“可扩展到t 比特的 高性能i p v 4 v 6 路由器基础平台及实验系统”,以研究高性能i p v 6 v 4 路由器的软硬件体 系结构为目标,解决路由器的关键技术问题,开发使用专用主控软件并支持双协议栈 ( i p v 4 ,i p v 6 ) 的新一代t 比特路由器。 第4 页 信恳t 稃大学硕十学位论文 本论文的研究就以这一项目为背景,通过研究高可用性系统和容错技术,开发研制出 一种用于路由器主控软件的新型容错系统一一单机双主控板容错热备系统,s i n g l e m a c h i n e d o u b l e b o a r da c t i v e s t a n d b ys y s t e mw i t hf a u l t - t o l e r a n c ea n dh o t - b a c k u pf u n c t i o n ( 在下文中简 称a ss y s t e m ) 。在高性能t 比特路由器主控软件总体结构设计的基础上,将该设计成果用 于主控软件系统中。本课题主要目的是:所有的主控板在发生故障之前都是正常的和有效 的,当运行中的主用主控板发生故障之后,正常运行的备用主控可以自动接替原主用主控 的工作。切换期间所作的工作是自动透明的,因此可以把路由器由于主控板故障而当机的 可能性减少到最低限度,为网络和用户提供高可用系统服务。下面是我在研究生期间对这 个课题做的工作,也为今后对的高可用性计算机系统研究打下了坚实的基础。 1 3 2 课题的主要研究内容 本课题研究的主要内容是在采用硬件冗余和软件容错技术的基础上,设计实现一种新 型的热备容错系统单机双主控板容错热备系统,并将该系统用于t 比特路由器主控软 件系统中,实现路由器的高可用性。 该系统采用a c t i v e s t a n d b y 的运行模式,通过心跳监测和软件监控监视主用主控板的运 行状态,并且利用软硬件结合的方式实现了自动、手动强制主备切换,保证了主用主控 板或者主控软件系统故障时,路由器仍旧能安全、实时、有效、连续地切换运行;在系统 设计时,通过在不同网络环境流量的情况下进行测试,确定适合本系统的心跳和死亡时间 间隔;系统采用热备与双工相结合的工作方式,既降低了应用成本又提高了工作效率,使 整个路由器系统对外界( 网络和用户) 呈现出高可用的单机工作性质。实践证明:本设计方 案可靠、合理运行效果良好,无缝地整合了路由器主控硬件级、应用软件级的容错技术, 结构功能的设计都有利于今后软硬件升级和功能的扩展,不仅适用于各类路由器主控软件 系统,还可用于其他工作原理类似的计算机网络、数据交换等需要计算机连续可靠运行的 场所,从整体上提高系统的可用性。 1 3 3 本文的结构安排 根据本文要研究的问题,本论文组织成五章。 第一章:提出论文的学术背景,对高可用性系统及容错技术进行介绍,分析国内外的发展 现状,重点介绍采用硬件冗余和软件容错技术为基础的容错技术。 第二章:研究系统级容错技术在路由器中的应用,主要是对路由器中的容错技术、双机热 备份容错系统以及备份恢复机制进行介绍,重点对典型的容错备份恢复技术在路由器中的 应用进行详细研究。 第三章:介绍路由器的主控软件体系结构,详细描述本文中所提出单机双主控板热备容错 系统,并对其设计方法和在路由器中的实现进行详细说明,分析该系统中所用到的新型容 错机制与算法。 第5 页 信息下稃大学硕十学俯论文 第四章:利用v r r p 协议原理对单机双主控板热备容错系统的可靠性进行分析,提出“类 v r r p 设计”以及“类v r r p 主控板组”的概念,并就其对路由器和网络的高可用性方面 作出的贡献进行说明。 最后,总结报告我在本课题中已经进行的工作,以及在为此所作的研究中不足的地方,为 今后继续进行下一步研究工作作简要的铺垫和论述。 第6 页 笪星工翌盔兰堡兰垡丝奎 第二章路由器中的系统容错技术 2 1 路由器容错技术的重要性及分类简介 2 1 1 路由器中容错技术的重要性 随着i n t e r n e t 的日益普及,人们对网络的依赖性越来越强,同时,对网络的稳定性也 提出了更高的要求。路由器是整个网络的核心和心脏,如果路由器发生致命性的故障,将 导致本地网络的瘫痪,如果是骨干路由器,影响的范围将更大。系统容错性是保证服务质 量的重要指标,它使得路由器在存在故障的情况下仍能继续工作。路由器中可采用的容错 技术有数据备份、服务器的硬件冗余、软件容错,以及网络设备的部件冗余和结构( 链路) 冗余等,以保障整套系统的万无一失。下面将分别介绍路由器所支持的几种常见容错技术。 2 1 2 路由器中几种常用的容错技术 2 1 2 1 针对链路故障的容错技术 2 1 2 1 1 以太网通道技术 采用快速千兆以太网通道技术( f a s t o i g a b i te t h e r e h a n n e l ,f e c g e c ) 实现容错,这 也是链路带宽扩容的一条重要途径。它可在1 0 0 m 或1 0 0 0 m 以太网端口间实现,将多条并 行链路的带宽叠加起来,用于单条高速数据通道实现高速数据传输,通道中部分线路的故 障不会影响其它线路的带宽聚合,从而保证了网络的可靠性。 2 1 2 1 2 思科公司提出的u p l i n k f a s t ( 快速上联恢复) 技术 当路由器中的交换端口结成冗余回路时,若未启用以太网通道技术,则 s p a n n i n g t r e e ( 生成树) 协议将起作用,通过计算自动将优先级较低的连接屏蔽,使其作为 备份,只在优先级较高的主线路断线时才激活它,因此在线路容错中s p a n n i n g - t r e e 也是一 项有效的技术;但传统的s p a n n i n g t r e e 在链路切换时经历阻塞一侦听一学习一数据转发等诸 多过程,耗时较长,从故障到恢复一般需历时4 0 秒左右,对正在传递大量数据的服务器 和工作站而言,这段时间是能明显觉察的,并且极可能导致连接超时而中断应用。思科公 司对s p a n n i n g - t r e e 改进提出了u p l i n k f a s t 技术,它省却了链路切换过程中的侦听和学习 阶段,使备份端口直接由阻塞进入到转发状态,从而使网络收敛时间从4 0 秒大大缩短至5 秒以内,这样的延迟是应用程序可以接受的,用户几乎觉察不到这一过程,互联网公司业 务不会受到故障影响。 2 1 2 1 3 快速端口恢复( p o r t f a s t ) 技术 上面提到的u p l i n k - f a s t 技术是用在两交换端1 2 1 间互联的一项技术,而连接服务器和工 作站的端口在刚启用时同样面临s p a n n i n g t r e e 学习过程缓慢的问题,致使该端口长时间不 能进入正常工作状态,这时需用到p o r t - f a s t 技术。它与u p l i n k - f a s t 的工作原理类似,也省 第7 页 信息t 稃大学硕十学侍论文 略了s p a n n i n g t r e e 的聆听和学习阶段,从而将转换延迟从4 0 秒缩短至2 秒以内,这样在 交换机上接入新的工作站,或改变某工作站的外接端口时,该站点能很快进入工作状态, 无需额外硬件设备兼容。 2 1 2 2 设备故障容错技术一一璐即( 热备份路由器协议) 刚才提到的几种容错技术都是针对链路故障,而热备份路由协议h s r p 则用于设备故 障的恢复一一它是用在两路由器间互作备份的协议。对路由器采用热备份是提高网络可靠 性的必然选择。就像在服务器中为提高数据的安全性而采用双硬盘结构一样,在一个路由 器完全不能工作的情况下,它的全部功能便被系统中的另一个备份路由器完全接管,直至 出现问题的路由器恢复正常,这就是热备份路由协议( h o ts t a n d b yr o u t e rp r o t o c 0 1 ) 要解决的 问题。 实现h s r p 的条件是系统中有多台路由器,它们组成一个“热备份组”,这个组形成一 个虚拟路由器。在任何时刻,一个组内只有一个主动路由器,负责转发数据包,一旦主动 路由器出现故障,h s r p 将激活一个备份路由器来替代活动路由器,这就是“热备份”的 含义。对于在本网络内正常工作的主机而言,这一变化是透明的,虚拟路由器并没有改变, 所以主机仍然保持连接,没有受到故障的影响,这样就较好地解决了路由器切换的问题。 h s r p 协议提供了一种决定使用主动路由器还是备份路由器的机制,并指定一个虚拟 的i p 地址作为网络系统的缺省网关地址。 在实际的一个特定的局域网中,可能有多个热备份组并存或重叠。每个热备份组模仿 一个虚拟路由器工作,它有一个w e l l k n o w n - m a c 地址和一个i p 地址。该i p 地址、组内 路由器的接口地址、主机在同一个子网内,但是不能一样。当在一个局域网上有多个热备 份组存在时,把主机分布到不同的热备份组,可以使负载得到分担。h s r p 运行在u d p 上, 采用端口号1 9 8 5 。路由器转发协议数据包的源地址使用的是实际i p 地址,而并非虚拟地 址,因此,h s r p 路由器间能相互识别。 2 1 - 2 3 交换网络容错技术 交换网络“是高端路由器的核心部件,它负责分组在输入输出端口之间的调度。一 般有分布式体系结构和直连网络结构。t 比特路由器中交换网络采用分布式体系结构,线 卡与交换单元物理分离,工作起来逻辑上如同完整的路由器。可通过增加冗余交换平面“” 或者交换节点来保证交换网络的稳定可靠,但这样做的缺点是会增加成本,综合考虑,通 过研究实现主控软件的容错性来实现路由器的高可用性。 直连网络是一种本身具有一定的容错能力的分布式交换网络拓扑结构,在源目的节点 之间可以提供多条路径。对于采用直连网络的路由器,可以通过设计适合的容错方案,充 分利用交换网络的路径多样性来实现容错功能。以太比特路由器为例“1 ,提出了两个交换 网络容错方案。在众多的交换机制中,虚切通交换机制因其高吞吐低延时的特点,成为太 第8 页 信息下稃大学硕十学付论文 比特路由器的首选方案。因此,在两种方案中均选择了虚切通交换机制。方案1 中的路由 策略r s l ,在2 dm e s h 交换网络结构中使用4 条虚通道,使分组按照一定规则绕开故障区 域,同时避免死锁的产生;方案2 中的路由策略r s 2 适用于t o r u s 交换网络的路由策略。 在不存在故障的情况下,消息沿最短路径传输。当消息被故障阻塞时,消息可采用迂回路 径绕过故障块。该策略通过合理设计3 条虚信道的使用规则避免产生环形依赖关系,从而 避免死锁的产生。 2 2 常用的服务器容错技术 目前主流应用的服务器容错技术“”有三类,它们分别是:服务器群集技术、双机容 错热各份技术和单机容错技术,各自所对应的容错级别是从低到高的,各自应用的行业容 错级别需求也是从低到高的,下文中简要介绍了双机容错热备份技术和单机容错技术。路 由器自身的备份技术是为了解决路由器由于自身硬件( 如内存、c p u ) 或软件i o s 的某种 故障或局域端口的故障、所连接局域设备的端口或线路的故障所导致的网络瘫痪的问题。 目前,路由器产品的备份要求至少有一台与正在工作的主路由器功能相同的路由器,在主 路由器瘫痪的情况下,以某种方式代替主路由器,为局域网用户提供路由服务。根据本章 与容错备份相关的基础理论知识,在本文第三章中提出了一种新型的路由器容错热备份技 术。 2 2 1 双机容错热备份技术介绍 2 2 1 1 双机容错熟备份技术的工作原理 双机容错热备份技术“”是一种软硬件结合的较高级的容错应用方案,其目的在于保 证数据永不丢失和系统永不停机。双机容错的高可用系统通常应用于两种情况,一种是系 统死机、错误操作和管理引起的异常失败,另一种是由于系统维护和升级的需要而安排的 正常关机。 在实际应用中,采用“心跳”方法保证主用系统与备用系统的联系。所谓“心跳川”1 , 指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状 态。一旦“心跳”信号表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳” 信号,则系统的高可用性管理软件认为主机系统发生故障,主机系统停止工作,并将系统 资源转移到备用系统上m 1 ,备用系统将依据各种容错备援模式接管设定的故障机作业程序 并进行后续的程序和服务。从而保证了系统数据安全性和系统工作的连续性,实现了系统 永不停机和数据永不丢失的目
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陪伴成长2025年税务师考试试题及答案
- 职业发展在心理咨询中的影响试题及答案
- 文化产业管理证书考试总结试题及答案
- 适应未来医疗的试题及答案
- 推动新型研究型大学建设与发展策略
- 激光监测系统的新技术应用试题及答案
- 高中思修考试试题及答案
- 计算机二级考前冲刺复习计划试题及答案
- 西医临床信息技术应用试题及答案
- 餐馆管理能力点总结
- G-B-Z 25320.1003-2023 电力系统管理及其信息交换 数据和通信安全 第100-3部分:IEC 62351-3的一致性测试用例和包括TCP-IP协议集的安全通信扩展 (正式版)
- 2024年云南省中考数学试题含答案
- 小学毕业会考数学试卷附参考答案(a卷)
- 场地使用免责协议
- 急救知识科普完整版课件
- 2024年教师招聘考试《教育综合知识》模拟题及答案
- 2024年事业单位招聘考试时事政治试题库新版
- 华为跨部门协同机制建设
- 河南省许昌市长葛市2023-2024学年八年级下学期期中数学试题
- MOOC 中国传统艺术-篆刻、书法、水墨画体验与欣赏-哈尔滨工业大学 中国大学慕课答案
- 初中英语跨学科主题学习的探索与实践
评论
0/150
提交评论