




已阅读5页,还剩108页未读, 继续免费阅读
(通信与信息系统专业论文)分层分布式网络故障管理研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 网络故障管理是网络管理的基础工作,也是最重要的网络管理任务。主要包括网 络故障检测、网络故障定位、网络故障隔离、网络故障恢复等几项关键技术。如何保 证网络故障监视数据的有效采集、如何优化故障管理策略、如何快速定位网络故障等 则是网络故障管理的主要内容,本文从网络故障监视算法、网络故障定位策略、快速 网络故障诊断以及故障管理在a dh o c 网中的应用等四方面对网络故障管理进行了深 入研究,具体研究成果如下: 1 在网络故障监视方面,本文提出了一种动态网络监视算法,本算法可以帮助故 障管理系统在监视到网络故障的同对降低实时监视带来的网络管理负担,算法根据轮 询和事件通知获得的网络状态数据,预测发生告警的可能性,对于不发生告警的情况, 则延时轮询,同时采用告警滞后机制过滤冗余告警信息,保证了既不漏报告警,又有 效地降低了网络管理的通信负担。论文同时从理论上对该算法的性能进行了分析,并 证明了该算法的有效性。 2 在网络故障定位方面本文提出了栅d p 网络故障定位策略算法。网络故障监 控系统是一个随机动态响应系统,故要求当网络性能变化时,能够进行策略调整,保 障网络故障管理的有效性。论文从理论上证明了马尔科夫过程在网络故障管理模型上 的可行性,分析了当多个管理者共存的情况下马尔可夫决策过程,提出了删d p 故障定 位策略算法。在多管理者管理的情况下,中间管理者之间可以交换响应消息,从而获 得其他子网的统计数据,本算法结合强化学习模式,在有限阶段选择最优策略,从 而使系统掇酬最大化。论文确定了故障数据采集过程中m i b 库的被管对象以及轮询方 式的结构,进而指出轮询步长会随着被管对象数目的增加而增加,随着观测阶段的延 长而减少。 3 在网络故障诊断方面,本文采用贝叶斯置信网,研究了网络故障的快速发现 问题。贝叶斯置信网是一种基于概率的不确定性推理网络,它所采用的依赖关系模型 符合面向对象的开放式网络系统的特点,论文利用贝叶斯置信网的信念推理,从理论 上证明了贝叶斯推理算法在给定的n o i s y - o r 节点以及n o i s y - a n d 节点模型上的可行 性,提出并证明了最优寻径算法,所提出的最优寻径算法在故障发现时间等方面明显 优于没有采用这种寻径的故障定位算法。 4 本文针对a dh o e 网络无线、多跳、移动的特点,分析了故障管理在a dh o e 网络 中的应用,讨论了实现a dh o c 网络的分层分布式网络管理体系结构,通过设置和监视 被管对象的获态的改变,完成故障管理任务。论文给出了故障管理需要的但未出现在 分层分布式网络故障管理研究 m i b i i 中出现的故障管理信息,为网络故障管理提供了一个较为完整的应 用实例。 关键词:网络管理故障管理故障监视故障定位马尔科夫决策过程贝叶斯置 信冈 a b s t r a c t t h en e t w o r kf a u l tm a n a g e m e n ti st h eb a s e m e n tw o r ka n dt h em o s ti m p o r t a n tt a s k i nt h en e t w o r km a n a g e m e mw h i c hm a i n l yi n c l u d e ss u c hk e yt e c h n o l o g i e sa st h e n e t w o r kf a u l td e t e c t i o n , t h en e t w o r kf a u l tl o c a l i z a t i o n , t h en e t w o r kf a u l ti s o l a t i o na n d t h en e t w o r kf a u l t 把s t o 他s f a u l tm a n a g e m e n td e a l sw i t hh o wt og u a g a n t e et og e tt h e n e t w o r km o n i t o r i n gd a t ae f f i c i e n t l y , h o wt oo p t i m i z et h en e t w o r kf a u l tm a n a g e m e n t p o l i c y , h o wt of a s tl o c a t et h en e t w o r kf a u l ta n ds oo n ,i nt h i st h e s i s ,w ed i s c u s st h e n e t w o r kf a u l tm a n a g e m e n tf r o mf o u ra s p e c t s :t h e a l g o r i t h m o fn e t w o r kf a u l t m o n i t o r i n gt h ep o l i c yo p t i m i z a t i o no ft h en e t w o r kf a u l tl o c a t i o n , t h ef a s td i a g n o s i s a l g o r i t h mo ft h en e t w o r kf a u l ta n dt h en e t w o r kf a u l tm a n a g e m e n ta p p l i c a t i o ni na d h o cn e t w o r k 1 1 圮m a i nc o n b i b u t i o n so f t h i st 1 1 e s i sa r e 】i s t e da sf o l l o w s : 1 i nt h ea s p e c to fn e t w o r kf a u l tm o n i t o r i n g ,w ep r o p o s eo n ek i n do fd y n a m i c n e t w o r km o n i t o r i n ga l g o r i t h m t h i sa l g o r i t h mr e d u c e st h eo v e r h e a dc a u s e db y r e a l - t i m en e t w o r km o n i t o r i n gb ya n a l y z i n gt h ep r o b a b i l i t yo ft h ea l a r mo c c t n t e u c e w i t ht h es a m p l e dn e t w o r ki n f o r m a t i o n , t h ep r o p o s e da l g o r i t h m 。p r o l o n g st h ei n t e r v a l b e t w e e nt w oc o n s e c u t i v ep o l l i n g sw h e n1 1 0a l a r mc o u l do c c u r t h i sa l g o r i t h mr e d u c e s t h ea m o u n to f m o n i t o r i n gn 锄ca n dg u a r a n t e et od e t e c tt h ea b n o r m a l 彻tw i t ht h e m e t h o do fa n a l y z i n gt h ep e r f o r m a n c eo ft h i sa l g o r i t h mt h e o r e t i c a l l yw ep r o v et h e v a l i d i t yo f t h eg i v e na l g o r i t h r a 2 i nt h ea s p e c to fn e t w o r kf a u l tl o c a l i z a t i o n , w ep r o p o s et h em m d pn e t w o r k f a u l tl o c a l i z a t i o np o l i c yt h en e t w o r kf a u l tm o n i t o r i n gs y s t e mi sas t o c h a s t i cd y n a m i c r e s p o n s es y s t e mw h i c hm e a n st h a tt h ep o l i c ys h o u l da l s ob ed y n a m i cw i t ht h en e t w o r k p e r f o r m a n c ec h a n g e s t h ef e a s i b i l i t yo ft h em d p h a sb e e np r o v e nt h e o r e t i c a l l y a p o l i c y f o rf a u l tm o n i t o r i n go fah i e r a r c h i c a ln e t w o r kw i t ht h em u l t i - m a n a g e ri s p r o p o s e db ya n a l y z i n gt h em u l t i m d rt h em i d d l em a n a g e r s c a ne x c h a n g et h e m e s s a g e sb e t w e e ne a c ho t h e rt og e tt h ei n f o r m a t i o no f t h e i rs u b - n e t w o r k s c o m b i n e d 砸n lt h er e i n f o r c e m e n tl e a r n i n gw e g e tt h eo l 姬m i z e dp o l i c ei nt h el i m i t e dp e r i o d , t h u s c a u s e st h es y s t e mr e w a r dm a x i m i z a t i o n w ea l s od e t e r m i n et h em a n a g e do b j e c t si nt h e m i ba sw e l la st h ep o l l i n gs t r u c t u r e , t h e np o i n to u tt h ep o l l i n gs t e pi n c r e a s e sa l o n g w i t ht h en u m b e ro f t b em a n a g e do b j e c t si n c r e a s e sa n dt h ep o l l i n gs t e pl e n g t h e n sa l o n g 、i t ht h eo b s e r v a t i o ns t a g er e d u c e s 3 h 1t h ea s p e c to ft h en e t w o r kf a u l td i a g n o s i s , w es t o d yt h ef a s tn e t w o r kf a u l t 分层分布式网络故障管理研究 d i a 印o s ew i t ht h ea p p l i c a t i o no ft h eb a y e s i a nb e l i e fn e t w o 出t h eb a y e s i a nb e l i e f n e t w o r ki sa 丑i n f e r e n c en e t w o r ka c c o r d i n gt ot h ee v e n t p r o b a b i l i t yw j 也t h e d e p e n d e n c er e l a t i o n a lm o d e lw h i c hc o n f o r m st ot h eo b j e c t - o r i e n t o dn e t w o r ks y s t e m , w ep r o v et h ef e a s i b i l i t yo ft h en o i s y - o ra n dt h en o i s y - a n dn e t w o r ki nb b nb e l i e f d e d u c i n gw e a l s op r o p o s ea n dp r o v et h ea l g o r i t h mo f t h eo p t i m i z e dm e t h o di nf i n d r i g t h ef a u l t t h ep r o p o s e da l g o r i t h mh a sp e r f o r m a n c e sc o m p a r a b l et ot h eo l l ew i t h o u tt h e o p t i m i r e dm e t h o da n ds i g n i f i c a n t l yo u t p e r f o r m s o t h e r e x i s t i n g f a u l t f i n d i n g a l g o r i t h m s 4 b ya n a l y z i n gt h er a n d o ma dh o cm o b i l i t ym o d e l , w ea n a l y z i n gt h ea p p l i c a t i o n o ft h en e t w o r kf a u l tm a n a g e m e n ti na dh o en e t w o r ka n dd i s c u s e st h eh i e r a r c h i c a l a r c h i t e c t u r eo f t h ef a u l tm a n a g e m e n t f u r t h e r m o r e , t h en e t w o r kf a u l tm a n a g e m e n tc a n b er e a l i z e db yg e ta n ds e tt h em a n a g e do b j e c t sw h o s es t a t ev a l u e sa l ec h a n g e d n 蛇 m i bi n f o r m a t i o ni sg i v e nw h i c hp r o v i d eam o r ec o m p l e t ea p p l i c a t i o ni n s t a n c eo f n e t w o r kf a u l tm a n a g e m e n t k e yw o r d s :n e t w o r km a n a g e m e n t , f a u rm a n a g e m e n t , f a u l tm o n i t o r i n g , f a u l t l o c a l i z a t i o n ,m a r k o vd e c i s i o np r o c e s s e s ,b a y e s i a nb e l i e f n e t w o r k 声明 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其 它人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或其它教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在 校攻读学位期间,论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校 后,发表论文或使用论文工作成果时署名单位仍为西安电子科技大学。学校有权保留 送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全部或部分内容,可 以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在解密后遵守此规定) 本人签名:弦勃 导师签名:兰豸丝左整 日期:垫2 :竺筮 日期:之丝2 垒:型 第一章绪论 第一章绪论 本章主要介绍网络故障管理的基本技术范畴、国内外的研究现状以及关键问题 阐述了网络故障管理需要的几项关键技术:网络故障检测,网络故障定位、网络故障 隔离、网络故障恢复等最后,总结了作者在攻读博士学位期间的研究工作 1 i 论文研究的基本目的 在信息社会飞速发展的今天,作为信息传输媒介的网络,已经遍布于我们生活的 整个空间。网络通信作为国民经济和社会发展的基础之一,也已成为当前世界上发展 最迅速的领域。如何加强网络管理,提高通信的有效性和可靠性,成为当前通信技术 研究的一个重点。 国际标准化组织( i s o ) 将网络管理从管理功能上划分为性能管理、配置管理、 故障管理、安全管理和计帐管理五个管理功能域。性能管理通过收集和分析统计数据, 调整网络行为,以提供更好的服务质量。配置管理包括初始化网络,维护、增加和更 新网络部件。故障管理的作用是检测、隔离、诊断、修正网络运行过程中的可能的网 络故障,从而确保网络的可靠性和可获得性。安全管理是保障和控制网络中的信息包 括管理信息安全及访问。记帐管理可以跟踪和管理个人和团体用户对网络资源的使用 情况。 随着对网络的依赖性越来越大,人们对网络的稳定性和可获得性要求也越来越 高,网络故障及其管理的研究也越来越重要。一旦网络出现故障,就必须要排除故障, 确保网络正常运行,从这个意义上讲,网络故障管理是网络管理的基础工作,也是最 重要的网络管理任务。 网络管理是基于掌握了大量可靠的被管对象信息的情况下完成的。要获得这样的 信息,一种可靠的办法就是不断地监视网络运营状态及其参数。随着网络规模的不断 增加,在一个网络中。需要管理的被管对象类型和数目也越来越复杂繁多,对被管对 象周期性地轮询,将导致网络流量特别是管理者端的流量增大,这样,一方面占用了 较大带宽,并有可能造成以管理者为端点的链路拥塞;另一方面,当网络出现故障现 象时,需要获得更多的数据做进一步的推理判断,过多的管理数据会进一步恶化网络 分层分布式网络故障管理研究 性能。所以,减少网络管理所需的通信开销,保证网络通信的有效性,成为网络,特 别是带宽受限的网络所面临和必须解决的网络管理问题之一。 网络故障发生后的快速诊断,对恢复网络的正常运行以及提高网络的稳定性具有 重要作用,网络告警信息包含有大量的不确定性信息,同时系统告警信息的不完备以 及数据传播的动力特性都加大了故障诊断的难度,需要进行对告警信息进行不确定性 推理,选择决策后的最优策略,优化网络管理。 本论文是在上述背景下,针对分层分布式网络管理体系,开展的网络故障管理研 究。 1 2 基本概念 1 2 1网络故障的定义 网络故障定义为一种网络异常状态“1 ,需要管理引起注意或采取行动对其进行修 复。故障通常由不能正常操作或过多的错误来表示。有些错误虽然会经常发生,但不 认为是故障,例如,通信中出现少量的误码。从协议角度看,一般的通信错误可以通 过差错控制机制恢复,而故障则需要从管理角度干涉。 1 2 2网络故障管理的内容 1 2 2 1 故障管理的任务 i t u - t1 9 9 2 i 规定,网络故障管理的任务是检测、隔离、恢复网络运行过程中可 能的故障问题,通过故障管理工具查明导致网络系统某种功能失效的原因或网络状态 的性质,判断网络性能下降发生的部位或设备,以及预测性能下降的发展趋势等。具 体任务详述如下: 检测:发现并报告网络故障。要求管理者以一种轮询的方式检测到可能的故障, 或者被管系统通过事件通知方式通知管理者发现了网络故障”,这两种方式都是在 线处理过程。 隔离:包括网络故障的定位和标识“删“4 ,要求能确定网络故障位置。并将正常部 分的网络与有故障的网络分隔开来,使正常部分的网络免受故障干扰,重新配置网络, 尽量减小故障隔离操作对网络造成的影响。 恢复:修复或替换有故障组件,排除网络故障,使网络状态正常。删。 第一章绪论 3 1 2 2 2 故障管理的分类 根据网络故障的定义和任务,网络故障管理有多种分类方式,从发生的时间、呈 现的状态、产生的原因等方面可以有以下几种分类方法: ( 1 ) 按故障发生的时间分,有突发性故障和渐进性故障。 突发性故障是指发生故障前,不能提前测试或预测出来,这种故障的发生实际上 表现出随机性;渐进性故障是由网络参数的逐步恶化产生的,这种故障在一定程度上 可以提前预测,例如通过前摄性推理,数据的统计性能分析mn 1 1 等可以分析出渐进 性故障。 ( 2 ) 按故障存在的时间分,有间歇性故障和永久性故障。 问歇性故障是指影响网络功能的被管对象状态值在短时间内超过规定闽值的现 象;永久性故障是指影响网络功能的被管对象状态值持续超过规定阈值界限,并引起 故障的不可逆转的现象。 ( 3 ) 按故障的呈现状况分,有潜在故障和功能受损故障。 潜在故障是网络功能仍然显示正常,而某些被管对象的参数值已经超过允许范围 的现象;功能受损故障则是网络的功能参数超过正常范围,一般表现为网络的功能降 低,严重的情况下,设备已经损坏。 ( 4 ) 按故障的产生原因分,有硬故障和软故障“m ”。 通信网络故障可分成为硬故障和软故障。 硬故障由网络硬件故障和网络软件故障组成,这种故障是指不正确的或者有缺陷 的逻辑设计和实现。例如,网络建设在初始化阶段,由于预见性的原因,使得网络的 配置只能满足于最初的业务种类单一的服务,随着业务种类的不断增加,仍然使用初 始化的网络配置,可能会降低某些网络功能,甚至使相应的功能失效,这种故障就是 硬故障。一般硬故障可由置换硬件或软件调试排除,例如,上述的硬故障可以由更换 设备或者更新网络配置使得某些失效的网络功能恢复正常。针对硬故障的故障管理方 式称为交互式( r e a c t i v e ) 网络故障管理。 软故障指在网络运行过程中,由于网络性能恶化雨造成的某些网络功能失效引起 的故障。例如,由于网络拥塞,时延超时引起的链路中断的故障,则属于软故障,一 般情况下,软故障不会在所有设备中均出现,它一般对网络性能造成影响。软故障的 排除是通过推理分析网络性能参数实现的龌”,网络管理者根据原始数据得出一些统 计信息,预测未来故障发生的可能性,这种针对软故障的网络故障管理方式称为前摄 性( p r o a c t i v e ) 网络故障管理嘲龇。 在前摄性网络故障管理中,由于网络故障需要对网络性能分析做出推理,这就意 4 分层分布式两络故障管理研究 味着所有的数据都要由代理发往管理者,而在交互式网络故障管理中,由于管理者只 需要得到一些网络状态信息,用以和某些指出了将要发生网络异常行为的告警条件交 互,所以,代理可以只是发送部分监视数据到管理者。因此,从监视角度看,前摄性 网络故障管理的代价要高于交互式网络故障管理,也即,对软故障诊断的代价要高于 对硬故障诊断的代价。 根据故障的分类不同,采取的故障管理方式也不同。 1 2 2 3 故障管理的功能 网络故障管理服务执行5 个网络故障管理功能:告警监视、故障定位标识、故障 恢复、故障测试、网络故障报告m 。 ( 1 ) 告警监视: 包括收集网络资源,记录告警事件,监视告警信息,更新告警数据。 ( 2 ) 网络故障定位: 分析收集到的告警信息,判断告警源产生告警的原因,定位故障源,提交 管理者告警数据的分析结果。 ( 3 ) 故障恢复: 由检测到的网络故障的根源建立模型,并根据故障推理的后验概率,使网 络性能恢复到故障发生前的状态。 “) 故障测试: 根据管理者的请求,对被管对象进行故障替换测试,以提高系统的稳定性。 ( 5 ) 网络故障报告: 给出网络故障的条件以及网络故障状态的跟踪报告,形成文档备案,可用 于给故障专家系统或者故障数据库提供资料。 1 2 2 4故障管理的流程 网络故障管理系统应具有智能化的监视器,对于收集到的告警信息进行相关性过 滤,为故障诊断提供依据,具体工作流程见图1 1 : ( 1 ) 告警收集:监视网络,收集告警信息。典型的告警是在对被管对象,或者对 网络的状态或属性数据,进行统计分析的基础上产生的。 ( 2 ) 采取响应措施:当有告警时,应在客户没有察觉的情况下,采取临时响应措 施,启动相应的诊断进程( 如启动s o n e t 系统的备用环路) ,以确保客户的满 意度。 ( 3 ) 告警的过滤和相关性处理:对告警信息进行相关性处理,去除冗余信息,提高 第一章绪论 故障管理的有效性。 “) 故障诊断:诊断网络故障,找出原因,消除故障。 ( 5 ) 恢复计划:给用户提供恢复建议,实现恢复计划,验证故障是否被消除。 ( 6 ) 记录事件:记录数据并判断当前网络故障管理功能的有效性。 1 3 目前国内外的研究现状 网络互连和业务互通的网络融合趋势是网络发展的目标,网络构架上的的异构性 和网络业务上的多样性使得故障管理益发艰难,为了降低网络管理的开销,提高对节 点的控制和管理能力,有必要首先讨论网络管理体系结构。本文深入探讨现有网络故 障管理面临的问题。 1 3 1 网络管理模型 网络管理系统中的实体有管理者( m a n a g e r ) 、代理( a g e n t ) 以及集管理者和代理于 一身的双重角色实体中间管理者( m a n a g e r - a g e n t ) 三种。传统的看法认为,管理者 执行管理功能,丽代理则执行如采集资料等一般性的工作。但是,目前的网络管理系 6 分层分布式两络故障管理研究 图1 2 管理系统结构图 统中,管理者和代理之间的界限已变得模糊,在这种情况下,管理者是指需要和其它 实体( 通常是代理) 通信以执行任务的实体,代理是指能够执行指定任务的实体,如果 任务不是由一个代理单独完成的,就引入了具有管理者和代理双重身份的中间管理者 实体n 3 1 侧,如图1 2 所示。 根据管理系统中上述实体的个数情况可以对管理系统进行分类。假设在一个网管 系统中,管理者、中间管理者和代理各实体的总数为n 、管理者和中间管理者实体的 总数为m ,当有如下的表达式成立时: m = 1 ( 1 - 1 ) 1 9 1 n ( 1 2 ) 1 m n( 卜3 ) m n ( 1 4 ) 我们称满足式( 1 - 1 ) 的网管系统为集中式的,满足式( 卜2 ) 的网管系统为弱分布式 的,满足式( 卜3 ) 的网管系统为强分布式的,满足式( 卜4 ) 的网管系统为协同式的或完 全分布式的。 在集中式网络管理结构中,网络的所有信息都要交给管理者处理。网络管理者通 过定期地轮询全网中的代理获得网络信息,并在需要时通过管理操作控制整个网络, 这种管理者代理模式也被称为客户服务器模式。由于轮询产生了较大的网络流量, 故集中式网管的效率不高。 同时,在s m i v l 和s m i v 2 中,管理信息库( m i b ) 数据的处理方式定义的不够完善, 为了能够适应各种处理和监控方式( 有些可能是未知的) ,m i b 定义不得不尽量详尽, 第一章绪论 7 传输时需要占用较多带宽资源。这势必造成网络流量,特别是管理者端的流量增大; 而且管理者有时收集了大量的数据,但处理时只是使用其中的一部分,这样造成了带 宽的不必要的浪费。由此可见,由于网络的规模的扩大,使用单一的管理者,其处理 能力以及管理者端的数据拥塞可能成为整个系统的瓶颈。 其次,随着网络的复杂性的增加,需要关注的管理对象是无法在网络建设初期完 全配置好的,对于网络拓扑结构是固定的网络管理系统而言,代理的位置和数量是相 对固定的,无法在使用过程中做动态的调整。 因此,随着网络规模的不断发展,以前的集中式网络管理体系结构不再满足大型 网络管理的需要,目前只是在小规模网络中使用。 理想的网络管理模型是完全分布式的,即,m “1 1 ,网元都有自我发现和自愈能 力。目前的人工智能技术等还远不能满足这样的要求,那么在介于集中式和全分布式 的网络管理体系中,分层分布式网络管理体系应运而生。 在分层分布式网络管理体系结构中,1 m n 。在管理者和代理之间,有一个 中间管理者实体。中间管理者实体上同时有管理者和代理模块,中间管理者受网络管 理者管理,同时又负责管理一个子网。管理者将管理任务下放到子网的中间管理者实 体上,由中间管理者管理子网内的代理节点,负责收集子网内代理的数据,分担管理 任务,整理和处理收集的数据,如果这些数据在中间管理者的职权范围内,不需管理 者处理,则直接由中间管理者实行本地化管理,不再向管理者传送;超出中间管理者 职权的管理任务,由中间管理者将这些管理数据送交上级管理者处理。从而提高网络 管理的效率。这种构架的最大特点一是具有可伸缩性,二是提高了网络故障管理的效 率。 1 9 9 1 年1 1 月,互联网工程任务组( i n t e r n e te n g i n e e r i n gt a s kf o r c e ,i e t f ) 提出 了众所周知的远程监视( r e m o t em o n i t o r i n g :r m o n ) , 远程监控能力是s n m p 一项重要 的进展。r m o n 代理远程配置在子网或网段上,捕获并分析子网网络管理信息,以备管 理者将来检索、获取各个子网整体活动的情况,r m o n 可以“离线操作”,即便管理者 和r m o n 代理之间的链路出现问题,在通信恢复后,也可获得数据。而且r m o n 可以过滤 数据,管理者可以在一定程度上定制关心的数据。从而减轻网络资源消耗和中心管理 者的处理器负担。 删o n 的引入是s n f f p 对分布式网络管理的有力支持,事实上,中间管理者利用r m o n 特有的配置和操作机制,将更加有利于分层分布式的网络管理体系的实现。 分层分布式网络管理体系结构如图l3 所示,它是由管理者( m a n a g e r ) 、中间管理 者( m ”和代理( a g e n t ) - - - 级组成。最底层是代理,每个代理管理所在节点及周边链路 分层分布式网络故障管理研究 毒中间管理者溉) o 管理者( m a m g e r ) 图1 3 分层分布式网络故障管理模型 等;多个代理形成一个子网并由本子网的中间管理者管理;中间管理者则由网络管理 者管理,对网络管理者来说,它是一个代理,而对子网内其它节点来说,它是这个子 网的管理者。当网络管理者访问子网内其它节点时,都要通过中间管理者。中问管理 者对管理消息的处理有两种方式:一是转发消息,即对消息不做任何处理,只作为中 转站传递消息。二是综合处理消息,中间管理者将从子网内节点接收的消息处理后, 传递给中心管理者,实现分层分布式的网络三级管理。 在分层分布式网络管理体系结构中,如果被管网络拓扑不发生变化,网络管理系 统的结构也不发生变化的,则是固定的分层分布式网络管理体系结构。如果因被管网 络拓扑发生变化( 如自组织网络) ,引起网络管理系统结构发生变化的,则是动态的 分层分布式网络管理体系结构。 目前,基于动态管理者的分布式网络管理模型是研究的热点。 1 3 2 故障管理算法分析 理想的网络故障管理系统应该是一个动态的智能分析系统,它是一个能对运行的 通信网络进行监视并实施一定的控制,使得网络具有高效率和高稳定性。它包含一个 m i b 库和相应的策略推理算法,通过推理算法对采集的数据进行分析处理,选择优化 的管理策略,采取合适的故障管理方式,并能够不断地在m i b 库中记录分析结果,以 便用于后续的动态学习知识库。 第一章绪论 9 在以上系统中,网络管理的一个重要任务是将网络的性能参数实时地呈现给网络 管理者,因此网络管理站需要不断地收集网络信息。在网络管理信息的定义、采集, 传递过程中会有可能出现以下情况: ( 1 ) 由于网元的异构性,故障的表征也不同。 ( 2 ) 由于网络节点间的链路连接及通信协议的协调工作,故障会在网元之间传播扩 散。 ( 3 ) 在采集到的网络数据中存在有噪音,同时也有告警信息的丢失现象,还有可能 发生告警风暴现象,也即一个故障也许会引起多条告警信息。 ( 4 ) 故障源处不一定能观测到告警信息;但也有这样的情况,一个告警信息是网络 中多处性能恶化现象的体现。 目前,网络故障管理的研究主要在网络故障检测、网络故障定位、网络故障隔离、 网络故障恢复等几个方面,具体包括保证监视数据的有效采集、告警信息的相关性处 理、网络故障定位等研究工作。下面讨论他们具体实现的一些方法。 1 3 2 1 网络故障检测 包含网络故障的监视和告警。 ( 1 ) 网络故障监视 网络管理是基于假设对被管对象掌握了大量的可靠信息的情况下完成的,而要维 持这样的信息的唯一办法就是不断地监视网络中的系统参数。 基于s n m p 的网络管理,其监视技术主要有两种:轮询和事件通知。轮询般是管 理者以某一固定频率周期性的向代理发消息,请求代理执行某种操作,例如,可以收 集网络状态信息,识别与系统和网络故障相关的信息等;事件通知是一种代理向管理 者发出的异步消息,通知管理者有关代理的状态等信息,在s m v 1 版本中,事件通 知用于代理向管理者报告发现的可能的告警信息等。 监视的目的就是保证系统在所要求的参数下正常运行。随着日趋发展的网络的复 杂性和业务要求的多样性,网络监视的难度也增加了,在同样的链路上,不仅要求传 输用户信息而且要求传输管理监视信息,监视数据过多,会加重网络负担,而监视数 据过少,则无法知道网络是否可靠运行,因此要研究提高监视信息传输有效性的方法。 从故障管理角度看,减少监视信息传送的方法主要包含如下的过程:研究如何通 过对网络状态、被管对象属性的测量以及对这些测量结果的合理推理,得出结论,预 测网络故障发生的可能性,剔除冗余信息,减少管理信息对带宽的占用。同时,网络 故障管理还应该是前摄性的,即,在网络故障引起网络性能下降之前可以检测、诊断、 隔离网络故障,在网络已经满负荷时,监视会引起网络额外的负担,所以就要在数据 收集和传输、网络速度和网络故障检测及诊断这几方面综合考虑,选取优化策略。平 衡用户数据信息和管理信息之间的矛盾,提高管理效率。 故障监视的主要研究方向有互监视,前摄性监视、异常数据采集等,这些算法 主要关注如何降低监视信息的传送。表1 1 分析了这些算法的研究成果。 在复杂环境下,故障的监视可能非常困难,网络状态将呈现出可以被观测到的 状态和无法观测到的状态等多种情况,对于这样几种情况,网络监视工作可以由贝叶 斯置信网( b a y e s i a nb e l i e fn e t w o r k :b b n ) 的学习方法构建模型,对能部分观测 的网络故障状态和有不确定性状态的故障,进行推理分析“”。在监视方面做出成果的 有m a r kd i l m a n 等研究入员蚴n 5 1 【嘲“7 1 。 表1 i 监视算法的研究成果 研究方向需要解决的问题 相应的解决办法 互监视 如何获得网络中被管对象变量结合s n m p 的轮询和事件通知 的状态信息;方式; 如何处理管理者与代理之阃的采用监视算法,合理选择轮询 交互通信方式; 频率、轮询步长,降低管理信 息对网络带宽的占用; 前摄性监视 如何获得与网络性能性能相关基于r m o n 的数据采集; 的原始数据; 如何对原始数据分析提取有效结合自适应学习系统,检测出 信息,预测下一步的管理工作;测量变量对正常值的偏离,推 理未知网络故障; 异常数据采集分析如何分析异常数据;分析流量数据的统计特性,根 据变化趋势检测网络故障; ( 2 ) 网络故障监视算法 网络监视的作用是通过对网络状态属性的测量,推理出合理的结论,并预测可能 的故障发生处“蜘。轮询( p o l l i n g ) 和事件通知( t r a p ) 是监视网络的基本方法。不 论那种手段都会占用系统资源,为了提高网管的效率,出现了许多新的管理技术。一 第一章绪论 种提高网管效率的思想是采用轮询和事件通知相结合的方法,通过代理主动报告发生 的事件减少轮询的次数。所以,在已有网络链路流量的情况下,如何有效地获得网络 管理信息,同时不影响网络的有效负荷,使网络在网络管理的条件下,更加可靠、高 效的运行,是此类算法要解决的问题。 故障监视算法是指根据所得到的数据以及本地告警事件通知来决定哪个变量需 要测量,并触发本地告警事件的算法。一个监视算法往往要给出监视的变量有哪些, 以及如何确定监视的范围。如果一个算法可以检测到告警条件,那么它就是正确的算 法,当且仅当其代价比其它正确算法代价低时,它是最优算法。 现有的网络故障监视算法有前摄性算法,交互式监视算法。 前摄性监视要求用原始数据来预测未来趋势如可能发生的情况等工作,所以,前 摄性监视系统需要结合自适应学习系统,此系统学习掌握每个测量变量的正常行为, 并检测出测量变量对正常值的偏离,可以推演未知网络故障,同时关联时间和空间的 信息,对于可能由于网络故障引起的网络拥塞,进行预测,并考虑可以施加一定的调 度算法,使得管理人员采取一定的措施在网络故障发生前阻止故障的发生。 交互式监视算法针对的是硬网络故障,管理者与代理之间采用轮询和事件通知的 交互方式获得网络中被管对象变量的状态信息,s n m p 提供了这些变量结构的定义以及 通信机制。但这些变量自身不能检测网络故障,需要进一步处理,以获得对网络故障 根源状态的分析。这种算法主要考虑如何合理的选择轮询频率以及轮询步长,扶而减 少通信资源的消耗。 ( 3 ) 网络故障告警 网络故障告警由以下步骤实行: ( 1 ) 接收网络故障监视模块传来的告警信息; ( 2 ) 分析提取告警数据,进行网络故障信息过滤与关联性处理; ( 3 ) 判断故障类型,并生成网络故障记录; ( 4 ) 根据告警策略不同,驱动告警显示程序。 在上述过程中,分析提取告警数据,进行告警信息过滤与关联性处理是网络故障 告警的研究重点。 一个网络故障可能被多个组件检测到,每个都可能发出告警通知,也即,一个网 络故障可能产生几个告警,某个组件的网络故障可能会影响多个其它组件,引起网络 故障的传播,所有这些现象均与告警的相关性有关 相关性是指一种处理过程,考虑到告警并不总是与网络故障相关,要求对应于给 定告警有一个最小的网络故障假设子集,通过告警信息的分析,过滤冗余信息,并根 据信息之间的依赖关系迸行推理判断。 一 告警分析的研究主要包括基于规则的告警( r u l e - b a s e dr e a s o n i n g :r b r ) 、基于 事例的告警推理( c a s e - b a s e dr e a s o n i n g :c b r ) 、基于编码方式的告警分析( c o d e b a s e d a n a l y s i s ;c b a ) 、贝叶斯置信网( b a y e s i a nb e l i e fn e t w o r k :b b n ) 、神经元网络 ( n e u r a ln e t w o r k s :n n s ) 等。 目前,已经投入商用的产品包括h p 公司的o p e nv i e w “”,m i c r o m u s e 公司的 n e t c o o i o m n i b u s ,a p r i s m 公司的s p e c t r u m r x 等“”洲,一般而言。不同产品的告警 算法都不相同,如o p e n v i e w 采用的是基于规则的告警处理算法。 有关告警的国内研究成果也比较丰富,一般多采用专家系统,规则推理,事例推 理等技术,文献“1 应用专家系统进行告警信息的相关性处理,文献提出了一种 基于规则的告警分析方法,在此系统中,规则知识库是通过数据挖掘技术实现的,这 种方法可以实现在线的、实时的告警分析和故障诊断:文献提出了基于事例推理 的算法,采用分布式代理技术采集告警信息,并结合神经网络和基于事例推理技术。 实现网络故障检测的学习。文献利用事件关联的方法,过滤掉大量冗余事件并定位 已发生的故障。表1 2 列出了这些研究成果。 表1 2 故障告警研究成果 研究方向需要解决的问题相应的解决办法 基于事例的告警分析如何建立事例库,推理 通过概率分析,匹配已有的事例信 告警根源信息 息,推理告警的根源信息; 基于编码的告警分析如何确定编码方式建立编码表或编码矩阵,完成相关 性分析; 基于规则的告警处理如何比较规则,确定有建立规则库,将采集到的告警信息 效的告警信息与库中设置的规则进行比较,推理 故障; 贝叶斯置信网如何建立置信网络,并建立分层的网络状态依赖关系以 确定依赖关系及因果关系,采用贝叶斯推理,确 定告警信息的相关性; ( 4 ) 告警相关性分析算法 告警相关性分析算法包括告警分析知识库和告警分析推理算法两个主要的部分, 告警分析知识库的结构决定了分析推理所采用的算法,是推理的基础,告警分析推理 第一章绪论 算法是告警相关性分析的主要工具。 目前告警相关性分析算法主要有:基于规则的算法,基于编码的算法,基于事例 的算法等。基于规则的算法主要是根据预先确定的规则对获得的告警信息进行分析, 并通过与这些规则的比较得出故障内容。基于事例的算法是以事例作为分析单元,根 据历史信息进行分析总结,得到一系列的事例,建立事例库,对采集到的新的告警信 息,通过与事例库中的原有事例匹配,获取告警的根源信息。基于编码的算法是通过 建立一个编码矩阵,设置告警信息与故障之间的对应关系,进行合理化的简化和推理, 最后得到故障源信息。 随着网络系统的面向对象模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国干燥机市场运行形势剖析与投资运作模式分析研究报告
- 四年级数学上册 1 大数的认识第4课时 练习课配套教学设计 新人教版
- 2025至2030聚羟基硬脂酸行业供需前景规模调研及未来营销趋势研究报告
- 2025年广东省东莞市中考一模语文试题(解析版)
- 2025年医用红外热像仪合作协议书
- 2025至2030中国足浴粉市场经营策略调研与运行形势研究报告
- 2025至2030中国空气净化装置行业市场运营模式及未来发展动向研究报告
- 2025至2030中国碱性介质氧化剂市场前景创新策略与未来竞争格局规划报告
- 2025至2030中国汽车自动驾驶运营能力预测与投资风险评估报告
- 2025至2030中国植物干酪市场销售趋势与产销前景营销研究报告
- 儿童系统性红斑狼疮诊断与治疗评析
- 度假酒店的规划与开发
- 新高考数学二轮复习讲练专题06 函数与导数常见经典压轴小题归类(26大核心考点)(讲义)(解析版)
- 高速公路改到封闭施工方案
- 胸椎骨折的护理课件
- 机械CAD、CAM-形考任务一-国开-参考资料
- 省考试录用公务员面试通知书
- 第9课《美丽的颜色》说课稿 2024-2025学年统编版语文八年级上册
- 制造业劳务外包质量控制制度
- DB11∕T 864-2020 园林绿化种植土壤技术要求
- 《飞向太空的航程》名师课件
评论
0/150
提交评论