(计算机应用技术专业论文)internet服务故障管理.pdf_第1页
(计算机应用技术专业论文)internet服务故障管理.pdf_第2页
(计算机应用技术专业论文)internet服务故障管理.pdf_第3页
(计算机应用技术专业论文)internet服务故障管理.pdf_第4页
(计算机应用技术专业论文)internet服务故障管理.pdf_第5页
已阅读5页,还剩118页未读 继续免费阅读

(计算机应用技术专业论文)internet服务故障管理.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮f u 人学博l 论空 中立摘要 中文摘要 随着i n t e m e t 逐渐向面向服务体系架构( s o a ) 演化,服务提供商( s p ) 丌始 发现i n t e m e t 服务能带来潜在的高额利润,因此,近年来出现了各种各样的i n t e r n e t 服务,如l p 电话、i p 电视、视频点播、网络游戏、v p n 等。为了维持已有顾客群 并吸引更多新用户,s p 需要保证所提供服务的服务质量( q o s ) 。 故障管理对于服务0 0 s 保证非常重要,服务的不可用或性能降级都会弓l 起 s l a ( s e r v i c e k v e i a 2 r e 锄e n t ,服务等级协定) 违约。影响s p 的信誉,并造成经 济损失。因此,s p 需要面向服务的故障管理机制。在服务发生故障时能迅速定位 故障并采取相应措施,以缩短服务宕机时问和性能降级时间。本文围绕着m t e m e t 服务的故障管理体系及其相关算法进行了研究,研究的侧重点在于基于图论技术 的服务故障诊断,服务故障传播模型建立,故障定位算法的分析和改进,跨多个 自治域的服务故障管理框架、以及基于资源规划的服务性能降级故障处理。论文 的主要工作包含以下几个方面: ( 1 ) 分析造成服务故障的复杂原因,比较了现有的故障诊断技术,选择图论技 术作为本文研究的理论工具,采用二分图作为服务的故障传播模型提出 了分层的故障传播模型,并提出了建模方法。分层模型通过将故障管理任 务划分到多个独立的层次,简化了故障诊断过程。 ( 2 ) 将二分图故障传播模型的故障诊断问题转化为集合覆盖问题,借鉴启发式 贪婪算法,没计了最大覆盖算法m c a 和m c a + 。m c a 和m c a + 算法是基 于时问窗口的,其中m c a 十算法是m c a 算法的扩展版本综合考虑了丢失 和虚假症状对故障诊断造成的影响。仿真结巢证明了m c a 和m c a + 算法能 够获得比王蚍有算法更高的故障检测率和更低的洪判率,并且算法稳定,计 算复杂度较低。 ( 3 ) 为了改进基于时问窗口算法在时间窗口设置不合适的情况f 的性能,提出 了多时闯窗口故障诊断算法m f d 。基于时n j 窗口的算法存在蓿固有缺陷, 即算法的准确度依赖丁_ 时问窗口的设置值。m f d 算法在m c a + 算法的基础 上增加了柑邻时f h j 窗口关联关系分析,能在定程度上克服时恻窗口设置 不准确j c 寸算法造成的影响。仿真结果表明,m f d 在时i j 窗l j l 设臀准确的情 况。卜能获得与m c a + 类似的性能;而存时i 、日j 窗口设置不准确( 包括大窗口 和小窗) 的情况下,m f d 算法能获得比m c a + 算法更高的故障检测率年 更低的曝判率,j l :l i 其算法复杂度与m c a + 桐同。 ( 4 ) 分析了祚 多域昴构嘲络环境中服务故障管雕存在的问题,提出了基:rp d 8 北京邮u 人学博i j 论文中文摘婴 ( p e r - d o m a i nb e h a v i o r ) 信息的服务等级规范( s l s ,s e r v i c el e v e l s p e c m c a t i o n ) 分解方法。基于该方法,设汁了多域环境1 f 的服务故障管理 框架m d f m 。m d f m 通过s l s 分解确定了各个自治域需要保证的性能参数, 并使用网络测量工具监控每一个自治域的性能。因此,m d f m 能在故障发 生时缩小故障诊断的范围,从而提高了跨域故障诊断的效率。该原型系统 在8 6 3 项目中得以实现和验证。 ( 5 ) 服务性能降级作为服务故障管理中的“软故障”,主要是出资源供应不足造 成的,通常可以借助接纳控制来解决。本文借鉴传统最大流算法,提出了 资源规划算法,计算各个边缘设备可以注入核心网的总流量。资源规划算 法的输出结果作为接纳控制的基础,简化了异构网络中的接纳控制过程, 为服务连接提供了足够的资源,从而解决服务的性能降级问题。浚算法应 用于8 6 3 项目的电信级i p q o s 体系架构中实验结果证明了浚算法的可行 性和有效性。 【关键词】互联网,面向服务体系架构,服务故障管理,故障诊断,故障传 播模型,故障定位算法,服务等级协定,服务等级规范 j ! 皇i f l ! ! l ! 叁兰盟! 堡兰一 竺墨! ! ! l a b s t r a c t a si n t e n l e tn l i g r a t e sg r a d u a l l yt os o a ( s e r v i c eo r i e n t e da r c l l i t e c t u r e ) ,s e r v i c e p m v i d e r s ( s p ) f i n do u tm a ti n t e m e ts e r v i c e sh a v em ep o t e n t i a lt ob r i n gg r e a tp r o f i t s t h u sv a r i d u si n t e n 】哉s e v i c e sa p p e a r e di nr e c e n td e c a d e s ,s u c ha s r o i p ,i p t v ,v o d , 1 1 1 t e m e tg a m e ,v p na n de t c i no r d e rt 0m a i n t a i nt r a d i t i o n a lc u s t 0 1 n e r sa n da t t r a c tn e w u s e r s ,s ps h o u l dp m v i d eq o s ( q u a l i t yo fs e r v i c e ) f o rt h e j rs e r v i c e s f a u l tm a n a g e l l l e n tj sc r u c i a 】f o rq o sg u a r a l l t e e ,s i n c es e r v j c eu n a v a i l a b i l i t yo r p e r f o m l a n c ed e g r a d a t i o nm a yc a u s es e r v i c el e v e ia g r e e m e n t ( s l a ) v i 0 1a t i o n ,w h i c h w i l la f f e c tt h es p sc r e d i ta n dc a u s et h ef i n a n c i a l l o s s t h e r e f o r e ,j 1 1o l i d e rt os h o r t e nt h e u n a v a i l a b l ea n dp e r f b 舯a n c ed e g r a d a t i o np e r i o dw h e nas e r v i c ef a j l u r eh a p p e n s ,s p n e e d ss e r v i c eo r i e n t e df a u l tm a n a g e m e n t t o 】o c a l i z et h ef a u l ta j l dt a k ec o u n t e rm e a s u r e s t h i sd i s s e n a t i o nf o c u s e so nm ef a u l tm a i l a g e m e n ta r c h i t e c t u r ef o ri n t e r l e ts e n ,i c e sa n d t h er e l a t e da l g o r i t h m s g r 印ht h e o r yb a s e df a u l td i a g n o s i s ,f p m ( f 矗u l tp r o p a g a t i o n m o d e l ) m o d e l i n f a u l tl o c a l i z a t i o na l g o r i t h m sa n a l y s i sa n di m p r o v e m e n t ,a i l dt h e m u l t i - d o m a i nf a u l tm a l l a g e m e n t 厅a m e w o r kf o ri n t e m e ts e r v i c e sa r ee x a m i n e di nt 1 i s d i s s e r t a t i o n t h em a i nc o n t r i b u t i o n sa r ea sf o l l o w s : ( 1 )t h ec o m p l i c a l c dc a u s e so fi n t e m e ts e r v i c e sf a i l u r ea r ea i l a l y z e d b a s e do nt h e c o m p a r i s o no fc u r r e n tf a u l td i a g n o s i st e c h m q u e s ,f a p ht h e o r yi sc h o s e nt ob e t h et h e o r e t i c a lt o o la n db i p a n i t eg r 印hi se m p l o y e da st h ef p mf o ri n t e m e t s e r i v i c e s al a y e r i n gf p mw i t ht h em o d e l i n ga p p r o a c hi sp r o p o s e d b yd i v i d i n g t h ef a u l tm a n a g e m e n tt a s ki n t os e p a m t e dl a y e r s ,m e1 a y e r i n gm o d e lc a ns i m p l i f y t 1 1 ef a u l td i a g n o s i sp r o c e s s ( 2 ) b yl r a n s f o n n i l l gt h ef a u l td i a g n o s i si nb i p a r t i t ef p mi m oas e t c o v e n gp r o b l e m , t w ow i n d o w - b a s e d 伽l l tl o c a l i z a t i o na l g o r i t h m sm c a ( m a x - c o v e r l n ga 1 9 0 r i t h m ) a n dm c a + a r ep r o p o s e d ,b a s e do nt h eh e ur i s t i cg r e e d ya l g o r i t h m m c a + i sa 1 1 e x t e n s i o no fm c a , t a k i n gt h e1 0 s sa n ds p u r i o u ss y n l p t o n l s i n t oa c c o u n t s i n l u i a t i o nr e s u l t s p r o v e t h a tm c aa n dm c a + c a na c l l j e v e h i g h e r 如u l t d e t e c t i o nr a t ea n d1 0 w e rf a l s ep o s i t i v er a t et h a nc u r r e n ta l g o “t h m s t h e ya r e m o r es t a b l ea n dh a v el o w e rc o m p l c x i t yi 1 1a d d i t i o n ( 3 )m f d ( m u l t i w i l l d o wf a u l td i a g n o s i s ) a l g o r i t h mi sp r o p o s e dt oi m p r o v et h e p e r f o m l a n c eo fw i n d o w _ b a s e da l g o r i t l l m si 1 1t h ec a s et h a tt h et i m ew i l l d o wi ss e t j n l p r o p e r l y t 1 1 ei n t r i n s i cs h o n c o l l l i n go fw i n d o w b a s e da l g o r i t l l l l l si st h a tt h e i r a c c u r a c yd 印e 1 1 d so nu h e t h e lt h e “m ew i l l d o ws i z e 1 ss e tc o r r e c t l y b y c o n s i d e r i n gt h ec o r r e i a t i o no fa d i a c e n tt i n l ew j n d o w s ,m f dc a l la e v i a t et h e 北束l l i | i 电人学博l 论业 a b s 仃a c t i m p a c t0 fi m p r o p e rl i m ew i n d o ws c t t i n g s i m u l a t i o nf e s u l t ss h o w s t t l a tm f di s a b l et oa c h i e v et 1 1 es i m i l a r 埘e r f - o m a n c ea sm c a + w h e nt l l et i m ew i n d o wi ss e t p m p e r l y w m l ea c h i e v ch i g h 盯f a u l td e t e c t i o nr a t e 锄dl o w 盯f a l s ep o s i t i v er a t e i nt h ec 鼬eo fi m p r o p c rt i m ew i n d o ws e t t i n g ( i n c l u d i n gl a r g ew i n d o w 鞠d8 m 枷 w i n d o w ) m o r e o v e r ,m f dh a st 1 1 es i m i l a rc o m p u t a t i o nc 哪p l e x i t ya sm c a + ( 4 )t h ep r o b l e m si nm u l “珂o m a j nf h l tm a n a g e m e n ta r ca n a l y z e d 锄dap d b ( p e r d o m a i nb c h a v i o r ) b a ds l s ( s e i c el e v e ls p i 丘c a t i o n ) d e c 咖叩i t i o n a p p m hi sp r o p o s e d b a s e do nm ea p p t o a c h ,am u l t i d o m a i nf h l tm 8 n a g e m e n t 矗嘲e w o r km d f mi sd e s i 鲫孵f o rl f 煳m e ts e r v i c e s i i lm d f m ,s l s d e c o m p o s i t i o ni su e dt od i “d ct 砖f h u l td i a 璺l o s i st a s ki n t od i 缗,豫n td o m “n s , a n dt h en e t w o r km e 鹋u r i n gt o o l k i ti su s e d 幻m o n i t o ft l l es e i c e 非i o m l a i l c ei n e a c hd o m a i na l o n gt h e 饥d t o e n dp a t h a sar e s u l t ,w h e naf a u l th 印p 胁s ,t h e c a u s a t i v er e 百o nw i l lb en a 肿w e dd o w nt oac e r t a i nd o m a i n ,a i l d | i l ee f 矗c i c y o f m u l t i d o m a i nf a u l td i a 鲈o s i si si r 叩r 0 v e d ap r o t o t y p eh a sb e e ni m p l e m t e d i n8 6 3p r o j e c tt op r o v et h ef c 嚣i b i l i t yo f m d f m ( 5 )a st h e “s o f tf a j l u r e ”j ns e r v i c ef h u l tm a n a g e m e n t ,p e r f o m l a n c ed e g r a d a t f o ni s m a i n l yc a u s e db yi n 蛐衔c i e l l tr e s o u r c ep r o v i s i o n i n g ,w h i c hc a nb es o l v c db y a d m i s s i o nc d n t r 0 1 b 雒e do nt h et r a d i t i o n a lm a x n o wa l g o r i t h m s ,ar c s o u f ;c e p l a i l n i n ga l g o t 1 1 mi sp r o p o s c d ,c a i c u l a t i n gm em a x i m u mt r a m cw h i c hc a nb e i n j c c t e db yt h ee d g er o u t e r st ot h ec o r cn e t w o r k a d m i s s i o nc o n t r o 】i sc 咖d u c t e d 鑫c c o r d i n g t om er c s u l to fr e s o u r c ep l 鲫- 1 1 i n g 破g o r i t 胁t h em e c h 觚i s m s i m p l 湎e st l l e a d m i s s i o nc o n t r 0 1 p r o c e s si nh e t e m g e i l e o u sn e t w o r k s 鞠d g u a r a n t e e 3s u 伍c i e n tr e s o u r c ep r o v i s i o n i n g ,t h u sc a np r e v c n tt h es e r v i c ef b m p e r f o h n a n c ed e g f a d a t i o n t h er e s o u r c ep l a n n i n ga 1 9 0 r i t h mi se m p l o y e di nt h e c a r i j e f 。c l a s si pq o sa r c h i t e c t u r eo f8 6 3p p o j e c t e x p e r i m e n t sp r o v et h er e s o u r c e p l a n n i n ga l g o “t h m sf e a s i b i l i t ya n de m c i e n cy k e yw o r d s :i n t e m e t ,s o a ,s e r v i c ef a u l tm a n a g e m e n t ,f a u l t 击a g n o s i s ,f a u np t 叩a g a t i o n m o d e l ,f a u t ll o c a l i z a t i o na l g o f i t h m ,s l a ,s l s i v - 苎室! ! ! ! ! 生查堂堂兰笙兰 型旦i l 图目录 图2 1 :分层故障管理模型和二分图故障传播模型2 0 图2 2 :贝叶斯网络2 7 图2 3 :二分图故障传播模型2 9 图2 4 :b p e l 编巷4 3 2 图2 - 5 :服务交互层的故障传播模型一3 3 图2 - 6 :。服务a 与服务b 信道上自治域a s l 的故障传播模型3 4 图3 1 :二分图故障传播模型( 其中灰色节点为被观察到的症状信息) 4 1 图3 2 :故障定位算法的研究对象4 1 图3 3 :故障检测率比较( 无丢失和虚假告警) 4 6 图3 _ 4 :故障检测率方差比较( 无丢失和虚假告警) 4 7 图3 5 :误判率比较( 无丢失和虚假告警) 4 8 图3 6 :故障诊断时间比较( m c a ,m c a + ,e s 和i h u ) 4 8 图3 7 :故障诊断时间比较( m c a ,m c a + 和i h u ) 4 9 图3 8 :故障诊断率比较( 有丢失和虚假告警) 5 0 图3 9 :故障诊断率方差比较( 有丢失和虚假告警) 5 0 圉3 1 0 :误判率比较( 具有丢失和虚假症状) ,5 l 图4 1 :二分图故障传播模型5 5 图4 2 :时间窗口设置值小于理论值时对算法的影响5 5 图4 3 :时间窗口设置值大于理论值时对算法的影响5 6 图4 _ 4 :交织实例6 d 图4 5 :m c a + 算法的故障检测率( 横坐标为网络大小) 6 2 图4 - 6 :m c a + 算法的误判率比较( 横坐标为网络大小) 6 2 图4 7 :m c a + 算法的故障诊断率比较( 横坐标为时间窗口i d ) :6 3 图4 - 8 :检测率比较( 横坐标为时间窗口i d ) 一“ 图4 _ 9 :检测率比较( 横坐标为网络走小) 。6 4 图4 1 0 :误判率比较一6 5 v i i i 北京邮1 乜大学博l :论空 幽目录 图4 1 l :检测率方差比较6 5 图4 。1 2 :计算时间比较6 6 图4 。1 3 :检测率比较f 正常时间窗口) 6 7 图4 1 4 :误判率比较( 正常时间窗口) 6 7 图4 1 5 :检测率比较( 小时问窗口) 6 8 围4 1 6 :误利率比较( 小时间窗口) 6 8 围4 1 7 :检测率比较( 走时间窗口) 6 9 图4 1 8 :误判率比较( 大时间窗口) 6 9 图5 1 :多域故障诊断解决方隶的节点部署图7 5 图5 _ 2 :多域故障管理嚣框架7 5 图5 3 :s l s 分解器和监测任务产生嚣。7 6 图5 - 4 网络实例7 7 图5 5 :s l s 分解器的功能模块沮及模块交互7 9 图5 6 :s l s 分解器的功能模块交互序列图8 2 图5 7 :s l s 监测器8 4 图5 - 8 :8 6 3 项目的实验网8 7 图5 - 9 :故障分析器的管理员界面8 8 图5 一l o :服务性能告警信息8 8 图6 - l :电信级i pq o s 网络解决方案一q o s j a 、,a 9 3 图6 2 :流网络实例9 6 图6 3 :多源多宿问题9 8 图6 _ 4 :o o s j a r a 部署图l o o 图6 5 :某时刻的资源规划结果1 0 1 图6 ,6 :用户订购v o i p 服务所签订的s l a l o l 图6 7 :拥塞链路的状态1 0 2 图6 8 :v o f p 服务性能比较f 金牌和铜牌服务) 1 0 3 图6 9 :v o d 服务性能比较( 银牌服务和铜牌服务) 1 0 3 图6 1 0 :v o i p 时延比较1 0 4 1 x ! ! 室堕皇盔兰堕! :堕苎 堕型墨 图6 1 l :v o i p 抖动比较 图6 一1 2 :v o i p 丢包率比较 图6 1 3 :v o l p 吞吐率比较 图6 1 4 :v o i p 带宽比较。 图6 1 5 :d d 时延比较 图6 1 6 :v o d 抖动比较 图6 一1 7 :v o d 丢包率比较 图6 1 8 :v o d 吞吐率比较 图6 1 9 :v o d 带宽比较 图6 2 0 :银牌服务拥塞时的影像 图6 2 l :铜牌服务拥塞时的影像 x 1 0 5 1 0 5 1 0 5 1 0 5 酣 舛 :g 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处 本人签名:董啦盏: 本人承担一切相关责任。 日期:垒2 堕生且丝目 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研 究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅; 学校可以公靠学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制 手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此舰定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:董幽星、 导师签名:旌鲢圭盎 f 1 期:2 鲤鱼生目墅目 同期:丝:区:业 北京邮i 乜人学博i 论文 旃一章绪论 第一章绪论 本章首先对本论文的研究背景和基本概念进行了总结和归纳,然后筒卟介宝:; 了目前国内外的研究动念阐明了论文的选题原i 习。最后介绍了本论文的研究内 容和结构安排。 1 1 引言 近年来,i n t e m e t 已逐渐成为大多数人r 常生活巾不可缺少的一部分。服务提 供商( s p ,s e “i c ep r o v i d e r ) 丌始意识到在i n t 删上提供增值服务能带来潜在的 高额利润,因此,在近十年内出现了各种各样的i n t e m e l 服务。如今,我们认为在 网上商店购买商品、在网页上预定车票或旅店是非常自然的事情:我们习惯于在 i n t e m e t 上打电话、看电影和玩游戏。 然而我们在使用i n t e n l e t 服务的过程中也遇到了很多问题:如浏览器提示服 务不可用或是找不到网页;媒体播放时出现马赛克;在激烈的网络游戏过程中突 然掉线。此时。我们会抱怨s p ,尤其当我们为使用服务支付了高额的费用时。显 然,服务不可用或是性能降级都将影响s p 的信誉。由此可见,面向服务的故障管 理的重要性是不占而喻的,通过为用户提供性能更佳和更可靠的服务,能吸引更 多新用户使用服务,从而推动h l t e r n e t 向面向服务的体系结构( s o a ,s e r v i c e o r i e n t e d 觚h i t e c t u r e ) 发展,并带动产业链上各个部分的技术演进。 学术界对于面向网络的故障管理的研究较为成熟,工业界在市场上推出的许 多网管系统中都包含有相应的故障管理模块。相对于面向网络的故障管理,尽管 学术界对于面向服务的故障管理的相关研究并不算少,但市场上较成熟的服务管 理产品仍然不多,甚至可以说现阶段仍缺少面向服务故障管理的完整解决方案。 k o n g 等人在文献【2 】中指出电信网络管理框架为定义m e m e t 服务管理框架提供了 参考,服务故障管理可以借鉴传统网络故障管理。然而,面向网络的故障管理与 面向服务的故障管理之自j 存在着许多差异f 3 】: 一 静态和动态管理场景:网络故障管理主要考虑如路由嚣、交换机和链路等网元 的故障,具有相对稳定的管理视图 而服务的管理场景是动态的,在对某一个 服务实施管理时,应浚只关注该服务运营时所涉及到的系统和网元设备,而对 北京邮i u 人学博i 地文 第一章绪论 于无关的系统和网元设备,管理平台不能也不应该进行豁控即使管理平台能 够发现这些设备;另一方面,出于服务用户的分斫j 性以及路山信息的频繁变化, 不同服务、甚至同个服务的) 1 i 同用j 1 ,连接的流量流经一i 同网络节点和链路, 冈此丽向服务的故障管理具有动态的网络拓扑和管理场景。 一全局与部分视图:网络故障管理可以观察到整个管辖区域内( 如一个自治域) 发生的所有故障;但在服务故障管理中,管理平台只能监控到与服务运营娟关 的系统和网络设备的故障,尽管网络中其他部分的设备故障可能由于故障传播 影响到该服务。部分视图的特性使得在对服务进行故障诊断时只能依靠不完全 的信息进行推理。 一 不同告警类型:设备系统不可用是传统网络故障管理的主要告警类型。而在 而向服务的故障管理中。不仅包括服务不可用故障( 即“硬故障”,此类型故 障主要出于设备或系统宕机和不可用造成,表现为用户无法继续使用服务) , 还包括服务的性能降级( 即“软故障”,此类型故障可能由链路过载或网络搠 塞等因素造成,其外部表现为用户仍然可以继续使用服务,但是服务的性能却 无法满足用户要求,比如时延、丢包率过大等) 。服务故障管理对于这两类敌 障都需要启动故障诊断过程。 一 涉及不同协议层:以o s i 协议栈为例,在传统网络故障管理中,故障诊断集中 在协议栈低层( 物理层和数据链路层) ;但在面向服务的故障管理中,由于大 多数i n t e m e t 服务位于应用层,而应用层的服务提供依赖于低层协议的功能, 协议栈中任何一层的故障都将对服务造成影响,因此服务故障诊断将涉及到协 议栈的所有层次。 一 单一性和多样性:传统网络故障管理的研究对象大多为具有实体形态的硬件设 备,故障类型较为单一,如硬件异常、链路中断、设备老化、时钟不同步等; 而服务从根本意义上说是缺乏实际形态的软件,不同服务的区别在于其逻辑功 能,是人类思想和需求的反映,因此服务具有多样性,从单个服务的特性出发 来研究故障管理的意义不大,因此面向服务的故障管理的解决方案一方面需要 抽取各类服务的共性进行研究,另一方面需要为适应服务的多样性提供灵活性 支持。 服务的故障起因多种多样涉及到端系统、网络、硬件、软件等方方面面, 由于牵涉困素较多,因此面向服务的故障管理非常复杂。下面将从放障管理的基 本概念出发,明确故障管理包含的研究内容,然后考察国内外在服务故障管理领 域的相关研究工作,探讨在服务故障管理中存在的问题,从而阐述本论文的选题 依据。 北京邮i u 大学f i i j 论文第一尊绪论 1 2 基本概念 定吠一,事斧( e v e n t ) 在被管系统的硬件或软4 ,f :操作中发z 卜的异常情况。 定义二,膨带属于事件的一种这种类型的m 件可以引发其他事什( 如 j 亍 警或通告信息) 。故障可以报掘其持续时间被划分为1 永久故障( p e m l a n e n t ) ;2 问歇故障( i i 他m i t t e n t ) ;3 瞬时故障( t r 孤s i e n t ) 。永久故障一直存在于系统1 1 1 , 直到采取了修复动作:问歇故障周期性地出现和消失,并造成一段时i 日j 内的服务 性能下降,但经常发生的间歇故障也将严重影响服务的性能。瞬时故障将会造成 暂念和微小的服务性能降级,但持续的时洲很短,可以通过故障恢复过程自动修 币。 定义三:告j 钉症状 告警或症状是故障的外在表现,在网管系统中,症状通常以告警信息的形式 存在。本文将不区分告警和症状这两个术语。告警信息可以由管理a g e n t 通过管理 协议消息( 如s n m p 的t r a p 和c m i p 的e v e n r - r e p o r t ) 发出,也可以由监视网 络状态的管理系统发出。 在通信网络中,单个故障可能由于以下原因触发多个告警信息:故障的重复 发生;用户多次调用故障组件;单个设备对于一个故障产生了多个告警;多个设 备同时诊断出相同的故障并且都发出告警;故障在网络设备中传播,产生额外的 告警。告警消息的内容主要包括:发出告警消息的对象标识:故障类型;时戳; 告警标识;故障的严重级别,以及故障的文本描述。出于告警消息中包含的信息 不足以充分描述故障的位嚣,因此管理系统需要从接收到的告警消息推断故障的 所在。 i r e n e 在文献i l 】中将故障管理过程划分为三个阶段:告警相关性分析( a l a n n c o n d a l i o n ) 、故障识别( f 抽1 ti d e n t i f i c a t i o n ) 以及故障测试( t e s t i n g ) 。丽两个阶段 通常统一称为故障定位或故障渗断过程,目标是将观察到的告警关联起来,并且 提出多个故障假设( 即对于告警消息的解释) 。每一个故障假设都将被测试,以确 定故障是否真实存在。事实上,故障管理还应该包括故障恢复,在确定了故障存 在以后采取相应措旌。因为故障管理过程的效率和准确度很大程度上依赖于故障 诊断,所以故障诊断是整个故障管理中最为重要的过程。 故障管理过程的一个目标是最小化故障定位时间。故障定位时间等于提出可 能故障假设( p o s s i b l e h y p o m e s i s ) 所用的时间以及测试故障假设所用的时问乏和。 因此,要最小化故障定位时间,一方面需要减少提出故障假设的时间,该时间依 赖于故障定位算法的复杂度,另一方面需要减少测试所用时f b j ,浚时间受到需要 北京| | | 5 1 b 人学博i 。论义 销一章绪论 测试的故障假设的数目的影响,该数目等于故障定位算法提出的故障假设的个数。 换句活说,为减少测试时阃,需要提高故障定位的准确度,使得算法得出的故障 假设尽可能少。为此,故障诊断研究领域为评什故障定位算法定义了“最优故障 假设( b e s tf ;l u l th y p o t h e s i s ) ”的概念。“最优故障假设”需要满足以f 两个性质: 1 所有被观察到的病状或告警信息都能够被故障假设i _ i 的至少一个故障解释;2 故 障假设巾包龠的故障的数目最小。 1 3 国内外发展动态 故障管理向来是j :业界和学术界的藿要研究课题,然而过去对于故障管理的 研究主要是面向网络的。近十年来,随着i n t e m e t 服务的发展,研究人员逐渐开始 关注面向服务的故障管理。但由于服务故障起因非常复杂,从终端故障到网络故 障、从软件故障到硬件故障,都是造成服务不可用或性能降级的原因,因此大多 数学者都选取服务故障的某一个方面进行研究。在本文对国内外发展动态的介绍 中,首先介绍当前工业界发布的服务故障管理产品以及服务故障管理相关研究组 的研究工作,然后根据故障诊断过程( 症状收集故障诊断故障恢复) 对其他相关 文献进行分类。另外,出于移动服务的飞速发展,移动网络故障诊断也将成为服 务故障管理解决方案的重要组成部分,因此本章最后将简单介绍移动网络故障管 理的相关研究工作。 1 3 1 工业界发布的服务故障管理产品 由于缺少网络相关的信息,工业界的大部分解决方案都集中于s p 的企业网内 部的服务故障管理。h po p e n v i e w 家族包含了网络管理、系统管理、数据库管理和 应用程序管理的各个方面,是较为成熟的服务管理产品。除此以外,h p 实验室还 提出了一系列i n t e m e t 服务管理解决方案( 4 7 】。除h p 以外,i b m 也发布了企业服务 管理软件包,t i v o l i 【8 】,提供了监测软件和系统资源的工具,并能跨多个执行环境 确定故障源。 m i c m m u s e ( 2 0 0 5 年底已被i b m 收购) 作为全球领先的实时商业及服务保证 软件解决方案供应商,其旗舰产品n e t c o o l 软件可为企业提供实时的端到端可视 性和精确的故障管理解决方案。根据独立市场研究机构h e a v yr e a d i n g 发布的2 0 0 s 年o s s ( o p e r a t i s u p p o r ts y s t 锄) 市场调研报告,m i c m m u s e 取代h p 公司成为 综合类第一名,并成为“服务管理”和“故障管理”两个分类的第一名,无论在 产品市场占有率还是品牌认知度上,m i c r o m u s e 都处于领先。n e t c o o l 可以说是当 前市场上较为领先的服务管理产品,能够提供实时的业务和运行状态监控以及端 北京i | | | j i u 人学他i + 沦史 第一帝绪论 到端服务管理。 t 述解决方案大都集中于s p 内部网络、服务器、应用程序和基础资源的故障 管理,以业务应用和流程作为管坪对象差要发现、隔离和解决应用与系统的问 题,避免对用户的l 方问造成影响。考虑到服务运营商、喇络运营商之f h j 的信息斗f l 互独立,存在保密件问题因此这些解决方案很少涉及1 踊络部分的故障。然而在 实际应用中,端到端路径l 的网元故障对于服务的件能影响很火,需要综合考虑 网络故障,爿4 能全面有效解决服务不可用和性能降级问题。 1 3 2 服务故障管理相关研究组的研究工作 德国慕尼黑大学的网络管理( m n m ,m u n i c h n e t w o r km a n a g e m e n t ) 研究组对 面向服务故障管理进行了大量的研究。在文献【9 】的工作中,他们提出了服务故障管 理框架,包含有以下几个部分:1 检测服务质量降级的组件,包括用户报告性能降 级的接口以及s p 对服务质量进行监测的工具;2 用于诊断服务性能降级的组件, 包括将服务管理信息抽象为面向对象实体的服务管理信息库s e r v i c e m m 、进行事 件相关性分析的事件关联分析器( e v e n tc o 玎e l a t o r ,结合使用基于规则和基于案例 的事件相关性分机技术) 、以及类似于h po p e n v i e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论