(完整版)网管系统告警产生和处理机制_第1页
(完整版)网管系统告警产生和处理机制_第2页
(完整版)网管系统告警产生和处理机制_第3页
(完整版)网管系统告警产生和处理机制_第4页
(完整版)网管系统告警产生和处理机制_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网管系统告警产生和处理机制1.1.1告警来源和产生机制1、SYSLOG日志(被动接收方式)通过采集服务器的SYSLOG服务,接收网元发送上来的SYSLOG日志记录。告警采集程序通过rules将SYSLOG日志记录解析为告警记录。一条典型的华为端口DOWN告警解析过程:Jul1519:54:11133.63.254.1902008yaan-DC-R-N40IFNET/5/UPDOWN:InterfaceEthernetl/0/5TurnsintoDOWNstate针对上面的告警,通过rules,主要解析出如下内容告警来源IP:133.63.254.190告警类型:IFNET/5/UPDOWN告警

2、对象:Ethernet1/0/5告警原始级别:5告警描述:InterfaceEthernet1/0/5TurnsintoDOWNstate2、SnmpTrap告警(被动接收方式)告警采集在162端口监听并接收网元发送过来的TRAP通知,通过加载相应MIB里的TRAP定义或者厂家提供的TRAP告警翻译规则,转换为相应的告警记录。举例说明:10.102.16.2:TRAPrequestID=0,errorStatus=Success(0),errorIndex=0,VBS1.3.6.1.2.1.1.3.0=229days,12:07:02.00;1.3.6.1.6.3.1.1.4.1.0=1.3.

3、6.1.4.1.3902.1015.1010.1.10.1.17;1.3.6.1.2.1.2.2.1.1=808584704根据中兴提供的TRAP告警定义:(1)1.3.6.1.4.1.3902.1015.1010.1.10.1.17代表zxAnEponOnuErroredSymbolPeriodEvent,即ONU错误符号间隔事件,级别是主要。(2)808584704代表索引信息,可进一步定位到具体的ONU设备,如F820(0/4/4/5)。解析翻译后的告警如下:告警来源IP:10.102.16.2告警类型:zxAnEponOnuErroredSymbolPeriodEvent告警对象:10

4、.102.16.2告警级别:4告警描述:10.102.16.2F820(0/4/4/5):ONU错误符号间隔事件3、网元状态Polling告警(主动检测方式)(1)告警产生采用定期调度(根据设备的重要程度可设定不同的策略)对设备先进行SNMP连接测试,再进行ICMPPING测试:a、如果SNMPPing不通,ICMPPing也不通,发送网元中断告警;如果只有SNMPPing不通,只发送网元不可管理告警b、如果SNMPPing通,不管ICMPPing通不通,都不发送任何告警c、如果原来只是SNMPPing不通,但ICMPPing也开始不通,再发送一条网元中断告警说明:网元不可管理和网元中断告警,

5、默认只发送一次,不重复发送(即发生次数为1)。(2)告警恢复对于处于网元不可管理或网元中断状态的设备,同时进行SNMPPing和ICMPPing跟踪:a、如果SNMPPing通,根据设备的告警状态,发送相应的恢复告警,分两种情况:设备只有网元不可管理告警:发送网元不可管理恢复告警设备同时有两种告警:同时发送网元不可管理和网元中断的恢复告警b、如果SNMPPing仍不通,但ICMPPing开始通(也就是说原来两者都不通),发送一条网元中断恢复告警。4、端口状态Polling告警(主动检测方式)端口Polling在端口流量采集时进行(检测周期与性能采集周期相同,5min一次)。判断标准:本次端口流

6、量采集采到的端口操作状态跟上次采到的端口状态做对比,如果发生了状态变化则发送告警,即:如果是updown,就发端口DOWN告警;如果是downup,就发恢复告警。告警示例:告警类型:端口状态告警描述:如:172.28.12.4GigabitEthernetO/l/13(端口)端口down告警级别:严重说明:端口状态告警,只发送一次,不重复发送(即发生次数为1)。5、性能告警(主动检测方式)告警产生机制:根据性能采集后的数据结果和性能告警设置进行比较,如果满足性能告警设置条件,发送相应的性能告警。恢复告警:如果发生了“满足性能告警设置条件”“不满足性能告警设置条件”的变化,则发送相应的恢复告警。

7、性能告警分类:(1)阈值性能告警:通过阈值设置产生的性能告警(2)基线性能告警:偏离基线时产生的性能告警(3)梯度性能告警:梯度变化满足一定条件时产生的性能告警(4)高级性能告警:满足给定的组合条件时产生的性能告警说明:性能告警,如果满足性能告警设置条件,则每5分钟发送一次,直到告警恢复为至。6、其它告警:翻转告警、资源预警、进程告警等(主动检测方式)(1)翻转告警:根据翻转设置条件,产生的告警,不能自动恢复。告警类型为“翻转告警”。(2)资源预警:根据资源预警设置条件,判断设备的槽位占有或端口利用率是否超过给定阈值,如果超过,则发送相应的资源预警告警。告警类型为“资源预警”。(3)采集进程告

8、警:采集进程正常时,能够定时主动发送心跳信息给应用服务器,系统每3分钟检测一次,根据采集进程的心跳信息是否及时更新来判断采集进程是否正常,如果超过设定时间,心跳信息没有更新,则认为进程down,进而产生相应的告警(重复发送)如果进程启动,心跳信息恢复,则发送恢复告警。告警类型为“网管服务进程”。1.1.2告警数据处理流程告警从采集,到入活动库,最后进入历史库,这个过程称为告警的生命周期。采集为始入历史库为终。从始到终,其数据流程如下图所示:活动库未过滤恢复过滤历史库原始告警库是否解析翻译封装告警各种规则预处理告警重定义JMS消息服务过滤SYSLOGTRAP过滤通过资源关联未通过主动检测告警:设

9、备PING,端口Polling,性能告警,资源告警,拨测告警等告警接收Socket服务告警验证时间窗口处理告警风暴处理丢弃丢弃AlarmOperator流程说明:1、收到的所有SYSLOG和TRAP告警都进行记录。2、只有SYSLOG和TRAP告警需要经过RULES解析和翻译环节,其它告警来源无此过程。3、被RULES过滤掉的SYSLOG和TRAP告警直接丢弃,而非进入历史库,SYSLOG和TRAP告警在原始库中可以找到(TRAP原始报文默认不入库,如果要入库,需要打开进程参数)。4、告警先进行重定义,在进行预处理规则过滤,被预处理过滤的告警,直接进入历史库(也可以选择直接丢弃),对应的删除类

10、型为“预处理删除”;没有过滤的告警入活动库,同时发布JMS消息。5、告警是排队入库的,每次从入库队列中取一定数量的告警依次入库。分为三种情况:(1)如果活动库中存在相同的告警事件(告警源和事件相同),则进行告警更新(更新发生次数和发生时间);(2)如果活动库中不存在相同的告警事件,则插入一条新的活动告警记录;(3)如果告警为恢复告警,则将活动库中对应的告警事件清除,进入历史库。6、活动库的告警被删除后,进入历史库。这里的删除有以下几种情况(1)界面手工删除对应的删除类型为“用户手工删除”。(2)自动恢复删除收到恢复告警后,自动与对应的活动告警结对合并,合并后的告警入历史库。合并后的告警,清除时

11、间为恢复告警的发生时间,清除类型为“自动恢复删除”,其余字段保留原告警信息。也就是说,恢复告警是与成对的活动告警合并成一条告警后入历史库。(3)告警条件删除根据在告警设置里设置的定时删除规则,定时删除符合条件的活动告警。对应的删除类型为“告警条件删除”。(4)告警过多删除低级告警当活动库的告警超过设置的容量时,系统自动启动的删除低级别(未定和警告)告警的策略。删除的告警的级别为未定和警告。对应的删除类型为“告警过多删除低级告警”。(5)成对合并直接入历史库如果收到的某个告警发生和恢复时间非常接近(1秒左右),入库线程从告警队列里取告警后,发现有这种成对的情况,就不再走活动库而是直接合并入历史库

12、,这种情况下告警删除类型为“成对合并直接入历史库”。(6)等价告警剔重目前仅适用于端口down告警。当上来某条端口down告警时,但活动库中已经存在该端口的其它PORT_DOWN告警,则该端口down告警直接入历史库,删除类型为“等价告警剔重”。1.1.3告警关联机制告警关联机制包括:(1)告警结对清除收到恢复告警后,自动与对应的活动告警结对合并成一条告警,合并后的告警从活动库转入历史库,这种情况下告警删除类型为“自动恢复删除”;(2)告警压缩合并收到告警时,自动与活动库中存在的相同告警事件(告警源和事件相同)进行合并,同时更新告警的发生次数和发生时间;(3)告警合并直接入历史库如果收到的某个

13、告警发生和恢复时间非常接近(1秒左右),入库线程从告警队列里取告警后,发现有这种成对的情况,就不再走活动库而是直接合并入历史库,这种情况下告警删除类型为“成对合并直接入历史库”;(4)告警同源处理目前主要用于端口DOWN告警。端口DOWN告警的来源主要有SYSLOG和端口状态Polling两种,尽管告警类型在不同的厂商定义中不尽相同,但反映的是同一告警事件,系统把这些告警类型归属到同一个告警类型组“PORT_DOWN”,同一个告警类型组下的告警,认为是等价的。为避免由于SYSLOG日志缺失或解析规则不完整造成的端口DOWN告警不准确,系统采用了端口状态Polling作为辅助手段,对端口状态事件

14、进行监控,但与SYSLOG告警进行了关联处理。具体策略:a、PORT_DOWN告警类型组下的所有告警类型,可以互相清除,即对于同一个端口,某个告警类型的恢复告警,可以清除其它PORT_DOWN告警。b、上来某条端口down告警时,但活动库中已经存在该端口的其它PORT_DOWN告警,则该端口down告警直接入历史库,删除类型为“等价告警剔重”c、当活动库中存在某个端口的PORT_DOWN告警,而端口状态Polling检测到该端口的操作状态为up时,则发送端口状态恢复告警,用于清除该端口的所有PORT_DOWN告目前PORTDOWN告警类型组包括的告警类型:告警类型来源说明端口状态端口状态PollingLINK-3-UPDOWNSYSLOGLINEPROTO-5-UPDOWNSYSLO

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论