版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、华为PTN故障处理手册vl.O公司网络维护中心2010年12月目录1、 概述42、 网络故障分析定位方法42.1 告警分析法42.2 性能统计分析法52.3 OAM分析法 72.4 配置数据分析法112.5 仪表测试分析法122.6 环回法132.7 排除法143、 业务中断故障和业务恢复153.1 流程图153.2 查询误操作173.3 检查告警173.4 检查环回和装载183.5 检查业务配置183.6 应急恢复方案183.6.1 倒换193.6.2 复位193.6.3 通过更换单板恢复业务194、 常见故障处理方法204.1 带DCN故障处理204.2 MPLS Tunnel 故障处理2
2、44.3 PW故障处理264.4 CES业务故障处理274.5 以太网业务故障处理314.6 offload 故障处理354.7 时钟故障处理374.8 QoS故障处理394.9 线性MSP故障处理424.10 TPS故障处理454.11 LAG故障处理484.12 MPLS APS 故障处理51五、蒋更换注意事项 554.13 部件分类说明564.14 更换处理板574.15 更换子卡594.16 更换接口板604.17 更换XCS单板 614.18 更换带有1 + 1保护的SCA单板634.19 更换没有1 + 1保护的SCA单板654.20 更换风扇板684.21 更换 PIU 板694
3、.22 更换可插拔光模块704.23 更换CF卡711、 概述PTN网络故障处理在日常维护中显得至关重要,为了更好的开展PTN网络 的日常维护,特编制PTN网络故障处理手册。本手册PTN设备故障处理主要涉及故障分析定位、业务中断故障应急恢复、 常见故障处理方法等三个部分。下面将对这三个部分进行详细说明。2、 网络故障分析定位方法根据现网中处理网元脱管或业务中断等故障的经验,一般遵循“一分析,二 倒换/复位,三换板”的处理方案。保证PTN网络的稳定运行,尽量减少突发事 故。处理故障时,应从分析故障现象开始,尽快定位到故障的原因。本节介绍各 类分析和定位故障的方法、应用场景和应用示例。2.1 告警
4、分析法告警分析法是定位故障的常用方法之一。当设备发生故障时,一般会伴随大 量的告警。通过对告警的分析,可大概判断出发生故障的类型和位置。通过U2000查询告警:只要在U2000主拓扑的网元图标上点击右键,就 可以查询以下告警信息:令当前告警网元侧历史告警网管侧历史告警通过分析、定位告警产生的原因,清除告警,并排除故障。通过U2000获取告警信息时,应注意保证网络中各网元的当前时间与网管 时间同步。倘若网元当前时间与网管时间不同步,将导致信息上报错误。在维护 过程中,对某网元重下配置后,应特别注意将该网元的当前时间与网管时间同步。 否则网元会工作在缺省时间里,而缺省时间并不是当前时间。示例一:简
5、单组网中,一般情况下清除告警的同时,故障也随之排除。如下图所示的链路图中,网管计算机连接到NE2。侬 KX故障现象:NE1和NE2之间的E-Line业务中断,NE2上报ETH.LOS告 警。故障分析定位:排查ETH_LOS告警产生的可能原因,最终定位出业务中断 故障的原因。清除告警后,业务恢复正常,故障排除。示例二:复杂组网中,通过分析新增告警和已清除的历史告警,可以找出排 除故障的关键所在。某复杂环型拓扑组网突发广播风暴,各网元均出现大量FLOWJDVER告警,业务中断。虽然通过断开环路光纤等方法恢复了业务,清 除了 FLOWJDVER告警,但无法定位出故障原因。分析全网告警,发现某个UNI
6、端口在上报FLOWJDVER告警的同时,该端口的历史告警ETHJLOS自动清 除。沿此线索,发现与该UNI端口对接的第三方设备上出现了远端环回,导致 网络上出现环路。解除该环回后,故障彻底排除。2.2 性能统计分析法性能统计分析法通过统计“当前性能”和“RMON性能”来分析和定位故 障。判断单板、端口、Tunneh PW的性能统计数据是否正常,可以判断是否 存在故障。当前性能:下表区分不同的“对象”,列出当前性能统计的判断标准。表当前性能统计表对象判断标准物理单板/端口对于单板,其光功率、工作温度、CPU/存占 用率应在正常围之。对于端口,应没有误码。MPLS TunnelTunnel没有丢包
7、。IP/GRE TunnelTunnel没有丢包。以太网业务OAM没有丢包。 开启网元当前性能统计功能。 网元支持的当前性能的具体含义和解释。RMON性能:下表区分不同的“对象”,列出RMON性能统计的判断标准。表RMON性能统计表对象判断标准物理单板/端口对于主控板,CPU占用率不应过高。 对于端口,发送/接收方向有计数。MPLS Tunnel发送/接收方向有计数。没有丢包。IP/GRE Tunnel发送/接收方向有计数。没有丢包。业务PW PW的发送/接收方向有计数。没有丢包、乱序包、误码等异常统计。令Tunnel是双向的,可以在“对象”中选择正向Tunnel或反向Tunnelo 网元支持
8、的RMON性能的具体含义和解释。示例:两个网元之前配置了两条Tunnel,但仅在一端网元上配置了 APS保护组,导致ATM业务质量很差。在网管上查询该ATM业务的RMON性能, 发现存在乱序包计数,且乱序包计数值约为接收信元计数的50%,由此判断业 务出现双收,并找到问题的原因所在。2.3 OAM分析法OAM机制可以有效地检测、确认并定位出源于MPLS层网络部的缺陷和网 络性能的监控。设备可以利用OAM的检测状态来触发保护倒换,实现快速故障 检测和业务保护。A、OAM仲介OAM主要应用于PTN设备组网的网络侧(NNI侧),该区域具有以下特点: 网元多。一条MPLS LSP往往经过多个网元。 组
9、网复杂。可能需要穿通第三方网络,存在很多导致故障的不确定因素。 规划整改,扩容变化多。B、OAM分类分析定位故障时常用的OAM功能主要是Tunnel OAM和PW OAM两种。对Tunnel和PW执行Ping测试,通过计算OAM报文丢包率,判断Tunnel 和PW的连通性。C、蜘LSPPing测试1)进入“网元管理器”,在功能树中选择“配置> MPLS管理 > 单播 Tunnel 管理”。2)在“OAM参数”选项卡中,使能Tunnel的“OAM状态”,设置“检测报文类型”和“检测报文周期”,单击“应用”。在弹出的“操作结果”对话框中单击“关闭”。3)重复步骤1和步骤2,在Tunne
10、l另一端的网元上,使能OAM功能, 并保证两端网元的参数设置一致。4)右键单击“节点类型”为“Ingress”的Tunnel,在弹出的下拉菜单中 选择“Ping测试”。在弹出的“Ping测试”对话框中设置相应的参数, 单击“启动测试”。5)在“测试结果”区域分析Ping测试结果。如果发送报文数量等于接收 报文数量,且丢包率为0,则该Tunnel的连通性正常。测试结果LSP Ping: Statistics Tunnel ID J 7112Total o£ TX :3Total of M :3Lost Rate(盼:0Win Del纣(us);59726Max DaiyCus):137
11、5437Avg D吟l&y (us)529010D、执行PW Ping测试1)进入“网元管理器”,在功能树中选择“配置 MPLS管理 PW管 理”。2)在“PWOAM参数”选项卡中,使能PW的“OAM状态”,设置“检 测报文类型”和“检测报文周期”,单击“应用”。在弹出的“操作结 果”对话框中单击“关闭”。3)重复步骤1和步骤2,在PW另一端的网元上,使能OAM功能,并保证两端网元的参数设置一致。4)右键单击PW,在弹出的下拉菜单中选择“Ping测试”,在弹出的"Ping 测试”对话框中设置相应的参数,单击“启动测试”。5)在“测试结果”区域分析PW Ping测试结果。如果发
12、送报文数量等于接 收报文数量,且丢包率为0,则该PW的连通性正常。测试结果Fff Ting Statistics TW ID :250015T?tal TX "3"Total of RX :3Lost Rate 俄I :0Min Belay (us):10396Na Belay (us):192184Avg DeLay (us):100145E、OAM应用业务中断或业务出现丢包、误码时,可按照所示的流程运用OAM功能,定 位故障。F、OAM分析业务故障流程图处理业务告警和业务收发设备故障执行Tunnel Ping测试处理PW相关告警和第三方设备对接问题图OAM分析业务故障流
13、程图G、OAM定位故障通过在Tunnel的两端网元上使能OAM并查看LSP状态,可以轻易定位到 存在故障的网元。1)进入“网元管理器”,在功能树中选择“配置> MPLS管理 > 单播 Tunnel 管理”。2)在“OAM参数”选项卡中,为Tunnel设置合适的“检测报文类型”和“检测报文周期”,使能“OAM状态”,单击“应用”。在弹出的“操作结果”对话框中单击“关闭”。3)选中一条或多条Tunnel,右键点击,在弹出的下拉菜单中选择“查询LSP状态”。4)查看“LSP状态”,正常情况如下表所示。Tunnel节点类型LSP状态Ingress远端可用状态Egress近端可用状态若出现其
14、它状态时,根据“LSP缺陷位置”可定位到出现故障的网元。LSP状态八LSP缺陷类型/LSP禁用,LSP缺陷位位/近端缺陷小可用状态dLOCV65535046.1.0.10远端可用状态-5)根据相应的“LSP缺陷类型”,选择清除告警,检查光纤连接或确认端口、Tunnel.业务的配置参数等方法,排除故障。2.4 配置数据分析法配置数据分析法通过在网管上分析业务的参数配置,找到配置错误的参数,从而定位故障。当Tunnel或业务创建后不通,或在网管上修改部分参数后业务突然中断时,可以使用配置数据分析法来定位故障。一般情况下,对照网元规划表即可找出网元上配置错误的参数。当PTN设 备与第三方设备对接时,
15、由于两端的某些参数默认取值不一致,要特别注意两端 参数的匹配问题。采用配置数据分析法时,一般可遵循以下步骤。1 .检查网元的网元ID、网元IP、LSR ID等参数是否配置正确。2 .对照网元规划表,检查端口状态和参数配置。端口参数配置错误是现网 中导致故障最常见的原因之一。对于以太网端口,确认端口是否已使能。检查“端口模式”、“封装类型”、 “工作模式”、“TAG标识”、“缺省VLAN ID"、“Tunnel使能状态”、“IP地址” 等参数是否配置正确。 对于SDH端口,检查“端口模式”、“封装类型”、“通道化”、“端口类型”、“Tunnel 使能状态”、“时钟模式”等参数是否配置正
16、确。 对于PDH端口,检查“端口模式”、“封装类型”、“帧格式”、“阻抗”、“帧模 式”等参数是否配置正确C对于IMA组,检查“协议版本”、“最小激活链路数”、“协议使能状态”、 “时钟模式”、“E1帧模式”、“E1时隙数”、"ATM信元载荷加扰”、“VPI”、“VCI” 等相关参数是否配置正确。对于第三方设备的端口,需要确认以太网端口工作模式、VC12线序模 式或时钟模式是否与PTN设备匹配。3 .检查Tunnel两端网元上的参数配置是否匹配,是否选择了正确的端口。4 .检查以下PW参数配置。> PW ID是否正确。> PW是否已使能。> PW的出入标签是否一致。
17、> PW是否选择了正确的端口或Tunnel。> 对于CES业务,确认”报文装载时间”和“抖动缓冲时间”是否配置 正确。2.5 仪表测试分析法仪表测试分析法一般用于定位设备的外部问题及其它设备的对接问题。定位 故障的常用仪表主要有以下几种:A.万用表:根据不同需要可以将万用表调制电压档或电阻档,对怀疑的故 障点进行电压或电阻测试。如设备接地电压、电源电压等。B.误码仪:用于测试传输通道中存在的误码情况,如误码数、误码率、误 码秒等。一般是将需要测试的通道进行环回,通过误码仪发送伪随机码,并在误 码仪上查看所测试到的通道误码情况。C.光功率计:用于测试单板的接收和发送光功率。D.电缆测
18、试仪:用于测试电缆的端子对在最大额定电流下的电压降,从而 可推断电缆的连通情况和传输质量。E.网络分析仪:用于网络性能的测试和分析,测试容较丰富。如最大线速、数据流量、帧长、吞吐量、丢包率及网络延时等。示例:以网络分析仪定位故障为例说明仪表测试法的思路。某网络的业务中断,需要对设备故障进行逐一排查。按下图所示,将网络分析仪与设备正确连接, 同时在NE上进行环回,对NE进行丢包率的测试。网络分折仪,内环13NE图网络分析仪和设备的连接对网络分析仪进行正确的设置,向NE发送数据包。根据网络分析仪上显示 的丢包率结果,可判定是否由于NE的丢包过多导致业务中断。如果数据正常, 可确定NE工作正常。可再
19、对其它网元进行测试。2.6 环回法环回法是定位故障时常用而且行之有效的一种方法,可以将故障尽可能准确 地定位到单站。设备维护人员应熟练掌握。环回操作分为软件环回和硬件环回, 这两种方式各有所长:A.软件环回即在U2000上配置环回,操作方便,但定位故障的围和位置 不够准确。比如在单站测试时,配置光口为环回,即使业务测试正常,也不能确 定该单板的接口模块没有问题。B.硬件环回即使用光纤或者电缆环回端口,相对于软件环回而言环回更为彻底。若通过尾纤将光口自环后,业务测试正常,则可确定该单板是好的。但硬件环回需要到设备现场才能进行操作。另外,光接口在硬件环回时要避免接收光功率过载。环回操作会中断端口上
20、其它正常运行的业务,在使用前请务必做好确认。2.7 排除法在处理业务故障时,可以首先检查与其它业务的共用路由部分是否存在故障。排除运行正常的部分,以缩小故障定位的围。示例:以下面的示例说明排除法的思路。如下图所示。NE01与NE02之间的Tunnel创建失败,但NE03与NE02之间可以正常创建Tunnel,因此可以 判断故障发生在DSLAM或与及对接的链路上。图组网图三、业务中断故障和业务恢复下面介绍业务中断故障的应急处理流程。3.1流程图下面首先通过下图对OptiX PTN 3900设备的应急处理流程进行说明。了解故障原因之前不要轻易尝试操作,不正确的操作会导致问题扩大。说明:在处理故障前
21、,要进行业务调离。就是通过网管配置,将故障路由 的业务倒换到可用路由中。图应急处理流程图3.2查询误操作查询故障发生前是否有误操作,如添加或删除业务、更改配置等。如果存在 误操作,要根据故障发生前的操作情况进行逆向操作恢复业务。3.3 检查告警发生业务中断时,需要检查设备是否存在如下表所示的告警。如果存在,应 先排除告警指示的故障。表告警说明告警类型告警名称告警说明设备类告警POWER_ABNORMAL电源失效FAN_FAIL风扇故障会导致设笛温度增高,影响正常运行BD_STATUS单板不在位HARD_BAD单板硬件错误报告SYN_BAD时钟同步源劣化NESTATEJNSTALL网元处于安装态
22、信号丢失告警ETH_LOS以太网口连接丢失告警类型告警名称告警说明低阶业务失效告警TU_AIS_VC12VC 12级别的TU告警指示TU_LOP_VC12VC 12级别的TU指针丢失线路告瞥R_LOS接收线路侧信号丢失R_LOF接收线路侧帧丢失R_LOC接受线路侧无时钟R_OOF接收线路侧帧失步其他高低阶告警HP_TIM高阶通道追踪识别符失配HP_SLM高阶通道信号标记失配HP_UNEQ高阶通道未装载LP_UNEQ_VC12VC12级别低阶通道信号未装载说明:上表所列告警是可能引起业务中断,需要优先处理的重要告警。3.4 检查环回和装栽检查业务路由上是否设置了环回或通道未装载。3.5 检查业务
23、配置按照业务路由,逐段检查业务配置正确性。3.6 应急恢复方案如果无法快速找到故障原因,进而排除故障,一定要先将业务倒换到正常的 路径上,或者复位相关的网元或单板,以恢复已中断的业务或已脱管的网元。如 果故障定位为某个单板有问题,则更换相应单板来解除故障。3.6.1 倒换倒换可分为单板级倒换和业务级倒换。OptiX PTN 3900支持的单板级倒换类型有:单板1 + 1保护倒换和TPS 保护倒换。当保护板在位且工作正常时,可以执行保护倒换,尝试恢复业务。若设备没 有保护板,可以使用备件创建临时的保护组,再执行保护倒换。OptiX PTN 3900支持的业务级倒换类型有:APS保护倒换 线性复用
24、段(LMSP)保护倒换如果由于保护倒换失败导致业务中断,可以删除已失效的保护组,另行创建 可正常运行的新保护组,并将业务倒换到新的路径上。3.6.2 复位复位可分为网元级复位和单板级复位。当网元被攻击,并出现以下故障时, 可考虑复位网元:DCN风暴/DCN通信中断/网元脱管CPU占用率达到 100%0单板复位又分为软复位和硬复位。单板复位后可以恢复正确的程序和数据。 若单板配置了 1 + 1保护组,硬复位会触发保护倒换。在正常情况下,单板的软复位不影响正在运行的业务。硬复位会影响正在运 行的业务,请慎重使用。3.6.3 通过更换单板恢复业务如果一时无法定位到故障原因,又没有备用路由用于业务倒换
25、,而且复位单 板无效时,需要考虑更换单板。事实上,很多故障的最终处理方案就是更换单板。在复杂的组网环境中,尤其当PTN设备与第三方设备对接时,一些故障很 难通过常用的分析方法定位出原因。为了尽快恢复业务,可以采用替换法,用工 作正常的部件去更换被怀疑故障的部件。替换法不仅仅适用于单板,也适用于光 纤、电缆和供电设备等,但要求备件必须是完好的。替换时需要注意的操作的规 性,防止部件损坏或有其它问题发生。采用替换法定位故障时,应注意以下情况:确认不会影响被替换部件上承载的正常业务。令替换部件可能会导致产生故障的原始数据丢失。为避免对故障的分析造 成影响,建议在用替换法定位故障前就采集可能的故障数据
26、。示例:以单板故障的示例说明用替换法定位故障的思路。如下图所示,如果 怀疑NE1和NE2之间的E-Line业务中断是由于单板故障导致,可用正常的备 件替换怀疑故障的单板进行工作。如果业务恢复,说明是由于单板故障引起业务 中断。NE1NE2NMS图链形组网图四、常见故障处理方法下面介绍设备支持的各业务或特性出现故障时的现象、对系统的影响、可能 原因,排除该故障时需要的工具、注意事项以及处理步躲等。4.1 带DCN故障处理本节介绍带DCN出现故障时的现象、对系统的影响、可能原因、排除该故 障时需要的工具、注意事项以及处理步骤等。A、前提条件:查看工程文档,确认网元各个单板均使用配套版本。B、故障现
27、象:处理带DCN的故障时,通常会遇到以下故障现象。网管与网元通信中断,网管上网元图标变灰色,网元脱管。网管操作命令没有响应。若响应中断时间持续超过2分钟,网管与网元 通信中断。网管查询信息部分丢失。C、故障处理流程图:带DCN故障处理流程图如下图所示。网管与网元通蓿中断才看用元囱标2否变灰色百&舌足话&&物横是专的库否是安新连卷 网线或光纤按原网元域划.正确夕冠忖无衫颜话除第二方 网络中的环回使能DCN端口,翦保_ 对楼的屋苑一饺 一收有号是否当实DCN 端口是舌未位施阿元IDZIP t子网椎碎是否收复第三方肉络生舌隹臻物理连接但否中断更帙单减处星光功率、纤畋唐关吉辔否
28、主控板坡位中DC N瓶迫带克 配通过低网旨却作珞是舌没有晌睨网百五切俏名是舌丢失 格大DCN通道器宽配直等钟主拄板充成短位吠升华为他木支悌H移师兄纺束图带DCN故障处理流程图D、对系统的影响网元和网管通信中断后,通过该网元来保持与网管通信的网元,若无其 它方法连接网管,也将处于脱管状态。其它网元则无影响。令 若承载带DCN的物理通道故障,则会影响该物理通道上承载的其它业 务。E、可能原因:对应故障处理流程图,带DCN故障原因如下 全网的网元ID、网元IP或者子网掩码存在冲突。令 故障网元的带DCN端口未使能,或对接端口参数配置不一致。 故障网元与网管之间的物理连接中断。 接收信号丢失或接收光功
29、率过低,无法提取DCN报文。 单板故障。 DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断。 带DCN通道带宽配置过低。 故障网元主控板正在复位或发生了主备倒换,带DCN报文得不到响应。a)处理带DCN故障时 如果网元通信中断,先处理网关网元的故障,再处理非网关网元的故障。 如果网元通信未中断,先处理非网关网元的故障,再处理网关网元的故 障,避免造成非网关网元脱管。b)当网元脱管时,可以使用其它工具尝试登录故障网元 如果可以正常登录,说明设备的通信正常,问题可能由网管引入,联系 负责网管维护的工程师处理。 如果不能登录,可以采用PC机直连设备的ETH端口。如果可以通信, 说明是线路问题
30、,否则是设备问题。H、操作步骤 全网的网元ID、网元IP或者子网掩码存在冲突/ 此原因一般由全网中新添加的网元引入。对照网元规划表,检查新网元 的网元ID、网元IP、子网掩码的配置是否正确。/若配置错误,或与现有网元存在冲突,请正确配置新网元的参数。故障网元的带DCN端口未使能,或对接端口参数配置不一致/检查是否存在光纤或电缆连接到默认使能DCN的端口。如果没有,换 用默认使能DCN的端口。/检查链路两端的端口是否已使能DNC。如果没有,使能端口的带DCN。/检查两端端口的参数配置是否一致,例如以太网端口的工作模式。如果 不一致,修改参数配置使两端一致。故障网元与网管之间的物理连接中断/检查故
31、障网元的网线或光纤是否从端口中脱落。如果是,重新插上网线 或光纤。接收信号丢失或接收光功率过低,无法提取DCN报文/检查网元的历史告警中是否存在R_LOS、ETH_LOS或IN_PWR_ABN 等告警。单板故障/查询单板的历史告警中是否存在HARD_BAD或TEMP.OVER告警。/若存在,更换上报告警的单板。令DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断/若带DCN通信穿越了第三方网络,需要检查第三方网络中是否存在端 口环回、物理通道中断等故障。/如果存在,需要立即排除第三方网络中的故障。带DCN通道带宽配置过低/当端口配置的业务数量超过某一数目时,可能造成部分查询信息丢失, 此
32、时需要适当增大带DCN通道的带宽配置。故障网元主控板正在复位或发生了主备倒换,带DCN报文得不到响应/观察主控板的PROG指示灯是否处于绿灯闪烁状态,若是,则主控板正 处于复位状态。等PROG指示灯常亮绿色时,主控板完成复位,DCN将自动恢 复连接。若主控板发生了主备倒换,“当前板”将自动软复位。/若DCN未恢复响应,检查其它单板是否发生保护倒换,造成带DCN报 文处于重路由状态。/若存在单板发生保护倒换,等待DCN完成重路由后,将自动恢复响应。4.2 MPLS Tunnel 故障处理本节介绍MPLS Tunnel创建失败或中断等故障时的现象、对系统的影响、 可能原因,排除该故障时需要的工具、
33、注意事项以及处理步骤等。A.故障现象:处理MPLS Tunnel的故障时,通常会遇到以下故障现象 MPLS Tunnel创建失败,业务不通。令 MPLS Tunnel故障,业务中断。 保护倒换失败,业务中断或出现丢包、误码。B.对系统的影响若MPLS Tunnel故障,则会影响网络中由该Tunnel承载的业务,但 由其他Tunnel承载的业务正常。C.可能原因:MPLS Tunnel故障原因如下 路由失败。 交叉创建失败。 Tunnel所在的物理链路故障。 保护倒换失败。令路由失败/对照网络规划,检查Tunnel两端端口参数配置是否正确,例如端口 IP。 修正不正确的端口参数后,再次创建Tun
34、nel。/检查Tunnel首末节点所在的网元间是否存在完整可达的链路。若不存 在,修复链路中残缺或故障的部分。/可选:如果Tunnel配置了带宽,检查链路带宽是否满足Tunnel的要 求。交叉创建失败/检查网络中是否存在不同的网元使用相同的网段。如果存在,需要修改 端口 IP地址。/检查Tunnel是否配置了不兼容的保护特性。/查看Tunnel所经过的网元或单板,确认已创建Tunnel个数是否已经 达到了最大值。如果是,需要重新规划或删除冗余的Tunnel。 Tunnel所在的物理链路故障/ 查询系统中是否存在HARD_BAD、R_LOS、ETH_LOS、 PPP_LCP_FAIL或MP-DO
35、WN等告警,指示Tunnel使用的物理链路故障。 若存在,优先处理这些告警。/查看并处理系统中存在的下列告警。MPLS_TUNNEL_BDIMPLS_TUNNEL_ExcessMPLS_TUNNEL_FDIMPLS_TUNNEL_LOCVMPLS_TUNNEL_MISMATCHMPLS_TUNNEL_MISMERGEMPLS_TUNNEL_SDMPLS.TUNNEL_.SFMPLS_TUNNEL_UNKNOWN/检查对端设备是否存在单板故障或网元复位等异常状况。排除对端设备 的异常情况。4.3 PW故障处理本节介绍PW创建失败或中断等故障时的现象、对系统的影响、可能原因, 排除该故障时需要的工
36、具、注意事项以及处理步骤等。A.故障现象:处理PW故障时,通常会遇到以下故障现象 PW创建失败,业务不通。令PW故障,业务中断或出现丢包、误码。B.对系统的影响:若PW出现故障,则会影响承栽在该PW上的业务,但其 他PW承栽的业务正常C.可能原因:PW故障原因如下 LDP会话创建失败,PW创建不成功。令物理链路故障,LDP会话失效。 PW交叉建立失败。 PW所在的Tunnel故障。 PW APS保护倒换失败。 LDP会话创建失败,PW创建不成功,/检查PW两端网元是否配置了 LDP对等体。若未配置,需要重新配置 LDP对等体。/检查PW两端参数是否配置正确。举例如下: “控制字使用策略”,是否
37、一端配置为“必须使用”,另一端配置为“不使用 对Ethemet业务,两端的“MTU”是否配置一致。对CES业务,两端的“RTP头”、“报文装载时间”等参数是否配置一致。令物理链路故障,LDP会话失效/检查PW首末节点间物理链路是否正常,系统中是否存在HARD_BAD LASER_MOD_ERR、R_LOS 或 ETH_LOS 等告警。/ 若存在,优先处理 HARD_BAD、LASER_MOD_ERR、R_LOS 或 ETH.LOS 告警。/ 查询并处理系统中存在的PW_DOWN、PW_DROPPKT_EXC或 PW_EXC_TRAFFIC 告警。/查看并处理系统中存在的下列告警。MPLS_PW
38、_BDIMPLS_PW_ExcessMPLS_PW_LOCVMPLS_PW_MISMATCHMPLS_PW_MISMERGEMPLS_PW_SDMPLS_PW_SFMPLS_PW_UNKNOWND.操作步骤/检查对端设备是否存在单板故障或网元复位等异常状况。排除对端设备 的异常情况。令PW交叉建立失败:查看PW所经过的网元或单板,确认已创建PW个数是否已经达到了最大值。如果是,需要重新规划或删除冗余的PW PW所在的Tunnel故障:Tunnel故障 PW APS保护倒换失败:查看并处理系统中存在的下列告警PWAPS_LOSTPWAPS_PATH_MISMATCHPWAPS_SWITCH_FA
39、ILPWAPS_TYPE_MISMATCH4.4 CES业务故障处理本节介绍CES业务出现中断或误码等故障时的现象、对系统的影响、可能 原因,排除该故障时需要的工具、注意事项以及处理步骤等。A.故障现象:处理CES业务的故障时,通常会遇到以下故障现象,如下表所示。消除设备上报的告警后,故障也随之排除表CES业务常见故障现象一览表现象上报告警CES业务中断HARD_BAD、TEMP_OVER、COMMUN_FAIL 或 BUS.ERRSCA、XCS 或 MP1现象上报告警wT_ALOS、UP_E1AIS 或DN_E1AISD75或D12R_LOS、LASER_MOD_ERR>LSR_WIL
40、L_DIE、IN_PWR_ABN、TEMJHA 或LSR_BCM_ALMCD1MPLS_TUNNEL_LOCVEG16,EG8 或 EX2PW.DOWNEG16,EG8, EX2 或MP1CES业务 出现误码,通信 质量下降HARD_BAD、TEMP_OVER 或 BUS_ERRSCA、XCS 或 MP1SYNC_C_LOS 或 LTIXCSLASER_MOD_ERR、CD1现象上报告警WLSR_WILL_DIE>IN_PWR_ABN、TEMJHA 或LSR_BCM_ALMCES_LOSPKT_EXCCES_MISORDERPKT_EXCCES_STRAYPKT_EXC、CES_JTRU
41、DR_EXC 或CES_JTROVR_EXCMD1、MQ1 或 CD1B.故障处理流程图:CES业务故障处理流程图如下图所示。开始否联乐华为核术文性匚程师图CES业务故障处理流程图C.对系统的影响:网络中CES业务中断或出现误码,通信会中断或质量下 降。若故障由于SCA或XCS单板造成,则可能影响设备接入的其它业 务。D. CES业务故障原因如下单板硬件故障、温度过高或板间通信故障,无常工作。令 处理板、接口板的接口接入的信号丢失或恶化。令 承载CES业务的Tunnel或PW中断。网元的同步时钟源级别丢失,或同步时钟源丢失。承载CES业务的PW在单位时间丢包数、错包数或抖动缓冲超过阈值。E.注
42、意*项:严禁眼睛靠近或直视光接口或光纤接头。光接口及光纤部的激 光束会伤害眼睛。F.操作步骤单板硬件故障、温度过高或板间通信故障,无常工作/查询系统当前告警,是否有HARD_BAD、TEMPJDVER、 COMMUN_FAIL或BUS_ERR告警,并确定上报告警的单板。/ 处理 HARD_BAD、TEMPJDVER、COMMUN_FAIL 或 BUS.ERR 告 警,排除故障。令 处理板、接口板的接口接入的信号丢失或恶化/ 查询系统是否有T_ALOS、UP.E1AIS或DN.E1AIS告警。/查询系统是否有R_LOS告警。/ 查询系统是否有 LASER_MOD_ERR、LSR_WILL_DIE
43、、IN_PWR_ABN、TEM_HA 或 LSR_BCM_ALM 告警。令 承载CES业务的Tunnel或PW中断/ 查询系统是否存在MPLS_TUNNEL_LOCV告警。/查询系统是否存在PW_DOWN告警。网元的同步时钟源级别丢失,或同步时钟源丢失/查询系统是否有SYNC_C_LOS或LTI告警。承载CES业务的PW在单位时间丢包数、错包数或抖动缓冲超过阈值/ 查询系统是否有 CES_LOSPKT_EXC CES_MISORDERPKT_EXC 或 CES_STRAYPKT_EXC 告警。/ 查询系统是否有CES_JTRUDR_EXC或CES_JTROVR_EXC告警。4.5以太网业务故障
44、处理介绍以太网业务出现中断或丢包故障时的现象、对系统的影响、可能原因, 排除该故障时需要的工具、注意事项以及处理步骤等。A.故障现象:处理以太网业务的故障时,通常会遇到以下故障现象,如下表 所示。消除设笛上报的告警后,故障也随之排除。表以太网业务常见故障现象一览表现象上报告警以太网业务中断HARD.BAD、TEMP.OVER、COMMUN.FAIL 或BUS_ERRSCA、XCS、EG 16、EG8 或 EX2ETH.LOS、ETH_AUTO.LINK.DOWNEG16、EX2、EG8、EFG4、ETFC、EFG2 或 EFF8现象上报告警w或 MAC_FCS_EXCR.LOSPOD41ETH
45、_LINK_DOWNEG16、EG8> EFG4、EX2、EFG2 或 EFF8LOOP.ALMEG16、EG8、EFG4、EX2、ETFC、EFG2、EFF8 或 POD41ETH.EFM.LOOPBACKEG16、EG8、EFG4、EX2>ETFC、EFG2 或 EFF8LASER.SHUT或LSR_WILL_DIEEG16、EG8> EFG4、EX2、EFG2、EFF8 或 POD41以太网业务出现丢包或错包HARD_BAD、TEMP.OVER或 BUS_ERRSCA、XCS> EG 16、EG8 或 EX2LSR_WILL_DIEEG16、EG8> EFG
46、4、EX2、EFG2、EFF8 或 POD41MAC_FCS_EXC或FLOW.OVEREG16、EG8、EFG4、EX2>ETFC、EFG2 或 EFF8ETH_CFM_UNEXPERIEG 16、EG8 或 EX2B.故障处理流程图以太网业务故障处理流程图如下图所示。以太网业务故障处理流程图图C.对系统的影响:网络中以太网业务中断、出现丢包或错包,若故障由于SCA或XCS单板造成,则可能影响设备接入的其它业务。D.以太网业务故障原因如下今 单板硬件故障、温度过高或板间通信故障,无常工作。令接收信号丢失。原因3:以太网网口连接错误,端口协商失败。原因4:端口配置了环回。接口流量限值配置
47、过低,源宿两端接口配置不一致。E.工具、仪表和材料:U2000、光功率计F.注意*项:严禁眼睛靠近或直视光接口或光纤接头。光接口及光纤部的激 光束会伤害眼睛。G.操作步骤令单板硬件故障、温度过高或板间通信故障,无常工作。/查询系统当前告警,是否有HARD_BAD、TEMPJDVER、 COMMUN_FAIL或BUS_ERR告警,并确定上报告警的单板。接收信号丢失/ 查询系统是否有ETH_LOS或ETH_AUTO_LINK_DOWN告警。/查询系统是否有R_LOS告警。/ 查询系统是否有LASER.SHUT或LSR_WILL_DIE告警。/查询系统是否有MAC_FCS_EXC告警。以太网网口连接
48、错误,端口协商失败查询系统是否有ETH_LINK_DOWN告警。端口配置了环回/查询系统是否有LOOP_ALM告警。/ 查询系统是否有ETH_EFM_LOOPBACK告警。令 接口流量限值配置过低,源宿两端接口配置不一致/查询系统是否有FLOWJDVER告警。/ 查询系统是否有ETH_CFM_UNEXPERI告警。4.6 时钟故障处理本节介绍时钟源丢失、时钟信号劣化等故障时的现象、对系统的影响、可能 原因,排除该故障时需要的工具、注意事项以及处理步骤等。A.故障现象处理时钟故障时,通常会遇到以下故障现象,如下表所示。消除设备上报的 告警后,故障也随之排除。表时钟常见故障现象一览表现象上报告警w
49、业务出现误码SYNC_C_LOS、LTLS1_SYN_CHANGE、SYN_BAD、EXT_SYNC_LOS、CLK_NO_TRACE_MODE 或EXTTIME.LOCxcs查询系统是否有LTI告警。B.对系统的影响网络中时钟源丢失或时钟源质量下降时,会影响跟踪该时钟源的业务的质 量,产生指针调整和误码率增高。C.造成时钟故障的原因如下 优先级表中业务板上的同步时钟源级别丢失。令 同步时钟源丢失,网元的时钟处于不正常状态。 在SSM模式下时钟源发生倒换,网元跟踪的时钟源也发生了倒换。 同步时钟源的信号劣化。 外部时钟源丢失。 时钟进入非跟踪工作模式。 外部时间源丢失。D.注意本项:如果没有工
50、作正常的备交叉板进行保护,硬复位交叉时钟板可 能会引起业务完全中断。E.操作步骤 优先级表中业务板上的同步时钟源级别丢失/查询系统是否有SYNC_C_LOS告警。令同步时钟源丢失,网元的时钟处于不正常状态 在SSM模式下时钟源发生倒换,网元跟踪的时钟源也发生了倒换/查询系统是否有S1_SYN_CHANGE告警。令同步时钟源的信号劣化/查询系统是否有SYN_BAD告警c 外部时钟源丢失/查询系统是否有EXT_SYNC_LOS告警。 时钟进入非跟踪工作模式/查询系统是否有CLK_NO_TRACE_MODE告警。 外部时间源丢失/查询系统是否有EXT_TIME_LOC告警。4.7 QoS故障处理本节
51、介绍QoS出现故障时的现象、对系统的影响、可能原因、排除该故障 时需要的工具、注意事项以及处理步骤等。A.前提条件:配置了 QoS策略的业务连接正常。B.故障现象 业务已经配置了带宽,但实际业务流量超出限制,造成业务流量偏高, 导致拥塞。 不同业务之间互相抢占带宽,被抢占带宽的业务丢包或误码。 业务优先级较低,但抢占了优先级较高的业务的带宽,造成高优先级的 业务丢包或误码。 业务处理单板上报BUS_ERR告警,单板的业务处理能力受限。QoS故障时,系统一般会上报以下告警,如下表所示。清除设备上报的告警, 故障也随之排除。表QoS常见故障现象一览表现象上报告警w单板业务处理能力受限BUS_ERR
52、EG16, EX2, EG8 或 MP1业务流量偏高,出现拥塞FLOW.OVEREG16,EX2,EG8,EFG4,ETFC, EFG2 或 EFF8PW_EXC.TRAFFICEG16, EG8 或 EX2业务带宽被抢占,出现丢包或误码PW_DROPPKT_EXCEG16, EG8 或 EX2CES_LOSPKT_EXCMQ1, MD1 或 CD1CES_JTROVR_EXCCES_JTRUDR_EXC现象上报告警c.故障处理流程图QoS故障处理流程图如下图所示。图QoS故障处理流程图D.对系统的影响若单板的业务处理能力受限,部分业务可能得不到处理,会出现丢包或 误码。业务流量偏高时,端口可
53、能拥塞,若其它业务带宽被抢占,可能会丢包 或误码。E.QoS故障原因如下业务处理单板存在BUS_ERR告警,单板业务处理能力受限。网元未配置QoS策略。配置业务时选择了错误的QoS策略。 Tunnel或PW的配置带宽过低。令单板故障,配置数据未下达到单板。F.操作步骤令 业务处理单板存在BUS_ERR告警,单板业务处理能力受限/检查系统是否存在BUS_ERR告警。网元未配置QoS策略/检查网元是否配置了相关QoS策略,包括WRED策略,WFQ调度策 略,端口策略,V-UNI Ingress 策略,V-UNI Egress 策略,PW 策略,QinQ 策略或ATM策略等。若没有,重新配置遗漏的Q
54、oS策略。配置业务时选择了错误的QoS策略/检查业务当前配置的QoS策略是否适用。若不适用,重新配置新的策略。令Tunnel或PW的配置带宽过低/检查Tunnel或PW当前配置带宽是否满足业务流量需求。若带宽配置 过低,需要重新配置带宽。单板故障,配置数据未下达到单板/检查系统是否存在HARD_BAD等硬件类告警。/检查系统是否存在LSR_WILL_DIE等激光器相关告警。4.8线性MSP故障处理本节介绍线性MSP出现倒换失败、业务中断等故障时的现象、对系统的影 响、可能原因,排除该故障时需要的工具、注意事项以及处理步躲等。A.故障现象处理线性MSP的故障时,通常会遇到以下故障现象,如下表所示。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度平菇香菇线上线下销售渠道拓展合同
- 2025年度二手房买卖合同交易手续办理指南
- 2025年度文化创意产业项目合作开发合同4篇
- 2025年度宁夏粮食和物资储备局粮食储备库安全管理合同4篇
- 二零二五年度高品质木箱纸箱租赁经营合同3篇
- 二零二五年停薪留职员工绩效管理合同
- 二零二五年度床上用品电商平台合作推广合同2篇
- 江苏省村卫生室人员合理用药培训
- 二零二五年度民政局认证离婚协议书范本
- 二零二五年度林地使用权租赁合同范例3篇
- 《中国高考评价体系》解读(化学学科)
- 公司发展能力提升方案
- 电梯安全守则及乘客须知
- IT硬件系统集成项目质量管理方案
- 《容幼颖悟》2020年江苏泰州中考文言文阅读真题(含答案与翻译)
- 水上水下作业应急预案
- API520-安全阀计算PART1(中文版)
- 2023年广东省广州地铁城际铁路岗位招聘笔试参考题库附带答案详解
- 商务提成办法
- 直流电机电枢绕组简介
- GB/T 19889.5-2006声学建筑和建筑构件隔声测量第5部分:外墙构件和外墙空气声隔声的现场测量
评论
0/150
提交评论