华为MSTP以太网故障处理指导书_第1页
华为MSTP以太网故障处理指导书_第2页
华为MSTP以太网故障处理指导书_第3页
华为MSTP以太网故障处理指导书_第4页
华为MSTP以太网故障处理指导书_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、华为MSTP以太网故障处理指导书华 为 技 术 有 限 公 司目 录1说明32故障处理总流程32.1流程图32.2流程说明53MSTP故障处理思路及方法53.1MSTP故障处理思路与方法53.2MSTP故障类似及原因63.3MSTP故障处理方法7对于以太链路完全中断的问题定位7对于以太链路持续存在丢包的问题定位94附件104.1各种业务开通时需要注意的事项104.2以太网性能门限的设置建议114.3告警列表121 说明l 目的本指导书是针对华为MSTP系统出现故障时的处理措施,其目的是指导维护人员尽快恢复设备的正常运行。l 使用对象OptiX系列SDH光传输设备MSTP系统维护人员。l 适用场

2、合设备出现故障时,指导设备维护人员快速进行故障定位与排除。2 故障处理总流程因掉电、断纤等外部原因,或操作不当以及设备软、硬件故障引起的SDH系统业务中断,维护人员可参照此流程快速定位故障,或及时寻求帮助,直到业务恢复。注意事项:按照此流程处理业务中断或其它紧急问题时,需要注意以下几点:1)以尽快恢复业务为原则。2)应先分析故障现象,定位原因后再进行处理。在原因不明的情况下应避免盲目操作, 导致问题扩大化。3)处理过程中遇到困难,及时联系华为公司以获取技术支持,并配合华为公司处理故障,最大程度减少业务中断时间。4)处理过程中一定要作好故障记录,保存好故障的原始数据。2.1 流程图开始外部原因?

3、SDH故障?分析故障原因进行故障定位记录故障现象故障排除?向华为公司反馈问题共同制定解决方案运行观察业务恢复?尝试解决故障排除?填写问题处理报告结束其他处理流程是SDH故障处理流程处理问题否是否MSTP故障处理思路与方法是否是否是否图1. 故障处理总流程2.2 流程说明(1) 进行故障记录时,力求做到对故障发生的全过程进行真实、详细的记录。对于像故障发生的时间,在故障出现前后曾经做过哪些操作等重要信息都要进行详实地记录,同时对于网管中的告警信息,性能事件等重要数据也要进行保存。(2) 外部原因造成的故障,如电源问题、光缆问题、机房环境(温度等)、终端设备(交换机等)等,应及时进入其它相应处理流

4、程。(3) 通过查询相关的告警和性能判断是否是SDH层面造成的故障,如果是SDH层面产生的故障,转SDH故障处理指导书进行处理。华为EFGS系列单板还提供测试帧功能,能够非常方便的确认SDH侧VCTRUNK的LINK状态是否正常,操作简单实用。(4) 如果是由于以太网层面故障,参照MSTP处理思路及方法进行处理。在解决问题时,对设备的操作应该严格按照操作规范进行,如必须佩戴防静电手带等。(5) 遇到困难无法排除故障时,拨打华为公司24小时问题受理电话:800-830-2118,以获取技术支持,并配合华为公司工程师处理故障。(6) 在业务恢复后,对运行情况进行观察,确认故障已经排除。(7) 在故

5、障处理完后,应及时填写相关的处理报告。3 MSTP故障处理思路及方法对OptiX 系列SDH光传输设备MSTP系统来说,除了遵照故障处理流程外,还应尽可能采取其它的应急措施(如提供备用电路),减少业务中断时长。3.1 MSTP故障处理思路与方法与SDH故障定位思路一样,以太网故障定位也遵循“先外部、再内部;先软件、再硬件;先单板、再系统”的原则,充分利用性能事件、环回、测试帧等技术手段,结合工具软件、测试仪表进行有计划有步骤的定位。首先需要对于事故做一下初步的定位,首先排除SDH层面的问题:通过查询相关的告警和性能,EFGS系列单板提供GFP测试帧验证VCTRUNK端口之间互通性;确认SDH层

6、面没问题后,转入以太网层面的定位。环回当然是我们的法宝。与数据维护人员配合也是很重要的,一般多用PING和测试帧+环回手段来定位故障点。比如通过MSTP设备数据单板网口PING对端路由器或者交换机的IP地址,能够PING通基本证明我们这边正常,建议采用如下的格式PING包:ping xxx.xxx.xxx.xxx l 1000 tl 1000代表是1000字节的包长,-t代表是持续ping包。可以变换多种包长,同时多开几个ping窗口试试。当然ping包正常也不能完全排除metro设备的问题,因为在端口工作模式不正确的时候,小流量的ping也是可以ping通的。它更多意义上是证明我们以太网链路

7、的配置没问题,SDH层面也是没有问题的。我们的首先需要检查、确认SDH层的配置和通道没有问题,才能集中精力来排查以太网数据层面的问题。如业务配置是基于VLAN报文的业务或基于MPLS报文的业务,最好的手段就是通过数据分析仪来辅助定位问题,在不具备测试仪表的情况下,可通过“模拟发包”类的软件,利用计算机网卡仿真设备发送业务报文,协助定位问题。3.2 MSTP故障类似及原因一般来说以太网板(这里以EFGS为例)的故障都分成两种类型:1)链路完全中断2)链路上持续存在丢包从目前来看可能造成故障的原因如下:故障可能原因故障现象以太链路完全中断链路上持续存在丢包1端口TAG属性(TAG/UNTAG)设置

8、不当业务量大,配置带宽不够2物理层出现故障,表现为实际端口工作模式不正确,或者端口某些参数异常,或接口板故障,物理层寄存器被随意改写等。带宽足够,但是业务突发比较大3网线或者光纤出现故障业务量过大的时候,对端设备不响应流控4以太网业务配置数据丢失单板设置的最大传输包长MTU小于实际设备的传输包长5在某些情况下,出现网元指针调整的情况下,ET1的一些通道上报BIP-OVER和TU-LOP,业务中断。更换单板或者复位只能引起故障通道的转移,但是不能完全解决问题。端口模式和对端设备不匹配,造成工作在异常状态6单板硬件故障网线或者光纤出现故障7封装协议不匹配单板硬件故障8GFP失步告警二层交换业务存在

9、环路,且未启动生成树协议。9GFP封装FCS校验出错告警LCAS一些VC颗粒丢失,剩余VC颗粒绑定的带宽不足。10VLAN ID设置与数据设备未进行同步更改网络存在异常,如存在超量的广播报文11因为大量丢包造成的业务中断。这种情况转第二种故障类型处理(8) 发生业务中断故障时,首先检查是否有以下设备告警,这些3.3 MSTP故障处理方法3.3.1 对于以太链路完全中断的问题定位对于第一种链路完全中断故障类型,一般表现为对接的路由器和交换机接收不到任何报文,业务完全中断,完全无法PING通对端设备等等,主要检查以下几个部位:(1) 端口TAG属性(TAG/UNTAG)设置不当该种故障出现概率较大

10、,多发生在初开通业务时,MSTP设备的TAG属性设置和与其连接的数据设备设置不能相互配合,或MSTP设备未能与数据设备进行端口属性同步更改,导致业务中断。(2) 端口工作模式引起的故障物理层出现故障,表现为实际端口工作模式不正确,或者端口某些参数异常,或接口板故障,物理层寄存器被随意改写等。该问题出现的概率也比较多,主要通过查询物理层的相关寄存器来定位问题所在的部位。重点在网管上查询以太网口使能与工作模式。(3) 网线或者光纤出现故障这样的问题比较好判别,首先是确认一下ET1单板插网线的以太网接口是否有LINK灯亮(绿色),没有亮说明网线可能坏了,或者是交叉和公网线弄混了。(注意光接口板的指示

11、灯在接口板内部);同时看看接口上另外一个指示灯(黄色)是否在亮,有亮说明有数据收发,没有则说明无数据收发。另外通过查询以太网实时性能,如果存在较多的CRC错误等异常错包,在首先排除端口工作模式问题的前提下,也可能是网线光纤存在问题。(4) 需重点查询VC通道捆绑情况 在非LCAS状态下捆绑错或不一致也可致使业务中断。(5) 端口的默认vlan id设置也不要放过如果ip端口设置了untag属性但是配置了vlan路由的业务类型,那么该ip端口的默认vlan id一定要和vlan路由中的vlan id 一致,不然的话,这个小疏忽却能使业务中断的。对于EFGS单板的Hybrid端口的PVID设置也要

12、注意两端设备的一致问题。(6) 以太网配置的静态路由错误或者丢失(7) 单板硬件故障一般都会有上报TU-AIS,TU-LOP等SDH层告警,现象比较好判断。(8) 封装协议不匹配对于EFGS系列单板,N1单板支持LAPS和GFP,N2只支持GFP,不同的封装协议是无法对接成功的。(9) GFP帧失步或GFP封装FCS_ERROR可能GFP封装的参数设置不一致造成的问题,如N1的EFGS单板默认的GFP封装是“小字节序”而N2的单板默认值是“大字节序”(10) 因为大量丢包造成的业务中断这种情况转第二种故障类型处理。3.3.2 对于以太链路持续存在丢包的问题定位(1) 业务量大,配置带宽不够这种

13、情况可以通过对对端的数据设备性能统计数据进行判别,一般对端设备可以接收到比较多而且持续的PAUSE帧。而且一般路由器都可以监控到实际流量(当然是IP层的,比ET1的二层流量要小),如果实际流量接近我们配置的带宽,也证明我们的带宽资源不足了。可以尝试多绑定几个2m来验证问题。(2) 带宽足够,但是业务突发比较大这种情况也是很常见的,但是比较难于判别。同样要通过分析一下对端设备的性能统计(我们自身的性能统计也可以查询作为参考)来得出结论,首先是流量,很可能平均流量远小于我们配置的带宽,但对端设备还是在时不时收到我们设备发出的PAUSE帧,证明对端过来的业务突发比较大,超过了我们能够容忍的限度。此时

14、一是增加带宽,但是更主要的是要求对端的设备做一下流量整形,这样效果会好很多。可以通过查看性能数据来看出发生了什么问题:设置以太网性能监视,查询当前以太网性能数据。(3) 业务量过大的时候,对端设备不响应流控造成丢包由于华为MSTP设备使能流控,对端设备不响应流控,造成华为MSTP设备过快的发送无用的PAUSE帧,引起大量丢包。建议对于业务量较大的站点,要不和对端设备同时使能流控,要不同时都不使能,不要出现一方使能另一方不使能的情况。(4) 单板设置的最大传输包长MTU小于实际设备的传输包长这种情况不太常见,但是发生了也很难确认。首先我们ET1单板默认的传输包长是1522字节,可以设置到的最大包

15、长是1980字节。这个问题一般需要和局方确认,并且通过性能事件查证是否有收到大于1522字节的数据包。(5) 端口模式和对端设备不匹配,造成工作在异常状态这种情况出现的非常普遍,多为两端对接,一端设置成100MFULL或者10MFULL(100M全双工或者10M全双工),一端设置成AUTO(自协商)。这种情况多半会导致AUTO一端被错误协商成100M HALF,引起工作模式不匹配。这种情况下小业务流量还是可以传输,但是数据量一大就会导致大量的碰撞和冲突包被检测到(可以通过性能统计查询到)。建议的设置原则是:对端是自协商我们就是自协商,对端是100MFULL我们就是100MFULL。(6) 网线

16、或者光纤出现故障。这样的问题比较好判别,首先是确认一下ET1单板插网线的以太网接口是否有LINK灯亮(绿色),没有亮说明网线可能坏了,或者是交叉和公网线弄混了。(注意光接口板的指示灯在接口板内部);同时看看接口上另外一个指示灯(黄色)是否在亮,有亮说明有数据收发,没有则说明无数据收发。另外通过查询以太网实时性能,如果存在较多的CRC错误等异常错包,在首先排除端口工作模式问题的前提下,也可能是网线光纤存在问题。(7) 单板硬件故障。一般都会有上报TU-AIS,TU-LOP或BBE等SDH层告警或性能,现象比较好判断。(8) 二层交换业务存在回路,而未启动生成树。一般在MSTP设备形态上是可以通过

17、配置确保业务无环路存在的,单在某些特殊情况可能存在环路,例如人为的原因在以太接口上插环回电缆等。如该情况未启用生成树就会存在广播风暴消耗网络带宽资源。(9) 网络存在异常,如存在超量的广播报文,占用大部分转发带宽,后果与广播风暴类似。4 附件4.1 各种业务开通时需要注意的事项a)确保网络物理链接,确认配置业务后无SDH部分相关告警,如存在告警一定进行排除;b)明确MSTP设备以太网单板对接的数据设备(包括计算机)的端口的工作模式:MSTP设备以太单板端口的工作模式设置需与数据设备端口属性相同,如都是自协商,都是100MFULL等。如果一端是自协商另一端是非自协商也存在非常大的隐患,两个FE电

18、口一个配置为自协商另一端配置为100MFULL则协商的结果为100MHALF,原因是支持自协商的端口向对端发送协商信息,而对端无相应,自协商侧只能获知速率而无法确认双工状态,该自协商端口按最低配置进行工作表现形式为半双工状态。如果是FE或GE的光接口因物理信号编码形式的限制是不支持半双工模式,所以当一端自协商而另一端为100M FULL/1000M FULL时两个伙伴无法LINK UP。C)如果所采用以太网单板为光接口方式,要注意光口为多膜还是单膜接口,其接口方式与数据设备接口方式要对应,另外还应注意光接受灵敏度,过载光功率等的配合关系;d)正确设置MSTP设备以太网单板端口的TAG属性:一般

19、情况数据设备的TRUNK端口与MSTP设备以太网TAG AWARE端口相连接,数据设备的ACCESS与MSTP设备的ACCESS端口相连接,数据设备的端口属性的定义与我司MSTP数据特性单板的端口属性略有不同,具体情况请参照产品说明书;e)如配置MSTP设备的基于PORTVLAN的EPL/EVPL业务或EPLan/EVPLan业务,要注意VLAN ID的合理配置,数据设备与MSTP设备对接VLAN的划分都是通过静态手工配置的方式进行的,所以VLAN和业务的对应关系必须清晰准确,否则就会出现业务不通等问题。f)正确进行MTU设置,MSTP数据特性单板端口的MTU值设置,不小于与其对接的数据设备M

20、TU,否则可能出现帧丢失或业务不通等问题;g)要确认一个网络基准,即如不考虑SDH部分与MSTP设备对接的两数据设备正常工作时所需的带宽时延等要求,这样才能合理配置VCTRUNK之间的绑定关系等4.2 以太网性能门限的设置建议华为MSTP设备以太网性能的RMON统计都是基于RFC2819实现的,可设置其性能门限值,性能门限值的设定主要取决于“网络基准”即网络正常工作情况下可接受的丢包率等信息。根据不同的网络状态存在不同的设置策略,华为MSTP设备该功能默认为非使能状态。4.3 告警列表告警名称默认级别告警含义产生原因处理方法NO_BD_SOFT危急单板无软件(1)单板上没有加载软件1 重新加载

21、单板软件2 重启单板TEMP_OVER主要工作温度过限(1)环境温度过高; (2)制冷设备故障; (3)单板故障1,确认环境温度是否合适。2,检查设备风扇系统工作是否正常。3,复位告警单板。LP_RFI次要低阶通道远端失效指示(1)对端站低阶通道接收失效这是一个相关性告警对端支路板存在HP_REI告警,排除对端设备告警后,本站告警消失。LSR_NO_FITED危急激光器未安装(1)激光器未安装1 检查激光器是否安装,是否插紧,接触良好,可进行插拔操作加以确认;2,检测环境温度是否过高,如过高请冷却环境温度;3,复位告警单板;W_R_FAIL主要写读单板芯片寄存器失败(1)单板故障; (2)时钟

22、板故障1,复位告警单板,确认告警是否消失2,复位系统交叉板。BD_STATUS主要单板不在位告警(1)单板未插; (2)单板插座已松动; (3)邮箱故障1,检查对应槽位是否正确插接单板;2,单板和背板接触是否良好;3,复位单板4,检查背板是否存在倒针现象HARD_BAD危急单板硬件损坏 单板硬件损坏1,复位单板2,更换单板BIP_SD次要BIP信号劣化(1)BIP2误码过大1,确认SDH线路是否存在误码2,如线路不存在误码,则重启告警单板,观测告警是否消失3,更换告警单板BIP_OVER次要BIP误码过量(1)BIP2误码过大1,确认SDH线路是否存在误码2,如线路不存在误码,则重启告警单板,

23、观测告警是否消失3,更换告警单板FPGA_ABN主要FPGA状态异常FPGA状态异常1, 复位单板2, 更换单板COMMUN_FAIL主要通信失效告警通信失效告警1,如只有一个单板上报告警,首先复位该单板,观测告警是否消失2,如同时几块业务板上报告警,逐个拔出告警单板直到告警消失,以确认故障单板,对故障单板进行复位/替换,3,如单板替换后仍存在告警,尝试将告警单板更换物理槽位。ETH_LOS危急网口连接丢失告警网口连接丢失1,检查纤缆连接2,替换单板LOOP_ALM主要环回告警 设定了线路侧的内环回或外环回1,取消环回后,告警自动消失FCS_ERR危急FCS校验出错告警封装协议一致但是协议参数

24、如是否扰码、是否取反等内容不一致1, 首先确认TRUNK LINK两端封装协议及参数设置是否一致,如不一致请更改2, 重新下发单板接口参数配置3, 确认交叉板状态是否异常B3_EXC_VC3主要VC3的B3误码越限VC3通道的误码超过设定的越限门限。1,观察网管上否有:如R_LOS, R_LOF, B1_EXC or B2_OVER等严重告警,首先排除这些严重告警,确认该告警是否也排除;2,检测环境问题是否越限,如越限请调整;3,更换线路板4,更换交叉板5,更换对端站点线路板6,更换对端站点交叉板B3_SD_VC3次要VC3的B3误码劣化VC3通道的误码超过设定的劣化门限。1,观察网管上否有:

25、如R_LOS, R_LOF, B1_EXC or B2_OVER等严重告警,首先排除这些严重告警,确认该告警是否也排除;2,检测环境问题是否越限,如越限请调整;3,更换线路板4,更换交叉板5,更换对端站点线路板6,更换对端站点交叉板ILL_MFI_VC12主要VC12级别的虚级连中成员的复帧指示失配虚级连延时过大,链路错误,会产生此告警1,更换光纤2,更换单板ILL_MFI_VC3主要VC3级别的虚级连中成员的复帧指示失配虚级连延时过大,链路错误,会产生此告警1,更换光纤2,更换单板ILL_SQ_VC12主要VC12级别的虚级连中成员的序列号指示失配虚级连SQ号和预期不一致,链路错误,会产生此

26、告警1,重新下发告警单板的业务配置;2,复位告警单板ILL_SQ_VC3主要VC3级别的虚级连中成员的序列号指示失配虚级连SQ号和预期不一致,链路错误,会产生此告警1,重新下发告警单板的业务配置;2,复位告警单板LP_RDI_VC12次要VC12级别低阶通道远端接收失效指示检测到上一站接收信号失效,会产生此告警相关性告警,是对端存在TU_AIS 或 TU_LOP告警,排除对端告警后该告警消失LP_RDI_VC3次要VC3级别低阶通道远端接收失效指示检测到上一站接收信号失效,会产生此告警相关性告警,是对端存在TU_AIS 或 TU_LOP告警,排除对端告警后该告警消失LP_REI_VC12次要V

27、C12级别低阶通道远端误码指示当对端站对应通道收到误码,会产生此告警相关性告警,对端检测到错误而回送的告警,排除对端告警后该告警消失LP_REI_VC3次要VC3级别低阶通道远端误码指示当对端站对应通道收到误码,会产生此告警相关性告警,对端检测到错误而回送的告警,排除对端告警后该告警消失LP_SLM_VC12次要VC12级别低阶通道信号标记失配当本站应收信号标记与对端应发信号标记不一致,会产生此告警1,将业务两端站点的V5字节设定应收与实收一致2,修正信号标记字节后,确认业务配置是否正确3 ,如告警未消失,复位本站告警单板4,复位对端站点单板LP_SLM_VC3次要VC3级别低阶通道信号标记失

28、配当本站应收信号标记与对端应发信号标记不一致,会产生此告警1,将业务两端站点的C2字节设定应收与实收一致2,修正信号标记字节后,确认业务配置是否正确3 ,如告警未消失,复位本站告警单板4,复位对端站点单板LP_TIM_VC12次要VC12级别低阶通道追踪识别符失配当本站应收通道追踪字节与对端应发通道追踪字节不一致,会产生此告警1,将业务两端站点的通道追踪字节设定应收与实收一致修正通道追踪字节字节后,确认业务配置是否正确3 ,如告警未消失,复位本站告警单板4,复位对端站点单板LP_TIM_VC3次要VC3级别低阶通道追踪识别符失配当本站应收通道追踪字节与对端应发通道追踪字节不一致,会产生此告警1

29、,将业务两端站点的通道追踪字节设定应收与实收一致修正通道追踪字节字节后,确认业务配置是否正确3 ,如告警未消失,复位本站告警单板4,复位对端站点单板LP_UNEQ_VC12次要VC12级别低阶通道信号未装载当低阶通道信号标记字节为0,会产生此告警1,检查业务配置是否正确,如不正确请修正2,检测低阶通道信号标记实收值是否为0,如为0请根据业务类型对对端的信号标记进行设置。LP_UNEQ_VC3次要VC3级别低阶通道信号未装载当低阶通道信号标记字节为0,会产生此告警1,检查业务配置是否正确,如不正确请修正2,检测低阶通道信号标记实收值是否为0,如为0请根据业务类型对对端的信号标记进行设置。TU_A

30、IS_VC12主要VC12级别的TU告警指示当业务配置错误,对端站对应通道失效,交叉板故障等,会产生此告警1,检查网管是否有高级别告警上报,如R_LOS, R_LOF 或 HP_SLM,首先消除高级别告警,确认该告警是否消失;2,检查网元侧的保护倒换状态是否正确,保护倒换状态正常后,确认告警是否消失3,检查业务配置是否正确,如不正确请修正,确认告警是否消失。4,复位单板5,复位交叉板TU_AIS_VC3主要VC3级别的TU告警指示当业务配置错误,对端站对应通道失效,交叉板故障等,会产生此告警1,检查网管是否有高级别告警上报,如R_LOS, R_LOF 或 HP_SLM,首先消除高级别告警,确认该告警是否消失;2,检查网元侧的保护倒换状态是否正确,保护

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论