传输故障排除案例集锦(HUAWEI)_第1页
传输故障排除案例集锦(HUAWEI)_第2页
传输故障排除案例集锦(HUAWEI)_第3页
传输故障排除案例集锦(HUAWEI)_第4页
传输故障排除案例集锦(HUAWEI)_第5页
已阅读5页,还剩110页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、OptiX 光传输系统 故障排除案例集锦1 业务中断的处理1.1 更换光板类型错误导致对端收光不正常【系统概述】某传输组网如图1所示,4个OptiX 2500+设备组成双向复用段保护环;1号站为业务中心点,连接网管。其中,3号站和2号站之间距离较长,使用了BPA光放板。图1 系统组网图【故障现象】某日机房维护人员发现2号站接收3号站方向的S16有R-LOS告警,全网正常倒换,业务未受影响,用网管查询2号站的告警,PA有IP-FAIL(无输入光)告警,3号站的BA有IP-FAIL告警。【故障分析及排除】BPA板光口1对应的是BA(功放,将 S16的输出光信号放大14或17dBm);光口2为PA(

2、前放,当输入光功率在-22dBm -32dBm之间时,光口OUT2输出光功率变化范围在-7dBm-21dBm)。光信号经过BPA的尾纤连接及信号流向如图2所示:图2 BPA光信号流向(1) 根据光信号经过BPA的信号流可以看出,由于3号站光放板的BA未收到光信号,导致了2号站的PA、S16报收无光。可以判断故障点在3号站;(2) 维护人员带S16、BPA、尾纤、光功率计到3号站;(3) 在3号站测试S16板的输出光功率值,光功率计显示无光信号。可以判断是S16板故障;(4) 将带的S16板插上,测试S16输出光功率为0dBm,恢复尾纤连接;(5) BA板告警消失,但S16仍有红灯一闪告警,查询

3、为MS-RDI;(6) 查询2号站S16,仍有R-LOS告警;(7) 在3号站,将换上去的S16板发光功率衰减到-15dBm做自环,告警消失。判断新换上去的S16并没有损坏;(8) 为什么仍有告警呢?分析原因是3号站的S16板使用有错, SS62S1605与SS62S1604波长是一样的,而色散受限距离不同,可能是色散过大导致对端收光不正常。(9) 查看3号站原来使用的S16的光板类型,为SS62S1605;刚换上去的S16类型为SS62S1604;(10) 更换同类型的S16,故障消除。【结论和建议】光板种类较多,更换光板时要考虑换上去的光板型号是否正确。如果短距光板用在长距上会出现性能不够

4、,而长距光板用在短距上可能会出现收光过载,长期工作易损坏收光模块,并形成浪费。在换板的时候可以比较一下两块光板的类型。与PA板配合的2.5G光发送板统计如下(如有变更,请咨询华为公司):设备类型光板类型SBS2500SS33T1602SBS2500/OptiX REGSS31L1605SBS2500/OptiX REGSS32L1610OptiX 2500+SS62S16051.2 GTC板故障导致业务中断【系统概述】某工程组网如图3所示,4个OptiX 155/622设备组成622M单向通道保护环,为集中型业务,1号站为中心点,连接网管。图3 系统组网图【故障现象】某日交换机房维护人员反映到

5、3号站的业务中断。查询传输网管告警和性能事件,对应的支路并没有告警和误码、不可用秒等性能事件。用网管对3号站支路通道做内环回,1号站用误码仪测试,仪表显示业务不通。1号站做外环回,仪表显示业务正常。【故障分析及排除】(1) 对应通道没有异常告警和性能事件,一般情况下业务应该是正常的。考虑到部分告警主机缺省是屏蔽的,是不是告警被屏蔽了呢?用网管将1号和3号站支路板的告警屏蔽全取消,查询1号站仍没有异常的告警和性能事件,而3号站通道有LP-UNEQ(支路未装载)告警;(2) 分析1号站业务,1号站同一块PD1不仅有到3号站的业务,还有到2号站的业务,而且在相同的VC-4中,如果是1号站PD1、GT

6、C、SL4故障,一般不会只影响到3号站的业务。可以初步排除1号站有故障的可能;(如果允许,可以做VC-4环回进行测试)(3) 由于只有3号站的业务不好,而同一VC-4中1号站到2号站的业务是好的,故障点最可能在3号站;也可能是2号站的交叉板,怀疑2号站业务穿通不好的原因是,3号站收1号站有LP-UNEQ告警,说明1号站发往3号站的业务有故障,而3号站收1号站只经过了2号站的穿通。(4) 将1号站对2号站的激光器关闭,倒换后,其它站点业务正常,仍然只有3号站业务不好,告警一样。可以排除2号站穿通不好。(也可以先不对穿通站进行故障定位)(5) 分析3号站业务,3号站只有1块PD1,且业务只对1号站

7、。由于同一VC-4中的1号站到2号站的穿通业务正常,可以初步排除3号站SL4板不好。怀疑是3号站GTC或PD1故障。(6) 带GTC、PD1到3号站。先更换PD1故障未消失,更换GTC业务恢复。【结论和建议】由于GTC和支路板位的接口部分不好,导致了故障。在故障处理中,根据告警,分析业务配置情况、根据业务流向,可有效的进行故障定位。1.3 接收端有光功率但R16报R-LOS的故障处理【系统概述】某工程组网如图4所示,4个SBS2500设备组成双向复用段保护环,1号站为中心点,连接网管。图4 系统组网图【故障现象】某日,机房维护人员发现3号站接收4号站方向的R16板有R-LOS告警,4号站相对应

8、的光板有MS-RDI,复用段进行了保护倒换,业务未受到影响。【故障分析及排除】(1) 由于3号站和4号站之间只有一个方向有问题,断纤的可能性不是很大,故维护人员先带上R16、T16、光功率计、两根测试尾纤、光衰减器、无水酒精和棉球到3号站进行处理;(2) 在3号站,测量对4号站方向的收光功率为-21dBm,在长距R16板的接收范围内,排除了光缆不好的可能;(3) 将两根测试尾纤用光衰减器相连,尾纤一端与T16相连,另一端与光功率计相连,调节光衰减器,直到光功率在-22dBm左右,将尾纤从光功率计移到R16上,进行自环测试,观察到R16板告警消失,ASP没有R-LOS、R-LOF告警。可以判断3

9、号站正常,而且没有因为R16内部的法兰盘接触不好或变脏影响灵敏度,可以排除3号站故障。(4) 在4号站,对T16做自环测试(注意R16收光功率应小于过载点-9dBm),发现R16有三闪告警,为RLOS告警。可以判断是T16故障。(5) 更换上相同类型的T16,故障解决。【结论和建议】SBS2500设备,2.5G光板有R16、T16、ASP组成。如果T16输出光信号上没有数据或时钟信号,可导致对端R16上报RLOS告警;A1、A2字节由ASP板处理(本端生成、对端计算),如果设备有RLOF告警,可能是ASP板故障导致。1.4 时钟板性能不好导致业务异常【系统概述】某工程组网如图5所示,4个Opt

10、iX 155/622设备组成155M单向复用段保护环,为集中型业务,1号站为中心点,连接网管。1号站为内置时钟,其它站西向跟踪。图5 系统组网图【故障现象】某日传输机房维护人员反映环上的业务时断时好。查询1号站的告警,发现通道每隔几十分钟就有TU-AIS告警,1号站和3号站对应4号站的SL1光板有B2SD告警,各站GTC板有PS复用段倒换告警。【故障分析及排除】(1) 可以判断是1号站西侧、3号站东侧光路出现B2SD,引起了通道误码、单向复用段保护倒换影响了业务。由于单向复用段倒换会涉及到环上的所有业务,而倒换前通道出现的误码、倒换将引起基站业务重启,主机缺省关闭了将B2SD、B2OVER作为

11、复用段倒换条件。(2) 4号站两侧站点的光板同时出现了B2SD,可以定位是4号站的问题。OptiX 155/622网元由时钟板给单板提供时钟信号,可以初步判断是由于时钟板性能不好,导致不同站时钟相差大,引起光路出现误码;(3) 更换4号站的时钟板进行观察,故障未重现。【结论和建议】时钟板的提供的质量稳定性将影响站上各单板信号的质量,时钟质量下降与本站时钟板质量不好有关,有时也与所跟踪站的时钟板的时钟质量不好有关。通常时钟质量不好,时钟板会上报SYN-BAD(时钟劣化)告警。SYN-BAD告警的含义是时钟板本身时钟质量与当前所跟踪的参考源时钟质量相比较,这两个时钟之间的精度差异超过设定的阈值,单

12、板上报SYN-BAD告警。 出现SYN-BAD告警有两种可能性:(1) 上报SYN-BAD站的时钟板性能不好;(2) 所跟踪源(时钟跟踪的上游站点)的时钟质量不好。在日常维护时,通过查询时钟板有没有SYN-BAD告警和有没有指针调整或误码性能事件,可以预见故障,及时的处理可以防止故障的发生。1.5 支路板报T-LOTC告警影响业务【系统概述】某工程组网如图6所示,由1、2、3、4号站组成通道保护环。为集中型业务,1号站为中心点,网管在1号站。图6 系统组网图【故障现象】某日环上断纤,设备倒换后,维护人员发现3号网元SS12PL1有部分使用的通道报T-LOTC告警。询问交换机房反映业务不通。【故

13、障分析及排除】(1) 引起T-LOTC告警的原因可能就是导致这些通道业务不通的原因,T-LOTC是指支路发送时钟丢失。(2) T-LOTC告警是在解映射之后出现的告警。支路板信号流程如图7示:图7 支路信号流程框图(3) 从支路信号流程图分析,支路通道出现T-LOTC告警的原因可能是3号站SS12PL1支路板本身故障导致,可更换该板;(4) 也有可能是上游传送过来信号有问题(V5字节不正确),即与对端站的支路板(更换支路板可解决)或该业务经过的路由有关(需要排除两端站及穿通站的故障);(5) 根据以上分析,先更换3号站的SS12PL1,故障消除。【结论和建议】支路板故障导致了业务受到影响。支路

14、板有T-LOTC告警,可用网管复位本站或对端站的支路板看能否先恢复业务,再更换单板以减少业务中断的时间;如果是支路板某一通道的问题,可以更改通道;如果其它问题,可以考虑更改业务经过的时隙。1.6 光缆维修后超长距光板报R-LOS告警【系统概述】某工程组网如图8所示,由1、2、3号站组成一条链。为集中型业务,1号站为中心点,网管在1号站。其中2号站和3号站之间距离较长,使用了SS24SL4的超长距光板。图8 系统组网图【故障现象】某日,机房维护人员发现3号站的SS24SL4板上报R-LOS告警。【故障分析及排除】(1) 在3号站测试,收光功率正常。将3号站SS24SL4光信号经过衰减后自环,发现

15、光板告警灯3闪,为R-LOS告警,判断3号站光板故障;(2) 更换3号站光板后业务恢复正常;(3) 经了解该段光缆前一段时间重新割接过,因为超长距SS24SL4板使用了APD收光模块,故推测可能该板曾注入过强光,通过调查,光缆维修时曾在2号站用OTDR对3号站进行过测试;(4) 该光板经返回华为公司检修分析,的确是光模块损坏。【结论和建议】长距光板(包括2.5G)接收器件利用APD(高增益的雪崩光电探测二极管)实现光电转换,由于光接收器件的高增益性,使得接收机的灵敏度得到很大提高,但是另一方面,在接收光功率很大的环境下,雪崩光电二极管的工作电流也会相应增大,如果工作在大电流的条件下,APD的失

16、效率也会增加,导致雪崩二极管失效烧毁。 APD的收光功率峰值过高,可能会导致O/E变化器和光连接器端面的损坏。而用于测试光缆的OTDR发出的光信号虽然是连续短脉冲,但峰值功率通常很强,如果没有经过足够的衰减,很容易超过APD的过载点,将其损坏,所以在用OTDR测试时,一定要把光纤与设备断开。对长距光板,进行自环测试的时候,要注意输入光功率在该板的过载点以下。2 保护倒换问题的处理2.1 光纤接错导致的奇怪现象之一【系统概述】某局SDH组网如图9所示,为OptiX 155/622设备组建的通道保护环,集中型业务,业务中心点为1号站。时钟方案为:1号站自由震荡;其余各站时钟级别均配置为“西向/内置

17、自由震荡”。 图9 系统组网图【故障现象】某日,2、3站间的光纤被挖断,经与交换机房确认,业务没有中断。但3、4、5、6、1号站有指针调整性能越限告警,进一步检查各站的告警信息,却发现3、5、6、1站2M支路板有PS通道保护倒换告警,4号站却没有。 【故障分析及排除】(1) 根据告警分析,正常情况下若2、3站间的光纤断了,由于是集中型业务,则3、4、5、6的支路板均应发生通道保护倒换。现4号站的支路板未发生倒换,而且业务正常,说明4号站的西向光板能正常地接收到1号站发送来的业务信号。因此,推断可能是4号站的光纤接错了:5号站的西向光纤接到了4号站的西向;而3号站的东向光纤接到了4号站的东向;(

18、2) 现场检查,验证了以上推论,待2、3站光纤恢复后,将4号站光纤连接纠正。【结论和建议】对于通道保护环,由于其双发选收的特性,因此若某站的东、西向光纤接反,业务不受影响,因此故障有一定的隐蔽性,需要我们在维护中注意。2.2 光缆熔接导致的奇怪现象之二【系统概述】某局使用OptiX 155/622设备,采用通道保护环组网,集中型2M业务,业务中心站为1号站,组网图如图10所示。图10 系统组网图【故障现象】某日传输机房维护人员反映,3号站点因两侧光缆断裂(该站点东西方向的光纤有一段在同一根缆内),业务中断。经线路人员抢修后,业务恢复正常。但10分钟后,环上业务除3号站外全阻,机房维护人员通过网

19、管发现网上没有任何告警、性能数据;3号站业务正常,但无法用网管登录。【故障分析及排除】(1) 因光缆断裂前,通道保护倒换正常,且业务正常;而重新熔接光缆后出现这样奇怪的问题没有任何告警,业务中断,且3站无法登录,因此很有可能是光缆熔接错了;(2) 线路人员返回现场再次检查刚才熔接的光纤,发现光纤的确是熔接错了3站东西方向接收的光纤熔接反,如下图11所示;图11 3站光缆接错示意图由上图可见,NE2和NE4发往NE3的光纤接反;(3) 重新按图12熔接光纤后,业务恢复正常;图12 3站光缆正确连接示意图(4) 故障原因是NE3站点东西向收纤熔接反,在收纤熔接反后,我们可以逐一分析各站业务:(1)

20、 NE2业务:NE2从主环接收NE1的业务正常;但NE1从主环接收NE2的业务却是从NE3环回的业务,也就是说NE2沿主环方向发给NE1的业务,在NE3站点被环回,没有继续往前传输。而NE1从备环发出给NE2的业务,在NE3被环回到主环送回来,NE1接收的就是这个环回的业务。因此NE2业务不通;(2) NE3业务:NE3收发给NE1的业务均正常,所有业务没有中断;(3) NE4业务:NE4从主环方向发给NE1的业务正常;而NE1从主环发给NE4的业务在NE3点被环回。NE4从主环接收到的业务是自身从备环发出的在NE3环回的业务。因此NE4业务不通;(4) NE5、NE6业务不通的原因与NE4相

21、同;(5) NE3站点ECC不通的原因:这是由于ECC走双向路由的缘故。光纤熔接反后,3站的ECC为单向路由,因此ECC不通,无法登录。【结论和建议】在有些农话站点,连接到不同方向的光缆,出于经济原因,经常有同沟或同缆的情况,在光缆因故断裂后,局方线路人员在熔接时,因种种原因,可能会造成错接的现象;若恰好接成了鸳鸯纤,就会出现这样奇怪的现象,因此在光纤熔接时一定要小心。2.3 光纤自环导致的业务中断【系统概述】某局使用OptiX 155/622设备,采用通道保护环组网,集中型2M业务,业务中心站为NE1。但由于光缆未到位,NE3与NE4的光纤未连接。因此,实际组网为一个断环,如图13所示。该局

22、业务运行一直正常。图13 系统组网图【故障现象】一日,机房维护人员认为3号站和4号站间的光板一直有R-LOS告警,影响对正常告警的处理,于是决定用尾纤将这两个站点未用的光板自环。第一天,维护人员到达3号站后,用尾纤将该站东向光板自环,观察光板红灯熄灭,业务运行正常;第二天,维护人员到达4号站,用尾纤将NE4西向光板自环,观察光板红灯熄灭,业务正常。随即维护人员离开机房。但离开机房不久,即接到网管中心的通知全网业务中断,且没有任何告警。 【故障分析及排除】(1) 在3号站和4号站间断纤的情况下,以下业务走的是备环:2号站、3号站到1号站的业务;1号站到4号站的业务;(2) 当3号站东向光板自环时

23、,产生的影响是3号站的备环方向恢复正常,因此对各站主备环的收发状态没有影响,即原来收主环的还收主环,收备环的还收备环,业务仍保持正常;(3) 当4号站西向光板自环时,产生的影响是4号站的主环方向恢复正常。由于2M业务的通道保护是恢复式的,即如果主环恢复正常,则10分钟后业务将自动倒换回主环。这样,原来收备环方向的业务1号站收2号站、3号站的业务以及4号站收1号站的业务,10分钟后均将倒换回主环。而此时主环的业务却是4号站环回的业务,也就是说,此时4号站从主环收1号站的业务以及1号站从主环收2号站、3号站的业务都是它们自己从备环发出去而在4号站环回的业务;(4) 在这种情况下,2号站、3号站从主

24、环收NE1的业务以及1号站从主环收4号站的业务均正常;而1号站收2号站、3号站的业务以及4号站收1号站的业务均为主环方向的自环业务,因此所有站没有任何告警信息;(5) 维护人员返回4号站机房,将自环尾纤一拔掉,业务立即恢复,查询此时各站告警,4号站以及1号站的支路板出现PS保护倒换告警。【结论和建议】对于通道保护,在断环保护倒换动作的情况下,切勿随便将光路自环、做软件环回操作,或在自环前,一定要分析一下可能产生的影响。2.4 业务配置错误导致SNCP保护失败【系统概述】某工程组网如图14所示,1号站点为OptiX 2500+设备,2、3、4号站为OptiX 155/622设备,5号网元为1号站

25、OptiX 2500+设备的扩展子架。1、2、3、4号站组成155M的通道保护环,为集中型业务,2、3、4号站的业务全部下到1号站的扩展子架上,用SNCP保护。图14 系统组网图【故障现象】某日3号站和2号站之间的光缆被割断,维护人员发现2、3号站到1号站的业务中断,5号网元对应这两个站的通道有TUAIS告警,对端站的通道有LPRDI告警。【故障分析及排除】(1) 5号网元有TUAIS告警,根据告警分析可以判断是2、3号站发往5号网元的业务出现了问题;(2) 正常情况下,2、3、4号站的业务经过1号站OptiX 2500+定义的西向光板到5号网元;断纤后2、3号站的业务经过1号站OptiX 2

26、500+定义的东向光板到5号网元,由1号站OptiX 2500+网元完成SNCP的倒换;(3) 可能是2号站或1号站网元的问题;(4) 分析1号站OptiX 2500+的配置发现,1号站到2、3、4号站的配置SNCP按VC-4级别的业务进行了配置,这就导致了SNCP只能根据VC-4的告警来进行倒换,而不能按某个2M信号的告警来进行倒换;(5) 修改配置,将VC-4级别的业务更改为VC-12级别的业务后倒换正常。【结论和建议】(1) SNCP业务配置时,两端故障监测的业务级别必须相一致;(2) 对该问题,在1号站做断纤测试是不能被发现的,因为主用(西向)光板断纤后,可以检测到VC-4有告警,可以

27、成功进行倒换。2.5 通道保护属性设置错误断纤后业务未保护【系统概述】某工程组网如图15所示。四个站组成的一个622M通道保护环,1站为网管中心站,集中型业务,即每个站均与1站有2M业务。 图15 系统组网图【故障现象】某日,3、4站间的光缆被挖断,1站与3站业务中断,其余各站业务正常;1站业务中断的通道有TU-AIS告警;3站业务中断的通道有LP-RDI告警。 【故障分析及排除】(1) 3、4站间光缆挖断后,1站收3站业务应该走备环方向,此时1站应该有PS倒换告警。但此时1站并没有PS告警,说明要么1站数据设定有错误,要么备环存在故障;(2) 通过网管“维护”菜单下的“支路板”检查1站支路板

28、对应通道配置,发现通道属性为无保护,配置有误;(3) 更改通道属性为“保护”后,业务恢复,1站通道出现PS保护倒换告警;【结论和建议】保护倒换失败的原因是未配置保护属性,通道保护不仅要配置逻辑系统属性为通道保护,同时也要配置支路属性为保护,两者缺一不可。2.6 断纤测试时部分站点通道保护失败【系统概述】某局本地传输网采用OptiX 155/622设备,由6个网元组成一个两纤单向通道保护环,组网图如图16所示。1号站为网关网元,连接网管终端,1站和6站为业务中心站,它们与其它各站均有业务,两站之间也有业务,1站时钟设为跟踪内部时钟源,其它各站均跟踪西向线路时钟。 图16 系统组网图【故障现象】系

29、统主环业务正常,在中心局1号站用2M误码仪测试到各站的业务均无误码,但做通道保护测试时,拔掉4号站11板位SL1的收端光纤,则3号站到1号站的业务不通。 【故障分析及排除】(1) 故障现象说明主环业务是正常的,问题应当出在备环上;(2) 仔细检查各站点的业务配置,没有发现问题;(3) 主环光纤是按逆时针方向连接的,为确保连接无误,从1号站开始,沿主环方向依次关断各站11板位的激光器(即备环发送方向激光器),从网管上观察到该站顺时针方向下一站的12板位的SL1板均有光路R-LOS告警,说明光纤连接没有问题;(4) 为了让其余各站从备环上接收1号站业务,断开1号站12板位SL1发端光纤(即主环发送

30、光纤),从网管查看各站告警及性能:发现2号站11板位光路有R-LOS告警;除2号站外其余各站支路板均有PS通道保护倒换告警;2号站与1号站、6号站业务对应的通道有LP-REI告警;2号站的业务通道还有大量误码,其余各站性能正常;(5) 这时从1号站拨打其它各站的电话,刚开始只有几个站能打通,但从告警情况来看,应该是除2号站外其它各站业务均是通的,估计是在通道保护倒换时的信号抖动引起交换机暂时断链(七号信令尤其敏感)。果然,两分钟后除2号站外其它各站电话均能打通。至此,基本上可以判断是2号站从备环上接收有问题;(6) 再断开1号站11板位SL1板的收端光纤(主环接收光纤),让1号站从备环方向接收

31、各站业务。这时除2号站外,1号站对应其余各站的业务通道均有大量误码,所有业务不通。由此分析得出,各站点到1号站的业务都要从备环经过2号站,估计是2号站12板位SL1板或交叉板GTC有问题;(7) 到2号站将两块SL1分别用光纤单独自环,然后交叉自环,用2M误码仪进行测试,发现从12板位SL1板接收的业务不通,判断该板有问题。更换一块SL1板后,测试正常,再测整个环的通道保护倒换正常,至此通道保护倒换故障排除;【结论和建议】2号站东向SL1光板接收有误码,导致备环工作不正常,保护倒换失败。2.7 通道保护倒换始终不恢复【系统概述】某工程组网如图17所示。四个站组成的一个622M通道保护环,1站为

32、网管中心站,集中型业务,即每个站均与1站有2M业务。 图17 系统组网图【故障现象】光路正常,3号站对1号站的业务通道始终有PS保护倒换告警;若将1号站西向光板发激光器关闭,3号站对1号站的业务中断,3号站的支路通道出现LP-SLM,TU-LOP等告警。 【故障分析及排除】(1) 从以上告警现象分析,3号站的主环有故障;(2) 将1号站西向光板的收发光纤拔掉,强迫2、3、4号站从主环收1号站发来的业务,1号站从备环方向收2、3、4号站发回的业务,此时1号站对应3号站的业务通道出现LP-SLM、TU-LOP告警。(3) 将1号站到3号站的业务在2号站找一个空闲的通道上下,配置成功后发现2号站新添

33、加的业务通道有LP-SLM、TU-LOP告警,说明故障点出在NE2或者NE1与NE2相连的光板上。(4) 将修改的业务恢复到原配置,通过一尾纤将1号站东向光板自环,1号站上的LP-SLM、TU-LOP等告警消失,说明故障点在2号站。(5) 分析中断的业务,发现均在同一个VC-4通道内,且告警为TU-LOP、LP-SLM等告警,怀疑2站交叉板故障的可能性较大。(6) 更换2站交叉板,1号站和3号站的业务恢复,故障排除。【结论和建议】2号站交叉板某个VC-4穿通有故障。2.8 复用段倒换状态不正常的处理【系统概述】某组网如下图18所示。5个站组成的一个2.5G复用段保护环,1号站为网管中心站,1号

34、站到其它各个站有业务。 图18 系统组网图【故障现象】某日,环上2号网元与3号网元之间断纤后,环上业务出现中断。【故障分析及排除】(1) 断纤复用段倒换后业务应能正常保护倒换,出现业务中断的原因可能是复用段倒换失败,各节点的倒换状态不对;(2) 查询3、4、5、1、2号站的复用段倒换状态,不是S#E(倒换东向)、P(穿通)、P、P、S#W(倒换西向)态。倒换状态不正确;(3) 通过网管“维护”菜单下的“复用段维护”,将复用段协议控制器停止后重新启动,业务出现正常。【结论和建议】在业务中断的情况下,及时恢复业务很重要,由于复用段协议复杂,受各种因素的影响可能导致倒换失败,在这种情况下可以重新启停

35、协议,试一下倒换能否恢复正常。遇到复用段倒换失败,应查明原因,OptiX传输设备提供了复用段倒换事件记录的功能,复用段倒换失败应及时通知华为当地的维护工程师,以便收集数据进行分析。2.9 复用段节点参数设置错误引起倒换失败【系统概述】某组网如下图19所示。5个站组成的一个2.5G复用段保护环,1号站为网管中心站,1号站到其它各个站有业务。 图19 系统组网图【故障现象】2号和3号网元之间断纤后,部分业务中断。 查询3、4、5、1、2号网元的复用段倒换状态,不是S、P、P、P、S态,倒换状态不正确。 重新启动复用段协议,也不能进入正常的复用段倒换状态。【故障分析及排除】(1) 重新启动协议不能恢

36、复正常,可能与复用段节点参数设置有关。查询环上各个网元的复用段参数,结果为:站名1号2号3号4号5号查询返回的复用段节点号04321从上表中可以看出,复用段节点参数未按逆时针方向设置,设置的方向与逆时针方向相反;(2) 复用段节点参数设置错误导致了倒换出现异常。如:2号网元复用段模块处理时,默认为西向光板对应的网元节点号比本身小1,东向光板对应的网元节点号比本身大1,如果复用段节点参数设置不正确,必将导致协议处理出现异常;(3) 在网管上按逆时针方向重新设置复用段节点参数后,重启协议恢复正常。【结论和建议】复用段参数的设置必须按逆时针方向从“0”逐站递增,最大节点数为环上节点总数-1,复用段参

37、数的设置和修改要仔细。2.10 网元处于安装态复用段倒换异常【系统概述】某组网如下图20所示,5个站组成的一个2.5G复用段保护环,1号站为网管中心站,1号站到其它各个站有业务。 图20 系统组网图【故障现象】某日,2号网元与3号网元之间断纤后,网上部分业务中断,查询全网倒换告警,发现4号网元无保护倒换告警,查询倒换状态4号网元未进入穿通态。【故障分析及排除】(1) 网元未进入倒换状态,可能与配置有关;(2) 查询各网元的复用段参数,发现4号网元复用段参数丢失;查询4号网元的网元运行状态,为“安装态”;(3) 由于网元进入安装态,配置和复用段节点参数丢失,导致复用段倒换不正常;(4) 重新下发

38、配置后解决。【结论和建议】由于复用段倒换协议涉及到主控板、线路板、交叉板,环上此类单板任何一块工作不正常都可能导致复用段倒换失败。在日常维护中,如果发现网元进入安装态或者有单板不在位,应及时处理。2.11 光路误码复用段未倒换【系统概述】某组网如下图21所示, 5个站组成的一个2.5G复用段保护环,1号站为网管中心站,1号站到其它各个站有业务。 图21 系统组网图【故障现象】某日,1号站到4、5号站的部分业务出现了中断,查询相应支路板的业务没有TU-AIS告警,查询支路板性能有误码,查询5号支路板有B2SD告警。【故障分析及排除】(1) 可以判断是由于支路板出现误码导致业务出现了异常,由于出现

39、异常的业务都经过了5号网元的东向光板,而该光板有B2SD告警。可以初步定位该段光路误码导致了业务的异常,在光路异常的情况下,复用段保护为什么没有倒换呢?(2) 线路出现了大误码,导致对电路要求高的业务出现了中断,线路出现大误码的原因是5号网元收1号网元的尾纤受到挤压,导致收光功率过低,而主机缺省是将SD倒换功能关闭的,复用段未倒换;(3) 通过网管“维护”菜单下的“线路板维护”,将1号网元西向光板的激光器关断,5号网元上报R-LOS告警,全环复用段保护倒换后,业务恢复正常。或者,可以对5号网元进行东向强制倒换。(4) 出现B2SD的原因是尾纤受到挤压,衰减增大,更换后解决。【结论和建议】光路误

40、码是否作为复用段倒换条件,可根据光路条件决定,要避免环上多处光路有误码,引起复用段倒换影响业务。2.12 下插MS-RDI告警导致复用段倒换失败【系统概述】某组网如下图22所示。 5个站组成的一个2.5G复用段保护环,1号站为网管中心站,1号站到其它各个站有业务。 图22 系统组网图【故障现象】某日,网上一处断纤后,网上部分业务中断,查询全网倒换状态,发现全网保护倒换不正常。【故障分析及排除】(1) 可能是由于某种原因导致复用段倒换失败,但重新启动协议后全环复用段倒换仍然不正常,进一步分析可能是复用段参数配置不正确或者K字节传递不正常。(2) 查询各网元的复用段参数,各网元参数正常。查询网上各

41、网元的告警,发现4号网元西向光板有MS-RDI告警。而3号网元收4号网元的光路正常,为什么4号网元有MS-RDI告警呢?可能的原因是人工在3号网元的东向光板插入了MS-RDI告警,或者是单板告警误报。(3) 单板插入了MS-RDI告警,将导致K2字节的后3位bit始终为110(MS-RDI),导致K字节不能正常在3号节点进行穿通,导致复用段倒换异常。(4) 分析原因是,用网管向该网元的一光板下插过MS-RDI,导致K字节在该网元无法正常穿通,影响复用段保护倒换。【结论和建议】K字节在环上的正确传递是复用段倒换成功的根本条件,如果K字节在传递过程中出现错误,将导致复用段倒换失败。2.13 穿通业

42、务有时分的节点失效后对业务的影响【系统概述】某组网如下图23所示,5个站组成的一个2.5G复用段保护环,1号站为网管中心站,1号站到其它各个站有业务。 图23 系统组网图【故障现象】5号网元掉电后,其它各网元正常倒换,但4号网元经由5号网元到1号网元的业务中断。【故障分析及排除】(1) 分析4号网元到1号网元的业务在5号网元的穿通配置,发现5号网元的该穿通配置进行了的VC-12级别时分交叉:W1,1732E1,116;当5号网元节点失效后,两侧的网元将进入倒换状态,而双向复用段倒换是以VC-4为基础的,将导致穿通点的时分交叉信息丢失;(2) 重新配置业务,将各站点穿通业务的时分取消。【结论和建

43、议】OptiX 设备交叉能力强,合理安排时隙可以避免穿通业务的时分。3 误码问题的处理3.1 温度过高产生误码的案例【系统概述】某局本地网采用华为OptiX 155/622 SDH光传输系统,组网方式为两纤单向通道保护环,如图24所示,业务分配为集中型,即各站均只与1站有业务。图24 系统组网图【故障现象】在设备运行中,1号站到3号站的部分业务出现异常,1号站与3 号站的部分PD1板上报LP-REI告警,并有LPBBE、LPES性能事件,用误码仪测试告警通道有误码,2、4号站与1号站的业务正常。【故障分析及排除】(1) 将3号站相应通道作远端环回,则1号站告警及性能事件依旧;(2) 再将3号站

44、东向光板作外环回,则1号站告警和性能事件均消失;基本排除了1号站和4号站故障的可能性;(3) 将3号站西向光板作内环回,3号站的PD1板仍告警,由此可以基本定位故障出在3号站。(4) 携备板赶往3号站,发现第2板位的PD1板有告警,而且单板温度很高,检查发现子架风扇的防尘网严重堵塞,清洗防尘网后,继续观察发现告警及性能事件消失,设备恢复正常。本次故障的原因是由于3号站机房环境较差,而且维护人员对风扇的清洗不及时导致子架温度过高,使支路板性能劣化从而产生误码。【结论和建议】对于温度问题我们一定要重视,日常维护中要经常清洗风扇并定期从网管上查看设备环境温度,PUM板的温度告警门限设置要在0度40度

45、,这样设备温度过高网管会上报告警,从而及时采取降温措施。知识点:若本端上报BBE性能事件,则表示本端接收侧检测到了误码,远端发和本端收之间的通道存在问题。若本端上报FEBBE性能事件,则表示远端接收侧检测到了误码,本端发和远端收之间的通道存在问题。3.2 交叉板故障导致部分通道误码【系统概述】某局采用华为OptiX 155/622 SDH传输系统组建本地网,组网方式为两纤单向通道保护环,如图25所示,业务分配为集中型,即各站均只与1站有业务;其中5站通过双光口155M光板SL2带出扩展子架-网元 6。图25 系统组网图【故障现象】在设备运行中,1站到6站的业务突然出现异常,1站和6站的部分PL

46、1板报LP-REI告警,并有LPBBE、LPES性能事件,用误码仪测试告警通道有误码。【故障分析及排除】通过对我们的分析可以看出,只有与6号站有关的业务有误码,那么基本可以判断故障应该在1号站、5号站或6号站,可以进一步通过环回定位:(1) 将5站相应的SL2内环回,则1站告警及性能事件均消失,解除环回故障现象重现;基本排除环上的其它站的问题,把故障范围缩小到5站和6站两个站。(2) 将6站相应的SL2外环回,1站的PL1板一切正常,解除环回故障现象重现;由此基本排除了5站故障的可能性。(3) 因而,基本可以定位故障出在6站;携带备板到6站,逐个更换PL1、SL2无效,更换6站的GTC则故障消

47、失。由于5、6站所在机房的空调损坏,室内空间狭小,房间密不透风,设备工作于高温(40左右)环境之下,GTC的损坏极可能与此有关。【结论和建议】对误码的处理要个个击破,不要被太多的通道误码干扰,一定要找到有误码业务的共性(例如:经过某站的业务;终结于某站的业务;到某块支路板的业务;经某块光板穿通的业务等),进行经验判断,进而从中跟踪一个2M,通过我们的法宝:环回,来逐步确定故障的范围(注:环回会中断业务,一定要在业务量少时进行;环回有可能造成ECC不通,要认真分析ECC确认不会影响网管管理后再进行环回操作);确定为某站时,再使用单板替换法来定位并解决故障,注意:一定要把可能跟故障有关的备板带齐,

48、避免走冤枉路并浪费时间。3.3 收光功率过低产生误码的案例【系统概述】某局本地网采用华为OptiX 2500+ SDH传输系统,组网方式为两纤双向无保护链,如图26所示(站间距均在60公里左右),1站为中心站设立网管,业务分配为集中型,即各站均只与1站有业务。 图26 系统组网图【故障现象】 在设备运行中,1站到4站的业务出现异常,现象为业务时通时断,有大量误码。交换机中继板无告警,但信令链路无法建立。检查告警和性能发现,4站的光板上报RSBBE、MSBBE、HPBBE、LPBBE(B1、B2、B3、V5)误码,同时1站上报MSFEBBE、HPFEBBE和LPFEBBE等性能事件;2站、3站与

49、1站的业务正常。【故障分析及排除】对于同时出现B1、B2、B3、V5误码,很可能是线路光缆问题,且高阶误码引起了低阶误码,我们一般先处理高阶误码:(1) 将3站东向光板作内环回,则1站性能事件均消失,基本排除了1、2和3站除东向光板外的所有单板的故障;(2) 将4站西向光板作外环回,1站仍有远端背景误码块,因此怀疑是3站东向光板发或4站西向光板收故障或收光功率不正常;(3) 携带相同型号的备板赶往4站,首先测试收光功率发现光功率为-33dBm,对于长距光板已经超过灵敏度,属于临界状态,在维护人员的配合下调换光纤后收光功率为-18dBm,业务恢复正常。本次故障的原因是光缆的性能劣化导致光衰耗增大

50、,使光板收光功率变低引起误码。【结论和建议】我们在进行误码分析的时候,要遵循“先线路后支路,先高阶后低阶”的故障定位原则,对于线路上的B1、B2、B3误码,常见的原因是:l 光功率过低,在灵敏度附近;l 光功率过高,在过载点附近;l 光功率正常,色散过大;l 单板的故障;l 光纤的问题,包括:光缆、尾纤;l 光纤头不清洁或连接器不正确;l 时钟同步性能不好等;l 机房条件,包括:温度、电源稳定行、接地情况等。可见,光功率是个重要的因素,所以对出现误码的光路需要了解这几点:光板类型(长短距、过载点、灵敏度)、发光功率、收光功率、光纤衰减值、光缆距离。3.4 线路板故障导致部分通道误码【系统概述】

51、某局采用华为OptiX 155/622 SDH传输系统组建本地网,组网方式为两纤单向通道保护环带链,2站是业务集中站,如图27所示: 图27 系统组网图【故障现象】 在设备运行中,2站到4站和6站的部分业务突然出现异常,2站和4站、6站的部分PD1板报LPREI告警,并有LPBBE、LPES性能事件,用误码仪测试告警通道有误码。2站到1、3、5站的业务均正常。【故障分析及排除】首先分析出现误码的业务,发现出现故障的业务都分布在通道环上的第二个VC-4中,选中其中一条业务进行跟踪监测:(1) 拔掉2站西向接收光纤,强制2站从东向接收4、6站业务;无效,基本排除1站和5站东侧光板的故障;(2) 将

52、4站东向第二个VC-4内环回,2站故障依旧,基本排除5站和6站故障;(3) 再将4站西向第二个VC-4外环回,2站所有告警和性能事件均消失,由此基本可以定位故障出在4站,更换4站西向光板后故障排除。本次事故的原因是4站西向光板第二个VC-4故障,导致该VC-4上所有2M业务出现误码,现场定位后通过换板排除。【结论和建议】在排除误码故障时,首先需要有网络长期运行的性能数据,从中分析误码的特点:是持续的小误码、突发的大误码、还是零星小误码。对于每15分钟性能都有误码的情况,可以马上通过自环线路板,或更换单板来定位问题所在;对于突发或零星误码,较难定位,但大多为外界干扰有关,请认真检查地线及设备运行

53、环境等。知识点:线路误码一般与光板及光缆有关,也可能与时钟和交叉板有关;支路误码一般与支路板及交叉板有关,但不排除例外情况,如本案例。3.5 色散过大导致光路误码【系统概述】某局本地网采用华为OptiX 2500+传输系统,组网方式为二纤双向无保护链,如图28所示,1站为中心站设立网管,业务分配为集中型,即各站均只与1站有业务,且各站距离均在80公里左右,使用同一型号的光板。 图28 系统组网图【故障现象】 在工程中,系统联调时发现,1站到3站、4站的业务异常,接到交换后现象为业务时通时断,挂表测试有大量误码。检查告警和性能发现,3站的西向光板持续上报大量误码,2站到1站的业务正常。【故障分析

54、及排除】首先通过环回操作,缩小故障点范围,然后通过换板等手段定位、排除故障:(1) 将2站东向光板作内环回,则1站告警和性能事件均消失;基本排除1站和2站东向光板外其他部分故障的可能性;(2) 将3站西向光板作外环回,1站测试仍有误码,因此怀疑是2站东向光板或3站西向光板故障或收光功率不正常;(3) 携备板赶往3站,首先测试收光功率,为-24dBm,接收光在正常范围之内;(4) 对调3站东、西两块光板,仍然是3站西侧有误码;基本排除了3站光板故障的可能性(若对调后误码发生在3站东侧,则说明原西侧光板故障);(5) 对调2站东、西向两块光板,此时2站西向出现大误码;说明2站原东向光板有问题,更换

55、原2站东向光板,故障排除。本次故障的原因是由于2站东向光板故障,即激光器的色散受限距离不能满足要求,导致信号在长距传输过程中造成较大的色散,虽然3站接收到2站的光功率值满足要求,但色散值已经超出可辨别的范围,导致大误码,更换单板后解决。【结论和建议】知识点:影响长距离传输中信号质量的几个要素:衰耗、色散、信噪比。对于高速率信号要特别注意色散,对于波分及其他使用了EDFA的设备,就要重点关注一下信噪比了;当然,时刻不能忽略率耗对业务的影响。经验之谈:为确定误码是由光板产生的,还是由光缆段产生的,大致可采用以下两种方法粗略定位:(1) 将有误码的相邻两个站的线路板进行东西向对换(如以上处理的4、5

56、两步),观察误码是跟着光板走,还是固定在某个方向;(2) 将一段光路的收、发两个方向的光缆芯纤进行对换,观察误码是随着板子走还是随着芯纤走,也可以大概定位误码产生的原因。4 指针调整的处理4.1 时钟跟踪配置错误引起断纤后指针调整【系统概述】某局由4个OptiX 155/622网元组成二纤单向通道保护环,全网由第4站自由振荡产生基准时钟,其余单站均跟踪西向时钟与第4站保持同步;各单站时钟跟踪级别设置如图29所示。图29 系统组网图【故障现象】1站与4站之间的光缆中断后,各站业务均正常保护倒换,但出现AU及TU指针调整,并伴随误码,观察发现指针调整频率和误码率随时间呈逐渐上升的趋势。【故障分析及排除】(1) 检查各站时钟设置发现1站的时钟跟踪级别设置错误(本应设为w1s8k/intr,被误设为w1s8k/e1s8k/intr);(2) 更改该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论