PTN设备故障定位处理指导书_第1页
PTN设备故障定位处理指导书_第2页
PTN设备故障定位处理指导书_第3页
PTN设备故障定位处理指导书_第4页
PTN设备故障定位处理指导书_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、ptn设备故障维护指导故障定位处理ptn设备故障维护指导 故障定位处理目 录1 前言42 故障处理基本原则52.1 故障处理基本原则52.2 故障处理注意事项53 故障处理流程63.1故障处理总流程图63.2故障处理流程说明63.3故障通报和技术支持64 常见故障处理104.1带内dcn故障处理104.1mpls tunnel 故障处理144.3pw故障处理164.4ces故障处理184.5以太网业务故障处理224.6 时钟故障处理264.7 lag故障处理284.8 mpls aps故障处理315 处理案例355.1 ip地址冲突导致网元间歇性脱管355.2 ip tunnel承载业务时选择

2、以太tag模式导致业务不通375.3 用户侧环回导致e-lan业务出现广播风暴385.4 bts时钟源配置错误导致业务大量丢包406 部件更换436.1 注意事项436.2 所需工具/仪表446.3 更换处理板456.4 更换子卡476.5 更换接口板506.6 更换交叉板516.7 更换带1+1保护的sca单板536.8 更换风扇板566.9 更换piu单板576.10 更换光模块586.11 更换cf卡60page 63 of 631 前言本文档主要向您介绍了以下内容: 不同维护场景下ptn设备的例行维护项目、维护周期,以及维护步骤。 告警、性能事件的基本概念,设备支持情况及处理方法。 设

3、备的故障处理过程、方法。 更换部件的过程、方法。本文档主要适用于以下工程师: 系统维护工程师 网络监控工程师 现场维护工程师2 故障处理基本原则2.1 故障处理基本原则请遵循以下原则对故障进行分析、定位和处理: 以尽快恢复系统监控为原则。 定位故障时,应及时采集故障数据信息,并尽量将采集到的故障数据信息保存在移动存储介质中或网络 中其它计算机中。 在确定故障处理的方案时,应先评估影响,优先保证业务的正常传送。 第三方的硬件故障,可查看第三方的相关资料或拨打第三方公司的服务电话。 如果无法定位出故障点或无法按手册解决故障,中国区可以拨打华为公司24小时问题受理电话: 400-830-2118,其

4、他地区也可以直接联系当地的华为全球tac服务中心,以获取技术支持,并配合华为公司工程师处理故障,最大程度减少业务中断时间。2.2 故障处理注意事项 应先分析故障现象,定位原因后再进行处理。在原因不明的情况下应避免盲目操作,导致问题扩大化。 对于网管的故障修复,不能影响网元的运行。 在处理故障前,需要保留好故障现场的任何记录,不能随意删除数据或日志。 在处理故障时,为了确保客户网络的安全和隐私,如果需要采集相关故障日志,请事先得到客户的同意。 在处理故障时,为了确保系统安全,如果需要向服务器端上传或者从服务器端下载某些文件,推荐采用更加安全的sftp协议。 在进行任何修改前,应先通过脚本导出、手

5、工备份等方式备份网管的数据。 在系统恢复后,必须对运行情况进行观察,确认故障已经排除并及时填写相关的处理报告。 在solaris操作系统中,如果启用setsolaris系统安全加固之后,只有nmsuser用户的ssh服务具有登录权限。为了您的系统安全,推荐使用ssh登录方式。如果需要使用其他登录方式,如telnet,需要先开启telnet服务以及登录用户的访问权限。在suse linux操作系统中,如果启用setsuse系统安全加固之后,只有nmsuser用户的ssh服务具有登录权限。为了您的系统安全,推荐使用ssh登录方式。如果需要使用其他登录方式,如telnet,需要先开启telnet服务

6、以及登录用户的访问权限。3 故障处理流程3.1 故障处理总流程图本节介绍故障处理的基本流程图。故障处理流程图如图1所示。图1 故障处理流程图 3.2 故障处理流程说明本节对故障处理的流程进行引导说明。观察并记录故障现象首先应该仔细观察和了解故障的各种现象并记录下来。进行故障记录时,力求做到对故障发生的全过程进行真实、详细的记录。对于故障发生的时间,在故障前后所做的操作等重要信息都要进行详实地记录。同时对于网管中的告警信息,性能事件等重要数据也要进行保存。收集故障相关信息了解故障现象后,需要收集有助于查找故障原因的更详细信息。如网管结构是否有变动,网管配置是否有更改等。经验判断和理论分析利用观察

7、的故障现象和收集的故障信息,根据故障处理经验和所掌握的设备知识分析故障的可能原因。各种可能原因列表列出根据经验判断和理论分析后总结的各种可能原因。对可能原因进行排查根据所列出的可能原因制定相应的故障排查计划并进行操作,分析最有可能的原因。说明: 对可能原因进行排查时,每次只能对一个原因进行排查操作。观察故障是否排除当针对某一原因执行了排查操作后,需要对结果进行分析,判断问题是否解决,是否引入了新的问题。 如果故障依然存在,则联系华为技术支持工程师。 如果故障已解决,则填写问题处理报告。联系华为工程师共同排查故障如果遇到某些困难无法排除故障时,可以联系华为技术支持工程师一同制定解决方案,处理故障

8、。故障通报和技术支持的联系方式请参见故障通报和技术支持。如果需要远程维护,请参考远程维护指导,配合华为工程师完成远程接入。填写问题处理报告故障排除后,需要对所做的工作进行及时的记录。对工作经验进行总结的同时,也为类似的故障提供可参考的处理信息。处理报告中需要重点记录以下内容: 故障现象描述及收集到的相关信息。 故障发生的可能原因。 对每一可能原因制定的方案和实施结果。 排查过程中接触到的设备和使用的仪表清单。 排查过程的心得体会。 其他:如在排查过程中使用到的参考资料等。3.3 故障通报和技术支持在故障处理过程中,您可以根据需要,及时通报故障和申请华为公司的支持。遇到难以确定或解决的问题时,请

9、尽快与华为技术有限公司客户服务中心联系。华为技术有限公司地址:深圳市龙岗区坂田华为总部办公楼邮编:518129网址:客户服务电话:400-830-2118客户服务邮箱:support设备出现重大故障时,请采用电话或传真的方式申请华为技术支持工程师支援。请将应急处理中更换的设备部件返回华为技术有限公司维修,并可根据服务合同的承诺条款申请提供相应的备份部件。说明: 您可以从华为技术有限公司的技术支持网页上直接获取最新的技术资料,帮助您分析和处理故障。网址:4 常见故障处理4.1 带内dcn故障处理本节介绍带内dcn出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步

10、骤等。前提条件查看工程文档,确认网元各个单板均使用配套版本。故障现象处理带内dcn的故障时,通常会遇到以下故障现象。 网管与网元通信中断,网管上网元图标变灰色,网元脱管。 网管操作命令没有响应。若响应中断时间持续超过2分钟,网管与网元通信中断。 网管查询信息部分丢失。故障处理流程图带内dcn故障处理流程图如图1所示。图1 带内dcn故障处理流程图 对系统的影响 网元和网管通信中断后,通过该网元来保持与网管通信的网元,若无其它方法连接网管,也将处于脱管状态。其它网元则无影响。 若承载带内dcn的物理通道故障,则会影响该物理通道上承载的其它业务。可能原因对应故障处理流程图,带内dcn故障原因如下:

11、 原因1:全网内的网元id、网元ip或者子网掩码存在冲突。 原因2:故障网元的带内dcn端口未使能,或对接端口参数配置不一致。 原因3:故障网元与网管之间的物理连接中断。 原因4:接收信号丢失或接收光功率过低,无法提取dcn报文。 原因5:单板故障。 原因6:dcn穿越的第三方网络不健康,引入dcn风暴或dcn中断。 原因7:带内dcn通道带宽配置过低。 原因8:故障网元主控板正在复位或发生了主备倒换,带内dcn报文得不到响应。工具、仪表和材料u2000注意事项注意: 在定位故障前,请务必先检查网元各单板已使用配套版本。如果版本不配套,需要及时更换单板。说明: 处理带内dcn故障时: 如果网元

12、通信中断,先处理网关网元的故障,再处理非网关网元的故障。 如果网元通信未中断,先处理非网关网元的故障,再处理网关网元的故障,避免造成非网关网元脱管。说明: 当网元脱管时,可以使用其它工具尝试登录故障网元。 如果可以正常登录,说明设备的通信正常,问题可能由网管引入,联系负责网管维护的工程师处理。 如果不能登录,可以采用pc机直连设备的eth端口。如果可以通信,说明是线路问题,否则是设备问题。操作步骤 原因1:全网内的网元id、网元ip或者子网掩码存在冲突。 1. 此原因一般由全网中新添加的网元引入。对照网元规划表,检查新网元的网元id、网元ip、子网掩码的配置是否正确。 2. 若配置错误,或与现

13、有网元存在冲突,请正确配置新网元的参数。 原因2:故障网元的带内dcn端口未使能,或对接端口参数配置不一致。 1. 检查是否存在光纤或电缆连接到默认使能dcn的端口。如果没有,换用默认使能dcn的端口。 2. 检查链路两端的端口是否已使能dnc。如果没有,使能端口的带内dcn。 3. 检查两端端口的参数配置是否一致,例如以太网端口的工作模式。如果不一致,修改参数配置使两端一致。 原因3:故障网元与网管之间的物理连接中断。 1. 检查故障网元的网线或光纤是否从端口中脱落。如果是,重新插上网线或光纤。 原因4:接收信号丢失或接收光功率过低,无法提取dcn报文。 1. 检查网元的历史告警中是否存在r

14、_los、eth_los或in_pwr_abn等告警。 原因5:单板故障。 1. 查询单板的历史告警中是否存在hard_bad或temp_over告警。 2. 若存在,更换上报告警的单板。 原因6:dcn穿越的第三方网络不健康,引入dcn风暴或dcn中断。 1. 若带内dcn通信穿越了第三方网络,需要检查第三方网络中是否存在端口环回、物理通道中断等故障。 2. 如果存在,需要立即排除第三方网络中的故障。 原因7:带内dcn通道带宽配置过低。 1. 当端口配置的业务数量超过某一数目时,可能造成部分查询信息丢失,此时需要适当增大带内dcn通道的带宽配置。 原因8:故障网元主控板正在复位或发生了主备

15、倒换,带内dcn报文得不到响应。 1. 观察主控板的prog指示灯是否处于绿灯闪烁状态,若是,则主控板正处于复位状态。等prog指示灯常亮绿色时,主控板完成复位,dcn将自动恢复连接。 说明: 若主控板发生了主备倒换,“当前板”将自动软复位。2. 若dcn未恢复响应,检查其它单板是否发生保护倒换,造成带内dcn报文处于重路由状态。具体操作请参见查询保护配置。 3. 若存在单板发生保护倒换,等待dcn完成重路由后,将自动恢复响应。 4.2 mpls tunnel故障处理本节介绍mpls tunnel创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤

16、等。故障现象处理mpls tunnel的故障时,通常会遇到以下故障现象。 mpls tunnel创建失败,业务不通。 mpls tunnel故障,业务中断。 保护倒换失败,业务中断或出现丢包、误码。对系统的影响若mpls tunnel故障,则会影响网络中由该tunnel承载的业务,但由其他tunnel承载的业务正常。可能原因mpls tunnel故障原因如下: 原因1:路由失败。 原因2:交叉创建失败。 原因3:tunnel所在的物理链路故障。 原因4:保护倒换失败。工具、仪表和材料u2000操作步骤 原因1:路由失败。 1. 对照网络规划,检查tunnel两端端口参数配置是否正确,例如端口i

17、p。修正不正确的端口参数后,再次创建tunnel。 2. 检查tunnel首末节点所在的网元间是否存在完整可达的链路。若不存在,修复链路中残缺或故障的部分。 3. 可选:确认动态tunnel配置的“路由约束”条件和“颜色”(亲和属性)是否正确。修正不正确的参数信息,具体操作请参见新建tunnel。 4. 可选:如果tunnel配置了带宽,检查链路带宽是否满足tunnel的要求。 说明: mpls tunnel的配置操作请参见配置指南手册中的配置mpls tunnel。 原因2:交叉创建失败。 1. 检查网络中是否存在网元使用不同的网段。如果存在,需要修改端口ip地址。 2. 检查tunnel是

18、否配置了不兼容的保护特性。详细内容请参见版本说明书。 3. 查看tunnel所经过的网元或单板,确认已创建tunnel个数是否已经达到了最大值。如果是,需要重新规划或删除冗余的tunnel。 原因3:tunnel所在的物理链路故障。 1. 查询系统中是否存在hard_bad、r_los、eth_los、ppp_lcp_fail或mp_down等告警,指示tunnel使用的物理链路故障。若存在,优先处理这些告警。 2. 查看并处理系统中存在的下列告警。 mpls_tunnel_bdimpls_tunnel_excessmpls_tunnel_fdimpls_tunnel_locvmpls_tun

19、nel_mismatchmpls_tunnel_mismergempls_tunnel_sdmpls_tunnel_sfmpls_tunnel_unknownmpls_tunnel_rdimpls_tunnel_aismpls_tunnel_aismpls_tunnel_unexpmegmpls_tunnel_unexpmepmpls_tunnel_unexpper3. 检查对端设备是否存在单板故障或网元复位等异常状况。排除对端设备的异常情况。 原因4:保护倒换失败。 4.3 pw故障处理本节介绍pw创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理

20、步骤等。故障现象处理pw故障时,通常会遇到以下故障现象。 pw创建失败,业务不通。 pw故障,业务中断或出现丢包、误码。对系统的影响若pw出现故障,则会影响承载在该pw上的业务,但其他pw承载的业务正常。可能原因pw故障原因如下: 原因1:ldp会话创建失败,pw创建不成功。 原因2:物理链路故障,ldp会话失效。 原因3:pw交叉建立失败。 原因4:pw所在的tunnel故障。 原因5:pw aps保护倒换失败。工具、仪表和材料u2000操作步骤 原因1:ldp会话创建失败,pw创建不成功。 1. 检查pw两端网元是否配置了ldp对等体。若未配置,需要重新配置ldp对等体。 2. 检查pw两

21、端参数是否配置正确。举例如下: “控制字使用策略”,是否一端配置为“必须使用”,另一端配置为“不使用”。 对ethernet业务,两端的“mtu”是否配置一致。 对ces业务,两端的“rtp头”、“报文装载时间”等参数是否配置一致。 原因2:物理链路故障,ldp会话失效。 1. 检查pw首末节点间物理链路是否正常,系统中是否存在hard_bad、laser_mod_err、r_los或eth_los等告警。具体操作请参见在u2000上查询当前告警。 2. 若存在,优先处理hard_bad、laser_mod_err、r_los或eth_los告警。 3. 查询并处理系统中存在的pw_down、

22、pw_droppkt_exc或pw_exc_traffic告警。 4. 检查对端设备是否存在单板故障或网元复位等异常状况。排除对端设备的异常情况。 原因3:pw交叉建立失败。 1. 查看pw所经过的网元或单板,确认已创建pw个数是否已经达到了最大值。如果是,需要重新规划或删除冗余的pw。 原因4:pw所在的tunnel故障。 1. tunnel故障,请参见mpls tunnel故障处理。 原因5:pw aps保护倒换失败。 1. 查看并处理系统中存在的下列告警。 pwaps_lostpwaps_path_mismatchpwaps_switch_failpwaps_type_mismatch4

23、.4 ces故障处理本节介绍ces业务出现中断或误码等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。故障现象处理ces业务的故障时,通常会遇到以下故障现象,如表1所示。消除设备上报的告警后,故障也随之排除。表1 ces业务常见故障现象一览表现象上报告警ces业务中断hard_bad、temp_over、commun_fail或bus_errt_alos、up_e1ais或dn_e1aisr_los、laser_mod_err、lsr_will_die、in_pwr_abn、tem_ha或lsr_bcm_almmpls_tunnel_locvpw_down

24、ces业务出现误码,通信质量下降hard_bad、temp_over或bus_errsync_c_los或ltilaser_mod_err、lsr_will_die、in_pwr_abn、tem_ha或lsr_bcm_almces_lospkt_exc、ces_misorderpkt_exc、ces_straypkt_exc、ces_jtrudr_exc或ces_jtrovr_exc故障处理流程图ces业务故障处理流程图如图1所示。图1 ces业务故障处理流程图 对系统的影响网络中ces业务中断或出现误码,通信会中断或质量下降。若故障由于sca或xcs单板造成,则可能影响设备接入的其它业务。可

25、能原因根据故障处理流程图,ces业务故障原因如下: 原因1:单板硬件故障、温度过高或板间通信故障,无法正常工作。 原因2:处理板、接口板的接口接入的信号丢失或恶化。 原因3:承载ces业务的tunnel或pw中断。 原因4:网元的同步时钟源级别丢失,或同步时钟源丢失。 原因5:承载ces业务的pw在单位时间内丢包数、错包数或抖动缓冲超过阈值。工具、仪表和材料u2000、光功率计、sdh分析仪或误码议注意事项危险: 严禁眼睛靠近或直视光接口或光纤接头。光接口及光纤内部的激光束会伤害您的眼睛。操作步骤 原因1:单板硬件故障、温度过高或板间通信故障,无法正常工作。 1. 查询系统当前告警,是否有ha

26、rd_bad、temp_over、commun_fail或bus_err告警,并确定上报告警的单板。具体操作请参见在u2000上查询当前告警。 2. 参考告警和性能事件参考手册,处理hard_bad、temp_over、commun_fail或bus_err告警,排除故障。 原因2:处理板、接口板的接口接入的信号丢失或恶化。 1. 查询系统是否有t_alos、up_e1ais或dn_e1ais告警,处理t_alos、up_e1_ais或down_e1_ais告警。 2. 查询系统是否有r_los告警,处理r_los告警。 3. 查询系统是否有laser_mod_err、lsr_will_die

27、、in_pwr_abn、tem_ha或lsr_bcm_alm告警,处理laser_mod_err、lsr_will_die、in_pwr_abn、tem_ha或lsr_bcm_alm告警。 原因3:承载ces业务的tunnel或pw中断。 1. 查询系统是否存在mpls_tunnel_locv告警。若存在,处理mpls_tunnel_locv告警。 2. 查询系统是否存在pw_down告警。若存在,处理pw_down告警。 原因4:网元的同步时钟源级别丢失,或同步时钟源丢失。 1. 查询系统是否有sync_c_los或lti告警,处理sync_c_los或lti告警。 原因5:承载ces业务的

28、pw在单位时间内丢包数、错包数或抖动缓冲超过阈值。 1. 查询系统是否有ces_lospkt_exc、ces_misorderpkt_exc或ces_straypkt_exc告警,处理ces_lospkt_exc、ces_misorderpkt_exc或ces_straypkt_exc告警。 2. 查询系统是否有ces_jtrudr_exc或ces_jtrovr_exc告警,处理ces_jtrudr_exc或ces_jtrovr_exc告警。4.5 以太网业务故障处理介绍以太网业务出现中断或丢包故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。故障现象处理以

29、太网业务的故障时,通常会遇到以下故障现象,如表1所示。消除设备上报的告警后,故障也随之排除。表1 以太网业务常见故障现象一览表现象上报告警以太网业务中断hard_bad、temp_over、commun_fail或bus_erreth_los、eth_auto_link_down或mac_fcs_excr_loseth_link_downloop_almeth_efm_loopbacklaser_shut或lsr_will_die以太网业务出现丢包或错包hard_bad、temp_over或bus_errlsr_will_diemac_fcs_exc或flow_overeth_cfm_unex

30、peri故障处理流程图以太网业务故障处理流程图如图1所示。图1 以太网业务故障处理流程图 对系统的影响网络中以太网业务中断、出现丢包或错包,若故障由于sca或xcs单板造成,则可能影响设备接入的其它业务。可能原因根据故障处理流程图,以太网业务故障原因如下: 原因1:单板硬件故障、温度过高或板间通信故障,无法正常工作。 原因2:接收信号丢失。 原因3:以太网网口连接错误,端口协商失败。 原因4:端口配置了环回。 原因5:接口流量限值配置过低,源宿两端接口配置不一致。工具、仪表和材料u2000、光功率计注意事项危险: 严禁眼睛靠近或直视光接口或光纤接头。光接口及光纤内部的激光束会伤害您的眼睛。操作

31、步骤 原因1:单板硬件故障、温度过高或板间通信故障,无法正常工作。 1. 查询系统当前告警,是否有hard_bad、temp_over、commun_fail或bus_err告警,并确定上报告警的单板。具体操作请参见在u2000上查询当前告警。 2. 参考告警和性能事件参考手册,处理hard_bad、temp_over、commun_fail或bus_err告警。 原因2:接收信号丢失。 1. 查询系统是否有eth_los或eth_auto_link_down告警,处理eth_los或eth_auto_link_down告警。 2. 查询系统是否有r_los告警,处理r_los告警。 3. 查

32、询系统是否有laser_shut或lsr_will_die告警,处理laser_shut或lsr_will_die告警。 4. 查询系统是否有mac_fcs_exc告警,处理mac_fcs_exc告警。 原因3:以太网网口连接错误,端口协商失败。 1. 查询系统是否有eth_link_down告警,处理eth_link_down告警。 原因4:端口配置了环回。 1. 查询系统是否有loop_alm告警,处理loop_alm告警。 2. 查询系统是否有eth_efm_loopback告警,处理eth_efm_loopback告警。 原因5:接口流量限值配置过低,源宿两端接口配置不一致。 1. 查

33、询系统是否有flow_over告警,处理flow_over告警。 2. 查询系统是否有eth_cfm_unexperi告警,处理eth_cfm_unexperi告警。 4.6 时钟故障处理本节介绍时钟源丢失、时钟信号劣化等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。故障现象处理时钟故障时,通常会遇到以下故障现象,如表1所示。消除设备上报的告警后,故障也随之排除。表1 时钟常见故障现象一览表现象上报告警业务出现误码sync_c_los、lti、s1_syn_change、syn_bad、ext_sync_los、clk_no_trace_mode或ext

34、_time_loc对系统的影响网络中时钟源丢失或时钟源质量下降时,会影响跟踪该时钟源的业务的质量,产生指针调整和误码率增高。可能原因造成时钟故障的原因如下: 原因1:优先级表中业务板上的同步时钟源级别丢失。 原因2:同步时钟源丢失,网元的时钟处于不正常状态。 原因3:在ssm模式下时钟源发生倒换,网元跟踪的时钟源也发生了倒换。 原因4:同步时钟源的信号劣化。 原因5:外部时钟源丢失。 原因6:时钟进入非跟踪工作模式。 原因7:外部时间源丢失。工具、仪表和材料u2000,频率计,ant20注意事项警告: 如果没有工作正常的备交叉板进行保护,硬复位交叉时钟板可能会引起业务完全中断。操作步骤 原因1

35、:优先级表中业务板上的同步时钟源级别丢失。 1. 查询系统是否有sync_c_los告警,具体操作请参见在u2000上查询当前告警。 2. 参考告警和性能事件参考手册,处理sync_c_los告警。 原因2:同步时钟源丢失,网元的时钟处于不正常状态。 1. 查询系统是否有lti告警,处理lti告警。 原因3:在ssm模式下时钟源发生倒换,网元跟踪的时钟源也发生了倒换。 1. 查询系统是否有s1_syn_change告警,处理s1_syn_change告警。 原因4:同步时钟源的信号劣化。 1. 查询系统是否有syn_bad告警,处理syn_bad告警。 原因5:外部时钟源丢失。 1. 查询系统

36、是否有ext_sync_los告警,处理ext_sync_los告警。 原因6:时钟进入非跟踪工作模式。 1. 查询系统是否有clk_no_trace_mode告警,处理clk_no_trace_mode告警。 原因7:外部时间源丢失。 1. 查询系统是否有ext_time_loc告警,处理ext_time_loc告警。 4.7 lag故障处理本节介绍lag出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。故障现象处理lag故障时,通常会遇到以下故障现象,如表1所示。清除设备上报的告警,故障也随之排除。表1 lag常见故障现象一览表现象上报告警聚合组失效

37、,所有成员端口不可用,业务中断lag_down聚合组成员端口不可用,业务丢包lag_member_downloop_almeth_efm_loopbacketh_loseth_link_down故障处理流程图lag故障处理流程图如图1所示。图1 lag故障处理流程图 对系统的影响 若聚合组失效,则承载的业务中断,但不影响其它通道承载的业务。 若聚合组成员失效,则负载分担模式下有可能因为带宽不够导致持续丢包。如果是非负载分担模式则会引发链路倒换,短暂丢包。可能原因对应故障处理流程图,lag故障原因如下: 原因1:聚合组两端网元配置错误。 原因2:聚合组成员端口工作模式设置为半双工。 原因3:聚合

38、组成员端口配置了环回。 原因4:聚合组成员端口连接故障或丢失。工具、仪表和材料u2000操作步骤 原因1:聚合组两端网元配置错误。 1. 检查是否存在lag_down或lag_member_down告警。 2. 检查聚合组两端网元配置是否不一致,若不一致,修改两端网元配置一致后,查看告警是否清除。 原因2:聚合组成员端口工作模式设置为半双工。 1. 检查聚合组各成员端口的工作模式是否设置为半双工,若存在,修改端口工作模式为全双工。 原因3:聚合组成员端口配置了环回。 1. 检查聚合组各成员端口是否存在loop_alm告警。若存在,重新设置端口的环回状态,清除loop_alm告警。 2. 检查聚

39、合组各成员端口是否存在eth_efm_loopback告警。若存在,禁止远端环回,清除eth_efm_loopback告警。 原因4:聚合组成员端口连接故障或丢失。 1. 检查聚合组各成员端口是否存在eth_los或eth_link_down告警。 2. 若存在,清除eth_los或eth_link_down告警。 若在处理故障中存在任何问题,可联系华为工程师。联系方式请参见故障通报和技术支持。 4.8 mpls aps故障处理本节介绍mpls aps出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。故障现象处理mpls aps故障时,通常会遇到以下故障

40、现象,如表1所示。清除设备上报的告警,故障也随之排除。表1 mpls aps常见故障现象一览表现象上报告警aps保护组配置错误或收不到aps帧,无法正常保护eth_aps_path_mismatcheth_aps_losteth_aps_switch_faileth_aps_type_mismatch工作tunnel或保护tunnel出现故障,倒换不成功mpls_tunnel_locv mpls_tunnel_mismerge mpls_tunnel_unexpmeg mpls_tunnel_mismatch mpls_tunnel_unexpmepmpls_tunnel_excessmpls

41、_tunnel_sdmpls_tunnel_sf mpls_tunnel_unknown mpls_tunnel_unexpper故障处理流程图mpls aps故障处理流程图如图1所示。图1 mpls aps故障处理流程图 对系统的影响aps保护组失效时,业务将无法得到保护。如果工作通道出现故障,业务将中断。可能原因对应故障处理流程图,mpls aps故障原因如下: 原因1:aps保护组两端配置不一致。 原因2:aps保护组两端协议状态未激活。 原因3:光纤或电缆连接错误。 原因4:保护通道所在单板存在硬件类告警,无法发送aps帧。 原因5:系统存在时钟类告警。 原因6:工作tunnel或保护

42、tunnel故障。工具、仪表和材料u2000操作步骤 原因1:aps保护组两端配置不一致。 1. 查看是否存在eth_aps_path_mismatch或eth_aps_type_mismatch告警。 2. 若存在,清除eth_aps_path_mismatch或eth_aps_type_mismatch告警。 原因2:aps保护组两端协议状态未激活。 1. 检查aps保护组是否存在eth_aps_lost或eth_aps_switch_fail告警。 2. 若存在,清除eth_aps_lost或eth_aps_switch_fail告警。 原因3:光纤或电缆连接错误。 1. 检查光纤或电缆

43、连接是否正确。 2. 若不正确,重新连接光纤或电缆。 原因4:保护通道所在单板存在硬件类告警,无法发送aps帧。 1. 检查aps保护通道所在单板是否存在hard_bad、commun_fail或bus_err等硬件类告警,若存在,清除hard_bad、commun_fail或bus_err告警后,查看aps保护组是否能够正常倒换。 原因5:系统存在时钟类告警。 1. 检查系统是否存在tr_loc、sync_c_los或lti等时钟类告警。 2. 若存在,清除tr_loc、sync_c_los或lti告警后,查看aps保护组是否能够正常倒换。 原因6:保护tunnel故障。 1. 检查工作tu

44、nnel或保护tunnel是否存在表1中tunnel级别的告警,若存在,则该tunnel已失去保护能力,优先清除该tunnel存在的告警后,查看aps保护组是否能够正常倒换。 若在处理故障中存在任何问题,可联系华为工程师。联系方式请参见故障通报和技术支持。 5 故障处理案例本章选取真实的工程维护案例,并总结排除类似故障时可遵循的一般思路。读者可以根据分类快速找到需要的案例。为便于管理,案例以“mc-axxx”方式编号,其中“mc”为maintenance case(维护案例)的缩写,“axxx”为流水序列号。5.1 ip地址冲突导致网元间歇性托管产品optix ptn系列产品故障类别dcn问题

45、网元ip地址冲突现象描述两台非网关网元ne10和ne30,分别通过ml-ppp连接第三方sdh设备,再连接到ne08与网管保持通讯。ne10和ne08已配置业务且正常运行,ne30为新创建的网元,未配置业务。ne30创建后,ne10和ne30一直处于间歇性脱管状态,网管也重复上报ne_commu_break和ne_not_login告警,但ne10和ne08上的业务未受影响。告警信息网管上报告警ne_commu_break和ne_not_login。网管告警的详细解释,请参考u2000联机帮助。原因分析ne30创建前,ne10运行正常,分析原因如下: 原因1:dcn通道质量变差,例如带宽不够,

46、或有误码。 原因2:网元ip地址冲突。操作步骤1. 因ne30未创建业务,首先检查ne10的ml-ppp端口状态,发现链路无问题,且业务一直都是正常。 基本排除dcn通道质量问题。 2. 查看ne30的网元ip,发现与第三方sdh网络中某网元的ip重复,确认为ne30网元ip设置错误。 3. 在网管上更改ne30的网元ip,返回提示成功后,发现该两个网元仍出现间歇脱管。重复更改ne30网元ip的操作一次,故障依旧。 4. 尝试查询ne30网元信息,重复数次后终于查询到需要的信息,但ne30网元ip仍为修改前的错误值,网管上修改ne30网元ip的操作并未成功。 5. 多次重复修改ne30网元ip

47、的操作,直至网元间歇性脱管故障消失。 参考信息排查故障原因时,应该首先从可能触发故障的外部原因入手。本例中故障的触发条件即是新增的ne30网元。一旦网元出现间歇性脱管,在网管上信息查询和下发命令会非常困难,致使定位进度缓慢,有时必须亲自到现场处理。当登录网元困难时,需要多重复执行几次登录操作。5.2 ip tunnel 承载业务时选择以太tag模式导致业务不通产品optix ptn系列产品故障类别配置错误现象描述用ge端口创建ip tunnel承载e-line业务时,uni侧端口“vlans”设置为“1-3”,在业务测试的时候,发现业务测试一直不通。查看两个网元的pw运行状态,均为“up”。组

48、网示例请参考配置指南手册中的示例描述。告警信息无原因分析因ptn设备只能配置静态ip tunnel,uni端口属性只支持透传模式,pw报文的封装方式只能支持“以太模式”(即raw模式),所以配置e-line业务时,uni侧端口不能配置对应的“vlans”。操作步骤1. 重新配置e-line业务。空置“vlans”参数,不做任何配置。 参考信息“pw类型”可以设置为“以太模式”或“以太tag模式”。 “以太模式”:用户报文中原有的c/svlan tag原封不动地被封装进pw,透传到下游站点。 “以太tag模式”:用户报文中再添加一层vlan tag,在“高级属性”中设置“请求vlan”完成添加。

49、5.3 用户侧环回导致e-lan业务出现广播风暴产品optix ptn 3900,optix ptn 1900故障类别配置错误广播风暴现象描述ptn设备ne13和ne14作为核心节点,与非核心节点ne10、ne17和ne12构成环形拓扑,各网元上均配置了e-lan业务。tele2、dwdm、dslam均为第三方设备。该组网中,只有ne10、ne17和ne12上创建了水平分割组,以隔离pw之间的流量,实现e-lan业务保护。业务运行正常。某日,网络出现大面积广播风暴,各ptn网元出现大量flow_over告警,业务中断。告警信息flow_over告警原因分析一般情况下,产生网络广播风暴的原因,主

50、要有以下几种: 原因1:配置问题,水平分割组配置不合理。 原因2:物理链路在用户侧出现环回。操作步骤1. 紧急中断ne14和ne12之间的物理光纤,断开环形拓扑,终止广播报文在各网元之间扩散。各网元的flow_over告警相继清除,业务相继恢复。 2. 分析组网后,在ne13和ne14上配置水平分割组,再恢复ne14和ne12之间的物理光纤,但与ne12对接的dslam的上网业务仍未恢复。 3. 排查硬件故障,拔插ne14上与tele2对接的单板。单板拔出中,dslam的业务恢复。但单板重新插上并恢复正常工作状态后,dslam上业务又中断。 采取紧急措施,关闭ne14上与tele2对接的光口,

51、业务全部恢复。4. 排查对接的tele2设备的原因。通过端口流量统计,发现ne13的uni侧接口有大量流量流出,但未上报flow_over告警。 分析tele2设备,发现bpdu报文使用私有协议并自带vlan,该报文可以在ptn网络中透传。因此排除tele2设备的原因。5. 重新分析全网告警,发现ne10的一个uni侧端口出现flow_over告警时,该端口的历史告警eth_los消失。推测与该uni侧端口对接的第三方设备上出现端口环回,导致网络出现环路。 6. 经确认,发现与该uni侧端口对接的dwdm设备上确实存在远端端口环回。 7. 在ptn网络上使能“环路检测”和“广播报文抑制”功能。

52、 参考信息网络突发故障时,应尽快恢复现网业务,之后再详细分析原因和采集日志,特别是同一时间出现的异常告警。 e-lan业务配置完成后,务必确认各uni侧端口使能了“环路检测”和“广播报文抑制”功能。5.4 bts时钟源配置错误导致业务大量丢包产品optix ptn系列产品故障类别对接问题配置错误现象描述ptn设备采用e1电缆与bts对接,并配置ces业务实现bts与bsc之间的通信。业务开通后不久,网元ne02上报ces业务丢包告警ces_lospkt_exc,该告警自动清除后,过段时间又再次上报,如此一直反复。告警信息ces_lospkt_exc告警syn_bad告警原因分析 原因1:当地气

53、温较高,ptn设备出现硬件故障。 原因2:网络侧传输质量下降。 原因3:时钟源质量下降。操作步骤1. 在网管上查询当前告警,未发现hard_bad、temp_over等硬件类告警。 基本排除硬件故障。 2. 在网管上查询ces业务的rmon统计组性能,发现业务存在大量丢包计数和少量抖动下溢计数,但是没有抖动上溢计数。 据此推测网元时钟频偏过大,时钟质量下降。 3. 查询ne02的当前告警,发现上报syn_bad告警,指示同步时钟源信号劣化。 4. 查询ne02的“时钟源优先级表”,发现ne02优先跟踪bts侧的时钟,与网元规划一致。修改ne02的时钟源优先级表,使ne02通过网络侧跟随其它bts的时钟,业务丢包告警自动清除,未再上报。 问题出现在原来跟踪的bts时钟上。 5. 联系客户查询与ne02对接的bts的时钟配置,发现其时钟跟踪模式应设置为“主模式”,但实际上该bts的时钟跟踪模式为“从模式”,造成bts跟踪ne02的时钟,ne02又跟踪bts的时钟,时钟互锁,频偏越来越大。 随着时钟质量不断下降,ne02上报syn_bad告警,并自动执行时钟源倒换,跟踪其它时钟源,时钟解环,ne02和bts的时钟质量均出现好转。由于ne02配置了“高优先级时钟源自动恢复”方式,经过一个“等待恢复时间”后,n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论