华为PTN ETH业务故障处理_第1页
华为PTN ETH业务故障处理_第2页
华为PTN ETH业务故障处理_第3页
华为PTN ETH业务故障处理_第4页
华为PTN ETH业务故障处理_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、HUAWEI TECHNOLOGIES CO., LTDHuawei Confidential Internal2022-3-16PTN LMTPTN LMTPTN ETHPTN ETH业务故障处理业务故障处理HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 2目录目录l原因篇原因篇l故障定位流程篇故障定位流程篇l典型案例分析篇典型案例分析篇l总结篇总结篇l附录附录HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 3原因篇 ETHETH业务不通业务不通/ /中断原因主要包括以下几

2、种,我们的定位工作也就主中断原因主要包括以下几种,我们的定位工作也就主要围绕这几个方面展开:要围绕这几个方面展开:l配置错误l硬件故障/设备异常l链路问题/报文丢失l对接设备异常/配合问题l软件缺陷HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 4原因篇业务配置错误l配置错误可能原因:配置错误可能原因: 1:对接端口的工作模式配置不一致。 2:对接端口Tag属性配置不一致。 3:网络侧PW/Tunnel参数配置错误。 4:业务被误删除,网管与设备上配置不一致。 5:对ELan业务来说,水平分割组,静态Mac地址表的配置也比较关键。l以

3、下故障场景优先排查配置错误:以下故障场景优先排查配置错误:(1) 创建后业务不通;(2) 修改配置后业务中断;(3) 新增业务后其他业务受到影响;HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 5原因篇硬件故障硬件故障/ /设备异常设备异常l硬件连接错误:硬件连接错误: 原因可能是单板未插紧、物理板和逻辑板不匹配、光纤/网线损坏或连接错误等等;l硬件故障:硬件故障: 原因可能是单板元器件/芯片损坏、单板元器件寿命到期等等,关键器件会有相应告警上报,详细说明如下: HUAWEI TECHNOLOGIES CO., LTD.Huawei

4、Confidential Page 6原因篇硬件故障硬件故障/ /设备异常设备异常( (续续) )以下故障场景优先排查硬件、设备异常:以下故障场景优先排查硬件、设备异常:(1) 业务不通或出现丢包时,查询告警存在硬件设备级别告警;(2) 业务更改物理线路后,业务出现误码或不通;HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 7原因篇链路问题链路问题/ /报文丢失l接入侧链路故障:接入侧链路故障: 原因可能是接入设备的物理链路中断或质量有问题,导致报文被修改或无法传入PTN设备,对于RJ45接口,可以查询是否存在ETH_LOS,ETH_

5、LINK_DOWN告警来进行排查,对于光口可以查ETH_LOS, ETH_LINK_DOWN, IN_PWR_ABN告警来进行排查 ;lPW/Tunnel故障:故障: 原因可能是PW/Tunnel down、 业务流经的物理链路中断等等;l报文拥塞:报文拥塞: 原因可能是带宽配置过小、同优先级的报文流量过大导致丢包,或网络上流经此端口的流量超过端口实际的物理流量的范围而丢包等等;l存在物理或逻辑上环路故障(仅针对存在物理或逻辑上环路故障(仅针对Elan):): 原因可能是网络组网就存在物理环路,或水平分组配置不合理引起逻辑链路上的环路或报文被环回的情况等等;HUAWEI TECHNOLOGIE

6、S CO., LTD.Huawei Confidential Page 8原因篇对接设备异常对接设备异常/ /配合问题配合问题l对接设备异常:对接设备异常: 原因可能是对接设备将报文修改了,我们接到错误报文就直接丢弃,或者对接设备异常导致无法发送数据到对端等;l配合问题:配合问题: 原因可能是业务流经的设备过多、网络流量拥塞、带宽分配过小、中间网络设备调度算法有缺陷等等导致网络时延,抖动过大,从而影响业务的传输性能。l以下故障场景优先排查对端设备异常:以下故障场景优先排查对端设备异常: (1)我们设备上没有异常告警且配置正确,查询端口性计数无收情况。 (2)业务传输不稳定,会出现中断后又恢复的

7、情况。 (3)业务原来是正常,我们设备配置没有更改过,出现的业务不通问题。HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 9原因篇软件缺陷软件缺陷l软件缺陷主要有以下几种情况:软件缺陷主要有以下几种情况:(1) 配置丢失;(2) 单板或网元异常复位;(3) 软件不同模块的配置参数不一致;(4) 软件内部处理流程错误;(5)告警误报;l需要研发人员提供相关命令才能确定。需要研发人员提供相关命令才能确定。HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 10故障定位流程篇 l通用方

8、法介绍通用方法介绍l通用流程介绍通用流程介绍 (1)硬件故障定位流程 (2)Tunnel/pw故障定位流程 (3)接入侧故障定位流程 (4) ELAN业务层面定位流程 (5)其它故障定位流程 HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 11故障定位流程篇通用方法l先分离外部故障,再定位内部故障;先分离外部故障,再定位内部故障;l先定位宿端和源端,然后定位中间站点;先定位宿端和源端,然后定位中间站点;l先定位先定位NNI侧,然后定位侧,然后定位UNI侧;侧;l如果较多业务故障,注意归纳分析这些故障现象有无共同的规律,如果较多业务故障

9、,注意归纳分析这些故障现象有无共同的规律,例如,这些业务是否都是流经特定的网元例如,这些业务是否都是流经特定的网元/单板单板/端口?故障业务是端口?故障业务是否由某些特定的否由某些特定的Tunnel承载?故障业务是否都是同一种类型?承载?故障业务是否都是同一种类型?HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 12故障定位流程篇通用流程ETH业务故障nni侧Tunnel/Pw是否up或存在异常告警uni侧的收发包计数是否正常是否存在HARD_BAD,BUS_ERR,TEMP_BAD告警其它故障处理流程是否是否是否硬件故障处理流程Tu

10、nnel/Pw异常处理流程uni侧故障处理流程HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 13通用流程硬件故障处理流程硬件故障告警BUS_ERRTEMP_OVERHARD_BADHARD_ERR是否是否是拔插单板背板是否有倒针风扇是否停转单板是否插紧防尘板是否灰尘过多是否清理灰尘风扇坏,更换风扇单板硬件坏,请联系研发人员,更换单板否否是是HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 14通用流程TNL/PW异常处理流程TNL/PW异常是否有MPLS_TUNNEL_LOC

11、V告警是否有PW_DOWN告警nni侧是否有物理层告警是否是否是修改TNL配置中间结点是否故障源宿端的PW配置是否正确及ETH业务是否配置正确源宿端的TNL配置是否正确是否排查物理链路修改PW及ETH业务配置联系研发人员定位否是否排查中间结点故障否是HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 15通用流程uni侧故障处理流程UNI侧故障处理 uni接收方向的性能计数是否正常在排除硬件故障及网络侧故障后,联系研发工程协助定位是查询故障业务的uni性能统计计数否 uni所在端口的工作模式及tag属性是否与对端一致修改配置与对端一致是否

12、存在端口级业务层面MAC_FCS_EXC/ETH_CFM_UNEXPERI告警是否存在链路层ETH_LOS/LINK_DOWN/IN_PWR_ABN/LSR_WILL_DIE异常告警是否是否修复链路异常或更换光模块接收报文错误,请联系对端设备的维护人员分析否是HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 16通用流程ELAN业务层面故障处理流程开始检查ELAN业务对应uni链路是否正常否提示客户排查客户侧链路查看两侧网元是否有FLOW_OVER告警是查询配置是否使能了MAC地址学习功能静态mac地址配置是否正确提示用户修改静态MAC

13、地址配置联系研发技术支持人员是否有Mac地址耗尽告警FDBSIZEALM_ELAN查询动态mac地址表查询MAC地址表是否学习到相应地Mac地址查询单板芯片是否有异常丢包(比如:vlan错误,超MTU丢包等)提示用户修改相关配置YES提示用户需要修改MAC地址表查询上报告警 端口的类型(uni/nni)判断水平分割组划分是否合理提示用户修改水平分割组配置NNIUNI使能uni端口环路检测是否上报环路检测告警ETHOAM_SELF_LOOP可能出现广播风暴,提示用户检查物理链路,排除环路连接YES否否否否否否否否是是是是是是是是HUAWEI TECHNOLOGIES CO., LTD.Huawe

14、i Confidential Page 17通用流程其它故障处理流程其它故障检查开始是否配置了保护中间结点是否有异常计数出现故障的业务有无共同的路径联系硬发人员定位是否是否是否排查共同路经的故障排查工作通道故障逐一排查中间结点故障倒换到保护通道,业务是否恢复正常是否允许环回测试逐一排查业务流经站点的性能统计是是逐步环回来隔离故障否否HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 18典型案例分析篇lELine业务典型案例分析业务典型案例分析:现象描述现象描述关键过程分析关键过程分析怀疑点排除怀疑点排除问题根因问题根因经验总结经验总结/

15、预防措施预防措施lELan业务典型案例分析:业务典型案例分析:现象描述现象描述关键过程分析关键过程分析怀疑点排除怀疑点排除问题根因问题根因经验总结经验总结/预防措施预防措施本章节要求读者了解本章节要求读者了解PTN产品架构和业务模型,熟悉基本的业务配置。产品架构和业务模型,熟悉基本的业务配置。HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 19ELine业务典型案例分析篇现象描述l某运营商网络通过在PTN设备上配置专线业务用以传其时钟数据,也就是将RNC的时钟数据传输到NodeB,但有些站点会出现业务中断后又自动恢复的问题 . 组网如

16、下图: E厂商路由器A厂商ME网络HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 20ELine业务典型案例分析篇关键过程分析l 根据现象某些站点业务间歇性的中断又恢复,可能存在以下几种根据现象某些站点业务间歇性的中断又恢复,可能存在以下几种情况情况: : 1:问题站点的PTN网元可能存在异常,比如:业务所在单板存在间歇 性的复位。 2:传输物理链路不稳定。 3:中间网络存在异常。 4:PTN设备与RNC或NodeB之间配合存在问题。 HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential P

17、age 21ELine业务典型案例分析篇怀疑点排除第一步第一步:获取了问题站点的网元上的所有当前及历史告警,业务配置,端口配置 , errlog信息,及操作记录,没有发现网元及业务单板存在异常的情况。 因此,网元或业务单板存在异常的怀疑点被排除。因此,网元或业务单板存在异常的怀疑点被排除。第二步第二步:由于获取RNC,NodeB及中间网络上的相关告警信息,客户需要一定的时间才能提供,因此,从客户提供的问题站点的信息分析,这些问题站点都有一个共同点,与NodeB相连的PTN设备都是912设备,且都是用网线相连接。检查了一个问题站点网线的物理连接,没有问题。 因此,可能存在传输链路的疑点基本上也可

18、以被排除。因此,可能存在传输链路的疑点基本上也可以被排除。HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 22ELine业务典型案例分析篇怀疑点排除(续)l第三步第三步:从客户提供的部分信息可以看出,问题站点的NodeB上有SynLos告警开始和结束记录,与业务中断和业务恢复的时间比较,基本上吻合,而SynLos告警是NodeB的时钟跟踪不上才会上报的。那么,究竟是业务中断引起eNodeB的时钟跟踪不上而上报SynLos告警,还是时钟跟踪不上后,而引起业务中断呢? 由于排除前者非常困难,因为还涉及到中间网络的分析。 那相比前者,确认后

19、者是否NodeB时钟跟踪不上就会中止发送数据 ,及 NodeB时钟跟踪有那些性能要求的问题就更容易些。 与客户确认结论:与客户确认结论:NodeBNodeB如果一段时间时钟跟踪不上,如果一段时间时钟跟踪不上,NodeBNodeB端口端口就会停止向外发送数据,且就会停止向外发送数据,且NodeBNodeB对网络性能要求是对网络性能要求是1% 1% clockpacketclockpacket 的的jitterjitter小于等于小于等于2020微秒微秒. .HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 23ELine业务典型案例分析篇

20、怀疑点排除(续)l第四步第四步:根据确认的结论,我们尝试了以下测试方案, 用测试仪从PTN912 18端口打报文,在PTN3900 网元的uni端口作环回,将业务环回到PTN912 18端口,测试以太专线业务传输的数据包PacketDelay, PacketJitter的指标。再将PTN912设备换成PTN1900设备,经过相同的物理路径测试相应地指标,测试结论如下,单位(微秒):HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 24ELine业务典型案例分析篇问题根因 由第四步的测试数据,基本可以确定是网络上数据传输的时延抖动不能很基

21、本可以确定是网络上数据传输的时延抖动不能很好地满足好地满足NodeBNodeB对网络性能的要求对网络性能的要求。当网络上性能变差时,业务就会中断。而PTN912相比PTN1900来说是相对低端的产品,在硬件转发能力上比PTN1900要弱,且内部转发原理也不一样,PTN912是通过软转发来实现的。因此,在PTN912所在的某些站点会出现业务间歇性中断概率较大。HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 25ELine业务典型案例分析篇经验总结l1: 导致导致ELineELine业务中断原因比较多,但没有异常的告警或事件记录的情况业务

22、中断原因比较多,但没有异常的告警或事件记录的情况下业务中断的情况比较少见,在此种情况下,一定要对与之对接设备的异下业务中断的情况比较少见,在此种情况下,一定要对与之对接设备的异常情况进行监测,这些异常情况能帮助我们更快速准确地定位出问题的根常情况进行监测,这些异常情况能帮助我们更快速准确地定位出问题的根本原因。本原因。l2: 用以太业务传时钟数据应用比较少,使用前需要先评估我们设备所在的用以太业务传时钟数据应用比较少,使用前需要先评估我们设备所在的整个网络性能是否能很好地满足应用需求。整个网络性能是否能很好地满足应用需求。 HUAWEI TECHNOLOGIES CO., LTD.Huawei

23、 Confidential Page 26典型案例分析篇lELine业务典型案例分析业务典型案例分析:现象描述现象描述关键过程分析关键过程分析怀疑点排除怀疑点排除问题根因问题根因经验总结经验总结/预防措施预防措施lELan业务典型案例分析:业务典型案例分析:现象描述现象描述关键过程分析关键过程分析怀疑点排除怀疑点排除问题根因问题根因经验总结经验总结/预防措施预防措施本章节要求读者了解本章节要求读者了解PTN产品架构和业务模型,熟悉基本的业务配置。产品架构和业务模型,熟悉基本的业务配置。HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 2

24、7ELan业务典型案例分析篇现象描述l某运营商网络通过在PTN设备上配置专网与另外一个设备供应商的DSLAM对接,在实际业务割接时,通过DSLAM上网,业务不通。出现问题的网络的逻辑组网如下图: HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 28ELan业务典型案例分析篇关键过程分析l 业务不通,可能存在以下几种情况业务不通,可能存在以下几种情况: : 1:PTN设备与DSLAM之间配合存在问题. 2:PTN设备上业务配置有问题。 3:DSLAM设备异常。 HUAWEI TECHNOLOGIES CO., LTD.Huawei Co

25、nfidential Page 29ELan业务典型案例分析篇怀疑点排除第一步第一步:对PTN设备上专网配置进行了检查,基本业务配置没有问题,只是网元PTN60012上的网络侧配置有水平分割组,而另外两个网元上没有配置水平分割组。 因此,基本配置应该不存在问题。因此,基本配置应该不存在问题。第二步第二步:通过查询网元上的mac地址学习信息,发现广播流量会从DSLAM-PTN60012-PTN60014-PTN60013-PTN60012最后回到DSLAM的上行口, 即PPPOE业务客户端的请求连接报文被专网环回,从而导致DSLAM的MAC地址表错误被刷新 。 因此,问题的基本原因是在对专网的应用的设计上。因此,问题的基本原因是在对专网的应用的设计上。HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential Page 30ELan业务典型案例分析篇解决方案 解决方案:解决方案: 在在PTN60013或或PTN60014上配置水平分割组阻断其专网上配置水平分割组阻断其专网中的两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论