版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
....核心交换机常见故障处理手册目 录1故障处理通用流程1-31.1信息搜集1-31.1.1搜集设备日志信息1-31.1.2搜集其他运行信息1-41.2故障定位和处理1-41.2.1故障处理流程图1-41.2.2故障缘由分类1-51.2.3故障模型及影响分析1-61.2.4常见的故障恢复措施1-82硬件类故障处理2-82.1单板故障2-82.1.1故障描述2-82.1.2故障处理步骤2-102.2电源故障2-112.2.1故障描述2-112.2.2故障处理步骤2-112.3风扇故障2-132.3.1故障描述2-132.3.2故障处理步骤2-132.4温度告警2-142.4.1故障描述2-142.4.2故障处理步骤2-143链路端口故障处理3-153.1端口错包3-153.1.1故障描述3-153.1.2故障处理步骤3-163.2up3-173.2.1故障描述3-173.2.2故障处理步骤3-173.3UpDown3-183.3.1故障描述3-183.3.2故障处理步骤3-18Up/Down故障描述故障处理步骤光模块故障故障描述故障处理步骤报文转发故障处理ping故障描述故障处理步骤L2故障描述故障处理步骤L3故障描述故障处理步骤MPLS故障描述故障处理步骤IRF类故障处理IRF故障描述故障处理步骤IRF故障描述故障处理步骤系统治理维护类故障处理CPU故障描述故障处理步骤内存占用率高故障描述故障处理步骤资源缺乏故障描述故障处理步骤
3-193-193-193-193-193-194-224-224-224-234-244-244-244-254-254-264-274-274-275-315-315-315-315-325-325-326-336-336-336-336-356-356-366-376-376-38故障处理通用流程信息搜集为便利故障快速定位,建议不要关闭设备的信息中心〔info-centerenable〕。缺省状况下信息中心处于开启状态。搜集设备日志信息收集diag信息执行yng保存到F〔选择会消灭信息搜集不全。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请急躁等待。<Sysname>displaydiagnostic-informationSaveordisplaydiagnosticinformation(Y=save,N=display)?[Y/N]:yPleaseinputthefilename(*.diag)[cfa0:/default.diag]:20130517.diagDiagnosticinformationisoutputtingtocfa0:/20130517.diag.Pleasewait...Savesuccessfully.也可以将g信息直接显示出来〔不建议这样搜集,搜集前请先执行h,避开屏幕输出被打断,如下:<Sysname>screen-lengthdisable%Screen-lengthconfigurationisdisabledforcurrentuser.<Sysname>displaydiagnostic-informationSaveordisplaydiagnosticinformation(Y=save,N=display)?[Y/N]:n================================================================================runningCPUusageinformation=====================================================================================CurrentCPUusageinfo=====CPUUsageStat.Cycle:19(Second)CPUUsage :5%CPUUsageStat.Time:2013-05-21 10:06:25CPUUsageStat.Tick:0x19aa(CPUTickHigh)0xa57f44e1(CPUTickLow)ActualStat.Cycle :0x0(CPUTickHigh)0x39fb1e03(CPUTickLow)……其他留意事项建议记录设备操作时的命令行显示信息,便于后续分析。明确每一配置操作的影响,保证消灭特别时配置能够被恢复。保证当前配置与保存的配置全都,在IRF分裂、单板Fault、单板重启时请不要保存配置,否则可能会导致配置不全都。操作执行后请等待肯定时间来确认执行效果。更换主控板时,请确保、老主控板的软件版本全都。搜集其他运行信息除设备日志信息外,还需要搜集设备的其他运行信息〔包括但不限于以下:故障现象、故障时间、网络拓扑、配置信息、现场处理措施及其实施后的现象效果;Debug开关打印信息、主控板与网板持续特别重启的串口输出信息等;设备故障时单板、电源、风扇指示灯的状态或现场图片等搜集信息越全面、越具体,越有利于故障的快速定位。故障定位和处理设备消灭故障时,请先搜集设备运行的相关信息,推断大致的故障类型,然后参照对应类型的故障处理流程进展确认。如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。故障处理流程图图1为故障处理的一般流程,可以大致推断出故障的类型。图1故障处理流程图开头开头单板状态不正常单板故障正常检查入端口信息链路端口故障DOWN端口状态UP没有增加没有增加入端口计数 上连设备出端口计数 对端设备故障增加检查出端口信息增加硬件故障DOWN端口状态UPcrc错包增加下连设备入端口计数 对端设备故障overruns/ingored错包增加L2故障排查L3故障排查MPLS故障排查完毕故障分析时常用的方法有:端口报文计数报文镜像端口抓包配置QoS策略进展流量统计Debug对疑心故障的模块穿插验证〔比方:疑心某个端口光模块特别,可以将其他正常的光模块装在这个单板装到这个槽位、将疑心特别的单板装到本设备其他槽位或装到别的S12500-X上确认。故障缘由分类单板故障如单板消灭特别重启、状态特别、无法启动、反复重启,请参照2.1 单板故障处理。电源故障如设备电源指示灯特别、不断打印告警信息,请参照2.2 电源处理。风扇故障如设备风扇指示灯特别、风扇停转、不断打印风扇告警信息,请参照2.3 风扇故障处理。温度告警如设备打印温度告警,请参照2.4 温度告警处理。链路端口故障如端口消灭无法UP、频繁UP/DOWN、端口错包,请参照3链路端口故障处理。硬件转发故障Forwardingfault、Boardfault:chassisXslotY,pleasecheckit等打印信息,请参照错误!未找到引用源。错误!未找到引用源。处理。报文转发故障如消灭ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、MPLS业务特别等,请参照4报文转发故障处理。IRF如设备无法形成IRF、IRF分裂等,请参照5IRF类故障处理。CPU如设备单板CPU占用率很高,请参照6.1 CPU占用率处理。内存占用率高如设备单板内存占用率很高,请参照6.2 内存占用率处理。资源缺乏如设备打印Noenoughresource资源缺乏,请参照6.3 资源缺乏处理。故障模型及影响分析图2是一个典型网络故障模型,为提高网络的牢靠性,便于故障时快速切换恢复,组网中承受双上行链路,两台核心交换机之间互为备份。图2典型网络故障模型①②③①②③④⑤⑥〔wn业务会切换;模块〕口错〔大面积〕fatul 业务会切换软件特别1
务〔影响范围小一些〕设备宕芯片故1
业务务特别故障点可能现象影响范围故障点可能现象影响范围业务会切换1〔含光模块〕端口错包增加影响该链路上的业务〔影响范围大〕业务会切换该芯片上的业务特别单板芯片故障〔单板状态正常〕2交换网板芯片故障会影响整机设备重启,业务会切换软件特别协议模块特别一般会影响业务3同1影响该接入层交换机上的业务〔影响范围比故障点1小一些〕影响该设备下的业务4单板芯片故障影响局部端口或整机业务软件特别设备重启,影响设备下连业务协议模块特别一般会影响业务协议模块特别一般会影响业务5同1影响该链路上效劳器涉及的业务6网络正常,业务特别影响该效劳器涉及业务常见的故障恢复措施表2常见的故障恢复措施故障缘由故障缘由业务恢复动作故障排解动作隔离故障单板;硬件调整业务流始终隔离故障设备〔如可以调整现流量切换〕更换备件〔备件上线应用前应进展必要的测试〕重启故障设备的协议;升级版本〔含补丁版本〕;软件调整业务流始终隔离故障设备调整组网或配置消退引发故障因素链路调整业务流始终隔离故障线路检修线路修改错误配置;修改错误配置;其他正确连接设备端口;正确连接设备端口;调整业务流始终隔离故障线路检修机房的电源、空调等支撑系统硬件类故障处理单板故障故障描述单板状态特别〔比方状态为Absent、Fault、Loading〕。单板消灭特别重启、无法启动或不断重启等。单板状态查询单板状态包括:Normal、Master、Slave、Absent、Fault、Loading。Master与Slave分别表示主、备主控板。Normal表示单板处于正常运行状态。假设觉察单板状态消灭Fault、Offline、Loading,或该槽位存在单板但状态却是Absent的,说明单板可能消灭故障,请参考2.1.2 故障处理步骤处理。<Sysname>displaydeviceSlotNo.BrdType BrdStatus SubslotSftVer PatchVer0LSX1TGS48EC1Normal0S12510-X-1005None1LSX1TGS48EC1Normal0S12510-X-1005None2LSX1TGS48EC1Normal0S12510-X-1005None3LSX1TGS48EC1Normal0S12510-X-1005None4LSX1TGS48EC1Normal0S12510-X-1005None5LSX1TGS48EC1Normal0S12510-X-1005None6LSX1TGS48EC1Normal0S12510-X-1005None7NONEAbsent0NONENone8NONEAbsent0NONENone9NONEAbsent0NONENone10LSX1FAB10B1Normal0S12510-X-1005None11LSX1FAB10B1Normal0S12510-X-1005None12LSX1FAB10B1Normal0S12510-X-1005None13LSX1FAB10B1Normal0S12510-X-1005None14LSX1FAB10B1Normal0S12510-X-1005None15LSX1FAB10B1Normal0S12510-X-1005None16LSX1SUP10A1Standby0S12510-X-1005None17LSX1SUP10A1Master0S12510-X-1005None单板重启确认可以通过logfile日志或displayversion
看设备启动后运行时间来确认单板有没有消灭过重启现过重启的单板运行时间会明显短于设备上其他单板假设有单板消灭过重启请参考2.1.2 故障处理步骤处理。<Sysname>displayversionH3CComwareSoftware,Version7.1.045,Release1005Copyright(c)2004-2013HangzhouH3CTech.Co.,Ltd.Allrightsreserved.H3CS12510-Xuptimeis0weeks,4days,1hour,55minutesLastrebootreason:ColdrebootBootimage:flash:/S12500X-CMW710-BOOT-R1005.binBootimageversion:7.1.045P18,Release1005CompiledNov11201315:38:46Systemimage:flash:/S12500X-CMW710-SYSTEM-R1005.binSystemimageversion:7.1.045,Release1005CompiledNov11201315:39:12LPU0:Uptimeis0weeks,4days,1hour,52minutesH3CS12510-XLPUwith1XLP308ProcessorBOARDTYPE: LSX1TGS48EC1DRAM: 4096MbytesFLASH: 0MbytesNVRAM: 0KbytesPCB1Version: VER.BPCB2Version: VER.C....BootromVersion: 108CPLD1Version: 002CPLD2Version: 002CPLD3Version: 002ReleaseVersion: H3CS12510-X-1005PatchVersion : NoneRebootCause : ColdRebootLPU1:Uptimeis0weeks,4days,1hour,50minutesH3CS12510-XLPUwith1XLP308ProcessorBOARDTYPE: LSX1TGS48EC1DRAM: 4096MbytesFLASH: 0MbytesNVRAM: 0KbytesPCB1Version: VER.BPCB2Version: VER.CBootromVersion: 108CPLD1Version: 002CPLD2Version: 002CPLD3Version: 002ReleaseVersion: H3CS12510-X-1005PatchVersion : NoneRebootCause : ColdRebootLPU2:Uptimeis0weeks,4days,1hour,52minutesH3CS12510-XLPUwith1XLP308ProcessorBOARDTYPE: LSX1TGS48EC1DRAM: 4096MbytesFLASH: 0MbytesNVRAM: 0KbytesPCB1Version: VER.BPCB2Version: VER.CBootromVersion: 108CPLD1Version: 002CPLD2Version: 002CPLD3Version: 002ReleaseVersion: H3CS12510-X-1005PatchVersion : NoneRebootCause : ColdReboot故障处理步骤单板状态Absent、Fault确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重插入。将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板故障。检查单板面板、内部的指示灯是否发光。假设单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否特别。如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。单板状态Loading检查单板面板、内部的指示灯是否发光。假设单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否特别。如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。单板重启这里的单板重启是指单板消灭过重启,而当前单板状态是Normal。通过日志或运行时间分析重启的时间段,确认重启的时间点四周有无用户通过命令行reboot重启或进展单板上下电等操作。1005以上版本displayversion命令支持查询单板最近一次重启的缘由。比方下面例如中“Poweron”表示单板最近一次重启缘由是掉电重启。<Sysname>displayversionH3CComwareSoftware,Version7.1.045,Release1005Copyright(c)2004-2013HangzhouH3CTech.Co.,Ltd.Allrightsreserved.H3CS12510-Xuptimeis0weeks,4days,1hour,55minutesLastrebootreason:Coldreboot……假设全部单板同时消灭重启,请检查设备电源模块是否正常,确认外部电源是否消灭过停电,电源进线是否插稳、是否消灭松动。确认日志中重启时有无消灭“SlotXneedtoberebootedautomatically!”提示信息,这种状况是不正常的。请更换单板并搜集故障信息并发送技术支持人员分析。确认日志中有无Hardwareerror提示信息,设备运行过程中单板消灭Hardwareerror是不正常的。请搜集信息发送给技术支持人员分析。%@437307%May1522:03:02:1222013S12508-XDIAG/3/ERROR:Hardwareerror!chassis=1,slot=7,code=0%@437308%May1522:03:02:1222013S12508-XDIAG/3/ERROR:Hardwareerror!chassis=1,slot=7,code=1%@437309%May1522:03:02:1222013S12508-XDIAG/3/ERROR:Hardwareerror!chassis=1,slot=7,code=2如无法确认,请搜集故障信息并发送技术支持人员分析。2.22.2电源故障2.2.1故障描述设备电源指示灯特别或上报fault.2故障处理步骤检查是否存在Fault或Absent状态的电源模块使用displaypower命令显示电源模块状态,查看是否存在Fault或Absent状态的电源模块。.<HP>displaypowerPowerIDState Mode Current(A) Voltage(V) Power(W)1NormalAC2.6053.81139.902Absent--------3Absent--------4NormalAC1.6053.8286.115Absent--------6Absent--------7Absent--------8Absent--------假设存在Absent状态的电源模块,请前往步骤3。假设存在Fault4。检查电源特别模块查看电源特别状态:Absent或者Fault.使用displayalarm命令。[HP]displayalarmSlotLevel InfoERROR Fan1isfaulty.INFO Power1isabsent.INFO Power2isabsent.INFO Power3isabsent.INFO Power5isabsent.INFO Power6isabsent.INFO Power7isabsent.INFO Power8isabsent.假设存在Absent状态的电源模块,请前往步骤3。假设存在Fault4。检查Absent状态电源模块假设电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装结实。假设电源模块槽位有电源模块在位且显示为 Absent,请将电源模块拆卸后重安装,然后使用displaypower命令查看对应槽位电源状态是否显示为Normal。假设仍旧显示为Absent状态,请更换电源模块。假设更换电源模块后仍旧显示为Absent状态,请前往步骤5。检查Fault状态电源模块假设存在Fault状态电源模块,表示该电源模块特别,无法供电。Fault.....电源线可能没接稳而脱落。假设电源线脱落,那么电源的电流和电压都会显示为0,电源状态显示为Fault。请检查电源是否接线,接线后使用displaypower命令查看对应槽位电源状态是NormalNormal,请前往(2)。<HP>displaypowerPowerIDStateModeCurrent(A)Voltage(V)Power(W)1NormalAC2.6053.81139.902FaultAC000/*电源没接线状态显示*/可能是电源模块本身温度过高导致。假设电源模块上积灰较多可能引起电源模块温度上升。请查看电源模块积灰状况,假设灰尘较多,请清理灰尘,并将电源模块拆卸后重安装。然后使用displaypower命令查看对应槽位电源状态是否显示为Normal。假设没有恢复为Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。假设该电源模块仍旧显示为Fault假设更换电源模块后仍旧显示为Fault状态,请前往步骤5。寻求技术支持假设上述检查完成后故障仍无法排解,请联系H3C的技术支持工程师。风扇故障故障描述风扇框指示灯特别,设备打印风扇特别信息,如:%Sep2220:38:32:9472009H3Cxxxxxxx故障处理步骤风扇框在位时,用手放在设备出风口,推断是否有出风,假设出风口无风,则风扇特别检查风扇的入风口、出风口是否被挡住或积存太多灰尘。检查风扇框是否正常在位,各个风扇的状态是否正常、转速是否相差到达50%以上。如存在特别,建议通过风扇框拔插、更换穿插进一步确认。单板烧坏;假设有降温措施保证系统工作在xx度以下,可以临时连续使用设备。<System>displayfanFan-tray1:Status :NormalFannumber:5Fanmode :AutoAirflowDirection:Front-to-backFan Status Speed(rpm)1Normal37072Normal19093Normal20314Normal18635Normal1921Fan-tray2:Status :NormalFannumber:5Fanmode :AutoAirflowDirection:Front-to-backFan Status Speed(rpm)1Normal37762Normal19793Normal19334Normal19565Normal1969温度告警故障描述设备打印温度过低、过高等告警信息,如:%Sep2220:38:32:9472009H3CDEVM/4/BOARD_TEMPERATURE_TOOHIGH:BoardtemperatureistoohighonChassis1Slot5,typeisLSX1TGS48EC.故障处理步骤等。检查设备当前的temperature温度是否超出上下的Warning、Alarm门限。也可以用手触摸单板,确认单板是不是很烫,如单板温度很高,请马上检查缘由。持续处于较高的温度下,可能会导致单板损坏。假设温度过高,请参照2.3 风扇故障确认是否风扇故障导致。假设温度值为error或消灭明显不合实际的值I2C总线访问单板温度传感器特别。设备光模块信息访问也是通过一样的I2Cdisplayenvironment查看是否设置成功。[Sysname]temperature-limitchassis1slot0hotspot1-208590<Sysname>displayenvironmentSystemtemperatureinformation(degreecentigrade):SlotSensorTemperatureLowerWarningAlarmShutdown0hotspot145-208590950hotspot24807590950hotspot34607590950hotspot44707590950hotspot54907590950hotspot64707590951hotspootspot24807590951hotspot3460759095……假设仍旧无法确认故障缘由,请搜集信息并发送给技术支持人员帮助分析。链路端口故障处理端口错包故障描述使用displayinterface命令查询端口的入、出方向流量统计信息,觉察错包统计计数不为0。<Sysname>displayinterfaceTen-gigabitethernet1/2/0/6Ten-GigabitEthernet1/2/0/6currentstate:UPIPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:80f6-2ec3-ac04Description:SH-B15A-0202-J20-H5800-L-01-te1/0/49LoopbackisnotsetMediatypeisopticalfiber,Porthardwaretypeis10G_BASE_SR_SFP10Gbps-speedmode,full-duplexmodeLinkspeedtypeisforcelink,linkduplextypeisforcelinkFlow-controlisnotenabledTheMaximumFrameLengthis8168BroadcastMAX-ratio:100%UnicastMAX-ratio:100%MulticastMAX-ratio:100%AllowjumboframetopassPVID:1Linkdelayis2(sec)Ethernetportmode:LANPortlink-type:trunkVLANpassing :1(defaultvlan),10-28,91-93,106-108,121-123,184,401,999VLANpermitted:1(defaultvlan),2-4094Trunkportencapsulation:IEEE802.1qPortpriority:2Lastclearingofcounters: NeverPeakvalueofinput:10070bytes/sec,at2013-05-1419:11:30Peakvalueofoutput:315310bytes/sec,at2013-05-1419:56:27Last300secondsinput: 0packets/sec90bytes/sec0%Last300secondsoutput: 0packets/sec530bytes/sec0%Input(total): 1617091packets,131185047bytes1144855unicasts,79482broadcasts,392754multicasts,-pausesInput(normal): 1617091packets,131185047bytesInput: 0inputerrors,0runts,0giants,0Input: 0inputerrors,0runts,0giants,0throttles0CRC,0frame,0overruns,-aborts-ignored,-parityerrorsOutput(total):7779022packets,862020306bytes1138915unicasts,3567900broadcasts,3072207multicasts,-pausesOutput(normal):7779022packets,862020306bytesOutput:0outputerrors,-underruns,-bufferOutput:0outputerrors,-underruns,-bufferfailures0aborts,0deferred,0collisions,0latecollisions-lostcarrier,-nocarrier端口入方向报文计数错误字段解释inputerrors:各种输入错误的总数。runts:表示接收到的超小帧个数。超小帧即接收到的报文小于64字节,且包括有效的CRC字段,报文格式正确。giants:是超过端口设置的MaximumFrameLength的报文个数。CRC:表示接收到的CRC校验错误报文个数。frame:端口接收时出错的报文。端口出方向报文计数错误字段解释outputerrors:各种输出错误的总数。aborts:表示发送失败的报文总数。deferred:表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文,而这些报文由于发送媒质繁忙而等待了超过2倍的最大报文发送时间。collisions:表示冲突帧总数,即在发送过程中发生冲突的报文。latecollisions:表示延迟冲突帧,即发送过程中发生延迟冲突超过512bit时间的帧。故障处理步骤端口入方向消灭CRC、frame、throttles错包且计数持续增加路故障请更换网线或光纤。如端口使用光模块,参照3.5光模块故障确认是否光模块故障导致。到其他正常端口仍会消灭错包,则对端设备、中间传输链路故障的可能性较大,请排查。排查对端设备或者中间的传输设备。如故障无法确认,请将故障信息发送技术支持人员分析。端口入方向消灭Overrun错包且计数持续增加Overrun计数是由于端口输入速率超过端口处理力量,导致丢包。假设只有某一个端口收发包特别,或者某一个端口下挂设备的业务不通,同时这个单板上的其他端口都是正常的,可以屡次查询displayinterface令:假设inputerrors有增加,且overruns没有增加,请排查光纤/光模块/对端设备;假设inputerrors有增加,且等于overruns的增加,那么可以疑心是单板内部拥塞或者堵死,请连续推断:假设overrun计数有增加,且Input(normal)计数没有增加,说明全部入报文都overrun,证明端口堵死,请将故障信息发送技术支持人员分析。假设overruns计数有增加,且Input(normal)计数有增加,说明局部入报文都overrun,证明端口拥塞,请将故障信息发送技术支持人员分析。假设仍旧无法确认,请将故障信息发送技术支持人员分析。端口入方向消灭giants错包且计数持续增加检查两端的jumbo配置是否全都,如jumbo是否使能,端口默认的最大报文长度是否全都,允许最大报文长度是否全都。假设仍旧无法确认,请将故障信息发送技术支持人员分析。端口出方向消灭错包且计数持续增加检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。假设仍旧无法确认,请将故障信息发送技术支持人员分析。up故障描述端口无法正常Up。故障处理步骤端口无法Up测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工、协商模式、MDI是否正确。[Sysname]displaycurrent-configurationinterfaceTen-gigabitethernet1/6/0/1#interfaceTen-GigabitEthernet1/6/0/1portlink-modebridgeportlink-typetrunkporttrunkpermitvlan1portlink-aggregationgroup1#ReturnSpeed10G1000MSpeed10G1000M100M10MDuplexFullSupportSupportSupportSupportSpeedSpeed10G1000M100M10MDuplexHalfNosupportNosupportNosupportNosupport 如端口使用光模块,请检查两端光模块类型是否全都,如速率、波长、单模多模状态等;与正常的光模块穿插更换,并参照3.5 光模块故障排解是否为光模块故障导致。TransceiverTypeConnectorTypeWavelength(nm)TransferDistance(m):10G_BASE_LRM_SFP:TransceiverTypeConnectorTypeWavelength(nm)TransferDistance(m):10G_BASE_LRM_SFP:LC:1310:220(50um),220(62.5um),220(om3)DigitalDiagnosticMonitoring:YESVendorName :FINISARCORP.如确认为光模块故障,请更换光模块,并将故障信息发送技术支持人员分析。Down故障描述端口状态由Up变成Down。故障处理步骤查看本设备及对端设备日志,确认有无端口shutdown操作。查看两端端口状态,确认是否为协议特别或在线诊断模块检测到特别将端口shutdown。如这里的Te2/8/0/1端口消灭“Loopbackdetectiondownloopback-detectionshutdownshutdown隔离,以便流量切换到备份链路。请将故障信息发送技术支持人员分析。(Loopbackdetectiondown)[Sysname]displayinterfaceTen-gigabitethernet2/8/0/1(Loopbackdetectiondown)IPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:80f6-2ec3-ac05Description:SH-B15A-0202-V03-H5800-L-01-te1/0/50LoopbackisnotsetMediatypeisopticalfiber,Porthardwaretypeis10G_BASE_SR_SFP10Gbps-speedmode,full-duplexmodeLinkspeedtypeisforcelink,linkduplextypeisforcelinkFlow-controlisnotenabled……参照3.2 端口无法up,排查两端端口配置,网线、光模块、光纤等链路是否正常。如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。故障描述端口频繁Up/Down。故障处理步骤对于光口,请参照3.5光模块故障确认光模块是否特别。查看光模块alarm信息来排查两端光模块以及中间光纤问题;对于支持诊断功能的光模块可以通过查看diagnosis信息确认光模验证;如接收光功率处于临界值,请排查对端光模块及中间光纤链路。对于电口,一般在自协商状况下简洁消灭协商不稳定,这种状况请尝试设置强制速率双工。假设故障依存在,请排查链路、对端设备、中间设备。如仍无法确认,请将故障信息发送技术支持人员分析。光模块故障故障描述安装光模块的接口不能正常工作。故障处理步骤检查光模块Alarm告警信息。告警信息中假设存在接收有问题那一般是对端端口、光纤或中转传输设备导致;假设是发送有问题或者电流、电压特别那就需要排查本端端口。<Sysname>displaytransceiveralarminterfaceGigabitEthernet2/0/1GigabitEthernet2/0/1transceivercurrentalarminformation:TXfaultPCSreceivelocalfaultLasertemperaturefault表4光模块告警信息说明字段字段描述RXRXlossofsignal接收信号丧失RXpowerhigh接收光功率高告警RXpowerlow接收光功率低告警TXfault发送错误TXbiashigh偏置电流高告警TXbiaslow偏置电流低告警.字段字段描述TXpowerhigh发送光功率高告警TXpowerlow发送光功率低告警Temphigh温度高告警Templow温度低告警Voltagehigh电压高告警Voltagelow电压低告警TransceiverinfoI/Oerror模块信息读写错误Transceiverinfochecksumerror模块信息校验和错误Transceivertypeandportconfigurationmismatch 模块类型和端口配置不匹配Transceivertypenotsupportedbyporthardware端口不支持该模块类型XFPRXRXlossofsignal接收信号丧失RXnotready接收状态未就绪RXCDRlossoflockRXCDR时钟失锁RXpowerhigh接收光功率高告警RXpowerlow接收光功率低告警TXnotready发送状态未就绪TXfault发送错误TXCDRlossoflockTXCDR时钟失锁TXbiashigh偏置电流高告警TXbiaslow偏置电流低告警TXpowerhigh发送光功率高告警TXpowerlow发送光功率低告警Modulenotready模块状态未就绪APDsupplyfaultAPD〔AvalanchePhotoDiode,雪崩光电二极管〕错误TECfaultTEC〔ThermoelectricCooler,热电冷却器〕错误Wavelengthunlocked光信号波长失锁.....字段字段描述Temphigh温度高告警Templow温度低告警Voltagehigh电压高告警Voltagelow电压低告警TransceiverinfoI/Oerror模块信息读写错误Transceiverinfochecksumerror模块信息校验错误Transceivertypeandportconfigurationmismatch 模块类型和端口配置不匹配Transceivertypenotsupportedbyporthardware端口不支持该模块类型检查光模块的接收、发送光功率是否正常〔即在该光模块的光功率上下门限值之内〕。H3Cdisplaytransceiverdiagnosis〔非H3C。Currentdiagnosticparameters:[Sysname]displaytransceiverdiagnosisinterfaceGigabitEthernet2/0/1GigabitEthernet2/0/1transceiverCurrentdiagnosticparameters:Temp.(℃)Voltage(V)Bias(mA)RXpower(dBM)TXpower(dBM)403.341.13-10.430.20C定制光模块的光功率上下门限值可以通过下面方式查看〔二选一:局部GE端口光模块通过_displaytransceiverinterface命令查询接收光功率、发送光功率的上下门限值。[Sysname_hidecmd]_displaytransceiverinterfaceGigabitEthernet2/0/1GigabitEthernet2/0/1transceiverinformation:TransceiverType :10G_BASE_LRM_SFPConnectorType :LCWavelength(nm) 1310TransferDistance(m) :220(50um),220(62.5um),220(om3)DigitalDiagnosticMonitoring:YESVendorName :FINISARCORP.Max.TXPower(dBm):0.5Min.TXPower(dBm):-6.5Min.RXPower(dBm):-6.0Max.RXPower(dBm):1.5OriginalManufacturer:FINISARCORP.PartNumber:FTLX1371D3BCL-HCRevNumber:ASerialNumber:UG903SLProductDate:09-09-1410GE端口及局部GE端口光模块需通过命令_displaytransceiverdiagnosisinterface查询接收光功率、发送光功率的上下门限值。Currentdiagnosticparameters:Alarmthresholds:[Sysname-hidecmd]_displaytransceiverdiagnosisinterfaceTen-gigabitethernet1/6/0/1Currentdiagnosticparameters:Alarmthresholds:Temp.(°C)Voltage(V)Bias(mA)RXpower(dBM)TXpower(dBM)43 3.3745.200.08-2.41Temp.(°C)Voltage(V) Bias(mA) RXpower(dBM) TXpower(dBM)High833.6380.002.501.50Low-133.0015.00-20.00-7.00ParameterswhenfirstusedonN/A:Temp.(°C)Voltage(V)Bias(mA)RXpower(dBM)TXpower(dBM)N/A N/AN/AN/AN/ATotalaccountofalarms:0Latestoccurrenceofdifferentalarms:TypeDateDescriptionTemp.N/AN/AVoltageN/AN/ABiasN/AN/ARXpowerN/AN/ATXpowerN/AN/ATXN/AN/ARXN/AN/AOthersN/AN/ALatestthreealarms:Date Description在端口Up时:假设光模块发送光功率超出门限,可能为光模块本身故障引起,请与其他正常的光模块穿插测试,术支持人员分析。假设光模块接收光功率超出门限值,请排查对端设备、中间链路、中转设备。障还是相邻设备或中间链路故障。如仍无法确认,请将故障信息发送技术支持人员分析。建议尽量使用H3C定制光模块。可通过displaytransceivermanuinfo命令来查询光模块的定制厂VendorNameH3CH3C报文转发故障处理ping不通或丢包故障描述报文转发丢包,ping不通或ping丢包,tracert特别。<Sysname>pingPING:56databytes,pressCTRL_CtobreakRequesttimeoutRequesttimeoutRequesttimeoutRequesttimeoutRequesttimeout---pingstatistics---5packet(s)transmitted0packet(s)received100.00%packetloss故障处理步骤设备入出报文统计报文转发特别通常会涉及多台设备,需要逐一排查。为便利排查,排查前建议先明确报文的转发走向,如经过哪些中间设备,在设备的哪些接口进入设备,又会从哪些接口出去。通过镜像抓包或配置ACL规章统计设备有没有收到或发出相应的业务报文,以配置ACL规章统计端口入方向Ping报文为例:定义相关的ACL[Sysname]aclnumber3000[Sysname-acl-adv-3000]rule1permitipdestination0定义流分类和流行为accountingpacket[Sysname]trafficclassifier statistic_1[Sysname-classifier-static]if-matchacl3000[Sysname]trafficbehaviorstatistic_1accountingpacket定义策略[Sysname]qospolicystatistic_1[Sysname-classifier-static]classifierstatistic_1behaviorstatistic_1将策略应用到端口入方向[Sysname]interfaceg8/0/1[Sysname-GigabitEthernet8/0/1]qosapply policystatistic_1inbound检查入方向报文统计计数,可以通过resetcounterinterface命令去除计数[Sysname]displayqospolicyinterface g8/0/1Interface:GigabitEthernet8/0/1Direction:InboundPolicy:statistic_1Classifier:statistic_1Operator:AND1000(Packets)Rule(s):If-matchacl3000Behavior:statistic_1Accounting1000(Packets)....报文计数分析假设设备未收到Ping报文,请排查上游的相邻设备;假设设备发送的Ping报文计数正确,建议排查下游的相邻设备;假设Ping报文入出计数不正确,请参照L2转发故障、L3转发故障、MPLS转发故障连续排查。L2转发故障故障描述S12500-X与属于同一个网段、使用一样VLAN的设备之间,二层流量丢包/不通。报文在设备上进展二层转发的条件是报文的目的MAC与交换机自身的MAC不相等。留意:交换机自身的MAC地址有多个,属于同一个地址段,比方下面显示的是交换机VLANMAC。[Sysname]displayinterfacevlan-interface10Vlan-interface10currentstate:UPLineprotocolcurrentstate:UPDescription:Vlan-interface10InterfaceTheMaximumTransmitUnitis1500InternetAddressis/24PrimaryIPPacketFrameType:PKTFMT_ETHNT_2, HardwareAddress:00e0-fc00-6503IPv6PacketFrameType:PKTFMT_ETHNT_2, HardwareAddress:00e0-fc00-6503Lastclearingofcounters: NeverLast300secondsinputrate:0bytes/sec,0bits/sec,0packets/secLast300secondsoutputrate:0bytes/sec,0bits/sec,0packets/sec0packetsinput,0bytes,0drops0packetsoutput,0bytes,0drops故障处理步骤配置检查检查二层配置是否正常,如:VLAN/PVID报文过滤报文重定向流量监管〔CAR〕流量整形〔GTS〕未知单播/组播/播送报文抑制MAC检查MAC学习的端口是否正确,是否存在环路导致MAC学习到错误端口,必要时可以配置静态MAC<Sysname>displaymac-addressMACADDRVLANIDSTATEPORTINDEXAGINGTIME(s)000f-e259-79c025LearnedGigabitEthernet2/15/0/1AGING00e0-fc12-345625LearnedGigabitEthernet2/15/0/1AGING0023-8956-7b003102LearnedTen-GigabitEthernet2/4/0/1AGING0023-8956-7b00 3202 Learned Ten-GigabitEthernet2/4/0/8 AGING---4macaddress(es)found---L2查看设备MAC地址漂移记录:[Sysname]probe[Sysname-probe]debugl2slot_idchip_idmac/move_rec/show//查看slot7板,0芯片mac地址漂移信息上述命令中slot_id//查看slot7板,0芯片mac地址漂移信息[Sysname-probe]debugl270mac/move_rec/show===================L2MACMOVEMODULEINFO======================================L2MacMoveModuleEnabledL2MacMoveDebugSwitchOff===========================L2MACMOVERecordINFO===========================MacAddress VlanAggModPort->AggModPortCntLatestTime Del0:23:8b:f7:a7:ad 100 0 19 1 ->0 19 7 103 2013/6/1710:16:491该显示表示:0023-8bf7-a7adMAC地址,从VLAN100的接口〔Mod=19,Port=1〕漂移到了另外7总共漂移了367。〔Agg=0表示非聚合端口,Agg=1表示聚合端口〕通过命令[Sysname-probe]debugportmappingslot_id,可查询内部Port对于业务面板上的实际接口编号,例如:[Sysname-probe]debugportmapping7========================================================[Interface][Unit][Port][Name][Combo?][Active?][IfIndex][MID][Link][Attr]===============================================================================GE7/0/1 01 ge0no no 0x390000019upBridgeGE7/0/2 05 ge1no no 0x390000119downBridgeGE7/0/3 07 ge2no no 0x390000219upBridge从信息中得知1内部接口为1内部接口为。debugl2slot_idchip_idmac/move_rec/showdebugportmappingslot_idMod与MID含义一样。因此通过上述两条命令变能够确认:0023-8bf7-a7adMAC地址,从VLAN100的接口GE7/0/1漂移到了接口GE7/0/3,总共漂移了1032013/6/1710:16:49L3转发故障故障描述故障现象通常有三层业务特别、ping/tracert丢包/不通。留意三层转发的IP路由表并不是真正的IP转发表,路由治理通过各路由协议选择最正确的路由,并将选中的路由发送给软件P转发表,B再将路由同步到芯片驱动P转发表,最终实现业务转发,如3所示。图3路由表与转发表关系RoutingRoutingProtocolsRIP/OSPF/ISIS/BGPRouteManagementSoftwareIPForwardingTableDriverIPForwardingTableL3switch故障处理步骤报文目的MAC检查报文在交换机上进展三层转发的条件是报文的目的MAC为交换机本身的MAC。通过镜像或抓包确认这个条件是否满足。留意交换机自身的MAC地址有多个,属于同一个地址段,比方下面显示的VLANMAC:[Sysname]displayinterfacevlan-interface10Vlan-interface10currentstate:UPLineprotocolcurrentstate:UPDescription:Vlan-interface10InterfaceTheMaximumTransmitUnitis1500InternetAddressis/24PrimaryIPPacketFrameType:PKTFMT_ETHNT_2, HardwareAddress:00e0-fc00-6503IPv6PacketFrameType:PKTFMT_ETHNT_2, HardwareAddress:00e0-fc00-6503Lastclearingofcounters: NeverLast300secondsinputrate:0bytes/sec,0bits/sec,0packets/secLast300secondsoutputrate:0bytes/sec,0bits/sec,0packets/sec0packetsinput,0bytes,0drops0packetsoutput,0bytes,0drops路由表检查检查设备到某一目的IP[Sysname]displayiprouting-tableRoutingTable:PublicSummaryCount:Destination/Mask Proto Pre Cost NextHop Interface/24 Static60 0FIB表检查
Vlan20检查设备到某一目的IP网段的FIB表项是否存在,如路由存在、FIB表项特别,请将故障信息发送技术支持人员分析。[Sysname]displayfibDestinationcount:1 FIBentrycount:1Flag:U:UseableG:GatewayH:HostB:Blackhole D:Dynamic S:StaticR:RelayDestination/MaskNexthopFlagOutInterfaceInnerLabelToken/24 USGVlan20Null InvalidARP检查设备ARP学习的接口是否正确,如学习接口不正确,请通过resetarp命令重学习ARP,必要时可以配置静态ARP。如ARP学习的接口始终不正确,请将故障信息发送技术支持人员分析。[Sysname]displayarpType:S-Static D-Dynamic A-Authorized M-MultiportIPAddressMACAddressVLANID InterfaceAgingType0000-0000-000120 GE2/0/1N/A S如以上检查后仍无法确认,请将故障信息发送技术支持人员分析。MPLS转发故障故障描述MPLS常见故障现象有:目的不行达没有相关的路由消灭错误信息打印隧道不稳定报文发送接收错误故障处理步骤VLL、VPLS、L3VPN是基于LSP建立的。在LSP入节点〔即图4中的PE1〕上通过以下方式来检查、MPLS....图4MPLS组网图MPLSLSP检查配置的LSP是否存在,如不存在,请检查MPLSLSP配置是否正确。[PE1]displaymplslspLSPInformation:LDPLSPFECIn/OutLabelIn/OutIFVrfName/32NULL/3-/Vlan103/24NULL/3-/Vlan10/323/NULL-/InLoop0/24NULL/3-/Vlan103/24NULL/3-/Vlan10/32NULL/1025-/Vlan103检查配置的LSP有没有UP,如未UP,请检查MPLSLSP配置是否正确。[PE1]displaymplsldppeerLDPPeerInformationinPublicnetworkTotalnumberofpeers:1Peer-ID Transport-Address Discovery-Source:0 Vlan-interface103检查MPLSLDPOperational〔4〕〔5〕;MPLSLDP〔6〕。[PE1]displaymplsldpsessionLDPSession(s)inPublicNetworkTotalnumberofsessions:1Peer-ID Status LAM SsnRole FT MD5 KA-Sent/Rcv:0Non:0NonExistent--- Passive Off Off 0/0LAM:LabelAdvertisementMode FT :FaultTolerance通过displaycurrent-configurationconfigurationmpls-ldp命令检查LDP的md5-password配置是否全都。<PE1>displaycurrent-configurationconfigurationmpls-ldp#mplsldpmd5-passwordcipherGXA^DW>%V=_Q=^Q`MAF4<1!!#return通过displaymplsldpinterface命令检查对应的标签通告模式是否存在。如不存在,请检查MPLS[PE1]displaymplsldpinterfaceLDPInterfaceInformationinPublicNetworkIF-Name Status LAM Transport-Address Hello-Sent/RcvDUVlan103 Active 469/608DULAM:LabelAdvertisementMode IF-Name:Interfacename检查配置的mplslsr-id是不是等于Loopback接口IPLoopback接口的地址作为LSRID。<PE1>displaycurrent-configuration|includelsr-idmplslsr-id<PE1>displayipinterfacebrief*down:administrativelydown(s):spoofing (l):loopbackLoop0Loop2upupup(s)up(s)00Loop0Loop2upupup(s)up(s)00--02--M-E0/0/0 up up --Vlan10 down down --<PE1>system-view[PE1]mplslsr-id00检查在VLAN接口下是否使能MPLS、MPLSLDP。如未使能,请使能MPLS和MPLSLDP。[PE1]interfacevlan-interface103[PE1-Vlan-interface103]displaythis#interfaceVlan-interface103mplsmplsldpipaddressmplsmplsldp#return路由排查检查路由表中PE1、P、PE2的环回口IP及远端VLAN接口的IP表项是否存在,如不存在,请检查路由协议配置。[Sysname]displayiprouting-tableRoutingTables:PublicDestinations:10 Routes:10Destination/Mask Proto Pre Cost NextHop Interface/32Direct00InLoop0/32OSPF102Vlan10/32OSPF101Vlan103/24OSPF102Vlan103/24OSPF102Vlan103/24OSPF102Vlan103/24Direct00Vlan103/32Direct00InLoop0/8Direct00InLoop0/32Direct00InLoop0检查路由协议状态是否正常,如不正常,请检查路由协议配置。[PE1]displayospfpeerOSPFProcess1withRouterIDNeighborBriefInformationArea:RouterIDAddressPriDead-TimeInterfaceState1 37 Vlan103Full/BDR检查协议中环回口、VLAN接口的路由是否通告,如不正确,请添加配置。[PE1-ospf-1]displaythis#ospf1areanetwork55network#return开启debug开关查看协议报文发送接收是否正常,如不正常,请检查本端、对端设备的路由协议配置。<PE1>debuggingospfpacket*Mar 504:33:09:2942022H3CRM/6/RMDEBUG:OSPF1:SENDPacket.*Mar 504:33:09:3652022H3CRM/6/RMDEBUG:SourceAddress:*Mar 504:33:09:4462022H3CRM/6/RMDEBUG:DestinationAddress:*Mar 504:33:09:5372022H3CRM/6/RMDEBUG:Ver#2,Type:1,Length:48.*Mar 504:33:09:6182022H3CRM/6/RMDEBUG:Router:,Area:,Checksum:9355.*M
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度板材行业环保认证与评估合同3篇
- 2025年度毛纱产品售后服务及维修合同4篇
- 2025年度个人房产买卖及装修工程管理协议4篇
- 2025年度二零二五年度环保产业供应链融资保理合同4篇
- 2025年度个人教育贷款借条4篇
- 2025年度毛石挡土墙施工期施工安全管理与教育培训合同4篇
- 2025年度海洋运输船员劳动合同书3篇
- 2024综合服务外包合同标准文本版B版
- 2025年度智能车间租赁安全协议书规范文本4篇
- 2024黎塘售楼部装修合同
- 土地买卖合同参考模板
- 新能源行业市场分析报告
- 2022年7月2日江苏事业单位统考《综合知识和能力素质》(管理岗)
- 初一英语语法练习
- 房地产运营管理:提升项目品质
- 你划我猜游戏【共159张课件】
- 专升本英语阅读理解50篇
- 中餐烹饪技法大全
- 新型电力系统研究
- 滋补类用药的培训
- 北师大版高三数学选修4-6初等数论初步全册课件【完整版】
评论
0/150
提交评论