H3C核心交换机常见故障定位手册_第1页
H3C核心交换机常见故障定位手册_第2页
H3C核心交换机常见故障定位手册_第3页
H3C核心交换机常见故障定位手册_第4页
H3C核心交换机常见故障定位手册_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

H3c核心交换机常见故障定位手册(总38页)-CAL-FENGHAI.-(YICAI)-CompanyOne1-CAL-FENGHAI.-(YICAI)-CompanyOne1-CAL-本页仅作为文档封面,使用请直接删除核心交换机常见故障处理手册1故障处理通用流程 错误!未指定书签。信息搜集 错误!未指定书签。搜集设备日志信息 错误!未指定书签。搜集其他运行信息 错误!未指定书签。故障定位和处理 错误!未指定书签。故障处理流程图 错误!未指定书签。故障原因分类 错误!未指定书签。故障模型及影响分析 错误!未指定书签。常见的故障恢复措施 错误!未指定书签。2硬件类故障处理 错误!未指定书签。单板故障 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。电源故障 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。风扇故障 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。温度告警 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。3链路端口故障处理 错误!未指定书签。端口错包 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。端口无法up 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。端口由Up变成Down 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。端口频繁Up/Down 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。光模块故障 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。4报文转发故障处理 错误!未指定书签。ping不通或丢包 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。L2转发故障 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。L3转发故障 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。MPLS转发故障 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。5IRF类故障处理 错误!未指定书签。IRF无法形成 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。IRF出现分裂 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。6系统管理维护类故障处理 错误!未指定书签。CPU占用率高 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。内存占用率高 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。资源不足 错误!未指定书签。故障描述 错误!未指定书签。故障处理步骤 错误!未指定书签。故障处理通用流程信息搜集为方便故障快速定位,建议不要关闭设备的信息中心(血代-。6玳6「enable)。缺省情况下信息中心处于开启状态。搜集设备日志信息.收集diag信息执行displaydiagnostic-information命令后,请输入“丫”,以选择将diag保存到CF卡中(选择display会出现信息搜集不全)。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。<Sysname>displaydiagnostic-informationSaveordisplaydiagnosticinformation(Y=save,N=display)[Y/N]:yPleaseinputthefileDiagnosticinformationisoutputtingtoPleasewait...Savesuccessfully.也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-lengthdisable,避免屏幕输出被打断,如下:<Sysname>screen-lengthdisable%Screen-lengthconfigurationisdisabledforcurrentuser.<Sysname>displaydiagnostic-informationSaveordisplaydiagnosticinformation(Y=save,N=display)[Y/N]:n===============runningCPUusageinformation=====================================================================================CurrentCPUusageinfo=====CPUUsageStat.Cycle:19(Second)CPUUsage :5%CPUUsageStat.Time:2013-05-2110:06:25CPUUsageStat.Tick:0x19aa(CPUTickHigh)0xa57f44e1(CPUTickLow)ActualStat.Cycle:0x0(CPUTickHigh)0x39fb1e03(CPUTickLow).其他注意事项建议记录设备操作时的命令行显示信息,便于后续分析。明确每一配置操作的影响,保证出现异常时配置能够被恢复。保证当前配置与保存的配置一致,在IRF分裂、单板Fault、单板重启时请不要保存配置,否则可能会导致配置不一致。操作执行后请等待一定时间来确认执行效果。更换主控板时,请确保新、老主控板的软件版本一致。搜集其他运行信息除设备日志信息外,还需要搜集设备的其他运行信息(包括但不限于以下):故障现象、故障时间、网络拓扑、配置信息、现场处理措施及其实施后的现象效果;操作日志记录、抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息等;设备故障时单板、电源、风扇指示灯的状态或现场图片等搜集信息越全面、越详细,越有利于故障的快速定位。故障定位和处理设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。故障处理流程图错误!未指定书签。为故障处理的一般流程,可以大致判断出故障的类型。图1故障处理流程图故障分析时常用的方法有:端口报文计数报文镜像端口抓包配置QoS策略进行流量统计Debug开关信息对怀疑故障的模块交叉验证(比如:怀疑某个端口光模块异常,可以将其他正常的光模块装在这个端口、将怀疑异常的光模块装到别的端口进行确认;怀疑某个槽位单板异常,可以将别的正常单板装到这个槽位、将怀疑异常的单板装到本设备其他槽位或装到别的S12500-X上确认)。故障原因分类单板故障如单板出现异常重启、状态异常、无法启动、反复重启,请参照错误!未指定书签。错误!未指定书签。处理。电源故障如设备电源指示灯异常、不断打印告警信息,请参照错误!未指定书签。错误!未指定书签。处理。风扇故障如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息,请参照错误!未指定书签。错误!未指定书签。处理。温度告警如设备打印温度告警,请参照错误!未指定书签。错误!未指定书签。处理。链路端口故障如端口出现无法UP、频繁UP/DOWN、端口错包,请参照错误!未指定书签。错误!未指定书签。硬件转发故障如日志不断出现Forwardingfault、Boardfault:chassisXslotY,pleasecheckit等打印信息,请参照错误!未指定书签。错误!未指定书签。处理。报文转发故障如出现ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、MPLS业务异常等,请参照错误!未指定书签。错误!未指定书签。IRF故障如设备无法形成IRF、IRF分裂等,请参照错误!未指定书签。错误!未指定书签。CPU占用率高如设备单板CPU占用率很高,请参照错误!未指定书签。错误!未指定书签。处理。内存占用率高如设备单板内存占用率很高,请参照错误!未指定书签。错误!未指定书签。处理。资源不足如设备打印Noenoughresource资源不足,请参照错误!未指定书签。错误!未指定书签。处理。故障模型及影响分析错误!未指定书签。是一个典型网络故障模型,为提高网络的可靠性,便于故障时快速切换恢复,组网中采用双上行链路,两台核心交换机之间互为备份。图2典型网络故障模型表1故障点影响分析故障点可能现象影响范围1(含光模块)端口down业务会切换端口错包增加影响该链路上的业务(影响范围大)2单板fault业务会切换单板芯片故障(单板状态正常)该芯片上的业务异常交换网板芯片故障会影响整机软件异常设备重启,业务会切换协议模块异常一般会影响业务3同1影响该接入层交换机上的业务(影响范围比故障点1小一些)设备down影响该设备下的业务4单板芯片故障影响部分端口或整机业务软件异常设备重启,影响设备下连业务协议模块异常一般会影响业务5同1影响该链路上服务器涉及的业务6网络正常,业务异常影响该服务器涉及业务常见的故障恢复措施表2常见的故障恢复措施故障原因 业务恢复动作 故障排除动作隔离故障单板;硬件 调整业务流向来隔离故障设备(如可以调整更换备件(备件上线应用前应进行必要的测试)路由的优先级,避免流量经过故障设备,实现流量切换)重启故障设备的协议; 升级版本(含补丁版本);调整业务流向来隔离故障设备 调整组网或配置消除引发故障因素链路 调整业务流向来隔离故障线路 检修线路修改错误配置; 修改错误配置;2其他 正确连接设备端口; 正确连接设备端口;调整业务流向来隔离故障线路 检修机房的电源、空调等支撑系统硬件类故障处理单板故障故障描述单板状态异常(比如状态为Absent、Fault、Loading)。单板出现异常重启、无法启动或不断重启等。单板状态查询单板状态包括:Normal、Master、Slave、Absent、Fault、Loading。Master与Slave分别表示主、备主控板。Normal表示单板处于正常运行状态。如果发现单板状态出现Fault、Offline、Loading,或该槽位存在单板但状态却是Absent的,说明单板可能出现故障,请参考错误!未指定书签。错误!未指定书签。处理。<Sysname>displaydeviceSlotNo.BrdType BrdStatusSubslotSftVer PatchVerLSX1TGS48EC1Normal01 LSX1TGS48EC1Normal2 LSX1TGS48EC1NormalS12510-X-1005S12510-X-1005NoneNoneS12510-X-1005None3LSX1TGS48EC1Normal0S12510-X-1005None4LSX1TGS48EC1Normal0S12510-X-1005None5LSX1TGS48EC1Normal0S12510-X-1005None6LSX1TGS48EC1Normal0S12510-X-1005None7NONEAbsent0NONENone8NONEAbsent0NONENone9NONEAbsent0NONENone10LSX1FAB10B1Normal0S12510-X-1005None11LSX1FAB10B1Normal0S12510-X-1005None12LSX1FAB10B1Normal0S12510-X-1005None13LSX1FAB10B1Normal0S12510-X-1005None14LSX1FAB10B1Normal0S12510-X-1005None15LSX1FAB10B1Normal0S12510-X-1005None16LSX1SUP10A1Standby0S12510-X-1005None17LSX1SUP10A1Master0S12510-X-1005None单板重启确认可以通过logfile日志或displayversion查看设备启动后运行时间来确认单板有没有出现过重启,出现过重启的单板运行时间会明显短于设备上其他单板。如果有单板出现过重启,请参考错误!未指定书签。错误!未指定书签。处理。<Sysname>displayversionCopyright(c)2004-2013HangzhouH3CTech.Co.,Ltd.Allrightsreserved.H3CS12510-Xuptimeis0weeks,4days,1hour,55minutesLastrebootreason:ColdrebootBootimage:flash:/S12500X-CMW710-BOOT-R1005.binCompiledNov11201315:38:46Systemimage:flash:/S12500X-CMW710-SYSTEM-R1005.binCompiledNov11201315:39:12LPU0:Uptimeis0weeks,4days,1hour,52minutesUptimeis0weeks,4days,1hour,52minutesH3CS12510-XLPUwith1XLP308ProcessorBOARDTYPE:LSX1TGS48EC1DRAM:4096MbytesFLASH:0MbytesNVRAM:0KbytesPCB1Version:VER.BPCB2Version:VER.CBootromVersion:108CPLD1Version:002CPLD2Version:002CPLD3Version:002ReleaseVersion:H3CS12510-X-1005PatchVersion:NoneRebootCause:ColdRebootLPU1:Uptimeis0weeks,4days,1hour,50minutesH3C S12510-X LPUwithXLP308ProcessorBOARDTYPE:LSX1TGS48EC1DRAM:4096MbytesFLASH:0MbytesNVRAM:0KbytesPCB1Version:VER.BPCB2Version:VER.CBootromVersion:108CPLD1Version:002CPLD2Version:002CPLD3Version:002ReleaseVersion:H3CS12510-X-1005PatchVersion:NoneRebootCause:ColdRebootLPU2:Uptimeis0weeks,4days,1hour,52minutesH3CS12510-XLPUwith1XLP308ProcessorBOARDTYPE:LSX1TGS48EC1DRAM:4096MbytesFLASH:0MbytesNVRAM:0KbytesPCB1Version:VER.BPCB2Version:VER.CBootromVersion:108CPLD1Version:002CPLD2Version:002CPLD3Version:002ReleaseVersion:H3CS12510-X-1005PatchVersion:NoneRebootCause:ColdReboot2.1.2故障处理步骤.单板状态Absent、Fault确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重插入。将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板故障。检查单板面板、内部的指示灯是否发光。如果单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。.单板状态Loading检查单板面板、内部的指示灯是否发光。如果单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。.单板重启这里的单板重启是指单板出现过重启,而当前单板状态是Normal。(1)通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。1005以上版本displayversion命令支持查询单板最近一次重启的原因。比如下面示例中“Poweron”表示单板最近一次重启原因是掉电重启。<Sysname>displayversionCopyright(c)2004-2013HangzhouH3CTech.Co.,Ltd.Allrightsreserved.H3CS12510-Xuptimeis0weeks,4days,1hour,55minutesLastrebootreason:Coldreboot如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。(4)确认日志中重启时有无出现“SlotXneedtoberebootedautomatically!”提示信息,这种情况是不正常的。请更换单板并搜集故障信息并发送技术支持人员分析。(5)确认日志中有无Hardwareerror提示信息,设备运行过程中单板出现Hardwareerror是不正常的。请搜集信息发送给技术支持人员分析。%@437307%May1522:03:02:1222013S12508-XDIAG/3/ERROR:Hardwareerror!chassis=1,slot=7,code=0%@437308%May1522:03:02:1222013S12508-XDIAG/3/ERROR:Hardwareerror!chassis=1,slot=7,code=1%@437309%May1522:03:02:1222013S12508-XDIAG/3/ERROR:Hardwareerror!chassis=1,slot=7,code=2如无法确认,请搜集故障信息并发送技术支持人员分析。2.2电源故障故障描述设备电源指示灯异常或上报fault故障处理步骤.检查是否存在Fault或Absent状态的电源模块使用displaypower命令显示电源模块状态,查看是否存在Fault或Absent状态的电源模块。<HP>displaypowerPowerIDStateModeCurrent(A)Voltage(V)Power(W)1NormalAC2.6053.81139.902Absent3Absent4NormalAC1.6053.8286.115Absent6AbsentAbsent8Absent 如果存在Absent状态的电源模块,请前往步骤3。如果存在Fault状态的电源模块,请前往步骤4。.检查电源异常模块查看电源异常状态:Absent或者Fault.使用displayalarm命令。[HP]displayalarmSlotLevelInfo-ERRORFan1isfaulty.-INFOPower1isabsent.-INFOPower2isabsent.-INFOPower3isabsent.-INFOPower5isabsent.-INFOPower6isabsent.-INFOPower7isabsent.-INFOPower8isabsent.如果存在Absent状态的电源模块,请前往步骤3。如果存在Fault状态的电源模块,请前往步骤4。.检查Absent状态电源模块如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。如果电源模块槽位有电源模块在位且显示为Absent,请将电源模块拆卸后重新安装,然后使用displaypower命令查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请更换新电源模块。如果更换新电源模块后仍然显示为Absent状态,请前往步骤5。.检查Fault状态电源模块如果存在Fault状态电源模块,表示该电源模块异常,无法供电。电源处于Fault状态可能有以下原因:.电源线可能没接稳而脱落。如果电源线脱落,那么电源的电流和电压都会显示为0,电源状态显示为Fault。请检查电源是否接线,接线后使用displaypower命令查看对应槽位电源状态是否显示为Normal。如果没有恢复为Normal,请前往(2)。<HP>displaypowerPowerIDStateModeCurrent(A)Voltage(V)Power(W)1 NormalAC2.6053.81139.902 FaultAC000 /*电源没接线状态显示*/.可能是电源模块本身温度过高导致。如果电源模块上积灰较多可能引起电源模块温度升高。请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用display

power命令查看对应槽位电源状态是否显示为Normal。如果没有恢复为Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。如果该电源模块仍然显示为Fault状态,请更换电源模块。如果更换新电源模块后仍然显示为Fault状态,请前往步骤5。寻求技术支持如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。风扇故障故障描述风扇框指示灯异常,设备打印风扇异常信息,如:%Sep2220:38:32:9472009H3Cxxxxxxx故障处理步骤风扇框在位时,用手放在设备出风口,判断是否有出风,如果出风口无风,则风扇异常检查风扇的入风口、出风口是否被挡住或积累太多灰尘。检查风扇框是否正常在位,各个风扇的状态是否正常、转速是否相差达到50%以上。如存在异常,建议通过风扇框拔插、更换交叉进一步确认。如果故障不能恢复,需要更换该风扇框,但当前没有风扇框,请关闭设备以免发生温度高导致单板烧坏;如果有降温措施保证系统工作在xx度以下,可以暂时继续使用设备。<System>displayfanFan-tray1:Status:NormalFannumber:5Fanmode:Auto1956AirflowDirection:Front-to-back1956Fan---Status Speed(rpm) 1Normal37072Normal19093Normal20314Normal18635Normal1921Fan-tray2:Status :NormalFannumber:5Fanmode:AutoAirflowDirection:Front-to-backFan---Status Speed(rpm) 1Normal37762Normal19793Normal19334 Normal

5Normal5Normal1969温度告警故障描述设备打印温度过低、过高等告警信息,如:%Sep2220:38:32:9472009H3CDEVM/4/BOARD_TEMPERATURE_TOOHIGH:BoardtemperatureistoohighonChassis1Slot5,typeisLSX1TGS48EC.故障处理步骤检查环境温度是否正常。如果环境温度较高,请确认原因,比如机房通风不畅、空调制冷故障等。(2)检查设备当前的temperature温度是否超出上下的Warning、Alarm门限。也可以用手触摸单板,确认单板是不是很烫,如单板温度很高,请立即检查原因。持续处于较高的温度下,可能会导致单板损坏。如果温度过高,请参照错误!未指定书签。错误!未指定书签。确认是否风扇故障导致。如果温度值为error或出现明显不合实际的值,可能是通过I2C总线访问单板温度传感器异常。设备光模块信息访问也是通过相同的I2C总线,请继续检查单板读取光模块信息是否正常。如光模块访问正常,请使用下面命令重新设置单板温度,并通过displayenvironment查看是否设置成功。[Sysname]temperature-limitchassis1slot0hotspot1-208590<Sysname>displayenvironmentSystemtemperatureinformation(degreecentigrade):SlotSensorTemperatureLowerWarningAlarmShutdown0hotspot145-208590950hotspot24807590950hotspot34607590950hotspot44707590950hotspot54907590950hotspot64707590951hotspootspot24807590951hotspot3460759095(3)如果仍然无法确认故障原因,请搜集信息并发送给技术支持人员协助分析。3链路端口故障处理端口错包故障描述使用displayinterface命令查询端口的入、出方向流量统计信息,发现错包统计计数不为0。<Sysname>displayinterfaceTen-gigabitethernet1/2/0/6Ten-GigabitEthernet1/2/0/6currentstate:UPIPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:80f6-2ec3-ac04Description:SH-B15A-0202-J20-H5800-L-01-te1/0/49LoopbackisnotsetMediatypeisopticalfiber,Porthardwaretypeis10G_BASE_SR_SFP10Gbps-speedmode,full-duplexmodeLinkspeedtypeisforcelink,linkduplextypeisforcelinkFlow-controlisnotenabledTheMaximumFrameLengthis8168BroadcastMAX-ratio:100%UnicastMAX-ratio:100%MulticastMAX-ratio:100%AllowjumboframetopassPVID:1Linkdelayis2(sec)Ethernetportmode:LANPortlink-type:trunkVLANpassing:1(defaultvlan),10-28,91-93,106-108,121-123,184,401,999VLANpermitted:1(defaultvlan),2-4094Trunkportencapsulation:IEEE802.1qPortpriority:2Lastclearingofcounters:NeverPeakvalueofinput:10070bytes/sec,at2013-05-1419:11:30Peakvalueofoutput:315310bytes/sec,at2013-05-1419:56:27Last300secondsinput:0packets/sec90bytes/sec0%Last300secondsoutput:0packets/sec530bytes/sec0%Input(total):1617091packets,bytes1144855unicasts,79482broadcasts,392754multicasts,-pausesInput(normal):1617091packets,bytes1144855unicasts,79482broadcasts,392754multicasts,0pausesInput:0inputerrors,0runts,0giants,0throttles0CRC,0frame,0overruns,-aborts-ignored,-parityerrorsOutput(total):7779022packets,bytes1138915unicasts,3567900broadcasts,3072207multicasts,-pausesOutput(normal):7779022packets,bytes1138915unicasts,3567900broadcasts,3072207multicasts,pausesOutput:0outputerrors,-underruns,-bufferfailures0aborts,0deferred,0collisions,0latecollisions-lostcarrier,-nocarrier端口入方向报文计数错误字段解释inputerrors:各种输入错误的总数。runts:表示接收到的超小帧个数。超小帧即接收到的报文小于64字节,且包括有效的CRC字段,报文格式正确。giants:是超过端口设置的MaximumFrameLength的报文个数。CRC:表示接收到的CRC校验错误报文个数。frame:端口接收时出错的报文。端口出方向报文计数错误字段解释outputerrors:各种输出错误的总数。aborts:表示发送失败的报文总数。deferred:表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文,而这些报文由于发送媒质繁忙而等待了超过2倍的最大报文发送时间。collisions:表示冲突帧总数,即在发送过程中发生冲突的报文。latecollisions:表示延迟冲突帧,即发送过程中发生延迟冲突超过512bit时间的帧。3.1.2故障处理步骤.端口入方向出现CRC、frame、throttles错包且计数持续增加使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。(2)如端口使用光模块,参照错误!未指定书签。错误!未指定书签。确认是否光模块故障导致。(3)与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现端口相关,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。排查对端设备或者中间的传输设备。如故障无法确认,请将故障信息发送技术支持人员分析。.端口入方向出现Overrun错包且计数持续增加Overrun计数是由于端口输入速率超过端口处理能力,导致丢包。如果只有某一个端口收发包异常,或者某一个端口下挂设备的业务不通,同时这个单板上的其他端口都是正常的,可以多次查询displayinterface命令:如果inputerrors有增加,且overruns没有增加,请排查光纤/光模块/对端设备;如果inputerrors有增加,且等于overruns的增加,那么可以怀疑是单板内部拥塞或者堵死,请继续判断:如果overrun计数有增加,且Input(normal)计数没有增加,表明所有入报文都overrun,证明端口堵死,请将故障信息发送技术支持人员分析。如果overruns计数有增加,且Input(normal)计数有增加,表明部分入报文都overrun,证明端口拥塞,请将故障信息发送技术支持人员分析。如果仍然无法确认,请将故障信息发送技术支持人员分析。.端口入方向出现giants错包且计数持续增加(1)检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。如果仍然无法确认,请将故障信息发送技术支持人员分析。4.端口出方向出现错包且计数持续增加检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。如果仍然无法确认,请将故障信息发送技术支持人员分析。3.2端口无法up故障描述端口无法正常Up。故障处理步骤.端口无法Up测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障(2)检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工、协商模式、MDI是否正确。[Sysname]displaycurrent-configurationinterfaceTen-gigabitethernet1/6/0/1#interfaceTen-GigabitEthernet1/6/0/1portlink-modebridgeportlink-typetrunkporttrunkpermitvlan1portlink-aggregationgroup1#Return表3双工支持情况:SpeedDuplex10G1000M100M10MFullSupportSupportSupportSupportHalfNosupportNosupportNosupportNosupport如端口使用光模块,请检查两端光模块类型是否一致,如速率、波长、单模多模状态等;与正常的光模块交叉更换,并参照错误!未指定书签。错误!未指定书签。排除是否为光模块故障导致。[Sysname]displaytransceiverinterfaceTen-gigabitethernet2/9/0/1Ten-GigabitEthernet2/9/0/1transceiverinformation:TransceiverType : 10G_BASE_LRM_SFPConnectorType : LCWavelength(nm) : 1310TransferDistance(m) : 220(50um),220(62.5um),220(om3)DigitalDiagnosticMonitoring: YESVendorName : FINISARCORP.(4)如确认为光模块故障,请更换光模块,并将故障信息发送技术支持人员分析。3.3 端口由Up变成Down故障描述端口状态由Up变成Down。故障处理步骤(1)查看本设备及对端设备日志,确认有无端口shutdown操作。(2)查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。如这里的Te2/8/0/1端口出现“Loopbackdetection?down”,是由于loopback-detection配置为shutdown,当设备在线诊断模块检测到端口故障时,将端口shutdown隔离,以便流量切换到备份链路。请将故障信息发送技术支持人员分析。[Sysname]displayinterfaceTen-gigabitethernet2/8/0/1Ten-GigabitEthernet2/8/0/1currentstate:DOWN(Loopbackdetectiondown)IPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:80f6-2ec3-ac05Description:SH-B15A-0202-V03-H5800-L-01-te1/0/50LoopbackisnotsetMediatypeisopticalfiber,Porthardwaretypeis10G_BASE_SR_SFP10Gbps-speedmode,full-duplexmodeLinkspeedtypeisforcelink,linkduplextypeisforcelinkFlow-controlisnotenabled(3)参照错误!未指定书签。错误!未指定书签。,排查两端端口配置,网线、光模块、光纤等链路是否正常。如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。端口频繁Up/Down故障描述端口频繁Up/Down。故障处理步骤(1)对于光口,请参照错误!未指定书签。错误!未指定书签。确认光模块是否异常。查看光模块alarm信息来排查两端光模块以及中间光纤问题;对于支持诊断功能的光模块可以通过查看diagnosis信息确认光模块的光功率是否处于上下门限临界值。如发送光功率处于临界值,请更换光纤、光模块做交叉验证;如接收光功率处于临界值,请排查对端光模块及中间光纤链路。对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。如果故障依存在,请排查链路、对端设备、中间设备。如仍无法确认,请将故障信息发送技术支持人员分析。光模块故障故障描述安装光模块的接口不能正常工作。故障处理步骤(1)检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。<Sysname>displaytransceiveralarminterfaceGigabitEthernet2/0/1GigabitEthernet2/0/1transceivercurrentalarminformation:TXfaultPCSreceivelocalfaultLasertemperaturefault表4光模块告警信息说明字段描述SFP/SFP+RXlossofsignal接收信号丢失RXpowerhigh接收光功率高告警RXpowerlow接收光功率低告警TXfault发送错误TXbiashigh偏置电流高告警TXbiaslow偏置电流低告警TXpowerhigh发送光功率高告警TXpowerhighTXpowerlow发送光功率低告警Temphigh温度高告警Templow温度低告警Voltagehigh电压高告警Voltagelow电压低告警TransceiverinfoI/Oerror模块信息读写错误Transceiverinfochecksumerror模块信息校验和错误Transceivertypeandportconfigurationmismatch模块类型和端口配置不匹配Transceivertypenotsupportedbyporthardware端口不支持该模块类型XFPRXlossofsignal接收信号丢失RXnotready接收状态未就绪RXCDRlossoflockRXCDR时钟失锁RXpowerhigh接收光功率高告警RXpowerlow接收光功率低告警TXnotready发送状态未就绪TXfault发送错误TXCDRlossoflockTXCDR时钟失锁TXbiashigh偏置电流高告警TXbiaslow偏置电流低告警TXpowerhigh发送光功率高告警TXpowerlow发送光功率低告警Modulenotready模块状态未就绪APDsupplyfaultAPD(AvalanchePhotoDiode,雪崩光电二极管)错误TECfaultTEC(ThermoelectricCooler,热电冷却器)错误Wavelengthunlocked光信号波长失锁Temphigh温度高告警Templow温度低告警Voltagehigh电压高告警Voltagelow电压低告警TransceiverinfoI/Oerror模块信息读写错误

Transceiverinfochecksumerror模块信息校验错误Transceivertypeandportconfigurationmismatch模块类型和端口配置不匹配Transceivertypenotsupportedbyporthardware端口不支持该模块类型检查光模块的接收、发送光功率是否正常(即在该光模块的光功率上下门限值之内)。H3c定制光模块的接收光功率、发送光功率可以通过displaytransceiverdiagnosis命令查询到(非H3c定制的光模块可能查询不到)。[Sysname]displaytransceiverdiagnosisinterfaceGigabitEthernet2/0/1GigabitEthernet2/0/1transceiverdiagnosticinformation:Currentdiagnosticparameters:Temp.(℃)Voltage(V)Bias(mA)RXpower(dBM)TXpower(dBM)40 3.34 1.13 -10.43 0.20H3c定制光模块的光功率上下门限值可以通过下面方式查看(二选一):部分GE端口光模块通过_displaytransceiverinterface命令查询接收光功率、发送光功率的上下门限值。[Sysname_hidecmd]_displaytransceiverinterfaceGigabitEthernet2/0/1GigabitEthernet2/0/1transceiverinformation:TransceiverTypeconnectorTypeTransceiverTypeconnectorTypeWavelength(nm)TransferDistance(m)DigitalDiagnosticMonitoringVendorNameMax.TXPower(dBm)Min.TXPower(dBm)Min.RXPower(dBm)Max.RXPower(dBm)OriginalManufacturerPartNumberRevNumberSerialNumberProductDate10G_BASE_LRM_SFPLc1310220(50um),220(62.5um),220(om3)YESFINISARcORP.0.5-6.5-6.01.5FINISARcORP.FTLX1371D3BcL-HcAUG903SL09-09-1410GE端口及部分GE端口光模块需通过命令_displaytransceiverdiagnosisinterface查询接收光功率、发送光功率的上下门限值。[Sysname-hidecmd]_displaytransceiverdiagnosisinterfaceTen-gigabitethernet1/6/0/1Ten-GigabitEthernet1/6/0/1transceiverdiagnosticinformation:Currentdiagnosticparameters:Temp.(°C)Voltage(V)Bias(mA)RXpower(dBM)TXpower(dBM)433.3745.200.08-2.41TXpower(dBM)Alarmthresholds:Temp.(°C)Voltage(V)Bias(mA)RXpower(dBM)High833.6380.002.501.50Low-133.0015.00-20.00-7.00ParameterswhenfirstusedonN/A:Temp.(°C)Voltage(V)Bias(mA)RXpower(dBM)TXpower(dBM)N/A N/A N/A N/A N/ATotalaccountofalarms:0Latestoccurrenceofdifferentalarms:TypeDateDescriptionTemp.N/AN/AVoltageN/AN/ABiasN/AN/ARXpowerN/AN/ATXpowerN/AN/ATXN/AN/ARXN/AN/AOthersN/AN/ALatestthreealarms:DateDescription在端口Up时:如果光模块发送光功率超出门限,可能为光模块本身故障引起,请与其他正常的光模块交叉测试,确认更换到其他端口故障是否依然存在;如果确认为光模块故障,请更换并将故障信息发送技术支持人员分析。如果光模块接收光功率超出门限值,请排查对端设备、中间链路、中转设备。对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。如仍无法确认,请将故障信息发送技术支持人员分析。建议尽量使用H3c定制光模块。可通过displaytransceivermanuinfo命令来查询光模块的定制厂商信息,如果VendorName为H3C,说明是H3c定制光模块。4报文转发故障处理ping不通或丢包故障描述报文转发丢包,ping不通或ping丢包,tracert异常。<Sysname>pingPING56databytes,presscTRL_ctobreakRequesttimeoutRequesttimeoutRequesttimeoutRequesttimeoutRequesttimeout---pingstatistics--5 packet(s) transmitted0packet(s)received100.00%packetloss4.1.2故障处理步骤设备入出报文统计报文转发异常通常会涉及多台设备,需要逐一排查。为方便排查,排查前建议先明确报文的转发走向,如经过哪些中间设备,在设备的哪些接口进入设备,又会从哪些接口出去。通过镜像抓包或配置ACL规则统计设备有没有收到或发出相应的业务报文,以配置ACL规则统计端口入方向Ping报文为例:(1)定义相关的ACL[Sysname]aclnumber3000[Sysname-acl-adv-3000]rule1permitipdestination0定义流分类和流行为[Sysname]trafficclassifierstatistic_1[Sysname-classifier-static]if-matchacl3000[Sysname]trafficbehaviorstatistic」[Sysname-classifier-static]accountingpacket(3)定义策略[Sysname]qospolicystatistic_1[Sysname-classifier-static]classifierstatistic_1behaviorstatistic_1将策略应用到端口入方向[Sysname]interfaceg8/0/1[Sysname-GigabitEthernet8/0/1]qosapplypolicystatistic_1inbound(5)检查入方向报文统计计数,可以通过resetcounterinterface命令清除计数[Sysname]displayqospolicyinterfaceg8/0/1Interface:GigabitEthernet8/0/1Direction:InboundPolicy:statistic_1Classifier:statistic_1Operator:ANDRule(s):If-matchacl3000Behavior:statistic_1AccountingEnable:1000(Packets)2.报文计数分析如果设备未收到Ping报文,请排查上游的相邻设备;如果设备发送的Ping报文计数正确,建议排查下游的相邻设备;如果Ping报文入出计数不正确,请参照错误!未指定书签。、错误!未指定书签。、错误!未指定书签。继续排查。L2转发故障故障描述S12500-X与属于同一个网段、使用相同VLAN的设备之间,二层流量丢包/不通。报文在设备上进行二层转发的条件是报文的目的MAC与交换机自身的MAC不相等。注意:交换机自身的MAC地址有多个,属于同一个地址段,比如下面显示的是交换机VLAN接口的MAC。[Sysname]displayinterfacevlan-interface10Vlan-interface10currentstate:UPLineprotocolcurrentstate:UPDescription:Vlan-interface10InterfaceTheMaximumTransmitUnitis1500InternetAddressisPrimaryIPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:00e0-fc00-6503IPv6PacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:00e0-fc00-6503Lastclearingofcounters:NeverLast300secondsinputrate:0bytes/sec,0bits/sec,0packets/secLast300secondsoutputrate:0bytes/sec,0bits/sec,0packets/sec0packetsinput,0bytes,0drops0packetsoutput,0bytes,0drops故障处理步骤配置检查检查二层配置是否正常,如:VLAN/PVID报文过滤报文重定向流量监管(CAR)流量整形(GTS)未知单播/组播/广播报文抑制MAC检查检查MAC学习的端口是否正确,是否存在环路导致MAC学习到错误端口,必要时可以配置静态MAC来快速恢复业务。<Sysname>displaymac-addressMACADDRVLANIDSTATEPORTINDEX AGINGTIME(s)000f-e259-79c025LearnedGigabitEthernet2/15/0/1AGING00e0-fc12-345625LearnedGigabitEthernet2/15/0/1AGING0023-8956-7b003102LearnedTen-GigabitEthernet2/4/0/1AGING0023-8956-7b003202LearnedTen-GigabitEthernet2/4/0/8AGING---4macaddress(es)found---L2环路检查查看设备MAC地址漂移记录:[Sysname]probe[Sysname-probe]debug12slot_idchip_idmac/move_rec/show上述命令中slot_id指业务单板slot号;chip_id指单板芯片号0~3。例如:[Sysname-probe]debugl270mac/move_rec/show//查看slot7板,0芯片mac地址漂移信息===================L2MACMOVEMODULEinfo======================================L2MacMoveModuleEnabledL2MacMoveDebugSwitchOff===========================L2MACMOVERecordINFO===========================MacAddress VlanAggModPort->AggModPortCntLatestTime Del0:23:8b:f7:a7:ad1000 191 ->0 19 7 1032013/6/1710:16:491该显示表示:0023-8bf7-a7adMAC地址,从VLAN100的接口(Mod=19,Port=1)漂移到了另外一个接口(Mod=19,Port=7)总共漂移了103次,最后一次漂移时间为2013/6/1710:16:490(Agg=0表示非聚合端口,Agg=1表示聚合端口)通过命令[Sysname-probe]debugportmappingslot_id,可查询内部Port对于业务面板上的实际接口编号,例如:[Sysname-probe]debugportmapping7[Interface][Unit][Port][Name][Combo][Active][IfIndex][MID][Link][Attr]GE7/0/101ge0nono0x390000019upBridgeGE7/0/205ge1nono0x390000119downBridgeGE7/0/307ge2nono0x390000219upBridge从信息中得知GE7/0/1内部接口为(MID=19,Port=1),GE7/0/1内部接口为(MID=19,Port=7)。debugl2slot_idchip_idmac/move_rec/show和debugportmappingslot_id命令中Mod与MID含义相同。因此通过上述两条命令变能够确认:0023-8bf7-a7adMAC地址,从VLAN100的接口GE7/0/1漂移到了接口GE7/0/3,总共漂移了103次,最后一次漂移时间为2013/6/1710:16:49L3转发故障故障描述故障现象通常有三层业务异常、ping/tracert丢包/不通。注意三层转发的IP路由表并不是真正的IP转发表,路由管理通过各路由协议选择最佳的路由,并将选中的路由发送给软件IP转发表(FIB),FIB再将路由同步到芯片驱动IP转发表,最终实现业务转发,如错误!未指定书签。所示。图3路由表与转发表关系故障处理步骤1.报文目的MAC检查报文在交换机上进行三层转发的条件是报文的目的MAC为交换机本身的MAC。通过镜像或抓包确认这个条件是否满足。注意交换机自身的MAC地址有多个,属于同一个地址段,比如下面显示的是VLAN接口的MAC:[Sysname]displayinterfacevlan-interface10Vlan-interface10currentstate:UPLineprotocolcurrentstate:UPDescription:Vlan-interface10InterfaceTheMaximumTransmitUnitis1500InternetAddressisPrimaryIPPacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:00e0-fc00-6503IPv6PacketFrameType:PKTFMT_ETHNT_2,HardwareAddress:00e0-fc00-6503Lastclearingofcounters:NeverLast300secondsinputrate:0bytes/sec,0bits/sec,0packets/secLast300secondsoutputrate:0bytes/sec,0bits/sec,0packets/sec0packetsinput,0bytes,0drops0packetsoutput,0bytes,0drops2.路由表检查检查设备到某一目的IP网段的路由是否存在,如路由不存在,请检查路由协议配置、状态是否正确。[Sysname]displayiprouting-tableRoutingTable:PublicSummaryCount:1Destination/MaskProtoPreCost NextHop InterfaceStatic60 0 Vlan20FIB表检查检查设备到某一目的IP网段的FIB表项是否存在,如路由存在、FIB表项异常,请将故障信息发送技术支持人员分析。[Sysname]displayfibDestinationcount:1FIBentrycount:1Flag:U:UseableG:GatewayH:HostB:BlackholeD:DynamicS:StaticR:RelayDestination/MaskNexthopFlagOutInterfaceInnerLabelTokenUSGVlan20 NullInvalidARP检查检查设备ARP学习的接口是否正确,如学习接口不正确,请通过resetarp命令重新学习ARP,必要时可以配置静态ARP。如ARP学习的接口一直不正确,请将故障信息发送技术支持人员分析。arp[Sysname]displayarpType:S-StaticD-DynamicA-AuthorizedM-MultiportIPAddressMACAddressVLANIDInterface AgingTypeI0000-0000-000120 GE2/0/1 N/AS如以上检查后仍无法确认,请将故障信息发送技术支持人员分析。4.4 MPLS转发故障故障描述MPLS常见故障现象有:目的不可达没有相关的路由出现错误信息打印隧道不稳定报文发送接收错误故障处理步骤VLL、VPLS、L3VPN是基于LSP建立的。在LSP入节点(即错误!未指定书签。中的PE1)上通过下列方式来检查、确认MPLS网络中哪台设备存在配置错误。图4MPLS组网图1.MPLSLSP(1)检查配置的LSP是否存在,如不存在,请检查MPLSLSP配置是否正确。[PE1]displaymplslsp LSPInformation:LDPLSP FEC In/OutLabelIn/OutIF VrfNameNULL/3 -/Vlan103NULL/3 -/Vlan1033/NULL -/InLoop0NULL/3 -/Vlan103NULL/3 -/Vlan103NULL/1025 -/Vlan103(2)检查配置的LSP有没有UP,如未UP,请检查MPLSLSP配置是否正确。[PE1]displaymplsldppeerLDPPeerInformationinPublicnetworkTotalnumberofpeers:1 Peer-ID Transport-AddressDiscovery-Source Vlan-interface103(3)检查MPLSLDP会话:如果状态不是Operational,说明会话存在错误,请转步骤(4)、(5);如果MPLSLDP会话正常,请转步骤(6)。[PE1]displaymplsldpsessionLDPSession(s)inPublicNetworkTotalnumberofsessions:1 Peer-ID StatusLAMSsnRoleFTMD5KA-Sent/Rcv—NonExistent PassiveOffOff0/0 LAM:LabelAdvertisementMode FT:FaultTolerance(4)通过displaycurrent-configurationconfigurationmpls-ldp命令检查LDP的md5-password配置是否一致。<PE1>displaycurrent-configurationconfigurationmpls-ldp#mplsldpmd5-passwordcipherGXA"DW>%V=_Q="Q'MAF4<1!!#return(5)通过displaymplsIdpinterface命令检查对应的标签通告模式是否存在。如不存在,请检查MPLS配置。[PE1]displaymplsldpinterfaceLDPInterfaceInformationinPublicNetwork IF-NameStatusLAM Transport-AddressHello-Sent/Rcv Vlan103ActiveDU 469/608LAM:LabelAdvertisementMode IF-Name:Interfacename(6)检查配置的mplslsr-id是不是等于Loopback接口IP地址。推荐使用设备上某个Loopback接口的地址作为LSRID。<PE1>displaycurrent-configuration|includelsr-idmplslsr-id2.2.2.2<PE1>displayipinterfacebrief*down:administrativelydown(s):spoofing(l):loopbackInterfacePhysicalProtocolIPAddressDescriptionLoopOupup(s) --Loop2 upup(s)M-E0/0/0upup --Vlan10downdown -<PE1>system-view[PE1]mplslsr-id(7)检查在VLAN接口下是否使能MPLS、MPLSLDP。如未使能,请使能MPLS和MPLSLDP。[PE1]interface vlan-interface 103[PE1-Vlan-interface103]displaythis#interfaceVlan-interface103ipaddressmplsmplsIdp#return2.路由排查(1)检查路由表中PE1、P、PE2的环回口IP及远端VLAN接口的IP表项是否存在,如不存在,请检查路由协议配置。[Sysname]displayiprouting-tableRoutingTables:PublicDestinations:10 Routes:10Destination/MaskProtoPreCostNextHopInterfaceDirect0 0InLoop0OSPF10 2Vlan103OSPF10 1Vlan103OSPF10 2Vlan103OSPF10 2Vlan103OSPF10 2Vlan103Direct00Vlan103Direct00InLoop0Direct0 0InL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论