网络故障排除思路_第1页
网络故障排除思路_第2页
网络故障排除思路_第3页
网络故障排除思路_第4页
网络故障排除思路_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络故障排除思路

网络故障排除技术总结 .网络故障排除技术概览 在当今日益复杂的网络中进行故障排除 网络故障的一般分类 一般网络故障的解决步骤 .网络排错常用诊断工具介绍 Ping命令 Traceroute命令 Show命令 Clear命令 Debug命令 错误未定义书签。.故障排除常用方法 分层故障排除法 分块故障排除法 分段故障排除法 替换法 .故障排除对排错技术人员的要求 对协议要求有精深的理解 能够引导客户详细描述出故障现象和相关信息 充分了解自己所管理和维护的网络 及时进行故障排除的文档记录和经验总结 网络故障排除技术总结.网络故障排除技术概览在当今日益复杂的网络中进行故障排除当今的网络互连环境是日趋复杂的,而且随着需求发展的步伐这种复杂性是日益增长的,主要原因如下:•现代的网络要求支持更广泛的应用:包括内容上的数据、语音、视频的应用;接入方式上有线,光纤,无线,多协议转换器,逻辑链路的应用;网络结构上二层,三层,二三层混合,VPN等的应用。•新业务发展使得网络的的需求不断增长,新技术的不断出现。例如:百兆以太网向千兆、万兆以太网的演进;各种防范攻击技术的出现;提供QoS能力;TPV6的支持等。.新技术的应用同时还要兼顾传统的技术。例如,传统的网络体系结构仍在某些场合使用。各种协议的发展,使得新网络的建设需要兼容原来的基础而进行改造。图1-1多样业务的需求和各种先进技术的引入使网络日益复杂因此,现代的互连网络是协议、技术、介质和拓扑的混合体。互连网络环境越复杂,意味着网络的连通性和性能故障发生的可能性越大,而且引发故障的原因也越发难以确定。同时,由于人们越来越多的依赖网络处理日常的工作和事务,一旦网络故障不能及时修复,其所造成的损失可能很大甚至是灾难性的。能够正确地维护网络尽量不出现故障,并确保出现故障之后能够迅速、准确地定位问题并排除故障,对网络维护人员和网络管理人员来说是个挑战,这不但要求我们对网络协议和技术有着深入的理解,更重要的是要建立一个系统化的故障排除思想并合理应用于实际中,以将一个复杂的问题隔离、分解或缩减排错范围,从而及时修复网络故障。网络故障的一般分类网络故障一般分为两大类:连通性问题和性能问题。它们各自故障排除的关注点如下:•连通性问题硬件、系统、电源、媒介故障配置错误不正确的相互作用•性能问题网络拥塞到目的地不是最佳路由转发异常路由环路网络错误一般网络故障的解决步骤故障排除系统化是合理地一步一步找出故障原因并解决的总体原则。它的基本思想是系统地将由故障可能的原因所构成的一个大集合缩减(或隔离)成几个小的子集,从而使问题的复杂度迅速下降故障排除时有序的思路有助于解决所遇到的任何困难,下图给出了一般网络故障解决的处理流程。图1-2网络故障排除基本步骤我们以一个故障排除的实例来学习如何应用这些步骤。案例:某用户网段广播包过多造成该网段的服务器FTP业务传输速度变慢组网图如下:某校园网的三个局域网,其中图1-3用户网段广播包过多造成该网段的服务器FTP业务传输速度慢.故障现象描述要想对网络故障做出准确的分析,首先应该了解故障表现出来的各种现象,然后才能确定可能产生这些现象的故障根源或症结。因此,对网络故障做出完整、清晰的描述是重要的一步。如上述案例,用户反映:“日志服务器与备份服务器间备份发生问题。”这就是一个不完整不清晰的故障现象描述。因为这个描述没有讲述清楚下列问题:.这个问题是连续出现,还是间断出现的•是完全不能备份,还是备份的速度慢(即性能下降).哪个或哪些局域网服务器受到影响,地址是什么正确的故障现象描述是:在网络的高峰期,日志服务器只有。.故障案例相关信息收集本步骤是搜集有助于查找故障原因的更详细的信息。主要是三种途径:.向受影响的用户、网络人员或其他关键人员提出问题;.根据故障描述性质,使用各种工具搜集情况,如网络管理系统、协议分析仪、相关show命令等;.测试性能与网络基线进行比较。如上述案例,可以向用户提问或自行收集下列相关信息:.网络结构或配置是否最近修改过,即问题出现是否与网络变化有关.是否有用户访问受影响的服务器时没有问题.在非高峰期日志服务器和备份服务器间FTP传输速度是多少通过该步骤,可以收集到了下面一些相关信息:..0网段的客户机不断在增加;.网段的机器与备份服务器间进行FTP传输时速度正常为7Mbps,与日志服务器间进行FTP传输时速度慢,只有;.在非高峰期日志服务器和备份服务器间FTP传输速度正常,大约为6Mbps;.经验判断和理论分析利用前两个步骤收集到的数据,并根据自己以往的故障排除经验和所掌握的互连网络设备和协议的知识,来确定一个排错范围。通过范围的划分,就只需注意某一故障或与故障情况相关的那一部分产品、介质和主机。由于.各种可能原因列表该步骤列出根据经验判断和理论分析后总结的各种可能原因。如上述案例,可能原因如下:.日志服务器A的性能问题.对每一原因实施排错方案根据所列出的可能原因制定故障排查计划,分析最有可能的原因,确定一次只对一个变量进行操作,这种方法使你能够重现某一故障的解决办法。如果有多个变量同时被改变,而问题得以解决,那么如何判断哪个变量导致了故障发生呢说明:我们在对故障处理流程5、6、7步骤介绍完毕后,再继续进行上述实例案例的排错步骤介绍。.观察故障排查结果当我们对某一原因执行了排错方案后,需要对结果进行分析,判断问题是否解决,是否弓1入了新的问题。如果问题解决,那么就可以直接进入文档化过程;如果没有解决问题,那么就需要再次循环进行到故障排查过程。.循环进行故障排查过程当实施了一个方案没有达到预期的排错目的时,我们进入到该步骤——这是一个努力缩小可能原因的清单过程。在进行下一循环之前必须做的事情就是将网络恢复到实施上一方案前的状态。如果保留上一方案对网络的改动,很可能导致新的问题,例如:假设修改了访问列表但没有产生预期的结果,此时如果不将访问列表恢复到原始状态,就会导致出现不可预期的结果。循环排错可以有两个切入点:.当针对某一可能原因的排错方案没有达到预期目的,循环进入下一可能原因制定排错方案并实施;.当所有可能原因列表的排错方案均没有达到排错目的,重现进行故障相关信息收集以分析新的可能原因。如上述案例,我们在列出了可能原因列表后,开始制定方案进行故障排除。(1)可能原因1:“”“Traceroute”命令,发现探测报文返回时长仅为10ms,表明该可能原因并不是造成故障的原因。

我们进入循环排错过程。(2)可能原因2:“日志服务器A的性能问题”制定的方案:测试同一网段的主机C和日志服务器间的FTP传输速度,是6Mbps正常。可见问题与服务器A无关。(3)可能原因3:“”制定的方案:测试主机C和备份服务器B间FTP传输速度是7Mbps,正常。排除了网关因素,因为B、C在不同网段上而速度正常。(4)可能原因3:“”showinterfacesfastEthernet0/Xcounters",输出如下:Interface:Fa0/x5minuteinputrate5minuteoutputrateInOctets4800bits/sec,4packets/sec55936bits/sec,5packets/secInUcastPkts390531InMulticastPkts39InBroadcastPktsOutOctets13164OutUcastPkts33133OutMulticastPkts1840OutBroadcastPkts12611广播与单播的比例在1:3,显然太大了。“showinterfacesfastEthernet0/xcounters”输出如下:Interface:Fa0/135minuteinputrate5minuteoutputrateInOctetsInUcastPkts4800bits/sec,4packets/sec55936bits/sec,5packets/sec4253824InMulticastPkts39InBroadcastPktsOutOctets11061OutUcastPktsOutMulticastPkts1840OutBroadcastPkts12611广播与单播的比例在1:280,是正常的。由于这是一个网络布局不恰当的问题,于是重新安排服务器的位置,将服务器移动网段后,故障排除。.故障排除过程文档化当最终排除了网络故障后,那么排除流程的最后一步就是对所做的工作进行文字记录。文档化过程决不是一个可有可无的工作,原因如下:.文档是排错宝贵经验的总结,是“经验判断和理论分析”这一过程中最重要的参考资料;. 文档记录了这次排错中网络参数所做的修改,这也是下一次网络故障应收集的相关信息。文档记录主要包括以下几个方面:. 故障现象描述及收集的相关信息. 网络拓扑图绘制.网络中使用的设备清单和介质清单.网络中使用的协议清单和应用清单.故障发生的可能原因. 对每一可能原因制定的方案和实施结果. 本次排错的心得体会.其他:如排错中的使用的参考资料列表等请读者对照上述案例完成文档记录工作。2.网络排错常用诊断工具介绍锐捷的产品提供了一套完整的命令集,可以用于监控网络互联环境的工作状况和解决基本的网络故障。主要包括以下命令:Ping命令Traceroute命令.Show命令.Clear命令Debug命令Ping命令1原理:“ping”这个词源于声纳定位操作,指来自声纳设备的脉冲信号。Ping命令的思想与发出一个短促的雷达波,通过收集回波来判断目标很相似;即源站点向目的站点发出一个ICMPEchoRequest报文,目的站点收到该报文后回一个ICMPEchoReply报文,这样就验证了两个节点间IP层的可达性--表示了网络层是连通的。2.功能Ping命令用于检查IP网络连接及主机是否可达。平台的ping命令在RG系列设备上,Ping命令的格式如下:Pingip-address例如,向主机Ping报文RG#PING!!Successrateis100percent(2/2)Minimum=21msMaximum=22ms,Average=21msRG# Successrateis0percent(0/5)平台的Ping命令在PC机上或WindwosNT为平台的服务器上,Ping命令的格式如下:Ping[-nnumber][-t][-lnumber]ip-addressnPing报文的个数,缺省值为5;t持续地ping直到人为地中断,Ctr+Breack暂时中止ping命令并查看当前的统计结果,而Ctr+C则中断命令的执行。1设置Ping报文所携带的数据部分的字节数,设置范围从0至65500。例:向主机发出2个数据部分大小为3000Bytes的ping报文C:\>3000time=321msTTL=123Packets:Sent=2,Received=2,Lost=0(0%loss),Approximateroundtriptimesinmilli-seconds:Minimum=297ms,Maximum= 321ms,Average= 309ms说明:实际上Windows平台的Ping命令的参数非常多,这里只介绍其中最重要的三个参数。其他参数介绍请参考Windows在线帮助。5.巧用Ping命令进行故障排除案例一:连通性问题还是性能问题(1)案例描述•工程师小C,在配置完一台路由器之后执行Ping命令检测链路是否通畅。发现5个报文都没有Ping通,于是检查双方的配置命令并查看路由表,却一直没有找到错误所在。最后又重复执行了一遍相同的Ping命令,发现这一次5个报文中有1个Ping通了--原来是线路质量不好存在比较严重的丢包现象。•工程师小C又配置了一台路由器,然后执行Ping命令访问Internet上某站点的IP地址,但没有Ping通。有了上次的教训小L,再一次Ping了20个报文,仍旧没有响应。于是小L断定是网络故障。但是在费劲周折检查了配置链路之后仍没有发现任何可疑之处,最后小L采取逐段检测的方法对链路中的网关进行逐级测试,发现都可以Ping通,但是响应的时间越来越长,最后一个网关的响应时间在1800ms左右。会不会是由于超时而导致显示为Ping不同呢受此启发,小L将Ping命令报文的超时时间改为4000ms,这次成功Ping通了,显示所有的报文响应时间都在2200ms左右。(2)建议和总结:真的是Ping不通吗这个问题需要定位清楚,因为连通性问题和性能问题排错的关注点是不一样的——问题定位错误必然会导致排错过程的周折。使用一般的Ping命令,缺省是发送5个报文的,超时时长是2000ms。如果Ping不通情况发生,最好能够再用带参数-c和-t的Ping命令再执行一遍,如:Ping-c20-t4000ip-address,即连续发送20个报文,每个报文的超时时长为4000ms,这样一般可以判断出到底是连通性问题还是性能问题。案例二:使用大包ping对端进行MTU不一致的故障排除(1)现象描述:某次开局,使用RG路由器与其他厂商的某路由器互连,并运行OSPF协议。数据配置完毕后,一切正常,并在今后相当长的时间内设备运转稳定。但两个月后,用户反馈网络中断。(2)相关信息显示:•登录到两台路由器上,发现双方连接正常,可以相互Ping通对端地址。但OSPF协议中断;•登录RG路由器查看邻居状态,发现邻居状态机处于Exstart状态。打开相应的debug开关查看相应的报文信息,发现双方都可以收到Hello报文,但RG路由器发送DD报文后,一直没有收到对方回应的DD报文;•登录其他厂商的那台路由器,打开相应的debug开关,发现对方收到RG路由器发送的DD报文后,一发送了相应的DD报文予以回应。(3)原因分析:初步断定,RG路由器没有收到DD回应报文,但对方确实发出来了。既然可以接收到HELLO报文说明链路是通畅的,而且多播报文的收发也没有问题。那么有可能是对方发送的DD报文有错误导致RG路由器拒收,但查看相应的信息,并没有报告接收到错误的DD报文。仔细查看某厂商路由器的调试信息发现这个DD报文很大有2000多字节。会不会是由于报文太大导致的问题呢试着Ping了一个2000字节的报文,结果不通。那么故障原因很可能是--由于双方的MTU不一致导致大包不通。(4)处理过程:检查配置,发现对方路由器的MTU设置为4000多而RG路由器的MTU设置为1500,于是修改对端路由器的MTU为1500。故障排除。那么为什么工程初期没有问题呢这是因为前期DD报文长度小于1500字节,而后来网络扩容导致路由信息过多使DD报文的长度超过了1500字节。(5)建议和总结:由于Ping缺省报文是56个字节,所以显示的Ping通信息只是表示56字节的报文可以通而并不一定表示其他大小的报文仍旧可以通。所以,应当善于使用Ping的其他参数来进行故障排除。案例三:A能Ping通B,B就一定能Ping通A吗(1)现象描述组网图如下:图1-4案例:A能Ping通B,B就一定能

Ping通A吗在RouterA上配置一条指向的静态路由:RouterA(config)#在RouterA上PingRouterB的以太网地址,显示可以正常Ping通;但是在RouterB上PingRouterA的以太网地址,却无法Ping通。(2)原因分析:由于在RouterB上却没有相应的配置到路由,所以从RouterB上Ping不通RouterA的以太网口。但是为何在A上可以Ping通呢同样是没有回程路由呀打开路由器上的IP报文调试开关发现,原来从RouterA上发出的ICMP报文的源地址填写的是而不是,由于两台路由器的s0口处于同一网段,所以响应报文可以顺利到达RouterB。(3)建议和总结:A能够Ping通B则B一定能够Ping通A(不考虑防火墙的因素),这句话的对错取决于A和B到底是指主机还是指路由器。•如果是指两台主机,那么这句话就是正确的。•如果是指两台路由器那就是错误的,因为路由器通常会有多个IP地址。现在就有如下问题:当从一台路由器上执行Ping命令它发出的ICMP氏ho报文的源地址究竟选择哪一个呢实际情况是路由器选择发出报文的接口的IP地址。Traceroute命令1原理Traceroute是为了探测源节点到目的节点之间数据报文所经过的路径。利用IP报文的TTL域在每经过一个路由器的转发后减一,当TTL=0时则向源节点报告TTL超时这个的特性。Traceroute首先发送一个TTL为1的UDP报文,因此第一跳发送回一个ICMP错误消息以指明此数据报不能被发送(因为TTL超时),之后Traceroute再发送一个TTL为2的报文,同样第二跳返回TTL超时,这个过程不断进行,直到到达目的地,此时由于数据报中使用了无效的端口号(缺省为33434)此时目的主机会返回一个ICMP的目的地不可达消息,表明该Traceroute操作结束。Traceroute记录下每一个ICMPTTL超时消息的源地址,从而提供给用户报文到达目的地所经过的网关IP地址。2.功能Traceroute命令用于测试数据报文从发送主机到目的地所经过的网关,主要用于检查网络连接是否可达,以及分析网络什么地方发生了故障。平台的Traceroute命令在锐捷RG系列路由器上,Traceroute命令的格式如下:Traceroutehost『destination]例如:查看到目的主机中间所经过的网关。RG#tracerouteTypeesc/CTRL^c/CTRLAz/qtoabort.175ms160ms145ms230ms185ms220msTracecompletesuccessfully.平台的Tracert命令在PC机上或WindwosNT为平台的服务器上,Tracert命令的格式如下:tracert[-d][-hmaximum_hops][-jhost-list][-wtimeout]hostd不解析主机名;h指定最大TTL大小;j设定松散源地址路由列表;w用于设置UDP报文的超时时间,单位毫秒;例如:查看到目的主机中间所经过的前两个网关。C:\>tracert1 3ms2msTracecomplete.5.使用Traceroute命令进行故障排除案例一:使用Traceroute命令定位不当的网络配置点(1)现象描述组网情况如下图所示:图1-5案例:使用Traceroute命令定位不当

的网络配置点(2)相关信息显示在主机上2显示如下:C:\DocumentsandSettings\c>ping-n10-l10002Pingingwith1000bytesofdata:Replyfrom:bytes=1000time=552msTTL=250Replyfrom:bytes=1000time=5735msTTL=250Replyfrom:bytes=1000time=551msTTL=250Replyfrom:bytes=1000time=5734msTTL=250Replyfrom:bytes=1000time=549msTTL=250Replyfrom:bytes=1000time=5634msTTL=250Replyfrom:bytes=1000time=555msTTL=250Replyfrom:bytes=1000time=5738msTTL=250Replyfrom:bytes=1000time=455msTTL=250Replyfrom:bytes=1000time=5811msTTL=250原因分析上面的Ping显示出一个规律:奇数报文的返回时长短,而偶数报文返回时长很长(是奇数报文的10倍多)。可以初步判断奇数报文和偶数报文是通过不同的路径传输的。现在我们需要使用Traceroute命令来追踪这不同的路径。在RouterC上,TracerouteRouterC(config)#tracerouteTargetIPaddressorhost:Maximumnumberofhopstosearchfortarget[30]:10Repeatcountforeachecho[3]:8Waittimeoutmillisecondsforeachreply[2000]:Typeesc/CTRL^c/CTRLAz/qtoabort.traceroute 1 6ms4ms4ms4ms4ms4ms4ms4ms。。。。。。(中间省略)520ms16ms15ms16ms16ms16ms16ms16ms630ms278ms25ms279ms25ms278ms25ms277msRouterC(config)#通过询问该段网络的管理员,得知这两路由器间有一主一备两串行链路,主链路为(s0口之间),备份链路为128Kbps(s1口之间)。网络管理员在此两路由器间配置了静态路由。RouterB上如下配置:RouterB(config)#RouterB(config)#RouterA上如下配置:RouterA(config)#.RouterA(config)#于是问题就清楚了。例如RouterB,由于管理员配置时没有给出静态路由的优先级,这两条路由项的管理距离就同为缺省值1,于是就同时出现在路由表中,实现的是负载分担,而不能达到主备的目的。(3)处理过程可以有两种处理方法:继续使用静态路由,进行配置更改RouterB上进行如下更改:RouterB(config)#(主链路仍使用缺省)RouterB(config)#100(备份链路的降低至200)RouterA上进行如下更改:RouterA(config)#RouterA(config)# 100这样,只有当主链路发生故障,备份链路的路由项才会出线在路由表中,从而接替主链路完成报文转发,实现主备目的。在两路由器上运行动态路由协议,如IGRP、EIGRP、OSPF等,但不要运行RIP协议(因为RIP协议仅以hop作为Metric的)(4)建议和总结本案例的目的不是为了解释网络配置问题,而是用来展示Ping命令和Traceroute命令的相互配合来找到网络问题的发生点。尤其在一个大的组网环境中,维护人员可能无法沿着路径逐机排查,此时,能够迅速定位出发生问题的线路或路由器就非常重要了。案例二:使用Traceroute命令发现路由环路(1)现象描述组网情况如下图所示:(2)相关信息显示RouterA#ping2timeoutis2000milliseconds.Successrateis0percent(0/5)RouterA#tracerouteTypeesc/CTRL^c/CTRLAz/qtoabort.traceroute 16ms4ms4ms(RouterB)28:ms8ms,8ms(RouterA)312ms12ms12ms(RouterB)416ms16ms16ms(RouterA)(3)原因分析从上面的Traceroute命令的显示可以立即发现,在RouterA和RouterB间产生了路由环路。由于是配置的是静态路由,基本可以断定是RouterA或RouterB的静态路由配置错误。(4)处理过程修改RouterB的配置如下:RouterB(config)#noiprouteRouterB(config)#ip故障排除。(5)建议和总结Traceroute命令能够很容易发现路由环路等潜在问题。当路由器A认为路由器B知道到达目的地的路径,而路由器B也认为路由器A知道目的地时,就是路由环路发生了。使用Ping命令只能知道接收端出现超时错误,而Traceroute能够立即发现环路所在——如果Traceroute命令两次或者多次显示同样的接口。当通过Traceroute发现路由环路后,如果配置为:. 静态路由:几乎可以肯定是手工配置有问题,如本案例所示。. OSPF协议:可能是地址聚合产生的问题。. 多路由协议:可能是路由引入产生的问题。Show命令Show命令是用于了解路由器的当前状况、检测相邻路由器、从总体上监控网络、隔离互连网络中故障的最重要的工具之一。几乎在任何故障排除和监控场合,Show命令都是必不可少的。例如:基于RGNOS路由平台的Show命令选项如下所示:RG#showaccess-groupaccess-listsaccountingaddress-bindAggregatePortarpclass-mapMACaccess-groupListaccesslistsAccountingconfigurationsparametersaddressbindingtableAggregatePortIEEEARPtableShowQoSClassMap

clockclusterconfigurecpudebuggingdetectdot1xfileclockclusterconfigurecpudebuggingdetectdot1xfilegvrphostinterfacesiPip-auth-modekeylinelldploggingmacClusterinformationContentsofNon-VolatilememoryCPUstatisticsStateofeachdebuggingoptiondetectuseripIEEEinformationShowfilesysteminformationGVRPconfigurecommandIPdnshosttableInterfacestatusandconfigurationIPinformationShowIPauthenticationmodeKeyinformationTTYlineinformationLLDPinformationShowthecontentsofloggingbuffersmac-address-tableMACforwardingtablemembermemorymlsmonitorpolicy-mapport-securityprivilegeradius-serverrate-controlreloadrmonShowmembersinformationMemorystatisticsShowMultiLayerSwitchinginformationmac-address-tableMACforwardingtablemembermemorymlsmonitorpolicy-mapport-securityprivilegeradius-serverrate-controlreloadrmonShowmembersinformationMemorystatisticsShowMultiLayerSwitchinginformationShowaSPANsessionShowQoSPolicyMapShowsecureportinformationShowcurrentprivilegelevelShowRADIUSqueryparametersRatecontrolconfigurationinformationHaltandperformacoldrestartrmonstatisticsrunning-configsecurityservicesmp-serversnmpsnmp-serversntpspanning-treestorm-controltime-rangeversionCurrentoPeratingconfigurationSecuritySettingsShownetworkmanagementservicesSMPServerParameterssnmpstatisticsShowSNMPparametersshowsntpparameterSpanningtreetopologyShowpacketstormcontrolconfigurationShowtime-rangeinformationSystemhardwareandsoftwarestatusvlanVLANstatus曾说明:上述清单列出了Show命令可以使用的全部一级关键字,其中大部分关键字后还可以跟更多的关键字,以使用户能够清晰的了解到特定的信息。在故障排除中最有用的是那些用黑体字显示的关键字,用户应该记住它们并熟悉它们的输出信息。本章仅介绍部分最常用的、全局性的show命令,而与各协议相关的show命令,将在后面章节相应的协议故障排除中详细介绍。ShowVersion命令ShowVersion命令是最基本的命令之一,它用于显示路由器硬件和软件的基本信息。因为不同的版本有不同的特征,实现的功能也不完全相同,所以,查看硬件和软件的信息是解决问题的重要一步。在进行故障排除时,我们通常从这个命令开始收集数据。该命令将帮助用户收集下列信息:RGNOS软件版本是哪一系列的产品输出示例如下,请找到上述提及的相应项。Switch#shverSystemdescription :Red-GiantGigabitIntelligentSwitch(S2126G)ByRuijieNetworkSystemuptime :1d:2h:41m:11sSystemhardwareversion:Systemsoftwareversion:(3)BuildSep72006RelSystemBOOTversion :RG-S2126G-BOOT03-02-02SystemCTRLversion :RG-S2126G-CTRL03-11-02RunningSwitchingImage:Layer2running-config和Showstartup-config命令Showrunning-config用于查看当前的配置信息。Showstartup-config用于显示NVRAM或Flash中的路由器配置文件,即路由器下次上电启动时所用的配置文件。配置文件为一文本文件,其格式如下:以命令格式保存;.为节约空间,只保存非缺省的常数命令;组织以命令模式为基本框架,同一命令模式的命令组织在一起,形式一节,节与节间以注释行隔开(以“!”开始的语句为注释行). 节的顺序安排:全局配置、物理接口配置、逻辑接口配置、路由协议配置等;以end为结束。示例如下:Switch#showrunning-configSystemsoftwareversion:(3)BuildSep72006RelBuildingconfiguration...Currentconfiguration:287bytes!version!hostnameSwitchvlan1!enablesecretlevel145$2,1u_;C3&-8U0<D4',tj9=GQ+/7R:>Henablesecretlevel155$*T73C,tZ[V/4D+S(\W&QG1X)sv'!interfacevlan1noshutdown!endSwitch#强烈建议网络维护或管理人员保存一份启动配置文件的拷贝存放到路由器以外的其他设备上。这有几点好处:. 这将使维护人员能够迅速配置一个替代的路由器;. 这个保存在外部的文本文件也可以按上述规定的格式脱机编辑然后使用Downloadconfig命令加载到路由器上;可以将该配置文件通过E-mail形式发给锐捷技术支持人员以帮助定位配置问题。interface命令Showinterface命令可以显示所有接口的当前状态,如果只是想查看特定接口的状态,请在该命令后输入接口类型和接口号,例如:showinterfaceFastEthernet0/13命令将查看以太口0/3的运行状态和相关信息。Switch#showinterfaceFastEthernet0/13Interface:FastEthernet100BaseTX0/13Description:AdminStatus:upOperStatus:upHardware:10/100BaseTXMtu:1500LastChange:0d:22h:32m:50sAdminDuplex:AutoOperDuplex:FullAdminSpeed:AutoOperSpeed:100FlowControlAdminStatus:OffFlowControlOperStatus:OffPriority:0Broadcastblocked:DISABLEUnknownmulticastblocked:DISABLEUnknownunicastblocked:DISABLEClear命令在介绍完毕Show命令的基本使用后,必须提及一下Clear命令的作用——用于清空当前的统计信息以排除以前积累的数据的干扰。Clear命令中最主要的是Clear和Clearcounters命令。对于端口收发的各计数器的刷新必须使用Clearcounters,可通过showinterface命令来观察;对于端口硬件逻辑的刷新使用Clear来刷新,通过showinterface命令来观察。Clear命令适用场合如下:许多情况下,我们需要使用带参数的Ping命令来测试链路的通断,同时在一段时间内Ping后,通过Showinterface或Showipinterface命令来查看端口报文的收发及CRC校验等情况的正确与否,从而分析报文的收发在什么地方出现了问题。但show命令的显示值是自从路由器运行以来(或上次Clear后)的所有统计值,这个值是无法分析的。因此,实际我们需要进行的步骤为:首先使用Clear命令清空统计值,然后使用一系列Ping命令使路由器端口收发报文,最后使用Show命令来查看统计值。例如:通过ShowinterfaceFastEthernet0/13counters观察到端口有如下统计数据:Interface:Fa0/135minuteinputrate:76208bits/sec,53packets/sec5minuteoutputrate:340600bits/sec,53packets/secInOctets:53193982InUcastPkts:253095InMulticastPkts:32InBroadcastPkts:10655OutUcastPkts:336100OutMulticastPkts:1740OutBroadcastPkts:12981Undersizepackets:0Oversizepackets:0collisions :0Fragments:0Jabbers :0CRCalignmenterrors:16AlignmentErrors:0FCSErrors:0droppedpacketevents(duetolackofresources):0packetsreceivedoflength(inoctets):64:157041,65-127:127987,128-255:10115,256-511:7169,512-1023:14593,1024-1518:297698我们发现端口收发有了错误,但这些错误是否是最近产生的呢可用ClearcountersinterfaceFastEthernet0/13来进行刷新,再通过Ping一组报文测试路由器端口的收发,最后再使用ShowinterfaceFastEthernet0/13counters看结果统计。如果仍然显示发生错误,那么我们就需要分析原因进行故障排除了。Debug命令Debug命令概述RG系列路由器提供大量的debug命令,可以帮助用户在网络发生故障时获得路由器中交换的报文和帧的细节信息,这些信息对网络故障的定位是至关重要的。打开相应的调试开关例如:打开IPpacket调试开关,命令为:RG#debugippacketDebug命令使用注意事项由于调试信息的输出在CPU处理中赋予了很高的优先级,许多形式的debug命令会占用大量的CPU运行时间,在负荷高的路由器上运行debug命令可能弓[起严重的网络故障(如网络性能迅速下降)。但debug命令的输出信息对于定位网络故障又是如此的重要,是维护人员必须使用的工具。因此,我们总结了一些使用debug命令的注意要点,如下:(1)应当使用debug命令来查找故障,而不是用来监控正常的网络运行。(2)尽量在网络使用的低峰期或网络用户较少时使用,以降低debug命令对系统的影响性。(3)在没有完全掌握某debug命令的工作过程以及它所提供的信息前,不要轻易使用该debug命令。(4)不要轻易使用类似debugall之类将产生大量输出的命令。仅当寻找某些类型的流量或故障并且已将故障原因缩小到一个可能的范围时,才使用某些特定的debug命令。(5)在使用debug命令获得足够多的信息后,应立即以“nodebugxx”命令终止debug命令的执行。可以使用showdebugging命令查看当前已打开哪些调试开关并使用相应命令关闭;或干脆使用nodebugall命令关闭所有调试开关。案例一:忘记关闭debug开关弓I起的路由器报文转发速度变慢的故障排除(1)现象描述某电信局安装了RG路由器作为接入服务器的出口网关,一段时间运转良好。某日用户反映该设备明显速度变慢。执行PING操作,PING对端路由器设备,所用时间为正常的2倍多。(2)相关信息收集该路由器的日志中记录了大量的收发IP报文的信息。(3)原因分析初步分析可能有以下几种原因:线路质量不好。. 对端设备问题,导致回应较慢。自身配置错误. 网络繁忙.软硬件故障(4)处理过程. 检查线路,没有发现问题;.PING与之相连的其他路由器设备,故障依旧,说明对端设备无问题;.对照以前运转良好时备份的Running-config文件,检查路由器上的配置,没有错误;. 当时并非上网高峰期,且只是变慢,而无丢包,应当不是网络负荷问题;. 检查该路由器的日志信息,发现其中记录了大量的收发IP报文的信息,执行命令showdebugging命令,发现该路由器的debugippacket处于打开状态。由于设备需要记录每一个被转发的IP报文,大大降低了路由器的处理速度,导致变慢。关闭该debug开关后,故障排除。(5)建议与总结山重水复疑无路,柳暗花明又一村。排除此类故障时应该想一下debug开关的问题。案例二:通过串口telnet到路由器,在该串口上打开debug命令产生问题当远程调试RG路由器时,有时需要通过某个串口telnet上该路由器,如果该串口上的链路层协议封装的是FR、PPP或HDLC,千万不能打开该串口相应的链路层调试开关(可以打开其他串口的链路层调试开关),否则由于数据流量太大,会使该串口的协议down掉。如果链路层协议是,则没有这个限制。命令和debug命令的配合使用Show命令能够提供某个时间的设备运行状况的视图(静态),而debug命令能够展示一段时间内设备运行的变化情况(动态)。因此,要在故障排除时了解系统运行的总体情况,必须同时使用这两个命令。例如:当进行OSPF协议的故障排除时,需要使用showiproute命令来了解路由器当前已经知道了哪些路由表项,需要使用debugipospfevents命令来了解路由表是如何更新的。如果不知道路由表的当前内容,路由更新的信息对故障排除是不够的。Debug命令并不能直接告诉你设备已知到的信息,而show命令则不能告诉路由表的变化情况,两者的配合使用,才能全面了解正在发生的事情。一般说来,Show命令不会影响系统的运行性能,而debug命令则会对系统性能造成影响。因此两者的使用应遵循如下规则:首先使用相关的多个show命令查看设备当前的运行状况,分析可能原因,缩减故障到适当范围,然后打开某个特定的debug命令观察变化情况,以定位和排除问题。3.故障排除常用方法分层故障排除法.层次化的故障排除思想过去的十几年,互连网络领域的变化是惊人的,但有一件事情没有变化:论述互连网络技术的方法都与osi模型有关,即使新的技术与OSI模型不一定精确对应,但所有的技术都仍然是分层的。因此,我们重要的是要培养一种层次化的网络故障分析方法。分层法思想很简单:所有模型都遵循相同的基本前提--当模型的所有低层结构工作正常时,它的高层结构才能正常工作。在确信所有低层结构都正常运行之前,解决高层结构问题完全是浪费时间。例如:在一个帧中继网络中,由于物理层的不稳定,帧中继连接总是出现反复失去连接的问题,这个问题的直接表象是到达远程端点的路由总是出现间歇性中断。这使得维护工程师第一反应是路由协议出问题了,然后凭借着这个感觉来对路由协议进行大量故障诊断和配置,其结果是可想而知的。如果他能够从OSI模型的底层逐步向上来探究原因的话,维护工程师将不会做出这个错误的假设,并能够迅速定位和排除问题。.各层次的关注点⑴物理层物理层负责通过某种介质提供到另一设备的物理连接,包括端点间的二进制流的发送与接收,完成与数据链路层的交互操作等功能。物理层需要关注的是:电缆、连接头、信号电平、编码、时钟和组帧,这些都是导致端口处于Shutdown状态的因素。(2)数据链路层数据链路层负责在网络层与物理层之间进行信息传输;规定了介质如何接入和共享;站点如何进行标识;如何根据物理层接收的二进制数据建立帧。封装的不一致是导致数据链路层故障的最常见原因。当使用Showinterface命令显示端口和协议均为up时,我们基本可以认为数据链路层工作正常;而如果端口up而协议为down,那么数据链路层存在故障。链路的利用率也和数据链路层有关,端口和协议是好的,但链路带宽有可能被过度使用,从而弓I起间歇性的连接失败或网络性能下降。(3)网络层网络层负责实现数据的分段打包与重组以及差错报告,更重要的是它负责信息通过网络的最佳路径。地址错误和子网掩码错误是弓[起网络层故障最常见的原因;互联网络中的地址重复是网络故障的另一个可能原因;另外,路由协议是网络层的一部分,也是排错重点关注的内容。排除网络层故障的基本方法是:沿着从源到目的地的路径查看路由器上的路由表,同时检查那些路由器接口的IP地址。通常,如果路由没有在路由表中出现,就应该通过检查来弄清是否已经输入了适当的静态、默认或动态路由,然后,手工配置丢失的路由或排除动态路由协议选择过程的故障以使路由表更新。分块故障排除法Show命令的介绍中提及了RG系列路由器Running-config文件的组织结构,它是以全局配置、物理接口配置、逻辑接口配置、路由配置等方式编排的。其实我们还能够以另一种角度看待这个配置文件,该配置分为以下几块:■管理部分(路由器名称、口令、服务、日志等).端口部分(地址、封装、cost、认证等)■路由协议部分(静态路由、RIP、OSPF、BGP、路由引入等).策略部分(路由策略、策略路由、安全配置等).接入部分(主控制台、Telnet登录或哑终端、拨号等).其他应用部分(语言配置、VPN配置、Qos配置等)上述分类给故障定位提供了一个原始框架,当出现一个故障案例现象时,我们可以把它归入上述某一类或某几类中,从而有助于缩减故障定位范围。例如:当使用“Showiproute”命令,结果只显示出了直连路由,那么问题可能发生在哪里呢看上述的分块,我们发现有三部分可能弓I起该故障:路由协议、策略、端口。如果没有配置路由协议或配置不当,路由表就可能为空;如果访问列表配置错误,就可能妨碍路由的更新;如果端口的地址、掩码或认证配置错误,也可能导致路由表错误。分段故障排除法如果两个路由器跨越电信部门提供的线路而不能相互通信时,分段故障排除法是有效的。如:.主机到路由器LAN接口的这一段.路由器到CSU/DSU接口的这一段.CSU/DSU到电信部门接口的这一段.WAN电路CSU/DSU本身问题路由器本身问题下面案例是一个典型的分段故障排除法的应用。案例:路由器通过DDN专线连接时的调试方法目前路由器在网上较多的一种应用是通过DDN专线连接,这种应用对路由器来说配置并不太复杂,而问题多容易出在线路和Modem方面。以下是对这种组网实际调试中的一些经验。组网图如下:图1-6DDN专线连接组网图正常情况下,Modem上指示灯状态为:PWR(电源指示灯)、RTS、DCD三个灯常亮,TD、RD在有数据收发时闪烁。两侧路由器连上并完成配置后,S口应激活,线路协议应激活,双方可以相互ping通。当出现问题时,可按照以下步骤进行测试:(1)在Routeri上打开调试开关。以封装PPP为例,在全局模式下输入debugppppacket命令。2)将ModemA上的ANA键按下。此时Modem的RTS、DCD、TEST常亮,在Routeri上能看到大量经过环回的LCP层收发消息包。此时表示ModemA和Routeri之间连接正常。(3)将ModemA的REM键按下。此时若灯状态同上,路由器上看到的debug消息也同上,则表示从Routeri到ModemB之间连接正常。(4)请本地数据局在节点机C上进行环回,观察是否有环回的数据包。(5)请对端数据局在节点机D上向本端进行环回,观察是否有环回的数据包。(6)对端将ModemF的DIG键按下,若能看到环回的数据包,则表示从Routeri一直到ModemF都正常。若不通,可以在Router2上重复以上操作步骤,直至找出有问题的一段。替换法当我们在检查硬件是否存在问题时最常用的方法。当怀疑是网线问题时,更换一根确定是好的网线试一试;当怀疑是接口模块有问题时,更换一个其他接口模块试一试。.故障排除对排错技术人员的要求对协议要求有精深的理解案例:RIPvl和OSPF相互路由弓|入的问题在一个地址空间为的网络中配置了OSPF域,其中该网络的某些子网的掩码是24位,另一些是26位;同时在该网络中还配置了一个24位子网掩码的RIP域,并在OSPF域和RIP域间相互进行路由弓|入。结果发现,RIP域中的路由器不能Ping通OSPF域中的某些接口。为什么会出现这样的结果我们知道,RIP1不支持VLSM,因此RIP域中的子网必须使用相同长度的子网掩码且它们必须是相邻的;OSPF支持可变长度子网掩码并且不要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论