




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
故障处理流程和思路V1.0课程目标通过本课程的学习,您将:了解故障处理的目的和注意事项了解常见故障的分类了解故障处理的流程和思路了解故障处理常用方法了解故障处理常用工具和命令课程内容第1章故障处理目的和注意事项第1节故障处理目的第2节故障处理注意事项第2章常见故障的分类第3章故障处理流程和思路第4章故障处理常用方法第5章故障处理常用命令和工具故障处理目的—概述网络故障处理以网络原理、网络配置和网络运行的知识为基础,从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行的一项活动。但除了恢复网络正常运行外,故障处理还应该带达到:发现网络隐患并改善网络性能,预测网络通信质量,及时总结故障处理经验等几个目标。下面我们针对这几个方面,一一加以说明:故障处理目的--(1)确定网络的故障点,恢复网络的正常运行这是网络故障处理的基本要求,网络故障处理的一切活动都必须紧紧围绕这一点。越来越多,越来越重要的业务承载在数通网络当中,中断时间越长意味着客户损失越大,因此网络故障处理人员必须尽可能快的恢复网络正常运行,即使在处理过程中所采取的一些操作可能会导致故障原因不能最终定位。
故障处理目的--(2)发现网络规划配置欠佳之处,改善优化网络性能
网络维护人员有时候会发现,有些故障是由于网络没有很好的规划所导致的,一些网络规划考虑不周的网络虽然也能正常运行,但是在发生故障时候往往会造成比预想的要严重的多的后果,因此在故障处理完成后提出适当的网络优化建议,提升和改善网络的吞吐性能和安全性等也应该是故障处理人员的必要工作。
举几个例子:案例一故障概况:
某局一台SR路由器的一块单板重启,导致业务全部中断若干分钟,处理后发现在网络规划之初,开局人员将两个上联端口都规划到了此块单板上;处理情况:
很显然,这样是不合理的。因此现场除了要查明单板重启原因,进行必要的硬件更换或者软件升级之外;还有必要考虑将两个上联端口分布到不同的单板上,使得网络具备单板级别的冗余。故障处理目的--(2)续案例二故障概况:
汶川大地震时,某地的话务信令突然出现大量拥塞,导致话务接续困难。后经查明发现是由于承载网的带宽不足所导致的。处理情况:汶川大地震属于突然事件,也许如果没有地震的发生,网络带宽永远都不会出现不足的情况;但必须考虑到,网络的设计需要考虑到突然,异常情况的发生,并根据一些科学的数学模型计算出所需要的带宽。
故障处理目的--(3)观察网络运行状况,预测网络通信质量针对目前网络的运行情况和业务发展情况,故障处理人员应能够及时的向运营商提供网络在未来一段时间内可能出现的运行状况信息,并给出必要的网络扩容和改造建议。例如:处理BRAS业务故障时,可以检查一些地址池的峰值使用情况,如果和全局地址池的总量相比已经超过一定比例,需要及时提醒用户增加地址池数量。交换机的故障处理中,需要查看当前设备上所承载的MAC地址的数量,路由表容量等,因为这几个表项对于交换机而言都属于关键资源,因此需要将运行数据和设备性能指标进行比对,如果发现已经临近设备极限性能,因及时提醒用户进行设备的扩容或者相应的软件优化工作(比如:做路由汇聚等)。
故障处理目的--(4)及时总结故障处理经验故障处理人员在完成故障处理后,应第一时间对故障处理过程进行回顾和记录,总结维护经验,双传到指定网站,为后期的网络维护人员提供参考文档,必要时应提供针对具体网络的紧急故障处理指导(例如:针对移动CE等重要的承载网洛,给出某种特定故障现象出现时,可以采取的拔线,对设备断电等手段快速恢复业务),从而使得相关人员在今后处理类似故障时,扩展处理思路,提升故障处理效率。课程内容第1章故障处理目的和注意事项第1节故障处理目的第2节故障处理注意事项第2章常见故障的分类第3章故障处理流程和思路第4章故障处理常用方法第5章故障处理常用命令和工具故障处理注意事项--(1)故障处理过程中,为了顺利达成故障处理的几大目的,故障处理人员应该注意如下的一些事项:一优先恢复业务,其次查找原因
随着allip时代的来临,越来越多重要的业务承载在数通网络之上,对于运营商来说,网络的中断时间越长就意味着损失的营收越多,有些时候甚至还会导致用户的索赔。所以一旦发生故障,第一任务就是迅速恢复业务,而不是查找故障原因,有些时候,甚至明知采取相应操作后就肯定不能定位故障原因,但为了能在第一时间抢通业务,也不允许有第二种选择。当然,在有限恢复业务的前提之下,采集越多的故障信息就越有利于后期的故障原因定位。
故障处理注意事项--(2)上二创建网络基线并定期维护(上)所谓网络基线,指的是网络在故障发生之前正常运行时候的基本信息和运行性能。网络维护人员应该定期的采集和更新网络基线以保证故障处理人员能在第一时间掌握准确的网络信息,从而为迅速定位故障提供必要的输入信息。网络基线可以包含的内容如下表所示(后一半见下页):
故障处理注意事项--(2)下二创建网络基线并定期维护(下)
故障处理注意事项--(3)三故障发生后应该详细记录故障信息
通过4W(Who,What,Where,When)法则,准确了解故障的详细情况,这是开始处理故障前的基本准备工作。4W法则的具体内容是:
WHO(谁出了问题)----一个局域网中,是一个用户出问题,还是所有用户都有问题;对于一个城域网,是所有用户都不正常还是某一台路由器下的用户不正常。
What(是什么问题)----是连通性问题还是性能问题,如果是连通性问题,是完全连通性问题还是部门连通问题(比如:是用户的部分应用不能正常工作,还是该用户的全部应用都不能工作)
Where(问题是在什么地方出现的)----故障是发生在网络的什么位置?核心,汇聚还是边缘?
When(问题是什么时候产生的)----该问题是网络上线后一直都存在还是才出现不久?出现时是一直存在,还是有规律或者无规律的间歇性出现?是否是在网络做过一些操作后才出现的?
故障处理注意事项--(4)四保持一颗怀疑的心
对于现场局方人员所反馈的故障信息不能够完全相信,最好能将所反馈的信息一一加以测试验证,以确保对于故障的判断和排查没有受到错误信息的干扰。
五处理故障时应该保持冷静的头脑
惊慌失措是网络故障处理中的大忌,手忙脚乱,头脑发热会导致不经过周密的计划和思考就做出反映,有时候这样做会造成严重的后果,因此情况越是紧急,越是要注意冷静。另外,如果在局方面前表现的惊慌失措会导致局方的不信任,从而影响故障处理工作的正常进行。当然,镇定的表现是要有深厚的网络维护经验作为保证的。
故障处理注意事项--(5)六远程处理故障时候要谨慎操作
当设备出现故障,业务中断时,如果可以远程登录处理则一定要谨慎操作,尤其是在局方维护人员不在现场的时候,防止由于错误的操作导致设备脱网且无人能在现场处理。另外,远程的所有操作都应该跟局方提前说明,以免引起不必要的麻烦。七要善用自己的经验,而不可滥用
对于富有经验的网络维护人员,在处理故障时,利用已有的经验往往能够事半功倍,但有时候过于依赖经验来处理故障,反而容易出现问题。因此建议在处理复杂故障或者经验不足时,还是采用系统的排障步骤来做(对于系统的排障步骤将在下一章节具体介绍),必将可靠。
故障处理注意事项--(6)八故障处理完成后一定要及时总结并广播经验
排查完故障之后要及时总结经验教训,并推广给自己所在部门的同事,以便今后遇到类似故障时候可以提升处理效率,一些时候还可以防止类似的故障在其他网络当中的再次发生。
课程内容第1章故障处理目的和注意事项第2章常见故障的分类第1节网络连通性问题第2节网络性能问题第3章故障处理流程和思路第4章故障处理常用方法第5章故障处理常用命令和工具常见故障的分类--概述我们可以把绝大多数的故障分成如下两大类:连通性问题和性能问题。在处理网络故障时,需要正确的区分网络故障类型,否则可能会走一些弯路。例如:
一个网络维护人员排查故障时,在设备上ping远端地址,发现无法ping通,以为是路由问题,随即使用trace命令并沿途检查路由表;但后来发现ping不通是由于网络延时太大,导致reply报文返回的时间超过了默认的timeout时间,将默认的timeout时间从2秒修改为5秒后,就能ping通远端地址了。可见,此问题本来是一个网络性能问题,却在最开始判断成了连通性问题,走了不少弯路。
网络连通性问题
对于网络连通性问题,可能出现的情况有:
问题类型示例硬件,媒介和电源错误路由器单板硬件故障导致的数据报文无法转发;传输链路受到干扰导致的误码;电源故障导致的网络设备掉电等等。配置错误路由配置错误导致的数据包目的地不可达或者流量被引导到了不正确的地方(一个例子:2008年美国的著名社交网站Facebook曾经出现过用户无法访问的故障,最终查明的原因是由于巴基斯坦一个ISP的国际出口路由器错误的发布了一段明细路由,导致全球的facebook流量都流向了巴基斯坦);不恰当的访问控制列表设置导致的数据报文被丢弃。不正确的相互作用不同厂家之间的协议兼容性问题导致的无法对接,从而导致网络无法正常通信。课程内容第1章故障处理目的和注意事项第2章常见故障的分类第1节网络连通性问题第2节网络性能问题第3章故障处理流程和思路第4章故障处理常用方法第5章故障处理常用命令和工具网络性能问题--(1)
对于网络性能问题,可能出现的情况有:
未完待续
问题类型示例网络拥塞端口出方向流量超过端口容量从而导致部分数据报文被丢弃,这对于tcp业务会有非常严重的性能影响。网络终端性能达到极限在目前的网络架构中,应用层协议普遍采用的是客户端—服务器的工作模式,如果服务器的处理能力达到了设计的上限,则会造成用户访问速度变慢。网络性能问题--(2)
对于网络性能问题,可能出现的情况有:
问题类型示例到目的地不是最佳路由两条通信的主机之间有多条链路通道,由于错误的规划和配置,主用的流量经过了其中一条跳数更多,传输时延更大的链路,导致数据传输速率不高。路由环路或者二层环路错误的路由配置(尤其是静态路由环境下)导致路由成环,或者二层设备被错误的配置导致网络中形成了二层的环路,设备的cpu利用率升高,报文转发效率降低。病毒攻击一些网站受到黑客攻击导致网站服务器无法给正常访问用户提供足够的链接资源和带宽;一些网络设备受到路由协议或者用户数据报文攻击导致报文转发延迟增大。课程内容第1章故障处理目的和注意事项第2章常见故障的分类第3章故障处理流程和思路第1节故障处理流程第2节故障处理思路第4章故障处理常用方法第5章故障处理常用命令和工具故障处理流程和思路--概述
故障处理系统化是合理地一步一步找出故障原因,并解决故障的总体原则。
其基本思想是系统化的将故障的所有可能原因缩减或者隔离成几个小的部分,从而使问题的复杂度降低。有序的故障处理思路将有助于解决所遇到的问题。
故障处理流程
课程内容第1章故障处理目的和注意事项第2章常见故障的分类第3章故障处理流程和思路第1节故障处理流程第2节故障处理思路第4章故障处理常用方法第5章故障处理常用命令和工具故障处理思路--(1)
一故障现象观察要对网络故障进行准确分析,首先应该了解故障的各种现象,然后才能确定可能产生这些现象的故障根源。因此,对网络故障作出完整、清晰的描述是一个重要步骤。很多情况下,故障的反馈人员对于故障的描述往往是不全面,不清晰的,因此故障处理人员有必要引导现场人员将全面详细的故障情况反馈出来。
故障处理思路--(2)
二故障相关信息采集
了解清楚故障现象后,需要进一步搜集有助于故障定位的详细信息,有如下的集中信息搜集方法:向受影响的用户,局方人员或者其他关键人员(比如网络的开通者)提出相关问题。根据故障描述,通过命令行或者抓包工具进行信息搜集。对网络亲自进行测试,将测试结果与网络基线相比较。
故障处理思路--(3)
三经验分析和理论判断
网络维护人员利用前两个步骤收集到的信息,并根据自己以往的故障处理经验和所掌握的因特网络设备和协议的知识,来确定排错范围。通过划分范围,确定需要关注的故障或与故障情况相关的那一部分网络设备、传输介质和主机。
四整理各种可能原因的列表整理一张表格,列出根据经验判断和理论分析后总结的各种可能原因,并针对每一种可能的原因制定出详细的操作排查步骤。这一步骤当中需要注意的是:每次操作进行只进行一次改动,这样才有助于确定是否该操作才会导致故障的消失。如果做了多处配置的变动,即使故障消失,也不知道是哪个命令解决故障的。一旦制定好计划,就可以细心地实施这个计划了。
故障处理思路--(4)
五对每一项可能原因实施排错和验证并观察结果
当实施操作计划时,应该注意,每次只能做一个修改。如果修改成功,那么修改的结果应该进行分析并记入文档。如果修改没有成功,应该立即撤消这个修改。同样重要的是应该按照计划来进行操作。在实施计划的过程中,因为原计划的不完善,有时很容易尝试新的方法。这样做的危险性是,很快就会失去对原计划的跟踪线索,结果往往使情况更加糟糕。这时,不应该离开原来的计划,而应该返回,重新设计你的操作计划,然后实施新的计划。
故障处理思路--(5)
六循环进行故障排查
当一个故障排查方案没有解决故障时,进入到循环故障排查阶段。在进行下一个循环之前,必须将网络恢复到实施上一个方案前的状态。如果保留上一个实施方案对于网络的改动,则有可能导致新的问题。循环排错有两个切入点:针对某一个可能原因的排错方案没有达到预期的效果,则执行下一个排错方案。如果所有的方案都没有起到效果,则需要重新搜集故障信息,制定新的排错方案。
反复进行这个步骤,直到故障被最终定位。
故障处理思路--(6)
七故障处理过程文档化
在完成故障处理后,一定要对整个的故障排查过程进行记录。网络维护人员需要牢记的一点是:故障处理文档化的工作绝对不是可有可无的事情,因为:文档是宝贵的经验总结,是“经验判断和理论分析”这一个环节的重要的参考资料。文档记录了此次排障过程中网络参数所进行的修改,这是下一次网络故障处理过程当中所需要搜集的基础信息。对于所形成的文档,请使用维护经验模板,该模板的具体内容请参见“附录B维护经验编写模板”。
课程内容第1章故障处理目的和注意事项第2章常见故障的分类第3章故障处理流程和思路第4章故障处理常用方法第1节分层法第2节分段法第3节分块法第4节替换法第5节差异排除法第5章故障处理常用命令和工具故障处理常用方法—概述
熟悉常用的故障处理方法将能够拓展故障处理的思路,并提升故障处理效率
需要强调的一点是:相对于故障处理方法,故障处理的流程和思路才是故障处理的灵魂,只有在掌握正确的故障处理思路的基础上熟练运用各种故障处理方法才能事半功倍。
分层法--(1)
Internet网络在过去的二十年中发生了巨大的变化和成功,但其成功的关键和精髓:OSI分层参考模型却一直都没有发生过变化。不论是各种各样的协议的开发还是网络的规划部署等等一系列行为活动都渗透着OSI的思想,因此对于网络维护人员,培养层次化的故障处理思想也非常重要。分层模型对于故障处理最大的一点启示是:只有当位于低层的网络工作正常,其上的高层网络才能正常工作。因此在故障处理时,如果不能先确定低层网络工作是正常的,却先去排查高层可能存在的问题,纯粹是在浪费时间。举例:当在一个PPP网络中,由于物理层不稳定,PPP连接反复出现UP和DOWN状态。这个问题的表面现象是到达远程端点的路由反复出现间歇性中断。如果维护工程师由此判断是路由协议问题,并对路由协议进行故障诊断,必然是事倍功半。
分层法--(2)
在此介绍下OSI参考模型中的低三层(物理层,数据链路层和网络层)所各自关注的内容,首先是物理层(数据链路层和网络层在后面):
层次实现功能故障处理关注点物理层通过介质提供物理设备之间的连接;在连接上进行比特流的接收和发送;与数据链路层进行交互操作。检查设备的物理连接方式是否恰当;连接电缆是否正确;MODEM等设备的配置是否正确;信号编码方式,组帧方式是否对应,时钟是否对应等。确定路由器端口物理连接是否完好的最佳方法是使用showinterfacexxx命令,检查每个端口的状态,解释屏幕输出信息,查看端口状态、协议建立状态等。分层法--(3)
继续介绍数据链路层所关注的内容:
层次实现功能故障处理关注点数据链路层
数据链路层的主要任务是使网络层无须了解物理层的特征而获得可靠的传输。数据链路层为通过链路层的数据进行打包和解包、差错检测和一定的校正能力,并协调共享介质。在数据链路层交换数据之前,协议关注的是形成帧和同步设备。查找和排除数据链路层的故障,需要查看路由器的配置,检查连接端口的共享同一数据链路层的封装情况,每个接口要和与其通信的其他设备有相同的封装。通过showipinterfacebrief命令可以查看,如果协议是down的,则应该是链路层问题,或者有可能是没有配置ip地址(如ppp链路);另一个常见的原因是链路利用率高导致链路层协议包文丢失,从而引发故障(比较常见的是pos端口可能出现这种故障)分层法--(4)
继续介绍网络层所关注的内容:
层次实现功能故障处理关注点网络层
网络层主要实现对数据包的分段,打包和重组;发送icmp差错报文(比如收到ttl=1的报文时候将向报文源地址发送一个差错报文,或者当没有路由的时候也会向报文源地址发送另外一种类型的差错报文);最重要的功能是通过路由功能来发送数据报文。常见的网络层故障有地址和子网错误,地址冲突,路由错误等。排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、默认路由或者动态路由。然后手工配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或者OSPF路由协议出现的故障。分段法
当跨越长距离和多台设备组成的网络的两台主机(主机A和B)存在通信不畅的情况时,建议采用分段排查的方法,将网络分成若干段。例如:主机A到ROUTERA;ROUTERA到WAN的连接;WAN本身;WAN到ROUTERB,ROUTERB到主机B。分段查找问题,从而将一个比较复杂的问题缩小成一小段一小段的来排查,降低故障排查难度。
分块法
当网络故障具体定位到是某台设备上时,比如说是没有路由,那么结合路由器的工作原理,可能的故障点可能包括但不限于如下几点:
路由协议本身工作不正常,比如:路有协议邻居没有建立,邻居建立但是没有学习到具体路由,路由协议做了不应该有的策略。底层转发表异常,比如:内存错误导致协议表和转发表不一致,内存不够导致路由无法写入转发表。端口配置的地址和掩码错误,比如:有冲突等。…………
替换法
替换法是排查硬件故障时候最常用也最有效的方法,可能的替换的部件包括:光模块,光纤,端口,单板,设备整机等等。但这种方法比较有局限性,因为现场必须有相应的备用对比器件该方法才可行。
例如:
你把你的电脑和另一台电脑用网线连接起来,但发现两台电脑的配置,网卡灯都正常,就是无法ping通彼此,你又找了根网线换上去,再试,就ping通了,很明显,是刚才那根网线的问题。当然这很容易做到,网线也很容易找到。
差异排除法--(1)
在排除故障时有可能少数几台主机或设备出现问题,其它设备或主机正常工作,并且都实现相同的目的或功能,这时可以利用差异排出法,找出问题主机与正常主机在网卡配置、IE设置、操作系统设置、防火墙设备的不同,或网络设备的配置、软件版本、硬件的不同之处,借此来发现问题所在。
例子1:一个局域网内,一台主机无法上网,但其它主机都正常上网,经排查,网卡灯正常,该问题主机能ping通网关,自己和局域网内其它所有主机,利用差异排除法,该学员和其它学员主机比较网卡配置,发现网管地址设置不正确,更改后,问题解决。
差异排除法--(2)
例子2:在一个城域网中,业务割接之后,若干用户反馈能登录QQ,但是无法打开网页;经过详细了解之后有问题的用户都挂在两台SR下面,且这两台SR上行的链路和其他SR所经过的传输不同,经过排查发现是这两台SR上行链路的传输MTU设置有问题,改大后问题解决。
课程内容第1章故障处理目的和注意事项第2章常见故障的分类第3章故障处理流程和思路第4章故障处理常用方法第5章故障处理常用命令和工具第1节故障处理常用命令第2节故障处理常用工具故障处理常用命令—ping命令
Ping命令是用于检查IP网络连接及主机是否可达。其工作原理是:源站点向目的站点发送ICMPEchoRequest报文,目的站点收到后回送ICMPEchoReply报文,以此检测两个节点间在IP层的可达性,检测网络层是否连通。
关于ZXR10数据设备以及各种平台的主机上ping命令的使用方法以及使用ping命令来排查故障的具体案例请参考文档:“RTUB_103_C1网络故障诊断常用工具详解”。注意:
相对于其他厂家的ping命令,ZXR10数据设备在ping命令中提供了一个limit参数用来控制每秒发出的ping包的数量:
ZXR10#pingx.x.x.xlimit?0Absolutemode<1-100>NumberofpacketZXR10#pingx.x.x.xlimit0//表示全速,尽全力的ping故障处理常用命令—trace命令
Trace命令是用于测试报文从发送到目的地所经过的网关,主要用于检查网络连接是否可达,以及初步确定网络发生故障的位置。其工作原理是:利用报文IP头部的TTL域每经过一台路由器转发后减一,当TTL=0时向源节点报告TTL超时的特殊icmp报文来实现的。网络维护人员经常会结合使用ping命令和trace命令来排查网络故障。
注意:
ZXR10设备从4603的平台之后可以支持vrf下的trace,以便在bgpmpls/vpn环境中排查故障。
故障处理常用命令—show命令
Show命令对于日常维护和故障处理都是非常重要的命令。熟练的掌握各种show命令,并了解显示信息的含义,是网络维护人员所必须具备的技能之一。ZXR10设备show命令可在各种命令模式下执行,且支持正则表达式,以方便更快的查找到所需要的信息,常用show命令为:
故障处理常用命令—debug命令(1)
Debug命令是网络维护人员所必须掌握的一条故障处理命令。一般建议使用debug命令配合show命令来定位骨折那个原因,在配合使用时,应遵循如下的规则:首先使用show命令查看当前运行状态,分析可能的故障原因,缩小故障检查的范围。打开某个特定的debug命令,观察调试信息变化情况,定位和排除故障。
故障处理常用命令—debug命令(2)
由于debug命令会消耗大量的系统资源,因此在使用debug命令应该注意:只能使用debug命令定位故障,而不是监控网络运行状态,因此不能长期打开debug命令。需要选择在业务量不大的时候使用debug命令。永远都不用使用debuga
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论