网络设备现场维护手册_第1页
网络设备现场维护手册_第2页
网络设备现场维护手册_第3页
网络设备现场维护手册_第4页
网络设备现场维护手册_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、. 现场工程师设备维护手册网络工程师现场维护手册1. 适应范围 范围:所有现场故障排除的任务均需参照该指导书要求。2. 目的 目的:为了提高工作效率,主动地搞好各代维点网络设备的维护,力求保证各代维点网络主干畅通。及时解决网络运行中出现的问题,各维护人员要规范、有效地作好维护工作,不仅要解决出现的问题,而且尽量去分析出现问题的原因,为以后解决类似问题节约时间和精力。3. 主要涉及部门 国网客服服务中心国网信通网控中心技术服务中心技术支持网络设备服务厂商4. 输出:现场网络设备故障报告(一) 维护人员准备为了搞好网络维护,当问题出现时能及时发现问题、较快解决问题。各网络维护人员在平时须

2、准备好以下准备:1.     常规类:各路由器、防火墙、核心设备配置和数据资料备份。2.    工具类:笔记本电脑、光通道检测仪、网络测试仪、水晶头、标签、笔、相关机房钥匙和卡片。3.   资料类:网络IP地址分配表、管理IP分配表、各代维技术资料、路由器、防火墙、核心和汇聚交换机的说明书、防火墙的说明书、路由器的说明书、维护联系电话表。更新日期: 2011 年 11 月 13 日版本:1.0:27目 录技术部分1 网络常见信息收集方法21.1 日常维护操作21.2 操作命令示例72 故障处理92.1 处理原则102.2 准

3、备工作102.3 必备资料102.4 业务全阻故障的处理【整个局域网无法访问任何网络】102.5 部分用户业务中断故障的处理流程 【局域网故障】152.6 Ping 命令应用173 紧急故障处理方法193.1 CPU占用率较高的问题193.2 硬件接口问题203.3 单板故障213.4 丢包问题223.5 STP相关问题233.6 VRRP相关问题253.7 OSPF相关问题254 其他常见信息收集方法26技术部分1 网络常见信息收集方法1.1 日常维护操作工程师到达现场后,首先记录到达时间并由现场相关人员确认签字或者登入故障网络设备,设备故障时,登入并操作网络设备时必须截取屏幕or 用相机拍

4、下登入网络设备时的屏幕。提示:截屏和拍照需显示现场时间】编码检查项目检查分项目检查方法备 注是否正常设备时间display clock显示设备时间是否正常是 否 1环境及网络设备单板硬件状态检查环境状况display environment所有主控板,接口板温度都应该在门限70度以内是 否 风扇状况display fan风扇应该显示normal是 否 电源状况display power电源应该显示normal是 否 指示灯状况观察所有单板的运行灯及告警灯的运行状况正常状态下,单板板运行灯慢闪,告警灯常灭。观察网络设备面板状态灯,是否有橙色维修报警灯亮?是 否 单板运行状况display dev

5、ice所有业务板应该是Normal,主控板为master或slave状态是 否 2双主控设备自检主备板软件版本是否一致?display boot-loader一定要确保主备板的软件版本一致,包括当前使用版本和下次启动版本。是 否 主控板上是否保存了配置?是否设置了启动配置文件?dirdisplay startup如果不存在配置文件,请执行save命令保存是 否 备板是否保存有配置文件使用命令dir slot#如果不存在配置文件,请执行save命令保存是 否 3CPU占用率CPU的占用率是否忽高忽低.震荡比较大(1060%)或者一直高(主控板CPU占用率是否超过60?业务板CPU占用率是否超过6

6、0?)多次使用display cpu.查看.正常情况下,主控板和业务板在5分钟内的平均利用率应该在60%以下,并且无较大的震荡。是 否 4内存占用率主控板和业务板内存占用率是否在60以下display memory slot 如果内存高于60,需要通过_display memory命令确认那个模块占用内存过道,以便排查。是 否 5端口自检 端口是否协商出了半双工?Display brief interface如果显示某个端口状态为half,需要确认是否两端配置不一致导致。是 否 是否在没有必要启动流控端口配置流控?使用display current命令查看配置关闭该端口流控.是 否 端口出/入

7、方向是否有大量的错误报文display interface查看errors部分是否有较大数据,并且在增加如果有,需要检查:1: 检查线路质量,中间连接的光电转换器;2: 两端配置是否一致?是否一端为强制而对端为协商?是 否 是否有比较频繁的端口UP/DOWN?display logbuffer如果有某个端口有较多的UP、DOWN记录,需要检查:1: 该端口是否直连PC?如果是,开关PC机会造成端口DOWN;2: 检查线路和中间连接的光电转换器;3: 千兆端口检查光功率是否处于临界值?4: 检查两端配置是否一致?是 否 61000M光口自检千兆光口两端是否配置了千兆强制?display curr

8、ent interfaceH3C设备与其它厂商设备互连,建议光口速度和双工设置为强制模式,H3C设备自己互连,优先采用协商方式是 否 千兆光口是否有CRC错误?是否在增长?display interface如果发现大量CRC错误,且在增长,需要检查光功率是否处于临界值?可以通过更换光模块、更换尾纤或清洗维光模块连接器的方式解决。是 否 7设置TRUNK端口和MULTI端口的自检检查TRUNK端口是否配置undo port trunk permit vlan 1display current interface如果系统配置了GVRP,同时RUNK端口配置undo port trunk permi

9、t vlan 1,需要重新设置TRUNK端口的pvid为允许的vlan成员之一是 否 端口PVID是否和对端的PVID一致?display current interface互连链路两端端口的PVID值设置必须一致是 否 TRUNK端口允许通过的VLAN是否和对端允许通过的VLAN一致?display current interface互连Trunk端口的两端设备允许通过的VLAN配置必须一致,避免一端为TRUNK ALL,另外一端非TRUNK ALL。是 否 是否一端配置成TRUNK,一端配置成ACCESS?display current interface根据实际情况调整两端的配置到一致状

10、态是 否 VLAN 1是否成环路?用display interface命令查看所有设备互连Trunk端口的配置根据网络情况调整,去掉VLAN 1环路是 否 8STP的自检检查STP时间因子的设置情况display current查看配置中是否存在stp timer-factor,如果不存在,建议配置为stp timer-factor 10 ,增加STP的稳定性。是 否 接PC的端口是否配置为边缘端口?display current interface如果配置了边缘端口, 配置中会有stp edged-port的显示确认和PC连接的端口设置为edge-port或者将STP关掉,和不支持STP设备

11、互连端口的STP关掉,避免这些端口的UP/DOWN干扰STP的计算。是 否 是否存在和思科的PVST+互通情况?检查各个设备上STP的状态计算是否正常如果存在类似问题,最好改为3层互连的方式,避免和思科私有的PVST协议互通。是 否 各个STP逻辑环路路中是否存在公共VLAN?使用display current 检查STP端口配置避免多个STP逻辑环路中有公共VLAN,减小广播域对其它STP逻辑环路影响。是 否 是否存在TC攻击,导致端口STP状态不停切换?dis stp tc,dis stp history查看端口tc计数和stp状态切换记录时间确认和PC连接的端口设置为edge-port或

12、者将STP关掉。和不支持STP设备互连的端口关掉STP是 否 9VRRP自检握手时间是否设置成3秒?两端的vrrp握手时间是否一致?display vrrp如果VRRP组在5个以下可以统一将VRRP握手时间改为3秒,如果VRRP组过多,可以将VRRP分为五个或三个一组,每组的VRRP握手时间分别配置为3秒、5秒、7秒是 否 10OSPF自检是否有两台设备router id设置成一致?display ospf peer如果存在这个问题,会导致路由学习错误,需要修改Route-Id后,执行reset ospf all命令是重新学习。是 否 display ospf error是否有大量错误?dis

13、play ospf error如果存在大量的OSPF error记录,并且还在不断增加,需要抓取信息进一步分析是 否 路由是否存在较大震荡?display ip rout statistics 查看added和deleted数据与系统运行时间对应是否比较大如果有,请仔细分析变化的具体路由,然后根据该路由查找到路由的原设备,分析具体震荡原因。可以在出现故障时,使用display ospf lsdb命令多次查看路由的age信息,确认那条路由在频繁振荡。是 否 OSPF状态是否稳定?display ospf peer查看OSPF邻居的UP时间是 否 11ARP检查是否存在大量ARP冲突?displa

14、y logbuffer 检查冲突地址,根据IP地址排除该主机.是 否 12路由检查缺省路由是否正常?是否存在路由环路?使用tracert 1.1.1.1等明显不存在网段看是否存在路由环,使用de ip p,打印部分报文,看是否存在TTL=1或者=0的报文.如果存在路由环,请检查对应的设备是否配置正确.,调整路由,去掉路由环。如果存在TTL超时报文,请分析对应网段路由是否正常是 否 13EA单板芯片转发状态自检交换芯片是否正常输入en_diag进入诊断模式;诊断模式下,多次使用debug rxtx mem <slot>对于EA单板请查看是否有大量复位记录,并且持续增加的情况,如果存在

15、大量复位并且持续增加,需要联系研发确认原因。是 否 14攻击检查是否有大量报文攻击cpu诊断模式下:debug rxtx softcar show <slot>某类报文的统计计数不断增长,说明有攻击存在是 否 15DDRB异常记录查看检查DDRB里是否有异常记录诊断模式下local logbuffer <slot> display如果存在该信息,需要转相关人员确认是否是异常信息。升级后注意清除历史记录,相关命令为:local logbuffer <slot> clear是 否 16芯片端口错包统计检查分析错包统计是否由于硬件原因导致bcm <slot&

16、gt; <chip> show/c/erdisc如果错包统计中有如下计数不断增长:GRFCS:端口CRC错包计数GRPORTD:端口底层的stp不是一个forwarding状态IRERPKT:HG接收到错包是 否 17查看debug开关debug开关打开会消耗系统资源,请关闭display debug执行undo debug all命令关闭debug信息是 否 网络中的H3C核心交换机,应仔细查看以下面板指示灯: 引擎和业务板在运行过程中的状态,可以通过指示灯状态以及一些命令来查看。² 引擎面板上有系统状态指示灯,分别代表电源模块、风扇框、业务单板、及引擎板本身的工作状态

17、;² 电源指示灯(PWR)中的OK灯亮表示电源正常工作,灯灭表示电源有故障或者不在位;FAIL灯亮表示电源有故障,或者电源有输入但没有开启电源模块开关,灯灭表示电源正常或者不在位;² 风扇指示灯(FAN)中的OK灯亮表示风扇工作正常,灯灭表示风扇有故障或者不在位;FAIL灯亮表示风扇工作不正常或者不在位,灯灭表示风扇工作正常;² 单板指示灯(SLOT0、SLOT1、)对应各个槽位的单板状态。RUN灯常亮或常灭表示单板有故障或者不在位,灯闪烁表示单板工作正常;ALM灯常亮表示单板有故障,灯常灭表示单板无故障或者不在位;² 如果RUN 指示灯处于快速闪烁中,

18、表示单板正处于启动过程中,并没有正常工作。在系统初始启动时,ALM 指示灯会亮一段时间,并不表示单板有故障。² 业务处理引擎主用/备用指示灯(ACTIVE)表示引擎的主备工作状态,灯常亮表示引擎工作在主用状态,常灭表示引擎工作在备用状态。² 业务板上的指示灯表示端口的状态,灯灭表示该端口线路没有连通,灯亮表示线路已经连通,灯闪烁表示有数据收发。1.2 操作命令示例常用的查看设备运行状态的命令包括:² 查看设备版本: display version H3C Comware Platform SoftwareComware Software, Version 5.20

19、, Alpha 1011Copyright (c) 2004-2007 Hangzhou H3C Tech. Co., Ltd. All rights reserved.SIMWARE uptime is 67 week, 9day, 9 hour, 32 minutes备注:主要显示IOS的版本、路由器持续运行的时间及查看设备最近一次重启动的时间display version 命令显示了路由器的许多有用的信息。² 查看设备日志: display logbuffer 重启任何设备时,必须先保存日志文件Logging buffer configuration and contents:

20、enabledAllowed max buffer size : 1024Actual buffer size : 512Channel number : 4 , Channel name : logbufferDropped messages : 0Overwritten messages : 0Current messages : 35%Nov 14 00:53:58:219 2011 H3C HWCM/4/TRAPLOG: 1.3.6.1.4.1.25506.2.4.2.1<hh3cCfgManEventlog> configure changed: EventIndex=1

21、,CommandSource=2,ConfigSource=4,ConfigDestination=2%Nov 14 00:56:03:00 2011 H3C HWCM/4/EXIT: exit from configure mode%Nov 14 00:56:03:00 2011 H3C SHELL/4/LOGOUT: Console logout from con0%Nov 14 01:10:41:31 2011 H3C SHELL/4/LOGIN: Console login from con0%Nov 14 01:10:43:125 2011 H3C SHELL/4/CMD:task:

22、co0 ip:* user:* command:display version² 查看单板运行状态:display device<S7503E>display device Slot No. Brd Type Brd Status Subslot Num Sft Ver Patch Ver 0 LSQ1SRPB ,Master 0 S7500E-6305 ,P004 1 NONE ,Absent 0 NONE ,None 2 LSQ1FV48SA ,Normal 0 S7500E-6305 ,P004 3 LSQ1T24XGSC ,Normal 0 S7500E-6305

23、 ,P0044 NONE Fault , 0 NONE ,None状态显示为Normal,表示单板在位。如果显示为Fault,表示单板出现故障,或者正在重启。状态显示为Absent,表示该槽位没有单板。引擎状态显示为Master,表示该槽位引擎为主用引擎;状态显示为Slave,表示该槽位引擎为备用引擎。² 查看环境状况:display environment<S7503E>display environment System temperature information (degree centigrade):- Board Temperature Lower limi

24、t Upper limit 0 ,33 ,0 ,80 2 ,36 ,0 ,80 3 ,34 ,0 ,80 4 ,30 ,0 ,80 其中,Temperature列表示当前单板的运行温度;Low limit列表示系统设定的单板温度告警的下限,Upper limit表示系统设定的单板温度告警的上限;如果当前Temperature的值低于Low limit,或者高于Upper limit,引擎上对应槽位的ALM会显示成红色。2 故障处理 2.1 处理原则² 收集必要的信息,供后续分析定位;尽快恢复业务,缩短业务中断时长。2.2 准备工作² 准备装有SecureCRT等控制台程序的

25、PC或笔记本电脑、console线缆。² 了解各代维点网络组网,网络设备IP地址分配表、管理IP分配表、各代维技术资料、核心和汇聚交换机的说明书、防火墙的说明书、路由器的说明书、维护联系电话表。² 获取登陆设备的用户名密码等信息,各代维点路由器、防火墙、核心设备最新配置文件资料。² 现场工程师需携带路由器、交换机、防火墙的最新软件版本,或统一使用的版本。2.3 必备资料² 网络路由、交换设备产品的操作手册和命令手册,及系列产品故障处理指导,以作参考。以上资料均可从厂商网站上获取2.4 业务全阻故障的处理【整个局域网无法访问任何网络】² 导致业务

26、全阻故障的主要原因有: 出口路由器&防火墙的上联端口故障、上联接口模块故障、物理链路故障、光纤收发器、协议转换器故障(包括传输)² 为了能分析故障原因,建议不要立即重启路由器。如在操作过程中,无法排除故障而需要重启网络设备时【重启设备请双击右边附件】,必须按网络设备重启维护流程要求操作,并需要得到领导和网控人员的同意方可重启,切记!处理该类故障通常遵循下面几个步骤:² 检查光纤收发器、网络出口上联端口链路指示灯、数据收发指示灯是否正常若不正常,需要进一步确定是设备的故障,还是物理链路的故障。常用的方法是自环光接口或在电接口上直接连接PC进行测试,当光接口自环或电接口

27、直联PC正常时,可以初步判断是物理链路问题或是对端设备故障。 处理步骤: 1、检查光纤收发器故障图1是收发器前面板示意图。图11、FX灯当网络不通的时候,先看FX灯(FX中的F就代表Fiber即光纤),FX如果是绿色,则表明光纤连接良好(光路没有问题),FX灯闪,则说明有数据传输,如果FX灯灭了,则有如下可能:1)对端设备损坏或是没加电2)两端光纤收发器之间的线路断如果对端机房有没有停电、最近有没有被雷击过,更换两端对应型号的光纤收发器,如果换过光纤收发器以后线路还是不通,则说明肯定是光缆线路的故障了。2、TP灯TP即Twisted-Pair Cable Port(双绞线端口)也就是我们平常说

28、的网口,TP输出的线路即进入客户的内部网络设备了,通常情况下是进入交换机,如果TP LINK/ACT灯是绿色的,则说明双绞线连接良好,当有数据传输时,TP灯会闪。3、FDX灯FDX灯即指示全双工的工作状态,半双工就是指A能发信号给B,B也能发信号给A,但这两个过程不能同时进行。最典型的例子就像我们在使用对讲机时一样。全双工比半双工又进了一步,在A给B发信号的同时,B也可以给A发信号。典型的例子就是像我们打电话。真正支持100M全双工的光纤收发器可以保证送、发的传输速度都在100M,这对于大容量的数据传输,比如网上的视频内容的传输是非常必要的。(二)单纤单网口(或双网口)光纤收发器单纤收发器在一

29、根光纤上用1310nm和1550nm分别代表收发,应该说实现起来在技术难度上更高了,但是却能够有效的节约光纤资源,是一项非常实用的技术。1、单纤收发器的故障判断与排除以RC305/306-2FE-S1系列的光纤收发器为例,这是设备的前面板图。图2指示灯表示收发器状态如下:,端口指示灯名称指示灯指示灯表示收发器状态光口光接收链路灯RLK常亮,光口接收链路正常,反之链路错误光发送链路灯TLK常亮,光口发送链路正常,反之链路错误电口电口链路灯LNK常亮,电口链路正常,反之链路错误。电口收发灯ACT闪亮,电口有数据收发。电口速率灯100M常亮,电路速率为100M,不亮,速率10M电源电源指示灯PWR常

30、亮,电源工作正常,反之错误2、单纤收发器的设备互联与双纤光纤收发器不同,单纤收发器必须要配对使用的,而且型号也要对应一致,比如RC305-2FE-S1必须要RC306-2FE-S1配对使用,因为不同型号的单纤收发器可能定义收发光信号的功率不同,不配对使用可能会造成光口的损坏或者数据传输的不稳定。3、 各代维点网络出口路由器与白广路互联端口是否UP。直接去机房查看物理指示灯的状态并记录Or 拍照。² 检查数据链路是否正常若上联端口指示灯正常,就需要通过超级终端或Telnet登录到路由器上进行进一步检测。登录到路由器上后,由近到远通过ping的方法,验证本地路由器到白广路的每个环节是否通

31、畅。处理步骤:1、telnet至路由器 命令:telnet 10.2.208.254 或者通过SecurityCRT登入 2、 查看系统时间,以便记录维护的时间点【截图】3、 查看与白广路互联的IP地址,并执行Ping 白广路路IP及提供测试的IP地址动作。² 检查本端路由器是否有上行路由和验证对端路由器是否有返回路由查看本端路由器的路由表可以检查出是否有上行路由。而验证对端路由器是否有返回路由的最简单方法是,通过连接到本地路由器的PC分别ping本端路由器上联接口地址和对端路由器接口地址,若前者能通后者不能通,可以肯定对端路由器没有返回本端路由器的路由,此时需要对对端路由器进行故障

32、诊断。命令:display ip routing-table ² 核心交换机、路由器、防火墙、协议转换器操作系统崩溃时,重新启动路由器。 当通过超级终端和Telnet无法登录路由器,应该怀疑路由器操作系统已经崩溃,应该重新启动路由器。同样重启机器需按照网络设备重启维护流程,并需要得到领导和网控人员的同意方可重启,切记!2.5 部分用户业务中断故障的处理流程 【局域网故障】当部分用户业务中断时,可以按下列步骤进行故障诊断和排除:检查硬件端口、物理链路是否正常;检查数据链路层是否正常;检查本端路由器上是否有到业务中断用户网段的路由信息,检查用户侧缺省网关或路由设置是否正确;若用户能pin

33、g通本端路由器但无法访问,则需要确认上端路由器是否有该网段的返回路由;操作步骤:1、查看本地IP地址、子网掩码、端口所属的VLAN、网关、DNS 2、PING 本地网关 3、PING 本地出口IP 地址 2.6 Ping 命令应用 Ping这个词源于声纳定位操作,本意是指来自声纳设备的脉冲信号,在网络设备中,Ping几乎是使用频率最高的网络测试命令,本文将详细介绍Ping命令的基本原理,相关参数,使用技巧及其注意事项.一,Ping工作原理提到Ping命令就不能不介绍ICMP Internet Control Messages Protocol因特网控制信息协议.ICMP通常被认为是IP层的一个

34、组成部分用于传递差错报文和其它需要注意的信息ICMP报文是在IP数据包内部传输的.结构如图1所示ICMP报文格式如图2所示,类型字段可以有15个不同的值描述特定类型的ICMP报文。Ping报文实际上是类型为0的,回显应答和类型为8的请求回显报文。二,Ping命令的格式和参数在H3C系列网络设备产品上,Ping命令格式如下 粗体为关键字,斜体为参数Ping -c number-t number-s number ip-address-c Ping报文的个数,缺省值是5个-t 设置Ping报文的超时时间,以毫秒为单位,缺省值为2000-s 设置Ping报文的大小,缺省值是56 byte实际上,Pi

35、ng命令的参数还有很多,本文仅重点介绍最常用的三个三,Ping命令的使用误区1,真的Ping不通?【案例一】 工程师小L在配置完一台路由器之后,执行Ping命令检测链路是否通畅,发送了五个报文都没有Ping通,于是检查双方配置命令和路由表,一直没有找出错误,最后无奈之下重复执行了一遍相同的Ping命令发现此次的五个报文中竟有两个Ping通了原来线路质量不好,存在着严重的丢包现象。【点评】,小L被Ping命令的缺省参数-c给迷惑了,Ping不通的背后可能隐藏着丢包现象毕竟配置错误和线路质量不好的解决方法大相径庭,有了此次教训之后小L再遇到Ping不通的情况都会将命令多执行一遍并加上参数,-c 1

36、0,这意味着连续Ping10个报文来检验是否存在丢包现象。命令格式,Ping -c 10 ip-address【案例二】,工程师小L配置完一台路由器之后,执行Ping命令访问internet某站点IP地址没有Ping通,有了上次教训小L再一次Ping了10个报文仍没有响应,于是小L断定为网络故障在费劲周折检查了配置链路后仍没有发现任何可疑之处,最后小L采取逐段检测法。对链路网关进行逐级测试,发现每段都可Ping通,但响应时间越来越长,最后一个网关的响应时间已达到1800ms左右会不会是由于超时而导致显示为Ping不同呢?受此启发小L将Ping命令回显时间改为4000ms Ping通了观察发现所

37、有报文响应时间都在2100ms左右。【点评】,这一次小L被Ping命令的另一个缺省参数-t 给迷惑了,Ping不通的背后可能隐藏着超时处理,系统缺省认为Ping报文应该在2000ms内有回应,如果超出该时间,即使有回应报文送达,也认为Ping不通,有了这次教训之后,小L再遇到Ping不通的情况,都要把命令再敲一遍并加上参数,-c 10 -t 4000,这意味着连续Ping10个报文,每个报文的超时设置为4000ms,以此检验是否存在丢包和响应时间过长等现象命令格式,Ping -c 10 -t 4000 ip-address2真的能Ping通?1、 A能Ping通B,则B一定能Ping通A?【案

38、例一】小L在学习了Ping的工作原理之后,一直这样认为如果A能够Ping通B则B也一定能够Ping通A不考虑防火墙因素但是在一次工程实践中,如图3所示却发现并非如此。【点评】在路由器A上Ping路由器B以太网地址2.2.2.2,显示可以正常Ping通。但在路由器B上Ping路由器A以太网地址3.3.3.3时却返回无法Ping通。仔细察配置发现,路由器A配置了一条指向2.0.0.0/8网段的静态路由,但在路由器B上却没有相应配置到3.0.0.0/8的路由,因此路由器B Ping不通3.3.3.3。但是为什么路由器A可以Ping通2.2.2.2呢?同样没有回程路由小L百思不得其解,打开路由器IP报

39、文调试开关后,终于真相大白原来从路由器A上发出的ICMP报文的源地址填写的是1.1.1.1,而不是3.3.3.3由于两台路由器的s0接口处于同一网段所以响应的报文可以顺利送达路由器A。3 紧急故障处理方法3.1 CPU占用率较高的问题多次使用display cpu命令,查看过去5分钟的平均占有率。如果结果都在60%以上,则可视为CPU占有率高。遇到此类问题,按照下面的方法处理:1) 查看系统各项任务占用CPU的情况:display cpu-usage task slot 0显示结果后,查看TaskName和CPU两列,找出CPU值较高的进程名称。注:VIDL分别是S75E上的空闲进程。正常情况

40、下,应该是空闲进程数值远高于其他进程。2) 查看上CPU的报文类型:S7500E-diagnosedebug rxtx event 0 Slot 0: information of Module RxTx /- the first chip UNIT = 0 -/Packets received from chip(U=unicast, M=Multicast, B=BroadCast): port bcm(U) bcm(M) bcm(B) 0 15 0 0 1 15 0 0 6 15 0 0 7 15 0 0Packets transmit to chip(U=unicast, M=Mult

41、icast, B=BroadCast): port bcm(U) bcm(M) bcm(B) 0 15 0 0 1 15 0 0 6 15 0 07 15 0 0注:² U表示单播报文,M表示组播报文,B表示广播报文² port为芯片端口号,不是业务端口编号。3) 查看具体是什么报文S7500E-diagnosedebug rxtx c 100 pkt 0 -c 100 表示打印100个上CPU的报文,具体数值可以修改0 表示查看上0槽位主控板的报文,也可查看其他单板的报文。4) 对上CPU的报文做分类统计:进入诊断模式输入debug rxtx catch by , 可选择

42、根据da(目的MAC)、dip(目的IP)、sa(源MAC)、sip(源IP)、etype(报文类型)、VLAN等进行报文分类统计。等待1分钟之后,输入debug rxtx catch end结束统计并显示统计结果。根据结果,可以判断是从哪个地址有大量报文上CPU处理,或者是何种类型的大量报文上CPU处理。5) 通过对第4步的统计结果进行分析,采取相关方法处理:如果是大量TTL超时报文,使用undo ip ttl-expires命令,可阻止此类报文上送CPU处理。然后排查网络中是否有路由环路等,造成TTL超时。如果是大量ARP报文,可先对关键业务配置静态ARP规避,然后查找大量ARP报文的发送

43、源,并查杀病毒。3.2 硬件接口问题² 电口频繁UP/DOWN故障1) 查看两端端口是否存在收发错误报文统计。命令为display interface 如果存在错误报文统计,则表明链路质量不好,需要检查端口配置情况和检查链路质量;2) 如果确认端口配置正常(速度以及双工一致),则检查物理链路是否正常。简单方法是使用手轻轻碰网线看是否有UP/DOWN变化。如果没有,则更换连接线观察;3) 如果确认物理链路正常,而端口又为协商模式,将两端配置为强制模式观察;4) 更换一端设备端口(如果条件允许,推荐是同类型的其它槽位单板),观察是否故障依旧;5) 如果更换端口依旧,则更换另一端设备端口(

44、如果条件允许,推荐是同类型的其它槽位单板);6) 可以在端口下配置link-delay命令来调整端口up、down灵敏度,通常敏感局点建议使用10;7) 如果故障依旧需要研发人员确认;² 光口频繁UP/DOWN故障1) 查看两端端口是否存在收发错误报文统计。命令为display interface 如果存在错误报文统计,则表明链路质量不好,需要检查端口配置情况和检查链路质量;2) 如果确认端口配置正常(速度以及双工一致),则检查物理链路是否正常。简单方法是使用手轻轻碰光纤看是否有UP/DOWN变化。如果没有,则更换连接线观察;3) 通过测试光功率依旧更换光纤等手段,如果确认物理链路正

45、常,而端口又为协商模式,将两端配置为强制模式观察;4) 更换一端设备端口(如果条件允许,推荐是同类型的其它槽位单板)。观察是否故障依旧;5) 如果更换端口依旧,则更换另一端设备端口(如果条件允许,推荐是同类型的其它槽位单板);6) 可以在端口下配置link-delay命令来调整端口up、down灵敏度,通常敏感局点建议使用10;7) 如果故障依旧需要研发人员确认;² 电口不UP的故障1) 在本板上两端口直接互连,判定是否能up;2) 如果直连无法up,检查物理连接线是否正常;更换网线再测试;3) 如果确认物理连接线正常,使用命令display interface检查配置情况;4) 如

46、果确认对端没有被配置为down状态或者链路两端配置一致,可以肯定端口存在物理异常。² SFP光口不UP的故障1) 使用命令display interface检查是否配置合理,是否能正确读出SFP的模块参数。如果确认对端没有被配置为down状态并且端口配置完全一致,建议更换两端端口配置数据(双工以及速度)。2) 检查光纤收发端是否接反,物理连接是否正常,光功率是否在光模块的规格之内等;3) 如果确认光路正常,在本板上将两端口通过光纤直接互连,检查是否能up;4) 如果直连不能UP,将分别将链路两端端口更换到其他端口进行测试;5) 如果还不能UP,需要分别更换两端光模块光模块进行测试。&

47、#178; 端口不接收报文故障1) 使用display interface 查看是否有入报文统计,两端端口是否up。必要时使用reset counter interface清空端口统计报文再观察。查看对端是否有发送报文统计;2) 确认端口配置是否有异常。其中包括两端的协商状态,端口速率,端口类型以及vlan等配置 ;3) 查看端口stp状态,是否被discarding掉,是否lacp端口被Unselected ;4) up/down一下端口,看是否能恢复。如果不能恢复,更改端口属性(速度、双工)的配置,看看是否能恢复;5) 更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设

48、备(光转,转接架,传输等设备)是否正常。如果为电口,使用pc替代对接。如果为光口,更换光模块测试;6) 确认对端设备以及链路是否有问题;² 端口不发送报文故障1) 使用display interface 查看端口是否有收发报文统计,两端是否均up。检查对端设备是否收报文统计;2) 确认端口配置是否有异常。其中包括两端的协商状态,端口速率、双工,端口类型以及vlan配置等;3) 查看端口stp状态,是否被discarding掉,是否是动态聚合端口被Unselected;4) up/down一下端口,看是否能恢复。如果不能恢复,更改端口属性(速度、双工)的配置,看看是否能恢复;5) 更换

49、到其它端口看是否存在相同现象。如果存在相同现象,当端口为电口时,使用PC替代对接测试。当端口为光口时,更换光模块测试;3.3 单板故障² 主控板无法启动故障1) 观察BOOTROM启动信息,判断系统无法启动原因。如果显示启动文件类错误,转步骤二处理。如果启动文件确认正常,BOOTROM提示信息中发现错误信息或者信息不全,则转步骤五处理。2) 出现文件异常,典型信息为BOOTROM提示CRC错误,或者找不到启动文件。请重新加载启动文件,并检查FLASH中文件大小是否与版本库上一致。如果不一致,请重新加载。并设置该文件为当前启动文件。(在BOOTROM加载过程中,BOOTROM能自动将该

50、文件设置为当前启动文件。) 3) 如果确认加载的文件大小正确,且设置为当前启动文件也正常。请重新启动单板,在看到starting后立即按crtl+T,并观察是否有内存自检错误,如果提示内存错误,请更换内存条,正常显示如下:Starting.RAMLine.OKSystem is booting.4) 如果内存检查也正常,但依旧提示文件错误,则判断是否单板插牢固,确认牢固,更换单板;5) 如果BOOTROM启动信息有错误信息,则根据提示的信息初步判断相关器件出现故障。再次启动,看是否必现。如果必现,检查单板是否插牢固,否则更换单板;6) 如果BOOTROM启动中,系统停留在某些启动阶段。收集启动

51、信息。同时复位单板,确认是否能启动。确认无法启动且单板插入牢固,则更换单板;7) 如果BOOTROM启动中,系统在某些启动阶段反复重起。如果提示单板状态错误,则表示单板没有插到位,请重新插入单板。如果为其它过程中重起,收集启动信息。同时插拔单板,确认是否能启动,则更换单板。² 业务板无法注册、加载不成功故障1) 使用display boot-loader命令参看当前启动文件是否存在,文件大小是否与网站上的软件版本一致;2) 查看主机log信息,检查是否有加载信息,如果有,进行步骤3;如果没有,转入步骤7;3) 如果条件允许,在无法加载的业务板槽位插入其它单板做测试;4) 如果新单板能

52、启动,检查版本配套资料,判定主机软件是否支持原单板。如果确认支持,初步可以判定原业务板存在故障;5) 如果新单板同样无法启动,则升级主机软件,检测是否原版本问题。如果同样无法加载,建议更换主控板;6) 如果无空余业务板测试,请更换业务板槽位,特别是在其他业务板可以加载的槽位上测试。如果该单板同样无法加载成功,则需要更换该业务板;7) 如果没有加载信息,则使用命令display cpu task 主控板槽位号,查看DEV任务状态。如果正常,则更换业务板槽位检测是否能正常加载; 3.4 丢包问题在网络中如过发现有丢包问题,请按下面的方法处理:1) 确认报文经过的网络拓扑,包括设备、链路等; 2) 根据拓扑,使用ping包的方法,逐段进行排查;3) 排查时,需要在该段链路上选取两个地址互ping。因为我司设备有ping保护的机制,因此这两个地址最好选取PC机的地址;4) 在ping包经过的设备出入方法,通过配置ACL做流统计的方法,检查是哪个设备或者哪段链路出现丢包;5) 如果多次统计,没有发现丢包,需要在下一段网络上,用同样的方法排查;6) 如果确认是链路丢包之后,需要检查该段链路是否存在质量问题,例如是否出现大量错包(检查两端端口的Input方向)。如果是,则需要通过更换网线、光纤等方法处理。如果确认是75E设备丢包,需要对设备做如下排查:1) 根据报文丢失的情况

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论