交换机CPU使用率高问题定位_第1页
交换机CPU使用率高问题定位_第2页
交换机CPU使用率高问题定位_第3页
交换机CPU使用率高问题定位_第4页
交换机CPU使用率高问题定位_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 Security Level: HUAWEI TECHNOLOGIES CO., LTD. 交换机交换机CPUCPU使用率高问题定位使用率高问题定位 目录目录 l诊断工具 pdisplay工具 plog工具 l报文冲击导致的CPU使用率高问题 lCPU使用率高问题信息采集 HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 3 display cpu-usage CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 40% Max: 54% CPU Usage Stat. Time : 2008-05-27

2、 09:21:46 CPU utilization for five seconds: 50%: one minute: 49%: five minutes: 47% Max CPU Usage Stat. Time : 2008-05-26 09:30:07. TaskName CPU Runtime(CPU Tick High/Tick Low) Task Explanation BOX 0% 0/ 35090 BOX Output _TIL 0% 0/ 0 Infinite loop event task _EXC 0% 0/ 0 Exception Agent Task bcmRX 2

3、% 0/ 3b69a bcmRX VIDL 50% 0/af3cd700 DOPRA IDLE TICK 0% 0/ 1414bb FOAM 0% 0/ 0 FOAM FTS 25% 0/ 416 FTS IPCQ 0% 0/ 10105f IPCQIPC task for single queue SOCK 10% 0/ ecb2fc SOCKPacket schedule and process 空闲任务 任务描述 HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 4 display cpu-defend statistics all Sta

4、tistics on slot 0: - Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) - arp-miss 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 igmp 2240 0 35 0 nap 0 0 0 0 nd 1424 0 16 0 snmp 0 0 0 0 tcp 0 0 0 0 telnet 0 0 0 0 tt

5、l-expired 0 0 0 0 unknown-multicast 0 0 0 0 - l对于报文冲击导致CPU高的情形,可进一步通过cpu-defend统计查询功能确认具体的协议类型。 l协议上送过多判断标准:该协议对应的Drop列有大量计数,且相对于Pass计数占比较高,例如上表 中的arp-request类型。 HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 5 display logbuffer Logging buffer configuration and contents : enabled Allowed max buffe

6、r size : 1024 Actual buffer size : 512 Channel number : 4 , Channel name : logbuffer Dropped messages : 0 Overwritten messages : 0 Current messages : 395 Feb 28 2012 16:37:40 Quidway %01SNMP/4/DECODE_ERR(l):Failed to login th rough SNMP, because of the decoded PDU error. (Ip=9, Times=4) F

7、eb 28 2012 16:35:36 Quidway %01VOSCPU/4/CPU_USAGE_HIGH(l)126:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(40%), SNPG(30%), bcmRX(5%). (CpuUsage=99%, Threshold=80%) lCPU使用率高往往还伴有告警、日志出现,可以通过查看日志缓冲区的历史记录,搜索 CPU_USAGE_HIGH日志,以便确认CPU占用率TOP 3的任务。 目录目录 l诊断工具 l报文冲击导致的CPU

8、使用率高问题 p定位思路 p故障举例 p第一步:检查CPU占用率TOP任务 p第二步:检查上送过多的协议类型 p第三步:按协议类型分别处理 lCPU使用率高问题信息采集 HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 7 CPU使用 率检查 确认 TOP 任务 确认 报文 类型 协议 分类 处理 其它情 形信息 采集 l最常见协议冲击CPU致使用率高主要表现在bcmRX、FTS、SOCK等任务上。 lbcmRX是设备硬件中断触发的的收包任务,它会将收取到的报文立刻转交软件层面的FTS任务进行 分发处理。 l对于属于三层协议处理的报文,往往还伴随

9、有SOCK任务占用率高的情况出现。 HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 8 故障描述:故障描述:交换机产生CPU_USAGE_HIGH告警: 备注:备注: 如果网管需要主动监测CPU使用率,可通过OID:.4.1.20.1.5获取。 Feb 28 2012 16:35:36 Quidway %01VOSCPU/4/CPU_USAGE_HIGH(l)126:Slot=5;The CPU is overloaded, and the tasks with top three CPU occu

10、pancy are FTS(27%), VPS(15%), bcmRX(5%). (CpuUsage=99%, Threshold=80%) HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 9 display cpu-usage slot x CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 85% Max: 99% CPU Usage Stat. Time : 2001-04-25 16:15:00 CPU utilization for five seconds: 90%: one minute:

11、 85%: five minutes: 86% Max CPU Usage Stat. Time : 2001-04-24 17:17:07. TaskName CPU Runtime(CPU Tick High/Tick Low) Task Explanation BOX 0% 0/ dad772 BOX Output _TIL 0% 0/ 0 Infinite loop event task _EXC 0% 0/ 0 Exception Agent Task VIDL 15% 8/b51c8f1b DOPRA IDLE TICK 0% 0/ 91e2d7f CLKI 0% 0/ 0 CLK

12、I DEV 0% 0/ 12202d9 DEV Device bcmRX 5% 0/ cb817af bcmRX CHAL 0% 0/ 0 CHAL FTS 23% 0/ 5a876 FTS MOD 0% 0/ 0 MOD Module Management l通过故障现象中的告警信息,可以确认CPU占用率TOP任务中包含有bcmRX、FTS报文收取任务, 基本可以确认属于协议收报过多导致CPU占用率上升。 l可以通过CPU使用率查询功能进一步核实TOP任务中是否包含有收包任务;可以通过slot指明查询的 槽位号。 HUAWEI TECHNOLOGIES CO., LTD.Huawei Con

13、fidential 10 l通过cpu-defend统计查询功能,确认哪类协议存在冲击情形,可以通过各类协议的Drop列计数进 行确认。如果某类协议Drop计数非常大,且Drop列计数相对于Pass列计数占比较高(例如达到20% 以上),则认为属于此类协议存在冲击CPU情况。例如上表中的arp-request,后续按照第三步中的 ARP协议对应处理方式进行处理。 l注意,查看统计时,需要关注协议冲击位于哪个槽位,即“Statistics on slot x”。 display cpu-defend statistics all Statistics on slot 0: - Packet Ty

14、pe Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) - arp-miss 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 dhcpv6-reply 0 0 0 0 dhcpv6-request 0 0 0 0 icmp 0 0 0 0 icmpv6 0 0 0 0 igmp 2240 0 35 0 HUAWEI TECHNOLOGIES CO., LT

15、D.Huawei Confidential 11 第三步:按协议类型分别处理第三步:按协议类型分别处理-1 lARPARP 通过display interface检查哪些接口存在Broadcast数量异常,并在此接口配置广播流量抑 制,限制单个接口广播速率(例如限制为50pps): # # broadcast-suppression pps 50.broadcast-suppression pps 50. # # lDHCPDHCP 请确认本机是否需要开启DHCP,如果不需要请在全局undo dhcp enable; 如果需要,建议在下行接口开启dhcp error-down功能(具体信息请参

16、考用户手册): # dhcp snooping check dhcp-rate enable dhcp snooping check dhcp-rate trigger error-down # 并建议通过基于dhcp报文的流量统计功能,来发现哪个接口发送了过多的DHCP报文。 HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 12 第三步:按协议类型分别处理第三步:按协议类型分别处理-2 lTCP/ARP-MISSTCP/ARP-MISS 此种情况一般是由于网络中存在针对不存在的某些直连网段IP地址进行扫描导致的. 当有数 据报文发送到这些不存

17、在的IP地址时,会将数据上送CPU处理,以触发ARP学习过程,建议 此时在每个vlanif接口下调整ARP学习延迟时间: # # interface vlanif1000interface vlanif1000 arp-fake expire-time 30 arp-fake expire-time 30 # # lTTL-EXPIREDTTL-EXPIRED 如果不需要本机在tracert中显示,建议丢弃此类报文: # # cpu-defend policy testcpu-defend policy test deny packet-type ttl-expired deny packet

18、-type ttl-expired # # Cpu-defend-policy test globalCpu-defend-policy test global Cpu-defend-policy testCpu-defend-policy test # # HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 13 第三步:按协议类型分别处理第三步:按协议类型分别处理-3 lReserved-multicast Reserved-multicast 此类报文一般属路由协议报文,目的IP地址224.0.0.X,如果设备不需要此类报文(或者启用 OSP

19、F路由但未起组播功能),可以直接丢弃处理(或者升级到最新版本): # # cpu-defend policy testcpu-defend policy test deny packet-type reserved-multicast deny packet-type reserved-multicast # # Cpu-defend-policy test globalCpu-defend-policy test global Cpu-defend-policy testCpu-defend-policy test # # HUAWEI TECHNOLOGIES CO., LTD.Huawe

20、i Confidential 14 第三步:按协议类型分别处理第三步:按协议类型分别处理-4 lND/ICMPV6/DHCPV6ND/ICMPV6/DHCPV6 如果本机不需要IPV6功能,建议直接丢弃此类报文: # # cpu-defend policy testcpu-defend policy test deny packet-type nd deny packet-type nd deny packet-type icmpv6 deny packet-type icmpv6 deny packet-type dhcpv6-request deny packet-type dhcpv6-

21、request deny packet-type dhcpv6-reply deny packet-type dhcpv6-reply # # Cpu-defend-policy test globalCpu-defend-policy test global Cpu-defend-policy testCpu-defend-policy test # # HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 15 第三步:按协议类型分别处理第三步:按协议类型分别处理-5 lOSPFOSPF 请检查是否存在路由表项过大,或者OSPF PEER过多情形

22、,并根据实际情况考虑对路由进行 优化,以降低路由表项数目或OSPF PEER数目。 lSNMPSNMP 检查是否存在频繁的网管操作,例如获取接口流量,建议适当降低网管获取交换机信息的 频率。 l如果不属于上述常见协议类型,或者其它情况导致的CPU高情形,建议立刻搜集设备当前诊断 信息、日志信息、本次定位过程的操作记录等,并返回华为服务处理。 目录目录 l诊断工具 l报文冲击导致的CPU使用率高问题 lCPU使用率高问题信息采集 HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 17 信息搜集信息搜集 l搜集cfcard中的logfile目录下的日

23、志信息,针对没有cfcard的 盒式设备,请通过如下命令搜集: display logbufferdisplay logbuffer display trapbufferdisplay trapbuffer l搜集设备诊断信息,命令为: display diagnostic-information display diagnostic-information l搜集cpu-defend统计信息(10分钟内多搜集几次) display cpu-defend statistics alldisplay cpu-defend statistics all HUAWEI TECHNOLOGIES CO

24、., LTD.Huawei Confidential 18 信息搜集信息搜集 l搜集搜集TOPTOP任务的监控信息:任务的监控信息: 1. 通过_hidecmd或diagnose进入诊断视图; 2. 通过display cpu-usage检查cpu占用较高任务,例如EOAM较高: Quidway-hidecmd displaydisplay cpu-usagecpu-usage slot x - 可指定槽号检查 CPU Usage Stat. Cycle: 10 (Second) CPU Usage : 38% Max: 99% CPU Usage Stat. Time : 2013-01-0

25、6 03:08:57 CPU utilization for five seconds: 38%: one minute: 33%: five minutes: 35%. TaskName CPU Runtime(CPU Tick High/Tick Low) Task Explanation BOX 0% 0/ 18f78e BOX Output _TIL 0% 0/ 0 Infinite loop event task _EXC 0% 0/ 0 Exception Agent Task VIDL 61% 0/b7abe65c DOPRA IDLE TICK 0% 0/ 143074e ST

26、ND 0% 0/ b3412 STNDStandby task EOAM 24% EOAM 24% 0/4994c174 EOAMEthernet OAM 802.1ag 0/4994c174 EOAMEthernet OAM 802.1ag HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 19 信息搜集信息搜集 3. 通过display taskdisplay task查找任务对应的taskid,例如EOAM的taskid为79: Quidway-hidecmd display taskdisplay task slot x - 可指定槽号

27、name Tid VOS_TidVOS_Tid priority Status CPU Total(Millsecs) = BOX 0 x6ec5230 1 8 sleep 36830 _TIL 0 x6ebaf90 2 250 eventblock 0 _EXC 0 x6eb0cf0 3 135 eventblock 0 VIDL 0 x6ea6a50 4 1 preemptready 79669745 TICK 0 x6e9c7b0 5 205 preemptready 476396 STND 0 x6daa8b0 6 80 eventblock 18097 FTPS 0 x6dbc240

28、 7 100 sleep 230536 DEV 0 x6e7ffd0 8 140 eventblock 14818 TCTL 0 x6c6a460 77 100 eventblock 45 NAP 0 x6c601c0 78 100 eventblock 45 EOAM EOAM 0 x6c55f20 0 x6c55f20 7979 100 eventblock 29468818 TRAF 0 x6c4bc80 80 100 eventblock 25659 SLAG 0 x6c419e0 81 100 eventblock 56 HUAWEI TECHNOLOGIES CO., LTD.Hu

29、awei Confidential 20 信息搜集信息搜集 4. 根据taskid设置监控阀值。阀值的设置可参考相应任务的现有占用率,如上面的 EOAM模块CPU利用率为24,那么我们设置监控比这个值低一点,例如设置 成20,具体命令为: set task-monitor-record threshold threshold taskid taskid Quidway-hidecmdset task-monitor-record threshold 20 taskid 79set task-monitor-record threshold 20 taskid 79 slot x 可指定槽号 T

30、ask Monitor has been set on slot 5, TaskId is 79, Threshold is 5 5. 查看任务监控记录,具体命令为:display task-monitor-record Quidway-hidecmddisplay task-monitor-recorddisplay task-monitor-record slot x 可指定槽号 = Task Cpu-usage Monitor Record (slot: 5) = Current Index: 0 HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 21 信息搜集信息搜集 6.最后,必须要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论