交换机CPU使用率高问题定位_第1页
交换机CPU使用率高问题定位_第2页
交换机CPU使用率高问题定位_第3页
交换机CPU使用率高问题定位_第4页
交换机CPU使用率高问题定位_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Security Level: HUAWEI TECHNOLOGIES CO., LTD.交换机交换机CPUCPU使用率高问题定位使用率高问题定位目录目录l诊断工具pdisplay工具plog工具l报文冲击导致的CPU使用率高问题lCPU使用率高问题信息采集HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 3display cpu-usage CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 40% Max: 54% CPU Usage Stat. Time : 2008-05-27 09:21:46

2、CPU utilization for five seconds: 50%: one minute: 49%: five minutes: 47% Max CPU Usage Stat. Time : 2008-05-26 09:30:07. TaskName CPU Runtime(CPU Tick High/Tick Low) Task Explanation BOX 0% 0/ 35090 BOX Output _TIL 0% 0/ 0 Infinite loop event task _EXC 0% 0/ 0 Exception Agent Task bcmRX 2% 0/ 3b69a

3、 bcmRX VIDL 50% 0/af3cd700 DOPRA IDLE TICK 0% 0/ 1414bb FOAM 0% 0/ 0 FOAM FTS 25% 0/ 416 FTS IPCQ 0% 0/ 10105f IPCQIPC task for single queue SOCK 10% 0/ ecb2fc SOCKPacket schedule and process 空闲任务任务描述HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 4display cpu-defend statistics all Statistics on sl

4、ot 0: - Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) - arp-miss 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 igmp 2240 0 35 0 nap 0 0 0 0 nd 1424 0 16 0 snmp 0 0 0 0 tcp 0 0 0 0 telnet 0 0 0 0 ttl-expired 0 0

5、 0 0 unknown-multicast 0 0 0 0 - l对于报文冲击导致CPU高的情形,可进一步通过cpu-defend统计查询功能确认具体的协议类型。l协议上送过多判断标准:该协议对应的Drop列有大量计数,且相对于Pass计数占比较高,例如上表中的arp-request类型。HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 5display logbuffer Logging buffer configuration and contents : enabled Allowed max buffer size : 1024 Act

6、ual buffer size : 512 Channel number : 4 , Channel name : logbuffer Dropped messages : 0 Overwritten messages : 0 Current messages : 395 Feb 28 2012 16:37:40 Quidway %01SNMP/4/DECODE_ERR(l):Failed to login through SNMP, because of the decoded PDU error. (Ip=9, Times=4) Feb 28 2012 16:35:3

7、6 Quidway %01VOSCPU/4/CPU_USAGE_HIGH(l)126:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(40%), SNPG(30%), bcmRX(5%). (CpuUsage=99%, Threshold=80%) lCPU使用率高往往还伴有告警、日志出现,可以通过查看日志缓冲区的历史记录,搜索CPU_USAGE_HIGH日志,以便确认CPU占用率TOP 3的任务。目录目录l诊断工具l报文冲击导致的CPU使用率高问题p定位思路p故障举例p第一步:检

8、查CPU占用率TOP任务p第二步:检查上送过多的协议类型p第三步:按协议类型分别处理lCPU使用率高问题信息采集HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 7CPU使用率检查确认TOP任务确认报文类型协议分类处理其它情形信息采集l最常见协议冲击CPU致使用率高主要表现在bcmRX、FTS、SOCK等任务上。lbcmRX是设备硬件中断触发的的收包任务,它会将收取到的报文立刻转交软件层面的FTS任务进行分发处理。l对于属于三层协议处理的报文,往往还伴随有SOCK任务占用率高的情况出现。HUAWEI TECHNOLOGIES CO., LTD.H

9、uawei Confidential 8故障描述故障描述:交换机产生CPU_USAGE_HIGH告警:备注:备注:如果网管需要主动监测CPU使用率,可通过OID:.4.1.20.1.5获取。Feb 28 2012 16:35:36 Quidway %01VOSCPU/4/CPU_USAGE_HIGH(l)126:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(27%), VPS(15%), bcmRX(5%). (CpuUsage=99

10、%, Threshold=80%)HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 9display cpu-usage slot x CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 85% Max: 99% CPU Usage Stat. Time : 2001-04-25 16:15:00 CPU utilization for five seconds: 90%: one minute: 85%: five minutes: 86% Max CPU Usage Stat. Time : 2001

11、-04-24 17:17:07. TaskName CPU Runtime(CPU Tick High/Tick Low) Task Explanation BOX 0% 0/ dad772 BOX Output _TIL 0% 0/ 0 Infinite loop event task _EXC 0% 0/ 0 Exception Agent Task VIDL 15% 8/b51c8f1b DOPRA IDLE TICK 0% 0/ 91e2d7f CLKI 0% 0/ 0 CLKI DEV 0% 0/ 12202d9 DEV Device bcmRX 5% 0/ cb817af bcmR

12、X CHAL 0% 0/ 0 CHAL FTS 23% 0/ 5a876 FTS MOD 0% 0/ 0 MOD Module Management l通过故障现象中的告警信息,可以确认CPU占用率TOP任务中包含有bcmRX、FTS报文收取任务,基本可以确认属于协议收报过多导致CPU占用率上升。l可以通过CPU使用率查询功能进一步核实TOP任务中是否包含有收包任务;可以通过slot指明查询的槽位号。HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 10l通过cpu-defend统计查询功能,确认哪类协议存在冲击情形,可以通过各类协议的Drop列

13、计数进行确认。如果某类协议Drop计数非常大,且Drop列计数相对于Pass列计数占比较高(例如达到20%以上),则认为属于此类协议存在冲击CPU情况。例如上表中的arp-request,后续按照第三步中的ARP协议对应处理方式进行处理。l注意,查看统计时,需要关注协议冲击位于哪个槽位,即“Statistics on slot x”。display cpu-defend statistics all Statistics on slot 0: - Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) - arp-miss

14、 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 dhcpv6-reply 0 0 0 0 dhcpv6-request 0 0 0 0 icmp 0 0 0 0 icmpv6 0 0 0 0 igmp 2240 0 35 0 HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 11第三步:按协议类型分别处理第三步:按协议类型分别处理-1lARPARP通过disp

15、lay interface检查哪些接口存在Broadcast数量异常,并在此接口配置广播流量抑制,限制单个接口广播速率(例如限制为50pps):# #broadcast-suppression broadcast-suppression ppspps 50. 50.# #lDHCPDHCP请确认本机是否需要开启DHCP,如果不需要请在全局undo dhcp enable;如果需要,建议在下行接口开启dhcp error-down功能(具体信息请参考用户手册):#dhcp snooping check dhcp-rate enabledhcp snooping check dhcp-rate t

16、rigger error-down# 并建议通过基于dhcp报文的流量统计功能,来发现哪个接口发送了过多的DHCP报文。HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 12第三步:按协议类型分别处理第三步:按协议类型分别处理-2lTCP/ARP-MISSTCP/ARP-MISS此种情况一般是由于网络中存在针对不存在的某些直连网段IP地址进行扫描导致的. 当有数 据报文发送到这些不存在的IP地址时,会将数据上送CPU处理,以触发ARP学习过程,建议此时在每个vlanif接口下调整ARP学习延迟时间:# #interface vlanif1000i

17、nterface vlanif1000 arparp-fake expire-time 30-fake expire-time 30# #lTTL-EXPIREDTTL-EXPIRED如果不需要本机在tracert中显示,建议丢弃此类报文:# #cpu-defend policy testcpu-defend policy test deny packet-type deny packet-type ttlttl-expired-expired# #Cpu-defend-policy test globalCpu-defend-policy test globalCpu-defend-poli

18、cy testCpu-defend-policy test# #HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 13第三步:按协议类型分别处理第三步:按协议类型分别处理-3lReserved-multicast Reserved-multicast 此类报文一般属路由协议报文,目的IP地址224.0.0.X,如果设备不需要此类报文(或者启用OSPF路由但未起组播功能),可以直接丢弃处理(或者升级到最新版本):# #cpu-defend policy testcpu-defend policy test deny packet-type rese

19、rved-multicast deny packet-type reserved-multicast# #Cpu-defend-policy test globalCpu-defend-policy test globalCpu-defend-policy testCpu-defend-policy test# #HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 14第三步:按协议类型分别处理第三步:按协议类型分别处理-4lND/ICMPV6/DHCPV6ND/ICMPV6/DHCPV6如果本机不需要IPV6功能,建议直接丢弃此类报文:# #cp

20、u-defend policy testcpu-defend policy test deny packet-type deny packet-type ndnd deny packet-type icmpv6 deny packet-type icmpv6 deny packet-type dhcpv6-request deny packet-type dhcpv6-request deny packet-type dhcpv6-reply deny packet-type dhcpv6-reply# #Cpu-defend-policy test globalCpu-defend-poli

21、cy test globalCpu-defend-policy testCpu-defend-policy test# #HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 15第三步:按协议类型分别处理第三步:按协议类型分别处理-5lOSPFOSPF请检查是否存在路由表项过大,或者OSPF PEER过多情形,并根据实际情况考虑对路由进行优化,以降低路由表项数目或OSPF PEER数目。lSNMPSNMP检查是否存在频繁的网管操作,例如获取接口流量,建议适当降低网管获取交换机信息的频率。l如果不属于上述常见协议类型,或者其它情况导致的CPU高情形,

22、建议立刻搜集设备当前诊断信息、日志信息、本次定位过程的操作记录等,并返回华为服务处理。目录目录l诊断工具l报文冲击导致的CPU使用率高问题lCPU使用率高问题信息采集HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 17信息搜集信息搜集l搜集cfcard中的logfile目录下的日志信息,针对没有cfcard的盒式设备,请通过如下命令搜集:display display logbufferlogbufferdisplay display trapbuffertrapbufferl搜集设备诊断信息,命令为: display diagnostic-i

23、nformation display diagnostic-information l搜集cpu-defend统计信息(10分钟内多搜集几次) display cpu-defend statistics alldisplay cpu-defend statistics allHUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 18信息搜集信息搜集l搜集搜集TOPTOP任务的监控信息:任务的监控信息:1. 通过_hidecmd或diagnose进入诊断视图;2. 通过display cpu-usage检查cpu占用较高任务,例如EOAM较高:Quid

24、way-hidecmd displaydisplay cpu-usagecpu-usage slot x - 可指定槽号检查CPU Usage Stat. Cycle: 10 (Second)CPU Usage : 38% Max: 99%CPU Usage Stat. Time : 2013-01-06 03:08:57 CPU utilization for five seconds: 38%: one minute: 33%: five minutes: 35%.TaskName CPU Runtime(CPU Tick High/Tick Low) Task ExplanationBO

25、X 0% 0/ 18f78e BOX Output _TIL 0% 0/ 0 Infinite loop event task _EXC 0% 0/ 0 Exception Agent Task VIDL 61% 0/b7abe65c DOPRA IDLE TICK 0% 0/ 143074e STND 0% 0/ b3412 STNDStandby task EOAM 24% EOAM 24% 0/4994c174 EOAMEthernet OAM 802.1ag 0/4994c174 EOAMEthernet OAM 802.1ag HUAWEI TECHNOLOGIES CO., LTD

26、.Huawei Confidential 19信息搜集信息搜集3. 通过display taskdisplay task查找任务对应的taskid,例如EOAM的taskid为79:Quidway-hidecmd display taskdisplay task slot x - 可指定槽号name Tid VOS_TidVOS_Tid priority Status CPU Total(Millsecs)=BOX 0 x6ec5230 1 8 sleep 36830_TIL 0 x6ebaf90 2 250 eventblock 0_EXC 0 x6eb0cf0 3 135 eventblo

27、ck 0VIDL 0 x6ea6a50 4 1 preemptready 79669745TICK 0 x6e9c7b0 5 205 preemptready 476396STND 0 x6daa8b0 6 80 eventblock 18097FTPS 0 x6dbc240 7 100 sleep 230536DEV 0 x6e7ffd0 8 140 eventblock 14818TCTL 0 x6c6a460 77 100 eventblock 45NAP 0 x6c601c0 78 100 eventblock 45EOAM EOAM 0 x6c55f20 0 x6c55f20 797

28、9 100 eventblock 29468818TRAF 0 x6c4bc80 80 100 eventblock 25659SLAG 0 x6c419e0 81 100 eventblock 56HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 20信息搜集信息搜集4. 根据taskid设置监控阀值。阀值的设置可参考相应任务的现有占用率,如上面的EOAM模块CPU利用率为24,那么我们设置监控比这个值低一点,例如设置成20,具体命令为: set task-monitor-record threshold threshold taskid ta

29、skidQuidway-hidecmdset task-monitor-record threshold 20 set task-monitor-record threshold 20 taskidtaskid 79 79 slot x 可指定槽号Task Monitor has been set on slot 5, TaskId is 79, Threshold is 55. 查看任务监控记录,具体命令为:display task-monitor-recordQuidway-hidecmddisplay task-monitor-recorddisplay task-monitor-record slot x 可指定槽号= Task Cpu-usage Monitor Record (slot: 5) =Current Index: 0HUAWEI TECHNOLOGIES CO., LTD.Huawei Confidential 21信息搜集信息搜集6.最后,必须要关闭任务监控

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论