SRX防火墙常见故障应急预案_第1页
SRX防火墙常见故障应急预案_第2页
SRX防火墙常见故障应急预案_第3页
SRX防火墙常见故障应急预案_第4页
SRX防火墙常见故障应急预案_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Juniper防火墙常见故障应急预案juniper“NETWORKSJuniper防火墙常见故障快速处理指南应急启动条件:故障一:CPU负载突发升高故障二:并发会话突发升高故障三:防火墙主备关系紊乱应急操作步骤:故障一:CPU负载突发升高如果CPU持续升高,并且影响了业务的正常通信,而在规定时间内无法找到原因(例如找不到突发数据源、因为软硬件故障造成的CPU升高),可在收集完信息后,通过三层交换机替代防火墙,进行防火墙旁路的应急操作。(注意:在外联区与Internet区等需要NAT的地方不能使用此替代方案)收集的信息至少包括如下内容:requestsupportinformationsetclitimestampshowchassisrouting-engineshowsystemprocessesextensiveshowsecuritymonitoringperformancesessionshowsecuritymonitoringsessionfpc<number>pic<number>showsecuritymonitoringperformancespu故障二:并发会话突发升高一般在会话总数升高时,可通过命令clearsecurityflowsession及时关闭无用的会话,此命令可以基于源/目标地址、源/目标端口、IP协议来关闭会话。另外,可以通过命令deletesecurityflowtcp-sessionno-syn-check打开对建立会话的包头syn标志位检测,以避免有攻击流量(例如rstflood)在防火墙上建立无用会话。同时,可通过以下命令,临时降低每个ip允许的会话,以保证大部分的业务通讯:setsecurityscreenids-option<screen>limit-sessionsource-ip-based<number>setsecurityscreenids-option<screen>limit-sessiondestination-ip-based<number>setsecurityzonessecurity-zone<zone>screen<screen>如果会话持续升高,并且影响了业务的正常通信,而在规定时间内无法找到原因(例如找不到突发数据源、因为软硬件故障造成的会话升高),可在收集完信息后,通过三层交换机替代防火墙,进行防火墙旁路的应急操作。(注意:在外联区与Internet区等需要NAT的地方不能使用此替代方案)收集的信息至少包括如下内容:requestsupportinformationsetclitimestampmonitorinterface<name>monitorinterfacetrafficshowsecurityflowsessionsummaryshowsecurityflowcp-sessionsummaryshowsecurityflowsessiondestination-prefix<ip-prefix>showsecurityflowsessionsession-identifiershowinterfaceextensive故障三:防火墙主备关系紊乱当两台防火墙都变成Master状态时,网络并不会中断,所有的流量会指向最后一台变成Master的防火墙。此时只要恢复主备防火墙之间的连线,网络即可恢复正常如果没有备用的线缆或者光线模块可以恢复主备防火墙的连接,可以强行将其中一台防火墙的连线拔下,以保证只有一台防火墙处在Master状态。TOC\o"1-5"\h\z\o"CurrentDocument"1CPU负载突发升高1\o"CurrentDocument"1.1基础概念1\o"CurrentDocument"1.2故障定位3FlowCPU3TaskCPU5\o"CurrentDocument"1.3监控管理5\o"CurrentDocument"1.4应急操作6\o"CurrentDocument"2并发会话突发升高7\o"CurrentDocument"2.1基础概念7\o"CurrentDocument"2.2故障定位72.2.1检查新建会话72.2.2检查会话关闭情况8\o"CurrentDocument"2.3监控管理9\o"CurrentDocument"2.4应急操作9\o"CurrentDocument"3防火墙主备关系素乱10\o"CurrentDocument"3.1基础概念10\o"CurrentDocument"3.2故障定位10\o"CurrentDocument"3.3监控管理1.1\o"CurrentDocument"3.4应急操作..1蜃甲国民生*良,〒WEHT-bWVlXL小fTH心.1CPU负载突发升高1.1基础概念JuniperSRX防火墙内有两类CPU:转发CPU和控制CPU。转发CPU也称为SPU,位于防火墙的SPC板卡,负责处理经过防火墙的业务流量,例如新建会话连接和基于session的转发;控制CPU位于防火墙的RE板卡,负责处理管理防火墙的任务流量,比如syslog/telnet等等。FlowCPU没有进程的概念,而TaskCPU有进程可以通过getostask命令查看进程。防火墙CPU突发升高时,要判断是哪类CPU升高,可通过如下命令查看SPU和RECPU的利用率:SPU利用率:root@SRX#runshowsecuritymonitoringperformancespunode0:fpc8pic0Last60seconds:0:6:001:7:002:8:003:9:004:10:005:11:0012:013:014:015:016:017:018:019:020:021:022:023:024:025:026:027:028:029:030:031:032:033:034:035:036:037:038:039:040:041:042:043:044:045:046:047:048:049:050:051:052:053:054:055:056:057:058:059:0fpc8pic1Last60seconds:0:01:02:03:04:05:06:07:08:09:010:011:012:013:014:015:016:017:018:019:020:021:022:023:024:025:026:027:028:029:030:031:032:033:034:035:036:037:038:039:040:041:042:043:044:045:046:047:048:049:050:051:052:053:054:055:056:057:058:059:0可以看到最近60秒的SPU利用率记录。RECPU利用率:root@SDTF01#runshowchassisrouting-enginenode。:RoutingEnginestatus:Slot0:CurrentstateMasterElectionpriorityMaster(default)Temperature39degreesC/102degreesFCPUtemperature33degreesC/91degreesFDRAM2048MBMemoryutilization15percentCPUutilization:User0percentBackground0percentKernel5percentInterrupt4percentIdle91percentModelRE-S-1300SerialIDSerialIDStarttime2013-01-1713:12:24HKTUptime4days,23hours,1Starttime2013-01-1713:12:24HKTUptime4days,23hours,1minute,36secondsLastrebootreason0x2:watchdogLoadaverages:1minute5minute15minute0.170.080.06其中idleCPU空闲资源,其他几项(User,Background,Kernel,Interrupt)相加即为当前RECPU的利用率。1.2故障定位1.2.1FlowCPU如果是SPU利用率较高,可能会影响到会话的建立,导致业务中断。一般来说,SPU升高,原因是有大量新建会话的突发,正常的业务流量和攻击流量(例如病毒产生的flood)都有可能导致大量的新建会话。如果流量命中了ALG、配置不够优化(最常匹配的策略放在最后、过低的会话限制、策略中打开logging或shaping\流量命中了防火墙的screen选项等等也会导致CPU升高。在判断出是SPU较高时,可按如下几个方面进行分析:检查新建会话数执行此可以看到过去96秒的每秒新建会话的数量平均值:{primary:node0}root@SRX3600-1>showsecuritymonitoringfpc7node0:FPC7PIC00%57%CPUutilizationMemoryutilizationCurrentflowsession:0Maxflowsession:524288CurrentCPsession:0MaxCP0%57%SessionCreationPerSecond(forlast96secondsonaverage):0一般来说当前显示的SPU每秒新建数量在30000以上,会导致该SPU在60%以上。按照防火墙的流量、配置方式的不同,SPU负载会有相应的变化。在出现新建会话数大量增加时,请确认是否为正常流量,一般可通过与历史数据进行比对。如果和历史数据相比,有大量的突发,可以认为是有异常流量存在,可在防火墙上进行会话限制(在第3节介绍),同时查找攻击点。•查看日志如果有攻击发生,匹配到防火墙的内置安全策略,在防火墙的日志中可查看到攻击源、攻击方式的相关信息,可助于定位攻击点。showsystemalarmsshowlogmessages查看流量最大的源通过showsecurityflowsession|saveftp://x.x.x.x获取完整session表,然后使用软件分析。同时在防火墙上下级联的交换机上进行镜像抓包,以便于后期模拟流量重放攻击。•查看是否匹配ALGALG用以协商要动态打开的端口,防火墙在处理ALG流量时会耗费大量CPU的资源。如果配置错误,使本无需ALG干预的数据流都进行ALG处理,会导致防火墙CPU急剧升高。通过showsecurityalg/showsecurityflowsessionresource-manager来查看ALG的开关状态以及是否有流量匹配到ALG•查看接口信息查看是否有队列丢包,以确认是否有拥塞发生。SRX>showinterfacesge-3/1/0extensive|findgressQueuecounters:QueuedpacketsTransmittedpacketsDroppedpackets0best-effort0001expedited-fo0002assured-forw0003network-cont000showinterface<phy-interface>extensive•查看配置如果在某条policy中启用了logging、count等功能,在大量流量匹配此policy时,会导致CPU升高。并且,如果大量流量匹配的policy条目放在所有policy的最后,当policy总体条目较多时(5000条policy以上),也会消耗部分CPU的资源。如果在启用了screen、sessionlimit等功能,在设置不当时,会导致流量频繁触发告警,也会导致CPU升高。1.2.2RECPURECPU升高一般是系统有管理行为时出现短暂的升高例如防火墙在收集requestsupportinformation信息时,会有1-2秒瞬间的升高。要查看RECPU升高的原因,可以通过showsystemprocessextension查看。1.3监控管理通过网管软件监控防火墙CPU的利用率:jnxJsSPUMonitoringCPUUsage(..4.1.26..4.x)—最后1分钟CPU利用率(建议每分钟采样)。通过命令的方式监控防火墙SPU的利用率:showsecuritymonitorperformancespu请注意收集平时防火墙的CPU数据基线,以便于平时对比查看是否有CPU负载突发的情况,以便于预警。1.4应急操作如果CPU持续升高,并且影响了业务的正常通信,而在规定时间内无法找到原因(例如找不到突发数据源、因为软硬件故障造成的CPU升高),可在收集完信息后,通过三层交换机替代防火墙,进行防火墙旁路的应急操作。(注意:在外联区与Internet区等需要NAT的地方不能使用此替代方案)收集的信息至少包括如下内容:SRX>requestsupportinformation###输出较多,建议用命令SRX>requestsupportinformation|save/var/tmp/filename将输出保存在本地再用FTP方式获取SRX>showlogmessage###message为默认log文件名SRX>showchassisrouting-engineSRX>showsecuritymonitoringfpc7SRX>showsecuritymonitoringperformancespuSRX>showsecuritymonitoringperformancesessionSRX>showsecurityflowsessionSRX>showsystemprocessesextensiveSRX>showchassisfpcSRX>showinterfacesextensive2并发会话突发升高2.1基础概念Juniper防火墙采用的是状态检测技术,对每一个通过防火墙的连接,都需要建立并维持会话状态信息,对于所有需要经过防火墙的数据包,都必须先经过状态表的检查,如果状态表中无对应条目,再去检查规则(AccessControlPolicy)表,如果在规则表中找到了对应条目,并允许此数据包通过,则防火墙将此数据包转发,并同时在内存中建立起会话条目,因此会话条目的存在是数据报文快速转发的前提。在防火墙上可以通过命令showsecurityflowcp-session来查看已经建立好的会话总数,命令输出如下:root@SDTF01#runshowsecurityflowcp-sessionnode0:—Totalsessions:0可以看到目前并发为0,。当标示的会话总数达到防火墙性能容量后,防火墙将无法再建立新的会话,此时需要新建连接的业务数据就会中断。2.2故障定位在出现防火墙会话总数突发时,一般是两种情况,一种是有大量的新建会话突发,还有一种是会话没有正常关闭。2.2.1检查新建会话异常的流量不一定是攻击流量,网络设备或主机如果设置不当,也可能出现发起大量无用新建连接的故障。在防火墙上执行showsecurityflowcp-session查看新建会话的数量。一般来说占用CPU资源较多的数据源,也是新建会话较大的数据源。所以当发现新建会话较高时,请参照会话表内容及告警日志,找到可能有问题的数据源。可通过命令setsecurityscreenids-option<screen>limit-sessionsource-ip-based<number>setsecurityzonessecurity-zone<zone>screen<screen>进行基于源的会话限制;setsecurityscreenids-option<screen>limit-sessiondestination-ip-based<number>setsecurityzonessecurity-zone<zone>screen<screen>进行基于目标的会话限制。需要注意此命令是基于zone全局生效的,在配置时不要将number设置过小,导致影响正常业务通讯。2.2.2检查会话关闭情况业务在正常关闭时会发送Fin或Rst包,防火墙在收到此类包后会拆除对应的会话。如果防火墙没有收到Fin或Rst包,也没有任何流量(双向)命中已建立会话条目,在达到超时时间后(倒记时方式),该会话将被系统自动清除。如果此间一旦有流量命中已建会话,会话超时值将立即恢复到系统缺省值。缺省的超时时间为:TCP30分钟/UDP1分钟/ICMP1分钟。需要注意的是,Juniper防火墙允许用户自定义服务超时时间,该自定义服务超时时间将优先于协议的超时时间,自定义服务的超时机制与协议超时机制保持一致。如果配置中设定了过长的超时时间,导致防火墙的会话无法及时关闭,万一会话有突发情况,就会出现会话总数到达防火墙上限的情况。2.3监控管理通过网管软件监控防火墙会话的利用率:jnxJsSPUMonitoringCurrentFlowSession(..4.1.26..6.x)通过命令的方式监控防火墙会话的利用率:showsecurityflowcp-session请注意收集平时防火墙的会话数据基线,以便于平时对比查看是否有会话突发的情况,以便于预警。2.4应急操作一般在会话总数升高时,可通过命令clearsecurityflowsession及时关闭无用的会话,此命令可以基于源/目标地址、源/目标端口、IP协议来关闭会话。另外,可以通过命令deletesecurityflowtcp-sessionno-syn-check打开对建立会话的包头syn标志位检测,以避免有攻击流量(例如rstflood)在防火墙上建立无用会话。同时,可通过上节讲解过的命令setsecurityscreenids-option<screen>limit-sessionsource-ip-based<number>setsecurityscreenids-option<screen>limit-sessiondestination-ip-based<number>setsecurityzonessecurity-zone<zone>screen<screen>临时降低每个ip允许的会话,以保证大部分的业务通讯。如果会话持续升高,并且影响了业务的正常通信,而在规定时间内无法找到原因(例如找不到突发数据源、因为软硬件故障造成的会话升高),可在收集完信息后,通过三层交换机替代防火墙,进行防火墙旁路的应急操作。(注意:在外联区与Internet区等需要NAT的地方不能使用此替代方案)收集的信息至少包括如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论