版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
★十
计算机机房应急预案
XXXX单位名称
20XX年XX月
★十
编制人员
编制审核
XXXXXXX
★十
前言
近年来,经常会听到某地机房发生因某种原因导致灾难性的事件;由于处理不及时
或人为因素操作不当,导致严重后果,造成了巨大的经济损失。为了避免类似事情发生,
项目组每年对应急预案进行修订,优化使用流程及操作步骤,保障在突发情况下及时、
有效处理各类应急情况。本应急预案编制依据《单位网络系统运行管理规定》而编写。
根据单位领导提出新的改进建议,应急预案的版本修订相比之前有了较大的改动,
项目组结合机房的实际情况,针对所涉及故障及其处理方法分别进行说明并细化了每一
个处理步骤,增加了非工作时间机房出现突发事件的处理步骤及紧急联系人相关信息,
确保维护人员能够直观、及时、有效地处理突发情况,在维护人员不能第一时间到达现
场,其他人员也能以及有效协助处理突发情况。
项目组每年组织两次的机房应急演练,模拟机房设备故障,维护人员参照应急预案
能够熟练操作并进行突发事件的处理,验证应急预案对于机房的有效性和可用性。
★十
目次
1概述......................................................................1
1.1目的...............................................................1
1.2应急预案存放.......................................................1
1.3编制依据...........................................................1
1.4技术资料...........................................................1
2适用范围及启动条件........................................................1
3应急组织和职责............................................................2
4应急响应流程..............................................................3
4.1应急事件响应.......................................................3
4.2应急事件升级......................................................3
5应急执行流程..............................................................4
5.1影响程度的评估....................................................4
5.2宣告启动应急......................................................4
5.3应急恢复...........................................................5
5.4事后处理...........................................................5
5.5应急注意事项.......................................................5
6应急恢复步骤..............................................................6
6.1强电系统故障.......................................................6
6.2UPS故障...........................................................9
6.3网络系统故障......................................................10
6.4机房漏水..........................................................11
6.5空调故障..........................................................14
6.6机房火灾..........................................................17
附表一交换机信息.....................................................21
附表二自主运维办公交换机信息.........................................22
附表^乂换机吊用命令•••••••••••»•••••••••••••••••••••••••••••••••••23
附表四机房应急预案联系人信息表.......................................23
附表五机房服务器联系人信息表.........................................23
7预案附录.................................................................24
附录一,机房小意图.....................................................24
附录二配电柜操作说明书...............................................24
附录三UPS操作说明...................................................24
附录四空调操作手册...................................................24
附录五设备监控软件使用说明书........................................24
★十
1概述
1.1目的
为了提高单位计算机机房、网络突发事件的应急处理能力,最大程度地预防和减少
突发事件及其造成的损害,保障设备正常运行,制定本预案。本预案参照单位领导的要
求,对机房空调、电力、消防、漏水以及网络系统五种突发情况制定具体的应急工作流
程。
1.2应急预案存放
1)电子版本
本应急预案电子版存放于单位共享服务器及所有项目组成员工作电脑中。
2)纸质版本
本应急预案纸质文档存放于机房缓冲区桌面、运维人员办公室。
1.3编制依据
本应急预案编制依据《单位安全管理规定》编写。
1.4技术资料
序号资料名称存放地点获取方式
1UPS使用手册机房缓冲区桌面进入机房获取
机房专用空调操作维
2机房缓冲区桌面进入机房获取
护指南
3消防使用手册机房缓冲区桌面进入机房获取
2适用范围及启动条件
1)地域范围:
本预案适用于本单位机房及网络运行中发生故障时使用。
2)人员范围:
本预案在执行中涉及的人员包括机房、网络运维人员,相关主管领导,大楼安保
人员以及机房内各应用系统负责人等。
★十
3)启动条件
机房、网络运行中出现的一般性突发事件和重大突发事件。
一般性突发事件:是指机房、网络突发故障,将影响机房提供正常服务及网络服务
的能力且预计修复时间大于30分钟,此时应立即启动应急预案,主要包括:
1)市电中断和UPS故障引起的电力供应中断。
2)机房空调冷凝水或上下水管道漏水。
3)机房温度超过3OC。
4)网络故障影响用户范围超过20%,预计修复时间在2小时以内。
重大突发事件:是指一般性突发事件在特定的时间内无法修复或发生特殊事件时,
严重影响机房提供正常服务及网络服务的能力,并且修复时间大于2小时,此时除了立
即启动应急预案外还应升级为重大事件,其中包括但不限定于以下分类:
1)机房出现火灾。
2)市电中断和UPS故障引起的电力供应中断。
3)机房温度超过40℃。
4)网络故障造成全网中断,预计修复时间超过2小时。
3应急组织和职责
计算机机房应急组名单如下:
表I应急小组名单
部门/岗位职责姓名联系方式
单位领导重大应急决策指挥
部门主任应急决策指挥
应急小组组长负责评估应急事件并协调处理
应急预案操作岗启动应急预案并实施
★十
4应急响应流程
4.1应急事件响应
1、发生突发事件时,通过电话或当面通知应急小组组长报告情况。
2、必要时第一时间启动应急预案。
3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人
员进行应急处理。
4、电话通知机房内生产业务系统管理员做相应的应急措施。
5、应急小组组长根据情况判定是否需要将事件升级为重大事件。
6、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门
主任和单位领导。
4.2应急事件升级
在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:
1、立即通知部门主任。
2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应的
应急措施。
3、根据应急决策领导的决策指令处理故障。
4、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门
主任和单位领导。
★十
5应急执行流程
5.1影响程度的评估
表2影响程度评估表
影响程度及范围
序号故障类型
一般性突发事件重大突发事件
影响程度大,修复时间大于影响程度为重大,修复时间
市电中断和IPS
30分钟,小于2小时的电力2小时以上的电力供应中
1故障引起的电
供应中断,影响范围为机房断,影响范围为机房内所有
力供应中断。
内所有设备及系统。设备及系统。
影响程度一般,机房出现小影响程度重大,机房出现大
摊积水,修复时间大于30面积漏水,或者漏水修复时
2机房漏水分钟,小于2小时的机房漏间2小时以上的机房漏水,
水,影响范围为机房内所有影响范围为机房内所有设
设备及系统。备及系统。
影响程度大,机房温度超过
影响程度重大,机房温度超
30度,修复时间大于30分
过40度,修复时间2小时
3机房温度过高钟,小于2小时的,影响范
以上的空调故障,影响范围
围为机房内所有设备及系
为机房内所有设备及系统。
统。
影响程度大,修复时间大于影响程度重大,修复时间2
30分钟,小于2小时的网络小时以上的网络系统故障,
4网络系统故障系统故障,影响范围为生产影响范围为生产业务系统
业务系统及影响用户范围超及影响用户范围超过20轧
过20%。
影响程度重大,影响范围为
5机房火灾—机房内所有设备、系统及用
户。
5.2宣告启动应急
应急小组组长宣告启动应急预案,并通知应急预案操作岗所有成员参与预案的执
行。重大事件时要向部门主任、单位领导汇报。
★十
5.3应急恢复
突发事件发生后,应急组长根据不同的启动条件执行应急预案进行应急恢复。
表3应急恢复步骤
序号启动条件恢复步骤操作人员备注
应急小组组长、应
1市电中断见步骤6.1
急预案操作人员
应急小组组长、应
2UPS故障见步骤6.2
急预案操作人员
应急小组组长、应
3网络系统故障见步骤6.3
急预案操作人员
应急小组组长、应
4机房漏水见步骤6.4
急预案操作人员
应急小组组长、应
5空调故障见步骤6.5
急预案操作人员
应急小组组长、应
6机房火灾见步骤6.6
急预案操作人员
5.4事后处理
事后仔细分析事件发生的原因,查找引起事件发生的根本原因,力争杜绝类似问题
的再次发生;总结每次应急处理的经验与不足,及时进行总结记录,作为知识储备,进
行共享;重大事件处理完毕时,要向部门主任、单位领导及时汇报整个事件的处理过程,
并提出预防措施建议。
5.5应急注意事项
为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:
■平时多做应急演练,对应急小组的组织和预案执行力进行检验和加强。
■熟读应急预案,责任分工明确,应急流程掌握熟练。
■加强技术能力和业务能力。
■通讯保持畅通,应急小组的人员要保持24小时手机开机。
■处理应急突发事件时要认真做好应急处理记录,有利于进行问题回溯。
★十
6应急恢复步骤
6.1强电系统故障
6.1.1市电中断
1)当发生市电中断或同时收到UPS输入、电量仪、空调及数据库读取异常等告警
短信,立即到机房检查UPS工作状态。非工作时间发生电力中断时,电话联系
保安人员进入机房确认是否停电,同时联系附近的紧急联系人协助处理,并直
接跳到第三步。
紧急联系人
姓名联系电话备注(住所)
2)检查UPS的负载量及电池能够支持的时间:
步骤:双击UPS控制面板“ESC”按键,点击“O”键,找到相关信息,查
看电池负载;在“电池参数显示”处,查看备用时间确认UPS供电剩余时间。(具
体详情可参照附录三:《UPS操作说明》进行操咋。
图IUPS控制面板
3)立即拨打物业电话,询问断电原因及断电预计恢复时间,同时通知应急小组组
长。(如电话无人接听,立即拨打物业人员手机询问具体情况,物业人员详细
联系方式可参照附表三:《联系人信息表》进行查询)
4)当发生单路供电中断时,应立即通知物业切换至另一路供电,观察UPS状态是
否供电正常,等待第一路供电恢复切回。
5)如物业通知无法切换电路且30分钟内无法恢复供电,应立即按照附表五:《机
房服务器联系人信息表》的清单顺序通知各生产业务系统管理员进行系统备份
并关闭系统。同时维护项目组关闭机房内负责的所有设备。
6)向部门主任及单位领导汇报当前情况。
7)确认所有服务器关闭后,直接手动拉下配电柜01后面A4、A5、A6、B2、B5、
C3机柜输出开关,关闭网络设备。
★十
8)当机房温度超过40度时,为确保机房内服务器安全,经单位领导许可,维护
组人员按顺序直段拉下位于配电柜01后面所有机柜输出开关,关闭机房内所
有设备。
图2配电柜01
9)待市电恢夏供电后,打开网络机柜对应的输出开关,启动网络设备。
10)按附表五中的清单分批次对系统服务器加电,通知相关人员进行测试,并要求
相关人员电话回复系统测试结果。
11)如IUPS故障造成的电力供应中断,手动重启UPS,查看UPS故障是否解除并恢
复正常。(在UPS显示屏上点击“开机”,查看UPS是否正常启动)
12)如UPS故障依旧,立即通知各生产业务系统切换备份系统。
13)向部门主任和单位领导汇报当前情况,并联系厂商对UPS进行检修。
14)待所有系统恢复正常后,提交处理报告,上报部门主任和单位领导。
★十
6.1.2市电中断流程图
图3强电系统故障处理流程图
★十
6.2UPS故障
6.2.1UPS电池漏液、冒烟
1)发生机房电池漏液、冒烟或监控组人员发现机房电池柜冒烟,立即到机房查看
电池状态。(电池柜位于储藏室内部)
图4机房电池柜
2)如发现是电池漏液、冒烟导致,应按照下列处理方法操作。并密切观察UPS工
作状态。
3)关闭电池供电时,先将机房手提式干冰灭火将放置电池柜附近。
4)打开两组电池柜,手动关闭电池开关。开关位于电池柜的下方,此时应用力向
左拨动电池开关,直至开关显示“OFF”状态。
图5电池柜的开关位置
5)如电池出现火情,使用事先准备的手提式干冰灭火器进行灭火。
6)确认无火情后,查看UPS状态,供电情况,立即联系厂商工程师进行检修。
注意:关闭电池开关不会影响机房的正常供电。
7)向部门主任做口头汇报,电话上报单位领导。
8)事件处理完毕后,将事故处理报告,单位领导。
6.2.1电池火情无法控制导致机房火灾
1)处理电池漏液、冒烟过程中,无法使用手提灭火器控制火情。
2)打开电池柜,手动关闭电池开关。
3)立即按照机房火灾处理步骤进行操作。(详情见步骤6.6机房火灾进行操作)
4)火灾处理完毕后,消除火灾报警,恢复市电,查看UPS运行状态,如无法恢复
市电,立即通知物业切换备用电路,观察UPS状态是否正常供电。
步骤:打开机房配电柜2,手动用力推上机房电力闸恢复市电供应。
图6机房电力总开关
5)立即联系UPS厂商进行处理并向部门主任做口头汇报,电话上报单位领导。(详
细联系方式可参照附表三:《联系人信息表》进行查询)
6)统计火灾造成损失,提交相关更换UPS电池的申请。
★十
7)事件处理完毕后,将事故处理报告,上报部门主任和单位领导。
6.2.3UPS故障处理流程
图7UPS故障处理流程图
6.3网络系统故障
局部楼层网络中断
1.如果是局部楼层断网,首先判断是否是交换机故障;
2.远程P1NG交换机管理地址(各楼层管理地址详见附表1)看是否可以正常PING
通
3.如果可以PING通,证明交换机本身没有故障,网线没有故障。交由网络管理员
处理。
4.如果不能PING通,说明交换机主线断或交换机宕机,应去弱电机房找到该楼层
交换机上联端口和电源灯状态是否正常,如果上联端口不亮(光纤口),证明主线有问
题,更换主线测试。
5.如果看到交换机口源灯不亮,证明交换机掉电,检查电源和电源线。
6.如果以上通过检行交换机和线路后故障现象仍然存在,由此判断可能交换机存
在异常,按交换机故障进行处理.
★十
交换机故障
1.当确认是交换机出现故障时,应首先从库房中找备用交换机进行更换;
2.若原有故障交换机有配置,应立即联系网络管理员对更换的交换机进行配置
(网管应有所有交换机的配置备份)
3.配置完成后,测试是否正常;
全网中断
1.首先测试网络的连通性,查看是否可以PING通网关地址,如果可以PING通说
明从PC到核心交换机之叵的链路正常,如PING不通应检查接入交换机是否有故障、是
否掉电或者交换机主线是否不通;如果确实不通,按照局部楼层网络中断中的第4条、
第5条处理。
2.通过访问邮件、外网网站,判断是局域网问题还是广域网问题,如果局域网正
常;无法访问互联网说明广域网中断,向运营商进行报修。
3.PING核心交换机到核心路由器的互联IP地址的连通性,如果可以PING通,说
明路由器以下网络连通性正常;
4.用tracert命令tracert办公网网段的任意地址如果tracert结果可以从出去,
但不能到达外部网络,说明有可能是核心路由器上联链路中断,向运营商进行报修。
5.若可以访问办公地址,无法访问互联网网站如:百度、搜狐,需要检查代理服
务器是否正常,PING是否可以连通,向运营商进行报修。
其他网络中断故障
1.当办公网部分用户无法获取IP地址,不能上网的时候,尝试用能上网的主机,
进行IP测试。
2.用PING命令去DHCP服务器是否可以PING通,并通知网络管理员登陆DHCP服
务器进行检查服务是否正常,如果是DHCP服务器故障,应立即切换备用DHCP
3.如果从网管员处确定DHCP服务器没有故障,应PING核心交换机的这个IP地址
看是否有延时长、丢包的现象,如果有应该可以初步判断院内有ARP广播风暴形成环路
或者大面积病毒爆发;再次交由网络管理员处理。
6.4机房漏水
1.根据机房环境监控检测的漏水示意图,查找漏水位置,判断漏水严重性。
★十
2.在非工作时间,通过电话第一时间通知值班室保安,关闭上水总开关。
3.机房漏水并触发告警分为以下3种情况:
1)上水管漏水:使用地吸打开空调前地板,查看上水管漏水位置(1层饮
水间通过走廊从机房6号空调地板下进入机房)。
图8空调上水管道
2)发现漏水位置,应立即关闭位于一楼饮水间顶棚的上水总开关,将水迹擦
干。
3)立即联系机房工程有限公司,处理水管漏水故障。(详细联系方式可参照附
表三:《联系人信息表》进行查询)
4)空调冷凝漏水:分别检查3台空调地板的下水管道是否漏水,空调下水开
关是否打开。(开关逆时针旋转为打开,顺时针旋转为关闭)
图9机房1、2号空调下水管道及开关
图10机房3号空调下水管道及开关
5)如下水开关正常打开,冷凝水无法下水,说明下水管道堵塞。
6)首先关闭机房内空调及空调下水管阀门(下水阀门1-4)
7)分别打开上水阀门1和上水阀门4,进行机房下水反冲。
★十
下水管道
8)空调反冲过程中,密切关注机房温度,确保温度不影响机房内设备的运行。
9)反冲完成后,首先关闭上水阀门,然后打开空调下水阀门并打开空调。
10)如故障依旧,联系厂商进行检修。
11)空调压缩罐瓶体结霜:打开空调前面板,查看压缩罐上是否结霜。(拆卸面
板工具在机房缓冲区的工具箱里)
图12机房1、2号空调压缩罐位置
图13机房3号空调压缩罐位置
12)关闭空调,将压缩罐上的霜及滴下的水灌擦干。
13)尝试重新开启空调,观察空调运行状态。
14)如故障依旧,立即联系厂商进行处理。
4.事件处理完毕后,将事故处理报告,上报部门主任和单位领导。
★十
6.4.3机房漏水处理流程图
查找金水桓宜
上水特漏水到新m水度因空调冷跟南水
是
月下水开
下水营堵塞
压徐耀绪不是否打开
立即美田上水
总升美
否
处理后,尝试出新打开空闫下水甘校步舞进行空间反
开机,故度依旧升美冲
否
故陵是否悭守
*瞰理,上黜根领导*•
是
处理完毕,提文故.
席根告*
图14机房漏水处理流程图
6.5空调故障
6.5.1高压报警
1)收到空调高压告警后,立即进入机房查看空调运行状态。
2)尝试将报警空调进行复位,进行启动恢复。
步骤:1、2号空调点击空调控制面板的“报警复位”按键,3号空调点击面板
上的“消音”按键。
3)若故障依旧,将高压报警空调关闭。
步骤:在空调控制面板点击“关机”按钮,逻辑关闭空调,再将空调左侧物理
开关关闭。
★十
图15空调控制面板
图16空调物理开关
4)检查室外风机过漉网及空调过滤网是否尘土较多。(室外机在机房后面,院食堂
正对面:空调过滤网在空调正上方)
图17空调室外机
图18空调室过滤网
5)若为室外风机过滤网脏,应进行冲洗,若室内机空调过滤网脏,应联系厂商更
换。(详细联系方式可参照附表三:《联系人信息表》进行查询)
6)冲洗室外机,应打开上水阀门2(室内)和阀门6(室外),开始冲洗。冲洗完
毕后,关闭阀门2和阀门6。
图19室内上水开关
★十
图20室外上水开关
图21冲洗室外机
7)重新启动空调,按住空调减压阀释放压力。(减压阀的位置在压缩罐上一个红色
按钮)
图22空调压缩机减压阀
8)若仍然存在高压告警的现象,应联系空调厂商进行处理。(详细联系方式可参照
附表四:《联系人信息表》进行查询)
9)高压故障处理完毕后,将事故处理报告,上报部门主任和单位领导。
6.5.2低压报警
1)收到空调低压告警的短信后,立即进入机房查看空调运行状态。
2)查看控制器面板,确认空调发生低压报警。(见图29)
3)尝试将报警空调的告警进行复位,进行启动恢复;复位报警空调方法见《高压
报警》处理第一步。
4)若故障依旧,关闭低压故障的空调:关闭空调方法见《高压报警》处理第二步。
★十
5)立即通知空调厂商对空调进行检修。
6)低压故障处理完毕后,将事故处理报告,上报部门主任和单位领导。
6.5.3空调故障处理流程图
6.6机房火灾
机房采用自动报警装置,具有感烟和感温功能探测器,并采用自动灭火装置,当机
房内发生火灾时按以下流程进行处理。
如非工作时间内机房发生火灾时,在维护人员无法迅速赶到时,由保卫处保安按照
应急步骤进行火灾处理并及时联系附近的相关同事协助处理。
紧急联系人
姓名联系电话备注(住所)
★十
图24机房防护区指示灯
2)在配电柜01后关闭着火点位置的输出开关,切断着火点供电。
图25配电柜01
3)根据火情情况,使用机房内手提式干冰灭火器进行灭火。(机房各进出门附近安放两
个干冰灭火器;机房物品间处安放两个干冰灭火器)。
★十
图26干冰灭火器
灭火器使用方法(详情见灭火器瓶体):
1、拉出保险销
2、站在上风处,喷口对准火焰基部
3、按下压把即可喷射灭火
图27干冰灭火器使用方法
4)机房消防系统开启气体灭火自动喷洒,在温感(68摄氏度)和烟感同时报警时,会
自动启动。
5)若在气体灭火没有自动喷洒前发现火势较大无法控制时,确保机房内人员撤离,可
手动启动气体机房灭火装置进行灭火。直接按下控制器上的红色按钮,机房内七氟
内烷火火装置将在延迟30秒后进行全淹没式喷射,如按卜位于控制器卜方的红色按
钮,灭火装置将立即喷射。
★十
图28紧急气体灭火按键
6)灭火处理后,确认机房内无火情,按排烟风机绿色按钮,进行排风换气处理气体;
图29排风扇控制器
7)火灾处理完毕后,统讦火灾损失,立即向部门负责人做口头汇报,电话上报单位领
导。
8)事件处理完毕后,将事故处理报告,上报部门主任和单位领导。
★十
6.6.3火灾系统流程图
2E伐火源点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健身服务销售工作总结
- 教育培训机构服务员工作总结
- 2024圆通速递快递服务合同快递网络建设及升级合同3篇
- 化妆品行业安全管理工作总结
- 2024年度房产代理买卖合同(含车位、装修、家具、家电、税费、贷款及保险)3篇
- 体育用品行业业务员工作总结
- 农业行业农业经验分享
- 美容护理技术心得分享
- 语文高考押题专题三:文学常识与名句默写
- 爆破课程设计孔网参数图
- 乔木、灌木种植专项施工方案
- LSI-阵列卡操作手册
- 中职园林专业实训(校编)教案
- 继承法智慧树知到答案章节测试2023年中南财经政法大学
- 基础心电图诊断与应用智慧树知到答案章节测试2023年中山大学
- GB/T 37136-2018电力用户供配电设施运行维护规范
- GB/T 22412-2016普通装饰用铝塑复合板
- GB 7681-2008铡草机安全技术要求
- 新员工入职培训手册PPT
- 医药公司开票业务技巧课件
- 门窗安装施工组织设计方案
评论
0/150
提交评论