机房应急预案合集15篇_第1页
机房应急预案合集15篇_第2页
机房应急预案合集15篇_第3页
机房应急预案合集15篇_第4页
机房应急预案合集15篇_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机房应急预案

机房应急预条合集15篇

在现实的学习、工作、生活中,有时会出现一些意料之外的事件

或事故,为了减小事故造成的危害,通常会被要求事先编制应急预案。

那么优秀的应急预案是什么样的呢?以下是店铺精心整理的机房应急

预案,欢迎大家分享。

机房应急预案1

机房是我单位的重要场所,重要仪器、设备相对集中,一旦发生

事故,会造成严重后果。为此特制定本应急预案。

一、触电

(1)一旦发生触电事故,应迅速安全切断电源,切忌直接接触

触电者。

(2)即刻拨打紧急电话120并通知相关领导,同时开展现场应

急救护。

二、火灾

1、报警程序:

即刻通知领导及相关部门,根据火情大小如需报警立即就近用电

话或手机报告消防中心(电话119)

2、组织实施:

机房管理员一旦发现火情后,应即刻切断电源,并使用灭火器扑

救起火设备。

三、空调漏水

若空调系统出现渗漏水,应立即安排停用故障空调,清除机房积

水,并及时联系设备供应方处理,同时临时用电扇进行降温。

四、设备发生被盗或人为损害事件

(1)发生设备被盗或人为损害设备情况时,使用者或管理者应

立即报告中心负责人,同时保护好现场。

(2)中心负责人接报后,通知保卫处,一同核实审定现场情况,

清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

(3)当事人应当积极配合公安部门进行调查,并将有关情况向

领导汇报。

五、机房停电

(1)接到长时间停电通知后,应及时发布相关信息,部署应对具

体措施。

(2)如遇临时停电,且停电时间在3小时之内,管理员要检查

UPS是否正常工作,以确保机房设备的'正常运行。。

六、网络故障

(1)发生通信线路中断、路由故障、流量异常等故障后,网络管

理员应及时查清通信网络故障位置,隔离故障区域,组织相关技术人

员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网

络,保证正常运转。

(2)事态或后果严重的,应及时报告领导并请求协助解决。

七、不良信息和病毒事件

(1)发现不良信息或网络病毒时,管理员应立即断开网线,终止

不良信息或网络病毒传播,并报告。

(2)中心负责技术人员应采取隔离网络等措施,及时杀毒或清除

不良信息,并追查不良信息来源。

(3)事态或后果严重的,应及时报告相关领导以及相关部门。

八、服务器软件系统故障

(1)发生服务器软件系统故障后,在确认安全的情况下,重新启

动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份

数据恢复;

(2)若重启失败,应立即安排备份服务器启用,并请求技术人员

支援,作好技术处理。

九、注意事项:

第一、机房管理员要加强日常监控,及时处理、消除及上报安全隐

患。

第二、备齐安全相关装备。

第三、及时做好备份。

机房应急预案2

核心机房电力的保障一直是维护体系的头等重要事项,通过实施

应急发电演练,建立了可靠的应急预案机制,最大限度的降低电源中

断对网络传输质量的影响。现分享核心机房电源中断应急预案,希望

分公司尽快建立一套统一指挥、职责明确、反应迅速、处置有力的机

房安全保障机制。

组织架构:

责任领导、工程维护、网络监控、网络运维、质量管理等相关人

员。

机房电源系统说明:

1、机房电力是两路三相四线制供电,进线线缆规格为:

RVV50*4+16*l铜芯护套线。

2、机房电源系统采用三级防雷系统,三级防雷分别位于电源进线

端、UPS输入前端。

3、机房现有两台60KVA-UPS电源,均处于正常运行状态。

4、机房现有设备机柜已编号,均通过UPS电源和市电供电,每

个机柜有独立的20A空气开关。空调、墙壁插座开关、应急灯、照明

等都是单独空开接市电。

5、运行中的UPS电源所带负荷,在逆变运行状态下能正常工作

约4小时(已经过UPS放电测试)。

一、核心机房电源中断预案

1、在接到停电通知的情况下:

1)计划性停电通知要确保综合部、工维机房管理部对口人接到通

知(提前将对口联系人备案在物业处),机房管理员接到计划停电通知后,

升级到调度中心进行信息发送,同步进行邮件通知相应应急小组成员。

并与负责组长及责任领导电话告知,确保已经接收到本次停电的时间

及可能发生的情况。

2)维部进行发电应急预案小组成员通知,提前做好机房发电预案

要求的准备工作,将相应的发电机、连接线、人员安排到位,各司其

职,随时待命现场,做发电准备工作。确保停电时刻的电力安全及机

⑵进行客服调度系统的设备工作运行系统检查,特别语音系统级

坐席电脑,是否有问题,如发现工作系统有异常,及时与运维应急小

组成员沟通,进行检查处理。

⑶实时关注故障工单流程进度登记,配合应急小组进行人员调度

通告。

4)工维部应急工作流程:

⑴机房管理员第一时间往停电现场赶,同时进行电话沟通供电公

司、物业方等,咨询停电原因,是属于计划性还是突发性停电,预计

停电时长,将咨询清楚的结果反馈到应急小组成员中,电话联系物业

沟通好需要发电需求申请。

⑵工维应急小组组长接到时间后第一时间往停电现场赶,同时进

行发电应急小组成员调度,安排第一时间到场工作开展,并升级通报

告知主管领导,对口集团维护中心上报信息。

⑶工维应急小组成员接到停电时间后第一时间往停电现场赶,要

求30分钟内必须到场(住机房附近的人员往现场去,较远同事可以进

行打车往现场去),先行到处同事配合网管、运维同事启动做好应急发

电前的准备:连接线布放、接续、发电机发电前检测油/电/水路检查,

确保正常。确保一切就绪后,确认可以进行发电操作后,按照发电操

作流程进行发电恢复市电。

⑷网管将监控到停电的相应信息及级别同步发送到运营质量管理

部调度岗,由调度岗将相应信息进行工维、运维、网络关联同事进行

信息告知,同时报工维主管领导知悉。

5)应急机房发电操作流程:

⑴机房用电系统包括四方面:空调制冷、主/备UPS主机、照明系

统、客服调度系统。

⑵发电前考虑4方面系统设备用电功率情况,为保障发电机带动

的正常,不能进行同步供电,要区分优先恢复的步骤实施,确认发电

机的工作正常。在发电前将需要供电的〃空调制冷、主/备UPS主机、

照明系统、客服调度系统〃的市电输入主开关关闭。防止同步启动时

发电机的无法供电保证。

⑶启动发电机,检测发电输出电流通断,待发电机运行稳定后。

第一步启动空调制冷系统的市电输入开关,运维应急小组成员重

新启动空调主机(空调因为市电恢复后需要重新启动)观察空调制冷工作

是否正常。

第二步启动主UPS设备的市电输入开关,观察发电机运行稳定情

况,主UPS主机工作稳定情况,网络设备的工作正常与否。

第三步启动客服系统的市电输入开关,包括(客服坐席电脑、UPS

设备、空调制冷等),观察发电机运行稳定情况,设备恢复工作情况。

第四步启动备UPS设备、市电照明的市电输入开关,观察发电机

运行稳定情况,备UPS主机工作稳定情况,网络设备的工作正常与否。

⑷发电机启动1市电输入正常后,网管将降温系统的抽排风设备

关闭,与运维同事进行所有设备的运行进行全面的检查,确保设备已

经是运行正常。

⑸发电机发起市电正常后,工维应急小组安排专人现场值守,及

时关注发电机油量情况,同时与油品供应商确认油品配送要求及时间

要求,并实时与供电部门确认市电恢复时间。

6)停电过程中突发事项预防:

⑴网管在停电时进行机房确认运行中的UPS工作组、设备组工作

状态。主/备UPS工作切换是否正常,在市电中断时UPS是否已经开

始进行供电保护。

⑵值班网管对机房中的所有设备进行全面检查,确保所有的设备

已经是有主备供电,市电中断后UPS已经正常保障设备工作。同E寸对

机房的温度进行观察,温度是否突然升高。

⑶停电后,UPS处于逆变工作状态,当班人员要每隔15分钟观察

一次UPS的蓄电池容量、带负荷情况、机房环境温度,尽量使蓄电池

容量大于60%,带负荷小于85%(因为已经有自购发电机应急,尽快要

求短时间发起电,减少UPS的放电过度)。

⑷发现机房环境温度大于26℃O当以上指标不能保证时,要及时

向机房管理员汇报,同时上报责任领导知悉,网管预案小组成员经过

慎重讨论,适时采取关闭不必要网络的网络设备、加强通风降温等措

施尽量延长关键设备运行时间。

机房应急预案3

沙沟中学实施营养午餐突发断水断电等意外事故处理应急预案水、

电是实施营养午餐改善计划学校食堂正常供餐必备的最基本的条件,

是食品安全工作的重要组成部分,也是保障师生正常生活的重要基础。

断水断电等意外事故在学校时有发生,为进一步加强学校食堂水、电

等设施的管理,保障学校断水断电等意外事故发生时能正常为学生提

供图纸等的营养午餐,维护学校正常的教育教学秩序,特制定本预案

一、组织机构

(-)成立学校突发断水断电等意外事故应急成立领导小组。

组长:王鹏程

副组长:马缸治

马志锐

组员:马强

吕宗仁

王继祖

陆岩

马万喜

各班主任

指挥部的工作职责是:

(1)启动学校断水断电等意外事故处理应急预案。

(2)领导、组织、协调事故应急处理工作。

(3)负责事故处理事项的决策。

(4)负责上报与事故相关的‘重要信息。

(5)审批学校应急处理工作报告。

二、常规管理

(一)、学校组织相关人员定期和吧不定期深入学校对学校可能

断水断电等意外事件的隐患,即使做查漏补缺,做到早发现、早报告、

早治理,不能因为人为因素断水断电而停止正常营养午餐。

(二)、学校要与当地政府、水保站、农电站等相关部门保持联

系,协调学校的用水和用电工作。

(三)、用水紧张或缺水学校,要想办法做好学校用水的储蓄工

作,并邀请相关部门对学校用水质量检测,确保水质量好,无安全隐

患。

(四)、做好学校食堂用电设施的改造工程,指定专人经常对学

校食堂用电设施进行检修,维护。

(五)、对却因客观原因二造成的断水断电等意外事故时应立即

启动该预案。

三、建立报告机制

1、对学校发生临时断水断电等意外事故是学校不能对学生实施午

餐时,学校从业人员向管理人员报告,管理人员向校长报告,校长协

调有关人员检查检修,对于用电设施必须有专业人员进行检修,确保

短时间内供水供电。

2、对学校发生长时断水断电等意外事故时,学校从业人员向管理

人员报告,有管理人员检查检修,同时上报县意外事故应急处理协调

领导小组。

四、事件处理

L各级领导小组负责人接到报告后,及时组织相关人员赶赴学校

开展事故处理工作

2、学校应及时对学生做好解释说明工作,同时采取科学合理的办

法通过各种途径解决学生营养午餐

3、学校迅速与家长取得联系,通过告示等形式给家长做好解释工

作,去的家长的谅解,保证广大师生及家长在事故发生和过程中的知

情权,严防事态扩大给学校教育工作造成不良影响。

4、协调各方面力量做好学校稳定工作,保障学校正常的教育教学

秩序

5、学校要及早购置手摇鼓风机等应急设备,在学校断电时能立即

启用。

6、主动和有关部门联系,及时购买等价等值、卫生、营养、可口

的熟食品,如牛奶、面包等,及时为学生供应午餐。

7、断水断电事故处理结束,要认真总结分析事故发生原因,提出

改进意见,完成处置总结报告,报送县营养办。

五、责任追究

对断水断电突发公共事件的应急处置工作中实行领导责任制和责

任追究。对有突出表现的个人予以鼓励和表彰;对负有直接责任个人

依据有关法规和规定给予行政处分;;对处理不当,贻误时机,造成

恶劣影响的直接责任人,要严肃追究责任。

六、本预案由学校突发断水断电等意外事故一见处理工作领导小

组负责解释。

机房应急预案4

第一条机房内禁止明火禁止吸烟,机房内的所有设备需要定期维

护并做巡检记录、根据机房实际情况进行清扫工作。

第二条机房网络设备维护由网络管理员进行,如发现机器故障应

及时排除故障,在遇到硬件三包范围内的故障时,应及时联系供应公

司上门或将机器送供应公司维修;

第三条酒店员工必须严格遵守有关机房、设备及系统运行管理规

定,不得在机房内从事与系统管理、运行维护、系统安装和调试等无

关的工作;

第四条做好防火、防雨、防湿、防盗工作,注意用电安全;机房

内的环境要每周检查温度、湿度、电力系统、是否满足机房相关的标

准要求。

第五条机房内的交换机和服务器系酒店运营的关键设备,任何人

不得自行配置或更改其系统参数。

第六条要做好机房的安全工作,对服务器的各种帐户、密码严格

保密。

第七条应及时做好数据的备份工作,保证在系统发生故障时,数

据能够快速、安全的恢复。所有备份数据不得更改,并要求做到本地

和异地分别备份保存。

第八条为了确,呆本酒店网络正常运行,每日对机房内的设备进行

巡视,主要着重于服务器及网络设备运行正常与否。

L对机房里的温度进行调节,如室内温度过高,调节空调对机房

进行有效的通风。

2、查看交换机与防火墙及接入设备的工作状态,如发生异常,对

其进行及时有效的维护。

3、监测网络运行状况。

第九条除本酒店网络管理员外,公司其他人员因工作需要进入机

房的,需网络管理员陪同下进入机房。

第十条严禁带外单位人员或无关人员进入机房,确因工作需要,

如:系统故障诊断和处理,设备维修维护、系统或设备安装等进入机

房,必须由网络管理员陪同进入,配合项目的.实施。

第十一条进入机房的设备应在进入机房前拆除外包装,以保证机

房环境的清洁和安

第十二条严禁携带易燃、易爆、易腐蚀等危险性物品进入机房。

第十三条机房内提供的UPS电源只允许为主机、服务器、网络及

存储等核心设备供电,严禁安插其他设备,增加UPS电源供电负荷。

第十四条严禁擅自切断供电系统,确因工作需要断电时,首先应

做好相应准备工作,经部门领导批准,然后给所有部门发放断电或断

网通知,最后方可实施。

第十五条机房内安装用电设备或有用电需求的项目时,必须经过

专业人员或设备提供商的安装工程师进行现场勘查,经确认在满足或

符合要求后工程才能实施。

机房应急预案5

第一条:机房意外停电后,首先确定停电的范围以及受影响的设

备范围。

第二条:确认停电的范围为本公司或本机房,应立即联系工机科

电话汇报。估算电力可能恢复的时间,并通知直接上级。

第三条:如果确认停电的时间在1个小时内,可以在UPS正常供

电的时间内,等到电力恢复。如果不能确认在2个小时内恢复供电,

需及时到达现场。做好各设备的电源停电准备。在UPS供电达1.5个

小时后,严格按操作手册停掉存储和各应用服务器的电源,最后停核

心交换机和路由期。等待电力恢复,电力恢复供电后转第七条执行。

如果确认停电的范围仅在于本机房电源故障,立即汇报给机房电源维

护负责人。

第四条:机房维护负责人将掉电的电源柜总空开和分空开的状态

处于下电状态。并向直接领导汇报,马上联系相关厂家,如有可能请

厂家立即到现场支持。第五条:将掉电的所有的设备电源状态处于下

电状态,以防止电源柜加电对设备的.冲击。

第六条:等各厂家和相关的人员到齐后,商议设备恢复时因注意

的事项,并形成相关文档。

第七条:电力室恢复供电后,先不要急于给电源柜加电,等待

10-20分钟后,再开始给电源柜加电,以防止供电不稳或再次掉电。

第八条:供电正常后,确定设备处于下电状态后,打开电力柜的

总控开。第九条:杈据设备加电顺序,启动分项空开。第十条:设备

加电顺序,网络交换类设备正常后再给磁盘阵列柜加电,存储状态检

查正常后,启动主机(以上各设备务必按操作手册的启动顺序上电)。

第十一条:设备启动正常后,开始启动数据库。第十二条:数据库启

动正常后,开始启动中间件服务器。第十三条:中间件服务器正常后,

启动应用程序。

第十四条:机房设备进行全面点检,确认所有设备运行和服务正

常。

机房应急预案6

机房消防应急预案

为使信息机房发生火灾事故时,当班人员能镇静有序地处置事件,

特制订本预案,请各成员认真学习,熟悉应急处置程序,提高全员的

应急能力,一旦发生突发事件,尽最大努力保证员工人身安全和减少

损失。

起火原因一般有明火管理不慎;电气设备管理、使用不当;纵火

等原因。

预案一:当闻到烧焦气味时

当班人员发现信息机房内有冒烟现象或闻到烧焦气味时,可能是

某处阴燃处于起火阶段或电源超负荷发热引起,容易引发火灾,当班

人员要立即查明原因和地点,针对不同情况,采取迅速将火源扑灭或

关闭电源总开关、隔离火源附近易燃物、关闭窗等措施,消除起火隐

患,防止引了火灾。事后立即向安保部门报告,并做好现场保护工作

和防止起火点复燃,不得随意离开现场和将事故隐瞒不报。预案二:

当班时发现起火或冒出浓烟

由于起火源隐蔽或其他突发原因未能及时发现和消除起火隐患,

酿成明火和冒出浓烟,燃烧面积不大,就是火灾的初起阶段,当班人

员发现起火或冒出浓烟时,切忌惊惶失措,要沉着、果断,会同其他

当班人员分工协作,迅速查明原因组织扑救,当火执已无法控制时处

置办法:

一是指定专人立即拔打〃119〃火警电话报警和向上级保卫部门报

告,并向本部门和周围的'人及群众喊叫报警;二是组织本单位、部门

在场的人员有序地投入扑救工作,充分利用消防栓、灭火器、水桶等

器材灭火,不能消极等待消防队到来,而错过灭火良机,力求将火扑

灭或控制火势蔓延,不能只顾个人安危而逃离火场

三是大声呼喊请求邻近单位及群众的支援。

四是在组织灭火同时,要立即组织人员疏散和转移物品中,特别

昌易燃、易爆物品和易受到火舌威胁的现金、重要凭证要及时转移到

安全地点,并派人员守护,确保安全。

五是灭火后要注意保护现场,维护好秩序,以利于消防部门调查

分析火灾原因。注意事项:

报警人员报警时要向消防部门讲清楚起火地点、单位、起火的种

类和火势大小,报警后即到街道或十字路口迎接、弓I导消防车辆的到

来;扑救人员在消防人员到来后,要立即向消防指挥人员讲清火场内

存放有何种物资和贵重物品,火场内是否有爆炸、剧毒物品,并协助

消防部门维护好现场秩序。自行扑救火灾时要留心观察火势和环境,

防止被火围困、烟气中毒、坠物砸伤等,在确保自身安全的情况下扑

救火灾。

机房应急预案7

中心机房突发事件应急预案

第一条

机房突发事件包括网络设备或服务器故障、自然灾害(水、火、

电等)造成的物理破坏、人为失误造成的安全事件等等。针对突发事

件的预防措施如下:

1.建立安全、可靠、稳定运行的'机房环境,防火、防盗、防雷电、

防水、防静电、防尘;建立备份电源系统;加强所有人员防火、防盗

等基本技能培训。

2.服务器采用可靠、稳定的硬件设备,落实数据备份机制,安装

有效的防病毒软件,及时更新升级扫描引擎;加强对局域网内所有用

户和信息系统管理员的安全技术培训I。

第二条

机房漏水应急预案如下:

1.发生机房漏水时,第一目击者应立即通知机房管理人员。

2.若空调系统出现渗漏水,机房管理人员应立即安排停用故障空

调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,

必要情况下可临时用电扇对服务器进行降温。3.若为墙体或窗户渗漏

水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知

办公室,及时清除积水,维修墙体或窗户,消除渗漏水隐患。

第三条

机房火灾应急预案如下:

1.完善机房环境,确保机房具备二氧化碳灭火器;禁止携带易燃

易爆物品进入机房。2.机房管理人员应熟悉机房内部消防安全操作和

规则,了解消防设备操作原理,掌握消防应急处理步骤、措施和要领,

懂得灭火的方法,会扑救初起火灾,并定期组织灭火演习。3.一旦发

生火灾,迅速切断机房电源,避免灾情的扩散,并迅速拨打物业管理

和119火警电话。

4.等待消防车到来期间,应组织物业保安或工作人员在保证安全

的前提下灭火,应急领导小组应在第一时间内集中所有二氧化碳灭火

器,抓住时机,尽可能的把火扑灭。

5.配合消防部门调查事故原因,对造成的损失和起火原因做好记

录,以便进行灾后总结。

第四条

雷击事故应急预案如下:

1.遇雷暴天气,机房管理人员在下班后应及时关闭所有服务器,

切断电源,暂停内部计算机网络工作。

2.雷暴天气结束后,机房管理人员应及时开通服务器,恢复内部

计算机网络工作,对设备和数据进行检查。出现故障的,事发部门应

将故障情况及时报告机房管理人员。

3.因雷击造成损失的,机房管理人员应会同相关部门进行核实、

报损,并在调查工作结束后一日内书面报告领导。

第五条

设备防盗被盗或人为损害应急预案如下:

1.机房管理人员每日查看、清点设备并锁好机房大门。

2.机房管理人员每日检查录像监控服务器状态,确保监控画面正

常,并检查每日录像正常性、完整性。

3.发生设备被盗或人为损害设备情况时,使用者或管理者应立即

报告相关负责人,同时保护好现场。

4.机房维护人员接报后,通知保安及公安部门,一同核实审定现

场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和

文字记录。

5.事发单位和当事人应积极配合公安部门进行调查,并将有关情

况向机房管理人员汇报。

弟八条

机房停电应急预案如下:

1.接到停电通知后,机房管理人员应及时通过办公系统、电话等

发布相关信息,部署应对具体措施,要求用户在停电前停止业务、保

存数据。

2.机房管理人员每日检查UPS电源的状态,确保在突发停电E寸,

UPS电源能自动供应服务器正常工作半个小时,保证员工工作的数据

及时保存。

第七条

通信网络故障应急预案如下:

1.发生通信线路中断、流量异常等故障后,员工应及时通知机房

管理人员。

2.机房管理人员在接到报告后,迅速组织相关技术人员检测故障

区域,并作相关故障处理,必要时通知通信网络运营商查清原因;逐

步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

3.应急处理结束后,机房管理人员应在一日之内提交故障分析报

告,以便备案。

第八条

服务器故障应急预案如下:

1.机房管理人员每日检查服务器状态,检查邮箱服务器状态,确

保系统运行的完善。

2.机房管理人员定期备份服务器数据,并将备份资料刻录成光盘

或拷贝到移动硬盘。

第九条

1.发牛机房突发事件后,机房管理人员应采取有效措施开展先期

处置,恢复信息网络正常状态。应急处置工作结束后,机房管理人员

对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重

建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和

技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改

存在隐患,组织恢复正常工作秩序。

机房应急预案8

1.主楣口运维管理制度简介

超级计算机是功能最强、运算速度最快、存储容量最大的一类计

算机。目前只有少数国家掌握研发技术,系统造价非常昂贵,多用于

国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的

重要标志。上海超级计算中心作为上海信息港主体工程之一,国家和

上海市政府投资先后引进神威-1超级计算机、神威-64P集群计算机、

曙光4000A超级计算机系统并投入商业化运行。

上海超级计算中心自20xx年正式开通至今,

这些高性能计算机系统已安全、稳定运行七年多时间,上机用户

取得了丰硕的科研成果和社会效益。在这七年中,为保障这些高性能

计算机系统安全、稳定、不间断地运行,技术支持部在中心引进第一

台高性能计算机--神威-I超级计算机系统的同时,建立了机房应急预案、

运行1己录、设备运行参数等基础运维制度,在二期引进曙光4000A超

级计算机系统过程中,不断完善原有运维制度,并针对该主机系统特

点编写了大量操作方法和应急预案。

中心自20xx年获得IS027001(BS7799)信息安全认证以来,

技术支持部根据其要求规范了文档体系建设,形成了机房管理制度、

应急预案、操作方法、运行情况记录的四大类运维文档。

正是这些运维管理制度的不断完善和有效执行,才确保了资产价

值高、服务对象广、社会影响大的中心主机系统安全、稳定运行,保

障重点项目、用户服务的连续性。

2.应急预案重要性

上海超级计算中心机房运维管理文档划分为机房管理制度、应急

预案、操作方法、运行记录共四大类。

应急预案在应急系统中起着关键作用,它明确了在突发紧急情况

发生之前、发生过程中以及刚刚结束之后,谁负责做什么、何时做,

以及相应的策略和资源准备等。它是针对可能发生的重大事故,按照

其影响和后果严重程度,在应急准备、响应、操作各个方面预先做出

的详细安排,是开展及时、有序和有效事故应急工作的行动指南。因

此,应急预案在这四类运维管理文档中处于最为重要的地位。

3.应急预案分类

应急预案按重要性和事件种类,可以划分为消

防预案、断电预案、空调预案、其他预案共4种,预案各文档之

间彼此独立又互为关联,具有非常强的可操作性。制定预案的指导原

则是尽一切可能,最大限度地确保向用户提供的服务不中断。在紧急

事件发生的情况下,保证核心设备连续运行,避免存储数据丢失。在

事件处置完成后,能快速恢复高性能计算服务。

3.1消防预案

消防预案是主机房最重要的应急预案。该类预案根据《上海超级

计算中心灭火和应急疏散预案》的原则并结合主机房主机设备和消防

设备的运行特性而制定。主要由《主机房消防应急预案》和《主机房

气体喷淋消防系统启动撤离及处置应急预案》2个文档组成。

消防应急预案:该预案着重规范了火警事件发生后,所有主机维

护人员如何根据所属区域和现场情况,判断和选择正确的处理方法,

同时配合中心物业人员处置,降低事件带来的影响。

对于设备发生烟雾,主机维护人员协同物业人员寻找烟雾点予以

切断相关区域电源;当设备发生可以控制火情,协同物业人员灭火;

当主机房发生火灾而无法控制,应采取施救方法等措施。

气体喷淋预案:该预案描述主机房气体喷淋系统启

动的响应和确认并具体规定了撤离机房路线、善后处置。

这两个预案中,消防应急预案作为消防预案

的主体,涉及到如何处理与消防有关情况的各个方面。气体喷淋

预案是主机房发生重大火灾时应对的最终灭火手段和人员撤离引导方

法。

3.2断电预案

断电预案的重要性仅次于消防预案。该类预

案根据中心供配电系统实际情况和各种断电影响范围下对主机运

行的最小保障要求而制定的。主要由

《主机房断电应急预案》、《曙光4000A超级计算机系统紧急关

机操作方法》、《曙光4000A超级计算机系统双路断电关机操作方法》

等多个文档组成。

主机房断电应急预案:该预案用于断电情况

下,主机维护人员如何与中心物业部门联系控制主机房供电情况,

并且负责对主机系统运行受断电影响程度做出正确判断。指导维护人

员按影响程度,分别选用预案中对应的操作方法。本预案在所有断电

预案中起指导思想作用。紧急关机操作方法:该预案制定了主机系统

在紧急情况下,最快速度关机的操作步骤。主要用于发生烟雾、明火

或消防、断电预案需在数分钟内关机断电的事件。

双路断电关机操作方法:该紧急操作预案主要用于在外界双路供

电全部中断情况下的操作。

该预案的关机原则是:根据实际电力供应考虑操作步骤,宁慢勿

快,在时间允许的情况下,最大程度保证存储节点、SAN和SCSI存储

设备、工程用户的计算节点的运行,尽可能减少关闭范围,以确保能

在恢复供电的情况下,主机尽快恢复正常运行状态,减少影响范围。

3.3空调预案

超级计算机系统在运行中消耗大量电能,在

提供高性能的计算能力同时产生大量的热量,必须采用专用空调

系统,以保持主机系统适当的温、湿度、空气洁净度等运行环境需求。

因此,专用空调系统与主机系统密切相关,空调预案是主机房必备的

应急预案。

制定该预案的原因在于,断电情况下,空调与主机系统存在互相

牵制的现状。主机和空调系统均为外界双路供电,主机系统配有UPS

不间断电源系统,而空调系统无UPS支持。在双路停电情况下,主机

系统可获得UPS电池组支持运行若干分钟,空调系统无UPS支持只能

停机。由于在无空调冷却情况下,主机系统会在短时间内积聚大量热

量导致超过运行警戒温度,主机系统在有可供电余量的情况下,仍将

被迫关机。因此,确保空调中断情况下的主机运行环境是该预案的制

定原则。

预案根据各台主机配备的空调系统特点制定,由《曙光机房空调

系统故障应急预案》和《神威机房空调系统应急预案》2个文档组成,

这里仅介绍曙光机房空调系统应急预案。

该预案的第一步:考虑增强主机系统散热效

果,采用打开主机机柜前后门,和机房周边木门,在通风道上布

置有UPS支持的应急风扇,形成空气对流,带走热空气,从而增强主

机系统散热效果,降低升温速度。

该预案的第二步:在采取上述措施并持续升温到一定温度之上的

情况下,考虑紧急关闭部分或全部计算节点,减少热量生成,确保主

机系统的核心存储和网络系统不受影响,确保空调系统修复后,主机

系统能快速恢复运行。

3.4其他预案

除了固定的三类预案之外,技术支持部还根据主机系统实际运行

中出现的各种意外情况,随时制定具有针对性的预案。

如《大楼顶棚坍塌应急操作方法》的制定,就

是由于20xx年1月连续发生雨雪等灾害性天气,中心大楼顶棚大

量积雪且难融化,物业预计存在情况继续恶化,有发生顶棚坍塌事故

的可能,一旦发生将影响一楼主机运行。

针对该突发的隐患,中心技术支持部制定应急操作方法,对维护

巡查频度范围、漏水可能发生位置、如何处理受漏水影响的主机设备

等操作步骤进行严格界定。即使在最后,中心大楼顶棚经受住灾害性

天气的考验,该预案并未发挥作用,这正体现了应急预案的备而不用

的特点。而且通过各种意外

情况的迅速分析、应对和实践操练,不断锻炼主机维护队伍,使

之走向成熟。

4.在实际案例中,应急预案的作用

在主机系统年复一年的运行中,我们希望这些设备正常稳定运行,

应急预案永远不会被使用,然而在实际运行中,总免不了因突发事件

执行应急预案。

而每次突发事件是检验应急预案制定是否科学、有效的最好证明。

4.1双路断电,UPS正常运行案例

20xx年8月某天,因打雷导致供电一路跳闸自动换至另一路供电,

曙光机房2台空调掉电。

主机维护人员立即按应急预案操作,电话通知物业人员恢复空调

运行,恢复过程中所有空调相继出现高温报警,机柜液晶屏平均温度

35度,开启全部曙光机柜前后门,打开神威-曙光玻璃门并调集应急电

扇,于12:45恢复正常。

12:50再次出现双路供电中断,曙光空调因无

UPS支撑全部断电,启动断电应急预案,开启

5、6号木门,开启神威机房全部空调,布置电扇,将冷气导入曙

光机房,热量从6号木门的外部通道排出,选择性杀除部分作业,至

13:05供电恢复,曙光空调开始工作,13:20环境恢复正常。全机在此

过程中,正常运行未停机,只损失了部分不重要的作业。

4.2单路断电,UPS失效案例

20xx年8月某天,因低压配电柜开关至UPS房间x-JM柜电缆发

生相对地短路,造成UPS机组逆变器自身保护动作,关闭UPS机组,

导致曙光主机系统失电。

全机掉电后,主机维护人员迅速按应急预案

手工关闭所有电源开关。10:30恢复供电,温湿度恢复正常后,

全机加电,恢复过程中修复

storageOO

1、00

5、010三个盘阵的9个用户文件系统,修复15个节点加电故障,

除cnodeOO

9、anode029电源

环境模块故障,于当日15:10全机系统恢复正常。

由于处置及时,主机受影响范围很小,在恢复供电后数小时即成

功开启全系统。

5.随时保持应急预案的适用性

主机长年累月的运行,故障和问题的发生,往往是必然的,也是

客观、无法回避的。因此,要求在维护工作中,预先考虑到可能的问

题和故障,制定完善的应急预案。应急预案不可能包含所有的故障和

问题,但应根据维护经验,尽可能地设想各种危机情况下的处置措施。

做到预想到各种可能的问题。

而在形成应急预案后,更重要的是持续地在

运行中加以完善、测试和演练,尽可能模拟实际情况,做到即使

只有1名维护人员在场,也能在真正发生危机时,以最短时间独立处

置故障。

以目前中心的主机运维工作为例,三年内,仅断电预案就已根据

实际运行情况的变化,制定并更新了5~6个版本,针对夏季突发断电

也有专用预案。这样的措施,直接保障了20xx年8月突发断电事件中

的主机连续运行。而20xx年8月的突发断电事件中,由于预案在之前

刚根据实际情况进行过演练和修改,主机维护人员仅用半小时就完成

所有应急操作动作,整机仅有个别设备故障,确保了主机设备未因突

发断电而发生大范围损坏现象,恢复供电后直接完成开机。

实践证明,完善而适用的应急预案能保障向用户提供稳定的高性

能计算服务。

6.结束语

完备而适用的应急预案能有效降低主机系统因意外事件发生带来

的运行风险,对可能发生的意外来说,是一种事前防范措施。但对整

个主机系统产品而言,是一种事后防范措施。如果主机系统生产厂商

能把这些防范措施纳入整个系统设计过程中,使操作方法更加简便、

更趋于人性化,这将帮助主机维护人员更为妥善处理意外事件,用户

得到更为稳定的高性能计算服务。我们相信未来国产的高性能计算机

能做到这一点,期待着这一天早日到来。

(为帮助了解,特在附录中节选部分双路断电关机预案内容)

附录:《曙光4000A超级计算机系统双路断电关机操作方法》

(省略具体操作步骤)

曙光4000A超级计算机系统双路断电关机操作方法

注意:

1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括

单线断电切换失败)。

2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》

的附件。

1.断电确认及操作:

主机房内一旦发现断电,并接物业明确通知为双路断电,首先执

行如下操作(即确保节点温度):

1-1打开机房门便于散热,

1.2机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇

布置.・;冬季:应急风扇布置一使曙光

机房的温度尽量降低。

1.3打开所有机柜前、后门。

1.4密切注意机房节点平均温度(专指各机柜液晶面板所示之环境

温度值)。

2.紧急关机条件确认:

在完成上述操作后,密切观察主机房环境。一旦有如下任何一个

条件满足:

2.1自断电发生起,已达到xx分钟仍未恢复供电;

2.2采取上述紧急通风措施,节点温度持续上升,超过xx℃;

可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。

3.紧急关机操作步骤:

注意事项:

3.1..

3.2关机操作的全过程中,注意随时保持和物业的通讯联系。除根

据情况随时联络外,应严格保证每xx分钟与物

业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手

机、对讲机等)

3.3应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿

快,在时间允许的情况下,最大程度保证x排节

点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范

围,以确保恢复。

第一级操作:(首先执行)关闭主机系统外围设备..

第二级操作:(完成上述操作后,当再次发现UPS电池低于xx分

钟或节点平均温度超过xx<,任一条件满足,执行如下操作)

关闭非重要用户计算节点(ABC组)..

第三级操作:(完成上述操作后,当再次发现UPS电池低于xx分

钟或节点平均温度超过xxC,任一条件满足,执行如下操作)

关闭所有用户计算节点(D组)..

第四级操作:(完成上述操作后,当再次发现UPS电池低于XX分

钟或节点平均温度超过xx(,任一条件满足,执行如下操作)

关闭SAN存储设备和LSF数据库服务器..

第五级操作:(完成上述操作后,当再次发现UPS电池低于xx分

钟或节点平均温度超过xx(,任一条件满足,完成关机操作)

关闭SCSI磁盘阵列和所有存储节点..

特别关注:

1.如时间非常紧急,UPS电池低于xx分钟:

直接执行关机脚本:

此脚本可分别将计算节点、接入节点、存储节点进行关闭。

2.如时间极其紧急,UPS电池低于xx分钟,可按《曙光-4000A

超级计算机系统紧急关机操作方法》,直接拉闸操作。

(上述二个方法仅用于突发情况,非极其必要情况下严禁使用,

应使用前列方法操作)

3.如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关

闭所涉范围所有设备电闸开关。..

机房应急预案9

为了应对各种突发和紧急事件,特制订以下方案。

一、突发和紧急事件指自然因素或其它原因引起(或可能引起)

基站财产安全或较多基站中断的所有事件。

二、启动基站维护(紧急)组织实施方案的范围:梅雨季节地势

低洼基站的防汛;雷电高峰期基站的动力抢修或抢险;大雪(暴雪)

基站房屋及铁塔的维护及应急抢修工作;台风、地震前中后基站及铁

塔的维护;传输或MSC(BSC)故障造成基站大面积故障,故障恢复

后基站网络的测试。

三、启动基站维护(紧急)组织实施方案的条件:天气和各种地

质灾害预报或由此可造成(或正在造成)基站的财产安全和网络稳定

运行,网管统计发现大面积网络故障时必须立即启动基站维护(紧急)

组织实施方案。

四、对于由自然因素可能引起的基站及分布系统站点的财产安全

和网络稳定运行,得知地质或天气预报后,立即组织各代维项目部区

和相关工程施工单位对所在地的站点进行预防性巡检,对于各种隐患

要求各项目部现场及时上报给我公司灾害预防和处理应急领导小组和

各地移动公司应急领导小组。

五、我公司应急领导小组成员和各代维项目部所有维护人员在重

大灾害预防和抢险过程中的的移动电话必须24小时开机,必须无条件

服从公司应急领导小组和代维项目经理统一安排,若某项目出现人员

不足的情况下,公司临时从总部或异地抽调人员和车辆参加抢险;凡

当地移动公司所辖站点不是我公司维的护站点出现重大险情后,我公

司抗灾任务又不重时,各项目部要主动向移动请缨。

六、公司在每一次抗灾救险活动结束后

公司应急领导小组应对本次活动的.成功经验和教训进行总结,对

表现优秀的团队或个人进行表彰,表现较差的团队或个人进行处罚

七、重大灾害预防和抢险的人员组织机构:

领导小组由总经理,副总经理,各部门经理及地区经理组成,总

经理为总指挥,各代维项目部也应成立相应成立相应的抗灾救险领导

小组。

八、抗灾救险人员安排:

公司总部和各代维项目部应包括以下小组

L通信保障组:在发生险情时提供移动通信应急保障,负责实施

应急通信的详细方案、应急中所需的备品、备件、测试仪表、工具、

技术资料的保管及预防性维护保障工作。

2、物资调拨组:负责所有应急物资日常保管、定期检查、更新以

及应急时的调拨和运送。

3、抢险救灾组:负责应急时的抢修和救灾方案的实施

九、值班制度

L各代维项目部在启动抗灾救险预案后应实行24小时值班制度,

设立固定值班地点和24小时值班热线。

2、全体应急人员保持24小时开机。

3、在接到上级关于进入应急状态的通知后,即由领导小组成员组

成指挥中心。

十、体保障措施细则:

1、根据每年的雨情在进入梅雨季节后将基站及分布系统代维的工

作重点转为重点机房、基站等重点防汛场所的巡视,故障处理。在遇

到突发或紧急时间期间,加强对重点基站、低洼基站及传输机房的巡

视,确保环境监控系统工作正常。重点基站及传输机房一周一次,低

洼基站二周一次。台风期间每天对拉线塔进行巡检,并填写基站巡检

表。

2、重点保障地点预置好防汛抢险物资。并给各维护小组配备部分

随车抢险物资。如编织袋、铁锹、雨衣、雨靴、防火泥、防火包、手

电等。对抽水泵,移动油机进行保养,确保其工作正常。对应急灯、

应急手机定期充电。

3、出现连续暴雨或台风情况时,维护人员每天对重点站点及所有

拉线塔进行巡视,填写基站巡检表。发现紧急情况立即通知我公司地

区经理和移动代维管理人员,由代维管理人员上报移动部门领导,并

赶赴现场确认,视情况确定是否安排专人(人员由综合部安排)进行

24小时值守。

4、网管值班人员对环境监控设备出现的告警密切观察并记录,若

确有异常情况发生,立即通知我代维人员赶赴现场检查。并追踪代维

人员的处理情况和反馈结果,若发现代维人员未及时处理,我网管值

班人员应立即向我公司和移动公司汇报。

5、进入汛期后由各项目部负责每天了解所在区域的水位情况,并

通知网管值班人员,由网管值班人员通知我代维人员及移动代维管理

人员,根据水位情况合理调度巡视队伍与车辆。

6、收到台风警报后,各项部项目经理立即组织代维人员对全区拉

线塔进行巡检,发现异常发现紧急情况立即通知移动代维管理人员和

我公司应急领导小组,视情况确定应急措施。

7、收到大雪或暴雪预报,组织维护人员对所辖基站中拉线塔基站、

彩钢瓦基站进行重点巡检,当得到网管或其他人员通知所辖基站中有

拉线塔基站、彩钢瓦基站出现故障或非正常情况,立即派抢修人员奔

赴现场,并逐级上报。

机房应急预案10

为建立有效防范和处理火灾事故的工作机制,防范消防安全事故

的发生,力保消防安全事故发生时能够快速、高效、合理有序地处置,

特制定本预案。一.机房火灾隐患分析由于机房内电气设备多,线路复

杂,大部分的火灾都是电气火灾,引发电气火灾的主要因素有:

1.电气线路短路、过载、接地电阻过大等引发火灾。2.由于机房

内的电脑、空调、UPS等设备长时间不间断运行或设备故障引发火灾。

3.静电产生火灾。4.雷电等强电入侵引发火灾。二.处置程序1.发现火

情后,迅速切断电源,利用就近灭火器进行灭火,并按照特级事故通

报机制进行通报,向领导汇报火灾具体情况。

2.迅速组织相关人员携带消防器具赶赴现场灭火,并听从现场指

挥人员指挥。

3.如火情较为严重,应立即与大厦消防中控取得联系,并与之协

商处理办法措施,必要时需要专业消防灭火的,迅速拨打119。4.迅

速组织相关人员对重要数据设备进行转移,尽可能保证关键设备安全,

引导人员进行疏散。三.扑救方法1.电源或线路起火应首先切断电源,

绝不能用水扑救。2.扑救机房设备时,最好使用气体(如CO2)灭火器,

干粉,泡沫灭火器会对设备造成腐蚀,使损失增大。四注意事项

1.一旦机房发生火灾,应遵循以下原则:首先保证人员安全;其

次保证关键设备安全;再保证一般设备安全。2.火灾发生时,第一发

现人查明起火原因,如因电源引起,应首先切断电源。

3.火灾发生后应遵循边救火,边报警的原则。五.预防措施

L设备整改:机房现有的电气设备和消防设备均有存在不合理之

处,需要整改,消除隐患。现有的配电开关为墙上的半埋式家用配电

开关,应更换为专业的独立空气配电箱,修改配电柜各类闸刀和开关

的布局,使其具备独立切换的功能。现有的.灭火器为干粉灭火器,且

维护也已过期,干粉灭火器虽然可以有效灭火,但是会对设备造成腐

蚀,损坏设备,应更换为气体灭火器。

2.每天定时对机房重要电气设备和电子设备的温度进行了监控,

能够及时地发现并消除隐患。3.应组织相关人员进行消防安全教育,

学习消防知识,学会正确使用各种灭火器,有计划的进行相关的消防

演习。

机房应急预案11

机房消防安全工作极为重要,一旦发生火灾,将直接影响大厦内

设备正常运行,并对人身安全和经济财产造成巨大的损失。为防范消

防安全事故发生,保证消防安全事故发生时能够快速、高效、合理有

序地处置,特制定本预案。

一、电气火灾的主要因素

1、电气线路短路、过载、接地电阻过大等引发火灾。

2、由于机房内设备长时间不间断运行或设备故障引发火灾。

3、静电产生火灾。

4、雷电等强电入侵引发火灾。

二、处置程序

1、发现火情后,迅速切断电源,利用就近灭火器进行灭火,并按

照特级事故通报机制进行通报,向领导汇报火灾具体情况。

2、迅速组织相关人员携带消防器具赶赴现场灭火,并听从现场指

挥人员指挥。

3、如火情较为严重,应立即与大厦消防中控取得联系,并与之协

商处理办法措施,必要时需要专业消防灭火的,迅速请示领导拨打

119。

三、注意事项

1、一旦机房发生火灾,应遵循以下原则:首先保证人员安全;其

次保证关键设备安全;再保证一般设备安全;救火过程中应边救火,

边报警。

2、火灾发生时,第一发现人查明起火原因,如因电源引起,应首

先切断电源。

四、预防措施

1、对机房内电气设备定期检查。发现存在问题的设备及时维修,

消除安全隐患。

2、每天定时对机房重要电气设备和电子设备的温度进行了监控,

能够及时地发现并消除隐患。

3、应组织相关人员进行消防安全教育,学习消防知识,学会正确

使用各种灭火器,有计划的'进行相关的消防演习。

机房应急预案12

第一节总则

1、保证人员和财产的安全为前提的原则:在由于火灾或电力问题

造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的

安全为前提,然后进行故障的解决。

2、最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业

务的原则来处理故障,如在有备用设备的情况下,主设备产生了故障,

应先尽快将应用切换到备用机上,使业务能够运行,再对故障设备进

彳形断和维修。

3、故障应急人员高度负责的原则:当故障应急人员在节假日接到

故障通知时,本着高度负责的态度,应迅速接手处理障碍,如远程无

法处理解决,应迅速赶到故障设备所在地,进行现场处理,处理故障

的同时应及时向领导汇报。应急人员不可互相推卸责任,如因特殊情

况,确实无法处理障碍,部门领导必须安排好其他人员处理。

4、尽可能全面的保留故障现场的原则:当故障发生后,应急人员

应尽可能全面的备份出能够反映故障现象的各种日志、记录、受损文

件等,便于业务恢复后,对故障的分析、解决,杜绝故障的再次发生。

应急方案的目标:保证预付卡运营系统连续安全稳定地运行。

第二节应急领导小组

应急领导小组成员:

组长:副组长:成员:

第三节电源系统故障应急处理

定期检查信息中心机房电源设备的运行状况,当发生下列突发事

件时,按以下方案进行处置:

当中心机房发生市电供电突然停电或远程报警电源异常时。首先

确认是否为正常停电及预计停电时间。检查不间断电源的电池可供电

时间,需在不间断电源供电时效内关闭所有服务器及网络设备。

联系工程部查看停电原因,尽快恢复供电,并将情况报告相关领

工程部联系电话:

第四节空调系统故障应急处理

定期对空调的运行情况进行检查,如有报警信息,应及时查找故

障原因,对于不能自行排除的问题,应及时与设备提供商进行联系。

当中心机房主空调因故障无法制冷,致使机房内环境温度超过摄

氏40度时,打开机房房门,并关闭所有服务器及网络设备。对于无法

自行处置的'空调系统异常情况,及时与设备提供商联系,并报告公司

领导。空调问题联系人:

第五节中心机房自动消防系统应急处理当中心机房发生火警时,

按以下方案进行处置:

1.上班工作时间发生火警,听到自动消防系统发出的声光报警后,

中心机房附近办公室人员应及时紧急撤离,避免气体自动消防系统启

动后,消防气体对附近人员造成人身伤害。确认火警后,立刻拨打

119报警,并说明尽量使用气体灭火器进行灭火,减少电子设备的损

坏。

2.发生火警后,信息中心相关人员应马上赶赴现场,并向有关领

导报告事故情况。同时立即联系联通等相关公司,及时评估事故损失

情况,研讨尽快恢复信息系统正常运行的最佳方案。安保消防中控电

话:

第六节设备、网络系统故障应急处理

设备、网络应用系统故障应由发现人通知技术部,技术部门立即

检查故障,进行初步故障定位,解决;

1.网络设备、服务器、储存设备均有备份,当设备存在硬件问题

时,可随时把业务切换到备份主机上,保证业务正常运行;2.应用系

统每更新一次则做一次远程备份,在远程主机上分别备份旧的应用系

统和更新后的应用系统,以当天的更新日期命名;3.对磁盘柜上的数

据库文件有定时任务,每天凌晨4:00会把数据库里的数据文件倒出

到远程备份主机上,以确保磁盘柜出现硬件故障的时候,数据文件不

丢失;对于网络、应用系统出现硬件方面的故障,比较严重的问题,

对业务的正常运行造成较大的影响,立即向有关领导报告。

4、网络中有监控服务器,运用CactivlO最新的版本,监控网络

所有设备(路由器,防火墙,交换机以及服务器设备);对设备本身

的硬件检测、外部入侵检测、外部攻击等多种对系统不利因素以发送

mail的形式报警;相关人员收到报警信息,分析收到的log日志以做

出相应的处理。

5、每周周五对网络设备进行日志及配置文件采集,对数据库数据

文件定期下载,和远程备份;在本地电脑上保存最近的配置文件,以

便在发生毁灭性的灾难时,用来重组。

对简单故障,运维人员应迅速排除故暄,解决问题并记录。如果

需要更换设备,应上报有关领导,经批准后马上更换故障设备,尽快

恢复网络、应用系统运行。运维部门判断无法及时修理时,应立即通

知相关的系统运行服务提供商,在最短的时间内安排修理或更换系统。

如发现属外部线路的问题,应与线路服务提供商联系,敦促对方

尽快恢复故障线路。

启用备份线路、设备、系统,迅速恢复相关的应用。

联通联系电话:

第七节黑客入侵的应急处理

发现网络上有黑客攻击行为,任何人员都有义务向技术部门报告。

技术部立即启动应急响应,切断受攻击计算机与网络的连接,停止一

切操作、保护现场,并上报有关领导。

对于黑客攻击,由计算中心组织应急响应专家小组查找入侵踪迹,

分析入侵方式和原因。由安全管理员根据对入侵事件的分析,组织相

关人员对内部网计算机整改,防止黑客用同样的手段再次入侵其他系

统。安全管理员检查确定无安全隐患后,才可将受攻击计算机重新连

接网络,或启用备份计算机来恢复应用。

安全管理员应做好记录,保护现场,进行日志收集等工作。如果

能追查到攻击者的相关信息,可以对其发出警告,必要时可以采取进

一步的行动,乃至采取法律手段。根据破坏程度,经有关领导同意后,

上报公安部门。

若系统已被黑客破坏,无法恢复,应将受黑客攻击的计算机上的

重要数据备份到其他存储介质,确保计算机内重要的数据不丢失。如

果数据无法恢复,经有关领导同意后,可与国家指定的部门联系,由

他们来协助恢复,为保证数据信息安全,需在安全管理部门作记录。

第八节生产系统、数据库故障处理

生产系统出现故障,技术部做出应急处理

1.因软件设计缺陷、设计漏洞等引起的故障,通知公司研发部门

在2小时内查明原因,解决问题。

2.数据库出现故障,运维人员应在2小时内查清故障原因,其他相

关部门应积极配合,解决问题。

3.如出现数据丢失情况,确认不能自行恢复后,启用备份恢复数

据,24小时内恢复运营。

本方案自发布之日起施行

机房应急预案13

总则

1.1编制目的

为高效有序地做好机房火灾事故的应急处置工作,避免或最大程

度地减轻火灾事故造成的损失,保障员工生命和企业财产安全,维护

社会稳定。

1.2编制依据

《中华人民共和国安全生产法》《江苏省消防条例》

1.3适用范围

适用于机房火灾事故的现场应急处置和应急救援工作。

2.事件特征

2.1事件类型及危险性分析

2.1.1电气线路短路、过载、接触电阻过大,静电,雷击等强电侵

入,机房内电脑、空调等用电设备长时间通电过热、设备故障等原因

均可能引起计算机房的火灾事故。

2.1.2机房火灾事故会造成计算机设备损坏、系统故障网络中断或

瘫痪,影响网络的安全运行。

2.1.3火灾产生的有毒烟雾污染机房的空气,造成人员中毒、窒息

等人身伤亡事故。

3.应急组织及职责

3.1火灾应急指挥部

应急指挥部总指挥:

机房火灾应急抢险指挥:

成员:

3.2指挥部人员的职责

3.2.1指挥的职责:全面指挥突发事件应急救援工作。

3.2.2高低压专业职责:组织、协调本部门人员参加应急处置和救

援工作,对发生险情机房切断电源。

3.2.3智能化专业职责:监控相关区域事故情况。

3.2.4空调专业职责:发现异常情况,及时切断空调、通风系统,

做好运行方式的调整和故障设备的隔离。4应急处置

4.1现场应急处置程序

4.1.1最早发现火情者应立即向值班长和机房负责人汇报,机房负

责人到现场指挥灭火,

同时报告公司领导,启动本预案。

4.1.2机房负责人根据事故状态及危害程度做出相应的应急决定,

指挥疏散现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论