机房搬迁服务应急预案_第1页
机房搬迁服务应急预案_第2页
机房搬迁服务应急预案_第3页
机房搬迁服务应急预案_第4页
机房搬迁服务应急预案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一节应急体系 1一、应急体系 1二、应急响应 2三、应急预案 3第二节搬迁过程中的应急预案 5一、搬迁过程中设备硬件损坏 5二、设备开机无法正常运行 6第三节机房应急处理预案 7一、基本原则 7二、应急事件级别定义 7三、组织机构及职责 8四、应急响应机制 10五、应急方案 11六、后期处置 15七、应急保障 15第一节应急体系一、应急体系应急体系是招标人管理维护体系的重要组成部分。应急体系建设的目的是保证业务的连续性,消除数据中心系统出现的各种意外的中断,尤其是保护关键业务免受重大故障或灾难的影响。应急响应体系通过预防措施和恢复控制相结合的方式,使由意外事故(如:自然灾害、事故、设备故障和故意行为)引起的破坏减少至可接受的水平。应急体系包括事件定位、影响分析、控制风险、限制损害事故的后果、并经过演练后加以执行、以确保在所要求的时间期限内恢复业务处理、减少事件的影响,降低系统的风险。二、应急响应本投标人针对本项目可能出现的故障和问题,提供一般性响应和紧急响应两套方案。(一)一般性响应在系统正常运行后,对于一般的故障情况,将由本投标人驻厂工程师进行诊断和解决,1小时内解决故障。若故障排除困难,将在接到故障申报后本地服务机构工程师将给予支持,1小时内提出解决方案,2小时(平均时间)内到达招标人故障现场(部分节点需依照其交通实际情况有所延误),故障排除时间为2小时;如再次出现故障排除困难的情况下,本投标人将再派高级技术人员予以彻底排除,排除时间为12小时;本投标人考虑到招标人对系统的使用情况,对于一般的故障情况下为招标人提供7×24小时的响应服务。(二)紧急响应对于重要及关键的故障,本投标人在1分钟内进行响应,4小时解决故障。对于重要及关键紧急故障本投标人将提供24小时全天候响应服务。本投标人针对上述两套方案,同样分为多级技术支持体系为招标人提供多层次的技术支持,借助招标人多年以来服务积累的雄厚的技术力量及经验,本投标人的技术支持队伍提供对口技术服务,迅速响应招标人的疑问和问题,并提供恰当和准确的解答。1.现场代表:是招标人在需要技术支持时接触到的第一个层面,是实施招标人项目的直接参与者。现场代表都接受过严格的专业技术训练,完全能够处理绝大部分现场问题。如果遇到短时间内无法解决的问题,现场代表会将其转交给高级技术人员处理;2.高级技术人员:更是由专精于某一种硬件或软件,并经过工程实施和现场维护锻炼,在解释和解答问题等支持服务方面具有丰富经验的高级技术工程师组成;3.技术专家:本投标人拥有多名大型项目实施经验的计算机硬件、软件、应用方面的专家、博士,他们不仅具有很高的理论水平,而且经过多年的实践,掌握了丰富的项目管理、实施以及系统维护的现场经验。三、应急预案应急预案的设计应当包括IT应急措施、非IT应急措施、相关部门的协调、应急资源的保证、应急预案启动条件等。(一)IT应急措施对关键业务的应急保护,首先应该通过IT内部的应急措施加以实现。这些IT措施主要是数据备份、网路备份以及系统和网络的应急调用等。IT应急措施的设计应当具有可操作性。(二)非IT应急措施的设计对关键业务的应急保护,尤其是与计算机信息网络系统关联程度一般或者与计算机信息网络系统关联程度极高的核心关键业务的应急保护,应当考虑采用非IT应急措施加以实现。非IT应急措施是在关于计算机信息网络系统短期内无法恢复的假设基础上进行关键业务连续性设计的。如,切换到手工的方式进行业务的操作,或通过介质传输的方式进行办自动业务操作等。(三)相关部门的协调网络系统的应急预案设计是从保护整体利益,降低网络整体风险为基本出发点,因此,对关键业务的应急保护涉及组织的各个部门和各个方面的配合和支持。关于关键业务应急保护相关部门的关联方式是组织应急预案设计的关键。(四)应急资源的保证应急预案设计应当将应急活动程序化,并通过程序化确定执行应急预案所许的组织资源,包括人员、设备、资金和其他物资,尤其是人员的保证和其他资源的同意指挥调度等。应急资源的保证还包括供应商、开发商、系统集成商,以及其它外协和相关单位支持。(五)应急预案的启动条件组织应急预案的启动条件是组织应急预案设计的重要内容,也是实施应急预案的必要条件。组织应当严格规定应急措施的实施和应急资源调用的程序、决策者和责任人。同时,启动应急预案的决策信息必须来自组织规范的报告制度,并有记录及可追溯。(六)应急预案的演练组织的应急预案正式批准之前都必须进行演练。演练也可以在仿真条件下进行,但参加演练的人员必须与实际执行应急预案的人员的组成相近。应急预案演练是组织应急预案完善的重要工作,包括应急预案演练的计划安排、演练过程和效果的详细记录,演练活动的评估报告和应急预案改进建议等。第二节搬迁过程中的应急预案一、搬迁过程中设备硬件损坏针对系统运输过程中硬件损坏,我们采用加强运输管理来规避此处风险。另外对网络设备采用备份操作系统文件、配置文件进行应急,应用系统采用数据级备份进行系统应急,同时准备相应备机、备件,紧急时进行硬件或系统替换,并及时联系进行设备维修。二、设备开机无法正常运行在搬迁前进行设备开关机测试及搬迁后设备开机过程中,如果发生设备无法正常运行故障时,按照下图所示流程进行处理:第三节机房应急处理预案一、基本原则1.居安思危,预防为主。实行突发事件统一管理、统一指挥、各级负责的原则;2.统一领导,分级负责,全面规划、及时发现、快速反应、措施果断的原则,并按照事件级别迅速上报相关领导和责任人。3.制度规范,加强管理。严格按照事件处理流程规范操作,使突发应急的工作规范事件化、制度化。4.快速反应,协同应对。当突发事件发生时,各级要立即按应急预案,投入应急工作;加强各个部门配合协作。形成统一指挥、反应灵敏、功能齐全、协调有序、运转高效的应急管理机制。5.主动报告原则:当突发事件发生后,要及时报告应急预案实施情况。二、应急事件级别定义根据网络与信息安全突发公共事件的可控性、严重程度和影响范围,一般分为四级:I级(特别重大)、II级(重大)、III级(较大)、IV级(一般)。国家有关法律法规有明确规定的,按国家有关规定执行。1.I级(特别重大):重要网络与信息安全系统发生全市性大规模瘫痪,事态发展超出相关主管部门的控制能力,对国家安全、社会秩序、经济建设和公共利益造成特别严重损害的突发公共事件。2.II级(重大):重要网络与信息安全系统造成全市性瘫痪,对国家安全、社会秩序、经济建设和公共利益造成严重损害,需要跨部门、跨地区协同处置的突发公共事件。3.III级(较大):某一区域的重要网络与信息安全系统瘫痪,对国家安全、社会秩序、经济建设和公共利益造成一定损害,但不需要跨部门、跨地区协同处置的突发公共事件。4.IV级(一般):重要的网络与信息安全系统受到一定程度的损坏,对公民、法人和其他组织的权益有一定影响,但不危害国家安全、社会秩序、经济建设和公共利益的突发公共事件。三、组织机构及职责(一)应急领导小组组织机构(二)应急领导小组职责1.应急总指挥职责(1)保证在任何时间,及时协调应急行动所有涉及的岗位人员;(2)提供必须的紧急响应设备;(3)在紧急情况下全面负责紧急行动;(4)在必要时向外界求救,例如:119、110、120等。2.应急副总指挥职责(1)在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;(2)根据获得的应急信息下达命令。3.各相关设备负责人职责(1)负责尽快收集信息向应急总指挥汇报事故情况;(2)负责现场临时设备抢救和对事态的控制;(3)听从上级指挥人员的指挥。4.应急小组成员职责(1)值班人员平时应做好应急事件的监控、预警工作,当应急事件发生后,迅速生产事件上报相关领导,并进行先期处置,如有必要通知二、三线工程师。(2)二线、三线工程师在接到应急信息后,应积极配合值班人员进行先期处置,迅速赶往故障现场提供技术援助。(3)对于在应急故障处理期间发生的新问题、新情况,应认真登记,及时上报。对于超出《应急预案》界定的应急事件,应及时汇报应急领导小组,争取尽早提出补救措施进行恢复。四、应急响应机制(一)基本处理流程1.值班人员平时应做好应急事件的监控工作,对于突发事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。对于不在运维中心的故障,应在第一时间内通知负责人去现场处理,密切关注事件流程及进展情况,并做好登记工作上报领导。2.正常情况下,要求值班人员在30分钟内进行事件确认。如果属于一般事件则按照事件流程进行分派处理,否则应迅速启动《应急预案》,并严格按照《应急预案》所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。3.在处理过程中,如需其他部门去现场增援处理,应及时向上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶赴现场援助处理。(二)机房应急开关机具体措施机房各设备关闭顺序如下:(三)服务器及存储设备故障处理五、应急方案(一)网络故障事件应急预案1.发生网络故障事件后,系统使用人员应及时报告应急小组。2.应急小组及时查清网络故障位置和原因,并予以解决。3.不能确定故障的解决时间或解决故障的期限并属较大(III级)及其以上的,应急小组应报告所领导。4.网络系统故障突发事件分级:故障等级故障现象1级网络完全拥塞或设备宕机网络或设备处理能力严重受影响,对最终客户的业务运作有严重影响网络或设备故障对重要的客户(公司经理级或重要的部门)造成严重影响2级网络或设备的性能严重下降,对最终客户的业务运作产生重要影响部分区域网络故障一般网络节点发生故障大部分客户的网络通讯质量下降3级网络或设备性能受损,但最终客户大部分业务仍可正常工作报警出错和操作命令反常4级其它一般的故障,不影响系统的整体运行,不影响大部分客户的使用(二)服务器故障应急预案1.服务器故障后,应急小组确定故障设备及故障原因,并通知相关厂商。2.根据服务器修复和恢复系统所需时间,由所领导决定是否启用备份设备。3.如启用备份设备,在服务器故障排除后,应急小组在确保不影响正常业务工作的前提下,利用网络空闲时期替换备用设备。如不启用备份设备,应急小组应积极配合相关厂商解决服务器故障事件。(三)空调设备故障处理若空调损坏,应第一时间通知厂家上门进行维修,并及时报告信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。(四)消防设备故障处理一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。(五)电源设备故障处理在紧急情况发生时,应按如下步骤进行关机:1.确认所有负载均已安全关机。2.关闭UPS负载电源。3.将UPS的系统启用开关切换到off的状态。4.将DC电池连接断路器切换到off的位置。5.将所有电池拉出到红色电池断开线以外。6.断开PDU上的断路器。7.将PDU后面总输入断路器切换到断开位置。8.将每个上行主电路断路器切换到断开位置。(六)灾害性事件应急预案1.一旦发生灾害性事件,应急小组每一位成员都应有责任在第一时间进入机房抢救服务器及存储设备。2.应急小组对服务器及存储设备的损坏程序进行评估。如服务器损坏或存储设备损坏无法使用,立即联系相关厂商,进入维保服务程序。3.根据服务器或存储设备修复和恢复系统所需时间,由所领导小组决定是否启用备份设备。(七)其他突发事件应急预案应急小组立刻派出技术人员进入现场,制定相应措施,根据实际情况灵活处理,并按要求报告所领导小组。六、后期处置1.故障排除后,应急小组向各部室发出故障解除、系统恢复正常运行通知。2.系统恢复运行后,相关操作人员尽快通知参保单位和个人办理社会保险业务事项,并对故障发生前所进行过的业务操作进行检查,核对业务数据是否正确或有无丢失,不正确或有丢失的应马上更正或补录,确保数据的正确和完整。对在故障期间采用手工受理的事项,应及时在系统中补充完善。3.所领导组织有关人员及有关技术专家组成事件调查组,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论