版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
XX公司服务器硬件应急预案2020年6月目录TOC\o"1-5"\h\z\o"CurrentDocument"一、应急背景与范围4\o"CurrentDocument"1、应急预案背景4\o"CurrentDocument"2、预案适用范围与数量4\o"CurrentDocument"二预案启动条件4\o"CurrentDocument"1、预警分级4\o"CurrentDocument"2、响应分级与启动标准4\o"CurrentDocument"三方案执行原则5\o"CurrentDocument"1、故障及时反馈5\o"CurrentDocument"2、统一领导5\o"CurrentDocument"3、多人协同5\o"CurrentDocument"4、硬件故障恢复优先5\o"CurrentDocument"5、故障回顾5\o"CurrentDocument"四、应级保障分工界面51、应急小组成员52、职责与分工界面63、预案处理流程7五、服务器硬件现状7\o"CurrentDocument"六、故障原因及结果分析7\o"CurrentDocument"1、服务器批量宕机7\o"CurrentDocument"2、服务器硬件故障7\o"CurrentDocument"七、预防保障措施7\o"CurrentDocument"1、开展日常检查和月度巡检72、日常检查内容8几应急资源配备一、应急背景与范1、应急预案背景XX公司服务器硬件应急预案泛指XX公司机房地址,202机房、203机房、204机房(华为合营云)内的服务器设备硬件故障导致业务中断或业务受到影响时,按预警分级启动本预案并按本方案进行人员角色组织或转换进行对故障问题分析、结果预测、故障处理方案等保障性工作和业务恢复。2、预案适用范围与数量本方案涉及9.2期后续服务器设备,目前9.2期XX公司服务器总共1140台;其中烽火F1200V560台,华三R4900120台,R690072台,浪潮NF5466M5140台,NF8460M58台,曙光H320100台,H320G30230台,中兴R5300G430台,R5300G4280台,R5500G4100台。服务器均采用双路电源具有高可用冗余,业务系统具有备份节点。服务器硬件(包括(^心内存\电源\光模块'硬盘等)厂商包括不限于;浪潮、中兴、曙光、峰火、华三等。二、预案启动条件1、预警分级按影响范围,将通信预警划分为特别严重(1级).严重(口级、较严重(皿级)和一般(IV级)四个等级,依次标为红色、橙色、黄色和蓝色:I级(红色):业务核心全断,出口网络(国干,省干)全部中断。口级(橙色):出口网络国干或省干中断,IP承载网中断,AZ互联链路中断,核心HA设备中断。皿级(黄色):出口,AZ互联,IP承载网主备链路中断一条,接入HA设备一起中断。V级(蓝色):机房内接入或者汇聚设备主备中断一台或者主备链路中断一条。发生特殊情况,可结合实际,适当调整预警相应级别。2、响应分级与启动标准如发生I级(红色)事件,且影响虚机业务超过50%,启动I级响应,如发生口级(橙色)事件,且影响虚机业务超过50%,启动口级响应如发生口级(橙色)事件,且影响虚机业务超过20%,启级皿响应如发生皿级(黄色)事件,且影响虚机业务超过20%,启动皿级响应如发生皿级(黄色)事件,且影响虚机业务超过10%,启动IV级响应,如发生IV级(蓝色)事件,启动IV级响应。三、方案执行原则1、故障及时反馈出现故障后,根据故障持续时间和故障严重程度,通知不同上级。2、统一领导出现故障后,需要有人统筹整体处理进度,合理分工,确保各部门密切合作,快速响应。3、多人协同出现故障后,原因不确认的情况下,需要同时协调多部门人员包括厂商人员一起推进故障处理。4、硬件故障恢复优先在出现故障后,若是故障短时间无法解决,可通过其他方案临时恢复业务,优先保证金银牌客户业务恢复,恢复业务后再解决故障。5、故障回顾故障恢复后,需要分析故障原因,评估损失,提出改进建议。
、应级保障分工界面1、应急小组成员2、职责与分工界面省公司接口人:于杭、周远负责统一指挥作战,负责协助协调备用服务器硬件资源,包括不限于板卡、cpu、内存、存储硬盘、电源等硬件设备。现场组长:吴杰负责现场牵头应急预案工作开展,故障通报上级领导和云能力中心,主导现场硬件故障处理,结果分析、故障原因分析,协助备件协调等。服务器工程师:欧阳为丁鹏飞负责现场服务器故障定位排查、故障处理、服务器硬件更换、预期坏结果和业务影响分析、事故原因追溯。备件调度员:邹志明吴杰负责服务器备件准备;包括不限于板卡、cpu、内存、存储硬盘、电源等硬件设备等,上报备件情况,与厂商联系备件更换,第三方借用等。信息通报员:欧阳为吴杰负责现场故障预案通报;服务器故障数量,故障原因。与省中心第1时间进行汇报故障规模和预期坏结果,与云能力中心进行确认业务影响程度,负责现场信息传达。五、故障原因及结果分析1、服务器批量宕机形成原因:空调故障导致服务器宕机;电力故障(包括UPS故障)导致服务器电源下电;机房湿度异常导致服务器宕机;机房火灾导致服务器批量宕机;破坏结果:服务器批量宕机。2、服务器硬件故障形成原因:硬盘故障;内存故障;RAID卡故障;电源故障;CPU故障;网卡故障;破坏结果:服务器状态异常,影响承载的业务,严重可导致宕机。六、预防保障措施1、开展日常检查和月度巡检为保障机房服务器、网络设备等稳定、安全、高效运行,规范机房的操作过程,故需要对机房的设备进行日常的巡检工作,掌握设备运行状况及周围环境的变化,发现服务器、网络设备和线路故障,发现设施缺陷和危及安全的隐患,及时采取有效措施,以此保障设备的安全和系统稳定运行。2、日常检查内容检查电源指示灯、系统运行指示灯是否正常,硬盘指标灯、网卡指示灯是否规律性正常闪烁,检查风扇是否正常运行(包括异响),电源连接线和网线、光纤及其它线路是否松动和整洁。应急资
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论