下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据中心机房应急预案 、系统故障应急流程 1.1 系统故障应急流程说明 一、故障发生 XXXX 运维服务人员可从以下途径得知故障的发生: 1 1) 中心内场人员通过运维平台发现故障 2 2) 外场人员通过维护巡检发现故障 3 3) 用户发现故障,报给应急领导小组,或者 XXXX 运维微信群上报给中心服务工程师。 4 4) 驻场工程师发现故障 二、 报障受理 监控系统运维服务人员得知系统故障发生后, 立即响应, 并向报障人或单位详细了解系 统故障情况 。 三、 信息研判 运维服务人员根据了解到的系统故障情况进行分析判断, 以确定采用一般故障处理流程 还是立即启动系统突发故障应急处理预案。 四、
2、预案启动 如需启动应急预案,则立刻通知应急领导小组,由领导小组启动应急预案,对系统突 发故障应急事件进行全面管控处理。 五、资源确认 系统突发故障应急预案启动后, 首先是根据现场突发故障实际状况、 紧急程度、 技术难 度、备品备件等情况对相关资源 (主要是参与人员)依据经验进行调度和确认,主要有以下 资源: 我公司技术支持人员; 相关厂家技术支持人员; 我公司聘请的技术专家时间: 时间: 六、 预案执行 按照既定的预案进行突发故障抢修,如遇到问题及时向应急领导小组汇报。 七、 预案终止 预案的终止时间由故障现场技术人员根据现场的实际进展情况, 在与用户单位有关部门 协调后报应急领导小组决定。
3、八、 结果上报 预案中止后,相关预案参与人员将整个事件过程中所有收发信息、 领导批示、事故调查 报告、现场录像、图片等材料及时整理归档,并总结事件处理过程中的经验和教训,修改、 完善事件应急预案。然后集中上报至应急领导小组。 应急流程管理报告填写指南 编号:(格式为 D0405D0405- -日期+ +两位序列号,其中日期按“ yyyy+mm+ddyyyy+mm+dd格式,2 2 位序列号 根据日期从 0101 起顺序递增,例如 D0405D0405- -20100314012010031401,表示 20102010 年 3 3 月 1414 日第 1 1 张应急流 程管理报告。) 报告日期
4、: 年 月 日至 年 月 日(统计时间段) 应急流程 完成情况统计 (分类统计应急处理次数、完成次数、应急处理分布范围等) 应急流程 原因及影响统计 (对引起应急流程的原因以及重大事故影响进行分类统计分析) 应急处理 时间统计 (对应急处理所需时间进行统计) 资源利用 情况统计 (对应急处理所需资源进行统计) 费用统计 (对应急处理所需费用进行统计) 出现的问题和建议 (根据上面的统计数据,对应急流程管理提出出现的问题以及对应急处 理工作进行优化的建议。) 备注 报告人签名: 客户经理签名: 1.2 系统故障应急处理流程图 机房应急预案 3.1 通信网络故障应急预案 (1 1)如属线路故障,应
5、重新安装线路。 (2 2)如属交换机网络设备故障,技术人员立即检修并调试通畅。如交换机配置文件破 坏,网络工程师应迅速按照备份配置文件重新配置,调试通畅。现场技术支持: XXX 138XXXX561XXX 138XXXX5617 7。必要时,请有关供货单位、设备厂商协助调测畅通。华为售后电话: 400400- -8229999 8229999 。 ( 3 3)如需更换设备,应上报分管领导,经批准后马上更换故障设备,尽快恢复系统运 行。 ( 4 4)如发现属于外部线路的问题,应与线路运营商联系,敦促尽快恢复故障线路。移 动运营商:XXX XXX 137XXXX1717 137XXXX1717 联
6、通运营商: XXX XXX 156XXXX1216156XXXX1216 ( 5 5)现场技术支撑无法及时修理时,应立即通知相关供应商及维护人员,在最短时间 内安排修理。 ( 6 6)特殊情况,如故障判断、网络恢复需要 1 1 小时以上,负责人因及时将相关情况汇 报至分管领导处,并在领导同意的情况下,采用紧急恢复措施,绕过故障设备,先行恢复网 络的联通性,并及时督促及落实设备供应商抵达现场,及时判断故障并恢复正常; (7 7)应急处置结束后,XXXX 运维团队应将故障分析报告,在调查结束后一日内书面报告 应急领导小组。 3.3 不良信息和网络病毒事件应急预案 1 1 、应急处理 ( 1 1 )
7、发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或 网络病毒传播,并报告指挥调度中心 XXXX 运维团队和应急领导小组。 (2 2)网络管理员 30 30 分钟内将被攻击的服务器或其他设备从网络中隔离出来, 并恢复其 他系统正常运行,必要时可以采取照片、截图等方式留存记录,保护现场; ( 3 3)如事态较为严重,经向分管领导请示后,立即向公安部门报警,配合公安部门展 开调查 . . 2 2、修复处理 ( 1 1 )记录系统状况; ( 2 2)立即复制系统登录文件、历史文件、日志文件等重要文件; ( 3 3)修改防火墙、交换机等网络安全设备的过滤规则; ( 4 4)断开被攻主
8、机、关闭不需要的服务; ( 5 5)处理可疑的文件和程序; (6 6)修改不安全的系统帐号及其口令; ( 7 7)恢复被修改的软件和数据; ( 8 8)安装相应的补丁程序,填补安全漏洞 ; (9 9)编写报告,详述事件过程及处理步骤。 (1010)事态或后果严重的,应向开发区公安应急领导小组和相关领导汇报。 ( 1111)现场相关技术人员向公司技术部沟通组织技术力量追查非法信息来源; 协调各厂 家做好被攻击或破坏后系统的恢复与重建工作; 3.4 服务器软件系统故障应急预案 1 1、软件故障分类:操作系统故障,应用软件故障。 2 2、采取的技术措施 在故障发生后立即查看服务器系统状态,如果是系统
9、软件出现故障,并且能进入系统, 且故障原因定位清晰, 可立即排除。 如果估计在 1 1 小时内不能定位原因, 则报告客户经理和 应急指挥负责人, 同时联系厂商及技术支持协助排除, 或根据技术支持建议进行重新安装操 作系统和应用系统。 3 3、 软件系统平时必须存有备份, 与软件系统相对应的数据必须有多日的备份, 并将它 们保存于安全处; 4 4、 应用软件发生故障后, 软件现场负责人应对相应程序进行重启和问题初步排查工作, 如无法解决该问题, 技术人员应立即向项目负责人或领导汇报, 经确认后停止该系统的运行 并沟通厂家使用备份程序进行恢复,保证业务正常进行; 5 5、视频巡逻发生较严重故障时可
10、直接联系海康厂家: XXX1XXX189XXXX533089XXXX5330 其余系统发生 重大故障时可联系 XXXXXX 事业部项目经理:XXX XXX 185XXXX6071185XXXX6071 3.5 黑客攻击事件应急预案 (1 1)当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修 改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络, 并立即报告 XXXX 运维小组。 (2 2)接报告后,XXXX 运维团队应立即核实情况,关闭服务器或系统,修改防火墙和路由 器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。 (3 3
11、)及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向开发 区公安应急领导小组相关领导汇报,并请求支援。 ( 4 4)处置结束后 ,XX ,XX 运维团队应将事发经过、处置结果等在调查工作结束后一日内报 告应急领导小组。 3.6 业务数据损坏应急预案 (1 1) 发生业务数据损坏 时,XXXX 运维团队应及时报告应急领导小组,检查、备份业务 系统当前数据。 (2 2) XXXX 运维团队负责调用备份服务器备份数据,若备份数据损坏,则调用 FTPFTP 中备份 数据。 (3 3) 业务数据损坏事件超过 2 2 小时后,XXXX 运维团队应及时报告应急领导小组, 及时通 知业务部门以
12、手工方式开展业务。 (4 4) XXXX 运维团队应待业务数据系统恢复后,检查历史数据和当前数据的差别,由相关 系统业务员补录数据; 重新备份数据, 并写出故障分析报告, 在调查工作结束后一日内报告 应急领导小组。 3.7 核心设备硬件故障应急预案 (1 1) 发生核心设备硬件故障后, XXXX 运维团队应及时报告应急领导小组,并组织查找、 确定故障设备及故障原因,进行先期处置。 (2 2) 若故障设备在短时间内无法修复 XXXX 运维团队应启动备份设备, 保持系统正常运行; 将故障设备脱离网络,进行故障排除工作。 (3 3) XXXX 运维团队故障排除后,在网络空闲时期,替换备用设备;若故障
13、仍然存在,立 即联系相关厂商,认真填写设备故障报告单备查。 3.8 机房漏水应急预案 (1 1)发生机房漏水时,第一目击者应立即通知 XXXX 运维团队,并及时报告监控应急领导 小组。 (2 2)若空调系统出现渗漏水, XXXX 运维团队负责人应立即安排停用故障空调,清除机房 积水, 并及时联系设备供应方处理, 同时启动备用空调, 必要情况下可临时用电扇对服务器 进行降温。 (3) 若为墙体或窗户渗漏水,XXXX 运维团队负责人应立即采取有效措施确保机房安全, 同时安排通知办公室 ,及时清除积水,维修墙体或窗户,消除 渗漏水隐患。 3.9 机房火灾应急预案 ( 1 1)完善机房环境,确保机房放
14、置灭火器;禁止携带易燃易爆物品进入机房。 ( 2 2)机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌 握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火源。 ( 3 3)一旦发生火灾, 迅速切断机房电源, 避免灾情的扩散,并迅速和园区保安部联系, 必要时立即报火警。 3.10 设备发生被盗或人为损害事件应急预案 ( 1 1)发生设备被盗或人为损害设备情况时, 使用者或管理者应立即报告应急领导小组, 同时保护好现场。 ( 2 2)应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况, 清点被盗物资或盘查人 为损害情况,做好必要的影像记录和文字记录
15、。 ( 3 3)事发单位和当事人应当积极配合公安部门进行调查。 (4) 应急领导小组安排 XXXX 运维团队、事发单位及时恢复系统正常运行, 并对事件进行 调查。 XX XX 运维团队应在调查结束后一日内书面报告应急领导小组。并应向公司相关领导汇 报。 四、机房动力系统应急处理方案 1 1、 外电中断后,值班人员应立即检查中心机房 UPSUPS 电源是否正常供电, 并查明中断原 因,及时向负责人报告; 2 2、 如因楼内线路故障,要求物业管理部门迅速恢复供电; 3 3、 如因供电部门因素导致供电中断,立即向园区物业联系(电话: XXXXXXXX- -XXXXXXXXXXXX)X X, 请供电部门迅速恢复供电; 4 4、 如告知需要长时间停电,应作如下安排: (1 1)预计停电 1 1 小时以内,由 UPSUPS 供电; ( 2 2)抢修人员在机房现场实时测试记录备用电池的放电情况,预计停电 1 1 小时以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《美国的诞生》课件
- 《LA格式讲座》课件
- 教培合同范本(2篇)
- 2024年度涉外离婚登记所需材料与程序详解协议3篇
- 《地下水资源调查》课件
- 《知识产权常识》课件
- 2025年扬州货运资格证考试有哪些项目
- 2025年安康货运从业资格证考试技巧
- 2025年兰州从业资格证应用能力考些啥
- 国际金融学课件汇率理论与学说
- 节电设备产品营销计划书
- 冀教版六年级上册科学学科期末试题和答案
- 注册安全工程师建筑施工专业实务
- 2024年人工智能(AI)训练师职业技能鉴定考试题库(浓缩500题)
- 《大学计算机应用基础》期末考试复习题库(含答案)
- 2024年危险化学品安全知识竞赛试题及答案
- 初中物理知识点
- 《第13课 数据有关联》参考课件2
- 重难点专题41 圆锥曲线中定比点差法的应用十一大题型-备战2025年高考《数学》重难点题型突破(新高考)解析版
- S学习问题个性化分析诊断系统v2.0 分析标准
- 因式分解法一元二次方程练习100题及答案
评论
0/150
提交评论