运维应急预案_第1页
运维应急预案_第2页
运维应急预案_第3页
运维应急预案_第4页
运维应急预案_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 / 12 20222022 年运维应急预案年运维应急预案 第 1 篇:运维应急预案 运维应急预案随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,反应快速、处置有力的安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,特制定本应急处置预案。一、系统故障流程说明 1.故障发生获取途径 1.1 监控系统告警发现故障1.2 用户发现故障 1.3 维护中心发现故障 2.故障受理 系统故障发生后,运维人员立

2、刻响应,并向相关人员了解系统故障情况。3.信息研判处理 运维人员依据了解到的系统故障情况进行分析判断, 以确定采用哪种处理方式。4.故障解除 故障解除时间由运维人员及现场技术人员依据现场的实际进展情况, 在与用户协调后确认故障解决。5.结果处理 故障解决后,书写详细的故障报告提交给相关人员。二、日常维护 1.正常工作日内,对设备及系统的运行情况做监控,发生异常情况及时处理。2.节假日期间,保持通信畅通,遇有问题,尽快及时解决。3.仔细做好数据备份工作,定期做好数据库的备份,每周检查服务器的运行和备份情况。三、故障处理 1.故障流程 2 / 12 故障发生 判定 硬件故障 软件故障 服务器提示的

3、硬件错误信息 查看系统、应用日志、其它异常等 综合判断,快速查找原因 解决故障 编写故障文档 2.故障预案 2.1 发生通信线路中断、路由故障、流量异常等,经初步判断后及时联系 idc 机房或者其它相关人员, 配合他们及时解决网络故障。2.2 发生服务器软件系统故障,如有备份服务器,立刻切换到备机上;如果没有备机,以快速解决为首要目标,故障出现的原因后续去排查;总之优先保证服务器能正常运行。 2.3 发生大流量网络攻击时, 立刻联系 idc 机房及时处理。 2.4 发生服务器硬件故障后,联系硬件设备厂商,要求其快速上门处理。2.5 发生业务数据损坏时,检查和备份当前业务系统数据,再调用备份数据

4、来恢复。 第 2 篇:运维故障应急预案 运维故障应急预案 v 1.0 精品资料 深圳市 xx 科技有限公司 修订记录 版本编号 1.0 1.1 1.2 3 / 12 版本日期 20 xx-5-13 修订人 cc 说明 初稿 1 机房失火,断电,断网 1.1 紧急预案 1) 全国各区域陆续反馈访问网站出现无法访问。 精品资料 2) 运维人员通过监控状态, 无法远程登录服务器, ping 不通服务器。 并紧急联系机房人员, 询问初步情况,则可判断是否出现机房失火,断电,断网。 3)技术部给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一 部分是对公司内的通告, 包括事故的影响、

5、恢复的时间; 一部分是对公司外,描述因为系统升级,而导致网站不能访问。 再次紧急联系机房供应商,询问故障的发生原因,故障的严重性,是否后续能正常恢复 服务。 5)如故障严重,先能否挽救服务器,以存储服务器为优先。若存储服务器受损,则想办法恢复数据;若无法恢复数据,则修改通告内容,告知业务部门要重新导入全部数据。 6)视故障影响范围,统计出未受影响的服务器。 7) 如果是机房失火,断电,断网导致机房不可用,则尽快联系新的机房,开始重新搭建服务。 8) 评估网站恢复的时间点,修改通告内容。 1.2 风险预防 杭州和深圳均实施数据跨机房备份。 4 / 12 2.区域性网络故障问题 1.1 紧急预案

6、1) 全国某个区域短时间内有多个客户反映无法访问网站, 其他区域访问正常。 2) 运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。 精品资料 4) 3) 如机房服务正常, 运维人员测试出现故障区域的网络连接与 dns 解析是否正常。4)如果网络连接或者 dns 解析不正常,则可认为出现了区域性网络故障问题。5)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是 对公司内的通告,包括事故的影响、 恢复的时间; 一部分是对公司外受影响的区域客户,描述因为客户所在区域网站故障,而导致网站不能访问。 6)尽快联系当地运营商,询问网络故障的情况

7、及恢复时间。 1.2 风险预防 网站 cdn 镜像。 3.域名失效故障 1.1 紧急预案 1) 全国各区域陆续反馈访问网站出现无法访问。 2) 运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。 3) 如服务器服务正常,再通过 5 / 12 dns 检测工具并发现域名 ip 指向异常,则认为出现了域名失效故障。 4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是 对公司内的通告,包括事故的影响、 恢复的时间; 一部分是对公司外, 描述因为域名运营商 dns 解析故障,导致网站不能访问。 5) 登录并查看域名供应商平台设置解析配置,

8、若是域名供应商配置有问题, 则修正该配置; 若是 dns 解析平台故障,则寻找另外的 dns 解析平台,重新配置 dns 解析。 精品资料 6) 告知业务部门, 临时处理解决方法。 发出修改 hosts 的 bat 脚本给各区域销售和客服团队,并告知允许脚本前要先退出 7) 跟进全国域名解析的进展。 管家。 8) 全国域名恢复后,撤出通告,并通知内部人员。 1.2 风险预防 1) dns 加固安全锁。 2) 每个月更换域名供应商和 dns 解析平台的密码。 4.机房网络设备,服务器故障 1.1 紧急预案 1) 全国各区域陆续反馈访问网站出现无法访问。 2) 运维人员通过监控状态,远程登录服务器

9、查看机房服务器服务状态,判断6 / 12 是否存在服务异常。 3) 如无法正常登录服务器, ping 服务器不通,并紧急联系机房人员,并询问初步情况,则 判断是否出现机房网络设备,服务器故障。 4) 给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是 对公司内的通告,包括事故的影响、 恢复的时间; 一部分是对公司外, 描述因为网站升级改造,导致网站不能访问。 5)逐个设备,服务器登录检查,找出有故障的设备,服务器。再次联系机房人员,检查相 应的设备,看是否能正常恢复运作。 6) 收到机房人员的反馈后,若设备,服务器还可用,则与机房供应商共同执行修复措施; 精品资料 若

10、设备,服务器完全损坏,则让机房供应商协助购买新设备, 服务器或者借用现有设备,服务器。 7) 配置新设备,服务器搭建运营环境。 1.2 风险预防 1) ha 热备,消除重点设备的单点问题。 2) 确保配置文件均有备份。 精品资料 wele to download ! 欢迎您的下载,资料仅供参考! 精品资料 7 / 12 第 3 篇:it 系统运维事故应急预案 项目事故应急预案 1.编制目的 建立健全项目事故应急机制,提高 xxxxxxxx 应对项目实施过程中突发事故的能力,保持实施体系稳定,保障客户方权益和客户满意度,促进业务健康、可持续发展 1.1.编制依据 依据 xxxxxxxxpmo 发

11、布项目质量事故预防与处理制度 ,制定本预案。 1.2.事故分级 按照突发事故严重性和紧急程度,突发质量事故分为特别重大质量事故、严重质量事故、一般质量事故和轻微质量事故四级。 a) 重大:由于项目组的不规范操作、不规范管理,对系统生产环境造成严重的数据丢失、系统崩溃、当机,以及造成重大经济损失,严重影响客户满意的质量事故,定义为重大质量事故。 b) 严重:由于项目组不规范的情况下对系统生产环境所做操作,而造成对系统生产环境的严重影响 (如造成数据丢失、 数据混乱) 、 造成一定程度经济损失,但能通过应急措施补救、挽回部分损失的事故,定义为严重质量事故。 c) 一般: 由于项目组在未得到客户方授

12、权的情况下对系统生产环境所做操作,而造成对系统生产环境数据损坏或混乱,但未造成较大程度经济损失,通过应急措施可以有效保证数据完备的事故,定义为一般质量事故。 d) 轻微: 未对系统生产环境造成数据影响, 但不符合规范化操作和管理要求,对系统整理质量存在较大风险, 且造成项目资产的不完整, 造成轻微经济损失的。8 / 12 如未对代码做及时定期的备份,导致代码版本的不完整或代码版本管理混乱的,定义为轻微质量事故。 1.3.适用范围 本预案适用于 xxxxxxxx 负责实施、管理的全部项目。 2.组织指挥与职责 2.1.应急责任人 项目经理为项目应急责任人。 2.2.应急协调人 项目经理必须在发生

13、质量事故后 2 小时内,向所在部门经理客观反馈问题,由项目经理初步判定项目事故等级。 级别在一般(包含)以下的事故,由项目经理作为应急处理协调人,负责总体监督、协调。 级别在严重(包含)以上的事故,由部门经理作为应急处理协调人,负责总体监督、协调。 2.3.专家组 实施支持中心作为实施专家团队,负责应急处理支持,由应急责任人在接到事故时,进行协调通报。 级别在严重(包含)以上的事故,实施专家团队必须指定专人参与事故应急处理,负责支持进行项目影响评估、损失弥补方案等工作。 2.4.涉及外包项目 整体或部格外包项目发生事故时, 外包商必须指派项目经理的直属上级作为应急处理外包方协调人,外包方项目经

14、理作为外包方负责人,由外包方负责人直接参与项目事故应急处理,协调人负责资源协调;涉及外包人员事故,该人员必须9 / 12 直接参与应急处理。 事故应急处理完毕后再依据公司制度对上述公司或个人执行惩罚。 2.5.涉及第三方供应商 涉及第三方供应商的项目事故,第三方商必须指派专人负责,直接参与项目事故应急处理,事故应急处理完毕后再依据公司制度执行惩罚。 3.事故处理程序 3.1.事故响应 事故发生后,应成立事故应急处理小组,由责任人、协调人、专家组组成,第一时间响应事故处理。 3.2.事故通报 依据项目质量事故预防与处理制度和事故级别,及时进行内部通报,内部通报后即时向客户方相应人员进行通报。 3

15、.3.事故分析 事故发生 2 个工作日内,应急责任人必须到达客户现场,并由专家组或其他技术人员开始事故分析,找寻事故发生原因,进行事故损失评估,制定修复方案。 3.4.修复 依据事故原因,修复系统问题,杜绝后续问题复现。依据修复方案,进行事故修复,降低事故损失。 3.5.善后 出具系统事故报告,并由客户方签字,至客户方签字标志事故处理结束。 第 4 篇:维保应急预案 维保应急预案 一、日常应对紧急故障的准备 10 / 12 为应对紧急故障发生日常应做到以下几点: 1、建立应急小队 故障急小队应由维保人员(吴育群、王鑫、王程)组成,每次紧急事故的处理人员应依据事故的大小和现场确定,每次事故派遣人

16、员应不少于两人。 2、备用易坏部位的备品备件 为确保发生紧急故障时能及时更换损坏部件, 应购买相对应的备品备件以作应对,如法兰、弯头、垫片、喷头、模块、探头、手报、继电器、小型抽水泵等。 3、保持通话畅通 维保人员应保持 24 小时电话畅通, 随时接听紧急电话, 确保及时赶到现场。 4、对用户单位进行消防操作培训,强化消防意识 平常对用户单位安保人员进行消防操作培训,如关闭蓄水阀门,控制阀,开启关闭配电箱、控制箱等有助于对突发事件的处理和控制,减少财产损失。 二、发生紧急故障时应对方法 在紧急故障发生时维保人员应在 2 小时之内赶到故障发生地点, 进行维保抢修。 1、接到维保单位紧急故障电话,

17、首先应询问具体故障情况,包括故障发生时间、故障部位、故障现象、故障持续时间、故障危害程度。如故障比较严重,应让用户单位保卫人员立刻将故障发生现场戒严起来, 阻止外来人员进入故障现场,以免发生不必要的人员伤害。 2、了解紧急故障的情况后,应赶紧制定故障解决方案。为减少故障时间、避免财产损失,故障解决方案应在维保人员到达前制定完成。故障解决方案至少应在两套,一套主用,一套备用。制定的故障解决方案,应是安全的、可行的、符合故障现场要求及国家规范的、 能够达到解决故障效果并且不带来任何损失的方案。紧急故障的解决方案制定应由维保负责人员及维保人员共同参与讨论,维保11 / 12 负责人员制定,并得到部门领导审批同意。紧急故障解决方案应包括以下内容: (1)故障分析 (2)解决方法 (3)执行步骤 (4)执行人员的职责及安排 (5)需要协助的事项 如需用户单位人员协助,应在到达故障现场之前联系好,并将需要协助的事项交代与用户单位协助人员,提前准备好。 3、解决紧急故障应按提前制定的方案逐步执行,不得随意更改。在执行方案过程中维保人员应注意用电安全、用水安全、机械使用安全。不得随意乱接乱搭电线,不得随意拆卸阀门。在用电前应测试电流电压;在拆卸阀门管件之前应确定拆卸的位置

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论