




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、产品经理标准化数据备份及恢复操作手册1目标产品经理必须具备软件系统数据备份及系统恢复的操作能力,保障软件产品 安全稳定运行,客户使用公司软件产品时能够安全、有序、健康、高效地开展工 作,预防紧急突发事件、及时排查和迅速处理故障。2要求及约束为了实现以上目标,需要各种内、外部环境和设施:需要所有相关人员统一思想、统一认识,积极主动参与系统的建设和维护中 来。形成严格的问题反馈机制。形成高效的应急领导小组,项目经理责任制,组长把关,职责到人明确分工, 在工作中管理得当、到位。实施人员工作认真、负责,规范化、流程化工作,如 有标准操作手册一定要严格执行。遵守现场规定的各种系统集成、系统维护、数 据库
2、维护工作规范等。建立高效的协调机制,由于该系统会集成其他厂家系统或数据中心数据,相 关接口要求明确、沟通流畅,预防通道阻塞。其他如数据库、中间件、系统配置 相关软件厂家和供应商要有交流渠道,一旦发现问题立即解决。需要提供良好的办公环境,为集中解决问题提供便利。需要定期召开协调会议,通报系统建设情况和存在问题。3组织机构与职责产品经理牵头组织成立的运行应急处理组织机构一般应包括日常维护监控 组、应急指挥中心、应急工作组,应急工作组包括程序故障应急小组、应用故障 应急小组、平台故障应急小组、网络故障应急小组、后勤保障应急小组。应急指挥中心应急指挥中心由应急组长、项目经理、项目管控领导等构成。公司应
3、急指挥中心的主要职责:(1)审定软件系统优化提升时系统的运行应急预案;(2)宣布进入和解除应急状态,决定实施和终止软件优化提升上线、上线运 行应急预案;(3)对系统突发事件级别进行决策,并统一指挥应急处置工作;(4)研究讨论突发事件的产生原因、处理过程、处理结果,并公布处理办法 进行确认归档。应急工作组应急工作组按职能角色分类,应该由软件开发负责人、软件工程师,网络工 程师,实施工程师,系统集成工程师,测试工程师等构成。应急工作小组在系统应急突发事件中的主要职责:(1)落实应急指挥中心部署的各项任务;(2)负责公司软件应急预案的编制工作;(3)监督执行应急指挥中心下达的应急指令、重大应急决策和
4、部署,协调各 方应急资源,组织各单位及故障处理小组进行应急处理;(4)及时了解和掌握系统突发事件与应急处置工作情况,向应急指挥中心报 告应急处置过程中发现的重大问题,并协调解决;(5)负责系统突发事件调查、总结应急处理经验和教训等后期处置工作。(6)人员分工详见应急组织及人员分工表。分级软件故障对服务的用户和公司生产、经营和管理的影响范围、程度、可能产 生的后果和损失等因素,将系统故障分为重大事件(I级)、较大事件(II级)和 一般事件(III级)三个等级。发生一般事件(III级)公司及时要求进入系统应用 III级应急状态,发生 II级突发事件公司进入II级应急状态,发生I级系统突发事件公司进
5、入I级应 急状态。重大事件重大事件是指上线运行过程中,整个系统或功能模块无法运行,且持续 6个 小时无法恢复,严重损害客户的利益的突发事件;或者系统运行过程中的关键业 务出现严重错误,对公司正常运营和监测造成严重影响和巨大经济损失的突发事 件;或者网络故障造成大面积用户服务中断的突发事件。软件出现重大事件主要有:? 应用系统宕机,造成系统无法使用和正常运转。? 在IMS监控中出现数据断连情况,影响数据正常传递。? 数据库中数据丢失,给客户带来重大损失、影响正常监测。较大事件较大事件是指割接过程中或上线运行过程中,整个系统或功能模块可以运行, 但是性能大幅下降,且持续 6个小时无法恢复,一定程度
6、上损害客户利益的突发 事件;或者系统运行过程中的关键业务出现较大错误,对运营监测造成较大影响 和较大经济损失的突发事件;或者网络故障造成部分用户服务中断的突发事件。软件出现较大事件主要有:?流程无法上传下达。?无法监控项目信息异动。一般事件一般事件是指割接过程中或上线运行过程中,整个系统或功能模块运行正常, 关键业务运行正常,但是性能有一定程度的下降;或者非关键业务可以开展,但 是存在一些问题,对正常运营监测造成较小影响的突发事件;或者网络故障造成少量用户服务中断的突发事件。?系统页面报错发生异常。?用户信息锁死,登录异常。?系统运行缓慢,影响客户正常使用。?监控异常,指标异常,阀值异常。?部
7、分功能模块报错无法使用。?网络连接出现异常,包括客户无法登录、数据无法传递等。5应急响应机制因下列原因对系统上线或上线运行造成特别严重影响,可能影响客户正常使 用和其他工作停滞。(1)通道与网络故障;(2)主机设备、操作系统、中间件和数据库软件故障;(3)应用服务故障;(4)应用程序发布故障或应用系统数据丢失;(5)数据传输、接收重大错误;(8)机房电源、空调等重大环境故障;(9)大面积病毒爆发、蠕虫、木马程序、有害移动代码等;(10)非法入侵,或有组织的攻击;(11)自然灾害或人为错误操作导致数据严重破坏;(12)其他导致系统上线运行失败的原因。应急启动各应急配合单位、部门须严格按照应急预案
8、的安排完成相关准备工作。应急实施期间各工作检查人,必须每日对各项工作完成情况进行检查并签字 确认,记录未完成工作及原因;关键任务要按时间点进行检查。发生突发事件后,事件发生单位立即向应急工作组汇报。应急工作组接到II级应用突发事件的应急报告后,根据事件情况,决定是否启动应急预案,并将结果上报应急指挥中心。应急工作组接到I级应用突发事件报告后,立即向公司应急指挥中心报告, 公司应急指挥中心根据事件情况进行应急处置决策,并启动应急预案。事件报告发生支撑系统应用突发事件时,由突发事件发现单位或人员直接向应急工作 组及本单位领导汇报。报告分为紧急报告和详细汇报。紧急报告是指事件发生后,各级单位或部门
9、向应急工作组以口头和应急报告表形式汇报事件的简要情况;详细汇报是指由应 急处理机构在事件处理暂告一段落后,以书面形式提交的详细报告。任何单位和个人均不得缓报、瞒报、谎报或者授意他人缓报、瞒报、谎报事件。事件报告的内容和格式要求:口头报告的内容主要包括事件发生的时间、概况、可能造成的影响等情 况。口头报告后应按照附件四格式用传真方式报送应急工作组,要求内容简 洁、清楚、准确。应急处置应急故障处理流程主要包括系统正式割接过程的应急故障处理和上线运行后 的应急故障处理。如果系统异常应当先由应急故障处理领导小组进行故障等级判定,后由应急 工作组进行故障类型判定及故障处理,以便在尽量短的时间内割接成功或
10、上线成 功。当突发事件发生时,首先由应急工作组进行事件等级判定;如果是 I级事件 (重大事件)需要上报应急指挥中心进行应急处理决策,以确定具体的应急措施; 如果是II级事件(较大事件),则直接上报应急指挥中心确定应急措施;如果是 III级事件(一般事件),则协调应急小组进行故障处理。其次,在事件等级判定 完成后,应急工作组需要进行故障类型的判定,并将判定结果交给各分类故障处 理小组进行故障处理。如果是I级事件(重大事件),则由应急指挥中心将应急措 施通知分类故障处理小组即刻进行处理。最后,由分类故障处理小组完成故障排 除工作。在正式上线运行后,如果发现系统无法运行,此时由应急故障处理领导小组
11、进行决策,可以启用容灾中心数据库和应用服务,并修改DNS配置接管生产中心的关键业务,在系统设备或系统软件故障修复后在将数据库和应用服务回切到生 产中心。如果系统性能出现问题,可以依次对网络、程序、配置、数据库及应用 服务器问题逐步进行排除,相应的措施包括优化网络、改进程序代码、修正配置、 增加应用服务器分担负荷、暂停部分非关键业务以减少业务总量、优化数据库后 台操作脚本等。如果是系统缺陷,则需要修复缺陷。当突发事件由II级发展为I级或发生I级突发事件后,应急工作组接到应急 报告后,立即上报公司应急指挥中心,公司应急指挥中心启动公司应急预案,协 调公司其他应急资源支持应急处理,支持事件相关单位及
12、时、有效地进行处理, 控制事件发展。及各单位信息网络管理维护部门负责本单位所辖的广域网及局域网的通道、 设备的稳定运行。当发生病毒、非法入侵、网络攻击、有害信息传播、不符合规 定的涉密信息传播等事件时,迅速调整网络安全设备的安全策略或隔离事件区域, 查找源头,采取有效措施,控制事件的发展。当发生外力破坏时迅速修复,并立 即启用备用通道,短时间内恢复通道正常。应急结束在同时满足下列条件下,应急指挥中心可决定宣布解除应急状态: (1)突发事件已得到有效控制,情况趋缓。(2)突发事件处理已经结束,设备、系统已经恢复运行应急指挥中心应及时向现场应急工作组和参与应急支援的有关单位传达解除 应急状态响应的
13、指令,恢复正常生产工作秩序。系统上线,系统稳定运行,转入运行维护阶段。6后期处置6.1后期观察I级信息支撑系统突发事件应急处理结束后应密切关注、监测系统2周,确认无异常现象。II级信息支撑系统突发事件应急处理结束后应密切关注、监测系统1周,确认无异常现象。III级信息支撑系统突发事件应急处理结束后应密切关注、监测系统2天,确认无异常现象。调查与评估软件系统突发事件应急处理结束后,严重影响到公司利益和用电客户利益的 重大、较大事件,应急工作组按照相关规定或要求,对事件产生的原因、影响进 行调查和评估,对责任进行认定。调查报告按公司规定报有关部门,同时报送营 销部。总结与整改系统突发事件应急处理结
14、束后,相关单位应组织研究事件发生的原因和特点、 分析事件发展过程,总结应急处理过程中的经验和教训,进行应急处置知识积累, 进一步补充、完善和修订运行维护应急预案。系统突发事件应急处理结束后,相关单位应会同应急工作小组结合运行过程 中的异常和事件,综合分析系统应用中存在的关键点和薄弱点,提出该类事件的 整改措施,制定整改实施方案并予以落实,整改措施和方案报公司运营监控中心 备案。7应急保障措施物资保障应急物资主要有服务器、磁盘阵列、备品备件、常用工具和常用工具软件。人员保障指挥中心办公地点设置在公司总部或大区级总部(西北、西南、东北) 。核心 人员构成有项目经理、组长、副组长和实施人员。突发事件
15、应急技术支持队伍的 建设,保证业务和技术骨干人员能够迅速到位。技术人员由指挥中心统一调配, 集中管理。通信保证应急期间,指挥、通信联络和信息交换的渠道主要有系统程控电话、外线电话、手机、传真、电子邮件等方式,有关应急联系的手机应保持24小时开机状态。8应急响应流程应急领导小组故障等级判定1应急工作组故障类型判定故障处理级【重大事件】 ii级【较大事件】 iii级【一般事件】-设备故障-系统软件故障-网络问题-软件问题-配置问题-应用服务器问题-数据转换问题异常现场工作组接口厂商项目经理组长 各应急小组9应急宣传及演练应急宣传应急工作组将应急预案发给相关单位、要求各单位加强学习应急演练针对关键业
16、务进行测试演练,关键业务包括全面监测、运营分析、协调控制、 全景展示等。10数据备份软件数据的安全性、完整性、可恢复性,需要建立高可靠性的备份系统,并 遵循以下原则:(1)稳定性:备份软件需可靠、稳定;(2)全面性:集成了 UNIX主机、Windows服务器、SAN结构磁盘系统、备份 磁带库等多种产品,要求备份软件能够适应复杂的环境和扩展性能的要求,并 提供多种操作系统平台、多种主机、多种备份方式的支持;(3)全自动备份:备份系统能够根据应用特点,制定备份策略,备份系统自 动按时驱动磁带库,并完成数据的备份,同时生成备份工作记录,供系统管理 员查看;(4)高性能:备份系统减少对备份服务器性能产
17、生影响,采用高速的SAN结构Lan_Free备份方式;(5)可管理性:要求备份系统易于维护和管理,提供图形化界面;(6)实时性:支持在线备份数据功能;(7)可恢复性:灾难或故障发生后,备份系统在最短的时间内完成数据自动 恢复到原来的状态;(8)高效的介质管理:备份系统支持将备份介质中自动加入电子标签,可以 在备份和恢复中迅速定位磁带;备份需求软件数据备份具体要求为:(1)备份应在晚间进行,8个小时内完成一次数据全备份操作,2小时内完成 每天增量备份操作;(2)可以对数据进行集中备份,根据业务需求灵活定制备份策略;(3)数据库采用SAN#储网络的Lan_Free备份方式,操作系统和应用程序可以采
18、用本地磁带机备份方式;备份范围包括系统数据(操作系统、应用程序)、数据库数据(基础业务数据、 轻度汇总数据、重度汇总数据,源数据可以不做备份)和 Cube文件。备份策略软件的备份技术要求和备份方案设计原则上,具体的备份策略如下:表1软件数据备份策略表备份内容服务器/ 服务器名备份介质备份方法备份时 间备份频率保留 周期保留份 数系统备份操作系统全部服务 器本地磁带 库手动备份改变系统配置后进行 操作系统备份1数据库软 件、配置 文件数据库服 务器本地磁带 库手动备份1应用服务 器软件、 配置文件、应用 程序应用服务 服务器本地磁带 库手动备份1数据库备 份基础业务 数据 轻度汇总 数据 重度汇
19、总 数据软件数据 库磁带库/ 虚拟磁带 库增量备份每天1天1周2软件数据库磁带库/虚拟磁带库全备份周日1月2月2文件备份CUBES:#BI服务器文件服务器全备份每天1月1周111快速恢复方案系统恢复方案当发生灾难时,应针对备份策略的制定来开展数据恢复工作。恢复时间至少 为24小时(包括更换受损硬件设备等操作),同时搭建临时的系统应对系统使用 需求。当发生系统应急情况时,采取以下总体计划:由技术人员确定其故障原因收集数据库备份文件;通知技术人员进行处理;通知用户启动应急方案;执行数据恢复工作;测试并由用户验收;数据库复制目的与原则1)对现有生产的影响小灾备数据复制技术的设计,不应引起生产性能的大
20、幅下降、也不应对现有对 生产环境中的系统、应用、数据类型和整体结构产生较大改动。尽可能的选取适 合生产环境的数据复制技术和模式,降低对生产系统的影响。2)多对一、灾备资源共享对性质和类型(数据类型、存储位置、数据属性)相同或相近的数据尽可能 的采用相同数据复制技术。采用多对一的数据复制技术,实现灾备中心资源共享, 提供资源利用率、便于后期运行维护管理。3)健壮性、稳定性、容错性数据复制技术和数据传输链路的设计要充分考虑其健壮性、稳定性和容错性。 数据复制链路的设计要尽可能考虑高可用设计,确保数据的持续保护。4)数据完整性、一致性数据复制的完整性、一致性是数据复制保护的关键考量点,需要我们在设计 数据复制技术的时候充分考虑,不遗漏数据。5)精简数据、节省空间和带宽对非业务数据,例如操作系统数据,应用程序等,不纳入灾备保护范围,以 达到节省磁盘空间、减少复制带宽。在不影响生产性能的前提下,数据传输考虑 启用压缩功能,提高带宽资源利用率。6)集中复制结合优化整合的工作,在合理的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025关于水果采购合同
- 2025建筑外墙保温工程施工合同模板
- 2025成都市物业管理服务合同范本
- 2025保险公司合同格式模板
- 2025年企业借款合同范本(商业借贷)
- 2025汽车买卖合同模板
- 2025年北京市移动电话入网合同(适用于签约后付费用户)
- 美食团购网站方案策划书
- 2025年环氧脂肪酸甲酯合作协议书
- 超市商品的定位分析
- 中国话剧史专题知识
- GB/T 15544.1-2023三相交流系统短路电流计算第1部分:电流计算
- GB/T 90.3-2010紧固件质量保证体系
- GB/T 18799-2020家用和类似用途电熨斗性能测试方法
- 科技公司涉密计算机软件安装审批表
- GA/T 1369-2016人员密集场所消防安全评估导则
- GA 1517-2018金银珠宝营业场所安全防范要求
- FZ/T 64014-2009膜结构用涂层织物
- 卫生统计学-回归与相关
- 德国政治制度简介课件
- 高考试卷命题设计的技巧 课件24张
评论
0/150
提交评论