灾备技术方案建议书_第1页
灾备技术方案建议书_第2页
灾备技术方案建议书_第3页
灾备技术方案建议书_第4页
灾备技术方案建议书_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 存储容灾专业服务灾备技术方案建议书目 录 TOC h z t 标题 1,1,标题 2,2,标题 3,3,标题 7,1,标题 8,2,标题 9,3,Heading1 No Number,1 HYPERLINK l _Toc523588127 1.1 项目背景 PAGEREF _Toc523588127 h 4 HYPERLINK l _Toc523588128 1.2 建设目标 PAGEREF _Toc523588128 h 4 HYPERLINK l _Toc523588129 1.3 建设原则 PAGEREF _Toc523588129 h 5 HYPERLINK l _Toc523588

2、130 1.4 依据标准 PAGEREF _Toc523588130 h 6 HYPERLINK l _Toc523588131 1.5 指导思想 PAGEREF _Toc523588131 h 6 HYPERLINK l _Toc523588132 3.1 总体方案架构 PAGEREF _Toc523588132 h 8 HYPERLINK l _Toc523588133 3.2 生产中心存储高可靠容灾方案 PAGEREF _Toc523588133 h 9 HYPERLINK l _Toc523588134 3.2.1 方案概述 PAGEREF _Toc523588134 h 9 HYPE

3、RLINK l _Toc523588135 3.2.2 方案拓扑 PAGEREF _Toc523588135 h 10 HYPERLINK l _Toc523588136 3.2.3 方案关键技术 PAGEREF _Toc523588136 h 11 HYPERLINK l _Toc523588137 3.2.4 存储高可用实现 PAGEREF _Toc523588137 h 13 HYPERLINK l _Toc523588138 3.2.5 方案价值 PAGEREF _Toc523588138 h 14 HYPERLINK l _Toc523588139 3.3 同城应用级容灾方案 PAG

4、EREF _Toc523588139 h 15 HYPERLINK l _Toc523588140 3.3.1 方案概述 PAGEREF _Toc523588140 h 15 HYPERLINK l _Toc523588141 3.3.2 方案拓扑 PAGEREF _Toc523588141 h 16 HYPERLINK l _Toc523588142 3.3.3 阵列远程复制技术 PAGEREF _Toc523588142 h 17 HYPERLINK l _Toc523588143 3.3.4 同城容灾实现 PAGEREF _Toc523588143 h 19 HYPERLINK l _T

5、oc523588144 3.3.5 方案价值 PAGEREF _Toc523588144 h 19 HYPERLINK l _Toc523588145 3.4 其他数据系统的灾备 PAGEREF _Toc523588145 h 20 HYPERLINK l _Toc523588146 3.5 可视化容灾管理平台 PAGEREF _Toc523588146 h 21 HYPERLINK l _Toc523588147 3.5.1 概述 PAGEREF _Toc523588147 h 21 HYPERLINK l _Toc523588148 3.5.2 功能 PAGEREF _Toc5235881

6、48 h 21 HYPERLINK l _Toc523588149 3.5.3 工作原理 PAGEREF _Toc523588149 h 22 HYPERLINK l _Toc523588150 5.1 容灾切换方案 PAGEREF _Toc523588150 h 25 HYPERLINK l _Toc523588151 6.1 预案的制定原则 PAGEREF _Toc523588151 h 28 HYPERLINK l _Toc523588152 6.2 预案的制定流程 PAGEREF _Toc523588152 h 28 HYPERLINK l _Toc523588153 6.3 灾难恢复

7、预案的培训和演练 PAGEREF _Toc523588153 h 29 HYPERLINK l _Toc523588154 6.4 灾难恢复预案的管理 PAGEREF _Toc523588154 h 29 HYPERLINK l _Toc523588155 6.5 灾难恢复流程 PAGEREF _Toc523588155 h 30 HYPERLINK l _Toc523588156 7.1 业务迁移风险分析及应对措施 PAGEREF _Toc523588156 h 34 HYPERLINK l _Toc523588157 7.1.1 基础设施风险及应对措施 PAGEREF _Toc523588

8、157 h 34 HYPERLINK l _Toc523588158 7.1.2 基础数据风险及应对措施 PAGEREF _Toc523588158 h 34 HYPERLINK l _Toc523588159 7.1.3 应用系统风险及应对措施 PAGEREF _Toc523588159 h 35 HYPERLINK l _Toc523588160 7.2 业务系统迁移方案工程界面 PAGEREF _Toc523588160 h 36 HYPERLINK l _Toc523588161 7.2.1 业务迁移步骤 PAGEREF _Toc523588161 h 36 HYPERLINK l _

9、Toc523588162 7.2.2 xx公司工作 PAGEREF _Toc523588162 h 37 HYPERLINK l _Toc523588163 7.2.3 系统集成商工作 PAGEREF _Toc523588163 h 37 HYPERLINK l _Toc523588164 7.2.4 软件厂商和存储厂商工作 PAGEREF _Toc523588164 h 37 HYPERLINK l _Toc523588165 7.2.5 组建工程实施组织机构 PAGEREF _Toc523588165 h 38 HYPERLINK l _Toc523588166 7.3 容灾方案实施设计

10、PAGEREF _Toc523588166 h 39 HYPERLINK l _Toc523588167 7.3.1 虚拟化网关迁移实现高可用系统 PAGEREF _Toc523588167 h 39 HYPERLINK l _Toc523588168 7.3.2 存储复制实现异地容灾方案 PAGEREF _Toc523588168 h 43 HYPERLINK l _Toc523588169 7.4 数据迁移应急方案 PAGEREF _Toc523588169 h 44 HYPERLINK l _Toc523588170 7.5 数据移植后的技术支持 PAGEREF _Toc52358817

11、0 h 45 HYPERLINK l _Toc523588171 7.6 应用系统迁移建议 PAGEREF _Toc523588171 h 46项目概述项目背景渤海财险拥有25家省级机构,200多家地市级和县级机构,提供交通工具保险、财产保险、工程保险、运输保险、责任保险、保证保险、意外伤害保险、短期健康保险等16大类保险产品。随着公司业务的扩展,信息化建设不断发展,为提升渤海财险信息化建设水平,渤海财产保险股份有限公司决定对信息系统生产中心基础架构进行重大升级并建设灾难备份中心。本项目将构建具有先进系统架构的xx公司信息系统基础架构,为公司未来三年发展提供有力的信息化保障,并具有良好的可扩展

12、性、可维护性和高可用性;项目覆盖xx公司现有全部生产业务系统,涉及核心业务系统、财务总账系统(ERP)、呼叫中心、报表系统、销售支持系统、办公OA系统、财务资金(准备金)管理系统、VMware虚拟机系统等业务系统的硬件环境更新,同时也为了提升xx公司信息化系统抵御重大运营事故风险、重大自然灾难能力,并满足保监会对保险公司重要信息系统灾难恢复能力的要求。为了保证信息系统的安全,xx公司有限公司启动了2013年信息系统灾备系统建设工作。建设目标xx公司系统建设的总体任务是:提高信息系统灾难恢复能力,完善信息系统风险预防机制,确保数据安全,保障业务连续性,增强企业竞争力。xx公司容灾系统建设目标分为

13、一期建设目标和二期建设目标。一期建设目标是:建设本地高可用系统,同城应用级的点对点容灾系统。二期建设目标是:建设同城+异地两地三中心容灾系统。本项目一期生产至灾备中心距离约为20至60公里,生产灾备之间IP网络带宽50MB,二期,生产中心至异地灾备中心距离约为200至1000公里,生产灾备之间IP网络带宽50MB。建设原则高可靠性容灾系统建设遵循高可靠性原则,以确保灾难和重大事故发生后核心业务能够及时恢复,确保核心业务系统的数据安全和业务运行的连续性。同时容灾系统的可靠性不能影响各生产系统的可靠性,设计应保证生产系统的高可靠性。高安全性容灾系统建设遵循高安全性原则,以确保灾难和重大事故发生后网

14、络和信息系统能够安全运行,同时容灾系统的建设应满足华能集团信息安全的要求,不能造成生产系统数据的丢失和泄密。可扩展性容灾系统建设遵循可扩展性原则,需充分考虑与现有业务系统的衔接,将相关系统逐步进行整合使其成为一个完整的业务系统,并充分考虑容灾范围扩大和容灾等级变更、虚拟化和云计算技术发展时系统的平滑过渡,同时需满足xx公司有限公司三至五年的信息化建设发展要求,保证系统将来的可扩展性。灵活性支持各种业务不同的RTO和RPO需要。通用性支持不同操作系统、数据库、应用软件系统的容灾需要。性能要求容灾系统应满足预定RTO和RPO要求,保证数据的一致性和系统的可用性。容灾系统的技术选择应对容灾范围内的全

15、部或部分系统出现全局性环境灾害(水灾、火灾、地震、停电等)、硬件损坏(设备故障、损毁等)、逻辑错误(操作错误、软件故障、设置问题等)、主动性变更(系统迁移、软硬件改造等)等方面问题仍满足预定RTO/RPO要求。分步实施本项目建设遵循“统一规划,分步实施”的原则,确保分步实施时系统的完整性,避免重复投资和资源浪费。良好的管理性和维护性容灾系统是一个复杂的系统,其设计要求架构合理,模块清晰。系统设计中需要考虑可管理性和可维护性,便于系统管理员完成日常及应急时的管理和维护工作。依据标准为达到容灾系统的建设目标,项目建设方案必须符合以下国家标准和行业要求:信息系统灾难恢复规范GB/T 20988-20

16、07保险业信息系统灾难恢复管理指引【保监发200820号】指导思想信息系统容灾建设按照“平战结合”的思路,遵循“容灾中心”建设的一般方法,本着高效能、低成本、全方位的建设原则,整体规划,分步实施,充分利用现有设备,采用虚拟技术整合信息资源,优化系统结构,实现负载均衡,建成集生产中心、容灾中心、数据分析中心功能于一体的信息系统容灾体系。项目建设内容灾备系统建设实施过程中,涉及方面广,建设内容复杂,以下所列内容为分项建设内容:生产业务的迁移高端存储数据的迁移,涉及核心生产数据库、财务、报表、OA、BI、销管、呼叫中心、准备金等业务系统的数据迁移,基于存储数据的迁移可提供镜像数据同步构建高可用的方案

17、。Oracle数据库、中间件WebSphere、核心业务系统向Power VM的迁移以及IBM WAS等业务系统高可用设计,需要各业务系统开发商以及Unix服务器厂商为主体,高端存储厂商可积极配合。VMware系统的迁移及灾备方案实施VMware系统的迁移,可以由新购服务器厂商主导实施。灾备方案基于IBM V7000远程复制技术构建,可由相应存储厂商主导实施,相关虚拟化软件和服务器厂商积极配合。灾备方案实施xx公司基于高端存储的Oracle业务系统数据容灾可由存储厂商主导实施,涉及中间件、应用系统级别的容灾,可由相关软件厂商主导,存储厂商积极配合。生产系统的搬迁后续新中心建设完成后,将此次构建

18、的高可用系统完整的搬迁至新建数据中心,由于生产中心有不同厂商的设备,分别由相关的厂商进行各自设备搬迁方案的设计、执行。业务系统搬迁后,需保证各个厂家的设备都能正常恢复使用,进而整个业务系统能够正常恢复,灾备系统正常恢复。灾备手册的制定灾备系统建成,积极配合完成灾备系统实施手册、灾备切换、灾备演练及灾难恢复预案流程化管理的方案。为了提升生产业务系统的处理能力,提高业务系统运行的安全性,新的生产中心各业务系统硬件环境部署新购的UNIX服务器、X86服务器、高端存储等设备。最终建设本地高可用、同城应用级容灾系统,满足保监会对保险行业业务系统灾难恢复能力的要求。容灾技术方案总体方案架构本次项目的总体方

19、案架构如下图所示: 本次容灾的主要目的是为xx公司生产中心,建设同机房内本地高可用系统,和关键应用级系统同城应用级容灾中心,二期将考虑建设异地容灾中心,避免区域性大灾难造成的数据丢失。一期建设灾难场景包括大楼灾难, 存储宕机, 主机宕机, 逻辑错误等几大类。同城应用级容灾中心的应用级灾备服务器建议以生产中心IBM小型机为主,X86为辅。策略是数据库使用IBM的小型机, 将其他可以剥离的模块用X86替代,以提高性价比,同时部署一台服务器为容灾管理服务器,可对生产中心、灾备中心IT设备进行统一监控和实现容灾业务快速恢复。总体方案架构思路如下:生产业务系统全部经过迁移改造后,在已有的生产SAN网络里

20、, 加入存储虚拟化网关,将生产中心的已有存储进行虚拟化管理,构建存储资源池,方便存储分配、扩容和统一管理;生产端增加一台华为高端存储,通过虚拟化网关的镜像功能将已有的存储数据通过虚拟化网关全部镜像到新购华为高端存储,确保存储的高可用,避免单台存储宕机导致的应用不可用,规避单产品故障或BUG导致业务系统中断,满足保监会对保险公司重要信息系统灾难恢复能力的要求。为解决生产中心逻辑错误的问题,可对生产中心的存储设置定时快照策略。当发生逻辑错误或误操作时,将快照覆盖当前的存储数据, 达到数据回滚的作用。同城容灾中心部署与生产中心同等配置的华为高端存储,通过存储复制技术实现同城容灾中心的应用级容灾,同时

21、在容灾中心部署容灾管理服务器,对容灾业务及容灾设备进行管理。生产中心,同城应用级的容灾中心,以及二期异地容灾中心之间租用运营商专网,本容灾系统方案中不考虑网络与安全建设需求。生产中心存储高可靠容灾方案方案概述考虑到应用系统现状和业务的发展趋势,以及对容灾系统的建设需求和目标,华为提供了基于虚拟化智能存储设备VIS6600T镜像功能的本地高可用方案。通过VIS6600T,实现现网HDS USP-VM与新采购华为HVS 185000之间的数据实时镜像。OceanStor VIS6600T提供Active-Active的系统架构,并发处理应用服务器的I/O请求,均衡负载。通过VIS镜像功能,将来自多

22、阵列的两组LUN虚拟为一组VIS镜像卷为主机提供数据服务,保证两个存储阵列之间数据的实时同步。在实现数据冗余的同时,VIS有效的实现了主机层和阵列层的隔离,主机只能“看到”VIS提供的一组镜像卷,阵列层的故障切换对主机层透明。当其中一台存储阵列故障时,另一台存储阵列自动无缝接管业务,提供不间断的数据访问能力。通过VIS的虚拟化功能,实现对各种存储阵列的统一接管,将数据中心里不同厂商、不同类型的存储阵列资源池化,实现存储资源的整合和优化,提高资源利用率。当单阵列故障时,VIS镜像卷选取正常运行的存储阵列响应主机I/O,并采用差异位图盘记录故障期间数据的变化情况,待故障修复后进行增量同步,从而减少

23、数据同步量,缩短数据同步时间,降低数据同步对带宽的需求。方案拓扑基于VIS6600T镜像功能的本地高可用方案需要在生产中心部署VIS6600T,旁路接入到生产中心的SAN网络中。同时提供华为的高端存储设备OceanStor 18500作为生产中心的镜像存储。该方案网络拓扑如下图所示。 组网说明:生产中心中已经部署了HDS USP-VM存储。虚拟化网关VIS6600T为新增的设备,旁路接入到生产中心现有的FC SAN网络,将现有存储以及新部署的华为高端存储OceanStor 18500统一接管,并使用VIS镜像技术,对现网存储与OceanStor 18500配置镜像关系,同时将VIS镜像卷以共享

24、的方式提供给上层服务器。本项目考虑到现网业务系统的压力及可靠性需求,采用四节点集群。方案关键技术镜像技术VIS镜像卷技术可保证两个存储阵列之间数据的实时同步。由于VIS镜像卷技术对主机层透明,当任一存储阵列故障时,镜像阵列无缝接管业务,数据零丢失,业务零中断。VIS镜像卷配置对象关系图如下所示。虚拟化网关镜像的写I/O流程如下:写请求到镜像卷;镜像卷将请求复制为两份下发到两中心的镜像数据盘;镜像数据盘返回写操作完成;镜像卷返回写I/O操作完成。虚拟化网关镜像的读I/O流程如下:读请求到镜像卷;镜像卷根据读策略下发请求到其中一个中心的镜像数据盘;镜像数据盘返回读数据;镜像卷返回读数据。当单阵列或

25、单数据中心故障时,镜像卷选取正常数据中心的阵列响应主机I/O,并采用差异位图盘记录故障期间数据的变化情况,待故障修复后进行增量同步,从而减少数据同步量,缩短数据同步时间,降低数据同步对带宽的需求。集群技术VIS6600T集群采用Active-Active存储架构,正常情况下各节点同时工作,并发处理主机的业务请求。各节点互为备份,当其中一个或多个节点发生故障的时候,剩余节点会快速地自动接管其业务,保证业务运行的连续性。VIS6600T集群可以将业务均衡到多个节点上处理。这种均衡的分担业务的方式,叫做负载均衡。能更有效的利用资源,提高系统的工作效率和性能,用户可以从集群系统的投资中获得最大的价值。

26、VIS6600T集群支持在线动态扩容节点,不影响现网业务的运行。VIS6600T集群支持最多8个节点,扩容时只需在阵列上把LUN映射给新增节点,并将新增节点接入集群的私有通信网络中。新增节点上电后,原有集群会自动检测到新增节点的加入,自动同步相关的配置信息并添加新增节点到集群中,便捷地完成集群的节点扩容。当前VIS6600T集群不能满足日益增长的业务需求时,用户可以购买新的节点,对现有集群进行扩展。存储高可用实现存储高可用方案实施步骤如下所示:生产中心将VIS6600T接入现有SAN网络,对已有的异构磁盘阵列以及华为高端进行虚拟化,由VIS6600T统一接管,并映射给应用服务器。在生产中心将现

27、网存储和镜像存储设置为镜像关系。启动同步,将生产存储设备中的数据同步到镜像存储上。 主机下发写请求到VIS6600T,VIS6600T同时写入生产阵列和镜像阵列。生产阵列上的生产卷和容灾阵列上的镜像卷之间的数据保持严格一致,主机只见到一个卷,对镜像过程无感知。方案价值通过华为本地高可用方案,能给xx公司带来如下价值:可靠性高通过存储虚拟化网关镜像实现的高可用方案,镜像卷和生产卷实时在线更新,保持完全一致,可靠性非常高。同时,存储虚拟化网关设备所有关键部件都是冗余配置的,不会出现单点故障。其控制器之间采用了集群技术,可以工作在Active-Active模式。可以实现故障切换也可进行负载分担。另外

28、,生产中心也可消除阵列单点故障风险,实现服务器、网络和存储阵列的全冗余架构:服务器层已通过上层应用的Cluster软件,实现了双机部署;服务器到VIS以及VIS到存储阵列的SAN网络,建议都采用FC双交换组网,并分别通过华为UltraPath多路径软件实现链路的冗余和容错;存储阵列层通过VIS提供的镜像技术,实现上层业务数据的实时双写到两台阵列,数据绝对零丢失(RPO=0),且当存储阵列计划内维护或计划外宕机时,状态正常的存储阵列自动接管其业务,不会造成业务停顿,即业务零中断(RTO=0)。不影响主机性能 镜像的实现,完全在存储虚拟化网关上配置和执行,不占用主机资源,主机无感知,不影响主机操作

29、性能。 故障切换不需要中断业务 数据的迁移,阵列故障时的切换,故障阵列的更换都可以在线进行,无需主机暂停业务。 可扩展性好 通过存储虚拟化网关对存储的虚拟化,可以轻松实现跨不同阵列的镜像,后续随着业务的发展,涉及到存储资源的扩容,可将新购存储直接挂接给VIS统一对上层业务提供存储空间。同时,对主机操作系统、数据库、文件系统格式兼容性也很高。这对于后续的存储、主机系统的扩容非常有利。 易管理维护 存储虚拟化网关可提供图形化管理界面,统一管理多台存储虚拟化网关设备,大大提升了管理效率。操作简单,图形直观,支持向导式配置界面。 如果任何器件发生故障,都可以在线进行更换。系统提供完善告警机制,实时监控

30、设备运行状态,故障信息可以在告警页面上实时查看。 可提高读性能VIS6600T同时支持灵活的读策略,可以指定生产阵列读取数据,也可以同时从镜像阵列读取数据。从具体读取方式看,主要包括“顺序读数据”和“轮询读数据”两种方式,若选择采用轮询读的方式可提高整体读性能。主机向VIS6600T发出读数据操作后,VIS6600T向生产阵列或镜像阵列发出读数据操作,其中第一个I/O发给第一个阵列,第二个I/O发给第二个阵列,直到第n个I/O发给第n个阵列,通过轮询方式来访问阵列,如下图所示。这样“读操作”可以并发执行,大大提升系统原有的读性能。对于以“读”操作为主的业务而言非常适合。同城应用级容灾方案方案概

31、述同城容灾方案基于华为高端存储OceanStor 18500远程复制构建。采用生产中心华为OceanStor 18500的远程复制功能,将数据从生产中心通过容灾链路复制到灾备中心的华为OceanStor系列磁盘阵列。同时灾备中心高端存储可以选择配置快照功能,使得在容灾中心也能够提供历史时间点的数据保护。OceanStor存储阵列同时支持同步远程复制(HyperMirror/S)和异步远程复制(HyperMirror/A)两种主流的远程复制技术,当期生产数据中心与同城容灾数据中心之间采用IP链路,采用异步远程复制技术。方案拓扑同城应用级容灾方案网络拓扑如下图所示。生产中心本地高可用方案保证生产数

32、据实时写入生产端OceanStor 18500磁盘阵列;生产中心和容灾中心的磁盘阵列均配置异步远程复制功能,通过建立异步远程复制关系,实现对生产数据的容灾保护;灾备中心部署恢复业务系统所需的应用服务器、数据库服务器,并通过FC SAN交换机与华为存储组成专用的存储网络;部署容灾管理软件,可对生产中心、灾备中心IT设备进行统一监控和实现容灾业务快速恢复。阵列远程复制技术华为OceanStor系列存储阵列之间支持基于FC链路或IP链路的数据远程复制。复制策略包括同步和异步两种。同步远程复制对于同步远程复制而言,每一个写请求都需要同时写到主站点和灾备站点以后才会返回生产主机写完成,在主站点和灾备站点

33、相距较远的情况下,存储系统对前台应用程序的写延迟较高,不利于用户正常业务的运行。因此,同步远程复制HyperMirror/S主要应用于主站点和复制站点相距较近的容灾场景,如同城灾备,且为了减小延时,建议用FC链路。OceanStor存储阵列的同步复制名为HyperMirror/S,利用日志原理实现主、从LUN的数据一致性,同步复制实现原理如下图所示。同步复制实现过程如下:当主站点的主LUN和远端复制站点的从LUN建立同步复制关系以后,会启动一个初始同步,也就是将主LUN数据全量拷贝到从LUN。如果在初始同步时主LUN收到生产主机写请求,需要检查同步进度:若要写入位置的数据块尚未拷贝到从LUN,

34、只需要写主LUN即可返回主机成功,稍后利用同步任务将整个数据块同步到从LUN;若要写入位置的数据块已经拷贝,需要分别写入主LUN和从LUN;若要写入位置的数据块正在拷贝,需要等待该数据块拷贝完成后分别写入主LUN和从LUN。初始同步完成以后,主、从LUN数据完全一致,如果此时主LUN收到生产主机写请求,按照下面的流程进行I/O处理。主LUN接收生产主机写请求,记录这个I/O对应数据块的差异日志值为“有差异”;同时把写请求的数据写入主LUN和从LUN,写从LUN时需要利用配置好的链路将数据发送到远端复制站点;判断写主LUN和写从LUN的执行结果,如果都成功,则将差异日志改为“无差异”,否则保留“

35、有差异”,在下一次启动同步时重新拷贝这一个数据块;主LUN返回生产主机写请求完成。异步远程复制对于异步远程复制而言,存储系统对前台应用程序的写延迟与主站点和复制站点的距离无关,所以异步远程复制HyperMirror/A适用于长距离或网络带宽有限情况下的容灾场景。OceanStor 存储阵列的异步复制名为HyperMirror/A,其实现原理如下图所示。异步复制实现过程如下:当主站点的主LUN和复制站点的从LUN建立异步复制关系以后,会启动一个初始同步,也就是将主LUN数据全量拷贝到从LUN。如果在初始同步时主LUN收到生产主机写请求,只会将数据写入主LUN。 初始同步完成后,从LUN数据状态变

36、为已同步或一致(在整个初始同步过程中都没有主机写请求下发时,从LUN数据状态为已同步,否则为一致),然后开始按照下面的流程进行I/O处理。主LUN接收生产主机的写请求。写请求数据写入主LUN后,立即响应主机写完成。每当间隔一个同步周期以后,会自动启动一个将主LUN数据增量同步到从LUN的同步过程(如果同步类型为手动,则需要用户来触发同步)。在同步开始以前,先对主LUN和从LUN分别生成快照:主LUN的快照可以保证同步过程中读取到的主LUN数据是具备一致性的;从LUN的快照用于备份从LUN在同步开始前的数据,避免同步过程发生异常导致从LUN的数据不可用。主LUN向从LUN同步数据时,读取主LUN

37、快照的数据,复制到从LUN。主LUN向从LUN同步数据完成后,分别取消主LUN和从LUN的快照,然后等待下一个同步的到来。同城容灾实现当两生产中心软硬件部署完毕且联调成功后,即可实现基于存储复制的容灾。基于存储容灾的实现步骤如下所示。生产中心的数据库服务器和应用服务器的数据都通过FC SAN网络,数据集中存储在华为OceanStor 18500磁盘阵列的LUN中。阵列配置远程复制和快照功能;容灾中心部署华为OceanStor 18500磁盘阵列,配置远程复制和快照功能;初始数据复制:生产中心和容灾中心建立数据复制的IP链路;生产中心的数据LUN(即主LUN)与容灾中心的LUN(即从LUN)建立

38、异步远程复制关系;利用数据复制网络进行数据的初始同步;初始同步完成后,容灾中心存储与生产中心存储进行数据的增量同步。增量同步:异步复制:根据定制的异步复制同步周期(如间隔30分钟复制一次),自动将主LUN上的数据复制到从LUN。生产中心和容灾中心的阵列若配置了快照功能,可以根据快照策略定期对生产中心主LUN或容灾中心从LUN做快照,以实现对生产数据的数据保护和灾备数据的演练。方案价值异地容灾在两中心存储之间,配置基于阵列的异步复制。实现对生产系统业务数据的异地保护,为业务系统的异地容灾提供了便捷的实现途径。连续数据保护该方案可结合华为虚拟化网关和OceanStor 18500存储阵列的快照功能

39、,实现对业务数据的连续保护,确保当生产系统数据发生逻辑故障时,能够恢复到故障前的某个可用的时间点。灵活的在线接入该方案可在线(或较短的中断时间内)部署和实施。在该方案的建设过程中,对生产系统的在线运行几乎没有任何影响,充分保障了关键核心业务系统的连续性。只是在复制初始同步过程中对在线业务性能有少量影响。基于增量的复制在生产存储和容灾存储之间采用的复制技术是基于增量的复制。在完成初始化同步后,之后的每次复制同步均只需要复制主LUN上增加的数据。支持不同级别阵列复制支持不同级别的存储阵列之间配置复制。对于生产系统所使用的存储可以选用较高级别、配置规格也较高的存储阵列,以确保生产系统的可靠性和高性能

40、,而对于容灾系统所使用的存储则可以选用较低级别,配置规格也较低的存储阵列,以节省投资。易管理维护OceanStor存储阵列可提供人性化的图形化管理界面,统一管理多台OceanStor 存储阵列,大大提升了管理效率。操作简单,图形直观,支持向导式配置界面。如果任何器件发生故障,都可以在线进行更换。系统提供完善告警机制,实时监控设备运行状态,故障信息可以在告警页面上实时查看。其他数据系统的灾备(VMware灾备系统的建设,即V7000复制到V7000由其相关存储厂商完成)可视化容灾管理平台概述以容灾管理为核心,结合设备资源管理形成了华为统一容灾管理平台解决方案。将容灾相关的管理工作集中化、图形化、

41、流程化,帮助客户更好地建设、维护、使用容灾系统。 容灾管理和设备资源管理集成在一个界面内,界面统一,风格统一,实现设备、资源、容灾业务统一管理。其可视化容灾管理平台如下图所示。其容灾管理提供了容灾配置、容灾演练、数据切换以及应用切换功能,将分散、复杂的步骤统一到容灾管理软件之中进行整合,向用户提供简单易用的图形化向导式操作界面。容灾数据的传输是通过在阵列上配置自动数据同步实现的,该同步方式采用存储阵列提供的异步远程复制技术。功能统一容灾管理可视化展示数据中心内设备状态和全局拓扑图,关键信息一览无余向导式提示信息,快速实现容灾管理,操作步骤一目了然,降低管理人员技术门槛多站点容灾支持,容灾业务可

42、视化,生产和灾备中心关系非常清晰灵活智能的保护策略,支持关联保护策略,保证数据一致性容灾保护拓扑图,生产和灾备中心状态尽在掌握计划内和计划外的容灾演练和切换,并且可以查看恢复计划的执行历史记录设备资源管理解决之道集中监控管理:可视化监控存储、服务器、交换机、应用等,掌控存储资源分配、利用率、使用趋势情况。存储路径端到端可视化: 存储物理路径监控,可以掌控主机-主机磁盘-HBA-交换机(端口)-阵列端口-阵列控制器-阵列-卷(LUN)完整路径监控。存储应用逻辑关系可视化: 应用(数据库、虚拟机)-文件系统-磁盘-LUN完整业务逻辑关系监控。存储内部可视化: 前端主机端口-控制器-LUN-存储池-

43、硬盘的关联关系。工作原理保护策略工作原理用户可以根据自己的需要,制定保护策略。根据保护策略中用户制定的复制时间点,容灾管理软件Server会定时启动保护策略。首先,容灾管理软件Server会通知相应的业务主机Agent,待收到Agent返回后,容灾管理软件Server调用存储阵列的命令,开始进行用户指定的复制策略,如远程复制,这些命令都是异步执行,下发命令成功后立即返回。容灾管理软件Server持续监控阵列的复制情况,待整个复制完成后,并产生相应的事件告警,等待下次执行时间点。容灾演练工作原理容灾管理软件支持在不影响数据中心正常工作的前提下,在灾备中心验证应用的备份数据是否可用。首先,在灾备中

44、心,容灾管理软件对应用备份数据所在的设备(如远程复制的从LUN)做快照,生成一份当前备份数据的副本。根据用户配置的恢复策略中需要映射的主机,容灾管理软件将创建的快照映射到指定的主机,并调用该主机上的Agent执行扫盘、挂载动作,将快照挂载到指定的挂载点上。然后调用该主机上的Agent,执行拉起应用操作,如调用数据库等应用的接口,启动应用,根据应用是否正常来验证数据是否可用。容灾切换工作原理容灾管理软件支持生产中心发生灾难后,在灾备中心恢复应用所提供的服务。首先,在灾备中心,容灾管理软件会将备份数据所在的存储变为可读写状态(采用主从切换或者快照等多种方式,视复制时使用的复制方式而定)。根据用户配

45、置的恢复策略中需要映射的主机,容灾管理软件将备份数据所在存储映射到指定的主机,并调用该主机上的Agent执行扫盘、挂载动作,将快照挂载到指定的挂载点上。然后调用该主机上的Agent,执行拉起应用操作,如调用数据库等应用的接口,启动应用,根据应用是否正常来验证数据是否可用,接管生产端提供的服务。软硬件清单地点设备名称规格型号数量生产中心虚拟化智能存储VIS6600T2光纤交换机高端2存储阵列OceanStor 185001灾备中心光纤交换机中低端2存储阵列OceanStor 185001容灾管理软件APM&IC1容灾切换方案容灾切换方案当前,xx公司同城灾备系统为应用级灾备系统,而应用级灾备的基

46、础和前提是数据级灾备,数据级灾备关注数据的备份和恢复,应用级灾备在数据级之上,进一步提供业务接管和恢复能力。应用级灾备包括两个方面:数据同步和应用接管。数据同步是应用接管的前提。在保证数据同步基础上,要实现应用接管,还要能实现灾难发生时的网络切换和应用切换。下面将针对xx公司的情况从数据同步和应用接管这两个方面来阐述应用级灾备的实现方案。数据同步数据的同步是应用接管的基础,保障数据同步的完整性和实时有效性才能使得应用的接管有意义。灾备方案建设中数据的同步采用基于磁盘阵列的复制软件实现。复制技术只是实现了数据的同步,要达到应用接管的目的,还需要实现网络切换和应用切换。磁盘阵列同步有以下主要特点:

47、支持所有的数据类型,实现对所有业务系统数据灾备,是最全面的灾备保护方式;基于存储设备进行灾备,可以有效的解决对数据库服务器和各种应用服务器的计算资源的占用问题;部署简单,无需更改原来的文件系统。维护也更加简单,维护好存储灾备系统就可以。因此,数据同步从实现效果、成本、维护、资源占用、对原系统的影响几个角度来看,从磁盘阵列层面实现灾备系统的建设都是良好的选择。通过磁盘阵列进行数据同步之后,可以通过统一容灾管理平台实现备用服务器的快速启用,达到应用切换的目的,同时配合管理者的切换决策也更加方便,并能够有效降低误切换带来的风险,灾难恢复预案的建设规划将在下一章节详细介绍。应用接管在数据同步基础上,可

48、进一步考虑网络切换和应用切换,来实现应用级灾备。网络切换技术应用级灾备要求提供冗余的网络线路和设备。正常情况下,客户端通过生产中心的业务网络访问生产中心的应用服务器;在发生灾难时,通过网络切换,客户端能够访问到灾备中心的备用服务器。应用切换技术应用切换是指生产中心由于发生灾难而瘫痪时,可由灾备中心的备用服务器提供业务接管,确保业务运行的高连续性。实现应用切换的前提条件是:数据已经从生产中心同步到灾备中心;灾备中心配置与生产中心对应的应用软件服务器、数据库服务器和中间件服务器等,且运行正常;灾备中心网络运行正常或能够实现正常切换。应用切换技术主要有以下两种:(1)自动切换自动切换一般是通过远程集

49、群技术来实现,远程集群是指通过在生产中心和灾备中心的应用服务器上安装远程集群软件(例如Veritas Storage Foundation中的GCO组件),实现跨广域的多服务器状态的监控,当发生灾难时,实现应用服务器的自动切换。这种方式的主要弊端在于,多种潜在因素(例如集群服务器心跳线中断、网络短时间中断、应用服务器响应不及时等)容易导致在生产中心实际运行正常情况下进行误切换,运行风险高。我们知道,灾备中心的应用接管是一个管理和决策的过程,需要人为参与,无法完全交给机器和软件来替代完成的。其次,对于存在多应用情况下,采用自动切换,可能导致部分应用出现故障时切换,由灾备中心接管,而其它应用在数据

50、中心运行正常,没有切换,最终产生两个数据中心同时运行,造成数据混乱。另外,需要注意的是,即使实现了应用服务器(或者数据库服务器)的自动切换,也并不等同于应用的自动切换。一般来说,一个应用由应用服务器和数据库服务器构成,前者提供前端客户端的直接读写请求,并通过数据库服务器进行真实的读写操作,应用服务器本身并不进行数据存储操作,而数据库服务器才是真正和存储系统打交道的服务器。采用集群技术,能够实现应用服务器或数据库服务器的自动切换,但是应用服务器和数据库服务器之间往往存在着依赖关系,它们之间连接关系的建立,一般无法自动完成,因此也无法实现真正的应用自动切换。(2)手动切换方式手动切换方式实现较简单

51、,总体成本低,适用范围广,而且较可靠。采用这种方式时,灾备中心部署与生产中心相对应的应用服务器和数据库服务器,安装相应软件。在正常情况下,灾备中心服务器可选择不运行或者处于就绪状态但对外不可访问;发生灾难时,可在人为决策后,将灾备中心服务器启动或恢复对外访问,实现业务的快速切换。这两种方式比较如下:应用切换方式自动切换(远程集群)手动切换适用范围无限制无限制应用完全自动切换否否灾备中心日常可访问否否运行风险高,可能误切换低实施成本较高低维护工作量较高低通过对以上应用切换技术的分析,建议首选手动切换方式,减少误切的风险。容灾管理软件可以让手工切换的操作变得简单且快速。灾难恢复预案预案的制定原则灾

52、难恢复预案的制定要遵循完整性、易用性、明确性、有效性和兼容性的原则。完整性是指灾难恢复预案(以下称预案)应包含灾难恢复的整个过程,以及灾难恢复所需的尽可能全面的数据和资料;易用性是指预案应运用易于理解语言和图表,并适合在紧急情况下使用;明确性是指预案应采用清晰的结构,对资源进行清楚的描述,工作内容和步骤应具体,每项工作应有明确的责任人;有效性是指预案应尽可能满足灾难发生时进行恢复的实际需要,并保持与实际系统和人员组织的同步更新;兼容性是指灾难恢复预案应与其他应急预案体系有机结合。预案的制定流程通常预案的制定过程如下:初稿的制订:按照风险分析和业务影响分析所确定的灾难恢复内容,根据灾难恢复等级的

53、要求,结合单位其他相关的应急预案,撰写出灾难恢复预案的初稿。初稿的评审:单位应对灾难恢复预案初稿的全面性、易用性、明确性、有效性和兼容性进行严格的评审。评审应有相应的流程保证。初稿的修订:根据评审结果,对预案进行修订,纠正在初稿评审过程中发现的问题和缺陷,形成预案的修订稿。预案的测试:应预先制订测试计划,在计划中说明测试的案例。测试应包含基本单元测试、关联测试和整体测试。测试的整个过程应有详细的记录,并形成测试报告。预案的审核和批准:根据测试的记录和报告,对预案的修订稿进一步完善,形成预案的报批稿,并由灾难恢复领导小组审核和批准,确定为预案的执行稿。灾难恢复预案的培训和演练为了使相关人员了解信

54、息系统灾难恢复的目标和流程,熟悉灾难恢复的操作规程,单位应按以下要求,组织灾难恢复预案的教育、培训和演练:在灾难恢复预案规划的初期就应开始灾难恢复观念的宣传教育工作。应预先对培训需求进行评估,开发和落实相应的培训/教育课程,保证课程内容与预案的要求相一致。应事先确定培训的频次和范围,事后保留培训的记录。预先制订演练计划,在计划中说明演练的场景。演练的整个过程应有详细的记录,并形成报告。灾难恢复预案演练应保证至少每年一次。灾难恢复预案的管理保存与分发经过审核和批准的灾难恢复预案,应:由专人负责保存与分发。具有多份拷贝在不同的地点保存。分发给参与灾难恢复工作的所有人员。在每次修订后所有拷贝统一更新

55、,并保留一套,以备查阅,原分发的旧版本应予销毁。维护和变更管理为了保证灾难恢复预案的有效性,应从以下方面对灾难恢复预案进行严格的变更管理:业务流程的变化、信息系统的变更、人员的变更都应在灾难恢复预案中及时反映。预案在测试、演练和灾难发生后实际执行时,其过程均应有详细的记录,并应对测试、演练和执行的效果进行评估,同时对预案进行相应的修订。灾难恢复预案还应定期评审和修订,至少每年一次。灾难恢复流程当影响业务连续运行的灾难发生时,如果能够通过生产中心系统内部的冗余架构和本地的恢复手段来消除,则优先采用本地恢复;如果无法本地恢复,可根据灾难影响情况分析选择不同的业务系统恢复方式,第一种是采用灾备系统的

56、设备或设施以实现应用接管,第二种是选择业务系统不切换,待生产中心恢复后,从灾备中心恢复数据。为能尽早、尽快恢复应用系统的运行,各责任工作组必须按灾难恢复流程规范进行应用系统的恢复。若选择将业务切换至灾备中心的恢复方式,灾备中心完成接管后,系统存在无灾备保障的风险,因此应尽快恢复生产中心运行环境,将业务由灾备中心回切到生产中心,或将恢复后的生产中心作为当前系统的灾备中心,使得应用系统回复到有灾备保障的正常状态。当灾难发生时,需按照以下恢复流程启动灾难恢复预案。灾难上报灾难及故障通常由一线值班人员最先发现。由于值班人员未必有能力判断灾难影响,这阶段的主要工作是收集资料上报执行组进行灾难评估。当生产

57、中心应用系统数据丢失或破坏需要从容灾中心恢复时,即构成上报条件。灾难上报过程执行要点:在灾难出现的情况下,应尽量保证人员的安全。收集资料:受影响设备/设施/环境情况:服务器、光纤交换机、存储、磁带库、磁带、网络设备、广域网线路、电源、空调、电线、光纤等;机房环境破坏情况;灾难情况:灾难原因,地震、雷电、风灾、雹灾、雪灾、水灾等自然灾害;污染;火灾、水灾等结构性破坏;外部黑客、计算机病毒、软硬件故障等人为破坏/过失等;员工伤亡情况;灾难发生时间、估计恢复时间;其他情况。向执行组汇报资料,由执行组进行灾难评估灾备中心监控人员发现生产系统故障告警而无法与生产中心联系时,应负责上报。灾难评估灾难恢复执

58、行组根据灾难引发原因,目前业务和系统的情况、可行的恢复手段、所需的恢复时间,决定采用何种恢复方式的建议,编制灾难评估报告,并且提交评估报告给领导小组。灾难评估执行要点值班的执行组成员根据上报资料,初步了解情况;尽可能邀请相关人员召开会议;分析资料包括不限于以下内容:受影响设备/设施/环境情况:服务器、光纤交换机、存储、磁带库、磁带、网络设备、区域广域网线路、电源、空调、电线、光纤等;机房环境破坏情况;灾难情况:灾难原因,如地震、雷电、风灾、雹灾、雪灾、水灾等自然灾害;污染;火灾、水灾等结构性破坏;外部黑客、计算机病毒、软硬件故障等人为破坏/过失等;员工伤亡情况;灾难严重程度、灾情的发展趋势;如

59、需要,咨询多方技术人员(员工,集成商,合作伙伴,设备供应商等);研究可行的应对措施,估计恢复时间;评估要尽快完成,评估报告要尽早提交;提交评估报告给相关领导组审阅,确定恢复方式,确定是否进行应用切换。应用切换若生产中心发生故障,数据丢失且短时间内无法恢复生产系统环境,建议灾备中心和生产中心相关灾难恢复人员根据灾难应对计划执行手册相关步骤,完成应用切换工作。应用切换过程执行要点:在灾备中心强行进行主从切换,将灾备中心的从LUN提升为新的主LUN;将新主LUN映射给备用服务器,进而恢复业务。应用回切当生产中心恢复后,需要将灾备中心的业务进行回切,首先需要将灾备中心新的数据反向复制回生产中心,完成生

60、产中心的数据恢复工作,然后在生产中心重新启动业务。应用回切过程执行要点:确认生产中心生产环境应用系统已经恢复完毕;工作人员将灾备中心数据副本恢复到生产中心系统中;检查操作日志,补回灾难期间离线作业的数据,并进行检查,确保业务数据的完整性,一致性;启动应用系统;重新启动生产中心到灾备中心的数据复制关系设置。若生产中心在业务中断可以承受的时间内能够恢复系统,则不选择业务切换,而是待生产中心恢复之后,将灾备中心的数据副本反向恢复至生产中心,进而恢复业务。消息发布措施为了制止和减少流言,公司高层领导应出面稳定员工、合作伙伴、股东等的不安情绪,因此需要有统一的渠道完成对内对外的沟通。消息发布过程对内措施

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论