




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 STYLEREF Contents 目 录华为FusionSphere 6.3.1 虚拟化套件容灾技术白皮书OFFE00058335_PMD1736ZH A秘密 DOCPROPERTY Product Project Name 华为FusionSphere 虚拟化套件 DOCPROPERTY DocumentName 容灾技术白皮书目 录 TOC o 1-1 h z t 标题 2,2,标题 3,3,Appendix heading 2,2,Appendix heading 3,3 HYPERLINK l _Toc5454520 1 容灾简介 PAGEREF _Toc5454520 h 1 H
2、YPERLINK l _Toc5454521 1.1 云计算容灾概述 PAGEREF _Toc5454521 h 1 HYPERLINK l _Toc5454522 1.1.1 容灾简介 PAGEREF _Toc5454522 h 1 HYPERLINK l _Toc5454523 1.1.2 容灾系统的评价指标 PAGEREF _Toc5454523 h 1 HYPERLINK l _Toc5454524 1.1.3 容灾系统建设过程 PAGEREF _Toc5454524 h 2 HYPERLINK l _Toc5454525 1.2 FusionSphere容灾方案简介 PAGEREF
3、_Toc5454525 h 3 HYPERLINK l _Toc5454526 2 FusionSphere容灾方案介绍 PAGEREF _Toc5454526 h 5 HYPERLINK l _Toc5454527 2.1 基于存储远程复制容灾方案 PAGEREF _Toc5454527 h 5 HYPERLINK l _Toc5454528 2.1.1 方案概述 PAGEREF _Toc5454528 h 5 HYPERLINK l _Toc5454529 2.1.2 适用场景 PAGEREF _Toc5454529 h 7 HYPERLINK l _Toc5454530 2.1.3 方案
4、组网 PAGEREF _Toc5454530 h 10 HYPERLINK l _Toc5454531 2.1.4 方案特点 PAGEREF _Toc5454531 h 13 HYPERLINK l _Toc5454532 2.2 城域双活容灾方案 PAGEREF _Toc5454532 h 14 HYPERLINK l _Toc5454533 2.2.1 方案概述 PAGEREF _Toc5454533 h 14 HYPERLINK l _Toc5454534 2.2.2 适用场景 PAGEREF _Toc5454534 h 15 HYPERLINK l _Toc5454535 2.2.3
5、方案组网 PAGEREF _Toc5454535 h 16 HYPERLINK l _Toc5454536 2.2.4 方案特点 PAGEREF _Toc5454536 h 19 HYPERLINK l _Toc5454537 2.3 两地三中心容灾方案 PAGEREF _Toc5454537 h 19 HYPERLINK l _Toc5454538 2.3.1 方案概述 PAGEREF _Toc5454538 h 19 HYPERLINK l _Toc5454539 2.3.2 适用场景 PAGEREF _Toc5454539 h 20 HYPERLINK l _Toc5454540 2.3
6、.3 方案组网 PAGEREF _Toc5454540 h 21 HYPERLINK l _Toc5454541 2.3.4 方案特点 PAGEREF _Toc5454541 h 22 HYPERLINK l _Toc5454542 2.4 FusionStorage Block复制容灾 PAGEREF _Toc5454542 h 23 HYPERLINK l _Toc5454543 2.4.1 方案概述 PAGEREF _Toc5454543 h 23 HYPERLINK l _Toc5454544 2.4.2 适用场景 PAGEREF _Toc5454544 h 25 HYPERLINK
7、l _Toc5454545 2.4.3 方案组网 PAGEREF _Toc5454545 h 27 HYPERLINK l _Toc5454546 2.4.4 方案特点 PAGEREF _Toc5454546 h 29 HYPERLINK l _Toc5454547 3 综述:FusionSphere容灾方案对比分析 PAGEREF _Toc5454547 h 30 HYPERLINK l _Toc5454548 4 术语 PAGEREF _Toc5454548 h 33 STYLEREF Contents 目 录华为FusionSphere 6.3.1 虚拟化套件容灾技术白皮书OFFE000
8、58335_PMD1736ZH A秘密容灾简介云计算容灾概述随着云计算的蓬勃发展,越来越多重要的计算机信息系统出现在云计算中。由于各行业的用户和企业对网络应用和数据信息的依赖日益强烈,使得突发性灾难如火灾、洪水、地震、区域电力中断或者人为破坏对整个企业的数据和业务生产会造成重大影响,如重要信息丢失、服务中断、经济损失、客户流失等。因此,为了保证云计算中计算机信息系统的业务连续性和数据可靠性,华为提供了针对云计算的容灾解决方案,保证灾难发生时关键数据不丢失,系统服务尽快恢复运行。容灾简介容灾系统是指在相隔较远的异地,建立两套或多套功能相同的系统,系统之间可以相互进行健康状态监视和功能切换,当一处
9、系统因意外(如火灾、洪水、地震、人为蓄意破坏等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。容灾系统需要具备较为完善的数据保护与灾难恢复功能,保证生产中心不能正常工作时数据的完整性及业务的连续性,并在最短时间内由灾备中心接替,恢复业务系统的正常运行,将损失降到最小。容灾系统的评价指标容灾系统主要为了在灾难发生时业务不发生中断,那么当灾难发生时,用户最关心的是什么呢?我们设计出的系统也只能是在现有的条件下尽量减少故障历时,尽量多的恢复数据,这也是衡量我们所设计出来的容灾系统质量的指标。实际的容灾系统设计过程中,我们重点关注的是RTO和RPO两个指标。RPO(Reco
10、very Point Objective):即数据恢复点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复到的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。RTO(Recovery Time Objective):即恢复时间目标,以时间为单位,即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小。RPO针对的是数据丢失,而RTO针对的是服务丢失,RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。好的容灾系统需要尽量满足用户
11、的需求,但是容灾系统的设计往往受多种条件的制约,如可用的技术、现网状况、用户意志、用户业务等,但到目前为止,起决定性的因素,是容灾建设的成本。容灾系统建设过程根据对容灾系统建设模型,容灾系统建设过程分为分析、策略制订、方案实施和测试/演习/维护四个阶段。下面分别对各个阶段作出说明:分析阶段在取得管理层的正式同意后,获得人员和资源上的保证。首先收集业务过程的信息、技术基础架构的支撑环境、灾难类型等方面的内容,然后进行业务影响分析和风险分析,确定由于中断和预期灾难可能造成的影响。分析的结果用以确定业务关键级别、业务恢复时间和可承受的数据损失程度。策略制订阶段在本阶段,结合以上的分析成果,以及企业对
12、容灾的投入规划,制订企业短期、长期范围内的容灾策略和目标,先定义初步的方案。再进一步结合各种因素进行分析,在候选的方案中剔除不合适的方案,将剩余的可用的方案提交给评估组,评估组经过充分详细的评审,选择最合适的容灾方案。方案实施阶段根据选择的容灾方案,整合企业相关资源,确定容灾的体系架构和灾难恢复计划,通过技术手段和服务以达到所要求的容灾目标。测试/演习/维护阶段任何制订的计划,都必须经过不断的测试和修正,才能满足企业不断发展的需求。同时,通过培训、测试过程,也能够使企业内部人员熟悉自己在容灾流程中所扮演的角色,保证在灾难真正发生的时刻能够有条不紊地执行恢复流程。测试的过程可以分为局部验证和演习
13、两种方式。随着商业需求、新技术的不断升级以及新的内部和外部规则的变化,IT系统也会随之改变。要确保灾难恢复计划的有效性,必须定期检查和修改计划。以上四个阶段是一个周而复始的过程,应随着企业内外部环境的变化而灵活变化。FusionSphere容灾方案简介FusionSphere针对不同的业务场景、应用类型、用户规模、IT基础设施条件、投资预算,提供以下三类有针对性的容灾解决方案:基于存储远程复制容灾方案城域双活容灾方案两地三中心容灾方案FusionStorage Block复制容灾方案FusionSphere容灾方案选择方案类型解决方案功能特点应用场景投资成本基于存储远程复制容灾基于存储远程复制
14、容灾方案1、支持整虚拟机(含系统卷与数据卷)容灾2、采用同步复制时RPO=0,站点间要求光纤互联;采用异步复制时RPO=5分钟3、一键式容灾切换4、支持容灾演练与计划性迁移5、支持大量虚拟机容灾6、只支持华为SAN存储服务器整合数据中心中城域双活容灾城域双活容灾方案1、支持整虚拟机(含系统卷与数据卷)容灾2、RPO=03、RTO要求很高,自动容灾切换4、站点间要求光纤互联5、支持基于华为V3/V5/Dorado系列存储的双活服务器整合数据中心高两地三中心容灾两地三中心容灾方案1、支持整虚拟机(含系统卷与数据卷)容灾2、支持对生产数据中心数据及业务需要进行多重保护的场景3、支持华为V3/V5/D
15、orado系列存储服务器虚拟化数据中心高FusionStorage Block复制容灾FusionStorage Block复制容灾1、支持整虚拟机(含系统卷与数据卷)容灾2、采用异步复制,RPO=5分钟3、一键式容灾切换4、支持容灾演练与计划性迁移5、支持大量虚拟机容灾6、只支持FusionStorage存储服务器整合数据中心中FusionSphere容灾方案介绍基于存储远程复制容灾方案方案概述基于存储的远程复制容灾方案,是利用华为存储的同步或异步远程复制功能,将生产站点存储上的虚拟机数据远程复制到容灾站点,并由UltraVR实现VM规格的复制和容灾恢复计划的管理,在发生灾难时执行容灾恢复计
16、划进行一键式自动容灾切换。其中使用存储同步复制时,RPO=0,要求生产站点与容灾站点之间采用光纤互连且环回时延小于5毫秒;使用存储异步复制时,RPO为存储间数据复制周期,与客户需容灾虚拟机的写业务IOPS与用于远程复制的网络带宽相关;RTO为全系统切换与VM启动时间,在典型配置场景下1000VM的RTO时间 生产站点内云平台=生产站点内虚拟机=数据存储=主LUN=生产阵列 - 容灾站点=容灾阵列=从LUN”的拓扑关系及其链路的状态。两个站点互为容灾或主备容灾,或将多个站点恢复至一个共享的容灾站点。不支持同一对LUN互为主备同时双向同步。2、自动执行故障切换支持一键启动执行恢复计划。自动将远程复
17、制从LUN提升为主,以便用于恢复。监控站点的可用性,并在可能发生站点故障时向用户发出告警。关闭容灾站点上的低优先级虚拟机。按照预先指定的引导顺序自动启动受保护的虚拟机。在恢复过程中执行用户定义的脚本。在容灾站点上自动重新配置虚拟机 IP 地址。支持管理和监控恢复计划的执行。3、无中断测试(容灾演练)自动执行恢复测试。使用存储快照执行恢复测试,不会丢失复制的数据。支持在隔离网络中恢复虚拟机,以免对生产应用程序造成任何影响。针对测试方案自定义恢复计划的执行。完成测试后自动清理测试环境。可存储、查看和导出测试结果及故障切换执行情况。4、计划内迁移自动执行计划内迁移,使用计划内迁移工作流确保数据零损失
18、和应用一致性迁移。正常关闭原始生产站点上受保护的虚拟机。启动迁移过程前确保在应用保持一致的状态下完整复制虚拟机数据。5、自动容灾重保护 通过一键式自动反向复制到原始生产站点来重新保护虚拟机。反向执行原始恢复计划,切回原始生产站点。适用场景使用场景适合选用存储远程复制容灾的场景:虚拟化场景,已存在的虚拟化站点,可以增加容灾能力。生产与灾备站点之间主备容灾、互为容灾及共享容灾(多站点到一个站点)场景。使用华为SAN设备。需要使用存储同步复制或异步复制;使用同步复制时,RPO=0,站点间使用光纤互联,距离小于100公里;使用异步复制时,RPO=5分钟,站点间可以使用IP互联,距离没有限制。希望对虚拟
19、机进行计划性的跨站点迁移。站点中业务需要连续性保护。存在虚拟机启动优先级、依赖关系等复杂的恢复场景。容灾演练具有较高优先级,例如SLA或审计要求反复验证一致的恢复结果。虚拟机内应用的使用场景(针对异步远程复制)由于存储异步远程复制过程中IOPS性能有一定下降,因此对于虚拟机内应用,需要根据以下原则评估是否可使用存储异步远程复制容灾:总体原则场景适合远程复制场景主机写压力较小,对阵列的带宽、IOPS和时延要求不是太高,能够接受阵列异步远程复制性能下降数据库(如:Oracle,SqlServer,DB2)数据挖掘类(读业务较多,写业务较少)文件系统(如:个人桌面业务,读业务较多,写业务较少)OLA
20、P联机分析(读业务较多,写业务较少)exchange邮件收发(写业务压力较小)不适合远程复制场景主机写压力大,对阵列的写带宽、IOPS、时延要求很高视频监控项目(IO压力大)建设后需大量发放或克隆或存储迁移要容灾的虚拟机(IO压力大,对性能要求高)使用约束存储远程复制容灾方案存在以下约束:1、只支持基于华为阵列并满足UltraVR对存储的兼容性要求,且为虚拟化基本共享存储的容灾;其他存储形态均不支持,具体兼容性列表参见UltraVR用户指南和存储兼容性查询工具。通常建议采用同型号的阵列,以免由于不同型号阵列性能与规格差异影响远程复制的时间。2、不支持VIMS多LUN场景的容灾,即不支持由多个存
21、储设备组成一个虚拟化SAN数据存储的容灾。3、只支持FusionCompute虚拟化环境的容灾,不支持VMWare、XenServer等异构虚拟化环境的容灾。4、只支持FusionCompute发放的用户虚拟机及虚拟机模板的容灾,不支持管理虚拟机、链接克隆虚拟机的容灾。5、只支持虚拟机的容灾,不支持对集群、站点层面的管理数据进行容灾。6、IPV6虚拟机只支持配套华为SAN存储设备的容灾。7、不支持对虚拟机的GPU、USB等外设的容灾。8、不支持包含共享磁盘或非持久化磁盘虚拟机的容灾。9、虚拟机规格周期性同步,容灾切换时容灾站点虚拟机规格可能与生产站点虚拟机不一致,建议尽量减少对容灾虚拟机规格的
22、变更。10、LUN进行远程复制的时候会出现缓存的数据没有刷新到磁盘中,灾难恢复无法保证数据一致性,灾难恢复时存在虚拟机无法启动的风险。11、为不影响生产端的非容灾虚拟机正常运行,需要管理员在两个站点间严格设置用于存放非容灾虚拟机的生产LUN和用于存放容灾虚拟机容灾LUN。12、生产站点的虚拟机如果在某个虚拟机文件夹中,进行容灾后,容灾站点里该虚拟机只会在站点之下,而不是虚拟机文件中。方案组网基于存储远程复制容灾物理部署示意图在容灾站点已经按容灾虚拟机业务需求配置的情况下,需要增加以下软硬件设备需求。新增软硬件设备UltraVR容灾管理服务器:部署在虚拟机内,虚拟机规格为:4U8G及50GB系统
23、盘,可对3000个虚拟机进行容灾。生产与容灾站点各部署一套。存储同步或异步远程复制License:每套需要远程复制功能的阵列都需要购买License。 存储异步远程复制资源池:对于华为OceanStor T系列V1R1版本设备,每套需要远程复制功能的阵列都需要配置资源池,磁盘类型建议为SAS或更高性能磁盘,其容量大小建议为阵列可支持的最大资源池容量大小。建议将资源池所在LUN与需容灾的LUN部署在不同RAID组上,以减少远程复制对容灾LUN所在RAID组的性能影响。对于OceanStor 18500或18800类型高端存储不需要配置资源LUN,但需至少预留存储池20%的存储空间用于远程复制。生
24、产与容灾存储磁盘配置:对于华为OceanStor T系列V1版本设备,由于异步远程复制过程中存储IOPS性能会下降,对于需要容灾的LUN,建议预留20%50%的存储IOPS能力用于远程复制。生产站点与容灾站点之间包含管理与存储复制两种类型链路:管理链路带宽:通过IP网络互联,建议至少10Mbps。存储增量复制链路带宽:异步复制:一般建议采用IP互联,也可采用FC光纤互联。建议至少50Mbps。实际所需带宽需根据复制周期内的所有数据变化量来计算,计算公式为:保护虚拟机数量 * 每虚拟机复制周期内每秒数据变化量 * (链路数据块大小(缺省64KB) / IO数据块大小)*8 / 0.7(带宽利用率
25、)。其中每虚拟机复制周期内数据变化量 一般小于 每虚拟机复制周期内业务繁忙期间平均写业务IOPS * 写IO数据块大小,建议根据实际业务评估。同步复制:采用光纤互联,距离不能超过100公里,环回时延小于5毫秒。带宽需要为所有远程复制LUN上所有虚拟机业务所需最大带宽之和。存储初始复制链路:由于存储初始复制需要将生产存储上需要容灾的LUN上所有数据同步到容灾存储上,数据量比较大(如8T LUN则需要同步8T数据),因此建议进行初始同步时将容灾存储搬迁到生产站点,通过光纤连接进行初始复制,完成后再搬迁回容灾站点;若直接通过网络初始复制,则要求初始同步期间租用专用光纤,否则将会导致初始同步时间过长。
26、对IP网络链路要求:时延:平均值不能超过50ms,最大值不能200ms。丢包率:不能超过1。为了防止链路单点故障,建议每种链路至少部署两条链路进行负荷分担。容灾建设步骤(1)确定哪些虚拟机需要容灾,并在生产与容灾阵列上创建需要容灾的LUN;采用存储异步远程复制时,对于T系列存储还需要创建资源LUN。(2)在生产站点上,将所有需要容灾的虚拟机创建在规划好的容灾LUN上,对于已经创建在非容灾LUN上的虚拟机可以通过存储迁移方式迁移到容灾LUN上。(3)在生产站点上,对于所有需要容灾的虚拟机安装配置操作系统、软件及数据,以使需容灾的虚拟机正常运行和处理业务。(4)在所有容灾虚拟机业务正常运行后,配置
27、生产站点阵列与容灾站点阵列之间配置远程复制链路,并配置LUN远程复制和一致性组,启动初始同步;(5)由于站点间复制带宽通常较小,有两种常用的初始同步方式:方案一:将容灾站点阵列物理搬迁到生产站点,通过光纤互联后进行初始同步,初始同步完成后再将容灾站点阵列搬迁后容灾站点。方案二:初始同步时租用较大带宽(如10GE),以便初始同步能很快完成;在初始同步完成后再使用较小带宽(如50GB)用于增量数据同步。注:由于RPO、复制带宽与业务IOPS密切相关,通常需要在容灾建设前就提前规划,不建议在容灾建设完成后动态发放、存储迁移需要容灾的虚拟机;否则会影响容灾LUN上业务IOPS评估,在复制带宽已确定的情
28、况下会导致RPO目标无法满足。容灾切换前处理(1)在生产站点与容灾站点各部署一个UltraVR容灾管理服务器,并互相连接。(2)在生产站点UltraVR上配置两个站点间资源映射关系,并对远程复制LUN上的虚拟机进行容灾保护,及相应的容灾保护策略(存储数据同步周期)。(3)在容灾站点UltraVR上创建对受保护虚拟机的灾难恢复计划,设置灾难恢复时虚拟机启动顺序。容灾演练处理容灾管理员在创建灾难恢复计划后,且存储已完成初始同步,则可在任何时间在容灾站点使用灾难恢复计划进行灾备演练,UltraVR自动在容灾站点对存储远程复制从LUN创建快照LUN,并使用快照LUN数据注册虚拟机和按顺序启动虚拟机。在
29、演练结束后,可以清理容灾演练数据,UltraVR自动清理现场回到演练开始前的状态。该过程对生产站点没有任何影响,不影响生产端业务及生产端到容灾端的数据继续复制。容灾故障切换处理当生产局发生灾难时,在容灾站点执行已经创建好的灾难恢复计划,UltraVR将自动在容灾站点注册虚拟机并按照顺序启动虚拟机。容灾计划性迁移处理当生产局即将要发生灾难,或将要计划性停电,或需要计划性升级维护时,容灾管理员可以在容灾站点对已经创建好的灾难恢复计划执行计划性迁移,UltraVR将自动关闭生产站点的虚拟机,并将虚拟机数据完全同步到容灾站点后,在容灾站点注册虚拟机并按照顺序启动虚拟机。该过程可保证虚拟机迁移过程中数据
30、完全不丢失,可保证数据的一致性。原生产站点重建后重新保护存在两种场景:1、当原生产站点的虚拟机在计划性迁移完成后,灾备站点成为新的保护站点但不受保护时,容灾管理员可直接对恢复计划进行重保护,系统将自动对受保护对象进行反向数据同步。2、当原生产站点完全故障重建时,容灾管理员需要重新在存储上配置存储的远程复制关系进行反向复制,并对新生产站点(原容灾站点)上的虚拟机进行容灾保护,并在新容灾站点(原生产站点)上创建对受保护虚拟机的容灾恢复计划。(与“容灾切换前处理”类似)容灾切回处理容灾管理员在存储完成反向初始同步后,选择在业务空闲并允许业务中断的时间,使用容灾恢复计划进行计划性迁移,将容灾切换到容灾
31、站点(新生产站点)的虚拟机反向切回到原生产站点,从而保证业务恢复到原生产站点上运行。(与“容灾切换处理”类似)方案特点优点1、不需要在虚拟机内安装代理软件。2、支持整虚拟机(含系统卷与数据卷)的容灾恢复。3、可以一键式容灾故障切换、容灾演练与计划性迁移,减少容灾管理员手工操作。缺点1、只支持华为SAN存储设备且虚拟机位于VIMS虚拟存储,不支持NAS或其他厂家存储设备。2、只支持对FusionCompute虚拟机的容灾。城域双活容灾方案方案概述城域双活容灾指相距100公里以内的两个站点都处于运行状态,可以同时承担业务,提高整体服务能力和系统资源利用率。同时两个站点资源共享,当单站点故障时,业务
32、能自动切换到另一数据中心,数据不丢失,业务分钟级中断。城域双活容灾当前仅支持基于华为V3/V5/Dorado系列存储的城域双活容灾,具体指的是在相距较远的两地建立两个站点,站点间使用存储的HyperMetro特性,配合FusionCompute的虚拟机HA功能和DRS功能实现的容灾方案。城域双活容灾方案中,两个站点可同时作为生产站点对外提供业务,同时作为对端站点的容灾站点实现自动灾难倒换。城域双活容灾整体架构示意图主要特点:数据零丢失。两个中心数据实时同步镜像,可以达到RPO=0,IO级的同步确保数据一致。业务故障分钟级中断,计划性迁移零中断。虚拟化平台的HA特性确保RTO可以达到分钟级;站点
33、间大二层组网确保计划性维护时,通过虚拟机热迁移达到业务RTO为0。故障自动切换。两中心任意VM单点故障,自动HA切换(且通过DRS特性可以实现本地优先HA),无需人工干预;故障切换过程透明,用户无感知。 业务访问方式灵活。两中心网络、业务、存储各层级都以双活的方式对外提供服务,业务就近访问,为用户提供更加灵活的业务访问方式。高效资源利用。华为V3/V5/Dorado系列存储的虚拟化技术,可统一接管不同厂商、不同品牌的存储设备,充分利用现有存储设备资源,保护客户投资适用场景使用场景支持私有云应用下服务器虚拟化、数据中心解决方案应用场景。要求生产和灾备两地距离100公里以内,L1专线互连,环回时延
34、1ms以内。使用约束城域双活容灾方案存在以下约束:1、只支持两个数据中心间双活容灾,不支持多个数据中心间同时进行双活容灾。2、生产站点与容灾站点间距离要在100公里以内,站点间需要租赁L1专线,两个站点间环回时延1ms。3、城域双活容灾方案依赖于FusionCompute的HA和DRS功能,遵循HA和DRS功能的相关约束。4、城域双活容灾方案中,需要启用DRS特性进行虚拟机本地优先启动和HA,因此如果用户配置了其他DRS规则,则不能与容灾DRS规则冲突,否则无法保证虚拟机本地优先启动和HA。5、由于在虚拟机故障时,其部分缓存数据可能未及时写入存储设备上,因此,虚拟机可能会概率性HA失败,即虚拟
35、机可能会概率性容灾失败。6、城域双活容灾方案依赖于存储的HyperMetro特性,遵循存储HyperMetro特性的其他相关约束。7、考虑性能因素,主机与存储采用FC连接。8、城域双活容灾方案只支持存储类型为虚拟化SAN存储的数据存储。9、生产站点和容灾站点的业务均通过主网关提供,规划生产站点和容灾站点的业务网络带宽时需要同时考虑该部分的业务需求。10、容灾VLAN需要限定在跨站点的两对汇聚交换机之间,避免流量过大对网络造成冲击。11、跨站点容灾VLAN的个数依赖于汇聚交换机支持的VRRP备份组的数量。如果需要更多的VLAN,可增加多对汇聚交换机,或选择更高规格的交换机。12、部署在生产站点和
36、容灾站点的FC SAN的型号、配置需要保持一致,否则会影响存储访问性能。13、城域双活容灾存储设备的兼容性要求请参见存储兼容性查询工具。方案组网城域双活容灾物理部署示意图新增软硬件设备城域双活容灾方案中需要V3/V5/Dorado系列存储与第三方仲裁服务器:(1)V3/V5/Dorado存储:用于提供存储双活能力(HyperMetro特性),每个站点至少需要1套存储。(2)仲裁服务器:用于存储集群间心跳中断后的集群主节点仲裁。一般部署到第三地,V3/V5/Dorado系列存储仲裁端口需要通过以太网口连接到第三地仲裁服务器,保证IP可达;至少1Mb带宽,2*两路冗余。(3)标准FC HBA卡 或
37、者 专用FC HBA卡;用于接在主机插槽上,提供FC端口连接到存储平面,访问存储设备。对于RH2288等支持标准FC HBA卡的服务器直接接插标准FC HBA卡即可;对于E9000服务器不支持标准FC HBA卡,因此需要使用专用FC HBA卡 + 专门FC交换板。(4)FC交换机:用于存储平面各主机、FCSAN之间FC交换。 需要按照独立冗余双平面组网,如果主机、阵列数量多还需要分汇聚、接入两层组网 。(5)多模光纤:用于站点内存储平面各个节点与FC交换机之间物理连接。(6)L1专线 或 波分+裸光纤 :用于站点间的管理/业务心跳的大二层互联组网,以及存储通道FC互联;推荐租赁运行商的L1专线
38、提供以太、FC业务口用于站点间互联,至少1Gb带宽/业务口,两路冗余;如果客户有条件,也可以采用直接租用裸光纤,自己部署波分设备,提供以太和FC业务口,至少1Gb带宽/业务口,两路冗余。双活容灾方案生产、容灾站点之间通过运行商提供的L1专线(基于光纤直连的FC/以太端口二层直连)连接;管理网关(FusionSphere管理VLAN、仲裁VLAN)、业务网关配置在汇聚交换机上;异地三层网关之间(两对汇聚交换机,组成VRRP),业务归属地网关配置为VRRP主,VRRP的地址为虚拟机业务Subnet的网关地址;管理网关按照规划配置某地为VRRP主;通过核心交换机与承载网的互联成二层,汇聚交换机与核心
39、交换机机间通过二层连通,为了避免环路,多条站点间以太链路在核心交换机上捆绑配置成Trunk;汇聚与核心交换机基于容灾VLAN,二层打通,统一通过核心交换机于承载网二层连通;汇聚交换机间,VLAN若重叠,需要在核心交换机上配置基于端口的VLAN映射;数据中心对外的三层业务接入,需要在汇聚交换机上配置到核心交换机的三层互联(VLAN IF),然后以VLAN为单位在主网关侧的核心交换机发布精细路由,备网关侧核心交换机发布VLAN粗略路由,通过子网掩码控制精细度; 如果数据中心通过防火墙NAT/NAPT提供公有IP业务,需要防火墙对外发布公有IP地址路由。为保证按照网段路由方式进行路由优先级发布,要求
40、提供的公有IP地址是标准的网段(如154.169.1.X/Y),同时生产、容灾两地提供相同公有IP地址段。容灾切换前处理城域双活容灾:(1)在生产站点与容灾站点分别部署V3/V5/Dorado存储,并在存储上对分别位于生产与容灾站点的阵列配置双活关系;在第三方站点部署第三方仲裁服务器;以便在生产站点存储故障时存储业务可自动切换到存储集群内其他存储。(2)将一套云平台系统主备管理节点分别部署在生产站点与容灾站点,对于需要容灾的集群进行跨站点部署,集群内部分主机位于生产站点,部分位于容灾站点,并配置集群HA优先级,以便在生产站点所有主机故障时集群内虚拟机可利用HA功能自动切换到容灾站点上的主机。容
41、灾故障切换处理当生产站点发生灾难时,若云平台主管理节点故障,则通过当前管理节点的主备心跳检测机制,容灾站点备管理节点自动提升为主;并通过HA功能,生产站点虚拟机自动在容灾站点重新启动,恢复业务。整个过程不需人工干预。切换完成后需要禁用容灾集群计算资源调度功能,以免在原生产站点还未准备好时自动切回。原生产站点重建后重新保护原生产站点重建后,V3/V5/Dorado存储自动对后端存储设备进行数据同步。容灾切回处理容灾管理员在存储数据同步完成后,使用迁移功能,将容灾虚拟机全部迁回到生产站点主机上,从而使业务恢复到原生产站点上运行。迁移完成后启动容灾集群计算资源调度功能。方案特点优点1、RPO=0,R
42、TO接近0。2、发生灾难自动恢复,不需人工干预。3、支持跨站点负载均衡。缺点1、组网要求高,成本高。2、不支持容灾演练。3、不适合复杂容灾场景,如不支持容灾切换后修改IP、设置虚拟机启动优先级等。两地三中心容灾方案方案概述两地三中心容灾方案通过建议同城灾备中心和异地灾备中心,实现对生产中心数据及业务的多重保护。当生产中心发生灾难时,业务可快速切换到同城灾备中心。当生产中心和同城灾备中心同时发生灾难时,可快速在异地灾备中心启动业务,从而最大程度保障业务连续性。在同城两个数据中心共部署一套UltraVR、异地灾备中心部署一套UltraVR可以对同城生产中心、同城灾备中心、异地灾备中心进行统一管理。
43、生产中心和同城灾备中心基于存储设备的HyperMetro特性组成双活数据中心,双活数据中心与异地灾备中心基于存储设备的远程复制功能,组成阵列复制关系。当生产中心设备发生故障时,同城灾备中心可以自动接管相应的数据业务;当生产中心设备与同城灾备中心设备均发生故障时,可以使用UltraVR容灾管理软件快速在异地灾备中心启动业务。对于双活数据中心,RPO=0,RTO为分钟级。双活数据中心与异地灾备中心使用异步远程复制,RPO为存储间数据复制周期,与客户需容灾虚拟机的写业务IOPS与用于远程复制的网络带宽相关;RTO为全系统切换与VM启动时间,在典型配置场景下1000VM的RTO时间 4小时。两地三中心
44、容灾整体架构示意图两地三中心容灾方案具有以下功能:生产中心与同城灾备中心组成的双活数据中心,功能特点参见2.2.1双活数据中心与异地灾备中心组成的阵列复制容灾,功能特点参见2.1.1使用UltraVR容灾管理软件统一管理,可查看端到端逻辑拓扑图和物理拓扑图适用场景使用场景适用于需要对生产中心数据及业务进行多重保护的场景。使用约束两地三中心容灾方案存在以下约束:生产中心与同城灾备中心组成的双活数据中心,需满足城域双活容灾相关约束,参见2.2.2。双活数据中心与异地灾备中心组成的阵列复制容灾,需满足阵列复制容灾相关约束,参见2.1.2。两地三中心容灾存储设备的兼容性要求参见UltraVR用户指南和
45、存储兼容性查询工具。方案组网两地三中心容灾物理部署示意图(异地灾备中心存储平面使用IP SAN)两地三中心容灾物理部署示意图(异地灾备中心存储平面使用FC SAN)在容灾站点已经按容灾虚拟机业务需求配置的情况下,需要增加以下软硬件设备需求。新增软硬件设备生产中心与同城灾备中心组成的双活数据中心,参见2.2.3。双活数据中心与异地灾备中心组成的阵列复制容灾,参见2.1.3。容灾管理两地三中心容灾管理,包括容灾测试及清理、容灾计划性迁移、容灾故障切换、容灾重保护、容灾切回等操作。(1)生产中心与同城灾备中心组成的双活数据中心,相应容灾管理参见2.2.3。(2)双活数据中心与异地灾备中心组成的阵列复
46、制容灾,可以通过UltraVR容灾管理软件进行容灾管理,具体可参见2.1.3。注:由于RPO、复制带宽与业务IOPS密切相关,通常需要在容灾建设前就提前规划,不建议在容灾建设完成后动态发放、存储迁移需要容灾的虚拟机;否则会影响容灾LUN上业务IOPS评估,在复制带宽已确定的情况下会导致RPO目标无法满足。方案特点优点1、不需要在虚拟机内安装代理软件。2、支持整虚拟机(含系统卷与数据卷)的容灾恢复。3、结合城域双活容灾方案和阵列复制容灾方案的优点,可靠性更高,可满足需要对生产中心数据及业务进行多重保护的场景。4、生产中心与同城灾备中心组成的双活数据中心,RPO=0或接近0,发生灾难时可以做到自动
47、恢复,不需人工干预,且支持跨站点部署。5、双活数据中心与异地灾备中心组成的阵列复制容灾,可以做到一键式容灾故障切换、容灾演练与计划性迁移,减少容灾管理员手工操作。缺点1、只支持华为SAN存储设备且虚拟机位于VIMS虚拟存储,不支持NAS或其他厂家存储设备。2、只支持FusionCompute虚拟机的容灾。3、组网要求高,成本高。FusionStorage Block复制容灾方案概述FusionStorage Block复制容灾的方案,是利用FusionStorage Block的远程复制功能,将生产站点存储上的虚拟机数据远程复制到容灾站点,并由UltraVR实现VM规格的复制和容灾恢复计划的管
48、理,在发生灾难时执行容灾恢复计划进行一键式自动容灾切换。RPO为存储间数据复制周期,与客户需容灾虚拟机的写业务IOPS与用于远程复制的网络带宽相关;RTO为全系统切换与VM启动时间,在典型配置场景下1000VM的RTO时间 生产站点内云平台=生产站点内虚拟机=数据存储=主卷=生产阵列 - 容灾站点=容灾阵列=从卷”的拓扑关系及其链路的状态。两个站点互为容灾或主备容灾,或将多个站点恢复至一个共享的容灾站点。2、自动执行故障切换支持一键启动执行恢复计划。自动将远程复制从卷提升为主,以便用于恢复。监控站点的可用性,并在可能发生站点故障时向用户发出告警。关闭容灾站点上的低优先级虚拟机。按照预先指定的引
49、导顺序自动启动受保护的虚拟机。在恢复过程中执行用户定义的脚本。在容灾站点上自动重新配置虚拟机 IP 地址。支持管理和监控恢复计划的执行。3、无中断测试(容灾演练)自动执行恢复测试。使用存储快照和链接克隆卷执行恢复测试,不会丢失复制的数据。支持在隔离网络中恢复虚拟机,以免对生产应用程序造成任何影响。针对测试方案自定义恢复计划的执行。完成测试后自动清理测试环境。可存储、查看和导出测试结果及故障切换执行情况。4、计划内迁移自动执行计划内迁移,使用计划内迁移工作流确保数据零损失和应用一致性迁移。正常关闭原始生产站点上受保护的虚拟机。启动迁移过程前确保在应用保持一致的状态下完整复制虚拟机数据。5、自动容
50、灾重保护通过一键式自动反向复制到原始生产站点来重新保护虚拟机。反向执行原始恢复计划,切回原始生产站点。适用场景使用场景适合选用FusionStorage Block远程复制容灾的场景:虚拟化场景,且虚拟机在灾备站点建设前就创建、软件安装和运行。生产与灾备站点之间主备容灾、互为容灾及共享容灾(多站点到一个站点)场景。使用FusionStorage Block设备。需要使用FusionStorage Block远程复制, RPO=5分钟,站点间可以使用IP互联,距离没有限制。希望对虚拟机进行计划性的跨站点迁移。站点中业务需要连续性保护。存在虚拟机启动优先级、依赖关系等复杂的恢复场景。容灾演练具有较
51、高优先级,例如SLA或审计要求反复验证一致的恢复结果。虚拟机内应用的使用场景由于FusionStorage Block远程复制过程中IOPS性能有一定下降,因此对于虚拟机内应用,需要根据以下原则评估是否可使用FusionStorage Block远程复制容灾:总体原则场景适合远程复制场景主机写压力较小,对阵列的带宽、IOPS和时延要求不是太高,能够接受阵列异步远程复制性能下降数据库(如:Oracle,SqlServer,DB2)数据挖掘类(读业务较多,写业务较少)文件系统(如:个人桌面业务,读业务较多,写业务较少)OLAP联机分析(读业务较多,写业务较少)exchange邮件收发(写业务压力较
52、小)不适合远程复制场景主机写压力大,对阵列的写带宽、IOPS、时延要求很高视频监控项目(IO压力大)建设后需大量发放或克隆或存储迁移要容灾的虚拟机(IO压力大,对性能要求高)说明:以上场景仅仅是针对典型应用场景,是否适合远程复制还是需要根据实际情况评估,需要收集详细信息以进行评估。使用约束FusionStorage Block远程复制容灾方案存在以下约束:1、只支持基于FusionStorage Block并满足UltraVR对存储版本的兼容性要求;其他存储形态均不支持。请参考UltraVR用户指南。2、不支持SAN存储与FusionStorage Block存储在同一保护组中的远程复制容灾。
53、3、只支持FusionCompute虚拟化环境的容灾,不支持VMWare、XenServer等异构虚拟化环境的容灾。4、只支持FusionCompute发放的用户虚拟机及虚拟机模板的容灾,不支持管理虚拟机、链接克隆虚拟机的容灾。5、只支持虚拟机的容灾,不支持对集群、站点层面的管理数据进行容灾。6、不支持FusionStorage管理面IPV6部署。7、不支持对虚拟机的GPU、USB等外设的容灾。8、不支持包含非持久化磁盘虚拟机的容灾。9、虚拟机规格周期性同步,容灾切换时容灾站点虚拟机规格可能与生产站点虚拟机不一致,建议尽量减少对容灾虚拟机规格的变更。10、容灾卷进行远程复制的时候会出现缓存的数
54、据没有刷新到磁盘中,灾难恢复无法保证数据一致性,灾难恢复时存在虚拟机无法启动的风险。11、共享磁盘不支持同时挂给容灾虚拟机和非容灾虚拟机。12、生产站点的虚拟机如果在某个虚拟机层级中,进行容灾后,容灾站点里该虚拟机只会在站点之下,而不是原虚拟机层级中。13、不支持XEN版本FusionCompute与KVM版本FusionCompute作为配对生产灾备站点容灾。方案组网基于FusionStorage Block远程复制容灾物理部署示意图在容灾站点已经按容灾虚拟机业务需求配置的情况下,需要增加以下软硬件设备需求。新增软硬件设备UltraVR容灾管理服务器:部署在虚拟机内,虚拟机规格为:4U8G及
55、50GB系统盘,可对3000个虚拟机进行容灾。生产与容灾站点各部署一套。需要远程复制功能的FusionStorage Block都需要添加增值服务包。 生产与容灾存储磁盘配置:对于FusionStorage Block版本要求,请参考容灾产品版本配套表与FusionStorage 块存储服务容灾特性指南。生产站点与容灾站点之间组网链路要求请参考FusionStorage 块存储服务容灾特性指南中系统要求章节。容灾建设步骤(1)确定哪些虚拟机需要容灾,需要在生产与容灾FusionStorage Block节点上创建好远程复制服务。(2)在生产站点上,将所有需要容灾的虚拟机创建在规划好的容灾池上。
56、对于已经创建在非容灾卷上的虚拟机可以通过存储迁移方式迁移到容灾卷上。(3)在生产站点上,对于所有需要容灾的虚拟机安装配置操作系统、软件及数据,以使需容灾的虚拟机正常运行和处理业务。(4)由于站点间复制带宽通常较小,有两种常用的初始同步方式:方案一:将容灾站点存储设备物理搬迁到生产站点,通过光纤互联后进行初始同步,初始同步完成后再将容灾站点存储设备搬迁到容灾站点。方案二:初始同步时租用较大带宽(如10GE/25GE),以便初始同步能很快完成。注:由于RPO、复制带宽与业务IOPS密切相关,通常需要在容灾建设前就提前规划,不建议在容灾建设完成后动态发放、存储迁移需要容灾的虚拟机;否则会影响容灾卷上
57、业务IOPS评估,在复制带宽已确定的情况下会导致RPO目标无法满足。容灾切换前处理(1)在生产站点与容灾站点各部署一个UltraVR容灾管理服务器,并互相连接。(2)在生产站点UltraVR上配置两个站点间资源映射关系,并对规划的远程复制卷上的虚拟机进行容灾保护,及相应的容灾保护策略(存储数据同步周期)。(3)在容灾站点UltraVR上创建对受保护虚拟机的灾难恢复计划,设置灾难恢复时虚拟机启动顺序。容灾演练处理容灾管理员在创建灾难恢复计划后,且存储已完成初始同步,则可在任何时间在容灾站点使用灾难恢复计划进行灾备演练,UltraVR自动在容灾站点对存储远程复制从卷创建快照和链接克隆卷,并使用链接克隆卷数据注册虚拟机和按顺序启动虚拟机。在演练结束后,可以清理容灾演练数据,UltraVR自动清理现场回到演练开始前的状态。该过程对生产站点没有任何影响,不影响生产端业务及生产端到容灾端的数据继续复制。容灾故障切换处理当生产局发生灾难时,在容灾站点执行已经创
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计算机二级VB考试简介及答案汇编
- 真诚交流经济法试题及答案
- 2025商业场所装饰设计施工合同书
- 现代汉语口语表达试题及答案
- 2025标准购房合同样式
- 《2025项目劳务合同协议书》
- 财务成本管理的逻辑特征分析试题及答案
- 探讨财务成本管理的伦理问题试题及答案
- 财务管理的逻辑课程设置试题及答案
- 2025年C++考试的复习策略试题及答案
- JJF1101-2019环境试验设备温度、湿度校准规范-(高清现行)
- 汉语拼音单韵母aoeiuü课件
- 【45精品】新苏教版四年级音乐下册教案全册
- JJF(鄂) 86-2021 放射性气溶胶监测仪校准规范(高清版)
- 蔬菜捆扎机机械部分的设计说明书
- 昆虫化学生态学资料
- 电力施工委托合同
- 腌腊肉制品生产车间工艺布置图
- 课程设计--铁路综合性货场平面图设计
- 大金空调设定代码表
- 山东花卉产业提质增效转型升级实施方案
评论
0/150
提交评论