业务连续性容灾-两地三中心方案白皮书_第1页
业务连续性容灾-两地三中心方案白皮书_第2页
业务连续性容灾-两地三中心方案白皮书_第3页
业务连续性容灾-两地三中心方案白皮书_第4页
业务连续性容灾-两地三中心方案白皮书_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、业务连续性容灾解决方案两地三中心解决方案技术白皮书业务连续性容灾解决方案两地三中心解决方案技术白皮书目录 HYPERLINK l _bookmark0 概述7 HYPERLINK l _bookmark1 数据中心业务连续性的挑战7 HYPERLINK l _bookmark2 方案概述7 HYPERLINK l _bookmark3 方案亮点7 HYPERLINK l _bookmark4 两地三中心方案架构9 HYPERLINK l _bookmark5 级联组网架构9 HYPERLINK l _bookmark7 同步+异步级联方案9 HYPERLINK l _bookmark8 异步+

2、异步级联方案10 HYPERLINK l _bookmark9 并联组网架构10 HYPERLINK l _bookmark11 同步+异步并联方案10 HYPERLINK l _bookmark12 异步+异步并联方案11 HYPERLINK l _bookmark13 双活组网架构11 HYPERLINK l _bookmark14 HyperMetro+异步级联方案11 HYPERLINK l _bookmark16 2.4 关键组件技术实施要求12 HYPERLINK l _bookmark17 两地三中心方案工作原理13 HYPERLINK l _bookmark18 同步+异步级联

3、工作原理13 HYPERLINK l _bookmark19 初始同步处理13 HYPERLINK l _bookmark20 IO 处理流程14 HYPERLINK l _bookmark22 灾难切换处理14 HYPERLINK l _bookmark23 灾难恢复处理15 HYPERLINK l _bookmark24 链路和灾备端故障处理15 HYPERLINK l _bookmark25 同步+异步并联工作原理15 HYPERLINK l _bookmark26 初始同步处理15 HYPERLINK l _bookmark27 IO 处理流程16 HYPERLINK l _bookm

4、ark29 灾难切换处理16 HYPERLINK l _bookmark30 灾难恢复处理17 HYPERLINK l _bookmark31 链路和灾备端故障17 HYPERLINK l _bookmark32 异步+异步级联工作原理17 HYPERLINK l _bookmark33 初始同步处理17 HYPERLINK l _bookmark34 正常状态处理18 HYPERLINK l _bookmark35 灾难切换处理19 HYPERLINK l _bookmark36 灾难恢复处理20 HYPERLINK l _bookmark37 链路和灾备端故障20 HYPERLINK l

5、_bookmark38 异步+异步并联工作原理20 HYPERLINK l _bookmark39 初始同步处理20 HYPERLINK l _bookmark40 正常状态处理21 HYPERLINK l _bookmark41 灾难切换处理22 HYPERLINK l _bookmark42 灾难恢复处理23 HYPERLINK l _bookmark43 链路和灾备端故障23 HYPERLINK l _bookmark44 HyperMetro+异步级联工作原理23 HYPERLINK l _bookmark45 初始同步处理23 HYPERLINK l _bookmark46 正常状态

6、处理24 HYPERLINK l _bookmark47 灾难切换处理24 HYPERLINK l _bookmark48 灾难恢复处理25 HYPERLINK l _bookmark49 链路和灾备端故障26 HYPERLINK l _bookmark50 两地三中心容灾关键技术原理26 HYPERLINK l _bookmark54 容灾管理29 HYPERLINK l _bookmark59 两地三中心容灾业务恢复流程32 HYPERLINK l _bookmark60 容灾测试流程32 HYPERLINK l _bookmark62 计划性迁移流程33 HYPERLINK l _boo

7、kmark64 故障切换流程34 HYPERLINK l _bookmark66 5 总结35 HYPERLINK l _bookmark67 6 缩略语36插图目录 HYPERLINK l _bookmark6 图 2-1 级联组网的两地三中心容灾架构9 HYPERLINK l _bookmark10 图 2-2 并联组网的两地三中心容灾架构10 HYPERLINK l _bookmark15 图 2-3 HyperMetro+异步的两地三中心容灾架构11 HYPERLINK l _bookmark21 图 3-1 级联组网(同步+异步)IO 处理流程14 HYPERLINK l _book

8、mark28 图 3-2 并联组网(同步+异步)IO 处理流程16 HYPERLINK l _bookmark52 图 3-3 远程复制状态转移图27 HYPERLINK l _bookmark53 图 3-4 Cache 多时间戳复制原理28 HYPERLINK l _bookmark55 图 3-5 容灾管理 DashBoard29 HYPERLINK l _bookmark56 图 3-6 容灾管理配置向导30 HYPERLINK l _bookmark57 图 3-7 容灾管理组网拓扑展示31 HYPERLINK l _bookmark58 图 3-8 一键式灾难恢复介绍31 HYPE

9、RLINK l _bookmark61 图 4-1 一键式测试操作32 HYPERLINK l _bookmark63 图 4-2 一键式计划性迁移33 HYPERLINK l _bookmark65 图 4-3 一键式故障切换34表格目录 HYPERLINK l _bookmark51 表 3-1 远程复制状态描述26 1 概 述数据中心业务连续性的挑战随着信息化技术的飞速发展,信息系统在各种行业的关键业务中扮演着越来越重要的角色。在通讯、金融、医疗、电子商务、物流、政府等领域,信息系统业务中断会导致巨大经济损失、影响品牌形象并可能导致重要数据丢失。因此,保证业务连续性是信息系统建设的关键。

10、近年来,大范围自然灾害时常发生,为保障业务连续性,同城灾备中心结合异地灾备中心的“两地三中心”容灾解决方案越来越受到业界重视和认可。方案概述两地三中心容灾解决方案中的“两地三中心”一般指的是一个生产中心、一个同城灾难备份中心、一个异地灾难备份中心。生产中心的数据同步地复制到同城灾难备份中心,同时,生产中心的数据异步地复制到异地灾难备份中心。同城灾备中心通常具备与生产中心等同业务处理能力,应用可在不丢失数据的情况下切换到同城灾备中心运行,保持业务连续运行。在出现小概率的大范围的灾难时,如自然灾害地震,造成同城灾难备份中心与生产中心同时不可用,应用可以切换到异地灾难备份中心。通过实施经过日常灾难演

11、练的步骤,应用可在业务容许的时间内,在异地的灾难备份中心恢复,保证业务连续运行。但异地恢复通常会丢失少量的数据。相比仅建立同城灾难备份中心或异地灾难备份中心,“两地三中心”的方式结合两者的优点,能够适应更大范围的灾难场景,对于小范围的区域性灾难和较大范围的自然灾害,都能够通过灾难备份系统较快地响应,尽可能保全业务数据不丢失,实现更优的RPO 和 RTO。所以,两地三中心容灾解决方案得到了广泛的应用。方案亮点华为两地三中心解决方案的亮点和优势如下:高中低端阵列复制技术互通华为全系列存储产品都采用统一的存储操作系统平台,高、中、低端阵列之间都可建立远程复制关系。客户在产品选型时,可以根据业务需要选

12、择匹配的异地灾备中心磁盘阵列,显著提升容灾建设投入产出比。秒级异步复制 RPO,分钟级 RTO基于 Cache 多时间戳的异步远程复制,最小支持 3s 的复制周期。华为容灾管理软件OceanStor BCManager 提供的一键式容灾测试和容灾切换功能大大简化灾备恢复操作, 使灾备端数据库的恢复时间达到分钟级,缩短恢复时间。容灾业务和拓扑可视化管理华为容灾管理软件 OceanStor BCManager 支持可视化展示两地三中心的物理拓扑和业务逻辑拓扑。并且支持一键式容灾测试和切换,支持客户定制脚本一键恢复备用业务系统,简化灾备系统的管理和维护。 2 两地三中心方案架构两地三中心的容灾方式是

13、当前容灾建设的一个重要趋势,在电信、金融、制造等领域得到广泛的使用。通过建设近距离的数据中心(同城数据中心)获得接近于零数据丢失的数据保护,通过建设较远距离的数据中心(异地数据中心)获得远距离的数据保护,避免区域性的灾难导致业务无法恢复。华为两地三中心解决方案支持级联组网(同步+异步,异步+ 异步)方案(即“A-B,B-C”组网)、并联组网(同步+异步,异步+异步)方案(即“A-B,A-C”组网)和双活组网(双活+异步)方案(即“AB,B-C”组网)。级联组网架构图2-1 级联组网的两地三中心容灾架构同步+异步级联方案如 HYPERLINK l _bookmark6 图 2-1 所示,在生产中

14、心部署磁盘阵列 A;在同城灾备中心部署磁盘阵列 B,两个数据中心之间通过 FC 链路实现互联,生产中心的磁盘阵列 A 与同城灾备中心磁盘阵列B 建立同步远程复制,将磁盘阵列 A 的数据实时同步到磁盘阵列 B;在异地灾备中心, 部署磁盘阵列 C,与同城灾备中心的磁盘阵列 B 建立异步远程复制,将磁盘阵列 B 的数据定时地同步到阵列 C。在同城灾备中心和异地灾备中心部署容灾管理软件,实现对 3 个数据中心的统一容灾管理。容灾管理软件可以展示两地三中心容灾方案物理拓扑和业务逻辑拓扑,并且支持在同城灾备中心以及异地灾备中心一键式容灾测试以及一键式容灾恢复。异步+异步级联方案如 HYPERLINK l

15、_bookmark6 图 2-1 所示,在生产中心部署磁盘阵列 A;在同城灾备中心部署磁盘阵列 B,两个数据中心之间根据数据变化量对带宽的需求,可以通过 FC 链路或者 IP 链路实现互联, 生产中心的磁盘阵列 A 与同城灾备中心磁盘阵列 B 建立异步远程复制,将磁盘阵列 A 的数据定时同步到磁盘阵列 B;在异地灾备中心,部署磁盘阵列 C,与同城灾备中心的磁盘阵列 B 建立异步远程复制,将阵列 B 的数据定时的地同步到阵列 C。在同城灾备中心和异地灾备中心部署容灾管理软件,实现对 3 个数据中心的统一容灾管理。容灾管理软件可以展示两地三中心容灾方案物理拓扑和业务逻辑拓扑,并且支持在同城灾备中心

16、以及异地灾备中心一键式容灾测试以及一键式容灾恢复。并联组网架构图2-2 并联组网的两地三中心容灾架构同步+异步并联方案如 HYPERLINK l _bookmark10 图 2-2,在生产中心部署磁盘阵列 A;在同城灾备中心部署磁盘阵列 B,两个数据中心之间通过 FC 链路实现互联,生产中心的磁盘阵列 A 与同城灾备中心磁盘阵列 B 建立同步远程复制,将阵列 A 的数据实时同步到阵列 B;在异地灾备中心,部署磁盘阵列 C,通过生产中心与异地灾备中心的 IP 链路,实现生产中心的磁盘阵列 A 与异地灾备中心磁盘阵列 C 建立异步远程复制,异步地将数据同步到磁盘阵列 C。在同城灾备中心和异地灾备中

17、心部署容灾管理软件,实现对 3 个数据中心的统一容灾管理。容灾管理软件可以展示两地三中心容灾方案物理拓扑和业务逻辑拓扑,并且支持在同城灾备中心以及异地灾备中心一键式容灾测试以及一键式容灾恢复。异步+异步并联方案如 HYPERLINK l _bookmark10 图 2-2,在生产中心部署磁盘阵列 A;在同城灾备中心部署磁盘阵列 B,两个数据中心之间根据数据变化量对带宽的需求,可以通过 FC 链路或者 IP 链路实现互联,生产中心的磁盘阵列 A 与同城灾备中心建立异步远程复制,将磁盘阵列 A 的数据定时同步到磁盘阵列 B;在异地灾备中心部署磁盘阵列 C,与生产中心的磁盘阵列建立异步远程复制,将磁

18、盘阵列 A 的数据定时地同步到阵列 C。在同城灾备中心和异地灾备中心部署容灾管理软件,实现对 3 个数据中心的统一容灾管理。容灾管理软件可以可视化的展示两地三中心容灾方案物理拓扑和业务逻辑拓扑, 并且支持在同城灾备中心以及异地灾备中心一键式容灾测试以及一键式容灾恢复。双活组网架构HyperMetro+异步级联方案图2-3 HyperMetro+异步的两地三中心容灾架构如 HYPERLINK l _bookmark10 2-4,在生产中心 A 和生产中心 B 位于同城,可通过裸光纤或波分设备实现 FC 网络互联,也支持通过 10GE 网络互联。生产中心 A 和生产中心 B 同时对外提供业务,Hy

19、perMetro 不仅实现数据实时双向镜像,而且保证任何数据中心阵列故障,对上层业务透明切换,业务不中断。在异地灾备中心,部署磁盘阵列 C,与生产中心 A 或 B 任意磁盘阵列建立异步远程复制,将双活镜像的磁盘阵列数据周期性的同步到磁盘阵列C。在生产中心 B 和异地灾备中心部署容灾管理软件,实现对双活+异步复制统一容灾管理。容灾管理软件可以展示两地三中心容灾方案物理拓扑和业务逻辑拓扑,并且支持在异地灾备中心一键式容灾测试以及一键式容灾恢复。2.4 关键组件技术实施要求城域网要求:(同步远程复制,双活)容灾网络距离:100km,双活建议100km,裸光纤连接。传输延迟:业务的峰值写 IO 带宽。

20、广域网要求:(异步远程复制)容灾网络距离:无限制。传输延迟:业务的平均写 IO 带宽。管理工作站:管理工作站需要三中心间通信。网络距离要求:无限制。通信网络带宽要求:10Mb/s。 3 两地三中心方案工作原理同步+异步级联工作原理初始同步处理同步远程复制关系建立时,系统自动启动初始同步,将主 LUN 的数据全部复制到从LUN,复制期间,主 LUN 如果接收到生产主机新写入的数据,也会将其复制到从LUN。初始同步完成后,主 LUN 与从 LUN 的数据完全一致,同步远程复制进入正常状态。远程复制关系建立时,系统自动启动初始同步,将主 LUN 的数据全部复制到从 LUN。初始同步完成后,异步远程复

21、制进入正常状态。IO 处理流程图3-1 级联组网(同步+异步)IO 处理流程级联组网(同步+异步)方案 IO 处理流程如上图所示:主机下发 IO 到磁盘阵列 A 的 LUN1。IO 写入 A 站点的 LUN1,并通过同步复制同时写入 B 站点的 LUN12(LUN12 既是同步远程复制的从 LUN,又是异步远程复制的主 LUN)。当异步远程复制同步周期到来,磁盘阵列 B 生成 LUN12 在此时间点的数据(如 t1时间点数据)。磁盘阵列 C 生成同步开始前 LUN2 的该时间点数据(如 t2 时间点数据)。如果异步远程复制同步失败,当需要使用 LUN2 运行业务时,系统自动回滚到该时间点数据,

22、以保证磁盘阵列 C 中数据的可用性。后台启动由 LUN12 在 t1 时间点的数据到 LUN2 的周期性同步。如果在异步远程复制启动同步时,同步远程复制的从 LUN(LUN12)状态不允许启动同步,则周期性同步不会被启动,直到从 LUN 状态允许启动同步时才生成多时间点数据,并启动同步。灾难切换处理1)生产中心故障当生产中心发生灾难后,不能再提供业务。同城灾备中心的从 LUN 保存着与主 LUN 完全同步的数据,保障数据不丢失。如果同城灾备中心部署有备用主机,则备用主机可以访问从 LUN,接管业务。从 LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其地址,以便用于后续增量恢

23、复,缩短业务回切的时间。2)生产中心和同城灾备中心同时故障当生产中心和同城灾备中心在重大灾难导致数据都不可用时,异地备中心的从 LUN 保存着与主 LUN 相隔一定时间周期(1-2 个复制周期)之前的数据,保障数据绝大部分不丢失。如果异地同城灾备中心部署有备用主机,则备用主机可以访问从 LUN,接管业务。异地灾备中心从 LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其地址,以便用于后续增量恢复,缩短业务回切的时间。灾难恢复处理1)数据未被破坏时当生产中心灾难恢复后,如果磁盘阵列 A 和 B 没有受到破坏,主 LUN 能够恢复其原有数据,则远程复制可以将主 LUN 故障期间,

24、从 LUN 12 或者 LUN2 新写入的数据增量复制到主 LUN。复制完成后,主、从 LUN 保持复制关系。此时,可以将业务切换回生产中心,重新由生产主机访问磁盘阵列 A 的主 LUN,远程复制重新保持由主LUN 向从 LUN 实时同步数据。2)数据完全被破坏时当磁盘阵列 A 或 B 被破坏,数据不可修复时,需要重建磁盘阵列 A 或者磁盘阵列 B, 将从端数据反向复制到主端 B 和主端 A 上,调整主从关系,在生产中心恢复业务。链路和灾备端故障处理当生产中心与同城灾备中心的复制链路故障或者任意灾备中心设备故障,则远程复制自动断开复制,不影响生产系统的正常运行。生产中心主 LUN 将记录故障期

25、间的数据差异变化,待故障恢复后,自动将增量数据同步到从 LUN。同步+异步并联工作原理初始同步处理同步远程复制关系建立时,系统自动启动初始同步,将主 LUN 的数据全部复制到从LUN,复制期间,主 LUN 如果接收到新的生产主机的写入的数据,也会将其复制到从LUN。初始同步完成后,主 LUN 与从 LUN 的数据完全一致,同步远程复制进入正常状态。异步远程复制关系建立时,系统自动启动初始同步,将主 LUN 的数据全部复制到从LUN。初始同步完成后,异步远程复制进入正常状态。IO 处理流程图3-2 并联组网(同步+异步)IO 处理流程具体的处理流程如下:主机下发 IO 到磁盘阵列 A 的 LUN

26、1。A 站点主机写 IO 双写到 LUN1 和 B 站点 LUN12(LUN1 既是同步远程复制的主LUN,又是异步远程复制的主 LUN)。当异步远程复制同步周期到来,磁盘阵列 A 生成 LUN1 在此时间点的数据(如 t1时间点数据)。磁盘阵列 C 生成 LUN2 的该时间点数据(如 t2 时间点数据)。如果异步远程复制同步失败,当需要使用 LUN2 运行业务时,系统自动回滚到该时间点数据,以保证磁盘阵列 C 中数据的可用性。后台启动由 LUN1 在 t1 时间点的数据到 LUN2 的周期性同步。灾难切换处理1)生产中心故障当生产中心发生灾难后,不能再提供业务。同城灾备中心的从 LUN 保存

27、着与主 LUN 完全同步的数据,保障数据不丢失。如果同城灾备中心部署有备用主机,则备用主机可以访问从 LUN,接管业务。从 LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其地址,以便用于后续增量恢复,缩短业务回切的时间。2)生产中心和同城灾备中心同时故障当生产中心和同城灾备中心在遭遇重大灾难导致数据均不可用时,异地灾备中心的从LUN 保存着与主 LUN 间隔一定时间周期(复制周期)之前的数据,保障数据绝大部分不丢失。如果异地同城灾备中心部署有备用主机,则备用主机可以访问从 LUN,接管业务。异地灾备中心从 LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其

28、地址,以便用于后续增量恢复,缩短业务回切的时间。灾难恢复处理1)数据未被破坏时当生产中心灾难恢复后,如果磁盘阵列 A 和 B 没有受到破坏,主 LUN 能够恢复其原有数据,则远程复制可以将主 LUN 故障期间,从 LUN 1新写入的数据增量复制到主LUN。复制完成后,主、从 LUN 保持复制关系。此时,可以将业务切换回生产中心, 重新由生产主机访问磁盘阵列 A 的主 LUN,远程复制重新保持由主 LUN 向从 LUN 实时同步数据。2)数据完全被破坏时当磁盘阵列 A 或 B 被破坏,数据不可修复时,需要重建磁盘阵列 A 或者磁盘阵列 B, 将从端数据反向复制到主端磁盘阵列 A 和磁盘阵列 B

29、上,调整主从关系,在生产中心恢复业务。链路和灾备端故障当生产中心与灾备中心的复制链路故障或者灾备中心存储设备故障,则远程复制自动断开复制,不影响生产系统的正常运行。生产中心主 LUN 将记录故障期间的数据差异变化,待故障恢复后,自动将增量数据同步到从 LUN。异步+异步级联工作原理初始同步处理生产中心与同城灾备中心异步复制主从 LUN 之间和同城灾备中心与异地灾备中心异步复制主从 LUN 之间都需要进行初始同步,初始同步可以在线进行。复制带宽足够的情况下可以配置完就启动初始同步,带宽不足情况下,可以有几种初始同步方式:1.临时增加复制带宽完成初始同步。2.将设备搬迁到一起来完成初始同步。3.通

30、过移动介质存储中转进行初始同步。异步复制初始同步系统自动创建快照,将主 LUN 数据全部复制到从 LUN,复制期间新增数据不会复制到从 LUN 中。正常状态处理具体处理流程如下:主机下发 IO 到存储系统 A 的 LUN1。LUN2 和 LUN3 分别是 LUN1 不同时间点的副本,LUN3 的数据副本比 LUN2 的数据副本时间要早。LUN2 既是存储系统 A 与存储系统 B 异步远程复制的从 LUN, 又是存储系统 B 与存储系统 C 异步远程复制的主 LUN),B 站点、C 站点 LUN 对于主机默认均为只读。当 A-B 异步远程复制同步周期到来,存储系统 A 生成 LUN1 在此时间点

31、的数据(如 t1 时间点数据)。存储系统 B 生成同步开始前 LUN2 的多时间点数据(如 t2 时间点数据)。如果异步远程复制同步失败,当需要使用 LUN2 运行业务时,系统自动回滚多时间点数据,以保证存储系统 B 中数据的可用性。当 B-C 异步远程复制同步周期到老,存储系统 B 生成 LUN2 在此时间点的数据(如 t2 时间点数据)后台启动由 LUN1 在 t1 时间点的数据到 LUN2 的周期性同步。存储系统 C 生成同步开始前 LUN3 的多时间点数据(如台 t3 时间点数据)。如果异步复制失败,当需要使用 LUN3 运行业务时,系统自动回滚多时间点数据。后台启动由 LUN2 在

32、t2 时间点的数据到 LUN3 的周期性同步。异步复制处理过程如下:主 LUN1 的写 IO 处理在周期 N,将新写入主 LUN 的数据写入 Cache 中。在下一个周期 N+1,将周期 N 缓存的数据复制到从 LUN2,同时将周期 N+1 新收到的写数据继续写入 Cache 中。数据复制完成后,进入下一周期。按照步骤 2)重复进行。从 LUN 2 的写 IO 处理周期 N 开始时,对从 LUN 进行快照 activating,即对周期 N-1 的数据在 Cache 和存储介质中进行快照 activating。在周期 N 中,接收由主 LUN 同步而来的数据,写入从 LUN 的 Cache。该

33、周期复制完成后,disable 从 LUN 的快照。从 LUN3 的写 IO 处理周期 N-1 开始时,对从 LUN 进行 activating,即对周期 N-2 的数据在 Cache 和存储介质中进行快照 activating在周期 N-1 中,接收由主 LUN 同步而来的数据,写入从 LUN 的 Cache。该周期复制完成后,Disable 从 LUN 的快照。如果主 LUN 的写 IO 带宽临时性增大,或者阵列间链路带宽临时减小使得复制周期变长,导致周期内写入数据过多,超过了 Cache 所能缓存的写数据量,则远程复制会采用日志对超出部分进行记录,不会中断周期性同步。远程复制会严格保证从

34、 LUN 的数据一致性,即写 IO 的依赖关系。在主 LUN 的 IO 处理中,在每次周期间切换时,远程复制会保证将有依赖关系的两个写 IO 纳入同一个周期,或者按照其顺序分别纳入先、后周期,不会出现先写入的 IO 纳入后一周期,而后写入的 IO 纳入前一周期的情况。在从 LUN 的 IO 处理中,当主 LUN 故障后需要访问从 LUN 时,远程复制会检查从 LUN 是否完成当前周期的复制,如果没有完成,则使用快照对从 LUN 进行回滚,使其数据保证为周期切换点时的状态,保证其数据一致性。通过 Cache 中的异步复制,最高可以实现 16s 的秒级 RPO 的数据灾备要求。灾难切换处理1)生产

35、中心故障当生产中心发生灾难后,不能再提供业务。同城灾备中心的从 LUN 保存着与主 LUN 较近时间点的数据,保障尽量少的数据丢失。如果同城灾备中心部署有备用主机,则备用主机可以访问从 LUN,接管业务,实现最短的业务恢复。从 LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其地址,以便用于后续增量恢复,缩短业务回切的时间。2)生产中心和同城灾备中心都故障当生产中心和同城中心在重大灾难或者都故障后,异地备中心的从 LUN 保存着与主LUN 间隔一定时间周期(复制周期)之前的数据,保障数据绝大部分不丢失。如果异地同城灾备中心部署有备用主机,则备用主机可以访问从 LUN,接管业务

36、。异地灾备中心从 LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其地址, 以便用于后续增量恢复,缩短业务回切的时间。灾难恢复处理数据未被破坏时当生产中心灾难恢复后,如果存储系统 A 和 B 没有受到破坏,主 LUN 能够恢复其原有数据,则远程复制可以将主 LUN 故障期间,从 LUN 1新写入的数据增量复制到主LUN。复制完成后,主、从 LUN 保持复制关系。此时,可以将业务切换回生产中心, 重新由生产主机访问存储阵列 A 的主 LUN,远程复制重新保持由主 LUN 向从 LUN 实时同步数据。数据完全被破坏时当存储系统 A 或 B 被破坏,数据不可修复时,需要重建存储系统

37、 A 或者存储系统 B, 将从端数据反向复制到主端存储系统 A 和存储系统 B 上,调整主从关系,在生产中心恢复业务。链路和灾备端故障当生产中心与灾备中心的复制链路故障或者灾备中心设备故障,则远程复制自动断开复制,不影响生产系统的正常运行。生产中心主 LUN 将记录故障期间的数据差异变化, 待故障恢复后,自动将增量数据同步到从 LUN。异步+异步并联工作原理初始同步处理生产中心与同城灾备中心异步复制主从 LUN 之间和同城灾备中心与异地灾备中心异步复制主从 LUN 之间都需要进行初始同步,初始同步可以在线进行。复制带宽足够的情况下可以配置完就启动初始同步,带宽不足情况下,可以有几种初始同步方式

38、:1.临时增加复制带宽完成初始同步。2.将设备搬迁到一起来完成初始同步。3.通过移动介质存储中转进行初始同步。异步复制初始同步系统自动创建快照,将主 LUN 数据全部复制到从 LUN,复制期间新增数据不会复制到从 LUN 中。正常状态处理具体处理流程如下:主机下发 IO 到存储系统 A 的 LUN1。 LUN2 和 LUN3 分别是 LUN1 不同时间点的副本,LUN3 的数据副本一般比 LUN2的数据副本时间要早(如果 LUN2 是 10 点的,LUN3 可能是 9 点的数据)。LUN1 既是存储系统 A 与存储系统 B 异步远程复制的主 LUN,又是存储系统 A 与存储系统 C 异步远程复

39、制的主 LUN),B 站点、C 站点 LUN 对于主机默认均为只读。当 A-B 异步远程复制同步周期到来,存储系统 A 生成 LUN1 在此时间点的数据(如 t1 时间点数据)。存储系统 B 生成同步开始前 LUN2 的多时间点数据(如 t2 时间点数据)。如果异步远程复制同步失败,当需要使用 LUN2 运行业务时,系统自动回滚多时间点数据,以保证存储系统 B 中数据的可用性。当 B-C 异步远程复制同步周期到老,存储系统 B 生成 LUN2 在此时间点的数据(如 t2 时间点数据)后台启动由 LUN1 在 t1 时间点的数据到 LUN2 的周期性同步。当 A-C 异步远程复制同步周期到来,存

40、储系统 A 生成 LUN1 在此时间点的数据(如 t3 时间点数据)存储系统 C 生成同步开始前 LUN3 的多时间点数据(如台 t4 时间点数据)。如果异步复制失败,当需要使用 LUN3 运行业务时,系统自动回滚多时间点数据。后台启动由 LUN1 在 t3 时间点的数据到 LUN3 的周期性同步。异步复制处理过程如下:主 LUN1 的写 IO 处理在周期 N,将新写入主 LUN 的数据写入 Cache 中。在下一个周期 N+1,将周期 N 缓存的数据复制到从 LUN12,同时将周期 N+1 新收到的写数据继续写入 Cache 中。数据复制完成后,进入下一周期。按照步骤 2)重复进行。从 LU

41、N 1的写 IO 处理周期 N 开始时,对从 LUN 进行快照 activating,即对周期 N-1 的数据在 Cache 和存储介质中进行快照 activating。在周期 N 中,接收由主 LUN 同步而来的数据,写入从 LUN 的 Cache。该周期复制完成后,disable 从 LUN 的快照。从 LUN2 的写 IO 处理周期 N-1 开始时,对从 LUN 进行 activating,即对周期 N-2 的数据在 Cache 和存储介质中进行快照 activating在周期 N-1 中,接收由主 LUN 同步而来的数据,写入从 LUN 的 Cache。该周期复制完成后,Disable

42、 从 LUN 的快照。如果主 LUN 的写 IO 带宽临时性增大,或者阵列间链路带宽临时减小使得复制周期变长,导致周期内写入数据过多,超过了 Cache 所能缓存的写数据量,则远程复制会采用日志对超出部分进行记录,不会中断周期性同步。远程复制会严格保证从 LUN 的数据一致性,即写 IO 的依赖关系。在主 LUN 的 IO 处理中,在每次周期间切换时,远程复制会保证将有依赖关系的两个写 IO 纳入同一个周期,或者按照其顺序分别纳入先、后周期,不会出现先写入的 IO 纳入后一周期,而后写入的 IO 纳入前一周期的情况。在从 LUN 的 IO 处理中,当主 LUN 故障后需要访问从 LUN 时,远

43、程复制会检查从 LUN 是否完成当前周期的复制,如果没有完成,则使用快照对从 LUN 进行回滚,使其数据保证为周期切换点时的状态,保证其数据一致性。通过 Cache 中的异步复制,最高可以实现 16s 的秒级 RPO 的数据灾备要求。灾难切换处理1)生产中心故障当生产中心发生灾难后,不能再提供业务。同城灾备中心的从 LUN 保存着与主 LUN 较短时间间隔的数据,保障尽量少的数据丢失,RPO 可达 06s,如果同城灾备中心部署有备用主机,则备用主机可以访问从 LUN,接管业务,保证最短时间的业务接管。从 LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其地址,以便用于后续增量

44、恢复,缩短业务回切的时间。2)生产中心和同城灾备中心都故障当生产中心和同城中心在重大灾难或者都故障后,异地备中心的从 LUN 保存着与主LUN 间隔一定时间周期(复制周期)之前的数据,保障数据绝大部分不丢失。如果异地同城灾备中心部署有备用主机,则备用主机可以访问从 LUN,接管业务。异地灾备中心从 LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其地址, 以便用于后续增量恢复,缩短业务回切的时间。灾难恢复处理数据未被破坏时当生产中心灾难恢复后,如果存储系统 A 和 B 没有受到破坏,主 LUN 能够恢复其原有数据,则远程复制可以将主 LUN 故障期间,从 LUN 1新写入的数

45、据增量复制到主LUN。复制完成后,主、从 LUN 保持复制关系。此时,可以将业务切换回生产中心, 重新由生产主机访问存储阵列 A 的主 LUN,远程复制重新保持由主 LUN 向从 LUN 实时同步数据。数据完全被破坏时当存储系统 A 或 B 被破坏,数据不可修复时,需要重建存储系统 A 或者存储系统 B, 将从端数据反向复制到主端存储系统 A 和存储系统 B 上,调整主从关系,在生产中心恢复业务。链路和灾备端故障当生产中心与灾备中心的复制链路故障或者灾备中心设备故障,则远程复制自动断开复制,不影响生产系统的正常运行。生产中心主 LUN 将记录故障期间的数据差异变化, 待故障恢复后,自动将增量数

46、据同步到从 LUN。HyperMetro+异步级联工作原理HyperMetro 支持通过异步级联和异步并联两种模式组成 3DC,技术原理上比较类似,下面介绍HyperMetro+异步级联模式的工作原理。初始同步处理HyperMetro+异步复制初始同步主要包括双活数据中心之间初始同步和双活到异地灾备中心异步复制主从 LUN 之间的初始同步。HyperMetro 双活站点间推荐 FC 互联,可直接通过配置完成初始同步,与异地容灾中心根据互联带宽的情况可选择下面几种初始同步方式的一种完成初始同步。1.临时增加复制带宽完成初始同步。2.将设备搬迁到一起来完成初始同步。3.通过移动介质存储中转进行初始

47、同步。异步复制初始同步系统自动创建快照,将主 LUN 数据全部复制到从 LUN,复制期间新增数据不会复制到从 LUN 中。正常状态处理HyperMtro 双活+异步复制的写 I/O 流程如下:写请求到双活 LUN;双活 LUN 将写请求双写到两中心的双活数据 LUN;双活数据 LUN 返回写操作完成;双活数据 LUN 返回写 I/O 操作完成周期性的启动异步模式,主端创建时间戳快照,并通知灾备中心创建也创建时间戳快照增量数据复制完成后,异地灾备中心阵列创建时间戳快照(用于复制过程中,出现任何异常,可在灾备中心拉起业务)将增量数据复制到异地灾备中心增量数据复制完成后,异地灾备中心从 LUN 置为

48、数据完整状态,复制置为正常关系通过双活+阵列复制的两地三中心可实现同城业务 RPO=0,RTO=0,对异地灾备中心通过多时间点技术可实现秒级 RPO,通过容灾一键式恢复,可实现 RTO 分钟级。灾难切换处理双活+异步复制的灾难切换分成生产中心 A、生产中心 B 和生产中心 A 和 B 均故障时的切换处理。1)生产中心 A 故障当生产中心 A 发生灾难后,生产中心 B 自动接管业务,生产中心 B 记录与生产中心 A的数据差异,与灾备中心的异步复制不受影响。当生产中心 A 的存储设备可修复并且双活数据 LUN 和双活配置都正常的情况下,生产中心 B 将故障期间的差量数据复制到生产中心 A,直到双活

49、工作状态全部恢复正常。2)生产中心 B 故障当生产中心 B 与异地灾备中心实现异步复制时,生产中心 B 发生灾难后,不影响生产业务的接管。由于生产中心与异地灾备中心通过异步复制容灾,生产中心 B 发生灾难后,生产系统当前的数据无法继续异步复制到异地。当生产中心 B 在可修复并且双活数据 LUN 和双活配置都正常的情况下,修复后自动将差异数据同步到生产中心 B 磁盘阵列中,异步复制继续增量复制到异地灾备中心。当生产中心 B 无法修复的条件下,双活需要重新初始同步镜像数据,并重新初始复制到异地灾备中心。3)生产中心 A 和生产中心 B 都故障当生产中心 A 和生产中心 B 分布较近,在重大灾难时均

50、可能出现故障,此时可在异地灾备中心拉起业务。在灾备中心拉起业务时,数据要回滚到最近的一致性点,最多可能丢失两个复制周期的数据。异地灾备中心从 LUN 接管业务后,远程复制会记录差异数据,以便用于后续增量恢复,缩短业务回切的时间。灾难恢复处理1)生产中心 A 故障的恢复当生产中心 A 的存储设备可修复并且双活数据 LUN 和双活配置都正常的情况下, 生产中心 B 将故障期间的差量数据复制到生产中心 A,直到双活工作状态全部恢复正常。当生产中心 A 无法修复的条件下,需要在生产中心 A 与生产中心 B 重新建立双活配置,重新完成初始数据同步。2)生产中心 B 故障的恢复当生产中心 B 在可修复并且

51、双活数据 LUN 和双活配置都正常的情况下,修复后自动将差异数据同步到生产中心 B 磁盘阵列中,异步复制继续增量复制到异地灾备中心。当生产中心 B 无法修复的条件下,需要在生产中心 A 与生产中心 B 重新建立双活配置,在生产中心 B 与灾备中心建立异步复制配置,并完成初始数据同步,恢复生产中心 A 与生产中心 B 的双活关系,生产中心 B 与灾备中心异步复制关系,双活状态和异步复制状态均恢复正常后,结束故障恢复操作。3)生产中心 A 和生产中心 B 都故障当生产中心 A 和生产中心 B 在均可修复并且双活数据 LUN 和双活配置都正常的情况下,确认是否需要将灾备中心的数据同步到生产中心,如果

52、需要,先将灾备中心数据复制到 B,然后由生产中心 B 同步到生产中心 A,完成后再恢复业务。如果不需要将灾备中心数据复制到生产中心 B,可在生产中心 A 和生产中心 B 上直接恢复业务, 灾备中心的新增数据会被覆盖。当生产中心 A 和生产中心 B 完全被破坏时,需要将灾备中心的数据同步到生产中心 B,然后重建生产中心 A 和生产中心 B 双活配置,完成初始同步,然后再建立生产中心 B 到灾备中心异步复制关系,双活状态和异步复制状态均恢复正常后,结束故障恢复操作。链路和灾备端故障为了应对无仲裁或仲裁故障的场景,HyperMetro 有优先站点的概念,就是当网络故障后,优先站点会获得更多的机会接管

53、业务。在 HyperMetro+异步级联模式下,建议将优先站点设置在生产中心 B,以便 HyperMetro 在网络故障或生产中心 A 故障,会仲裁到生产中心 B 承担业务,生产中心 B 与灾备中心的容灾仍能正常工作,保证 RPO 的达成。当生产中心 A 与生产中心 B 链路故障,HyperMetro 将业务优先仲裁到数据中心 B,数据中心 B 与灾备中心的复制不受影响。业务切换到数据中心 B 后,数据中心 B 会记录与数据中心 A 的差量数据,当网络恢复后,数据中心 B 同步差量数据到数据中心 A, 同步完成后,双活恢复到正常状态。当生产中心 B 与灾备中心的复制链路故障或者灾备中心设备故障

54、,则远程复制自动断开,不影响生产系统的正常运行。远程复制自动断开后,生产中心 B 将记录故障期间的差量数据,待故障恢复后,自动将差量数据同步到灾备中心。两地三中心容灾关键技术原理存储双活访问两地三中心方案中双活+异步复制实现的容灾方案中,同城双活涉及到的关键技术包括: 跨中心存储集群,故障不间断访问和地域优化访问等几大技术,相关技术主要利用集群技术提供双活的存储架构,每个节点以共享卷方式向应用服务器提供无差异的并行访问,同时处理应用服务器的 I/O 请求;各节点间互为备份,均衡负载,任何节点故障后,其承接的业务自动切换到正常节点,保证系统的可靠性、业务的连续性。相关详细介绍请参考双活数据中心技

55、术白皮书远程复制状态转移图远程复制有“同步中”、“已分裂”、“正常”、“异常断开”、“失效”几种状态,对各种状态的描述如下表:表3-1 远程复制状态描述Pair 状态状态描述正常(Normal)同步复制初始创建时选择主、从 LUN 无差异、或者主、从 LUN 同步完成后进入该状态已分裂(Splited)同步复制初始创建时选择主、从 LUN 数据有差异,或者同步中或正常或异常断开时选择执行分裂操作同步中(Synchronizing)分裂或者异常断开后执行同步操作异常断开(Interrupted)正常或者同步中状态时出现 IO 失败、LUN 故障、复制链路故障进入该状态Pair 状态状态描述镜像失

56、效主从阵列的 Pair 基本属性配置不一致各种状态的转换关系如下图所示:图3-3 远程复制状态转移图基于 Cache 的多时间点复制技术HyperReplication/A 基于 cache 多时间快照技术,主端需要做 COW 时,主机 IO 写入Cache 即可返回,不需要等 COW 完成后才返回,减少了 COW 对主机性能的影响,极大降低了远程复制同步数据时对主机的性能影响,同时远程复制拷贝数据时,主端直接从 Cache 读取拷贝数据,拷贝时延较小,使异步远程复制支持秒级 RPO。图3-4 Cache 多时间戳复制原理Block IO 技术远程复制一致性组在特定场景下需要悬挂主机 IO,阻

57、止主机 IO 下发,保证一致性组中成员数据一致性。OceanStor 企业统一存储系统基于 Block IO 技术,多控下悬挂主机 IO 耗时能够达到微妙级,而业界悬挂 IO 耗时基本为秒级。通过 Block IO 技术,可以减少远程复制对主机IO 性能的影响,提升控制流程效率。跨站点坏块修复技术当磁盘阵列的硬盘出现坏道,且无法利用 RAID 重构技术进行修复时,或在主机向存储读写过程中发生 DIF 校验失败时,都可能导致主机业务中断。华为存储两地三中心解决方案提供了一种增强的坏块修复技术,当生产 LUN 出现不可修复的坏块或者 DIF 错误时,只要相关的数据已经复制到同城灾备 LUN 上,系

58、统可自动将主机读请求重定向到同城灾备 LUN,读到正确的数据并返回主机和修复生产 LUN,大大提高整体解决方案的可靠性。反向增量同步技术OceanStor 企业统一存储系统支持反向增量同步,在设置从 LUN 可写之后,便可将原灾备中心的 LUN 映射给备用生产主机,恢复生产业务,此时会对主从 LUN 的写记录差异。主从切换后,可以通过合并主从差异,进行反向的增量同步来使得灾难恢复后业务快速回切,避免拷贝全量拷贝数据带来的时间和资源开销。对于两地三中心容灾场景,不论是主站点故障还是主站点及同城灾备中心同时故障, 业务在同城灾备中心或异地灾备中心恢复过程中都可以采用反向增量同步技术,大大提高了灾难恢复后业务回切的速度,减小业务切换过程中的影响。容灾管理容灾管理软件,相当于整个容灾系统的大脑,对系统中各种资源如服务器、存储设备、软件等进行管理,针对容灾全流程如容灾迁移、容灾恢复、容灾巡检、容灾分析、容灾报表等提供业务管理,大大简化容灾系统的管理工作,降低容灾系统维护成本。DashBoard 信息纵览DashBoard 让容灾状态尽在掌握。主页面中直观展示任务执行的成功失败的运行情况, 任务执行时间的长度,对 ORACLE,SQL Server 等应用的保护设置情况,统计信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论