版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 DOCPROPERTY PartNumber DOCPROPERTY Product&Project Name iMaster NCE-WAN DOCPROPERTY DocumentName 异地容灾技术白皮书目 录 TOC h z t 标题 1,1,标题 2,2,标题 3,3, 标题 4,4, 标题 5,5, 标题 7,1, 标题 8,2, 标题 9,3, Heading1 No Number,1,Appendix heading 1,1,Appendix heading 2,2,Appendix heading 3,3,Appendix heading 4,4,Appendix hea
2、ding 5,5, Heading 1,1,Heading 2,2,Heading 3,3, Heading 4,4, Heading 5,5, Heading 7,1,Heading 8,2,Heading 9,3 HYPERLINK l _Toc9496799 1 概述 技术特色 HYPERLINK l _ZH-CN_TOPIC_0169512173 o 1.1 产生背景 HYPERLINK l _ZH-CN_TOPIC_0169512174 o 1.2 主要功能 HYPERLINK l _ZH-CN_TOPIC_0169512175 o 1.3 技术特色产生背景随着企业规模的扩展,简单的
3、数据备份已经无法满足关键业务对系统的可用性、实时性、安全性的需要。更重要的是备份的数据往往会因为各种因素而遭到毁坏,如地震、火灾、丢失等。对于一个大企业、一个数据中心来说,时时都有大量的终端用户使用其业务,任何的业务中断、数据丢失都会使企业遭受严重的损失。如何提高系统的高可用性已经成为企业用户最关心的问题,软件系统的高可用设计也成为重中之重。异地容灾解决方案是通过在不同的地点建立备份系统,系统之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作,提高系统应对灾难的能力。主要功能为了提升NCE-WAN应对灾
4、难的能力,提高可靠性,在NCE-WAN本地集群的基础上,增加了异地容灾的设计。异地容灾的手动灾备保护如下:在两个地域各部署一套NCE-WAN集群,互相形成主备保护,重要的业务数据会实时从主集群同步到备集群,主备之间可以分别登录维护管理系统查看对方的连接状态。在主集群故障无法恢复的情况下,管理员可以登录维护管理系统,对备集群进行人工升主以接管业务,保证业务可以快速恢复。由人工确认原主备集群状态决定如何进行主备倒换,可以有效防止双主情况的出现。技术特色应用级容灾NCE-WAN容灾方案非简单的数据级容灾(即只是做到了数据的异地备份),而是应用系统级的容灾,当主集群故障后,除了数据不丢失以外还能实现灾
5、备系统快速上线接管业务。备集群具有主集群相同的业务能力,可快速恢复业务容灾方案要求备集群节点数量与主集群相同,使备集群具备了与主集群相同的业务处理能力,即完全接管主集群业务的能力,可以在主集群故障后快速接管业务并上线。南北向统一VIP,实现主备容灾系统对外统一的访问地址,可以满足更多业务场景。灵活的容灾配置,方便的容灾维护能力容灾提供了便捷的运维界面,使管理员可以方便的查看容灾系统状态,修改容灾系统参数,进行容灾倒换操作。数据同步策略分类设置根据业务数据的差异,将业务数据分成多种类别,提供不同的同步策略。将只有本地集群使用的数据存放本地DB,不进行主备同步,减小对带宽的要求;将业务配置类数据存
6、放于业务DB,并配置实时同步策略,保证数据不丢失,RPO基本为0,备升主后不需要进行对账即可上线提供服务,提升了升主的性能。技术实现REF _ZH-CN_TOPIC_0169512177 r h * MERGEFORMAT 2.1 REF _ZH-CN_TOPIC_0169512177-chtext h * MERGEFORMAT 异地容灾组网基础概念REF _ZH-CN_TOPIC_0169512178 r h * MERGEFORMAT 2.2 REF _ZH-CN_TOPIC_0169512178-chtext h * MERGEFORMAT 异地容灾组件组成REF _ZH-CN_TOP
7、IC_0169512163 r h * MERGEFORMAT 2.3 REF _ZH-CN_TOPIC_0169512163-chtext h * MERGEFORMAT 异地容灾规格REF _ZH-CN_TOPIC_0169512164 r h * MERGEFORMAT 2.4 REF _ZH-CN_TOPIC_0169512164-chtext h * MERGEFORMAT 基本原理REF _ZH-CN_TOPIC_0169512168 r h * MERGEFORMAT 2.5 REF _ZH-CN_TOPIC_0169512168-chtext h * MERGEFORMAT 典
8、型业务场景 HYPERLINK l _ZH-CN_TOPIC_0169512177 o 2.1 异地容灾组网基础概念 HYPERLINK l _ZH-CN_TOPIC_0169512178 o 2.2 异地容灾组件组成 HYPERLINK l _ZH-CN_TOPIC_0169512163 o 2.3 异地容灾规格 HYPERLINK l _ZH-CN_TOPIC_0169512164 o 2.4 基本原理 HYPERLINK l _ZH-CN_TOPIC_0169512168 o 2.5 典型业务场景异地容灾组网基础概念此处以软银场景举例,NCE-WAN部署在主备两个站点中的服务器上。NCE
9、-WAN分业务面和管理面,管理面可以独立登录UI,可进行容灾等维护操作。NCE-WAN控制器的南北向负载均衡虚IP可以不一样,但需要在各自路由器上配置NAT策略,将NCE-WAN的小网地址转化成统一的公网IP,对外体现还是一样的。由于两边南北向大网IP相同,需要在路由器上配置路由优先级,主集群高优先级,确保外部访问的是主集群。当灾难发生需要主备切换时,除了在控制器管理面进行容灾集群主备倒换操作,还需要在路由器上配置优先级,将新主集群配置高优先级。NBI:北向IP地址;NBI VIP:控制器内部的北向虚IP地址,通过Router/FW将外部访问的NBI IP地址转化成内部的NBI VIP地址;S
10、BI:南向IP地址;SBI VIP:控制器内部的南向虚IP地址,通过Router/FW将外部访问的SBI IP地址转化成内部的SBI VIP地址;Mgr VIP:管理面访问的北向虚IP地址,该IP地址客户也可以NAT成大网IP地址访问,但NAT的大网IP需要不同;L3:基于三层网络的NCE-WAN主备集群间心跳、数据同步通道,通过打通NCE-WAN集群的内部网络平面实现。异地容灾组件组成DRMgr Service:容灾状态管理模块,是一个独立的微服务进程,主要维护容灾关系,进行主备仲裁,执行容灾倒换等。NCE-WAN:控制器服务进程。GaussDB:存放业务配置类数据的数据库,主备间以同步方式
11、同步数据。DrProduct Service:同步主备间FI中HDFS的数据。ACA Nginx:同步主备间Portal自定义模板文件。异地容灾规格容灾指标是指在当系统发生灾难(地震、洪水等)或长时间无法恢复的故障时,NCE-WAN在灾难过程中的最大数据丢失量及从灾难状态恢复到可运行状态所需的时间,用于衡量容灾系统的数据冗余备份能力和业务恢复能力。指标项指标项描述限制条件配置类业务数据实时同步(同步机制)RPO=0min无。设备告警类业务数据实时同步(异步机制)RPO=1min无。异地容灾倒换切换时间(min)RTO=故障发现时间+15min(切换和启动时间)+设备上线时间125Mbps主备通
12、信带宽,时延20ms。首次容灾配置数据同步时间(min)RTO=130 min125Mbps主备通信带宽,1万设备的数据量(GaussDB (68GB)+HDFS(4GB)。HDFS数据同步(异步机制)RPO=90 min无文件同步(异步同步)RPO=3 min配置文件包含用户定制Portal页面文件、集群监控配置文件基本原理数据同步原理NCE-WAN采用了GaussDB数据库,数据同步主要依赖GaussDB提供的数据同步能力。NCE-WAN针对业务数据的特点,将DB分成了如下两个:本地DB:保存集群独有数据,这类数据不同步到备集群。优点是提高性能,减小了主备间的数据同步量,降低带宽压力。DB
13、在集群内部由HA提供主备保护,主集群内部为主+同步备,备集群内部为主+同步备,主备集群间本地DB的数据不进行同步。业务DB:保存配置类数据,这类数据需要同步到备集群,理论上不允许丢失。解决了数据丢失问题,备升主后不需要复杂的对账流程即可提供服务,减小了故障恢复时间。DB在集群内部由HA提供主备保护,主集群内部为主+同步备,备集群内部为同步备+异步备,两个同步备都从主集群的DB主节点同步数据,异步备从备集群内的同步备同步数据。因为业务DB是同步策略,在提高了RPO指标的同时,对应的性能会随着主备站点间网络时延增大而变差,因此建议网络时延越小越好,推荐在20ms之内,具体产品可以根据业务性能规格定
14、义相应规格。心跳检查原理NCE-WAN主备容灾由独立微服务DRMgr Service控制,DRMgr Service单个站点内部部署两个节点,通过分布式锁选取Leader。主备集群的Leader之间进行心跳,如下图所示:当Leader节点故障,Follower节点角色会转变为Leader,并与对端集群的Leader重新建立心跳。只要有DRMgr Service存活即可保证心跳的存在,提升了心跳的可靠性。手动倒换流程集群的主备状态变化完全由管理员人工单击容灾运维页面上的倒换按钮实现。具体流程如下所示:人工演练:主备集群间心跳正常,用于向客户演示功能或客户定期执行此功能查看容灾功能是否可用。主集群
15、故障后备升主,掉电、地震等原因导致主集群整体故障。具体流程如下图:典型业务场景安装部署全新安装全新部署两个控制器集群环境,对它们组建主备容灾关系,形成一主一备的主备容灾集群,形成数据、业务上的保护。局点改造局点已经部署过控制器的情况下,客户基于可靠性考虑,要求改造为容灾部署。例如XXX项目,原先NCE-WAN通过集群拉远方式进行部署,考虑到方案的固有缺陷,客户要求改造成标准的主备容灾方案部署。站点故障后,恢复容灾关系主备容灾站点中有一个站点遭到了破坏,恢复遭受破坏的站点,重新组建容灾关系。运维能力可视化操作界面容灾提供了运维界面,可以查看容灾状态、数据同步状态,修改容灾配置,执行容灾倒换。人工演练在主备集群心跳连接正常的情况下,进行主备倒换,给客户展示
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论