基于双活“零”切换的服务不间断的BOSS系统_图文_第1页
基于双活“零”切换的服务不间断的BOSS系统_图文_第2页
基于双活“零”切换的服务不间断的BOSS系统_图文_第3页
基于双活“零”切换的服务不间断的BOSS系统_图文_第4页
基于双活“零”切换的服务不间断的BOSS系统_图文_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、成果上报申请书成果名称基于双活零切换的服务不间断的BOSS系统成果申报单位山东省(自治区/直辖市公司成果承担部门/分公司帐务中心项目负责人姓名项目负责人联系电话和Email成果专业类别*业务支撑所属专业部门*业务支撑线条成果研究类别*其它省内评审结果* 优秀关键词索引(35个容灾双活零切换应用投资200万元(指别的省引入应用需要的投资金额产品版权归属单位中国移动通信集团山东有限公司对企业现有标准规范的符合度:(按填写说明5符合如果该成果来源于研发项目,请填写研发项目的年度、名称和类型(类型包括:集团重点研发项目、集团联合研发项目、省公司重点研发项目、其他研发项目,可填写多个:省重点研发项目:应

2、急容灾零切换,革命性提升BOSS系统业务服务水平。成果简介:山东公司针对容灾系当前存在的切换时间长、投资大、容灾侧资源平时不能使用、流程复杂维护难等问题进行了积极探索,采用创新技术大胆尝试,彻底解决容灾系统资源闲置问题(含存储,通过在国内首次创新尝试将vplex存储虚拟化结合oracle的远程rac技术实现了跨数据中心的双活方案,即BOSS系统生产端和容灾端可以同时放开对外访问,彻底解决了以往容灾端平时不能打开对外访问的弊端。双活数据中心结合通过定制开发的BOSS系统对外统一接口平台,经过测试容灾切换最多只需要几十秒,且无需人工干预。BOSS系统的双活数据中心将是BOSS系统的一场革命,必将大

3、大降低停机窗口、提高服务质量,降低业务风险,同时大大节约投资。省内试运行效果:描述成果引入后在本省试运行方案、取得的效果、推广价值和建议等。1、人力解放:通过优化,大大减轻了容灾系统维护工作量,山东公司目前只有一人在兼职维护容灾系统。2、容灾系统可用性:通过优化,是容灾系统可用性和切换信心度大幅增长,现在山东公司每半年均进行1到2次真实切换演练,在2011年集团公司组织的容灾演练专项检查中,山东公司第一个参与真实演练并获得满分,充分证明了优化的效果。3、提高客户满意度通过优化,使系统停机窗口做到最小,尤其是双活“0”切换技术,使切换窗口最到最小,近几年山东公司客户满意度在集团内保持了比较高的名

4、次。4、节约投资通过创新的双活“0”切换技术以及虚拟化技术的应用,使容灾端的资源真正利用起来,从而大大节约了投资,以山东公司容灾系统投资占硬件整体投资的50%计算,相当于每年可以节约4000万人民币文章主体(3000字以上,可附在表格后:根据成果研究类别,主体内容的要求有差异,具体要求见表格后的“填写说明6”。附表后。基于双活零切换的服务不间断的BOSS系统一、背景和意义为了更好的保障BOSS系统运行,提高服务质量,我们先后建立了应急系统、容灾系统等,但仍存在如下矛盾,并越来越突出投资大,效益慢:今年BOSS扩容需要约XXXX万TPCC,XXXT存储设备,需要同步对容灾系统扩容。1、灾备端平时

5、无法打开:灾备端的资源(尤其是存储平时无法打开使用,造成资源浪费严重。2、切换时间长:一般需要1-2小时以上才能起来。3、故障情况下切换决策难:有时切换时间+决策时间>=灾难修复时间,难以决策,期间无法办理业务。4、难以找到RTO、RPO都为0的0切换方案。5、流程复杂,维护难:系统切换需要一系列管理和技术流程,维护复杂,生产、容灾端都需要维护。6、无法做到在线的系统升级迁移和新业务上线。这种情况下,我们急需探索在BOSS系统中引入容灾系统双活零切换技术,基于如下考虑:1、可以从降低运行风险、提高客户满意度等方面提升业务运营水平。2、可以从降低业务停机窗口、降低维护工作量等方面降低系统运

6、维压力。3、可以降低系统灾难处理压力、最大限度降低业务中断时间,从而提高客户满意度。4、使容灾侧资源平时可用,达到双活。5、降低演练测试的业务停顿窗口,提升演练质量。二、山东公司双活零切换方案介绍2.1 双活零切换方案的选型原则必须要从技术、管理、使用维护等方面考虑选择双活零切换的方案,具体来说:1、技术可靠要求数据要跨中心流动,在同一个中心内部的无法做到容灾。要求数据必须双活访问,切换需要的RTO、RPO都为0。2、满足高可用性要求满足跨中心的高可用性,数据一致行的保证。由于跨中心,网络(IP、SAN稳定性问题必须考虑,由超强容错机制。3、易于管理方案必须易于管理,手段便捷,因为复杂的管理也

7、是一种灾难。4、易于使用维护方案必须低风险,易于使用,自动化程度高。切换简单,流程少甚至无流程,并降低人工操作风险。2.2 基于双活零切换技术的主要方案分析目前主要有四类解决方案,对比如下:应用改造+触发器同步方案应用改造+商用软件同步方案应用改造+赛门铁克卷管理+oracle远程rac应用改造+Emcvplex+oracle远程rac应用改造难度难以全部数据同步,只能关键表关键表同步(gg、dsg、quest等通过对应用本身改造并进行部署改造,可支持全部数据同步投资较小较大较大较大性能影响生产、容灾端影响生产、容灾端影响生产,较低不影响维护管理麻烦麻烦较麻烦简单、稳定RTO>0>

8、0接近0 0RPO<>0<>00 0脑裂现象非全业务,非双活非全业务,非双活难以避免通过创新应用避免山东公司综合考虑并试验验证后选择了第四种方案。2.3 山东公司方案构成主要由如下特色技术实现1、核心数据层:国内首创的将vplex和oracle远程rac技术相结合并创新性应用于BOSS系统三中心,可实现全业务跨数据中心的双活访问2、应用路由层:业内率先新开发实现统一应用接口平台,作为连接数据库服务的入口,并支持高可用连接切换。3、应用部署层:对应用部署方案进行创新性改造,支持跨中心双活部署.下面分别进行介绍:2.3.1 核心数据层介绍在引入vplex以前的存储复制架构:

9、主备模式,存储底层同步,备份端平时不提供对外访问。如下图所示:引入vplex 后,生产端、容灾端的存储资源平时均可访问,vplex 通过全局缓存保证数据一致性和高可用性。平时两边主机分别访问本地存储,故障情况下可跨中心访问对方存储。如下图:Oracle 远程RAC 技术:跨数据中心的数据库,一个数据库多个跨节点实例。每个实例都是活的,可以访问。但是需要结合其他共享存储技术(主机的镜像、存储复制、vplex 等实现跨中心存储并发访问技术才能实现,如下图: Site B Site ASYNCHRONOUS REPLICATIONActive-Passive Site VPLEX Metro Sit

10、e B Site A F I B R E C H A N N E LActive-Active SiteVPLEX enables active use ofresources at two sitesD I S T R I B U TE D V I R T U A LV O L U M E 但是数据层远程rac 技术存在“脑裂”风险,由于数据中心间距离远,网络稳定性差,必须需要额外进行冗余设计,如网络连接、内部网络、san 连接等。2个数据中心间网络全断情况下,无论vplex 还是oracle 的rac 均可能出现“脑裂”现象,造成访问中断,数据不一致现象发生。 山东公司结合三个数据中心设计

11、,在第三中心分别增加vplex 和oracle 的仲裁节点,避免了“脑裂”现象。 共青团路机房开发区机房经十路机房15KM/20GIP 带宽/40GSAN 带宽5KM/10GIP 带宽/24GSAN 带宽15KM/20GIP 带宽/40GSAN 带宽在三个中心间建立互联环状全冗余架构,任何两点之间的故障都不会影响第三点。 通过增加第三节点,防止两个中心间网络全断场景。 最终的山东特色的核心数据层架构如下: 2.3.2 应用路由接口层方案数据层实现双活方案后,应用路由接口层必须进行改造才能最终实现0切换。山东公司针对外部接入,业内率先专门实现统一的对外应用接口平台,实现了跨中心高可用性、并提高了

12、新业务开发效率和易维护性。EMC VPLEX SANSAN EMC DMX4EMC VPLEXSANSANEMC DMX44节点 ORACLE RAC 节点集群METRO 光纤互联(波分 15KM p 网络(波分 15KM 第三中心Vplex 仲裁点 oracle 虚节点第一中心第二中心现状:1、系统使用的协议多:CICS :网厅、WAP 、SOCKET :短信、VC 、银行等,EASYCICS :IVR 、自助,HTTP +XML :一级BOSS2、一个接口需要针对不同的协议开发多套,提高了开发的成本,“烟筒式”架构。3、做不到对外服务0切换:难以做到每个对外服务接口均支持高可用性。 山东公

13、司针对上述现状,结合0切换需求,开发的新的统一接口平台从架构、数据库连接、负载均衡等方面考虑了在单数据中心故障下的零切换方案。如下图:在每个数据中心均建立相应的接口机,接口机连接后台访问的中间件服务器,并提供对外服务,中间件负责连接数据库,接口负责同时提供对外服务,确保一个数据中心故障情况下另一个接口平台仍能正常对外服务。通过多实例部署,分别练到多个数据中心,并同时对外提供服务,通过负载均衡技术,在多服务器和多数据中心间分担系统压力,降低了单节点和单中心接入宕机的风险,确保系统稳定。新的统一接口平台解决了在数据库、网络故障情况下进程僵死、挂起等现象,从而支持了数据层的双活零切换。下图是进程队列

14、的处理逻辑:自助终端1自助终端2自助终端3自助终端4自助终端服务器1自助终端服务器2负载均衡器防火墙接口机1接口机2中间件服务器1中间件服务器2数据库数据库个人工作站HTTP+XMLHTTP+XML 2.3.3 中间件层全业务部署方案接入层和中间层保留相当余量,部署了相当的业务逻辑,每个中心中间层主机都可以接管所有业务,平时均为生产。每个交易中间件主机针对每套数据库同时建立2-4个连接指向跨中心的数据库节点,并部署完全相同的服务和应用。 WEB 层建立通用的分发器,负责调用交易中间件的region 服务(主、备。 可配置为负载均衡机制或主备机制,在一端失败时,自动调用备用端region 和服务

15、。图示如下:Servlet 应用WEB 应用服务器分发器后台接口服务1营业数据库12.3.4 山东公司0切换方案验证情况完全按照一套生产营业crm 系统测试。 充分模拟考虑性能、各类故障等情况。测试环境:NGCRM +统一接口软件+emc vplex +oracle rac (9i 11g 。 测试时间:2011年4月2号-6月18号。 测试拓扑如下: 测试设备清单如下:设备名称配置用途Server1-1,1-2IBM P7,16CPU, 60GmemorySite1 测试主机 (IBM,数据库节点 Server2-1,2-2IBM P7, 16 CPU,60Gmemory Site2 测试主

16、机 (IBM,数据库节点 Serv3-8IBM P5 4C 40G中间件测试机器Server1-1SAN1-1SAN1-2Server1-2SAN1-1SAN1-2SAN1-3SAN1-4DWDMSAN2-3SAN2-4Server2-1SAN2-1SAN2-2Server2-2SAN2-1SAN2-2Switch1-1Switch1-2Switch1-3Switch1-4Switch2-1Switch2-2Switch2-3Switch2-4DWDMWANBiilingCRMCallCenterNMSOAHR。Center-2Center-3VPLEX1VPLEX2DMX-4-1DMX-4-

17、2SAN1-1,1-2MDS9509Site1测试主机HOST用SAN 交换机SAN2-1,2-2MDS9509Site2测试主机HOST用SAN 交换机SAN1-3,1-4MDS9509Site1测试Site间互联用SAN 交换机(EMCSAN2-3,2-4MDS9509Site2测试Site间互联用SAN 交换机(EMCDMX-4-1256G CACHE, 320*300GdisksSite1测试存储(EMCDMX-4-2256G CACHE, 320*146GdisksSite2 测试存储(EMCVPLEX164G CACHE, VPLEX Site1测试VPLEX(EMCVPLEX26

18、4G CACHE, VPLEX Site2测试VPLEX(EMCAIX/HACMPAIX 5.3/ HACMP测试主机操作系统/ 集群软件(IBMORACLE 9i/11g RAC ORACLE 9i/11gStretch RAC测试数据库软件(ORACLE测试场景用例:1、重点功能测试,包含仲裁测试和业务测试。2、容错测试,包含数据库繁忙测试、数据库故障测试、主机故障测试、VPLEX 故障测试、存储故障测试、中心互联故障测试等。3、性能测试,包含IOPS和MBPS等指标。故障层次故障测试场景模拟ORACLE 故障1.Server1-1 oracle 故障宕机2.Server1-

19、2 oracle 故障宕机3.ORACLE RAC Server 心跳互联故障主机故障1.Server1-1 故障宕机2.Server1-2故障宕机VPLEX 故障1.Vplex1 direct1故障2.Vplex1 故障存储故障1.Vplex1 部分存储空间故障2.Vplex1 整个磁盘阵列故障数据中心故障1.Vplex Metro数据中心互联故障2.Vplex Metro数据中心互联故障,NO Witness Server测试结果如下:性能方面:和传统SRDF 方案差别不大。 针对真实应用的测试结果如下:序号 容错测试场景模拟 测试结果1S2-1 ORACLE undo space ful

20、lOthers NO impact2 S2-1 ORACLE Share Pool Latch wait Others NO impact3 Server1-1,1-2 oracle 故障宕机 Others delay18s4 Server1-1,1-2 oracle 心跳网卡故障 Others delay 33s5 Server1-1,1-2 故障宕机Others delay 23s6 Vplex2 direct2-1故障Server 2-1,2-2 delay 20s, others NO impact7 Vplex2 engine2故障 Server 1-1,1-2 NO impact

21、8 Vplex1 部分存储空间 故障All servers NO impact9 Vplex1 整个磁盘阵列 故障All servers delay 15s 10 Vplex Metro 数据中心互联故障Server1-1,1-2delay43s( reconnect,delay 17s 11Vplex Metro 数据中心互联故障(NO witness Server1-1,1-2delay43s( reconnect,delay 23s 业务占比双活模式(秒当前模式(秒差距百分比响应时间差值(秒001过户提交 1.60% 5.06 3.26 55% 1.8 002停开机提交 1.60% 3.

22、94 2.731 44% 1.21 003产品变更提交 6.80% 2.14 2.232 -4% -0.09 004营收统计提交 5.20% 0.852 0.896 -5% -0.04 005日志查询提交 6.80% 0.492 0.467 5% 0.03 006改资料提交 2.00% 1.58 1.515 4% 0.07 007缴费提交50.40% 1.94 1.856 5% 0.08 008客户资料查询提交 6.80% 2.09 2.186 -4% -0.1 009禁止业务提交 2.00% 2.004 1.787 12% 0.22 010销户退网提交 1.20% 5.38 5.362 0% 0.02 011改付费计划 1.20% 5.847 1.833 219% 4.01 012开户提交 5.20% 4.099 2.259 81%

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论