警务云双活数据中心解决方案设计报告_第1页
警务云双活数据中心解决方案设计报告_第2页
警务云双活数据中心解决方案设计报告_第3页
警务云双活数据中心解决方案设计报告_第4页
警务云双活数据中心解决方案设计报告_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、警务云灾备技术建议书灾备技术建议书2016 年 10 月 28 日1 项目概述.51.1 项目背景.51.2 系统现状描述.5应用系统现状.5IT 系统现状.61.3 需求分析.7行业发展要求.72 系统总体设计原则.103 容灾建设方案.113.1 业务系统特征及灾备需求.11公安行业信息化发展趋势.11灾备建设需求.11警务综合平台场景分析.133.2 总体架构设计.143.3 应用双活架构设计.154 关键技术.174.1 网络层解决方案.17全局负载均衡(GSLB).17DWDM.19HyperMetro 技术.214.2 主机层解决方案.26VMware 容灾技术.274.3 数据库

2、层解决方案.28Oracle RAC 技术.284.4 应用层解决方案.30Weblogic 集群技术.304.5 管理层解决方案.34灾备决策支持平台方案.345 容灾相关产品及规格.365.1 Tecal RH5885 V3 机架服务器.36功能和价值.36规格参数.365.2 OceanStor V3 系列存储.37功能和价值.37规格参数.385.3 FusionSphere 云操作系统.40FusionCompute 虚拟化.40FusionManager 云管理.43规格参数.445.4 SNS 系列. 44功能和价值.44规格参数.455.5 BIG-IP 本地流量管理器平台.4

3、6功能和价值.46规格参数.475.6 BIG-IP 广域流量管理器平台.48功能和价值.48规格参数.495.7 OceanStor BCManager 管理软件. 51产品特性.51应用场景.51规格参数.526 方案配置清单.557 相关成功案例.567.1 青海公安客户本地双活项目.56项目背景.56项目需求.56解决方案.56客户价值.577.2 安徽公安厅同城应用双活灾备系统项目.57项目需求.57解决方案.57客户价值.587.3 江苏省公安厅居民身份查询系统同城灾备建设.58项目需求.58解决方案.58客户价值.597.4 成功案例列表.59文档格式要求:文档格式要求:/一级标

4、题 中文采用: 黑体 小二 英文采用 Arial:小二/二级标题 中文采用: 黑体 三号 英文采用 Arial:三号/三级标题 中文采用: 黑体 小三 英文采用 Arial:小三/四级标题 中文采用: 黑体 四号 英文采用 Arial:四号/正文采用 宋体:小四 英文采用 Arial:小四,段落行距为 1.5 倍当前生产中心当前生产中心 I/O 性能数据收集性能数据收集主要收集需要进行灾备保护的应用、主机存储的 I/O 性能数据。数据的收集从两方面获得:从主机上获得I/O性能数据(如在UNIX平台上可利用IOSTAT,SAR可得到I/O性能数据;在Windows服务器上可利用Perfmon工具

5、获得Windows服务器的I/O性能数据) ;从存储平台上获得I/O性能数据,通过存储平台的性能采集工具可以获得访问存储的每个LUN上的I/O分布情况,包括I/O特征(EMC提供完整的工具收集存储平台的I/O性能信息)。/分支结构采用以上格式1 项目概述1.1 项目背景随着XXX公安的业务量增长和业务的高速发展,对于IT系统的依赖程度越来越高,XXX公安存在数据中心新建、升级扩容、业务迁移及整合以及灾备建设需求。使用特定规格产品设计,提供简单可靠、易于部署和管理、便于扩展和升级的IT基础架构和灾备系统架构,以及业务迁移、数据中心整合的专业服务,为用户提供更好的投资保护,满足用户业务发展的需求。

6、1.2 系统现状描述1.2.1 应用系统现状应用系统现状根据项目的具体情况补充,从业务的角度梳理客户灾备系统建设需要的考虑的全部应用系统,包括应用系统的名词、应用系统的功能简述,以及系统提供的服务时间,下表为示例。序号序号应用系统名称应用系统名称应用系统功能简述应用系统功能简述日常服务时间段日常服务时间段1警务综合应用平台核心应用,旨在实现公安业务系统整合,消除部门间的信息孤岛,在整合基础上进行各类应用,实现公安信息资源的最大化利用。24(08:30-17:302情报信息综合应用平台关键应用,金盾二期重点建设项目, 在获取公安内、 外部信息资源的基础上利用综合信息资源库中的各类信息,进行分析和

7、挖掘,发现各类情报并协通各警种和条线部门。24(08:30-17:30)3部门间信息共享服务平台关键应用平台,从外部社会单位(如银行、电信、民航、邮政、证券、保险、社保)进行数据采集、数据整合和信息共享。08:30-17:304网上作战系统刑侦核心业务系统, 与各类资源库、 现场勘查管理系统、指纹比对系统同,DNA系统、警综、 大情报系统及其他相关警种信息管理系统的信息交换, 实现信息资源库的共享整合, 形成综合信息数据库群, 提供智能串并案功能、 线索应用功能、 手机话单分析功能、人员身份证号和电子信息的布控和比对预警功能24(08:30-17:30)5人口信息管理系统关键应用, 二代身份证

8、登记指纹人口信息管理系统升级改造机会点, 主要针对人口信息管理系统中的身份证管理子系统进行, 将指纹信息前端采集系统和指纹信息管理系统作为身份证管理的子系统从系统进行开发和系统集成。08:30-17:301.2.2 IT 系统现状系统现状1.2.2.1 服务器现状服务器现状根据项目的具体情况补充,可参考如下格式(下表为示例) :主机设备用主机设备用途途数数量量品牌及型品牌及型号号主机冗余策略主机冗余策略机房机房OS数据库数据库(版本版本)中间件中间件用于系统数据交换平台2HP-UNIXrp5470UNIXSyBase交换平台的数据库Amtrix四平路数据库1HUAWEIRH5885window

9、s2003 R2SyBasecontrolV6.0/张江 (大机房)应用1HUAWEIRH2288windows2008 R2/Weblogic其 他 机房数据库1HUAWEIRH5885windows2003 R2达梦V7.0/其 他 机房1.2.2.2 存储现状存储现状业务系统中的数据库总量大约为40TB, 虚拟机占用空间约为50TB。 现网中的存储设备为NetApp FAS3000、IBM DS5000以及华为S5600T等。根据项目的具体情况补充(下表为示例) :品牌及型号品牌及型号使用年限使用年限机房机房基本配置基本配置HW 5600T1年以上张江大机房600GB SAS * 243

10、T NL SAS * 12BM DS34005年以上四平路机房250GBHP8年以上四平路机房430GB1.2.2.3 网络现状网络现状*局的数据机房有3个,两个位于*(A和B) ,一个位于*局办公室(C) 。A机房运行了大多数业务系统,B机房为灾备机房,C机房运行了一些OA业务系统。C机房业务将来要迁移至A机房。*两个机房之间直线距离2km,光纤距离78km,约12根裸纤可用;C和B之间,有两条租用的专线:1条是2Mb/s的专线;另1条是60Mb/s的专线,业务数据已经占用了40Mb/s左右的带宽,剩余十几Mb/s的带宽作为灾备数据的传输。下表为示例:机构名称机构名称线路用途线路用途连接的应

11、用系统连接的应用系统线路类型和带宽线路类型和带宽*局*分部同城政务内网连接内部办公业务系统(财务、非税收费用等)SDH专线,2Mbps逻辑链路*局*分部同城政务外网连接生产业务系统中 国 电 信 城 域 网 ,MPLS-VPN 40Mbps*局*分部同城政务外网连接生产业务系统中 国 电 信 城 域 网 ,MPLS-VPN 80Mbps*局*分部同城政务内网连接内部办公业务系统(财务、非税收费用等)SDH专线,2Mbps逻辑链路*局*分部互联网web服务中国电信互联网60Mbps1.3 需求分析1.3.1 行业发展要求行业发展要求1.3.1.1 国家灾难恢复规范要求国家灾难恢复规范要求国家对加

12、强信息安全保障工作十分重视,先后出台了多项有关灾难备份的保障措施。已出台的有关文件如下:2003年9月,中共中央办公厅、国务院办公厅下发了国家信息化领导小组关于加强信息安全保障工作的意见(中办发200327号)。该指导意见明确提出国家和社会各基础信息网络和重要信息系统建设要充分考虑抗毁性与灾难恢复,制定和不断完善信息安全应急处置预案。 灾备建设要从实际出发, 提倡资源共享、互为备份。文件要求:要高度重视灾难备份工作;灾难备份建设要从实际出发,提倡资源共享, 鼓励社会力量参与灾难备份设施建设和提供技术服务; 明确了“谁主管,谁负责、谁运行,谁负责”的建设及管理方针。2004年1月9日,全国信息安

13、全保障工作会议下发了关于做好国家重要信息系统容灾备份工作的通知 。该通知明确指出国家重要信息系统容灾备份工作的主要目标是“提高抵御灾难和重大事故的能力,减少灾难打击和重大事故造成的损失、确保重要信息系统的数据安全和作业连续性,避免引起社会重要服务功能的严重中断,保障社会经济的稳定”。通知指出:国家重要信息系统容灾备份建设工作要坚持“统筹规划、资源共享、平战结合”的原则,充分调动和发挥各方面的积极性,全面提高抵御灾难打击能力和灾难恢复能力。与此同时,为贯彻落实27号文件和中央领导的指示,国信办于2004年9月份下发了关于加强国家重要信息系统灾难备份工作的意见(信安通200411号)。文件强调了“

14、统筹规划、资源共享、平战结合”的灾备工作原则;国家为此圈定了银行、保险、证券、税务、海关、民航、铁路、电力等必须建立灾难备份的八个重点行业,同时提出,灾难备份建设要从实际出发,提倡资源共享,可以采用自建、共建和利用社会化服务等模式,鼓励社会力量参与灾难备份设施建设,提倡使用社会化灾难备份服务,走专业化服务道路。2007年11月1日, 国家正式下发了 信息安全技术信息系统灾难恢复规范(GB/T 20988-2007)。该规范作为我国目前颁布的第一部关于信息系统灾难恢复工作的行动指南和标准;明确定义了灾备行业的规范用语;规范了整个灾难恢复的工作流程;作为资料性附录,提供灾难恢复预案的模板;引入了灾

15、难恢复的分级机制(目前确立为六个级别)。 规范指出要加快实施八个重点行业(银行、 电力、铁路、民航、证券、保险、海关、税务)的灾难恢复工作。1.3.1.2 行业灾难恢复规范要求行业灾难恢复规范要求在经济全球化、社会信息化的时代背景下,社会面貌发生了深刻的变化,影响国家安全和社会稳定的因素明显增多, 维护稳定工作面临的形势呈现出许多新变化、新特点。同时,信息化的发展,提高了社会生产力,也为进一步加强和改进公安工作提供了强大的动力。多年以来,我国公安机关在大力提高队伍的整体素质和战斗力,有效维护国家安全和社会稳定的斗争中,始终坚定不移地走“科技强警”之路,坚持向信息化要警力、要战斗力。孟建柱部长向

16、全国公安机关和广大民警提出的“三项建设”中,第一项就是“推进公安信息化建设” 。他强调,要深入推进公安信息化建设,切实提高公安机关在动态环境下驾驭社会治安局势的能力。要加强和改进执法工作,进一步细化执法标准、严密执法程序,切实提高执法精细化水平。要深入推进社会矛盾化解工作,创新社会管理,更加积极地开展矛盾纠纷排查,更加积极地运用调解手段化解矛盾。 要坚持公安信息化建设与群众路线相结合, 不断完善群众工作机制、创新群众工作方法,构建和谐警民关系。要进一步加强公安队伍建设,提高队伍管理科学化水平,努力打造一支素质过硬、作风优良、公正廉洁的钢铁队伍。前不久,公安部副部长张新枫在全国公安信息化建设与应

17、用推进会上指出,各地公安机关要明确目标, 强力推进, 坚决打赢信息化建设应用的攻坚战。 他说,全国公安信息平台建设和应用已经在平台框架、研判体系、实战应用等方面取得了重大阶段性成果,在维护国家安全和社会稳定方面,已经发挥出了越来越大的作用。围绕深入推进信息平台的建设与应用,他强调,随着信息主导警务战略的深入推进,各地公安机关要紧紧抓住有利时机,进一步加大工作力度:首先要以平台功能完善为抓手,进一步理顺信息化应用总体架构;第二,要以分析研判为重点,进一步落实人员动态管控措施;第三,要以基础信息采集维护为着力点,建设一支高水平的信息采集维护专门队伍; 第四, 要以研判队伍专业化建设为载体,进一步提

18、高析研判的能力和水平。公安信息化建设的主要任务是,加快完善网络、安全和信息中心等信息化基础设施。 根据实际需求, 进一步调整、 优化网络结构, 增加基层所队接入网带宽。在地市级以上公安机关开展涉密应用的部门,完善密码设备配备,加大涉密安全保障系统的覆盖范围。对公安身份认证和访问控制系统,进一步进行扩容,并建设、完善公安信息网边界接入平台。增强信息中心数据处理能力,提高服务保障水平。通过对网络基础设施、安全技术设施和信息中心技术系统的优化与增强,进一步满足和保障应用普及深化的需要。加快构建以“情报信息平台”为龙头的高端应用系统建设。在整合各部门、各警种信息资源的基础上,加快构建以信息化应用为支撑

19、、 以情报信息研判为主要内容、 以服务于警务决策为目标的公安 “大情报”系统,坚持以情报信息主导警务。积极推动地理信息技术与公安信息系统的应用结合。目前公安信息化建设已开始进入到高端应用阶段,在“金盾工程”二期中,以构建公安“情报信息”系统为龙头,以平台建设、资源整合、信息共享为主线,全力推动应用普及和深化,妥善解决发展不平衡问题,全面提高公安信息化应用的整体水平。各地的建设不断的出现新成果、新经验进展顺利并正在体现出强大的战斗力和生命力。2 系统总体设计原则华为公司针对本次灾备项目,将依据技术先进性、可扩充性、高可靠性、高可用性、成熟性、可管理性的总体设计思想;结合华为公司众多灾备系统成功案

20、例和实际经验,进行整体的解决方案设计。技术先进性技术先进性:系统设计应采用当前先进而成熟的技术,不仅可以满足本期工程的需求,也应把握未来的发展方向。可扩充性可扩充性:在系统设计时应充分考虑可扩充性,从而确保新功能、新业务的增加在原有的系统平台上扩展和实现。高可靠性高可靠性:具备先进的灾备的设计;充分保证系统的高扩展能力和高容错能力,具有通道负载自动均衡能力和性能调节能力,提供极为充分的可靠性各项指标设计。高可用性高可用性:在不停机情况下,实现不停机扩容、维护、升级等服务,提高性能以满足新的业务需求,具备 724365 连续工作的能力。成熟性:成熟性:应尽量选用经过大量运用、成熟可靠的系统。可管

21、理性:可管理性:要求配置实时性能监测管理软件。可对 CPU 使用率、内存使用率、交换区使用情况、I/O 操作、队列状态、磁盘空间、卷磁盘错误、系统事件、系统中各进程对系统资源占用等性能和操作数据等服务器性能进行实时监控和管理。可实施性可实施性:选用成熟的技术,成熟的案例经验和设计方案,制定详细的技术实施方案。3 容灾建设方案3.1 业务系统特征及灾备需求3.1.1 公安行业信息化发展趋势公安行业信息化发展趋势警务云数据中心建设警务云数据中心建设虚拟化是云平台建设的基础。通过虚拟化技术进行整合,形成一个对外提供计算资源为主的池化管理(包括服务器池、存储池、网络池等) ,同时提供运行环境等基础服务

22、。服务器虚拟化能够消除 XX 省公安厅信通口原有业务系统的 “一台服务器运行一个应用程序”模式下的效率低下现象,在这种模式下,大多数服务器远未得到充分利用。借助服务器虚拟化技术,一台服务器可用作多个“虚拟机” ,而且每个虚拟机都可以在不同的环境下运行,例如 Windows、Linux 或 Apache。因此,采用服务器虚拟化能够将多台服务器整合到更少的物理设备上, 从而有助于减少空间、能耗以及管理需求。通过服务器虚拟化平台的建设,可以将现有的业务系统逐步迁移到服务器虚拟化平台, 并通过双活数据中心帮助增强业务连续性并提供全面的数据保护, 以便管道局能够获得连续的应用程序可用性以及跨两个物理站点

23、的自动灾难恢复能力。网络虚拟化通过各种网络技术,将不同的应用相互隔离,使得不同用户在同一网络上不受干扰地访问各自不同应用。在交换网络中可以通过虚拟局域网(VLAN)技术来区分不同业务网段,在路由环境下可以综合使用 VLAN、MPLS-VPN、Multi-VRF 等技术,实现对网络访问的隔离。在数据中心内部,不同逻辑网络对安全策略有着各自独立的要求, 可通过虚拟化技术将一台安全设备分割成若干逻辑安全设备,供各逻辑网络使用。存储虚拟化是指利用虚拟化技术, 统一整合管理 FC SAN, IP SAN 等多种存储设备,形成统一的资源池供上层业务使用,屏蔽不同存储之间的差异。“站点双活站点双活+ +异地

24、数据备份异地数据备份”灾备体系建设灾备体系建设传统的数据中心容灾已经从主备数据中心开始向双活数据中心过渡。主备数据中心的建设模式可以在很大程度上提升业务连续性。 用户所有的业务系统都在主数据中心运行,而在备数据中心为业务系统提供冷备或热备,当主数据中心的应用出现故障时,可以将单个应用或数据中心整体切换到灾备数据中心。但这种模式造成了备数据中心常年处于闲置状态而造成资源浪费。 而通过资源整合,可以极大的提升资源利用率,同时双活数据中心的服务能力是双倍的。3.1.2 灾备建设需求灾备建设需求业务恢复需求是制定灾难恢复规划的重要依据,用以确定灾难恢复目标和确定灾难恢复策略及灾难恢复顺序,指导开展应急

25、恢复工作。按照公安行业业务系统重要性及业务系统中断对整个公安业务影响的范围和程度, 可将公安业务系统灾备建设需求分为四个等级:公安业务业务分级公安业务业务分级A 级级B 级级C 级级D 级级业务重要性核心业务重要业务一般业务辅助及测试业务业务影响范围部级/省级市、县级办公室级小组级数据重要性核心原始数据二次处理数据总结数据测试数据业务连续性(维护时间)30 分钟/次60 分钟/次2 小时/次4 小时/次公安业务系统按照业务模式可划分为 BSS、 OSS 和 MSS 三类, 其应用模型对应 OLTP 和 OLAP 两种模式,如下表所示:公安业务类型划分业 务 模式划分BSS(业务支撑系统)公安情

26、报、综合信息查询、交通管理、出入境、机动车驾驶人信息、刑侦、治安、决策指挥等OSS(运营支撑系统)内部网管、网优、资源管理 PKPMI、数据交换平台、请求与服务、搜索引擎等系统MSS(管理支撑系统)OA、邮件、财务、ERP,手机办公、后勤管理等系统应 用 模式划分OLTPBSS、OSS;高数据负载、高网络负载;多线程应用;多用户并发;响应实时性高、事务小而多(除峰值阶段)OLAPBASS;高数据负载;多线程应用;响应实时性较低、事务大而少结合公安行业的主要应用系统,对业务系统的灾备建设需求综合评定如下表所示:业务名称业务模式应用模式业 务 重 要性数 据 重 要性业 务 连 续性综合评定警综系

27、统BSSOLTP/OLAP 核心业务核心原始30 分钟A情报系统BSSOLTP/OLAP 核心业务核心原始30 分钟A部门间共享和服务BSSOLTP重要业务核心原始30 分钟APGISBSSOLTP重要业务核心原始30 分钟A综合信息查询BSSOLTP/OLAP 核心业务二次处理30 分钟ADNA 信息系统BSSOLTP/OLAP 重要业务核心原始60 分钟A/B指纹信息系统BSSOLTP/OLAP 重要业务核心原始60 分钟A/B现场勘验系统BSSOLTP重要业务核心原始60 分钟A/B交通综合管理系统BSSOLTP/OLAP 核心业务核心原始30 分钟A出入境管理系统BSSOLTP核心业务

28、核心原始30 分钟A经侦信息系统BSSOLTP核心业务核心原始30 分钟A人口信息管理系统BSSOLTP/OLAP 核心业务核心原始30 分钟A治安信息管理系BSSOLAP重要业务核心原始60 分钟A/B统决策指挥BSSOLAP核心业务核心原始60 分钟A/B资源管理OSSOLTP重要业务核心原始30 分钟A网管系统OSSOLTP重要业务核心原始30 分钟A数据交换系统OSSOLTP重要业务二次处理60 分钟A/B请求服务系统OSSOLTP重要业务二次处理1 小时BOAMSSOLTP重要业务二次处理60 分钟A/B邮件MSSOLTP重要业务二次处理2 小时B后勤管理MSSOLTP一般业务二次处

29、理2 小时C测试业务 nBSS/OSS/MSSOLAP测试业务测试数据4 小时D3.1.3 警务综合平台场景分析警务综合平台场景分析3.1.3.1 业务场景分析业务场景分析公安的大部分业务各类应用系统隶属于公安系统不同业务管理部门,是在不同的时期建立的,因此它们所运行的平台、数据结构等是不同的。警综平台是公安主体业务网上办理、网上流转和警务信息资源大集中、高共享的信息化工作平台,实现公安业务系统整合和业务信息最大化共享。其建设目标:实现公安业务系统整合,完成单点登录,全网漫游;建立公安信息库进行整合,形成数据仓库,消除部门间的信息孤岛;在整合基础上进行各类应用,实现公安信息资源的最大化利用。图

30、 3-2 警务信息综合应用架构警综平台的建设涉及到以下 8 个基础信息数据库:数据库名称责任单位人口基本信息资源库户政出入境人员资源库出入境管理机动车/驾驶人信息库交警警员基本信息资源库人事在逃人员信息资源库监所管理违法犯罪人员信息库监所管理被盗抢汽车信息资源库交警安全重点单位信息资源治安警综平台里面包含诸如警用地理信息系统、大情报系统等多个分支系统, 出于应用需求,这些应用系统都具备专用的数据库以及硬件设备,这些数据库和硬件设备也是属于警综平台的。一般情况下,这些应用系统都是独立立项建设,然后融入到警综平台中统一维护和管理, 具体情况将在下面分项应用系统场景分析中介绍。 除去专用的应用系统外

31、,警综平台存储建设的重点就是 8 个基础信息库的建设。3.1.3.2 警综平台需求分析警综平台需求分析高性能需求高性能需求:多个业务部门及下级部门同时进行信息录入以及信息查询,需求存储系统高性能以满足业务需要。异构阵列统一管理需求异构阵列统一管理需求:警综平台建设时间长,原本各系统各自建设,警综平台整合时不可能完全抛弃原有系统。现有大部分省市的警综平台中,存储系统普遍存在异构存储阵列多,数据互联互通困难,设备管理复杂,扩容、容灾困难等问题。需统一管理、统一规划。高可靠及业务连续性需求:高可靠及业务连续性需求:警综平台建设的原则就是警务信息资源大集中、高共享。然而信息的集中意味着风险的集中,信息

32、集中后的警综平台一旦发生故障致使业务中断或者数据丢失,其影响的几乎是所有公安系统业务。因此警综平台的业务安全性和可靠性在公安内部就是一项重要的政治任务。3.2 总体架构设计基于系统总体设计原则,结合华为公司在*行业灾备系统成功案例和实际经验,推荐*行业灾备总体架构如下图。推荐灾备总体架构为同城和异地的两地三中心模式。同城灾备推荐A类业务采用同城应用双活灾备;B类业务采用同城应用主备灾备模式;C类业务采用数据级主备(如通过阵列异步复制功能实现) 。异地灾备推荐A、B类业务采用应用主备灾备模式;C类业务采用数据级主备(如通过阵列远程异步复制功能实现) 。3.3 应用双活架构设计针对公安行业核心业务

33、(如警务云、八大库)的高业务连续性要求,推荐采用华为双活灾备解决方案。该方案采用虚拟化存储网关和主机集群、网络集群技术在同城的两个数据中心构建跨站点的业务集群和存储虚拟化集群。 双活灾备方案有别于传统主备模式的容灾方案,传统的主备方案,灾备中心不能对外提供服务,只有当灾难发生时业务才切换到灾备中心,造成业务中断时间长、业务切换风险高和设备资源利用率低的问题, 华为双活灾备解决方案能够实现双数据中心同时对外提供负载均衡的业务, 并且保障在集群单设备故障或者单站点故障的情况下,数据不丢失、业务不中断,实现RPO=0、RTO=0的业务连续性指标。同城双活方案架构描述同城双活方案架构描述采用虚拟化存储

34、实现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备和相同数据可用,最大化提高了业务连续性。在新建数据中心部署多台虚拟机服务器平台, 以及虚拟化存储和存储阵列等设备,同老数据中心现有的虚拟化服务器平台和之前采购的虚拟化存储设备之间组成双活集群。整个双活系统分为存储层、前端网络层与应用层与容灾管理层。存储层存储层,新老数据中心各部署一台华为存储,组成一个存储双活集群,为两数据中心主机业务同时提供读写服务。同时,在新建数据中心配置与现网 HP 阵列系列(如 HP XP24000)同等级和同容量的存储阵列。为了提升热点数据

35、的存储性能,使高价值硬盘得以更充分的利用,可以配置不同类型的硬盘:SAS、NL-SAS、SSD 以合理分配资源;通过业务存储提供的智能分级功能对热点数据进行持续监控并从机械硬盘迁移到 SSD 中,进一步提升系统性能。两个数据中心的存储阵列利用 HyperMetro 双活技术做镜像冗余配置,使得两个数据中心存储数据实时镜像,互为冗余。任意数据中心故障,数据零丢失,实现数据层面的双活。网络层网络层, 数据中心之间应用集群 IP 心跳和 FC 数据传输网络都采用裸光纤直连,传递应用集群信息和双写 IO 数据同步,满足双活数据中心网络时延要求。应用层应用层,两个数据中心的虚拟机服务器构成一个集群,通过

36、警务云虚拟化平台的 DRS 提供跨数据中心的虚拟化自动负载均衡,通过警务云虚拟化平台 HA提供跨数据中心的自动故障转移功能,实现业务层面的双活。容灾管理层容灾管理层,为了实现双活数据中心存储设备的统一管理,建议部署统一容灾管理软件,通过统一容灾管理软件实现双活数据中心的可视化管理,并通过管理软件直观的展示双活业务的物理拓扑。针对虚拟机业务双活需要,可以将容灾管理软件部署在两个数据中心当中任意一台虚拟机上, 即可实现管理业务的双活。建议部署拓扑图如下:4 关键技术4.1 网络层解决方案4.1.1 全局负载均衡全局负载均衡(GSLB)技术概述技术概述随着用户对应用可用性和扩展性需求的进一步增加,越

37、来越多的用户不满足于在单一数据中心提供服务,开始考虑容灾、用户就近访问等问题。这正是负载均衡设备中的全局服务器负载均衡技术(GSLB)所要解决的问题。绝大部分使用负载均衡技术的应用都通过域名来访问目的主机,在用户发出任何应用连接请求时, 首先必须通过 DNS 请求获得服务器的 IP 地址, 基于 DNS的 GSLB 正是在返回 DNS 解析结果的过程中进行智能决策,给用户返回一个最佳的服务 IP。适用场景适用场景全局负载均衡技术适用场景如下:跨站点负载均衡:可以实现跨数据中心的流量分担,用户就近访问某一数据中心。客户端访问切换:当生产中心故障,可以将用户的访问流量自动切换到容灾站点,从而实现客

38、户端访问路径的自动切换。组网架构组网架构GSLB 对于 DNS 请求的处理流程如下:1) 客户端向本地 DNS 发起站点查询请求。2) 当本地 DNS 中没有该站点对应的 IP 地址信息时, 则转发该请求给 GSLBMaster。3) GSLB Master 转发该请求给所有 GSLB Slave。4) 所有 GSLB Slave 反馈响应信息给 GSLB Master。5) GSLB Master 会选择最快响应的 GSLB Slave(例如:Site A 中的 GSLBSlave) ,并返回应答给本地 DNS。6) 本地 DNS 转发 GSLB Master 的应答给客户端。7) 客户端就

39、可以访问提供服务的应用服务器了,例如:Site A 中的 RealServer。技术特点技术特点从 GSLB 处理流程可以看出, 其核心在 GSLB 策略, 常用的一些 GSLB 策略包括:1) 各内容站点的“健康状况”GSLB Controller 对各内容站点负载均衡设备上定义的 VIP 或服务器(没有本地负载均衡的情况)进行第四层 TCP/UDP 健康检查和第七层应用健康检查。未能通过健康检查的站点不会被选为最佳的内容节点。2) 地理区域或用户自定义区域一个区域为若干条 IP 地址前缀。根据用户本地 DNS 的 IP 地址,将特定 IP 范围的用户优先分配到某个通过健康检查的站点。值得一

40、提的是,由于 DNS 本身的工作原理所限, GSLB Controller 只能看到用户本地 DNS 的 IP 地址, 而不是用户终端的 IP 地址。当用户使用错误的本地 DNS(如教育网用户配置网通的 DNS服务器)时,GSLB Controller 返回的 DNS 应答将不是最佳的站点。这是基于DNS 的 GSLB 的一个弱点,但由于绝大部分运营商现在限制其他运营商的客户使用自己的 DNS,出现这种错误配置的比例非常小。3) IP 地址权重可以为 DNS 应答中的每个 IP 地址分配权重, 权重决定与其他候选 IP 相比分配到该 IP 的流量比例。4) 站点(Site)权重可以为每个 Si

41、te 分配权重, 权重决定与其他候选 Site 相比分配到该 Site 的流量比例。5) 会话能力阈值通过厂商自由的 GSLB 协议, GSLB Controller 可以获得每个站点负载均衡设备当前可用会话数和会话表大小的最大值,当前会话数/最大会话数比值超过定义的阈值时,该站点不再被选择。6) 活动服务器指一个 GSLB 节点绑定到一个 VIP 上的活动真实服务器数量。 可以配置策略优先选择活动服务器最多的 IP 地址。7) 往返时间(RTT)RTT 策略是基于区域之外最常用的策略。有两种模式的 RTT 测量:ActiveRTT 测量与 Passive RTT 测量。 在实际部署中, 由于

42、网络限制和性能原因, ActiveRTT 往往无法使用,Passive RTT 更实用一些。8) 当前可用会话数9) 站点管理优先级(Admin Preference)为每个站点预设优先级,选择优先级较高的站点。10)10)最少选择选择从前被选择的次数最少的节点。11)11)轮询(Round Robin)采用轮询方式选择站点。4.1.2 DWDM技术概述技术概述WDM 波分复用(WDM,Wavelength Division Multiplexing)是指,在 1 根光纤上承载多个波长(信道)系统,将 1 根光纤转换为多条“虚拟”纤,每条虚拟纤独立工作在不同波长上。由于 WDM 系统技术的经济

43、性与有效性,使之成为当前光纤通信 8 最广泛使用的光波复用技术。DWDM 技术是指相邻波长间隔较小的 WDM 技术, 工作波长位于 1550nm 窗口。可以在一个光纤上承载 8160 个波长。主要应用于长距离传输系统。适用场景适用场景在数据中心之间建设一个 L1 层的 DWDM 的 9 网络,可以提供一个高带宽、超低延迟、高安全性的带宽环境。组网架构组网架构华为 OSN 系列 OTN 设备将为数据中心容灾提供业界领先的广域传送特性,适合于对容量、实时性等要求较高的容灾系统,华为 OSN 系列具备海量级数据传送能力,最大支持 40G/100G80 波(3.2T8T);支持 14 种专业级存储接口

44、(FC/FICON/ESCON 等) ,具备 7 大主流存储厂商的兼容性认证;针对各种容灾组网类型,OSN 系列提供电信级的 50ms 级可靠保护;提供业界最佳的 3000 公里 SAN 拉远能力,满足长距离异地容灾需求。技术特点技术特点DWDM 的技术特点和优势:1) 充分利用光纤的带宽资源,传输容量巨大DWDM 系统中的各波长相互独立,可透明传输不同的业务,如 SDH、GbE、ATM 等信号,实现多种信号的混合传输。如图 6 所示,多个光信号通过采用不同的波长复用到一根光纤中传输, 每个波长上承载不同信号, 在一根光纤中传输,大大提高了光纤容量,极大的节约了光纤资源,降低线路建设成本。2)

45、 超长的传输距离利用掺铒光纤放大器(EDFA)等多种超长距传输技术,可以对 DWDM 系统中的各通路信号同时放大,实现系统的长距传输。3) 平滑升级扩容由于 DWDM 系统中的每个波长通道透明传输 10,不对通道数据进行任何处理,因此,扩容时,只需增加复用光波长通路数即可,方便易行。4.1.3 HyperMetro 技术OceanStor 系列产品的 HyperMetro 功能,可以实现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时, 另外一个数据中心有一份存储设备和相同数据可用,最大化提高了业务连续性。4.1.3.1 HyperMetro 双活

46、集群原理双活集群原理存储双活集群技术 HyperMetro 最大支持 32 个存储控制器,向应用服务器提供无差异的并行访问, 同时处理应用服务器的 I/O 请求; 各控制器间互为备份,均衡负载,控制器故障后,其承接的业务自动切换到正常控制器,保证系统的可靠性、业务的连续性。集群间的通信支持 FC 或 10Ge 链路,通信包括集群心跳和数据镜像。其工作原理如下图所示。4.1.3.2 存储数据镜像存储数据镜像通过 HyperMetro LUN 功能,保证两个站点磁盘阵列之间数据的实时同步。两台存储设备上的 LUN 被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入两个数据中心的存储设备

47、,保持数据实时一致。具体的 IO 读写流程如下图所示。假如数据中心 A 阵列收到写 I/O,处理流程如下:1、申请写权限和记录写日志:数据中心 A 阵列收到主机写请求,先申请HyperMetro LUN 的写权限;获得写权限后,HyperMetro 将该请求记录写日志。日志中只记录地址信息,不记录具体的写数据内容;该日志采用具有掉电保护能力的内存空间记录以获得良好的性能。2、执行双写:将该请求拷贝 2 份分别写入本地 LUN 和远端 LUN。通常情况下 LUN 是回写状态,数据会写入该 LUN 的 Cache 就会返回。3、双写结果处理:等待两端 LUN 的写处理结果都返回;4、响应主机:镜像

48、卷返回写 I/O 操作完成。如果任何一个存储设备故障,采用日志记录故障期间数据的变化情况, 待存储设备恢复正常后, 将增量数据后台同步到修复的存储设备, 整个过程对主机“透明”,不会影响主机业务。4.1.3.3 存储数据修复存储数据修复单块磁盘可能会因为掉电等异常情况出现坏块。 如果是可修复错误而且本端无法修复,因为远端站点有镜像数据,则会自动从远端站点获取数据来修复本地数据盘的坏块,进一步提高系统可靠性。假如数据中心 A 阵列收到写 I/O,镜像处理流程如下:申请读权限:阵列收到主机读请求,先确认 HyperMetro 的本地读权限。读本地 LUN。读本地 LUN 结果返回,如果可修复错误,

49、执行错误修复。重定向远端读。远端读返回。读结果返回。本地写入修复。4.1.3.4 逻辑错误保护逻辑错误保护当遭遇病毒攻击或人为误操作等异常时,数据中心的数据可能被破坏。 采用虚拟快照技术,在操作前对现有数据卷激活快照,实现本地数据保护。虚拟快照采用写前拷贝(COW)技术,仅将变化的数据拷贝至快照卷,系统资源占用少。当原卷数据被错误修改或删除,需要进行恢复时,采用快照对原卷进行回滚,实现数据恢复,并且,快照卷可分别映射给主机进行数据测试和挖掘,不影响生产业务。结合华为容灾管理软件,激活快照前触发数据库完全检查点, 待数据下盘完成后, 激活快照, 保证快照数据完全满足数据库的一致性要求,快速拉起数

50、据库。4.1.3.5 高可靠仲裁防脑裂技术高可靠仲裁防脑裂技术为保证各种异常情况下,存储双活集群能够进行仲裁,建议设计第三方仲裁站点,以保证极端场景下的业务连续性。极端场景包括:出现数据中心整体故障或中间链路故障等场景,存储集群仍然可以访问仲裁服务器进行仲裁,保证业务可靠性和数据一致性。有仲裁站点的场景如下图所示,为保证任一数据中心整体故障或中间链路故障等极端场景下,主机业务的连续性, 方案建议采用仲裁服务器。 这样, 可以保证极端灾难场景下,存储集群仍然可以访问仲裁服务器进行仲裁,保证业务可靠性和数据一致性。第三方仲裁站点位于 XX 点,XX 点与两个数据中心之间通过 XX 线互联。仲裁服务

51、器可以运行在虚拟机上。当出现任一数据中心整体故障或中间链路故障等极端场景, 整个集群的仲裁过程如下:XX 数据中心与 XX 数据中心之间的中间链路断开,导致两个数据中心集群发生分裂,进而两个中心之间的存储虚拟化平台发生“脑裂”,存储虚拟化平台从一个大集群分裂为两个小集群;根据集群“脑裂”的通用原理,当大集群分裂为两个小集群时,每个小集群分别抢占第三方仲裁服务器,抢占成功的小集群“获胜”,将继续对外提供服务,为应用提供存储访问空间;未抢占到仲裁信息的小集群则自动退出集群,不再对外提供服务;当中间链路恢复时,“自动退出的小集群”检测到中间链路由故障变为正常,尝试与“继续服务的小集群”握手通信,经过

52、握手通信两个小集群再次组成一个大集群,以 Active-Active 模式提供服务,互相之间实现冗余。下图列出了基于仲裁服务器模式, 各种故障场景下双活业务是否存活的概要。H1 和 H2 表示组成双活 HyperMetro LUN 的两个阵列,C 表示对应的仲裁服务器。无仲裁站点的场景若无第三方仲裁站点,建议用户在某个数据中心部署仲裁服务器,业务表现和上述的描述大致一致,但如果仲裁服务器所在的数据中心整体故障,双活业务停止。若无仲裁服务器,用户可以设置其中一端阵列为优先站点,另一端为非优先站点。当发生脑裂场景,或者非优先站点故障时,优先站点上的 lun 继续提供服务,非优先站点的 lun 停止

53、提供服务。不足之处在于当两阵列之间失去联系,可能是站点间链路丢失或其中一个阵列故障。系统不能区分这两种情况,当优先站点阵列故障时,非优先站点不能接管双活业务,双活业务停止。4.2 主机层解决方案4.2.1 VMware 容灾技术容灾技术技术概述技术概述虚拟机 HA 是当计算节点上的虚拟机出现故障时,系统自动将此虚拟机在其他正常的计算节点上恢复,使该虚拟机能正常使用。虚拟机在 HA 的过程中不可以使用。适用场景适用场景虚拟机 HA 使用于虚拟机故障或者主机故障场景, 通过监控虚拟机或物理机,当虚拟机故障时在原主机上重新拉起; 物理机故障则在其它主机上拉起所有故障的虚拟机。组网架构组网架构生产站点

54、部分正在运行的主机或虚拟机发生异常(如主机下电、主机重启、虚拟机蓝屏) ,虚拟机优先通过 DRS 功能在本地冗余主机上 HA。若本地冗余主机资源不足,则虚拟机通过集群内 HA 功能在容灾站点主机上 HA。发生容灾时,虚拟机短时间内不可用(依赖于虚拟机 HA 时间) ,数据无丢失。容 灾后,生产站点虚拟机仍然访问本地存储资源,容灾站点容灾虚拟机将跨站点访问生产站点的存储资源。技术特点技术特点当计算节点上的虚拟机出现故障时,系统自动将此虚拟机在其他正常的计算节点上恢复,使该虚拟机能正常使用。虚拟机在 HA 的过程中不可以使用。HA 的目标服务器必须满足该虚拟机需要的资源要求。虚拟机 HA 只能在同

55、一个迁移域中进行,一个迁移域即一个 Cluster。4.3 数据库层解决方案4.3.1 Oracle RAC 技术技术技术概述技术概述RAC 全称 Real Application Clusters,是 Oracle 数据库高可用技术的一种,也是 Oracle 数据库支持网格计算环境的核心技术。从 10g 版本开始 Oracle 推出了Oracle Clusterware 集群软件,使得 RAC 不再依赖于第三方厂商得集群软件实现多节点并发的集群数据库。如图所示,一组 Oracle RAC 数据库服务器组成一个集群,他们之间通过高速内网相互联,共享缓存。用户通过外部网络连接到数据库集群,当数据

56、库服务器有单点故障时,上层用户不会受到任何影响。数据库集群共享下层的 SAN 存储。Oracle RAC 是 Oracle 数据库高可用技术之一,也是 Oracle 数据库支持网格计算环境的核心技术,可提供多节点并发的数据库应用,并通过监听客户端和服务器端实现负载均衡,把用户连接分配到不同的节点上执行。Oracle Extended RAC 在 Oracle RAC 技术基础上提供了一种跨数据中心的双活集群架构,当单中心故障时,另外一个数据中心存活的节点可自动接管业务,接管过程对上层业务透明,用户无感知。基于 Oracle Extended RAC,构建双活数据中心来并行承担相同业务,提高数据

57、中心的整体服务能力和系统资源利用率成为可能。在这种场景下,两个数据中心互为备份,当单数据中心故障时,业务可以能自动切换到另一数据中心,业务不中断。Oracle Extended RAC 的核心是共享存储子系统,通过共享访问数据文件、重做日志文件、控制文件和参数文件的方式,确保各节点都能进行读写操作,且在单个节点出现故障时,剩余节点能够自动接管并恢复数据库。双活架构数据中心方案采用共享卷技术, 将跨数据中心的存储空间以共享方式提供给上层应用访问,满足 Oracle RAC 共享存储需求,使得两个数据中心的节点可构成一个跨数据中心 Oracle Extended RAC 集群。Oracle Ext

58、ended RAC 集群配合 Oracle 监听器技术,可实现客户端在数据中心间业务双活访问和负载均衡; 配合 Oracle 透明应用程序故障转移 (TAF) 技术,当服务器或单数据中心故障时,使客户端能够在新的连接中继续工作,防止业务中断。构建以 Oracle Extended RAC 为数据平台的双活数据中心,底层以虚拟化智能存储和智能光传送平台为基础,以 100km 光传输距离为限,解决了传统灾备中心不能承载业务和自动业务切换的问题, 为应用系统提供最高的业务连续性保障, 确保业务系统发生设备故障、 甚至单数据中心故障时, 业务无感知自动切换,实现 RPO (Recovery Point

59、 Objective) 和 RTO (Recovery Time Objective) 都为零。以 Oracle Extended RAC 为数据平台的双活数据中心,其亮点和优势如下:高可用性:两中心数据实时镜像同步,任一数据中心故障,另一数据中心可自动接管业务,实现 RPO=0、RTO=0。结合存储虚拟化层的快照技术,可防止人为误操作导致的数据错误或者丢失,保护数据完整性。灵活数据访问:两数据中心存储、网络和应用各层级都以双活的方式对外提供服务,业务就近访问,自动负载均衡,为用户提供更加灵活的数据访问方式。高效资源利用:华为存储的虚拟化技术,可统一接管不同厂商、不同品牌的存储设备,充分利用现

60、有存储设备资源,保护客户投资;快照技术,为用户提供可靠性验证、报表统计、业务查询等功能。统一管理:华为存储统一管理平台,提供对设备、资源和业务的集中管理,简化灾备业务配置流程,并实现端到端业务监控,实时展现系统状态,如数据状态、复制状态等。适用场景适用场景基于 Oracle Extended RAC 分布式集群技术的双活数据中心,其适用场景如下:大量的读操作,大量的客户连接,需要较高的系统性能支撑数据库响应能力受到硬件的束缚,试图通过 Scale-Out 来进行性能提升小型机虽然能在垂直领域提供较好单个节点的性能,但是价格较高人员有限,不想通过水平扩展(拆库)来解决单个节点的性能问题(因为会带

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论