省级政务云平台-两地三中心灾备建设方案_第1页
省级政务云平台-两地三中心灾备建设方案_第2页
省级政务云平台-两地三中心灾备建设方案_第3页
省级政务云平台-两地三中心灾备建设方案_第4页
省级政务云平台-两地三中心灾备建设方案_第5页
已阅读5页,还剩139页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、省级政务云两地三中心灾备建设方案 目 录 TOC o 1-3 h z u HYPERLINK l _Toc524552520 第1章 建设目标、范围、任务 建设目标、范围、任务建设目标以国务院办公厅关于促进电子政务协调发展的指导意见为指导,统筹推进省电子政务基础设施提升、电子政务业务系统协同发展、信息资源共享共用和数据开放利用;按照湘府阅201553号文件要求,以资源整合、集约建设、稳步推进为原则,建成安全可靠、统一高效、国内领先的云计算平台并开展示范应用,为全省各级部门提供弹性的云计算和云存储能力、政务外网承载服务与应用能力,基本满足省直部门“十三五”期间非涉密业务的统一网络、计算资源、存储

2、资源、数据库服务、备份服务、安全服务等需求,提升政府效能,促进政府管理创新,达到简政、兴业、惠民的目标。建设范围省级电子政务外网主要满足各级政府部门社会管理、公共服务等方 面的需求,为各省直部门的非涉密电子政务业务提供承载服务。本次建设省级电子政务外网统一云平台,总体框架为“1+2+N”, 即“1网、2中心、N多应用云”,省本级政务大数据中心,初步形成“8+3+5”的基本框架。具体业务目标主要包括: “一个网络”优化升级电子政务外网平台,满足省直部门间以及省 到市、市到县网络传输和承载的需求; “两个中心”建设云计算中心、大数据中心,满足省直部门十三五期间非涉密业务需求,为政府领导提供科学、合

3、理的决策支持。 “N 朵应用云”建设基于云平台的 N 个全省性应用系统,包括政务 服务、政务管理、政务行业、政务决策和政务办公等领域。 “8大基础数据库、主题数据库”完成人口、法人、宏观、地理空间、政务服务信息、工商企业、信用信息、电子证照等8大基础数据库、主题数据库的建设、迁移、备份共享; “3大平台”完成大数据智能分析平台、数据交换和共享平台、数据开放平台3大平台; “5大示范工程”完成全省旅游大数据分析、12345服务平台、区域经济脸谱大数据分析、省互联网产业发展状况分析、省政府网站群智能监测分析5大示范工程;建设建设统一的安全体系;建设统一运维管理机制;设计迁移策略,完成部分系统的迁移

4、;明确云平台建设、管理、运营模式,节约投资,提升服务质量。建设任务充分考虑省级电子政务外网统一云平台计算、存储资源需求的阶段性和应用系统建设的复杂性,为了保证投资的有效使用,采用分期建设的原则。(一)第一期2016年1完成省电子政务外网的升级改造;2建设40%的计算、存储资源;3启动大数据中心建设;4启动N朵云建设。(二)第二期2017年1建设60%的计算、存储资源;2完成灾备中心建设;3完成大数据中心建设;4完成N朵应用云的部分建设。(三)第三期2018年-2020年1全面完成N应用朵云建设。其中,本期云平台基础设施部分的建设任务具体包括以下:完成省电子政务外网升级改造(含安全平台);建设主

5、数据中心、同城双活数据中心40%的计算、存储资源,数据交换和共享平台;建设政府协同办公平台、政务安全邮箱;提供省政府门户网站群五年的运维服务;提供统一的运维管理服务(五年),确保本期建设的政务外网、安全体系、云计算中心安全稳定运行。省级云计算中心方案整体架构 (图示:数据中心架构设计)湖南政务云数据中心采用标准化、开放和高扩展的云计算架构,支撑省政府各部门的政务外网、互联网等多种不同业务服务。(1)网络资源设计:网络采用扁平化二层架构,分为核心层和接入层,提高性能,减少时延;网络大二层部署,保证虚拟机在资源池内部的热迁移能力;核心交换机旁挂负载均衡器,提供负载均衡增值服务;防火墙支持虚拟防火墙

6、能力,实现业务系统之间的安全隔离。外网服务区与互联网服务区之间网络通过部署数据交换平台实现不同业务域之间的安全隔离。(2)计算资源设计:采用标准化的X86物理服务器,构建计算资源池。采用OpenStack开放架构,支持Xen、KVM等主流虚拟化平台。X86服务器根据业务系统对资源的不同需求,配置不同的产品型号及物理配置,划分高性能计算区、通用性能计算区,分别作为虚拟化资源和物理机资源。(3)存储资源设计:多样化存储部署,满足不同业务系统的需求,降低存储的投资成本。对于数据库、VM文件系统采用FC SAN进行承载;对于非结构化数据、虚拟化镜像等数据存储,建议采用分布式文件系统存储承载,保障存储性

7、能和扩容能力。(4)业务云化设计:根据各政府部门业务对云资源的不同需求,以及业务云化的难度,分批逐步的将现网业务系统迁移至云服务商政务云,实现更多政务业务的云化。(5)云管理平台设计: 构建统一云管理平台,通过对政务云基础资源的抽象和资源池化,提供自助式的IaaS、PaaS、SaaS服务。政府客户可通过云管理平台统一门户自助申请云服务,并进行灵活的管理。同时,云管理平台也负责对政务云所有基础资源进行统一的运维管理。容灾备份建设方案两地三中心容灾技术方案演进路线基于目前的情况及省级电子政务外网的发展规划,我们为省级电子政务外网设计一个整体的备份中心解决方案。租用电信运营商机房新建云计算中心,省政

8、府机关二院省电子政务外网机房改建成为同城关键业务双活中心和数据备份中心,在异地(某市州)构建一个灾备数据中心。备份中心全部建成后,在备份中心配置相应基础设施和容灾系统,能够防范各种硬件物理故障:构建存储冗余系统防范存储单点故障,确保存储故障或局部灾难时业务不停顿,数据不丢失(RPO=0,RTO=0),地区性灾难发生时,异地有冗余数据(RPO0),可用于快速恢复业务;构建高可用性的主机HA集群、虚拟化群集来防范主机单点故障和主数据中心灾难故障;构建DNS系统、全局负载均衡、本地负载均衡群集来防范应用主机的单点故障和数据中心灾难,确保应用访问路径的双活;构建冗余的网络出口链路;确保当生产中心出现重

9、大或灾难故障时,系统自动或半自动切换到灾备中心继续运行,保证业务系统的高可用性运转,实现整个业务系统的业务连续性。基于省级电子政务外网建设的总体建设目标,结合目前的实际环境与现状,我们按照”整体规划,逐步演进,分阶段实施”的建设原则,规划以下几个建设阶段:一期工程建设: 完成主数据中心和同城双活数据中心建设,实现同城双活容灾备份系统。在主数据中心和同城双活数据中心(省政府机关二院省电子政务外网机房改造)构建双活存储系统、数据库群集、虚拟化群集、负载均衡群集及必要的基础条件,通过数据级备份(容灾)系统,将主生产中心(新建主生产中心,租用电信运营商机房)的关键业务数据全部实时同步到备份中心,确保主

10、生产中心重大故障或灾难情况下关键业务数据不丢失(RPO=0)。在存储复制同步的基础上,在备份中心构建关键应用(业务)处理(主机)设备,在备份中心部署主生产中心的相同处理能力的应用(业务)系统,在ORACLE数据库RAC群集以及应用负载均衡系统的前提下,通过应用级备份(容灾)系统,实现主生产中心(新建主生产中心,租用电信运营商机房)和备份中心(省政府机关二院省电子政务外网机房改造)的双活双中心容灾架构,即两个中心运行同一个业务系统, 提高系统的负载能力, 同时当两个中心任意一个故障或灾难时候, 关键业务系统在应用架构能够支持的前提下能够完全不中断无缝切换到另一个中心继续运行(RPO=0,RTO=

11、0)。二期工程建设: 建立两地三中心容灾备份系统;在第1阶段双活双中心备份系统建设基础上,建设异地备份中心,在异地备份中心构建备份存储系统及必要的基础条件,通过数据级备份(容灾)系统,将双活生产中心(新建云计算中心和省政府机关二院电子政务外网机房)的业务数据全部复制到备份中心,确保主生产中心重大故障或灾难情况下业务数据不丢失(RPO=0)。上述两个不同设计阶段,按照建设的先后顺序,同城双活容灾可以平滑的过渡迁移到两地三中心阶段。通过两地三中心的建设,省级电子政务外网数据中心的灾难恢复能力达到“信息系统灾难恢复规范”国家标准GB/T 20988-2007的6级,即RTO为数分钟,RPO为0,部分

12、关键业务RTO可以达到0的水平。技术架构同城双活技术架构双活数据中心解决方案是指两个数据中心同时处于运行状态,同时承担业务,提高数据中心的整体服务能力和系统资源利用率。两个数据中心的数据实时保持一致,当单设备故障甚至一个数据中心故障时,业务自动切换,数据零丢失,业务零中断。双活数据中心解决方案是端到端的4层双活方案,分别为:存储层、数据库层、应用层、和网络层,消除单点故障,保证业务连续性。存储双活:双活中心采用冗余光纤互联,并采用DWDM进行环形保护,实现FC SAN的互联。存储虚拟化采用专用的虚拟化引擎或者主机卷管理软件对本地核心存储中的卷与远端核心存储中的卷实现卷级别上的RAID1,即双活

13、分布虚拟卷,实现两个数据中心不同存储上的不同的物理卷的数据层面双活。双活数据中心的数据复制采用同步复制技术,实现RPO=0、即数据零丢失。数据库双活:对于采用Active-Active群集部署的数据库系统,比如Oracle RAC,在网络大二层技术和存储数据镜像共享技术的支持下,实现跨站点数据库节点双活和事务并行处理。对于Active-Standby群集部署的数据库系统,跨站点数据库群集实现故障切换。应用双活:基于B/S三层架构的应用采用全局负载均衡及服务器负载均衡,并结合中间件的软件集群技术实现应用双活及负载均衡;基于C/S架构的应用可采用云资源池的跨站点迁移并结合网络大二层技术,实现应用的

14、在线冗余保护和快速切换。网络双活:主数据中心和同城双活中心采用双链路分别和电子政务网、互联网连接,同时双活中心采用冗余光纤互联,并采用DWDM进行环形保护,实现链路级的双活。INTERNET及内网终端接入采用全局负载均衡、链路负载均衡、本地服务器负载均衡,同时结合DNS域名解析技术实现终端接入的网络双活。双活中心的网络通过大二层局域网延展的方式,在数据中心间扩展局域网(VLAN)的连接,支持应用集群跨地域部署和灵活迁移,支持双活数据中心部署,提供更大范围的资源整合和灵活调配。两地三中心技术架构在同城双活的基础上,另外再异地建设一个容灾备份中心,通过存储远程复制技术和数据备份技术,实现双中心业务

15、数据的异地备份,当双中心出现区域灾难,可确保业务数据不丢失。容灾设计与实施方法论从整个计算机系统的发展来看,灾难备份经过了一个很长时间的发展过程,在上个世纪60年代,通常进行的都是集中式处理系统,每个系统具备一些简单的灾难恢复计划,通常恢复时间也很长,都以周为单位计算,进行的数据备份和恢复也都处于被动式的模式。到了70年代,随着计算机系统的逐渐普及,应用逐渐有集中式系统转到分散式系统,这个时候,系统开始考虑一些简单的业务恢复计划,恢复的时间也开始以天为单位。到了90年代,网络的飞速发展,系统有开始走向集中,这个时候,对业务的连续性要求就更高,要求恢复时间也小时为单位,系统需要考虑避免高可用的风

16、险。到了今天,企业应用系统进一步飞速发展,业务要求能够达到行业级别的业务连续计划,此时,要求实现业务系统的更高可用性,恢复时间甚至要求达到实时的水平。业务的发展使得企业对业务连续性的要求也越来越高。 在业务连续性中,以下几个概念非常重要,它们也是衡量业务持续及灾难备份需求的指标。恢复时间目标(RTO)恢复时间目标(Recovery Time Objective,简称RTO)是指灾难发生后,从I/T系统宕机导致业务停顿时刻开始,到IT系统恢复至可支持各部门运作、业务恢复运营之时,此两点之间的时间段称为RTO。一般而言,RTO时间越短,即意味要求在更短的时间内恢复业务至可使用状态。虽然从管理的角度

17、而言,RTO时间越短越好,但是,这同时也意味着更多成本的投入。对于不同行业的企业来说,其RTO目标一般是不相同的。即使是在同一行业,各企业因业务发展规模的不同,其RTO目标也会不尽相同。RTO目标的确定可以用下图来说明: 如上所说,RTO目标越短,成本投入也越大。另一方面,各企业都有其在该发展阶段的单位时间赢利指数,该指数是通过业务影响分析(Business Impact Analysis)咨询服务,以访谈、问答和咨询的方式得到确定的。在确定了企业的单位时间赢利指数后,就可以计算出业务停顿随时间而造成的损失大小。如上图,结合这两条曲线关系,我们将可以找到对该企业而言比较适合的RTO目标,即在该

18、目标定义下,用于灾难备援的投入应不大于对应的业务损失。恢复点目标(RPO)恢复点目标(Recovery Point Objective,简称RPO)是指对系统和应用数据而言,要实现能够恢复至可以支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度。这种更新程度可以是上一周的备份数据,也可以是上一次交易的实时数据。与RTO目标不同,RPO目标的确定不是依赖于企业业务规模,而是取决于企业业务的性质和业务操作对数据的依赖程度。因此,RPO目标对相同行业的企业而言会有些接近,而对于不同行业的企业来说仍可能会有较大差距。RPO目标的确立仍是以咨询的方式,通过与各业务部门主管的交流,了解业务流程和IT

19、应用的关系,以及通过回答问卷的方式,确定能够支持该企业核心业务的RPO目标。通常可以用以下1到5的等级来衡量企业业务连续性的成熟度。 在长年灾难服务提供的过程中,中国电信在业务持续服务方面形成了一套完整的实施方法论,如下图所示,它包括分析、设计、和实施三个阶段的咨询和技术服务,中国电信又将该三个阶段工作划分为七个步骤,即“风险分析”、“业务影响分析”、“可恢复性评估”、“恢复策略制定”、“灾难恢复方案设计”、“业务持续计划设计”和“业务持续计划演练和维护”。 中国电信采用业务持续咨询方法论来规划和设计出企业的业务持续计划。该广受验证的实施方法论的7个步骤由三个阶段串连而成: 分析阶段包含“风险

20、评估”、“业务影响分析”、及可恢复性评估。此阶段提供对灾害潜在损失、各种冲击、及现行恢复能力等方面的量化及质化的分析评估,同时也根据需求来向客户建议必需的措施及迅速的解决方案来实现完全的恢复能力。设计阶段包含“恢复策略制定”及企业“灾难恢复整体解决方案设计”。此阶段根据分析阶段的结果来制定出企业的恢复策略,规划及设计出为实现企业业务持续所必需的行动与解决方案,以达到企业在组织、流程及技术层面的恢复需求。实施阶段包含“业务持续计划设计”及“业务持续计划的演练和维护”。此阶段将建立业务持续计划、实施业务持续计划的桌面演练、执行业务持续计划及灾难恢复的测试、设计业务持续计划的维护方案。其中,业务持续

21、计划中将包括企业的“业务恢复计划”和“技术恢复计划”。建议,企业的业务持续计划的设计及拟定应该是一个持续并循环往复的过程,每一阶段都能持续不断的改进,并且在实际工作中体现有效性与高效性。上述业务持续计划的分析、设计与执行三个阶段,正如上图所绘,可根据其特性分类,分为与企业业务相关及技术相关的不同步骤,共分为以下七个步骤:风险分析业务影响分析可恢复性评估恢复策略制定灾难恢复方案设计业务持续计划设计业务持续计划的演练与维护以下将分别介绍这七个步骤。风险分析风险分析(Risk Analysis)分析可能对企业业务系统和IT系统的安全性造成威胁的各种风险因素并提出相应的对策和改进方案。因此,风险分析的

22、工作将不仅仅只是提出补救措施,还将定义出对于风险的预防措施。 风险分析的目标是:对企业可能面临的主要威胁性风险进行质与量化的评估;按照各风险的严重性,分别定义其所处的风险层次和级别;根据各风险发生的可能性,分别定义其所处的风险级别;定义风险矩阵图(如上图所示),提出应对风险的建议(避免风险、转移风险、或接受风险)。风险分析的进行方式为:首先通过召开启动会议来说明风险分析的目的、参加人员需求与职责、设计及分发调查问卷、安排访谈与现场巡视的进度。辨认现存风险:搜集财务资料、实施人员访谈、巡视当地状况、检查物理设施、分析搜集到的数据、审核各设施和设备的操作程序(包括IT和非IT)。评估风险冲击:检视

23、损失冲击、开发评估分析细节、记录评估结论、定义冲击的等级和层次。确定合理的减低风险威胁的处理方法和优先次序。记录风险分析工作中的发现与建议。 制作书面风险分析报告向管理阶层汇报工作成果和最终交付项目。实施风险分析给客户带来的效益是:降低由于不安全、不可靠与不适宜的管理所造成的威胁和风险。风险分析的对象通常为“基础设施与技术”、“人的因素”、和“不可抗力”三个层面,同时,又分为内部原因和外部原因,具体如下表所示:业务影响分析业务影响分析(Business Impact Analysis,简称BIA)收集、分析及汇总及排序当信息系统一旦遭遇灾害对各项重要关键性业务的影响程度,并依据其优先级提出恢复

24、策略建议。通过业务影响分析可验证实施容灾解决方案的必要性及需求。业务影响分析的目标是:确定企业的关键业务流程;定义各关键业务可容许中断的最大时间长度;确认各关键业务数据丢失的可容许程度。业务影响分析的进行方式为:首先通过召开启动会议来说明业务影响分析的目的、参加人员需求与职责、设计及分发调查问卷、安排后续访谈行程;执行后续访谈,收集问卷、与参加人员共同检查问卷内容以确定:重要业务项目;恢复时间目标(Recovery Time Objectives)的需求;业务中断的影响;各部门执行恢复所需的资源。开发初步总结;举行复审会议来验证以下项目:验证各业务项目恢复优先级;验证恢复时间目标;验证重要数据

25、的完整。制作书面业务影响分析报告。向管理阶层作总结报告。实施业务影响分析给客户带来的效益是:了解不同中断时间对各业务造成的直接与间接损失及优先级,开发恢复策略目标。可恢复性评估可恢复性评估(Recoverability Assessment)定义现行各业务流程的恢复能力及现行技术环境的特征,它将从架构、平台、技术、基础设施、组织结构、恢复流程等各层面来评估企业目前的恢复能力。在可恢复性评估中将证实企业当前的业务恢复能力,而在业务影响分析之后,可确定企业需要的恢复能力,这样,将可发现当前恢复能力与需要的恢复能力之间的差距,从而在“恢复策略制定”工作中,根据此差距可规划出企业的恢复策略。 可恢复性

26、评估的目标是:评估使用现有处理流程与程序,IT作业目前是否能够恢复、需要多少时间恢复、以及可能的数据丢失数量。可恢复性评估的进行方式为:首先通过召开启动会议来说明项目目的、参加人员的需求与职责、设计及分发 调查问卷、安排访谈与现场访视行程。复审现有文件。举行可恢复性评估研讨会。记录现行备份时间长度与方式。确定持续时段。定义运行重要应用所需资源。举行异地分储设施的稽查。记录可恢复性评估结果。定义适当的业务持续需求。制作书面可恢复性评估报告。向管理阶层作总结报告。实施可恢复性评估给客户带来的效益是:正确地得出企业当前的恢复能力。为恢复策略的制定提供理论依据。评估恢复所需投资。制定恢复策略恢复策略制

27、定(Recovery Strategy)依据前述各项分析和评估的结果和发现,定义消减当前恢复能力与恢复能力目标之间差距的高层次计划(High level plan)。业务影响分析(BIA)是一项深入的研究,用于确定业务之间的关键功能和其中的关键点。然后对该关键点及与其相关的可能发生的损失进行权衡,以决定可能的业务持续策略和所需成本。利用这一信息,管理层可以依照风险几率和业务需要的优先次序,制订出适当的业务持续策略。可恢复性评估与业务影响分析共同作用,对数据中心的流程和当前的恢复能力进行分析。着重于数据中心环境的分析,其中包括硬件、软件、网络和工作流程。通过正常的数据收集、深入的采访和数据分析,

28、可恢复性评估将帮助您了解系统及其与整体业务之间的关系。根据业务影响分析所确定的恢复能力目标与可恢复性评估所确定的当前恢复能力的差距,即可设计和制定出各业务流程的恢复策略。使业务部门所需要的恢复方案(业务影响分析)和系统部门所具备的恢复能力(恢复能力)同步十分重要。中国电信为用户通过业务影响分析和可恢复性评估所进行的顾问工作,将产生一个全面的业务持续策略,并提出为了业务持续所需要进行的改变,以及各种相关的具体建议;配合目前最新的IT可行技术,提出最适当的灾难恢复策略。 制定恢复策略的目标是:消减当前恢复能力与恢复能力目标之间差距的高层次计划(High level plan)。解决方案的投资估算。

29、建立短期、中期、长期策略。提出对组织与运作的建议。恢复策略制定的进行方式为:依据前述各项分析,配合目前技术,提出最适当的灾难恢复短、中、长期策略。估算各种解决方案的投资成本与效益分析。召开研讨会确认恢复策略。向管理阶层作总结报告。实施恢复策略制定给客户带来的效益是:明确了恢复方案的策略计划与所需投资。 容灾方案设计灾难恢复方案设计(Recovery Solution Design)依据恢复策略来详细设计所选择的最适用的容灾技术方案。中国电信建议,在设计容灾方案时,应综合考虑基础设施、硬件平台、软件技术、网络配置、IT组织、技术恢复流程等方面。根据1992年在美国加州阿纳海姆制定的国际标准SHA

30、RE 78的定义,容灾技术方案可以根据以下主要方面所达到的程度而分为七个层次:备份/恢复的范围;灾难恢复计划的状态;主生产中心与容灾中心之间的距离;主生产中心与容灾中心之间是如何相互连接的;数据是怎样在两个中心之间传送的;允许有多少数据被丢失;怎样保证更新的数据在在容灾中心被更新;容灾中心可以开始进行恢复工作的能力。即从低到高的七种不同层次的容灾解决方案。如下图所示,该七个层次的技术方案标准分别是: 很明显,这七个层次所实现的恢复目标是不同的、实施费用也不同。以上七个级别的容灾技术方案的特点和区别,可以参见如下描述:层次RTORPO容灾中心备份方式数据更新/恢复主机Tier 172hrs以上2

31、4hrs无磁带磁带关机Tier 224-72hrs24hrs专有的磁带磁带关机Tier 312-24hrs文件级专有的电子文件,定时的活动Tier 44-12hrs日志级专有的电子文件或日志,时间段活动Tier 52-4hrs交易级专有的电子数据,软件活动Tier 630-60min交易级专有的电子数据,系统/硬件活动Tier 730-60min交易级专有的电子数据,系统/硬件活动0层:无异地备份数据 (No off-site Data)对于使用0层灾难恢复解决方案的业务,可称其为没有灾难恢复计划,主要表现为:数据仅在本地进行备份恢复,没有任何数据信息和资料被送往异地,没有处理意外事故的计划。

32、恢复时间:在此种情况下,恢复时间不可预测。 事实上也不可能恢复。例如,目前我们通常在机房内所做的数据备份,备份介质保留在机房内,用于本地的数据恢复。 当灾难发生时,数据备份和设备有可能一同被毁,无法进行恢复。 1层:有数据备份,无备用系统(Data Backup with No Hot Site)使用1层灾难恢复解决方案的业务,通常将需要的数据备份到磁带上,然后将这些介质运送到其它较为安全的地方。但在那里缺乏能恢复数据的系统,若数据备份的频率很高,则在恢复时丢失的数据就会少些。 此类业务应能忍受几天乃至几星期的数据丢失。例如, PTAM(Pickup Truck Access Method)是

33、一种许多数据中心所采用的标准备份方式。在完成所需的数据备份后,用适当的运输工具将它们送到远离本地的地方,同时备有数据恢复的程序。 灾难发生后,一整套系统安装需要在一台未开启的计算机上重新完成,系统和数据可以被恢复并重新与网络相连。这种灾难恢复方案相对来说成本较低(仅仅需要运输工具的消耗以及存储设备的消耗)。但恢复的时间长,且数据不够新。 2层:有数据备份,有备用系统 (Data Backup with Hot Site)使用2层容灾解决方案的业务会定期将数据备份到磁带上,并将其运到安全的地点。在备份中心有备用的系统,当灾难发生时,可以使用这些数据备份磁带来恢复系统。 虽然还需要数小时或几天的时

34、间来恢复数据以使业务可用,但不可预测的恢复时间减少了。2层相当于在1层上增加了备份中心的灾难恢复。备份中心拥有足够的硬件和网络设备来维持关键应用的安装需求,这样的应用是十分的关键的,它必须在灾难发生的同时,在异地有正运行着的硬件提供支持。 这种灾难恢复的方式依赖于PTAM方法去将日常数据放入仓库,当灾难发生的时候,再将数据恢复到备份中心的系统上。 虽然备份中心的系统增加了成本,但明显降低了灾难恢复时间,系统可在几天内得以恢复。 3层:电子链接(Electronic Vaulting)使用3层容灾解决方案的业务,是在2层解决方案的基础上,又使用了对关键数据的电子链接技术。电子链接将磁带备份后更改

35、的数据进行记录, 并传到备用中心,使用此种方法会比使用传统的磁带备份更快地得到更新的数据。所以,当灾难发生后,只有少量的数据需要重新恢复,恢复时间会缩短。 由于备用中心要保持持续运行,与生产中心间的通讯线路要保证畅通,增加了运营成本。 但消除了对运输工具的依赖,提高了灾难恢复速度。例如,某企业在每天下班后,将当日的流水全部记录下来,通过网络传到备份中心;备份中心在备用系统上,重新将所有业务重做,保证与生产中心的一致性。这一领域的产品可以分四层:1) 存储设备层:IBM-ESS-PPRC、IBM SVC、IBM-DS4000-RM、EMC-SRDF、HP-EVA-StorageWorks Con

36、tinuous Access、FALCONSTOR-IPSTOR、NETAPP等。2) 操作系统及系统软件层:IBM-GEORM、VERITAS-Storage Replicator/Volume Replicator、LEGATAL- RepliStor。3) 数据库层:IBM-DB2-HADR、IBM-INFORMIX-HDR、ORACLE-ORACLE- DATA GUARD等。4) 应用程序层:应用程序开发时考虑到数据的复制。4层:使用快照技术拷贝数据 (Point-in-time Copies)使用4层灾难恢复方案的业务,对数据的实时性和快速恢复性要求更高些。1-3层的方案中较常使用

37、磁带备份和传输,在4层方案中开始使用基于磁盘的解决方案。此时仍然会出现几个小时的数据丢失,但同基于磁带的解决方案相比,通过加快备份频率,使用最近时间点的快照拷贝恢复数据会更快。 系统可在一天内恢复。4层灾难恢复可有两个中心同时处于活动状态并管理彼此的备份数据,允许备份行动在任何一个方向发生。接收方硬件必须保证与另一方平台在地理上分离,在这种情况下,工作负载可能在两个中心之间分享,中心1成为中心2的备份,反之亦然。在两个中心之间,彼此的在线关键数据的拷贝不停地相互传送着。在灾难发生时,需要的关键数据通过网络可迅速恢复,通过网络的切换,关键应用的恢复也可降低到小时级。支持这种工作方式的产品包括IB

38、M-HAGEO、VARITAS-Global Cluster Manager。5层:交易的完整性 (Transaction Integrity)使用5层灾难恢复方案的业务,要求保证生产中心和数据备份中心的数据的一致性。 在此层方案中只允许少量甚至是无数据丢失,但是该功能的实现完全依赖于所运行的应用。5层除了使用4层的技术外,还要维护数据的状态 - 要保证在本地和远端数据库中都要更新数据。 只有当两地的数据都更新完成后,才认为此次交易成功。 生产中心和备用中心是由高速的宽带连接的,关键数据和应用同时运行在两个地点。当灾难发生时,只有正在进行的交易数据会丢失。 由于恢复数据的减少,恢复时间也大大缩

39、短。数据库的数据复制功能一般可以工作在这样的方式下:IBM-DB2-HADR、ORACLE-ORACLE- Replication等。6层:少量或无数据丢失 (Zero or little data loss)6层灾难恢复方案可以保证最高一级数据的实时性。 适用于那些几乎不允许数据丢失并要求能快速将数据恢复到应用中的业务。 此种解决方案提供数据的一致性,不依赖于应用而是靠大量的硬件技术和操作系统软件来实现的。这一级别的要求很高,一般需要整个系统应用程序层到硬件层均采取相应措施。1)应用程序层采用基于交易(TRANSACTION)的方法开发。2)数据库可以采取数据复制。IBM-DB2-HADR、

40、IBM-INFORMIX-HDR、ORACLE-ORACLE- DATA GUARD等。3)操作系统使用集群软件、站点迁移软件、数据复制软件:IBM-HACMP、VARITAS-Global Cluster Manager等。4)硬件层使用同步的数据复制:IBM-ESS-PPRC、IBM SVC、IBM-DS4000-RM、EMC- SRDF或使用带有CONSISTANCY-GROUP功能的异步数据复制IBM-ESS-PPRC、IBM-DS4000-RM。7层:解决方案与具体业务相结合,实现自主管理 (Highly Automated , Bussiness Integrated Soluti

41、on)7层灾难恢复方案在第6层的基础上,集成了自主管理的功能。在保证数据一致性的同时,又增加了应用的自动恢复能力,使得系统和应用恢复的速度更快、更可靠(按照灾难恢复流程,手工操作也可实现整个恢复过程)。7层可以实现0数据丢失率,同时保证数据立即自动地被传输到恢复中心。7层被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力。7层是灾难恢复中最昂贵的方式,但也是速度最快的恢复方式。当一个工作中心发生灾难时,7层能够提供一定程度的跨站点动态负载平衡和自动系统故障切换功能。现在已经证明,为实现有效的灾难恢复,无需人工介入的自动站点故障切换功能需要一个

42、应该纳入考虑范围的重要事项。 在实际选择灾难备份方案时,需要在方案本身、宕机时间和实施方案所需成本三者之间找到一个平衡点。三者的平衡关系业务连续性计划设计业务持续计划设计(Business Continuity Planning)定义、书面化与测试在灾难发生之前、之中与之后的企业营运组织架构与任务职责,以确定可被接受的业务持续运作的规范。中国电信建议,业务持续计划将主要由“业务恢复计划”和“技术恢复计划”两方面来组成。其中,业务恢复计划为:当灾难事件发生时,为确保企业关键业务功能连续运作而必须遵循的恢复程序和实施细节。技术恢复计划为:当灾难事件发生时,在容灾中心建立和执行基础架构恢复所必须遵循

43、的恢复程序,包括IT系统和相关设施。为有效并高效的实施业务持续计划,还必须为灾难恢复和业务持续设计相应的组织架构和人员职责。 业务持续计划设计的目的是:定义、制作、建置与测试于灾害发生前、中、后的组织架构设计与行动计划,以确保公司各重要关键业务的持续运作。业务持续计划设计的进行方式为:首先召开启动会议来说明项目目的、参加人员需求与职责、分发业务规范工作手册(Workbook)、确定工作手册返回日期。收集与分析工作手册内容。确认下列项目的备份处理:重要应用系统系统软/硬件数据库网络特殊需求备份处理数据保存系统安全确认下列项目的持续处理系统持续本地用户远程用户入网机构服务者供货商人员特殊需求次序/

44、优先级开发业务持续计划的细节。确定各项工作的负责人及其应完成职责。开发灾难通报程序。开发业务恢复工作项目图表及时间安排开发回切作业处理。设备修复与重购建筑物重建数据回归业务切换完成业务持续计划初稿。制作业务持续计划的桌面演练计划,演练活动包括:演练时间、演练范围、目标、参加人员、所需资源、假设状况、衡量标准、过程叙述、结果讨论与计划维护。建立业务持续计划维护的处理规范:包括正常计划维护、根据演练结果的维护、由于各项变更而产生的维护、定期维护、回切作业的维护。在灾备技术系统建立后,实施业务持续计划实际测试。根据桌面演练与测试,完成对业务持续计划的完善和修订。向管理阶层作总结报告。业务持续计划设计

45、给客户带来的效益是:建立紧急应变组织与行动的指导文件。作为演练和测试的指导方针。用于企业业务持续计划的稽核。业务连续性计划的演练和维护业务持续计划的演练和维护通过对业务持续计划的桌面演练、实际测试、和维护管理,确保业务持续计划保持最新及有效性。根据各个等级的灾难备份系统策略和灾难恢复等级,可以进行不同类型的演练和模拟演习,但整体上讲,演练和演习一般需要达到以下的目标: 通过对灾难恢复预案的桌面演练、模拟演练和实战演练,以确保灾难恢复预案保持最新及有效性。根据各个等级的容灾系统策略和灾难恢复等级,可以进行不同类型的演练和模拟演习,但整体上讲,演练和演习一般需要达到以下的目标: 验证能力灾难备份系

46、统和灾难恢复计划是一个系统工程,包含基础环境、灾难备份系统、相关的恢复计划和组织协调,通过演练和演习,需要对相应的内容是否可以支撑灾难时业务恢复的需求进行检验。基础环境部分需要对灾难恢复时的场地、业务恢复环境和配套设施、灾难恢复时IT系统所依赖的基础设施如UPS、供电、机房环境和进入控制等各个方面的能力是否可以满足灾难恢复的需要进行检验。对灾难备份系统,在发生灾难时,用于灾难恢复和业务恢复的IT支持系统以及相应的配套设备的处理能力、备份网络系统的网络贷款和流量等各个方面进行检验和验证。对灾难备份系统的运营和管理能力也是一种检验,通过演练,可以对灾难备份系统在日常运营管理情况、数据同步情况、系统

47、版本管理情况、容灾中心的响应及时性和有效性进行检验和验证。通过演练和演习,也是对整个灾难恢复执行过中组织协调能力的检验和验证,在灾难发生时,需要面对媒体的公关、对客户的安抚、对员工的指引和各项工作的有序开展和及时协调等多个方面的工作,对灾难恢复的组织架构、人员操作和工作协调均有着较高的要求,通过演练也可以检验组织和机构是否已经具备了相应的应变能力和执行力,确保在基础环境、灾难备份IT系统的等硬件基础上,各项相关方面已经作好准备和具备有序工作的能力。只有通过以上的各个方面的能力的综合体现,通过演练和演习,对以上各个方面的能力的整体综合检验,才可以确保灾难备份系统和灾难恢复计划是一个可以信赖的系统

48、,可以在发生灾难事件时,相应的组织和机构以及所建立的灾难备份系统和灾难恢复计划具备相应的灾难恢复能力。发现不足建立灾难备份系统和灾难恢复计划,只是建立了一个基础和起点,并不是一个一劳永逸的工作完成得标志。对于初次建立的灾难备份系统和灾难恢复计划,需要通过演练和演习来发现不足和发现问题。对于已经进入正常运营的灾难备份系统和灾难恢复计划,由于业务、IT系统的变化和变更,以及组织架构的变化和调整,也需要不断的进行演练和演习,以发现问题和不足,确保灾难备份系统和灾难恢复计划的正确性、有效性和可操作性。流程改进灾难备份系统的有效恢复,以及灾难恢复计划中,均定义了不少的流程和过程,这些流程和工作规范在相当

49、大的程度上保证一旦在灾难事件的危机情况下,各项工作和任务的有序执行和有效恢复。这些流程和规范会随着技术的发展和业务的发展不断变化和优化。通过演练和演习,我们可以发现流程和规范上的不足和可以改进的方面,不断进行改进和优化,确保相应的灾难恢复工作可以有效地运作。锻炼团队所有的工作都是由人来完成的,灾难备份系统的运作依靠运营团队的运营来保证灾难备份系统的可用性和有效性,灾难恢复计划的执行依靠灾难恢复的各个恢复团队的有效执行来保证系统的恢复和业务的连续性。因此,如何保证各个团队以及各个团队中的相关人员对灾难恢复工作熟悉和有效执行是灾难有效恢复的关键。通过演练和演习,可以使灾难恢复的指挥团队、技术恢复团

50、队、业务恢复团队、后勤保障团队等各个团队熟悉、了解相关的策略、流程和方法;并且通过演练和演习,使相关团队的相关人员能进行实际操作和完成具体的工作内容,使相关人员掌握相关的技术和规程;通过演练和演习,也是各个业务部门、后勤部门、公关控制部门了解情况和处理的方法,使整体上保证灾难恢复和业务连续性可以有效地执行和恢复。业务持续计划的维护包括:日常计划维护根据演练结果的维护由于各项变更而产生的维护定期维护恢复计划和回切计划的维护同城双活方案整体架构在同城租用电信运营商机房作为主数据中心,利用省二院省电子政务中心机房作为省政务云项目的同城双活数据中心,通过波分设备与省二院机房互联组成同城双活数据中心,同

51、时向外提供业务服务,实现关键业务双活。任意一数据中心站点故障,都不会中断业务,确保云平台安全,实现业务连续性保护。双活容灾方案设计网络层双活设计双活整体架构路由策略引导技术:广域网和城域网用户访问主IDC机房和省二院数据中心,可以通过调整BGP或OSPF等路由策略即可实现用户到不同业务的网络分流。DNS和全局负载引导技术: DNS服务器和全局负载均衡设备实现互联网用户访问外部业务时对两个数据中心的流量智能调度,服务器负载均衡产品实现本地业务服务器的负载均衡同时,向全局负载均衡设备通报本地应用服务器的健康状况及应用服务器的负载情况。 CSS +EVN+VXLAN技术:从网络上来看,双活数据中心需

52、要将同一个网络扩展到多个数据中心,在数据中心间需要大二层网络连接并且实现服务器和应用的虚拟化数据中心互联技术。大二层的网络技术有CASS、TRILL、SPB、EVN等。CSS是将多台网络设备(成员设备)虚拟化为一台网络设备(虚拟设备),并将这些设备作为单一设备管理和使用。VSS把多台设备合并,简化了管理提高了性能,但VSS构建二层网络时,汇聚交换机最多是可达4台,在二层无阻塞的前提下可接入13824台双网卡的千兆服务器,如果客户期望其服务器资源池可以有效扩充到2万台甚至更大,就需要其他技术提供更大的网络容量;TRILL的全称就是 Transparent Interconnection of L

53、ots of Links ,顾名思义,其本质就是将很多条链路透明地组织在一起,以致于上层IP应用感觉这只是一条链路似的。它本质上是一个2.5层的技术,使用最短路径、多路径等三层路由技术来讲多条链路组织成为一个大二层网络,并支持VLAN、自配置、多播等二层功能。TRILL目前最大可以支持10核心组网,其最大能力可以无阻塞的接入27648台双网卡千兆服务器,但TRILL技术目前在芯片实现上存在客观缺陷,核心层不能支持三层终结,也就是说TRILL的核心层不能做网关设备。必须要在核心层上再增加一层设备来做网关,这导致网络结构变得复杂,管理难度增加,网络建设、运维成本都会增加;SPB的组网方案和TRIL

54、L基本相同(同样可支持接入27648台),其优势在于能够方便的支持VLAN扩展功能,但同样存在网关与SPB核心必须分离的芯片缺陷,导致网络层次增加,管理、运维成本增加;EVN可以通过汇聚层和核心层之间的IP网络实现二层互通,所以通过EVN扩展多个二层域的时候不需要更改布线或是设备,仅仅需要在汇聚设备上启用EVN特性即可,这样可以平滑的扩展二层网络的规模。其技术成熟、架构稳定,能够支持大规模二层网络(接入规模221184),运维也简单方便。另外,也有部分虚拟化和软件厂商提出了软件的L2 over L3技术解决方案。例如VXLAN、NVGRE,前者是由VMware和思科提出的标准(使用了L2oUD

55、P的封装方式),后者是由HP和微软提出的标准(使用了L2oGRE封装方式),在虚拟化层的vSwitch中将二层数据封装在UDP、GRE报文中,在物理网络拓扑上构建一层虚拟化网络层,从而摆脱对网络设备层的二层、三层限制。这两种技术的主要特点是隧道的起点和终点主要在vswitch上,而不是物理交换机上。隧道的封装在服务器内部的vswitch就已经打好,然后将物理网络当作大的IP背板加以穿透,大二层范围可以跨DC。以期达到快速部署,灵活创建虚拟化网络的目的。但这些技术由于性能、扩展性等问题,也没有得到广泛的使用。大二层技术选型为了满足本次的“省级电子政务外网统一云平台”项目业务实际需求,在业务承载的

56、基础网络部分也衍生出如下几个基本的需求:1.首先需要满足在云计算环境下能够为政务云下的各种业务隔离;政务云是为各厅局单位共同接入的公共平台,从安全性的角度考虑,各厅局单位之间以及单位内各业务系统需要实现相互隔离。2.其次从省级平台的情况看,横向互联的职能单位由于运营商在做IP地址规划时的简单处理,局委办都是通过NAT转换后接入到省电子政务外网,而局域网的私网IP地址段这大多相同,如何在不改变原有各厅局委办IP地址的情况下,实现平缓接入到政务云非常关键。3.其次在云计算环境下,最大的好处在于计算资源能够随需移动,计算资源通过计算虚拟化可以实现在单台的物理机下虚拟化成多个虚机,为了保障业务快速部署

57、,业务的高可靠性,各虚机需要在各租户网络内部进行迁移,或进行集群,虚机迁移,其IP地址和IP网关本身不会变化,同时虚机集群也需要各虚机保持在一个网段之内,所以从整个基础网络来看,需要整个数据中心需要提供一个大二层网络。4.从整个“省级电子政务外网统一云平台”的建设情况来看,其接入单位众多,业务需求多样;各厅局单位后续的业务规模难以准确预测,需要基础网络具备灵活的弹性,能够满足在后期业务的弹性扩展,包括单一业务的规模扩展,单一用户的规模扩展;扩展范围甚至覆盖到另外区域的数据中心。根据上述的几个需求来看,“省级电子政务外网统一云平台”的建设必须要满足多租户安全接入,租户内部网络隔离,实现各厅局存在

58、的相同IP地址段的平滑接入,简单的大二层,后续弹性扩展等多个需求。针对当前常见的数据中心技术进行具体分析:VLAN+STP技术传统的核心、汇聚、接入通过VLAN实现租户的隔离,通过STP实现多路径保护;但传统二层网络中部署的STP生成树技术协议,部署和维护繁琐,网络规模不宜过大,限制了网络的扩展。而后以厂家私有网络虚拟化技术如vPC等网络虚拟化技术,虽然可以简化部署、同时具备高可靠性,但是对于网络的拓扑架构有严格要求,同时各厂家不支持互通,在网络的可扩展性上有所欠缺,只适合小规模网络部署,一般只适合数据中心内部网络;此外云业务中虚拟机的大规模部署带来的另一个问题就是使传统网络设备二层地址(MA

59、C)表项的大小成了云计算环境下虚拟机规模的关键参数,特别是对于接入设备而言,二层地址表项规格较小,这也将限制整个云计算数据中心业务规模;不建议在此次项目中采用。TRILL/SPB/FabricPath+VLAN技术随着数据中心接入规模的要求,新出现了大规模二层网络技术TRILL/SPB/FabricPath等,它们通过引入IS-IS等协议实现多个二层网络的互通,能支持二层网络的良好扩展,但对数据包所经过的沿途所有网络设备有特殊要求,网络中的设备需要软硬件升级才能支持此类新技术,带来部署成本的上升,同时各厂商互通成为一个难以解决的问题,由于采用传统的VLAN接入,随着政务云业务的快速发展,对于租

60、户的数量可能在不远的将来成为制约政务云向更多规模扩展的瓶颈,因此本次需要寻求更具弹性的网络技术实现政务云的接入。SDN+Overlay的网络虚拟化技术Overlay技术是专门针对多租户数据中心建设而引入的技术,在业界知名的互联网数据中心中,以及公有云的建设中成为当前基础网络的首选技术,Overlay是一种网络架构上叠加的虚拟化技术模式,其大体框架是对基础网络不进行大规模修改的条件下,实现应用在网络上的承载,并能与其它网络业务分离,并且以基于IP的基础网络技术为主。Overlay网络是指建立在已有网络上的虚拟网,逻辑节点和逻辑链路构成了Overlay网络。具有独立的控制和转发平面,对于连接在Ov

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论