城商行两地三中心存储架构设计实践_第1页
城商行两地三中心存储架构设计实践_第2页
城商行两地三中心存储架构设计实践_第3页
城商行两地三中心存储架构设计实践_第4页
城商行两地三中心存储架构设计实践_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

城商行两地三中心存储架构设计实践

【摘要】VMAX200K存储属于DellEMC的高端存储,上市以来,在各行各业有着广泛的使用。存储系统作为金融行业的IT基础架构中最重要、最关键的基础设施,如何支持金融行业业务发展,如何进一步夯实银行信息系统底层架构,本文通过银行机构实践案例展示了VMAX200K在“两地三中心”的存储架构设计与使用,很好的满足了银行IT基础架构更新建设需求。1概述1.1建设背景我行生产数据中心因投入运营时间较早,经过长时间的运行,无论是基础环境设施还是机房空间布局,均不能满足业务飞速发展需求。在这样的背景下,我行启动了新数据中心的选址建设工作,同时对数据中心的IT基础架构进行了全新规划设计,存储系统作为金融行业的IT基础架构中最重要、最关键的基础设施,其架构设计更是重中之重,不仅要具有高稳定性、高可靠性,还要具有支持实时业务快速交易的高性能,更要能够支持“两地三中心”的容灾架构,满足容灾切换的需求。1.2建设目标按照整体的建设整体规划和银行业信息系统两地三中心的职能定位,建设更高可靠性、高安全性、更具高效性和易管理型的新生产中心,逐步推进实施生产中心投产迁移,利用原生产和异地中心实施同城、异地灾难备份中心改造建设,进而构建能够满足业务连续性管理需求,更具先进性、可靠性的容灾架构体系。同城两数据中心通过先进、合理、高可用的技术手段,依托新数据中心建设和同城中心改造,逐步构建成为具有行业先进水平的新一代的同城双活灾备中心,综合采用业界先进的技术手段,最终构建从业务视角两中心逻辑上同属一个业务集群,作为整体响应业务请求,业务请求在两中心间动态分配,任一中心出现故障时业务上无感知,集群内两中心各存储一份相同的数据且进行实时同步更新,任一中心出现故障时另一中心自动接管全部业务请求的真正专业化、科学化、高可用的容灾体系。异地中心定位为小异地中心,仅应对发生区域灾难的场景,应急接管业务使用。作为数据中心底层的核心组件之一的存储系统,也是此次设计的重中之重,不仅承担着日常数据存储角色,也是对未来三中心架构设计起着决定性的作用,总体设计应以技术成熟可靠、运维简单为导向,其设计在满足业务处理和生产数据访问的需求的前提下,应具备有技术前瞻性和设计科学性,满足未来3-5年业务发展的需求,并为未来私有云、大数据等打下基础、积累经验。2存储架构设计2.1总体设计原则在进行重要业务系统存储设备整体架构设计时,主要是本着以下几个原则:(1)满足业务需求:首先系统整体设计以满足业务需求为第一目标。存储设备主要为满足业务需求服务,必须把业务需求作为目标。(2)可靠性:可靠性在整体设计上体现在两个方面,一个方面是在考虑各个环节时,尽量选择当前稳定的版本,例如BINCode版本、Firmware版本、软件版本等;另一个方面是在设计时,尽量考虑对每个模块使用冗余配置。这样,当一个模块发生故障时,不会影响存储数据的正常读写,不会影响业务系统的运行。(3)性能:由于不同应用对存储资源的需求不同,在设计时将性能作为一个重要因素进行考虑,指导对于不同的业务系统进行存储资源的分配,以充分利用磁盘阵列的性能,满足业务对性能的要求。(4)扩展性:整体设计不仅仅是满足现状,还会考虑到今后一段时间存储的扩展,在扩展时整体框架保持稳定,降低扩展对应用系统的影响。这样随着某银行机构业务的快速发展,在一段时间内存储模块的架构将保持相对稳定,不会频繁发生变化。(5)易维护性:在设计时,也要考虑到设计对于以后运行维护的影响。因为采取不同的设计可能造成以后维护的频度和工作量不同。设计上尽量采用便于后期维护,降低维护成本的方案。2.2存储高可用设计存储设备的高可用设计主要有三个方面:存储设备自身的可靠性、存储设备间的高可用保障和冗余的SAN网络架构。2.2.1存储设备的高可靠性存储设备作为数据集中存放的核心设备,同城将多个(或全部)应用系统存放于单台或者有限的几台存储设备中,一旦设备出现异常将会对其数据存取产生极大的影响,进而产生大面积的系统故障,引发严重生产运行事件。因此,存储设备自身的可靠性必须得到保障,存储设备自身的高可用主要考虑两方面:(1)磁盘组的RAID级保护支持多种RAID水平,包括RAID5、RAID6、RAID10、RAID50、RAID60等;支持针对高水平RAID数据保护的缓存加速选项,以优化性能;支持大型、高度可扩展驱动群,以简化存储扩张和管理;(2)组件的高可用保障。高可用硬件设计;支持针对单点物理硬件故障应用访问无感知的需求;支持双引擎及双控制平面设计;支持松耦合Scale-Out结构的硬件架构设计;当前主流厂商的高端存储设备均能满足单设备高可用用的需求。2.2.2存储设备间的高可靠性存储设备间的也是存储设备可靠性设计的重要环节,存储设备自身的可用性依靠磁盘的RAID组和组件的高可用保障,但存储设备运行在数据中心中,依赖于数据中心的风、火、水、电等基础设施,一旦这些基础环境出现问题也导致存储设备不可用。为避免此类故障对数据中心运行产生的影响,可考虑单中心多模块设计,同时结合因地震、海啸等因素造成的数据中心不可用的情形,还会进行多站点多中心的设计,即传统金融行业的“两地三中心”模式。对于存储设备考虑利用多模块或者多中心进行设备间的高可靠性设计。设备间的数据复制采用存储层复制或者数据库层复制的技术来满足设备间数据存储的需求。2.2.3冗余的SAN网络架构SAN网络作为数据传输媒介,其可靠性也是存储高可用架构设计的一部分。SAN网络采用传统的双HBA卡、双光纤交换机和双存储控制器模式,组成冗余的SAN网络架构。2.3数据连续性设计存储设备可靠性得到保障后,存储的数据还会因为一些因素导致数据不可用,例如数据产生逻辑坏块、误操作或者程序缺陷等。通常情况下,数据损坏采用数据备份恢复的方案进行数据恢复,但银行机构的重要业务系统一般为对客户的的实时账务处理系统,业务中断恢复时间目标要求很高,需要更快捷的方式满足此次故障场景下的数据恢复需求,一般采用数据库快速闪回、存储快照或专用CDP工具满足。2.4三中心存储架构设计综合考虑存储设备高可用和连续性设计,确定了最新的“两地三中心”存储架构,采用生产中心为主、大同城小异地的规划模式。如下图所示。(1)生产中心利用新机房具有多模块设计的优势,在不同的机房模块同时部署2台高端存储设备,利用业界主流的数据库复制技术,实现不同机房模块存储数据的实时更新。该设计模式,既能防止单机房模块因消防、电力等数据中心基础设施故障导致的存储不可用场景,又能防止数据层逻辑故障导致的存储数据不可用,进一步保障了生产中心数据的连续性。在两机房模块间实施数据库复制,网络传输路径短,网络架构简单、直接、高效。利用该方案设计,可满足最新的应用层读写分离的设计需求。(2)原同城双中心间容灾数据传输一直采用存储复制的方式,此次新架构设计继续保留存储复制方式,存储复制方式具有技术简单、成熟度高、维护简便和切换时间一致性高等特点。既保障了技术传承又预留接口便于实现后续存储设备双中心双活。(3)异地双中心间数据传输采用数据库复制的方式,与存储复制相比可有效降低长途线路带宽,同时存储设备可不受存储品牌和存储架构的限制,达到异地容灾建设效果的同时进一步节省容灾建设成本。3存储建设实施我行重要应用原部署了1台DellEMC高端存储设备,此次新存储架构升级改造,主要通过设备新购和利旧来满足。3.1三中心存储总体布局落地实施的三中心存储总体布局如下图所示:(1)新采购两台DellEMC高端存储,分别部署于生产中心不同机房模块,分别用于生产数据存储和数据库复制的数据存储。(2)同城中心利用原存储设备,与新生产中心新购的存储设备搭建SRDF,满足同城容灾数据的实时传输需求。(3)异地中心新购普通的存储替换原存储设备,利用数据库数据的异步复制技术来实现异地灾备数据的实时传输。(4)SAN网络采用生产与容灾分离的方式,生产和同城中心利用一组新购光纤交换机设备构建中心内部SAN网络,用于数据中心内部主机设备与存储之间的数据传输;同城双数据中心之间利用另外一组光纤交换机设备构建同城双中心容灾SAN网络,用于同城灾备数据传输;异地灾备中心利用原生产中心利旧光纤交换机设备构建数据中心内部独立的SAN网络。3.2存储阵列划分我行新采购的高端存储设备DellEMCVMAX200K,分别部署于生产中心不同的机房模块。存储设备配置为双引擎,总计四个控制器,很好的满足存储组件的可靠性设计,存储设备采用SSD和SAS盘混合配置,来满足未来不同等级应用对存储性能不同的需求。存储设备对主机的资源分配给采用VirtualProvisioning的配置方式,该资源分配方式也是业界公认的存储未来发展方向,具有以下优点:(1)简化了存储管理,允许客户独立于物理存储进行资源调配;(2)减少支持容量增长所需的重新调配步骤;(3)自动宽条带化可以简化数据布局,可以在减少规划工作量和人员的情况下实现相似甚至更高的性能。通过跨所有驱动器将数据进行宽条带化而获得更高的性能,并减少热点盘的产生几率。通过减少已分配空间但未使用的空间调配,进一步提高存储容量利用率,同时还可以获得更好的能效。3.2.1RAID组配置该新购的VMAX200K存储RAID组配置,支持镜像,Raid5,Raid6等多种Raid保护级别。Raid规划主要考虑性能、容量损失和安全性三个方面因素,不同Raid级别容量损失、写性能和可靠性均不相同,对比如下表所示:类型容量损失写性能可靠性Raid150%好好Raid525%一般好Raid625%差最好注:Raid5以3+1为例,Raid6以6+2为例。

综合考虑后续使用和存储磁盘配置,此次采用Raid5(3+1)和RAID1混合配置的模式,并配置一定数量的热备盘。3.2.2磁盘阵列前端口划分该高端存储设备配置两个引擎,每个引擎有32个前端端口,端口速率为16GB,端口示意图如下:具体端口分配如下:因银行业核心系统有着最重要的作用,因此对核心应用的端口进行了独立划分,核心应用主机使用4块光纤卡,一对二连接,如下图所示,蓝色为核心应用使用端口,使用8个前端口。橙色为其它应用使用端口,主机使用两块光纤卡,一对二连接,使用4个前端口。端口轮流使用。按照同样规则配置另一台存储。3.2.3VMAXSRP规划StoragePool划分可以使存储划出的TDEV设备遍历到PooL中所有成员磁盘,并且是条带的,这样就保证了前端TDEV的IO平均分布在后端所有物理磁盘上并且提高了并发性。此次存储设备使用过程中,每个存储划分1个SRP。根据磁盘类型不同,划分2个DG,分别为SSDDG和SASDG。为了保证系统稳定性,我们这次设计不准许超分配,(Maxsubscription为100%)3.2.4SLO规划SLO(ServiceLevelObjectives)是根据应用的ServiceLevel存储分配相应的资源,这样可以关键应用已经性能要求高的应用的得到更多的资源,保证关键应用的性能。SLO可以调整,后期如果应用性能要求发生变化,可以调整SLO来满足不同应用的性能要求,更加精细的满足各类应用的需求。此次采购的存储设备,采用了SSD和SAS盘混合配置的方式,支持划分以下类型SLO,模拟的磁盘性能如下表所示。SLO类型性能Diamond模拟SSD的性能Platinum模拟SSD和15K混合性能Gold模拟15K磁盘性能Silver模拟10K磁盘性能Bronze模拟7.2K磁盘性能Optimized系统自动优化模式此次,根据业务系统的重要程度,简单划分了2类,即核心应用和其它重要业务系统,便于管理,只使用2种SLO:核心应用使用Diamond(钻石级),保证核心应用性能;其它应用使用Silver级别,如果后期性能不够,可以提升SLO级别,后续根据使用需求或者新增的业务分级需求,可以划分其它SLO。3.2.5LUN规划为便于统一管理,存储规划通常会使用尽可能少的LUN容量规格类型。此次根据数据库磁盘的使用特点,将LUN划分2种类型,即数据LUN和日志LUN,不同类型的LUN划分固定的规格,进一步简化了日常的运维管理,也便于后续存储设备更换过程中的数据迁移。3.3光交换划分此次购买了一定数量不同型号的光纤交换机设备,均配置了当前主流的16GB端口。生产中心不同的机房模块、同城中心和异地中心内部分别配置2台光纤交换机设备,用于内部的主机和存储设备之间的连接。生产中心机房和同城灾备中心机房,采用4台光纤交换机设备,通过DWDM设备连接,用于存储SR

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论