xx县云计算数据中心解决方案(修改)_第1页
xx县云计算数据中心解决方案(修改)_第2页
xx县云计算数据中心解决方案(修改)_第3页
xx县云计算数据中心解决方案(修改)_第4页
xx县云计算数据中心解决方案(修改)_第5页
已阅读5页,还剩126页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

xx县云计算数据中心解决方案目录18328一概述 6283261云计算概念 6169432现状与优势 716720二建设目标与原则 9167031目标 915342原则 10290303功能定位 109474三建设内容及技术方案 11162291整体架构 1198812云平台建设 11312093数据中心建设 20172534云存储 43269885机房建设 5923876四管理与服务模式 11371311管理模式 113102602服务模式 11525899五项目预算 11636531机房工程 116164522硬件设备 127304803云计算平台 131118464云存储 131一概述云计算概念云计算是基于互联网的计算服务交付模式和基础架构管理方法,通过网络把IT资源(数据,应用等)作为服务提供给用户,把大量的高度虚拟化的计算资源管理起来,组成资源池,用来统一提供服务。云计算是一种将全球范畴、高度可扩展、灵活的服务通过互联网进行发布与消费,采取按需求和实际使用付费的商业模式。2010年,全球云计算服务市场的销售额增长到了680.3亿美元,与2009年586亿美元的销售额相比,增长了16.6%。到2014年全球云计算服务的销售额将实现爆炸式增长,达到1488亿美元。国际数据公司(IDC)预测,2011年全球信息技术(IT)收入的15%将与云计算有关;公共云计算服务应用将增长30%;私有云计算部署也将获得长足发展。企业正在进行投资并且要最充分地利用公共的和私有的云计算。我国于2010年10月18日颁布的《国家发展改革委、工业和信息化部关于做好云计算服务创新发展试点示范工作的通知》指出,云计算创新发展试点示范工作要与现有数据中心相结合,推进云计算中心(平台)建设,为提升信息服务水平、培育战略性新兴产业、调整经济结构、转变发展方式提供有力支撑。我国已把云计算列为国家重点发展的战略性新兴产业之一。

现状与优势云计算是并行计算、分布式计算和网格计算的发展,是这些计算机科学概念的商业实现。云计算是虚拟化、公用计算、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)等概念混合演进并跃升的结果。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。它意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉,通过互联网进行传输。它是一种革命性的举措,代表着信息技术的发展方向,有望成为下一个突破万亿元规模的新兴产业。目前形势国际形势60年代,麦卡锡提出了把计算能力作为一种像水和电一样的公用事业提供给用户。云计算的第一个里程碑是1999年S提出的通过一个网站向企业提供企业级应用的概念。Amazon使用弹性计算云和简单存储服务为企业首次提供了计算和存储服务,收费的服务项目包括存储服务器、带宽、CPU资源以及月租费。Amazon把云计算做成了一个大生意,不到两年时间Amazon上的注册开发人员达44万,还有为数众多的企业级用户。云计算是Amazon增长最快的业务之一,云计算相关的业务收入已达1亿美元。Google是最大的云计算的使用者。Google搜索引擎建立在分布于200多个地点、超过100万台服务器的支撑之上。Google地球、地图、Gmail、Docs等也同样使用了这些基础设施。采用GoogleDocs之类的应用,用户数据会保存在互联网上的某个位置,通过任何一个与互联网相连的系统十分便利地访问这些数据。目前,Google已经允许第三方在Google的云计算中通过GoogleAppEngine运行大型并行应用程序。IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。它包括一系列的自动化、自我管理和自我修复的虚拟化云计算软件,使来自全球的应用可以访问分布式的大型服务器池。使得数据中心在类似于互联网的环境下运行计算。IBM正在与17个欧洲组织合作开展云计算项目RESERVOIR,欧盟为此提供了1.7亿欧元作为开发资金,实现“无障碍的资源和服务虚拟化”。2008年IBM投资约4亿美元用于其设在北卡罗来纳州和日本东京的云计算数据中心改造;2009年在10个国家投资3亿美元建立了13个云计算中心。微软紧跟云计算步伐,于2008年推出了WindowsAzure操作系统。Azure(“蓝天”)是继Windows取代DOS之后,微软的又一次颠覆性转型——通过在互联网架构上打造新云计算平台,让Windows真正由PC延伸到“蓝天”上。微软拥有全世界数以亿计的Windows用户桌面和浏览器,可将它们连接到“蓝天”上。Azure的底层是微软全球基础服务系统,由遍布全球的第四代数据中心构成。云计算的新颖之处在于它几乎可以提供无限的廉价存储和计算能力。纽约一家名为Animoto的创业企业已证明云计算的强大能力。Animoto允许用户上传图片和音乐,自动生成基于网络的视频演讲稿,并且能够与好友分享。该网站目前向注册用户提供免费服务。2008年初,网站每天用户数约为5000人。4月中旬,由于Facebook用户开始使用Animoto服务,该网站在三天内的用户数大幅上升至75万人。Animoto联合创始人StevieClifton表示,为了满足用户需求的上升,该公司需要将服务器能力提高100倍,但是该网站既没有资金,也没有能力建立规模如此巨大的计算能力。因此,该网站与云计算服务公司RightScale合作,设计能够在亚马逊的网云中使用的应用程序。通过这一举措,该网站大大提高了计算能力,而费用只有每服务器每小时10美分。这样的方式也加强创业企业的灵活性。当需求下降时,Animoto只需减少所使用的服务器数量就可以降低服务器支出。国内形势我国云计算发展也非常迅猛。2008年,IBM在北京成立了中国的云计算中心——IBM大中华区云计算中心;同年,广东电子工业研究院在东莞松山湖投资2亿元建立了云计算平台;2009年,阿里巴巴集团旗下子公司阿里软件在南京建立了国内首个“电子商务云计算中心”,首期投资额上亿元人民币;世纪互联推出了CloudEx产品线,包括完整的互联网主机服务“CloudExComputingService”,基于在线存储虚拟化的“CloudExStorageService”,供个人及企业进行互联网云端备份的数据保全服务等系列互联网云计算服务;中国移动研究院已经完成了云计算中心试验,认为云计算和互联网的移动化是未来发展方向。易度在线工作平台everydo.com在云计算领域发展也很快,旗下的多款云计算产品,包括文档、项目、工作管理等,致力于解决中小企业的软件领域问题。我国企业创造的“云安全”概念,在国际云计算领域独树一帜。云安全通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,推送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。云安全的发展像一阵风,瑞星、趋势、卡巴斯基、MCAFEE、SYMANTEC、江民科技、PANDA、金山、360安全卫士、卡卡上网安全助手等都推出了云安全解决方案。瑞星基于云安全策略开发的2009新品,每天拦截数百万次木马攻击。趋势科技云安全已经在全球建立了5大数据中心,几万部在线服务器。云安全可以支持平均每天55亿条点击查询,每天收集分析2.5亿个样本,资料库第一次命中率就可以达到99%。借助云安全,趋势科技现在每天阻断的病毒感染最高达1000万次。2008年11月25日,中国电子学会专门成立了云计算专家委员会,聘任中国工程院院士李德毅为主任委员,聘任IBM大中华区首席技术总裁叶天正、中国电子科技集团公司第十五研究所所长刘爱民、中国工程院院士张尧学、Google全球前副总裁/中国区前总裁李开复、中国工程院院士倪光南、中国移动通信研究院院长黄晓庆六位专家为副主任委员,聘任国内外30多位知名专家学者为专家委员会委员。2009年5月22日,中国电子学会在北京中国大饭店隆重举办首届中国云计算大会,探讨了我国发展云计算的基本思路。二建设目标与原则1目标睢宁县云计算数据中心立足睢宁,吸取国际、国内云计算中心建设、运营的经验,为全县提供一流的公有云、私有云和超级计算服务;为各个行业领域、政务信息化和民生改善提供一流的数据存储与信息服务。初步实现“云计算服务”的战略目标。云计算服务是建设基础设施、平台及软件三大云计算服务。以数据灾备、信息存储、处理能力等为主建设基础设施服务,以应用开发、信息管理、超级计算等为主建设平台服务,以政府行业信息化、全县征信系统等为主建设软件服务。对促进睢宁信息技术发展,提升本地区的科技竞争力起到举足轻重的作用。2原则2.1统一规划、建设和应用并重整合资源,制定云计算、存储、服务、应用收费等标准,统一设计云计算建设和资源应用总体框架;整合用户信息服务需求,达到公有云和私有云协同发展,提高整体系统效率,避免重复建设。2.2示范引导、分步实施针对我县的优势产业以及云计算应用需求最迫切的领域或区域,开展云计算应用试点示范,由点到面,逐步扩展应用的领域和区域。2.3面向应用、模式创新以应用为先导,研究探索云计算在各领域的应用和运行模式,以政府为先导,市场驱动,鼓励和支持云服务运营模式创新。2.4政府主导、市场运作积极抢抓云计算发展的机遇,主动顺应云计算发展的客观规律和要求,充分发挥政府在推动云计算发展进程中的主导作用,面向市场需求,通过政府引导、企业主体、市场配置,促进企业成为市场参与主体,进一步激发企业主体创新创业的动力和活力。3功能定位睢宁县云计算数据中心是我县信息技术基础设施,承担全县信息系统核心业务。作为各种行业和机构的信息系统运行中心、测试中心和灾备中心,具有核心业务运营、信息资源服务、关键业务计算、数据存储和备份、确保业务连续性等功能。建设睢宁县云计算数据中心,是实现智慧睢宁的需要。针对睢宁县政府、大中小企业和个人等不同用户需求,研究推进SaaS、PaaS和IaaS等服务模式创新发展。睢宁县云计算数据中心主要承载如下功能:政务信息化和业务协同平台;承担包括研究开发、科学计算、科普教育等功能的计算中心;融合城市应急指挥、平安社区以及信息发布的市政信息化统一办公体系平台的数据存储和处理中心;为各行业用户提供计算资源和存储资源服务的服务中心;为征信系统提供服务平台。三建设内容及技术方案1整体架构睢宁县云计算数据中心建设是基于华为云计算服务平台进行建设的,充分利用了华为云服务平台诸多云能力,并将睢宁县的政府业务与之有机整合,将先进的技术和多样化的业务进行完美结合,进而在业务的信息化无纸化过程中体现出云的先进理念。通过云计算技术,将睢宁政府网站群、平安城市、信息化等系统的软硬件资源集中部署,简称睢宁县云计算中心,实现信息资源的共享,并为各部门的信息化建设提供可高度扩展、可充分共享、可动态调整的基础资源。总体上睢宁县云计算中心的建设主要包括以下内容:云平台建设:包括基础资源平台建设、应用支撑平台建设、应用服务平台建设。数据中心建设:包括网络建设、安全部署、服务器系统建设、存储备份系统建设、运维管理系统建设。机房建设:包括机房设计、装修及各子系统建设。2云平台建设2.1云平台架构简介华为云服务平台主要由硬件资源平台、虚拟化基础平台、云计算基础平台和OM管理平台组成。采用虚拟计算、虚拟存储、虚拟网络等技术,完成计算资源、存储资源、网络资源的虚拟化。同时通过统一的接口,对这些虚拟资源进行集中调度和管理,从而降低业务的运行成本,保证系统的安全性和可靠性。虚拟化基础平台作为华为云服务平台的关键技术平台,通过虚拟化技术,将计算、存储、网络、安全等物理资源转化为可统一管理、灵活调度、动态分配的虚拟资源,构建云数据中心的虚拟化平台。云计算基础平台对虚拟化基础平台提供的虚拟资源进行业务封装和管理,包括虚拟资源管理、镜像管理、计费管理、调度管理、用户管理,构筑云数据中心业务运营能力。OM管理平台对整个系统进行操作维护,包含资源管理、资源监控、资源报表等。2.2云平台安全云计算环境中需要大量使用OS、DB、Web等通用软件,很容易遭受病毒入侵、漏洞攻击、木马、拒绝服务等安全威胁,从而影响系统运营。华为作为国际上领先的云服务提供商,在云安全方面拥有雄厚的积累,采用了各种手段来保障云服务的安全性。华为云数据中心基础的安全能力主要通过系统加固、防病毒和安全补丁这三方面措施来提供。系统加固系统自身漏洞、不安全的帐号/口令、不当的配置和操作、开启不安全的服务等都为病毒、黑客、蠕虫、木马等入侵提供了方便之门,给系统带来安全危害。为了减少以上因素带来的威胁,需要进行安全配置。根据CIS(theCenterforInternetSecurity)的调查显示,80%-90%的已知的脆弱性都可以通过基本的安全配置来消除,而且通过安全加固所达到的效果是使用防病毒软件和安装补丁所不能达到的。华为云服务平台云计算数据中心制定了一系列的操作系统、数据库、Web应用等开发、测试安全规范,并自主研发了相应的系统安全定制、检查工具,满足业界安全最佳实践的Benchmark要求。安全补丁软件因自身设计缺陷而存在很多漏洞,定期为系统安装补丁以修补这些漏洞,防止病毒、蠕虫和黑客利用这些漏洞对系统进行攻击,是从根本上杜绝系统漏洞的有效方式。华为云服务平台云数据中心提供集中的安全补丁管理方案,实现了补丁测试、自动补丁安装、回退等机制;结合虚拟机迁移控制,保证物理机器重启不中断业务。防病毒支持管理节点、管理终端的防病毒,整个网络的Linux、window防病毒集中管理和维护。2.3可靠性2.3后面,ABCDE可作为2.3.1等2.3后面,ABCDE可作为2.3.1等高可用性指标全局虚拟机年度平均可用度99.9%以上:指标介绍:虚拟主机在任何随机时刻能够满意工作的概率。虚拟机业务运行时间(dutytime):24*7指标说明:可提供一天24小时,一周七天的不间断虚拟机服务。电源恢复时间<2hour:指标说明:云平台系统从电源恢复到业务完全恢复的时间。指标达成:云平台系统软件可以不分先后进行加载,包括管理软件和计算服务器软件;单个服务器加载时间不超过5分钟,可并行进行20个服务器的加载。虚拟机故障迁移的时间小于4分钟:指标说明:由于各类故障导致虚拟机掉电或死机,系统将故障虚拟机重新启动完成的时间;系统检查到虚拟机故障,开始在其他正常服务器上启动虚拟机的时间。最终VM启动完成依赖于客户机OS镜像启动时间。指标达成:系统管理服务器通过心跳进行虚拟机的故障检测,在40秒内没有响应,就在其他服务器上进行此虚拟机的启动,此过程称为故障迁移(HA)。虚拟机本身启动的时间不包括在内。系统通过锁的方式,可防止虚拟机的脑裂行为。虚拟机热迁移时间和虚拟机内存相关,每1G内存需要20秒:指标说明:计划内的定时或手工热迁移,虚拟机从一台服务器上平滑无损的迁移到另外一台物理机上运行起来的时间。指标达成:热迁移时,系统内的虚拟化软件进行虚拟机的内存拷贝到目的物理服务器,速度大致为每20秒1G,拷贝完成后,再将拷贝这段时间内的内存变化数据同步到目的物理机,然后如此循环,最终进行新虚拟机的启动,关闭旧虚拟机,切换时间为毫秒级,业务上无感知。机柜可靠性云计算机房采用的机柜具有以下可靠性规格:双PDU,支持设备双路供电,所有输出具有过流保护功能;最高规格的抗震设计:抗9级烈度地震。服务器可靠性华为云服务全部采用华为自产的服务器,端到端的制造能力为服务器的高可靠性和高性价比提供了良好的保障。内存可靠性内存错误主要包括硬件错误和软件错误,其中硬件错误是由硬件失效或者损坏造成的,器件会不断返回不正确的数据,硬件错误可以通过华为云服务平台的服务器启动时BIOS的内存自检发现。内存使用中经常碰到的是软件错误,软件错误不能通过内存自检发现,只有通过一些内存检错和纠错的算法来保护内存中的数据。华为云服务平台的服务器在内存软件错误纠正上采用内存ECC(ErrorCheckingandCorrection)技术,采用工业标准的纠错算法,能够检测内存2bit错误,并修复内存单bit错误。硬盘可靠性硬盘热插拔:华为云服务平台的服务器支持系统运行时的硬盘(SATA)热插拔;硬盘RAID:华为云服务平台的服务器支持RAID0、1、5等多种RAID方式,支持RAID下另加热备盘的配置,保证了硬盘数据的高可靠性,在RAID组的某颗硬盘坏掉后,支持数据恢复、RAID组恢复和在线更换硬盘。其中RAID卡支持电池,可以对Cache数据进行保护,既可以提高对硬盘的访问性能,又可以防止意外掉电时数据的丢失。支持磁盘在线定时故障检测和预警华为云服务平台的服务器采用了业界先进的S.M.A.R.T.技术,对基于ATA和SCSI接口的硬盘的监控和可靠性管理,检查其可靠性并预测磁盘错误。其技术原理是主要通过侦测硬盘各属性,如数据吞吐性能、马达起动时间、寻道错误率等属性值和标准值进行比较分析,推断硬盘的故障情况并给出提示信息,帮助用户避免数据损失。电源可靠性华为云服务平台的服务器配置2组电源(PSU),提供电源故障告警,支持电源1+1冗余和热插拔,可以在1组电源故障后,系统持续运行而不影响业务;并且可以在线更换故障电源。系统监控华为云服务平台的服务器支持对CPU,内存等热关键器件的温度实时监控,配合智能的风扇调速和监控,确保系统运行的可靠性。华为云服务平台的服务器支持对风扇,电源,硬盘等关键器件的运行状态监控,设备故障时会产生告警,可以灵活对支持热插拔设备进行在线更换,不支持热插拔设备提前安排好业务后进行下电更换。板载软件可靠性BMC软件支持双Image,当Flash中的某个Image遭到破坏时,支持从另一个Image启动BMC系统,而不会造成系统无法启动的情况。BMC软件支持进程监控,某个进程死掉后,支持重启恢复功能。网络可靠性网络子系统主要采取以下五个措施来增强系统的可靠性:网卡负荷分担对于物理服务器提供的多块网卡,出于可靠性以及流量负载均衡的考虑,系统采用了Bonding模式。将网卡绑定成逻辑上的“一块网卡”,多个网卡同步一起工作,对服务器的访问流量被均衡分担到多块网卡上,这样每块网卡的负载压力就小多了,抗并发访问的能力提高,保证了服务器访问的稳定和畅快,而且当其中一块发生故障的时候,另外的网卡立刻接管全部负载,过程是无缝的,服务不会中断。交换机堆叠通过堆叠技术,将两台物理交换机作为一台交换机进行处理,交换机之间无需配置TRUNK,对于接入设备服务器而言,相当于只看到一台物理设备。处于堆叠组中的两台物理交换机处于主备状态,单台设备故障,由另外一台设备接管。交换机通过堆叠线缆连接成环型或链型,运行堆叠管理协议,选举出主交换机,负责堆叠系统的管理,包括分配堆叠成员的ID、收集堆叠的拓扑信息,并将拓扑信息通告给所有的堆叠成员;主交换机指定备用交换机,备交换机在主交换机出现故障的时候升级为主交换机来管理整个堆叠。交换机互连冗余SmartLink,中文译为灵活链路,又称为备份链路,是一种为链路双上行提供可靠高效的备份和切换机制的解决方案,常用于双上行组网。相比STP(SpanningTreeProtocol,生成树协议),SmartLink技术能够提供更高的收敛性能,相比RRPP(RapidRingProtectionProtocol)和SEP(SmartEthernetProtection),SmartLink技术提供了更简洁的配置使用方式。双上行组网是目前常用应用组网之一,该组网下通过生成树协议阻塞冗余链路,起备份作用。当主用链路故障时,将流量切换到备用链路。虽然这种方案从功能上可以实现客户冗余备份的需求,但是在性能上却不能达到很多用户的要求,因为即使采用快速生成树协议的快速迁移,也只能是秒级的收敛速度。这对于应用于电信级网络核心的高端以太网交换机,是非常不利的一个性能参数。基于上述原因,华为云服务平台引入了SmartLink解决方案,针对双上行组网,实现主备链路冗余备份及快速迁移。该方案为双上行组网量身定做,即保证了性能,又简化了配置,同时,作为对SmartLink的一个补充,还引入了端口联动的方案,也即是MonitorLink,用于监控上行链路,使SmartLink备份作用更为完善。虚拟路由冗余保护VRRP(VirtualRouterRedundancyProtocol)虚拟路由冗余协议,是一种容错协议。该协议通过把几台路由设备联合组成一台虚拟的路由设备,使用一定的机制保证当主机的下一跳交换机出现故障时,及时将业务切换到其它交换机,从而保持通讯的连续性和可靠性。VRRP将局域网的一组路由设备构成一个VRRP备份组,相当于一台虚拟路由器。局域网内的主机只需要知道这个虚拟路由器的IP地址,并不需知道具体某台设备的IP地址,将网络内主机的缺省网关设置为该虚拟路由器的IP地址,主机就可以利用该虚拟网关与外部网络进行通信。VRRP将该虚拟路由器动态关联到承担传输业务的物理设备上,当该设备出现故障时,再次选择新设备来接替业务传输工作,整个过程对用户完全透明,实现了内部网络和外部网络不间断通信。网络分平面通信整个云计算系统逻辑上可以分为三个平面:管理平面、存储平面和业务平面。为了保证各种网络平面数据的可靠性,华为云服务平台采用分网络平面的架构方案,不同平面间采用VLAN进行隔离,单个平面的故障不影响其余的两个平面继续工作,例如当管理平面暂时故障时,业务平面还能够继续为云终端用户提供服务。此外,系统还支持基于VLAN的优先级设定,使得内部的管理/控制报文具备最高的权限,从而使得在任何时候,管理员和用户均可以管控系统。云平台软件可靠性管理节点HA业务主备管理节点采用管理平面的心跳检测,备用节点实时检测主用节点的健康状态,一旦发现主用管理节点故障,备用管理节点将立刻接管主用节点的任务,持续对外提供服务。针对业务管理节点上的应用进程,通过采用软件看门狗的方式对运行在管理节点上的进程进行实时监控,如发现进程吊死或进入死循环,软件看门狗将会检测到相关进程的异常状态,并触发相关进程的重启恢复;如果发现进程重启后仍不能恢复正常,则进行业务管理节点的主备倒换并出告警以保证应用进程的可靠性。管理节点负责对全系统的业务进行管理,采用主备高可靠性的工作方式,如果主备管理节点同时故障的时候,相关的业务会受影响,例如虚拟机的创建和删除等等,但是,对于已经存在并运行中的虚拟机,不会产生任何影响,也就是说即使主备管理节点同时故障,也不会对正在使用的虚拟机产生影响,用户继续使用虚拟机上的应用程序,不会有任何感知。管理节点数据备份管理节点所有数据,包括配置文件、数据库记录等,均会定期自动备份到IMN(安装管理节点),即使管理服务器主备都故障且数据丢失,也可以快速恢复。备份方式:每周全量备份;每天增量备份。恢复过程:更换管理服务器;重新加载管理节点;拷入备份的数据,启动管理节点,即可恢复。虚拟机HA当计算节点物理服务器宕机或者重启,系统可以将具有HA属性的虚拟机故障迁移到其他计算服务器,保证虚拟机能够快速恢复。华为云服务平台提供多种迁移策略,当计算服务器宕机后,由于单个集群内可以运行上千个虚拟机(单个计算节点可以运行40个VM),为避免大量虚拟机迁移造成网络拥塞和目的服务器过载,系统会根据网络流量、目的服务器负荷选择将虚拟机迁移到不同的目的服务器。在不同虚拟机故障的场景,当虚拟机与管理节点无法进行连接,并且累计达十次响应超时,则系统认为虚拟机故障,然后管理节点选择新的计算节点重新创建故障虚拟机。虚拟机热迁移虚拟机是管理节点提供弹性计算服务的资源实体,为保证虚拟机的可用性,规避业务中断的风险,管理节点提供虚拟机热迁移能力,即虚拟机在不中断业务的情况下实现迁移。在迁移过程中,为保证内存的同步,虚拟机管理器(Hypervisor)提供了内存数据的快速复制技术,从而保证了在不中断业务的情况下将虚拟机迁移到目标主机。同时,通过共享存储保证了虚拟机迁移前后持久化数据不变。虚拟机负载均衡管理节点在新开一个虚拟机、虚拟机热迁移或者计算节点故障异地重启恢复的时候,在系统配置成负载均衡模式的情况下,根据各个物理计算服务器节点现有的负载状况进行动态的调配,使得集群中各个物理计算服务器的负载处于一个动态的均衡状态。黑匣子管理节点和计算节点引入电信领域“黑匣子”技术,在系统出现异常或宕机时自动存储VM内核日志、系统快照、内核诊断信息及异常退出之前屏幕输出信息,并保存至非易失性存储设备(计算节点)或通过netpoll方式实时发送至远端服务器(TFTP服务器),以便系统死机后,导出分析定位。3数据中心建设3.1网络设计方案网络总体拓扑图3.2网络平面设计华为云平台在组网上分为三个逻辑网络平面,三个网络平面逻辑隔离分别为:业务网络:虚拟机的接入网络平面,在IDC中业务平面通常指的是internet网络平面;管理平面:用于提供云平台管理服务器同云平台宿主服务器之间的通讯,同时为提供物理服务器和虚拟机的带外管理提供通讯通路,通过管理平面云平台系统可以同运营商管理网络进行接驳,在某些场景下管理平面和业务平面可以为同一物理平面,如同在DCN网络中;存储平面:提供服务器和磁盘阵列之间的专用数据通路,并且为存储的备份提供网络连接;3.3业务接入设计整个网络在架构设计业务平面接入设计上充分考虑了政府系统对网络要求的特殊性需求内外网不仅从网络平面进行逻辑隔离,需要在物理设备上进行物理隔离。内网系统各个委办局之间需要进行隔离,同时需要增强各个委办局的安全能力。各个委办局的内部业务系统通过MPLSVPN与具体部门进行对接互通。征信系统和门户系统放在外网区域,通过Internet进行访问。通过外部防火墙Eudemon8000E-X3的DDos防御特性,对整个数据中心外部网络的Ddos进行网络攻击防御,提供整个数据中心的DDos防御能力。同时通过Eudemon8000E-X3与Internet进行互联,将外网访问区虚拟机的内网IP进行外网映射。外部网络带宽预留4Gb,按照100kb/s*用户的访问请求,能够满足4万用户的并发请求,可以满足当前和将来的网络需求,具体外网带宽,可以根据当前使用量逐步增加。通过使用Eudemon1000E-X6的虚拟防火墙功能,将各个委办局的虚拟机对接到对应的防火墙中,在虚拟防火墙内与对端的MPLSVPN进行对接。实现各个委办局与业务系统的对接和应用。内部业务系统由于存在网络视频的请求需要,按照1Mb/s*用户的峰值来进行网络规划,6Gb网络带宽可供6000名使用用户的并发访问,可以根据当前使用量逐步增加。3.4接入层网络设计存储接入网络存储接入网络使用光交换机S6700作为汇聚交换机,使用10GE网络进行承载。由于云主机使用的磁盘是存储在IPSAN上,因而将虚拟机的存储IO吞吐量转化为网络IO吞吐量。使用10GE网络有效保证了存储的总体的高吞吐能力。接入层交换机与设备之间使用4GE的网络捆绑技术提供网络在设备上的高带宽,单台设备可以提供高达4GE的IO吞吐能力。业务管理接入网络使用高密的E6000设备作为云主机的承载物理硬件,通过提供10GE的物理上联保证单台物理机上的网络请求,提供240台虚拟机120Gb并发峰值请求(内网大量的文件转存或者归档)。同时由于管理网段需要在开创虚拟机和转存镜像时进行镜像的大数据传输,需要保证系统功能不影响业务请求,需要提供高带宽来进行保证。BMC接入网络使用S5328作为BMC接入网络的接入交换网络,由于BMC属于运维管理网络,网络流量较低,S5328与上联的核心汇聚S9303通过千兆作为汇聚上连,能够保证该网络的正常运转。3.5存储计算网络融合一体机解决方案3.5.1系统架构如下是FusionCube虚拟化一体机的总体架构图:华为FusionCube融合基础设施一体机(HuaweiFusionCubeConvergedInfrastructure)是华为公司IT产品线云计算领域的旗舰产品。FusionCube遵循开放架构标准,于12U机框中融合刀片服务器、分布式存储及网络交换机为一体,无需外置存储、交换机等设备,并预集成了分布式存储引擎、虚拟化平台及云管理软件,资源可按需调配、线性扩展。FusionManager:负责云平台资源管理、弹性调度以及操作维护等综合管理功能,是云平台管理的核心,提供基于web的统一维护界面;整个系统的业务通过云管理FusionManager呈现,诸如用户管理、集群管理、业务模板管理、虚拟机管理、桌面发放、统一硬件管理、告警、监控等功能均由FusionManager对外提供。FusionCompute:华为虚拟化平台,负责云平台计算资源虚拟化和资源分配,将物理资源(计算、存储、内存等)转换成可动态调整的虚拟资源,供虚拟机使用;FusionStorage:使用分布式云存储技术,通过合理有序组织刀片服务器的本地硬盘,提供高性能高可靠的块存储业务。硬件:服务器使用E9000,支持计算、存储、交换、电源模块化设计,计算和存储节点按需混配,计算、存储、网络都在E9000框内部署完成,支持GPU,SSDPCIe,DSP等I/O加速扩展,支持丰富的交换模块GE,10GE,FC,FCoE,IB,根据业务要求灵活配置。存储除了支持FusionStorage分布式存储外,还可外挂S5500T。FusionCube的典型使用场景包括:虚拟化一体机:直接提供集成的FusionCube虚拟化一体机,不携带任何其他应用软件;桌面云一体机:在虚拟化一体机上运行VDI(VirtualDesktopInfrastructure)虚拟桌面或应用虚拟化,提供桌面云服务;企业OA一体机:在虚拟化一体机上运行企业OA的服务端应用,如微软Exchange、Sharepoint应用;数据库/大数据一体机:在虚拟化一体机上运行微软SQLServer数据库、SAPHANA数据库等软件,通过硬件调优技术,确保数据库一体机的性价比最优;华为FusionCube基于华为自研的硬件平台,自研的分布式存储以及虚拟化软件,并进行了深度的集成和优化,具有如下特点:简单易用FusionCube将服务器、存储和网络打包放置在统一的机框或机架中,从销售到维护都更简单;业务快速部署可以快速部署系统,灵活为企业分配IT资源。通用硬件平台,方便IT系统统一进行规划,集中采购和建设。系统中的软、硬件完全解耦,兼容通用硬件服务器。设备资源池化,共享资源,提高资源利用率。各种零散的设备集成为统一的资源池,实现资源共享。整体资源规划不需要按需求峰值叠加设计,减少初期投资和资源闲置浪费。系统扩展能力强,根据业务量弹性扩容,适应业务系统突发需求。IT设备资源平均利用率可以从10%提高到60%以上。资源自动分配,缩短系统部署周期,加快业务上线速度平台化的IT资源,生产预安装,图形化系统规划,减少系统部署时间。根据业务需求直接从IT资源池中自动划分资源,加快业务上线速度。集群化、自动化运维FusionCube解决方案将网络运维模式从人工运维管理转变为自动化运维管理,运维效率提高10倍以上,可大幅提高IT运维服务质量。自动监控IT资源和系统运行状态,对系统故障和潜在风险实时报警、自动恢复。提高业务系统的可靠性。系统根据资源分配策略,自动配置、动态调整资源。可以快速自动加入新资源,搬迁已有资源。端到端整体解决方案华为FusionCube解决方案可以提供从产品到管理全面的端到端解决方案。提供全面的服务器、网络设备、存储设备、安全设备等硬件产品。提供全面的业务软件方案。提供全面的运营管理方案基于FusionCube集成的优势,FusionCube帮助客户:实现快速业务上线、资源调整、扩容,加快业务盈利。提高资源利用率,减少硬件投资、能耗、维护成本,从而降低总体IT成本。自动资源调整和容错,让IT交付、维护更加简单,降低人力成本。3.5.2安全可靠云平台FusionCompute主要定位企业关键应用领域,采用业界领先的Xen技术,实现在开源基础上持续增强和优化,提供完整的虚拟机生命周期管理功能,充分发挥Xen的性能和安全方面的技术优势,并利用Intel和AMD的芯片辅助虚拟化技术,提供关键应用对于高性能、高可靠、安全性和高可适应性上的各种虚拟化功能要求。首先,在基础架构服务层,提供持续的性能优化和增强功能,在计算虚拟化上的内存复用技术、GPU虚拟化技术等满足用户对于性能和体验方面的要求,在存储虚拟化上的链接克隆技术、快照备份技术可有效降低硬件采购成本,在网络虚拟化结合芯片辅助虚拟化技术提供SR-IOV网卡直通等技术,可满足应用对于高I/O性能的要求。其次,在应用程序服务层,提供可用性、可维护性和安全性方面的功能支持,包括提供虚拟机热迁移、虚拟机热备份和虚拟资源的热插拔技术,降低系统计划内/外宕机时间,提高业务的连续性;提供黑匣子、GuestOS故障检测功能,提高系统的可维护性;提供虚拟机安全加固、VLAN和安全组特性,提高企业应用的安全性保障;FusionCompute是一个轻量化的虚拟化管理系统,安装需要的空间不到4G;FusionCompute的一个集群最大可以扩展到128个服务器;FusionCompute支持多种数据存储类型,包括块级的存储SCSI设备和基于块级的VIMS存储;FusionCompute采用华为自研iNIC智能网卡和分布式虚拟交换机提供虚拟化网络功能;FusionCompute虚拟化的GuestOS支持市场主流版本的Windows和Redhat、SuSe等多个发行版本的Linux操作系统。在同一物理服务器上运行的多个虚拟服务器,当分别安装所支持的不同类型及版本的操作系统时,支持各虚拟服务器同时运行,相互之间没有影响。以上FusionCompute所有虚拟化特性,可以为企业关键应用整体运营带来显著的改善。自动化运维管理3.5后面是3.6,ABCDE可作为3.5.1等3.5后面是3.6,ABCDE可作为3.5.1等FusionCube融合一体机解决方案的自动化运维管理系统是通过FusionManager实现。FusionManager提供硬件管理、虚拟化平台管理、资源池管理,以及在统一资源池之上的虚拟机数据中管理,应用管理等功能。同时作为一体机的统一Portal,完成全系统各种资源的生命周期维护。FusionManager可以物理部署和虚拟化部署在一台SUSE1164位的服务器上。作为虚拟机部署时,其物理节点上的其他资源可以共享出来给其他业务虚拟机使用;FusionManager基于FusionCompute能力,提供了如下主要功能:统一资源管理:通过将不同系统的资源对象采集到一起,建立统一的资源管理模型对使用者提供统一的、一体化的资源管理体验,包括各种资源的监控和告警;基于角色的访问控制:基于角色的访问控制(RBAC)是实施面向企业安全策略的一种有效的访问控制方式。其基本思想是,对系统操作的各种权限不是直接授予具体的用户,而是在用户集合与权限集合之间建立一个角色集合。每一种角色对应一组相应的权限。一旦用户被分配了适当的角色后,该用户就拥有此角色的所有操作权限。这样做的好处是,不必在每次创建用户时都进行分配权限的操作,只要分配用户相应的角色即可,而且角色的权限变更比用户的权限变更要少得多,这样将简化用户的权限管理,减少系统的开销;硬件自动发现与扩容:系统会自动发现一体机内部的所有硬件并扫描硬件的规格信息。用户可以在创建资源池的时候直接选择系统发现的硬件,系统自动完成这些硬件的软件安装、网络配置并将硬件加入资源池。系统扩容的时候也可以自动发现新加入的硬件,并且用户将硬件加入资源池的时候自动化完成所有的配置工作;应用自动部署:通过服务模板自动部署应用,包括自动完成创建虚拟机,安装OS、创建网络、安装应用等一系列的过程;应用弹性伸缩:支持配置应用的弹性伸缩策略,使应用按照策略自动伸缩应用资源。充分利用系统的现有资源。虚拟机迁移:当系统中出现虚拟机故障的时候,可以自动迁移到其他物理服务器之上,自动的快速恢复业务;虚拟机快照:系统将某一时刻虚拟机的整体状况以类似照片的形式保存下来。当虚拟机发生故障时,用户可以基于快照快速恢复虚拟机。快照会在执行时捕捉虚拟机的整体状况,包括虚拟机的电源状态、内存和磁盘数据、网卡和CPU寄存器;动态资源调度:采用智能负载均衡调度算法,通过持续不断地监控资源池的利用率,并能够根据相应策略在虚拟机中智能地分配合适的资源,从而达到同一资源集群内的不同物理主机之间负载均衡的目的;数据备份与恢复:虚拟机备份方案,是面向华为一体机平台下的虚拟机用户提供的无代理备份方案,通过在云平台上部署华为HyperDP(HyperDataProtection)备份软件,使系统管理员可以通过WEB界面轻松备份云平台虚拟机,不需要在用户虚拟机内安装任何备份软件,备份过程不需要终端用户参与,不影响用户虚拟机的运行。当虚拟机由于意外丢失数据时,系统管理员可以通过本地备份系统快速恢复,从而增强了虚拟机的可靠性;补丁升级:通过统一的升级补丁工具,实现升级和补丁功能;深度融合以下示例说明了FusionCube虚拟化一体机的融合硬件形态:华为FusionCube虚拟化一体机采用业界一流的模块化设计的组件,提供多种产品规模的组合,并提供单一厂家服务,满足各种业务范围的需求。华为FusionCube使用的计算/存储/网络都是华为自身的设备,使用计算,存储,网络垂直整合的融合架构硬件平台,高带宽低时延多协议交换能力,提升应用性能。华为FusionCube实现软硬件深度的整合,是真正的一体机:统一用户界面:不管是计算/存储,还是网络,都在统一的界面中进行配置、告警、性能统计等,保证用户一致的感受。一站式服务:从硬件到软件,联合应用,提供一站式支持,保证客户对产品的整体感知。预集成华为FusionCube依托华为高效的段对端交付能力,能从用户报价开始,根据用户业务需求,直接交付给用户开箱即用的产品,极大地简化了用户的安装、调测时间,从几周甚至数月的调测时间缩减到几个小时之内。预集成包括的内容:硬件预安装:设备上柜、线缆预绑软件预安装:BIOS定制、虚拟化软件FusionCompute、平台管理软件FusionManager软件安装、存储管理软件(FusionStorage/IPSAN)预安装整机集成调测:齐套性检查、连通性检查带柜运输:立柜运输现场开局:上电硬件检测、齐套性检查、连通性检查、简单业务配置和调测智能资源调度FusionCube可让计算/存储/网络资源池实现按需分配,达到弹性伸缩、节能减排的目标。其智能调度对象包括CPU、内存、虚拟机、服务器、资源集群。针对各种不同的资源有不同的调度动作:CPU:动态调频、动态增减、限制上限、物理核绑定内存:内存超分配、动态增减、限制上限虚拟机:自动休眠/唤醒、定时开机/关机、关闭/强制关闭/重启、迁移服务器:下电、定时下电、定时上电、负载均衡资源集群:应用迁移、资源优先级控制调度时机:定时调度:根据配置好的资源调度策略,系统会在定时或周期时间到来时,不做任何条件判断,直接触发调度任务。包括:虚拟机休眠、虚拟机关闭、虚拟机启动、虚拟机迁移、服务器下电、服务器上电等。条件调度:根据配置好的资源调度策略,系统会定时检测,当条件满足时,触发调度任务。调度策略:支持对调度对象、调度动作、调度时机的灵活组合配置而形成各种调度策略;支持对调度策略的创建、删除、修改、激活、去激活。实现智能调度的具体技术包括如下几种:内存复用技术内存复用是指在服务器物理内存一定的情况,通过综合运用内存复用单项技术(内存气泡、内存共享、内存交换)对内存进行分时复用。分时复用原理是通过计算节点上的内存复用策略实时调用相关内存复用技术,把空闲内存释放出来给其他虚拟机使用,同时平衡各虚拟机的内存复用情况,从而达到虚拟机内存规格总和大于服务器规格内存,最终提高服务器中虚拟机密度。支持以逻辑集群为单位进行设置内存复用率,范围0%-50%;以E9000服务器为例,假设物理内存为48G,管理内存开销为7G,那么实际可运行的虚拟机内存规格为:(48G-7G)*(1+50%)=61.5G。vCPUQoS控制技术vCPUQoS控制技术是指能限定vCPU最大占用物理核的百分比,从而为高级别的虚拟机保证足够的CPU物理资源。运行在同一物理服务器上的多个虚拟机,共用CPU资源。当并发使用时,会出现资源抢占的情况,为保证高级别虚拟机CPU资源的使用,可以如下设置:设置虚拟机使用的物理机核数。设置虚拟机一个vCPU最大能使用物理核的百分比,以此限制与其他虚拟机共用物理核时,不会过多抢占资源。例如,一个vCPU最大占用物理核的60%,当虚拟机使用达到60%时,不能占用更多的物理CPU。为了确保用户分级QoS,系统也支持将虚拟机的CPU和物理CPU绑定,确保其CPU不会被其他虚拟机抢占。将物理CPU先虚拟化为多个虚拟CPU,将一个物理CPU的虚拟化CPU只分配给一个虚拟机,则该虚拟机独占该物理CPU。如果将一个物理CPU的虚拟化CPU分配给多个虚拟机,则共享该物理CPU。通过该方式确保高级别用户虚拟机的vCPU不会被其他虚拟机抢占,作为SLA服务中的一项。智能负载均衡调度指采用智能负载均衡调度算法,通过周期性检查同一资源集群内各个物理主机的负载情况,在不同的物理机之间迁移虚拟机,从而达到同一资源集群内的不同物理主机之间负载均衡的目的。 系统周期性监控同一集群内所有物理主机和虚拟机的CPU和内存资源的使用情况。将当前物理主机之间的负载与理想状态下(配置策略阈值)进行比较,如果采样值中有50%大于阈值或满足关联性规则,则执行虚拟机迁移策略。智能电源管理技术指周期性检查资源集群内的物理机负载情况,当负载较高时,系统上电新的物理机来分担其它服务器的负载;当资源集群内的物理机的负载水平较低时,通过迁移负荷较低物理机上的虚拟机,然后下电该物理机,使得虚拟机集中在剩余的物理机上,从而降低整个资源集群的功耗。自动资源复用技术自动资源复用(AutomaticResourceSharing,简写为ARS)技术,是指在一给定的资源集群范围内如果存在多个业务组时,通过配置不同的策略能区分业务组的优先级,能将一个业务组内空闲的资源给其他业务组使用;而同一个业务组,也可以根据配置策略,在不同时段内进行扩大和缩小。由于资源在在不同时间段被不同的业务所使用,也叫做分时复用技术。当资源不足时,可以根据业务组的优先级和权重进行资源回收,调整资源分配,保证高优先级业务和高权业务的使用。资源复用只能在同一逻辑集群下的不同业务组之间进行;资源复用的最小资源调整粒度为一台虚拟机;资源复用技术的价值面向多应用的资源共享,节约成本;支持业务的自动弹性伸缩,充分体现弹性云平台的特点;复用策略灵活,可不断扩展;自动化资源调整,增强管理系统自动化能力;资源复用应用场景:虚拟桌面业务与其他业务分时复用。例如:用户白天使用虚拟桌面办公,晚上不使用了释放其计算资源,系统可以使用此计算资源运行其他业务(如CI,超算),当其他业务运行完成后也释放计算资源。用户上班可以继续使用虚拟桌面,提高资源复用率;弹性扩容云平台的基础框架按全网容量设计一次性方案规划,后续根据业务需要实现弹性扩容、按需扩容,不影响已有业务的连续性。当集群资源不足时,可对集群增加计算或存储资源。当服务器资源不足时,可增加集群内计算刀片。当存储资源不足时,可以增加计算存储刀片或单独增加存储硬盘。整体方案按照可动态扩展设计,当虚拟机数增加的时候,可以实现平滑的扩容。华为云平台基于分布式扩展架构设计,以集群为单位,实现计算资源池的相对独立。集群主机资源不足时,可直接新增刀片或机框或机柜,将设备接入网络。通过云平台硬件自动发现功能,可及时地将设备纳入系统的管理监控。一套一体机最大20个集群,1个集群支持的节点数最多可达到128台服务器,1套一体机可支持虚拟机数量最高达到3000。在集群内虚拟机可实现HA、调度等功能,可以轻松满足未来资源的扩展。集群的扩展是线性扩展,在线进行的,各个集群计算、存储资源独立,但运维管理、业务发放平台仍然通过一套系统来实现,真正实现统一平台。3.6可靠网络设计服务器侧逻辑上分为三个平面:业务平面、存储平面和管理平面,且三个平面之间是隔离的,保证最终用户不能破坏基础平台。存储平面:服务器上存储间通过存储网络二层直接互通。存储设备为虚拟机提供存储资源,但不直接与虚拟机通信,而通过虚拟化平台转化。业务平面:为用户提供业务通道,为虚拟机虚拟网卡的通信平面,对外提供业务应用。可针对不同虚拟机细分VLAN进行访问隔离。管理平面:负责整个云计算系统的管理、业务部署、系统加载等流量的通信。BMC平面主要负责服务器的管理,BMC平面和管理平面隔离。服务器采用2个10GE网口进行组网,业务、管理、存储平面通过两网卡聚合确保链路冗余。E9000机框里放置2个10GE交换板,作为接入和汇聚交换机用,用于接入机框内所有服务器刀片,以及框间交换板级联。在交换板上划分VLAN,将管理、业务、存储三个平面逻辑隔离,机框内交换板再上行汇聚到客户网络中。一体机默认VLAN划分:BMC平面为VLAN4030,管理平面为VLAN4040,存储平面为VLAN4050,业务平面为VLAN2-4000;其中管理平面的子网网段及VLAN划分可根据客户需求进行调整。一体机对外提供统一的业务和统一的管理。一体机内部网络按照二层网络架构设计,和客户网络连接可以选择采用2层模式,也可以采用3层模式。3.7一体机2层模式连接用户网络2层模式是:子网的网关配置客户网络,仅将一体机交换机作为接入交换机。主要应用于要求管理与业务隔离,用户可配置不同子网安全隔离。组网说明:1)一体机交换机作为客户接入交换机,配置聚合的上行口,并配置业务Vlan和管理Vlan2)业务Vlan范围是2-40003)管理Vlan配置为4040,用户可修改4)4000以上Vlan内部使用3.8一体机3层模式连接用户网络3层模式是:管理与业务网关配置一体机,用户网络与一体机通过3层路由互通。主要应用于减少用户网络,直接采用路由连接到一体机场景。网络如下图所示。组网说明:一体机配置聚合的上行口,并配置接口IP地址和上行链路静态路由3.9安全设计方案3.9.1安全框架为了保障数据中心的安全,必须有一个完整的安全架构来全面考虑,避免考虑不周,出现安全真空。华为安全架构层面主要采用了分层和纵深防御的思想。分层防御(LayeredDefense):分层防御旨在采用多种方法,在网络中多个区域执行安全性策略,从而确保网络中没有单点安全故障发生。纵深防御(DefenseinDepth):纵深防御思想使用多重防御策略来管理风险,以便在一层防御不够时,另一层防御将会阻止完全的破坏。华为云数据中心安全框架从分层、纵深防御思想出发,根据网络层次分为物理、主机/虚拟化、网络、业务和数据、管理维护等几个层面,同时整体上考虑满足合规性等需求,用来指导华为数据中心安全解决方案的设计。物理安全云计算数据中心的物理接入需进行严格的控制,只有授权的人员才能够进入。机房内安装监控设备,方便事后审计。基础安全整个云计算环境中使用了大量OS、DB、Web等通用软件,很容易遭受病毒入侵、漏洞攻击、木马、拒绝服务等安全威胁。云数据中心基础的安全能力可主要通过系统加固、防病毒和安全补丁这三方面措施来提供。虚拟化安全虚拟化带来好处的同时,也带来新的安全风险。首先是虚拟层能否真正地把虚拟机和主机、虚拟机和虚拟机之间安全地隔离开来,这一点正是保障虚拟机安全性的根本。另预防云内部虚拟机之间的恶意攻击,传统在网络出口提供防火墙、IDS设备已经不能完全满足要求,需部署一些基于主机的虚拟防火墙/IDS/IPS。网络安全为了抵御数据中心网络可能遭受的各种类型的DOS攻击和用户数据遭窃听和篡改等安全威胁,可从“网络隔离、攻击防护、传输安全”等多个角度考虑。安全域划分与网络隔离和上面的网络安全保持一致前面加上和上面的网络安全保持一致前面加上●通过网络划分、隔离手段实现计算、存储、管理、接入等域的隔离,管理面单独物理组网,保证网络安全性,避免网络风暴等问题扩散。边界防护进行网络流量分析,实时统计出当前网络中的各种报文流量;提供实时的入侵检测,通过与防火墙联动等方式进行报警及动态防护;识别DDoS攻击减少恶意流量的冲击。3.9.2网络安全为了抵御数据中心网络可能遭受的各种类型的DOS攻击和用户数据遭窃听和篡改等安全威胁,华为从“网络隔离、攻击防护、传输安全”等多个安全角度考虑,积极为运营商打造安全的数据中心网络。安全域划分与网络隔离通过网络划分、隔离手段实现计算、存储、管理、接入等域的隔离,管理面单独物理组网,保证网络安全性,避免网络风暴等问题扩散。边界防护功能强大的防火墙组成入侵防御方案,防范扫描类攻击,阻止畸形包攻击,资源耗尽型攻击,特殊报文控制。进行网络流量分析,实时统计出当前网络中的各种报文流量;提供实时的入侵检测,通过与防火墙联动等方式进行报警及动态防护;识别DDoS攻击减少恶意流量的冲击。Anti-DDOS解决方案:通过业界领先的Anti-DDoS技术阻断外网对云的DDoS攻击,确保云内带宽可用,业务安全;通过业界领先的Anti-Botnet技术阻断外网黑客对云中僵尸主机的控制,即可有效摧毁云中主机向外网发送垃圾邮件及发起DDoS攻击的先决条件;是业界唯一一家将Anti-DDoS和Anti-Botnet合一的解决方案,有效防御各种DDOS和Botnet攻击。采用先进的动态基线、TCPProxy、基于会话检测异常的清洗技术、基于应用的源认证、指纹学习、行为分析、基于僵尸网络检测技术的攻击溯源及静态过滤技术、基于僵尸网络技术的IP信誉机制、流量整形等技术。入侵检测和防护方案:华为IPS设备实现入侵检测和入侵防御的一体化,采用Symantec业界第一的IPS引擎,hacker攻击检测率高,并能及时防御,同时可及时进行IPS库的在线更新,有效防御新的攻击威胁。传输安全数据在传输过程中可能遇到被中断、复制、篡改、伪造、窃听和监视等威胁,需要保证信息在网络传输过程的完整性,机密性和有效性。华为云数据中心传输安全由以下几个方面保证:管理面信任域与非信任域之间全部SSL加密用户管理接入支持Https,安全性要求高的提供SSLVPN接入用户访问虚拟机支持SSH3.9.3虚拟化安全虚拟化带来好处的同时,也带来新的安全风险。首先是虚拟层能否真正地把虚拟机和主机安全地隔离开来,这一点正是保障虚拟机安全性的根本。其次由于虚拟机运行在同一台主机上,如果主机受到破坏,那么上面所有的虚拟机都都会受到影响,同样如果虚拟机之间的虚拟网络受到破坏,那么这些虚拟机也会受到影响。华为虚拟化安全重点考虑了虚拟机的隔离和防护,以保障安全隐患不会在整个网络中蔓延。虚拟机的隔离虚拟机之间支持通过划分VLAN进行隔离支持虚拟机安全组一个虚拟机安全组(VMSecurityGroup)是一组虚拟机的集合,也是关于这组虚拟机的网络安全规则的集合。同一个虚拟机安全组中的虚拟机可能分布在多个物理位置分散的物理机上。虚拟机安全组支持的操作包括定义虚拟机安全组、安全组的成员虚拟机,还有安全组的网络安全规则。每个虚拟机安全组包括一组虚拟机实例、一组网络安全规则。用户可以基于虚拟机安全组批量定义虚拟机的网络安全策略。缺省情况下,虚拟机安全组组内互通,组间由配置决定是否互通。虚拟机安全组兼容Amazon的SecurityGroup,支持安全策略修改、查询成员、增删成员等操作。恶意虚拟机的防护实现防地址欺骗功能,限制虚拟机只能发送本机地址的报文支持对VM端口扫描、嗅探等行为的检测和阻断3.9.4数据安全数据安全是保障数据中心安全的重点。在多租户环境下,使用者无法控制数据,甚至无法确切知道数据的存储位置,这加剧了用户对数据安全的担忧,也使得恶意行为或攻击更难以控制。保障用户的数据安全,华为云数据中心从数据隔离、访问控制等多个方面采取措施。后续将镜像文件快照的数字签名、完整性、加密保护。用户数据隔离通过虚拟化层实现虚拟机间存储访问隔离,严格隔离用户数据。数据访问控制用户和虚拟机镜像间的权限控制用户挂接卷进行权限确认对象存储(OBS)用户对象的访问控制剩余信息保护存储资源重分配给VM之前进行完整的数据擦除存储的用户文件/对象删除后,对应的存储区进行完整的数据擦除或标识为只写(只能被新的数据覆写),保证不被非法恢复3.10运维管理方案运维方案设计基于以下现状:互联网业务部目前托管在数据中心的应用系统用I2000产品实现管理,迁移到HWS数据中心以后暂时沿用I2000管理应用系统互联网业务部暂时使用云平台的BMSPortal,正在自主开发的BMSPortal计划在2011年九月底投入使用。本方案设计主要考虑使用互联网业务部的BMSPortal考虑到云平台版本路标,云平台运维管理版本使用V1R1CO1的版本考虑到eSight的产品成熟度,目前HWS数据中心系统管理暂时用I2000基于以上现状,HWS数据中心运维管理主要分为以下三个层面:HWS数据中心运维管理分层示意图本方案用I2000产品作为HWS运维管理解决方案的基础架购管理,与云平台管理功能相结合,形成HWS数据中心运维管理的主要功能,同时与互联网业务部的OMS运维管理功能相结合,形成HWS数据中心的整体运维管理解决方案;I2000网管系统主要实现面向网元的性能、告警、配置管理、拓扑管理、安全管理、提供向上网管接口。在本方案中,I2000管理的范围包括网络设备、物理服务器、数据库服务器。对外的界面为I2000客户端;云平台实现对云平台监控、计算资源管理、维护配置管理、流程管理等云服务管理。对外的界面为OMSPortal;业务管理的BMSPortal实现业务发放、计费、服务管理、用户管理等功能。对外界面为BMSPortal。3.11计费设计方案3.11..1计费对接方式IDC云可以根据按时、按需、按使用量进行计费,可计费的项目主要有CPU、内存、盘容量、网卡、操作系统等。具体计费方式有两种:1)运营商的BOSS系统与云系统对接,BOSS进行计费;2)云系统提供计费详单,由BOSS读取计费详单进行计费。1)运营商的BOSS系统与云系统对接,BOSS进行计费所有IDC云的资源申请、变更、退订等工单全部先从BOSS入口,然后BOSS把工单通过电子运维(电子运维是可选的,具体根据运营商实际情况而定)发送给云系统,云系统具体执行工单的内容,执行成功后,返回结果给电子运维,电子运维把结果返回给BOSS,BOSS收到执行结果后进行计费处理。云系统不参与计费,只处理IDC云的工单请求,具体计费策略在BOSS系统进行设定,由BOSS实现计费。2)云平台提供计费详单,由BOSS读取计费详单进行计费IDC云系统采集各种业务计费系统所需的计费信息,比如服务类型、资源的规格、资源的使用时长、使用次数等计费因子,输出计费详单,BOSS系统读取计费详单,根据计费策略,实现虚拟桌面业务的计费。IDC云系统能够提供FTP等传统电信接口,将计费信息以详单的形式上传到运营商的计费中心,实现与传统电信BOSS的对接。3.11.2计费业务列表解决方案支持对多种业务进行计费,可以参考以下的表格。计费大类计费小类弹性计算服务计费对创建/删除实例进行计费对创建/删除卷进行计费对申请/释放弹性IP进行计费对创建快照计费对删除快照计费对快照PUT操作计费对快照GET操作计费对实例运行周期审计计费对卷存储周期审计计费对快照存储周期审计计费对弹性IP占用周期审计计费对申请VLAN计费对释放VLAN计费对申请VPC计费对释放VPC计费对创建网络安全组计费对删除网络安全组计费对VLAN占用周期审计计费对VPC占用周期审计计费对网络安全组使用周期审计计费对象存储业务计费对创建桶计费对删除桶计费对存储容量计费对网络流入量计费对网络流出量计费对用户SOAP请求次数计费对用户REST请求次数计费对桶存储周期审计计费3.11.3计费系统的特点1)计费单据可以采用主动和被动方式提供给计费中心2)系统与计费中心连接中断后,能够支持缓存和重发,确保计费单据不丢失。4云存储4.1云存储系统架构在本次系统建设中,云存储系统属于基础平台支撑层,以用于数据集中存储和共享,实现对数据的统一管理和高效应用。将数据逻辑集中物理分散,以提供多并发高吞吐带宽,最大程度降低系统访问瓶颈。下面具体说明cStor云存储资源管理系统的基本组成和主要功能。4.2系统基本组成cStor云存储资源管理系统采用分布式的存储机制,将数据分散存储在多台独立的存储服务器上。它采用包括卷管理服务器、元数据管理服务器(MasterServer)、数据存储节点服务器(ChunkServer)和挂接访问客户端以及管理中心服务器的结构构成虚拟统一的海量存储空间。在每个服务器节点上运行cStor云存储资源管理系统的相应的软件服务程序模块。系统架构框图如下图所示。cStor云存储资源管理系统架构其中,MasterServer保存系统的元数据,负责对整个文件系统的管理,MasterServer在逻辑上只有一个,但采用主备双机镜像的方式,保证系统的不间断服务;ChunkServer负责具体的数据存储工作,数据以文件的形式存储在ChunkServer上,ChunkServer的个数可以有多个,它的数目直接决定了cStor云存储系统的规模;挂接访问客户端即为服务器对外提供数据存储和访问服务的窗口,通常情况下,客户端可以部署在ChunkServer上,每一个块数据服务器,既可以作为存储服务器同时也可以作为客户端服务器。由一对元数据服务器及其管理的存储服务器节点所提供的存储空间称为一个卷空间,不同的卷空间由卷管理服务器虚拟化统一管理,对外可提供统一的海量存储空间。管理中心提供统一易用的WEB配置管理平台,提供设备、空间、文件、服务、用户认证管理、配额管理、故障告警及预警等功能,实现智能化管理。这种分布式系统最大的好处是有利于存储系统的扩展和实现,在小规模的数据扩展时,只需要添加具体的ChunkServer即可,而不需要添加整套设备。在实现大规模扩展时也可方便地添加整个卷设备。4.3系统功能描述cStor云存储资源管理系统从功能上划份为三大部分:cStor分布式文件系统分布式文件系统实现文件数据存储、可靠性容错、可伸缩性保证、高可用保证、负载均衡和流量分担等功能。存储访问接口cStor提供符合POSIX规范的文件系统访问接口,通过cStor访问挂接程序可将云存储空间挂接为本地目录或磁盘。同时可提供专用的API接口,支持业务应用层程序对云存储系统的直接访问。管理中心管理中心提供帐户管理、设备管理、系统、卷管理、告警管理、故障管理等功能。 下面逐一详细介绍各部分系统功能。4.3.1cStor分布式文件系统cStor分布式文件系统包括卷管理、元数据管理、块数据管理服务。参考上面系统架构框图左侧部分。元数据是指文件的名称、属性、数据块位置信息等,元数据管理通过元数据服务程序完成。因元数据访问频繁,故系统将元数据加载缓存至内存中管理,提高访问效率。由于元数据的重要性,元数据损坏或丢失则相当于文件数据丢失,因此实现了元数据服务器主备双机高可用,确保7×24小时不间断服务。通过元数据远程多机冗余备份功能,实现在多台其它机器上备份元数据,当元数据服务器损坏,可以通过备份的元数据重新恢复服务,切保数据可以完整找回。块数据是指文件数据被按照一定大小(默认64MB)分割而成的多个数据块,分布存储到不同的存储节点服务器上,并通过编解码容错算法产生相应的冗余块。块数据服务是运行在每个存储节点服务器上的块数据管理程序,负责使用存储服务器上的磁盘空间存储文件数据块,并实现相应的编解码功能。相比较传统业界的云存储采用块数据简单备份冗余容错机制,编解码容错方式大大降低了硬件资源冗余度,提高了磁盘利用率。由一对主备元数据服务器及其所管理的块数据服务器管理节点设备及其所提供的存储空间称为一个卷。卷管理服务器负责将多个卷虚拟化整合,对外提供统一的整体访问云存储空间。文件系统采用中心服务器模式分布式存储架构,控制流与数据流分离,通过增加存储节点系统采用自动注册机制,实现系统高可伸缩性,增加或减少存储节点规模,不影响系统正常提供存储访问服务。该系统架构实现了统一调度,负载均衡和流量自动分担功能,多个存储节点同时对外提供数据流服务,系统根据磁盘空间使用比例进行资源优化配置。同时在多个不同的存储节点之间实现根据空间比例进行优化配置,数据优先存储的空间利用比例相对较低的磁盘或存储服务器上。cStor分布式文件系统具有自动冗余重建功能,确保损坏的数据块能够被解码或编码后存储到在线的正常的存储服务器节点上。4.3.2存储访问接口cStor分布式文件系统提供符合POSIX规范的文件系统访问接口。支持Linux、Windows、MaxOSX等操作系统平台。可将云存储系统提供的存储空间挂接为本地目录或本地盘符来使用。用户操作云存储空间和操作本地文件相同。另外cStor提供专用的高速存取访问API接口,供性能要求很高的高端应用程序对接使用。4.3.3管理中心管理中心为系统管理员配置和维护cStor云存储资源管理系统的有效工具,充分体现了系统的可维护性。管理中心提供帐户管理、设备管理、系统、卷管理、告警管理、故障管理等功能。以下为部分系统管理界面。设备管理系统告警信息告警配置告警日志故障处理卷管理帐户管理添加帐户4.4云存储工作机制4.4.1数据写入机制数据写入过程参考下图:客户端向元数据服务器请求写入文件数据,元数据服务器返回写入服务器列表;客户端进行文件切块写入有块数据服务器;客户端每写入一定量的块数据后,通知元数据服务器,由元数据服务器启动一个编码任务,进行编码;而客户端继续写数据,真到写完成为止;元数据服务器调度一个或多个块数据服务器进行编码任务;被调度的块数据服务器,获取需要的原始信息块组进行编码,产生冗余数据块;4.4.2数据读出机制数据读出过程参考下图:客户端向元数据服务器请求读出文件数据,元数据服务器返回数据块位置列表;客户端进行数据块读出;客户端进行数据块校验;对未能读出的数据块或无效块通过同编码组内其它数据块进行解码,获得完整正解的文件数据。4.5云存储关键技术4.5.1负载自动均衡技术采用中心服务器模式来管理整个云存储文件系统,所有元数据均保存在主管理服务器上,文件则划分为多个节点存储在不同的节点服务器上。主卷管理服务器维护了一个统一的命名空间,同时掌握整个系统内节点服务器的使用情况,当客户端向元数据服务器发送数据读写的请求时,元数据服务器根据节点服务器的磁盘使用情况、网络负担等情况,选择负担最轻的节点服务器对外提供服务,自动均衡负载负担。另外,当某有一个节点服务器因为机器故障或者其他原因造成离线时,主卷管理服务器会将此机器自动屏蔽掉,不再将此节点服务器提供给客户端使用,同时存储在此节点服务器上的数据也会自动的编码冗余到其他可用的节点服务器上,自动屏蔽节点服务器故障对系统的影响。4.5.2高速并发访问技术客户端在访问云存储时,首先访问主卷管理服务器节点,获取将要与之进行交互的节点服务器信息,然后直接访问这些节点服务器完成数据存取。客户端与主卷管理服务器之间只有控制流,而无数据流,这样就极大地降低了主卷管理服务器的负载,使之不成为系统性能的一个瓶颈。客户端与节点服务器之间直接传输数据流,同时由于文件被分成多个节点进行分布式存储,客户端可以同时访问多个节点服务器,从而使得整个系统的I/O高度并行,系统整体性能得到提高。通常情况下,系统的整体吞吐率与节点服务器的数量呈正比。4.5.3高可靠性保证技术对于元数据,通过操作日志来提供容错功能,当主管理服务器发生故障时,在磁盘数据保存完好的情况下,可以迅速恢复以上元数据。为了防止主管理服务器彻底死机的情况,还提供了主管理服务器远程的实时备份,这样在当前的主管理服务器出现故障无法工作的时候,另外一台备管理服务器可以迅速接替其工作。对于节点服务器,采用编解码的方式实现容错,分布存储在不同的节点服务器上。数据块的分布策略考虑了多种因素,如网络的拓扑、机架的分布、磁盘的利用率等。在其后的过程中,如果相关的数据块出现丢失或不可恢复等状况,主管理服务器会自动将该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论