云存储技术介绍及应用发展分析_第1页
云存储技术介绍及应用发展分析_第2页
云存储技术介绍及应用发展分析_第3页
云存储技术介绍及应用发展分析_第4页
云存储技术介绍及应用发展分析_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1云存储概况1.1云存储的定义云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。云存储的两个层面云存储的两个层面是作为云计算支撑的存储计算,主要涉及分布式存储(如分布式文件系统、IPSAN、数据同步、复制)、数据存储(如重复数据删除、数据压缩、数据编码)和数据保护(如RAID、CDP、快照、备份与容灾)等技术领域,如图8-30所示,和云安全技术一样,云存储技术也需要利用现有的所有存储技术针对云计算三层架构的各个环节采用适当的存储技术,才能取得最佳效果,例如,对应不同需求,有时应该使用数据库技术但有时却应该使用LDAP技术,有些性能要求高的系统不能使用SAN或NAS,需直接使用基于RPC或Socket技术的并发文件系统,有些应用使用SAN成本太高等,这里不再做深入介绍。如图8-31所示是一个采用NetAppFAS、思科UCS和VMWarevShpere4技术打造的存储系统,对上述两种云存储技术和应用都有促进作用。由于业内没有统一的标准,各厂商的技术发展路线也不尽相同,因此相对于云计算,云存储概念存在更多的多义和模糊现象。结合云存储技术发展背景及主流厂商的技术方向,可以得出如下定义:云存储不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。1.2云存储的优势:面对数据量的急剧增长,大数据时代的到来,传统存储技术面临建设成本高、运维复杂、扩展性有限等问题,主要体现在以下几个方面:(1)开放性不足:盘阵存储标准化程度低,组件的更换常常导致系统故障或者硬件的升级,这些组件通常是由制造商专门开发用于此系统,不能轻易的利用市场上通用部件。(2)成本较高:盘阵造价昂贵,导致系统建设成本居高不下;(3)扩展性较差:传统盘阵单点扩展存在容量上限和接口带宽等限制,面对PB级的海量存储需求,传统的SAN或NAS在容量和性能的扩展上无法满足。在此背景下,成本低廉、提供高可扩展性的云存储技术日益得到关注,本文将详细介绍存储的新技术——云存储的特征定义、相关技术发展现状及国际标准情况,并针对各类云存储技术,分析其对于电信运营商的适合应用场景及应用建议。1.3云存储系统的特征云存储系统应具有以下通用特征:(1)高可扩展性:云存储系统可支持海量数据处理,资源可以实现按需扩展;(2)低成本:云存储系统应具备高性价比的特点,低成本体现在两方面,更低的建设成本和更低的运维成本;(3)无接入限制:相比传统存储,云存储强调对用户存储的灵活支持,服务域内存储资源可以随处接入,随时访问。(4)易管理:少量管理员可以处理上千节点和PB级存储,更高效的支撑大量上层应用对存储资源的快速部署需求。就较低的整体存储成本而言,使用云存储技术的好处对非结构化数据来说是令人无法拒绝的。云存储技术是以服务为基础,无需购买、管理和维护存储硬件设备,依靠这项服务,即使不能消除,也能大大减少数据中心和存储管理人员方面的成本。云存储克服了昂贵的技术更新,这通常是在最初购买后的三至五年里开始的,要么需要具有最先进的技术,要么只需说服购买昂贵的旧阵列支持合同。云存储技术通过消除传统数据存储预期的增长容量和负载而配置的大量存储空间,以达到数据空间接近100%的利用率。除了节省整体成本外,云存储的可扩展性、透明的支持基础能力和高峰负荷都是其最吸引人的特征。1.4云存储的分类在存储资源获取接口上,云存储和传统存储在功能上并无差异,二者的区别体现在云存储可以按需提供易管理、高可扩展、高性价比的存储资源。根据存储的数据类型不同和应用需求不同,云存储系统可分为以下3种类型:公共云存储公共云存储服务是云存储可选项之一,其服务供应商的数量增长迅速,包括美国电话电报公司、亚马逊、铁山、微软、Nirvani、Rackspace托管服务提供商等众多公司。他们的存储基础设施通常包括直接附加驱动的低成本存储节点和负责管理跨节点内容分布的基于对象的存储体。公共云数据通常是通过互联网协议被访问,大多以表述性状态转移(REST),很少是通过简单对象访问协议(SOAP)。弹性和冗余性是通过一个对象在至少两个节点上存储来实现的。目前是按照每个月每10亿字节收取1美元的基础上,根据不同的服务提供商,可能有额外的数据传输量费用和入网费。公共云存储是专为大规模多租户而设计,能为每个客户提供数据隔离、访问与安全性的服务。公共云存储的内容类型其范围包括,从静态非核心应用数据、需要可用的归档内容到数据备份以及灾难性恢复数据。公共云存储不太适合一直存在变化的活动性内容。企业目前主要关注的是使用公共云存储时其安全性以及在某种程度上的性能。内部云存储内部或私有云存储在数据中心的专用基础设施上运行,因此,能完全满足安全性和性能这两个主要关注点,并在其他方面提供了与公共云存储一样的好处。虽然较大规模的企业可能会使用多租户装置来隔离部门之间或办公多地的访问,但内部存储云通常是针对单一租户。不像公共云存储,内部云存储的可扩展性条件更普通一些,因此它的产品更有可能在后台设有传统的存储硬件设备。举一个例子,惠普(HP)公司的CloudStart是把惠普刀片系统矩阵(BladeSystemMatrix),一种惠普StorageWorks企业虚拟阵列(EVA)家庭阵列和云服务自动化(CSA)软件结合成内部云存储基础设施。惠普CloudStart本身不是一个私有云存储产品,因为它缺乏服务为基础的关键要素。相反,它是有利的基础设施,被用于惠普、惠普合作伙伴乃至那些用它作为一个全面管理、即用即付云存储产品的企业。日立数据系统私有文件分层云存储服务就是私有云存储产品的一个例子。利用日立内容平台(HCP),它驻留在客户的数据中心,但由日立公司拥有和管理。除了最初的安装费,客户随用随付。同样,依靠这种技术,Nirvanix公司的hNode在数据中心内提供了一个全面管理、即用即付的内部云产品,这种技术为Nirvanix的存储分发网络(SDN)提供了动力。混合云存储拥有混合云存储环境的用户可以管理内外部资源。因为混合云方案通常提供一个现场设备,他们还可提供本地高速缓存和内存,重复数据删除以及为IT设备数据加密。然而,混合云解决方案必须满足某些关键的要求来使混合云存储进行工作。他们必须表现得和同类存储一样几乎透明,并有适当维持活动的功能和现场使用频繁的数据,而且同时能将非活动数据移动到云。这些云的类型依靠企业的实际情况来决定具体的数据何时被移动到云或何时从云中退出。1.5公共云、私有云与混合云的对比:下面的图表对云存储的一个简要对比。1.6云存储架构分为两类:一种是通过服务来架构;另一种是通过软件或硬件设备来架构。传统的系统利用紧耦合对称架构,这种架构的设计旨在解决HPC(高性能计算、超级运算)问题,现在其正在向外扩展成为云存储从而满足快速呈现的市场需求。下一代架构已经采用了松弛耦合非对称架构,集中元数据和控制操作,这种架构并不非常适合高性能HPC,但是这种设计旨在解决云部署的大容量存储需求。各种架构的摘要信息如下:紧耦合对称(TCS)架构构建TCS系统是为了解决单一文件性能所面临的挑战,这种挑战限制了传统NAS系统的发展。HPC系统所具有的优势迅速压倒了存储,因为它们需要的单一文件I/O操作要比单一设备的I/O操作多得多。业内对此的回应是创建利用TCS架构的产品,很多节点同时伴随着分布式锁管理(锁定文件不同部分的写操作)和缓存一致性功能。这种解决方案对于单文件吞吐量问题很有效,几个不同行业的很多HPC客户已经采用了这种解决方案。这种解决方案很先进,需要一定程度的技术经验才能安装和使用。松弛耦合非对称(LCA)架构LCA系统采用不同的方法来向外扩展。它不是通过执行某个策略来使每个节点知道每个行动所执行的操作,而是利用一个数据路径之外的中央元数据控制服务器。集中控制提供了很多好处,允许进行新层次的扩展:●存储节点可以将重点放在提供读写服务的要求上,而不需要来自网络节点的确认信息。●节点可以利用不同的商品硬件CPU和存储配置,而且仍然在云存储中发挥作用。●用户可以通过利用硬件性能或虚拟化实例来调整云存储。●消除节点之间共享的大量状态开销也可以消除用户计算机互联的需要,如光纤通道或infiniband,从而进一步降低成本。●异构硬件的混合和匹配使用户能够在需要的时候在当前经济规模的基础上扩大存储,同时还能提供永久的数据可用性。●拥有集中元数据意味着,存储节点可以旋转地进行深层次应用程序归档,而且在控制节点上,元数据经常都是可用的。2云存储技术现状和应用场景分析2.1提供块存储的云存储系统传统FCSAN系统就是典型的块存储系统。由于采用直接读写磁盘空间来访问数据,相对于其它数据读取方式,块存储的读取效率最高,一些大型数据库应用只能运行在块存储设备上。一些厂家在SAN存储系统的基础上进行“云化”,在保证读取效率和设备可靠性的情况下,增加设备的扩展能力。这种云化方案主要包括两类技术,一种为存储虚拟化,另一种为新存储架构。2.2存储虚拟化根据虚拟化实现层面的不同,存储虚拟化又分为基于主机的虚拟化、基于存储网络的虚拟化和基于存储设备的虚拟化3类。各类存储虚拟化技术的实现方式、技术优缺点及使用场景分析如表l所示。基于传统FCSAN存储、通过第三方虚拟化设备实现存储的弹性扩展的存储虚拟化技术也可以算作云存储系统。但由于虚拟化硬件或软件的性能瓶颈问题、传统磁盘阵列本身有限的扩展能力以及异构设备故障定位困难等问题,存储虚拟化技术应用具有一定局限性,对于遗留FCSAN存储系统,建议选择适合的存储虚拟化技术进行资源整合和分级存储,以实现存储资源的有效利用。表1各类存储虚拟化技术对比及适用场景分析表

2.3新存储架构目前一些传统存储设备厂商也推出了全新架构的云存储系统,如通过改变前端交换矩阵结构、通过分布式算法管理的网格存储等在设计上实现块存储系统的scaleOut。此类代表的产品有EMCV—MAX和IBMXIV。V—MAX其后端架构体系和现有盘阵相同,可在新建系统中考虑使用,并可与原有传统盘阵进行虚拟化整合。但其拥有成本仍然较高,XIV属于全新架构的阵列设备,无法与传统FCSAN设备以虚拟化方式进行整合,引入必然带来新的存储竖井,在已有系统扩容中不建议考虑,但由于其采用标准硬件单元,成本降低。也可在新建生产系统时谨慎采用。由于设备的厂商私有性,各厂商新架构的云存储系统之间难以兼容。2.4提供文件存储的云存储系统文件存储系统可提供通用的文件访问接口,如POSIX、NFS、CIFS、FTP等,实现文件与目录操作、文件访问、文件访问控制等功能。文件系统云存储系统适合处理海量非结构化数据,目前提供文件存储的云存储系统包括两类:(1)软硬件一体解决方案:基于X86硬件,但利用专有的、定制设计的硬件组件,与厂家分布式文件系统集成在一起,以实现目标设计的性能和可靠性目标。(2)软硬件分离解决方案:基于开源分布式文件系统对外提供弹性存储资源,软硬件分离方式。可采用标准PC服务器硬件。2.5软硬件一体机软硬件一体机又可进一步分为并行文件系统和NAS虚拟化系统,前者代表产品为EMCIsilonONEFS和IBMSONASGPFS,后者代表产品为HPX9000(IBRIXFusionFS)。NAS虚拟化本质为NAS机头+集中存储的解决方案,存在管理节点的瓶颈,同时以文件为粒度的分布式决定了其有限的文件读写性能,不是完全意义上的分布式文件系统,前两者为分布式并行文件系统,且无管理节点瓶颈,但均采用集中共享存储,文件系统成熟度较好,但软硬一体的结构带来成本问题和未来扩容的局限性问题。2.6软硬件分离的分布式文件系统分布式文件系统虽然已经提出很多年,但由于以开源产品或自用技术为主,既无统一标准又缺少成熟商用产品,因此真正的商用应用较少。代表性的为Google的GFS和开源的HDFS,另外Facebook、淘宝、腾讯等均开发了自己的分布式文件系统,用于管理其Blog、相册等数据信息。近年来一些国内厂商也推出了商用的软硬件分离的分布式文件系统。HDFS可以认为是GFS的一个简化版实现,采用单一主控机(Master)+多台工作机的模式,由一台主控机存储系统全部元数据,并实现数据的分布、复制、备份决策,工作机存储数据并根据主控机的指令进行数据存储、数据迁移和数据计算等。HDFS通过数据分块和复制(多副本,一般是3)来提供更高的可靠性和更高的性能。同时,针对数据读多于写的特点,读服务被分配到多个副本所在机器,提供了系统的整体性能。HDFS提供了一个树结构的文件系统,实现了类似与Linux下的文件复制、改名、移动、创建、删除操作以及简单的权限管理等。但HDFS为避免多客户端对同一文件的追加,简化了设计,不支持对文件的Append追加操作,这也使得HDFS不能提供标准的POSIX接口,不能成为一个完整意义上“文件系统”。软硬件分离分布式文件系统解决方案与厂商私有分布式文件系统一样,可通过分布式架构有效提高文件并发读写性能,且能够构建在标准的x86服务器集群之上.比软硬件一体设备具有更好的扩展性并可有效降低建设成本,但开源软件本身的成熟度有待验证。图1HDFS技术架构示意图2.7提供对象存储的云存储系统对象存储是为海量数据提供Key—Value这种通过键值查找数据文件的存储模式,它引人对象元数据来描述对象特征,对象元数据具有丰富的语义,引人容器概念作为存储对象的集合。对象存储系统服务层对应用系统提供基于http/https协议的对象存储WebService服务或直接提供API接口,底层基于分布式存储系统来实现数据的存取,具体存储方式对外部应用透明。这样的存储系统架构具有高可扩展性,支持数据的并发读写,一般不支持数据的随机写操作。2.7.1AmazoNS3AmazonS3(AmazonSimpleStorageService)是亚马逊公司利用他们的亚马逊网络服务系统所提供的网络线上储存服务。经由Web服务界面,提供给用户包括REST,SQAP与BitTorrent接口,使用户能够轻易把档案储存到网络服务器上。S3基本概念:(1)桶(bucket):类比于文件系统的目录,存储对象的容器,不能嵌套,名称全局唯一;(2)对象(object):类比文件系统的文件,包含对象数据和对象元数据。对象元数据用来描述对象特征,具有丰富的语义,并带有版本概念。上传的对象在其存储周期内不能改变。(3)键值(Keys):类比文件名,key的样式是URL。同名文件的写人,并不覆盖已有文件而是增加了一个最新的文件版本(图2左)。同样下面的删除也不真正删除,而是mark了删除标记(图2右)。当最新版本mark为deleted之后,对该对象的get操作返回错误,除非明确指定一个历史版本。也可以指定版本永久删除其中一个拷贝。2.7.2中国移动BC-ONEST中国移动大云也提供了对象存储模块BC-ONest,基本概念与S3类似,相关接口如下:NativeAPI接口:提供C++,JavaAPI接口,实现本地高并发数据操作。Internet接口:基于http/https的REST/SOAP访问接口,用户可以通过互联网随时随地的上传、访问系统中的对象数据;系统为用户的接人和数据的传输提供安全可靠的通道。CloudNA5接口:本系统支持以NASServer的形式对外提供基于文件系统访问接口的存储服务。客户端应用可以通过“挂载(mount)”,将远程的对象存储空间映射为本地的文件系统。小结:对象存储技术相对成熟,国内外也有很多成功案例,对于运营商来说,对象存储对底层硬件要求不高,存储系统可靠性和容错通过软件实现,同时其访问接口简单,适合处理海量、小数据的非结构化数据,如在线的公共云存储服务、数据备份服务等;移动互联网类应用,如邮箱、网盘、相册、音频视频存储等。图2存储操作示意图2.8提供表存储的云存储系统表结构存储是一种结构化数据存储,如传统数据库相比,它提供的表空间访问功能受限,但更强调系统的可扩展性。提供表存储的云存储系统的特征就是同时提供高并发的数据访问性能和可伸缩的存储和计算架构。结构云存储与传统数据库比较表提供表存储的云存储系统有两类接口访问方式。一类是标准的xDBC,SQL数据库接口,一类是MapReduce的数据仓库应用处理接口。前者目前以开源技术为主,尚未有成熟的商业软件,后者己有商业软件和成功的商业应用案例。2.8.1分布式数据仓库分布式数据仓库一般采用MPP(MassiveParallelProcessing)架构实现海量数据存储和处理、以及高并发数据读写能力,它实现了SQL到MapReduce的翻译,优化.执行和结果收集,具有良好的扩展能力。分布式数据仓库能基于各种开放式硬件平台,同时支持SQL和MapReduce接口。分布式数据仓库的代表系统:商业软件GreenPlum,中国移动HuqeTable、开源Hive等。2.8.2分布式数据库分布式数据库同样基于低成本的PC服务器,提供了高度可伸缩的存储和计算架构。数据存储、可靠性依赖于表存储底层采用的文件存储;高性能的数据读写能力也需要利用底层并行文件系统的并行数据读写能力。分布式数据库的代表系统:GoogleBigTable。BigTable承载了Google搜索引擎、邮件、地图、Analytics等应用的结构化数据,容量达到十PB规模,它提供了简单的数据模型,支持快速数据定位、扫描,但是不支持RDBMS的关系运算如报表、多表查询、复杂关系运算。BigTable可提供高性能数据读写,利用内存写十日志保证数据写性能,利用数据分区+三层索引提高读性能,尤其是数据扫描的性能。小结:分布式数据仓库领域里。商用Greenplum和开源的Hive有了大量的成功案例,己经成为BI领域发展趋势.适用于海量数据ETL处理、数据挖掘应用、以及网管信令分析应用、海量日志处理等。分布式数据库目前以开源为主,尚未有成熟的商业软件,其与并行计算模式配合可实现高性能可伸缩的批处理,可用于话单结算等场景,并提供了简单的数据模型以支持快速数据定位、扫描,但目前不适用于业务逻辑复杂的OLTP应用,如CRM和ERP等。图4

BigTable的逻辑模型与物理设计示意图模型以支持快速数据定位、扫描,但目前不适用于业务逻辑复杂的OLTP应用,如CRM和ERP等。2.9相关国际标准简介SNIA(Storage

Networking

IndustryAssociation)于2010年4月12日推出首个云存储标准—CDMI(CloudDataManagementInterface)标准,主要面向存储即服务(DaaS),属于对象存储的范畴,厂家产品可以以CDMI标准为基础提供按需虚拟存储或相关数据服务。由于篇幅有限,本文不再详细叙述CDMI标准。以上详细阐述了不同数据类型的云存储技术,并一一分析了其应用场景。对于企业私有云应用,面对各类生产系统的存储需求,要求云存储系统按需提供不同空间容量、不同性能的存储资源,应积极采用存储虚拟化技术整合现有FCSAN资源,挖掘设备潜力,建立分级存储机制,使数据合理分布,在海量非结构化数据处理、日志详单处理、经营分析领域等积极实验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论