云计算中的数据管理关键技术及其应用_第1页
云计算中的数据管理关键技术及其应用_第2页
云计算中的数据管理关键技术及其应用_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、云计算中的数据管理关键技术及其应用摘要:本文提出了一种基于云计算技术进行管理和存储海量数据模型,构建了海量数据存储云计算平台解决方案。针对Hadoop 的文件系统 HDFS(Hadoop Distributed File System)和计算模型 MapReduce 进行深入分析和研究的基础上,建立基于 Hadoop 平台的云存储平台。关键词:海量数据存储 ;Hadoop ;云计算随着信息化的普及、互联网和存储技术的发展以及传感器、RFID等各种先进信息采集技术的成熟,收集和存储以指数级规模增长的数据资源成为可能,这些数据的存储与管理将会面临巨大的问题。云计算是在超大规模分布式系统,他对外提供

2、数据存储与节点计算能力,基于云计算环境下的数据管理、数据存储、分布式计算都是其核心部分。1平台总体设计1.1平台总体框架结构结合海量数据各种特点,结合系统运维的角度考虑,系统设计拟采用多层结构设计,易于扩展维护。数据分为元数据和数据,元数据和数据即可在独立的HTTP请求中传输,也可在同一个HTTP请求中传输。传输协议采用HTTP或者HTTPS。在完成整体设计中需要考虑云存储的数据模型,安全访问控制以及备份策略,系统结构如图1所示:图1平台结构图表示层:提供用户操作页面,不同用户可根据自己的权限做各种不同的操作,例如一般用户可以进行页面浏览与数据查询,管理员系统维护等操作可【2】。业务层:并行处

3、理海量数据。数据层:存储数据。1.2平台总体功能设计从系统功能角度考虑,可以将整个系统分三层。图 2系统分层结构设计数据库访问层:使用访问引擎作为数据访问层,只是单纯的对数据进行增,删,改,查询和判断存在等等较通用的数据访问方法,不应该有“事务”存在。数据处理层:数据处理层是在数据访问层和表示层之间进行数据交换的桥梁,按业务需求调用数据访问层中的方法组合,集合了各种业务规则到一个BLL中,BLL都是以类库的形式来实现的。业务表示层:表示层是为客户提供用于交互的应用服务图形界面,帮助用户理解和高效地定位应用服务,呈现业务逻辑层中传递的数据,用图形界面来实现。1.3平台网络拓扑结构为了避免海量数据

4、重复存储并降低系统规模,以及针对数据源相对稳定、数据质量较高、用户创新需求演化缓慢等外界客观条件,研究海量源数据与管理系统相分离的体系架构,实现海量基础数据的分布式存储和核心数据的集约化管理并优化各类系统操作的能耗。分布存储 针对系统中维护的三类数据及其处理方式,包括原始非结构化基础数据的抽取融合分析、结构化核心数据的关联查询、用户个性化模式元数据的规范化及归约化处理,研究有针对性的分布式存储机制,包括集群节点间的数据布局、节点内部的数据布局,优化磁盘I/O和网络传输;分布式管理方式,包括分布式离线分析、实时查询处理的调度方式以及规则,优化处理的容错性、可靠性;分布式索引策略,包括基础数据的分

5、类索引、核心数据的范围索引等,优化数据的检索时间。2云计算海量数据存储平台开发2.1 Hadoop分布式文件系统HDFS采用master/slave架构。一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作,同时决定block到具体Datanode节点的映射。Datan

6、ode在Namenode的指挥下进行block的创建、删除和复制。体系结构如图4所示:图3HDFS文件系统结构HDFS支持传统的层次型文件组织,与大多数其他文件系统类似,用户可以创建目录,并在其间创建、删除、移动和重命名文件。HDFS不支持user quotas和访问权限,也不支持链接(link),不过当前的架构并不排除实现这些特性。Namenode维护文件系统的namespace,任何对文件系统namespace和文件属性的修改都将被Namenode记录下来。应用可以设置HDFS保存的文件的副本数目,文件副本的数目称为文件的 replication因子,这个信息也是由Namenode保存。2

7、.2 MapReduce编程Map/Reduce 是 Hadoop的核心计算模型,它将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数,Map 和 Reduce, 这是一个令人惊讶的简单却又威力巨大的模型。其它的并行编程中的种种复杂问题,如分布式存储,工作调度,负载平衡,容错处理,网络通信等,均由 MapReduce 框架负责处理。基于 MapReduce 计算模型编写分布式并行程序非常简单,程序员的主要编码工作就是实现 Map 和 Reduce函数。程序框架:Class MRClass Map Class Reduce main()JobConf conf = new JobCo

8、nf(“MR.class”);conf.setInputPath(“the_path_of_HDFS ”);conf.setMapperClass(Map.class);conf.setReduceClass(Reduce.class);JobClient.runJob(conf);3海量存储平台特性面向非结构化云计算中数据的分布式集约化管理架构,研究源数据与管理系统相分离的体系架构,实现海量基础数据的分布式存储和核心数据的集约化管理,从而达到结构化和非结构化数据的统一管理;云计算中数据个性化管理理论与方法,提出数据空间模式规范化理论和需求规约化方法、动态双向一致性维护策略,实现数据全局共享和

9、个性化管理的数据分享机制;基于对象代理模型的元数据高效存储技术,建立面向云计算环境下海量数据的分布式索引机制,提高元数据的分析处理能力;4结束语综上所述,面向云计算的海量数据管理系统有着广泛的应用,由于现有的数据管理技术不能应对云计算环境下面临的挑战,这一问题亟待开展深入、系统的研究。本文旨在研究适合于云计算环境下的海量数据存储系统的相关关键技术,通过提出高效的数据管理策略和算法来突破云计算管理所面临的瓶颈,通过提出统一、开放的数据管理模型来支持面向云计算的应用系统的开发在科学、经济、医疗、环境和安全等国家战略领域的应用。参考文献:【1】 B. Hayes. Cloud Computing.

10、Communications of the ACM, 2008, 51(7):9-11.【2】 Hadoop. URL:/【3】 陈康,郑纬民云计算:系统实现与研究现状软件学报,2009.20(5):1337-1348【4】 M. Armbrust M, A. Fox, R. Griffith, et al. Above the Clouds: A Berkely View of Cloud Computing. Berkely, CA, USA: University of California, 2009.【5】 Parbhakar Chaganti. Cloud computing with Amazon Web Services. Part 5:Dataset processing in the cloud withSimpleDB,2009. Dean J,Ghemawat S. MapReduce: Simplifier Date Processing o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论