大数据存储挑战_第1页
大数据存储挑战_第2页
大数据存储挑战_第3页
大数据存储挑战_第4页
大数据存储挑战_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据存储主讲教师:龙霄汉《大数据导论》课程Introductiontobigdata大数据存储大数据存储011大数据存储大数据存储大数据已成为目前学术界和工业界共同关注的热点问题,同时,闪存、相变存储器等新型存储技术也正在极大地影响着计算机系统的软硬件设计与应用。大数据管理面临着诸多的挑战,例如能耗、性能等,而新型存储介质则在I/O延迟、能耗等方面优于传统磁盘存储介质。图片来自互联网大数据存储目前一般认为大数据具有4V特征,即Volume、Velocity、Variety、Veracity,其中Volume特征是指大数据的规模巨大,通常是PB甚至ZB级别。在2011,就产生了1.8ZB(也就是1.8万亿GB)的大数据。图片来自互联网大数据存储大数据的4V特征对现有的数据管理技术提出了许多新的挑战。从存储的角度看,大数据管理面临的主要问题可归纳为如下几个方面:大数据存储架构的挑战大数据管理算法的挑战大数据管理的能耗挑战图片来自互联网大数据存储大数据存储架构的挑战:磁盘读写性能差,与主存的速度差距正在逐渐增大,使得传统的主存-磁盘存储架构越来越无法适应大数据管理的要求。图片来自互联网大数据存储大数据管理算法的挑战:随着新型存储介质越来越多地被运用于大规模分布式存储中,大规模分布式数据库中传统的持久化策略、索引结构、查询执行、查询优化、恢复策略等均是基于磁盘存储设计的,新型存储介质具有完全不同于磁盘的物理特性,因此无法发挥新型存储的优势。图片来自互联网大数据存储大数据管理的能耗挑战:能耗在现有大型数据管理系统(通常是数据中心)中的费用比例逐年升高(目前大约占总能耗的16%左右),给企业带来了沉重的经济负担图片来自互联网大数据存储大数据存储通常采用分布式存储策略,但传统的分布式存储策略通常采用基于副本的方式。例如,MongoDB设计了复制集指定每个文档的副本保存位置,HBase基于HDFS进行副本管理并采用机架感知的方式进行副本分布。但是,已有的这些分布式存储策略没有考虑不同存储介质的性能、成本以及物理特性上的差异。引入了多样化的新型存储介质后,需要设计新的数据分配算法,使数据分布在合适的新型存储介质上,从而加快数据的访问性能。图片来自互联网总结随着新型存储的快速发展和大数据时代的来临,面向新型存储的大数据管理将成为未来新的研究热点。利用新型存储的独特优势来解决大数据管理中的关键

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论