![海量数据存储论文._第1页](http://file2.renrendoc.com/fileroot_temp3/2021-5/19/1d1aca3e-2043-4cf8-bc20-71b197460cd3/1d1aca3e-2043-4cf8-bc20-71b197460cd31.gif)
![海量数据存储论文._第2页](http://file2.renrendoc.com/fileroot_temp3/2021-5/19/1d1aca3e-2043-4cf8-bc20-71b197460cd3/1d1aca3e-2043-4cf8-bc20-71b197460cd32.gif)
![海量数据存储论文._第3页](http://file2.renrendoc.com/fileroot_temp3/2021-5/19/1d1aca3e-2043-4cf8-bc20-71b197460cd3/1d1aca3e-2043-4cf8-bc20-71b197460cd33.gif)
![海量数据存储论文._第4页](http://file2.renrendoc.com/fileroot_temp3/2021-5/19/1d1aca3e-2043-4cf8-bc20-71b197460cd3/1d1aca3e-2043-4cf8-bc20-71b197460cd34.gif)
![海量数据存储论文._第5页](http://file2.renrendoc.com/fileroot_temp3/2021-5/19/1d1aca3e-2043-4cf8-bc20-71b197460cd3/1d1aca3e-2043-4cf8-bc20-71b197460cd35.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、已成为继计算机浪潮和互联网浪潮之后的第三次浪潮,磁盘阵列与网络存储成为先海量数据存储 (计算机学科前沿讲座论文 昆明理工大学信息院 计算机应用技术 2010/11随着信息社会的发展,越来越多的信息被数据化,尤其是伴随着In ternet的发 展,数据呈爆炸式增长。从存储服务的发展趋势来看,一方面,是对数据的存储量的需求 越来越大,另一方面,是对数据的有效管理提出了更高的要求。首先是存储容量的急 剧膨胀,从而对于存储服务器提出了更大的需求;其次是数据持续时间的增加。最后, 对数据存储的管理提出了更高的要求。数据的多样化、地理上的分散性、对重要数 据的 保护等等都对数据管理提出了更高的要求。随着数
2、字图书馆、电子商务、多媒体传输等 用的不断发展,数据从GB、TB到PB量级海量急速增长。存储产品已不 再是附属于服 务器的辅助设备,而成为互联网中最主要的花费所在。海量存储技术锋。、海量数据存储简介海量存储的含义在于,其在数据存储中的容量增长是没有止境的。因此,用户需 要不断地扩张存储空间。但是,存储容量的增长往往同存储性能并不成正比。这也就造 成了数据存储上的误区和障碍。海量存储技术的概念已经不仅仅是单台的存储设备。而多个存储设备的连接使 得数据管理成为一大难题。因此,统一平台的数据管理产品近年来受到了广大用户 的欢 迎。这一类型产品能够整合不同平台的存储设备在一个单一的控制界面上,结合虚拟
3、化软件对存储资源进行管理。这样的产品无疑简化了用户的管理。数据容量的增长是无限的,如果只是一味的添加存储设备,那么无疑会大幅增加 存储成本。因此,海量存储对于数据的精简也提出了要求。同时,不同应用对于存储 容量的需求也有所不同,而应用所要求的存储空间往往并不能得到充分利用,这也造 成了浪费。针对以上的问题,重复数据删除和自动精简配置两项技术在近年来受到了广泛的关注和追捧。重复数据删除通过文件块级的比对 ,将重复的数据块删除而只留下 单一实例。这一做法使得冗余的存储空间得到释放,从客观上增加了存储容量。、企业在处理海量数据存储中存在的问题目前企业存储面临几个问题,一是存储数据的成本在不断地增加,
4、如何削减开支 节约成本以保证高可用性;二是数据存储容量爆炸性增长且难以预估;三是越来越复 杂的环境使得存储的数据无法管理。企业信息架构如何适应现状去提供一个较为理想 的解决方案,目前业界有几个发展方向。1 存储虚拟化对于存储面临的难题,业界采用的解决手段之一就是存储虚拟化。虚拟存储的概 念实际上在早期的计算机虚拟存储器中就已经很好地得以体现,常说的网络存储虚拟 化只不过是在更大规模范围内体现存储虚拟化的思想。该技术通过聚合多个存储设备的空间 ,灵活部署存储空间 的分配,从而实现现有存储空间高利用率,避免了不必要的设备开支。存储虚拟化的好处显而易见,可实现存储系统的整合,提高存储空间的利用率,
5、简化系统的管理,保护原有投资等。越来越多的厂商正积极投身于存储虚拟化领域, 比 如数据复制、自动精简配置等技术也用到了虚拟化技术。虚拟化并不是一个单独的产 品,而是存储系统的一项基本功能。它对于整合异构存储环境、降低系统整体拥 有成 本是十分有效的。在存储系统的各个层面和不同应用领域都广泛使用虚拟化这个概念。考虑整个存 储层次大体分为应用、文件和块设备三个层次,相应的虚拟化技术也大致可以按 这三个 层次分类。目前大部分设备提供商和服务提供商都在自己的产品中包含存储虚拟化技 术,使得用户能够方便地使用。2.容量扩展目前而言,在发展趋势上,存储管理的重点已经从对存储资源的管理转变到对数据 资源的管
6、理。随着存储系统规模的不断扩大,数据如何在存储系统中进行时空分布成为 保证数据的存取性能、安全性和经济性的重要问题。面对信息海量增长对存 储扩容的需 求,目前主流厂商均提出了各自的解决方案。由于存储现状比较复杂,存储技术的发展业界还没有形成统一的认识,因此在应 对存储容量增长的问题上,尚存在很大的提升空间。技术是发展的,数据的世界也是 在不断变化的过程中走向完美。企业信息架构的分”与合”的情况并不绝对。目前、出现了许多的融合技术,如NAS与SAN的融合,统一存储网等等。这些都将对 企业 信息架构产生不同的影响。至于到底采用哪种技术更合适,取决于企业自身对数据的需求。三、海量数据存储技术为了支持
7、大规模数据的存储、传输与处理,针对海量数据存储目前主要开展如下 三个方向的研究:1.虚拟存储技术存储虚拟化的核心工作是物理存储设备到单一逻辑资源池的映射,通过虚拟化 技术,为用户和应用程序提供了虚拟磁盘或虚拟卷,并且用户可以根据需求对它进行 任意分割、合并、重新组合等操作,并分配给特定的主机或应用程序,为用户隐藏或 屏蔽了具体的物理设备的各种物理特性。存储虚拟化可以提高存储利用率,降低成本,简化存储管理,而基于网络的虚拟存储技术已成为一种趋势,它的开放性、扩展 性、管理性等方面的优势将在数据大集中、异地容灾等应用中充分体现出来。2. 高性能I/O集群由于其很高的性价比和良好的可扩展性,近年来在
8、HPC领域得到了广泛的应 用。数据共享是集群系统中的一个基本需求。当前经常使用的是网络文件系统NFS或者CIFSo当一个计算任务在Linux集群上运行时,计算节点首先通过NFS协 议 从存储系统中获取数据,然后进行计算处理,最后将计算结果写入存储系统。在这个过程中,计算任务的开始和结束阶段数据读写的I/O负载非常大,而在计算过程中几乎没有任何负载。当今的Linux集群系统处理能力越来越强,动辄达到几十甚至上百个TFL0PS,于是用于计算处理的时间越来越短。但传统存储技术架构对带宽和I/O能力的提高却非常困难且成本高昂。这造成了当原 始数据量较大时,1/0读写所占的整体时间就相当可观,成为HPC
9、集群系统的性能瓶 颈。I/O效率的改进,已经成为今天大多数Linux并行集群系统提高效率的首要任务。3.网格存储系统高能物理的数据需求除了容量特别大之外,还要求广泛的共享。比如运行于BECPII上的新一代北京谱仪实验BESIII,未来五年内将累积数据5PB,分布在全球20多 个研究单位将对其进行访问和分析。因此,网格存储系统应该能够满足海量存储、全球分布、快速访问、统一命名的需求。主要研究的内容包括 :网格文件名字 服务、存储资源管理、高性能的广域网数据传输、数据复制、透明的网格文件访问协议等。四、海量数据处理时容易出现的问题分析1. 数据量过大,数据中什么情况都可能存在。处理海量数据时,由于
10、软件与硕上 都具有很高的要求,可能会造成系统崩溃和硬件损坏,将导致处理程序终止。2软硕件要求高,系统资源占用率高。对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要 考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内存,就象面 对着千军万马,光有勇气没有一兵一卒是很难取胜的。3.要求很高的处理方法和技巧。这也是本文的写作目的所在,好的处理方法是 位工程师长期工作经验的积累,也是个人的经验的总结。没有通用的处理方法,但有通用的原理和规 则。五、海量数据存储的处理方法1选用优秀的数据库工具2. 编写优良的程序
11、代码3. 对海量数据进行分区操作4. 建立广泛的索引5. 建立缓存机制6. 加大虚拟内存7. 分批处理8. 使用临时表和中间表9. 优化查询SQL语句10. 使用文本格式进行处理11定制强大的清洗规则和出错处理机制12.建立视图或者物化视图13.避免使用32位机子(极端情况14.考虑操作系统问题15.使用数据仓库和多维数据库存储16.使用采样数据,进行数据挖掘17.海量数据关联存储六、海量数据是发展前景海量数据存储技术的发展前展,可以归结为以下几个方面:高容量光存储技术的到来可以说改变了目前的存储格局,为原本暗淡的光存储 带来了一线生机。虽然光存储器的支持者们一直宣传该技术将成为下一代伟大的存储技 术,但是即便在它得到广泛推广之后,其企业客户基础在整个市场上的份额仍然很小。分布式存储与P2P存储:分布式存储概念提出较早,目前再次成为热点。P2P存 储可以看作分布式存储的一种,是是一个用于对等网络的数据存储系统,它的目标是提 供高效率的、鲁棒和负载平衡的 文件存取功能。数据网格:为了满足人们对高性能、大容量分布存储
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度股份代持合同履行与违约责任协议
- 2025年度熟食企业市场调研与分析服务合同
- 2025年国家教育考试智能安检门数据统计分析服务合同
- 2025年度公立幼儿园教育咨询服务合同
- 2025年度物流供应链管理代理服务协议
- 2025年度大型水利工程合同预算编制与执行管理办法
- 2025年度跨境电商进口货物海上运输保险合同范本
- 2025年度设备租赁合同担保细则与风险管理
- 二零二五年度同居解除协议共同财产分割及债务承担合同
- 生态意识培养与班级教育的融合实践
- 干细胞疗法推广方案
- (2024年)电工安全培训(新编)课件
- mil-std-1916抽样标准(中文版)
- 城乡环卫一体化内部管理制度
- 广汇煤炭清洁炼化有限责任公司1000万吨年煤炭分级提质综合利用项目变更环境影响报告书
- 小学数学六年级解方程练习300题及答案
- 大数据在化工行业中的应用与创新
- 光伏十林业可行性报告
- 小学综合实践《我做环保宣传员 保护环境人人有责》
- 钢煤斗内衬不锈钢板施工工法
- 公路工程安全风险辨识与防控手册
评论
0/150
提交评论