版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
报告人:韩昭核探测器与核电子学国家重点实验室(科大部)2013年5月3日1石油地震勘探及其大数据快速存储技术研究介绍
2石油地震勘探简介石油地震勘探是指利用仪器检测、记录人工激发地震的反射波、折射波的传播时间、振幅、波形等,对地层界面、岩土性质、地质构造进行成像分析。人造地震是现在最重要的一种油气勘探方法。3石油地震勘探简介地震石油勘探的特点与发展趋势:1、在地震数据处理中,利用检波器采集的数据对地质结构成像分析。地震数据有很大的噪声,检波器排布越密集,可以得到越准确的地质结构。2、为了勘探更深处的油气,探测设备覆盖的范围越来越广。3、因为上述原因,现在地震勘探使用的地震仪器,达到了万道量级,有些勘探公司已经做到了十万道,并且提出了百万道的目标。4石油地震勘探中要解决的问题对如此大规模的地震勘探设备,在前端的数据采集传输,后端的数据存取都要面临很多问题1、数据采集传输中的问题(1)大量节点的管理(2)数据可靠传输(3)供电(4)低功耗(5)节点同步5石油地震勘探中要解决的问题2、数据存取处理中的问题(1)近年来处理器的能力随着半导体工艺的发展进步很快,比如,主流PC的CPU主频已经达到3GHz以上,服务器CPU大都达到十核以上。然而提供数据存储的仍然是传统的磁介质硬盘,它的性能却提高很有限。很多文献资料表明IO速度已经成为制约数据处理过程的一个瓶颈。(2)地震数据采集中,原始数据是记录在磁带中的,进行数据处理时,会将磁带中的数据按一定的格式存储在硬盘中。现阶段由于检波器数目的增大地球物理勘探所产生的数据量越来越大,大都达到了TB甚至PB的量级,这对于后端的大数据处理产生了巨大的压力。在一些地震数据处理的过程中数据分发所用的时间已经和数据处理所花费的时间基本相当。(3)地震数据处理的过程中,需要对各种不同的数据组合进行读取分析,大部分情况下,这些数据都离散的分散在文件中,并不是连续的,这些离散的数据会导致数据获取的速度大大降低。(4)本人主要工作是解决这一部分的问题。6离散数据存取速度慢的原因事实上,硬盘读出数据的速度并不慢,但受到机械运动因素的影响,寻道时间非常慢。对于8KB数据,数据读取时间约为0.05ms平均寻道时间约为9ms平均寻道时间>>数据读取时间对于机械式硬盘,最影响速度的是随机访问。然而地震的数据需要不同的组合,绝大部分是随机的小数据访问模式。解决办法,多硬盘有效并行工作7磁盘阵列磁盘阵列(RedundantArraysofInexpensiveDisksRAID),利用数组方式来作磁盘组,在一定程度上实现了数据的分布存储,可以达到并行,增加IO的作用。8传统的地震数据存取方式以POSIX为代表的基于文件系统的存储是现在大多数实验中大数据的存储模式。地震数据按照一定格式存储在文件中,典型的访问函数为open文件,seek到特定的位置,read一定长度的内容。POSIX标准是以一种流(stream)的串行的方式来访问数据存储区的。9磁盘阵列存在的问题磁盘阵列并没有抛弃传统的串行的文件系统存储方式,每个硬盘并不知道自己的数据,这些需要上层的串行命令,并靠RAID控制器分发实现。而这一过程是串行的,在硬盘数量不断增加的情况下,会成为阻碍性能的瓶颈。其次,RAID是一种通用的存储设备,并不理解数据的含义,只是固定长度的切割,这也会造成性能的下降。因为磁盘阵列并没有实现硬盘与硬盘之间的完全独立,因此很难实现太大规模的并行。10Google提出的key-value存储模式完全抛弃了POSIX的访问模式,把每一个数据(value)打上一个key标签,然后作分布式的存储。需要访问数据的时候以key为关键字进行检索,可以同时有很多的客户端同时响应,从而实现并发访问。11Key-value面临的最大问题因为与传统的以文件系统为基础的数据存储方式差异太大,提出的主要应用对象是针对数据库的应用。很多已经成熟的软件应用无法直接使用key-value模式,即使重新移植风险也太大。这是因为key-value模式与传统的数据存储方式,底层操作差别太大,需要对原本成熟的应用程序进行大量修改。12我们提出的iSmartDisk方案基于key-value的思想,提出了iSmartDisk的分布式存储模式,把实验数据分布的存储在用internet连接起来的具有CPU控制的硬盘上,访问时,利用Key-value的方式,向各个节点分发需要的数据的标签。所有节点并行的查找,提供自己的数据。在提供快速IO并发访问的同时,对现有的大型应用程序保持兼容。13iSmartDisk初步测试结果系统测试结果,IO性能同节点数呈线性增长关系。在同传统的建立在RAID的基础上的文件系统的IO速度相比,在同样的硬盘数目下,IO速度提高了8倍!现有RAID速度测试平台:地空学院曙光服务器存储设备:服务器26个计算节点上的硬盘测试方法:将数据文件按照相应的算法分布存储在计算节点的硬盘上,然后根据需要读取数据14iSmartDisk的特点iSmartDisk提出了把key-value分布式数据库的存储思想用于大型实验数据的新存储概念。实现了每个硬盘的完全独立,所有的节点都是并行处理,正因如此,可以支持大量的并行。在key-value的基础上还提出了通过算法实现无元数据(meta-data)的存储模式,进一步加快随机IO速度。利用虚拟文件的技术,在利用iSmartDisk的快速IO能力的同时保持了应用程序级的兼容。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甲下外生骨疣的临床护理
- 株紫丁香课件赵秀梅
- 孕期手脚心发红的健康宣教
- 《改革进入新时期》课件
- 股份增值合同三篇
- 铁路机车车辆修造合同三篇
- 健身运动APP相关行业投资规划报告范本
- ALN-BN复合陶瓷相关行业投资规划报告
- 保障性住房管理服务相关行业投资规划报告
- 班级环境布置与创意设计计划
- 第1课 多姿与多彩(生活色彩)课件-2023-2024学年高中美术人教版(2019)选择性必修1《绘画》
- 城管协管员笔试考题试题(含答案)大全五篇
- 汽车制造中的库存管理与优化
- TNAHIEM 101-2023 急诊科建设与设备配置标准
- 古代文化的人文精神与美学
- 隶书详解教学课件
- 项目延期原因分析与应对措施总结
- 货物生产、采购、运输方案(技术方案)
- 结构化设计情境化教学-统编小学语文“习作单元”的教材解读及教学建议 论文
- 路虎发现4说明书
- 肾破裂保守治疗护理查房
评论
0/150
提交评论