分布式大数据的管理_第1页
分布式大数据的管理_第2页
分布式大数据的管理_第3页
分布式大数据的管理_第4页
分布式大数据的管理_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、分布式大数据的管理分布式大数据的管理大数据研究大数据研究2/22主要内容数据管理需求分析1分布式数据管理技术概览以及目前的应用2网格环境下的数据管理系统及其成熟产品3云计算与云存储模式43/22数据快速增长v 数据量增长到底有多快?视频、音频、图片v EMC&IDC报告“数字宇宙十年你是否准备好(2010.5.5)”称2010年数据量相当于750亿部16GB的iPad: 摆满北京国家体育场(鸟巢)15.5次, 伦敦温布利体育场 41次, 台北101大楼23次, LHC隧道151次 全球每人平均拥有11台iPad 福克斯电视台热门电视连续剧24小时连续播放1.25亿年 数据量达到1.2Z

2、B1MB=1024KB 1GB=1024MB1TB=1024GB 1PB=1024TB1EB=1024PB 1ZB=1024EB4/22高能物理数据量v Hepix 2010 14个主要站点在线存储空间达到87PB,而2007年才14PB,增加了5倍倍多v WLCG 在线存储:62PB,近线存储:58PBv 大型实验 LHC: 15PB/year BES: 累积5PB5PB光盘5/22数据管理需求v数据量大 存的下v高速访问 取得到v广域分布 易分享v长期保存 存的妥6/22数据存储技术v在IT界,存储技术一直很火,为什么? 看似简单的需求,实际上要求很高 数据存储技术从软件到硬件都在不断发展

3、,以满足需求v存储连接方式 单机存储(DAS) 网络存储(NAS, SAN)v存储管理软件 本地存储系统 分布式网络存储系统7/22存储连接方式v 直接连接存储 DAS: Direct-Attached Storage 计算与存储集中v 网络存储 FAS: Fabric-Attached Storage 存储与计算分离存储与计算分离(一场革命)(一场革命)存储设备文件系统应用软件存储设备文件系统应用软件存储设备文件系统应用软件网络FC/GbEDASNASSAN8/22存储管理软件v存储设备连接方式的变化,存储管理软件也随之发展v本地文件系统 管理本地的存储系统,为本地的应用服务 在DAS以及S

4、AN服务器上比较常见v分布式网络存储管理系统 将分布在网络上的存储设备统一管理,为多个连接在网络上的应用服务 NAS服务器上的网络文件系统(NFS,CIFS)以及分布式文件系统(AFS, Lustre)等v趋势:数据量爆炸性的增长、计算模式的集群化发展、开放标准的存储设备,导致存储系统朝着集群化、分布式的方向发展9/22典型的高能物理存储环境计算集群计算网络存储网络存储网络磁盘服务器磁带库磁带服务器存储设备连接磁盘阵列存储网络与计算网络分离;存储设备与存储服务器是网络分布的;普遍采用基于磁盘-磁带的分级存储;采用分布式存储管理软件来管理存储空间10/22分布式存储系统典型结构用户态内核态客户端

5、元数据服务器I/O服务器传输流与控制流的分离I/O服务器集群化分布,易于实现性能和容量的双向增长元数据服务器统一管理,提供统一存储空间11/22存储管理的功能组件磁盘磁带数据分发POSIX I/O集群文件系统聚合访问分级存储管理传输流管理认证/授权磁带调度逻辑连接名字空间介质迁移错误处理I/O调度数据迁移带宽预留磁盘池磁带库管理12/22分布式存储管理系统v共享Home目录 AFS, NFSv大型实验数据空间 GPFS, LUSTRE, XROOTD, dCACHE, CASTOR, HPSSv磁带迁移 HPSS, TSM, ENSTORE, CASTOR/STAGER13/22困惑v有这么多

6、的系统可以选择,是否值得高兴呢? 值得高兴是肯定的,因为有系统可以用,但是同样也有不少困惑v困惑一:如何选择? 可扩展性 客户端访问协议 软件是否能够长期维护?v困惑二: 众多的存储系统,在网格环境下如何管理? 网格强调:局部自治,全局统一 因此,对于这点,不再仅仅是困惑,而是一个必须要解决的问题!14/22SRMv 既然大家不能统一使用同一个存储系统,就只能通过标准化来解决v CERN, FNAL, DESY, INFN等单位成立标准工作组,制定了SRM(Storage Resource Manager )接口标准 包括了空间管理、文件管理、数据传输、协议发现等多组函数dCache(FNAL

7、)DPM(IHEP)CASTOR(CERN)SRM通过统一的SRM接口同各种存储系统交互;可以在目标系统预留空间;可以调用相应的协议传输文件LUSTRE(CNAF)15/22WLCG网格存储管理VO 数据管理系统文件传输服务FTS (Tier 0)网格文件目录文件传输服务FTS(Tier 1)Tier 0站点存储(CASTOR)SRM接口Tier 1站点存储(dCache)SRM接口Tier 2站点存储(Lustre)SRM接口大规模数据传输通信与认证高速网络(10Gb)高速网络(1Gb)16/22其它领域v 以上的方案在高能物理领域应用非常广泛v 高能物理只是大规模分布式数据应用的其中一个,

8、还有更多的领域,比如搜索、社交网站、WEB2.0等等v 每个领域的解决方案各有不同,但是核心都是采用分布式数据管理技术v 随着数据量的快速增长以及计算模式的改变,Google、Yahoo等公司,推出了以GFS、HDFS等为代表云计算存储v 试想这么一个例子:从一个1TB的文件中统计包含“IHEP”的行,如何来做?仅网络传输数据就需要大量时间!17/22HadoopvHadoop文件系统HDFS将文件分成若干个数据块,并将它们放置在服务器群的计算节点中MapReduce就可以在它们所在的节点上处理这些数据18/22MapReduce简单过程v传统的做法Cat input | grep IHEP

9、| sort| uniq c |cat outputvMapReduceInput | Map | shuffle&sort | Reduce | OutputInput0Input1Input2Map0Map0Map0Reduce0Reduce1Out1shuffle19/22计算与存储的协同v以GFS、HDFS等为代表云计算存储系统在设计时普遍遵守一个前提:“移动计算比移动数据划算”v存储系统在存储数据时把数据切成小块,任务调度器把计算任务正好调度到有数据的地方,直接在本地做计算,免去网络传输v计算与存储的协同统一,是一次新的变革。事物的发展总是波浪式前进、螺旋式的上升20/22其它特点v 可靠性设计 设计时认为:”硬件故障是常态” 存储系统有成千上百个节点组成,坏掉任何一个对系统运行没有任何影响 机架感知的复制策略 故障检测:心跳包、块报告、完整性检测v 存储空间自动平衡 存储节点需要频繁更换或增加 新增节点或更换节点,副本会自动增加,并保证各个节点间的水位平衡v 简单一致性模型 以支持“一次写入多次读取”的访问模型为主,大大简化数据一致性问题,使得高吞吐量的数据访问成为可能21/22小结v数据爆炸性增长对存储系统提出了持续的需求,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论