GFS与MapReduce的实现研究及其应用.ppt_第1页
GFS与MapReduce的实现研究及其应用.ppt_第2页
GFS与MapReduce的实现研究及其应用.ppt_第3页
GFS与MapReduce的实现研究及其应用.ppt_第4页
GFS与MapReduce的实现研究及其应用.ppt_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,GFS与MapReduce的实现研究及其应用,杨志丰导师:李晓明教授2008-06-05,2,大纲,引言TFS分布式文件系统MapReduce分布式并行计算框架总结,引用次数来自GoogleScholar,3,本文工作的出发点,TheGoogleFileSystemACMSOSP2003被引用357MapReduce:SimplifiedDataProcessingonLargeClustersUSENIXOSDI2004被引用224,4,动机,开源实现Hadoop,KFS支持天网组内工作的需要大量数据:网页(以InfoMall网页库格式存储),搜索引擎日志,URL数据,CDAL元数据,NLP语料库、词典;网页索引数据,Web链接图;CWT100G,CWT200G,中文网页分类评测测试集,其他机构的数据(如TREC相关数据:terabytetrack)研究课题搜索引擎平台海量数据处理的基础设施改进系统设计,5,大纲,引言TFS分布式文件系统MapReduce分布式并行计算框架总结,6,系统结构,一个master,若干个chunkserver,若干个client存储大文件(GB-TB)一个文件由若干个定长块(chunk,64MB)块是普通linux文件,有若干个复本(replica),7,GFS中的记录追加写操作,记录追加写原子性(atomic)多写者并发Lease机制保证一致性结果数据成功:至少成功的在一个偏移处写入了一次;块末尾可能产生填充失败:产生不一致和不完整的数据,Client,Master,SecondaryReplicaA,PrimaryReplica,SecondaryReplicaB,8,TFS中的记录追加写操作,记录追加写原子性多写者并发无需lease机制变长块写缓存与新块申请结果成功:数据被完整的写入一次,且各个复本一致失败:数据没有被写入,Client,ReplicaC,ReplicaA,ReplicaB,Master,9,实验设置,一台master,九台chunkserverDell2850:2IntelXeon,2GB内存,7200rpmSCSI硬盘6块组成一个软件RAID-0客户端2GB内存,其余同上网络所有机器通过1Gbps全双工以太网卡与一个1Gbps交换机连接,10,记录追加写的效率,一台客户机上启动不同个客户线程,网络上限125M峰值95MB/s,达理论上限的75%(GFS为50%)另一个实验中,多客户机多进程并发追加,总速率可达380MB/s,11,读操作的效率,峰值90MB/s,理论上限的72%(GFS为75%),12,TFSShell,13,14,大纲,引言TFS分布式文件系统MapReduce分布式并行计算框架总结,15,例子:词频统计,中国人民,美国人民,中国人民银行,美国银行,中国,1人民,1,美国,1人民,1,中国,1人民,1银行,1,美国,1银行,1,中国,1中国,1银行,1银行,1,美国,1美国,1人民,1人民,1人民,1,中国,2银行,2,美国,2人民,3,map,shuffle,reduce,16,MapReduce运行流程,17,系统结构,18,系统的优化,忽略失败任务连接输出结果为一个文件Google实现中R具有双层含义:Reduce任务数;输出文件个数TFS提供的concatFiles接口串行版MapReduce系统实时监控,19,20,大纲,引言TFS分布式文件系统MapReduce分布式并行计算框架总结,21,本文贡献,提出了一个与GFS不同的设计方案,使得记录追加写的效率大大提升设计和实现了一个稳定的分布式文件系统TFS,并已用于实际的研究工作设计和实现了MapReduce分布式并行计算系统,并评测了它的性能在我们的MapReduce系统基础上实现了各种搜索引擎系统常见的应用总结了在分布式系统的设计和实现的实践中得到的一些宝贵的经验,22,未来工作,继续完善系统,提高系统性能,并根据用户反馈增加必要的新特性构建一个海量数据处理的基础设施是我们研究小组的一个长期的目标,下一步是bigtable系统为进一步简化程序员工作,在MapReduce的基础上设计和实现并行STL算法库总结和研究MapReduce,MapReduceMerge,Dryad等模型的表达能力,探索新的模型,23,谢谢!,24,致谢,感谢我的导师李晓明教授三年来对我的教诲和研究工作论文工作的宝贵指导。李老师严谨的治学态度和高瞻远瞩的洞察力是我终身学习的楷模。感谢闫宏飞老师大三时把我带入网络实验室这个大家庭,在实验室学习期间给予我工作学习的指导和对我各方面的能力的锻炼,以及对我本科毕业设计和毕业论文的关心和指导。感谢彭波老师研究生期间对我研究工作的指导和各方面的关心和帮助。彭老师谦虚温和的态度总是让人如沐春风,清晰严谨的思路始终是我学习的榜样。感谢北京大学网络实验室这个温暖的大家庭,从大三进入实验室实习起,我在这里度过了5年的岁月。实验室提供了如此好的环境和宽松的氛围,使我能专心致力于研究工作。感谢天网组的每位老师同学,组会上面红耳赤的学术争论,闲暇时轻松幽默的调侃,4楼小房间热火朝天的封闭开发,2007年夏回味无穷的威海之行,等等等等都将成为我生命中美好的回忆。感谢TFS小组的各位成员:涂其琛,樊楷,陈日闪,朱磊,还有彭波老师,没有诸位的帮助和出色的工作,我的论文很难顺利的完成。感谢爸爸妈妈对我从小到大的关爱和培养,无论何时何地你们的爱始终如我心灵深处暖暖的泉水,给我温暖和力量。感谢我的女友陈晓艳,可爱倔强的你始终坚定的支持我,才使我能顺利的完成论文工作。,25,附录TFS补充,26,相关工作,NFS,AFSGFSHadoopHDFSKFS,27,记录追加写中变长块带来的问题,每个chunk都增加了一个长度属性增加了master的内存元数据开销Client可能产生小chunk实际中应用产生的数据远远大于一个chunk的大小,所以大部分chunk被填慢如果n个client并发写一个文件,结束时可能有n个chunk的大小小于chunk最大长度,28,变长块对读操作设计的影响,GFS读取offset在client端可以转换为chunkindex每个chunk的元数据与master通信一次客户端缓存chunk元数据,TFS必须获得所有chunk的长度才能把读取offset映射到chunk文件打开时获得所有chunk的元数据信息打开之后新增的块不可见,29,写(覆盖写)操作,GFS与记录追加操作使用相同的lease机制保证复本一致性可并发写,但可能导致数据混乱,TFS不支持并发文件上写锁(排他锁),30,Master操作性能,实验设置是个客户端并发1000个RPC请求结果每秒上千条另一个模拟负载实验每秒3443条RPC响应GFS200500Ops/s,31,读缓冲大小,32,附录MapReduce补充,33,相关工作,MapReduce实现HadoopMapReduceMapReduce应用Chu2006,Wolfe2007,Xin-jie2007模型改进Dyrad2007,MapReduceMerge其他DeWitt2008Sawzallbigtable2006,hypertable,34,实验设置,TFS9台chunkserverMapReduceMapReducemaster与TFSmaster位于同一台机器上18台worker,其中8台与chunkserver共用排序基准测试程序100字节记录前10字节为Key,35,Reduce数的选择,R越大,reduce任务的并发度越高由于worker内存有限,R太大导致过多的并发reduce任务会降低reduce效率R越大,数据传输任务越多(M*R),数据传输开销越大,36,系统加速比,输入数据:5GB曲线趋于平缓随着worker数的增加,R增加,导致通信开销的增大,37,系统可扩展性,当系统规模(和相应的数据规模)扩大5倍时,程序的运行时间增加了约一倍。系统的等平均速度可扩展度为0.43影响可扩展性的主要因素是R增加导致的通信开销的增大,38,压力测试,数据Cwt200G副本数2计算中文词频统计资源设置18台worker运行时间10.5小时,generatedusingDavidA.WheelersSLOCCount.,39,项目代码量,TFS总计约14,000行C+SLOCDirectorySLOC-by-Language(Sorted)12849icecpp=7060,java=57893812mastercpp=38122038chunkservercpp=20382016blackboxcpp=1995,sh=211654appcpp=1533,ansic=1211630testcpp=16301482clientcpp=1482912buildcpp=852,tcl=30,sh=30815datatransfercpp=815558monitorjava=530,cpp=28514commonansic=365,cpp=149193utilcpp=193133mapredcpp=13359distribsh=5910top_dirlisp=7,cpp=3,MapReduce总计约12,000行C+SLOCDirectorySLOC-by-Language(Sorted)6963src_icecpp=4569,java=23943131src_clientcpp=31312940testcpp=29402406src_app

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论