Hadoop大数据开发基础与案例实战(微课版)课件 5.10MapReduce性能调优(完)_第1页
Hadoop大数据开发基础与案例实战(微课版)课件 5.10MapReduce性能调优(完)_第2页
Hadoop大数据开发基础与案例实战(微课版)课件 5.10MapReduce性能调优(完)_第3页
Hadoop大数据开发基础与案例实战(微课版)课件 5.10MapReduce性能调优(完)_第4页
Hadoop大数据开发基础与案例实战(微课版)课件 5.10MapReduce性能调优(完)_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据项目开发——MapReduce性能调优目录content02MapReduce优化方法01MapReduce运行效率瓶颈MapReduce运行效率瓶颈运行效率哪些因素影响MapReduce运行效率瓶颈1.数据倾斜并行处理的数据集中,某一部分的数据显著多于其它部分。使得该部分的处理速度成为整个数据集处理的瓶颈。MapReduce运行效率瓶颈2.Map和Reduce数量设置不合理100M0.8默认缓冲区大小默认溢出的百分比1默认Reduce任务数量MapReduce运行效率瓶颈3.Map运行时间太长,导致Reduce等待过久使Map运行到一定程度后,Reduce也开始运行,减少Reduce的等待时间。MapReduce运行效率瓶颈4.小文件过多当输入的是大量的小文件时,会启动大量的MapTask;一方面大量占用NameNode的内存空间,另一方面索引文件过大使得索引速度变慢MapReduce运行效率瓶颈5.大量不可分块的超大文件源文件无法分块;导致需要通过网络IO从其他节点读取文件块,IO开销较大。不可分块超大文件MapReduce运行效率瓶颈6.Spill次数过多当Map产生的数据非常大时,如果默认的Buffer大小不够;会进行非常多次的Spill,进行Spill就意味着要写磁盘,产生IO开销。10Merge默认处理Spill数量MapReduce运行效率瓶颈7.merge次数过多Spill非常多,Merge阶段每次只能处理10个Spill,造成频繁的IO处理;调大并行处理的Spill数减少Merge次数,但是如果调整的数值过大,并行处理Spill的过程过多会对节点造成很大压力。MapReduce优化方法1、数据输入优化合并小文件大量的小文件会产生大量的装载任务,增大Map任务装载次数。CombineTextinputFormat采用这个类作为输入,解决输入端大量小文件场景。CombineInputFormat使用这个类自定义分片策略,对小文件进行合并处理从而减少MapTask的数量。MapReduce优化方法2、Map阶段优化减少溢写次数100M默认缓冲区大小200M增大到200M减少磁盘的IO操作。减少合并次数10个文件20个文件减少归并的次数在map之后,先进行Combine处理,减少IO操作。MapReduce优化方法合理设置Reduce端的Buffer3、Reduce阶段优化合理设置Reduce数量设置Map、Reduce共存Map运行到一定程度后,Reduce也开始运行,减少Reduce的等待时间。保证reduce可以直接从buffer中拿一部分数据MapReduce优化方法4、I/O传输优化采用数据压缩的方式,减少网络IO的时间Snappy速度快,系统自带LZO压缩编码器速度快,支持切片MapReduce优化方法5、数据倾斜优化某一个区域的数据量远远大于其他区域,如何减少数据数据倾斜:1.抽样和范围分区通过对原始数据进行抽样得到的结果来预设分区边界值;2.自定义分区数据量大的进行分区处理;01020304倾斜优化3.Combine在Map端减少数据4.采用Map

Join,避免ReduceJoinReduceJoin有数据倾斜的情况,MapJoin不会,不过MapJoin适用于一张表很小,另一张表很大的情况。聚合精简数据;MapReduce优化方法6、HDFS小文件优化方法JVM原理:一个MAP运行在一个JVM上,开启重用,该Map在JVM上运行完毕,JVM继续运行其他Map。开启JVM,重用会减少45%的运行时间CombineTextInputFormat用于将多个文件合并成一个单独的spilt。HadoopArcHive可以高效地将多个小文件打包成一个HAR文件,减少了nameNode的内存使用。将小文件合成大文件再上传HDFS采用CombineTextInputFormat提高效率1234使用MapReduce程序对小文件进行合并SequenceFile由一系列的二进制key/value组成,如果Key为文件名,value为文件内容,则可以将大批小文件合并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论