《Hadoop技术原理》课件-7.MapReduce进阶_第1页
《Hadoop技术原理》课件-7.MapReduce进阶_第2页
《Hadoop技术原理》课件-7.MapReduce进阶_第3页
《Hadoop技术原理》课件-7.MapReduce进阶_第4页
《Hadoop技术原理》课件-7.MapReduce进阶_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop技术原理MapReduce进阶MapReduce进阶01MapReduce进阶01MapReduce输入格式逻辑分片(按照200字分片)MapReduce进阶02MapReduce输入格式逻辑分片有了逻辑分片,就可以逐行获取数据MapReduce进阶03MapReduce输入格式InputFormat类实现了两个功能数据切分,获得SplitInput(逻辑切片),FileInputFormat.getSplits()获取到。为Mapper提供输入数据。有多少个SplitInput,就有多少个Mapper由于没有定义InputFormat,默认使用TextInputFormat逐行获取文本MapReduce进阶04MapReduce输出格式OutputFormat主要用于描述输出数据的格式,通过RecordWriter能够将用户提供的key/value对写入特定格式的文件中TextOutputFormt调用toString()方法把它们转换为字符串NullWritable来省略输出的key或valueMapReduce进阶05分区(partition)Partition定义Mapper任务划分数据的过程称作Partition。负责实现数据的类称作Partitioner,默认的分区是Hash分区(HashPartition)。Partition作用将map阶段产生的所有<key,value>对分配给不同的Reducer处理,可以将Reduce阶段的处理负载进行分摊。把数据打散进行处理,最终是为了避免热块(数据倾斜)Partition的数量决定Reducer的数量。MapReduce进阶06分区分区的基本原理计算某个值的hash值,如果结果相同,则放入同一个分区MapReduce进阶07合并是一种特殊Reducer,在Mapper端,先执行一次Reducer作用:减少Mapper输出到Reduce的数据量,缓解网络传输瓶颈,提高reducer的执行效率。需要注意的问题:一定要谨慎使用Combiner,有些情况不能使用Combiner---->如:求平均值保证引入Combiner以后,不能改变原来的逻辑

合并(Combiner)合并简介MapReduce进阶08合并(Combiner)使用Combiner差异MapReduce进阶09合并(Combiner)不能使用Combiner情况-->举例:求平均值MapReduce工作机制02MapReduce工作机制01Yarn中运行MapReduce的工作原理MapReduce工作机制02Yarn中运行MapReduce的工作原理整个过程涉及五个独立的实体:客户端:提交MapReduce作业YARNResourceManager:负责协调集群上计算机资源的分配YARNNodeManager:负责启动和监视集群中机器上的计算容器(container)MapReduce的ApplicationMaster,负责协调运行MapReduce作业的任务。它和MapReduce任务在容器中运行,这些容器由资源管理器分配并由节点管理器进行管理。分布式文件系统(一般为HDFS):共享作业文件MapReduce工作机制03状态更新在MapReduce中的传递流程MapReduce工作机制04状态更新在MapReduce中的传递流程map任务或reduce任务运行时,向自己的MRAppMaster报告进度和状态。MRAppMaster形成一个作业的汇聚视图客户端每秒钟轮询一次MRAppMaster获取最新状态。Shuffle(MapReduce的核心)05MapReduce确保每个reducer的输入都是按键排序的。系统执行排序、将map输出作为输入传给reducer的过程称为Shuffle。Shuffle是MapReduce奇迹发生的地方。Shuffle(MapReduce的核心)06Shuffle:把中间结果里相同键值的数据送给同一个Reducer一个Reducer处理多个键值一个Reducer处理的所有键值称为一个“分片”(Partition)Mapper任务输出中间结果后,需要确定每个键值对所对应的分片MapReduce编程案例07排序基本数据类型(1)数字默认:升序举例:查询员工的薪水,按照升序排序降序:重写一个比较器 (2)字符串字典顺序举例:WordCount单词计数非基本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论