2023学年完整公开课版Mapper与Reducer解析_第1页
2023学年完整公开课版Mapper与Reducer解析_第2页
2023学年完整公开课版Mapper与Reducer解析_第3页
2023学年完整公开课版Mapper与Reducer解析_第4页
2023学年完整公开课版Mapper与Reducer解析_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Mapper与Reducer解析1、旧版Mapper/Reducer解析

2、新版Mapper/Reducer解析

Mapper/Reducer中封装了应用程序的数据处理逻辑。为了简化接口,MapReduce要求所有存储在底层分布式文件系统上的数据均要解释成key/value的形式,并交给Mapper/Reducer中的map/reduce函数处理,产生另外一些key/value。Mapper与Reducer的类体系非常类似,我们以Mapper为例进行讲解。Mapper的类图,如下图所示,包括初始化、Map操作和清理三部分。旧版Mapper/Reducer解析旧版Mapper/Reducer解析(1)初始化Mapper继承了JobConfigurable接口。该接口中的configure方法允许通过JobConf参数对Mapper进行初始化。(2)Map操作MapReduce框架会通过InputFormat中RecordReader从InputSplit获取一个个key/value对,并交给下面的map()函数处理:voidmap(K1key,V1value,OutputCollector<K2,V2>output,Reporterreporter)throwsIOException;该函数的参数除了key和value之外,还包括OutputCollector和Reporter两个类型的参数,分别用于输出结果和修改Counter值。旧版Mapper/Reducer解析(3)清理Mapper通过继承Closeable接口(它又继承了JavaIO中的Closeable接口)获得close方法,用户可通过实现该方法对Mapper进行清理。MapReduce提供了很多Mapper/Reducer实现,但大部分功能比较简单,具体如下图所示。它们对应的功能分别是:❑ChainMapper/ChainReducer:用于支持链式作业。❑IdentityMapper/IdentityReducer:对于输入key/value不进行任何处理,直接输出。❑InvertMapper:交换key/value位置。❑RegexMapper:正则表达式字符串匹配。❑TokenMapper:将字符串分割成若干个token(单词),可用作WordCount的Mapper。❑LongSumReducer:以key为组,对long类型的value求累加和。旧版Mapper/Reducer解析旧版Mapper/Reducer解析

对于一个MapReduce应用程序,不一定非要存在Mapper。MapReduce框架提供了比Mapper更通用的接口:MapRunnable,如下图所示。用户可以实现该接口以定制Mapper的调用方式或者自己实现key/value的处理逻辑,比如,HadoopPipes自行实现了MapRunnable,直接将数据通过Socket发送给其他进程处理。提供该接口的另外一个好处是允许用户实现多线程Mapper。旧版Mapper/Reducer解析

如下图所示,MapReduce提供了两个MapRunnable实现,分别是MapRunner和MultithreadedMapRunner,其中MapRunner为默认实现。MultithreadedMapRunner实现了一种多线程的MapRunnable。默认情况下,每个Mapper启动10个线程,通常用于非CPU类型的作业以提供吞吐率。旧版Mapper/Reducer解析从下图可知,新API在旧API基础上发生了以下几个变化:新版Mapper/Reducer解析❑Mapper由接口变为抽象类,且不再继承JobConfigurable和Closeable两个接口,而是直接在类中添加了setup和cleanup两个方法进行初始化和清理工作。❑将参数封装到Context对象中,这使得接口具有良好的扩展性。❑去掉MapRunnable接口,在Mapper中添加run方法,以方便用户定制map()函数的调用方法,run默认实现与旧版本中MapRunner的run实现一样。❑新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论