输出格式化接口的设计与实现_第1页
输出格式化接口的设计与实现_第2页
输出格式化接口的设计与实现_第3页
输出格式化接口的设计与实现_第4页
输出格式化接口的设计与实现_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

输出格式化接口的设计与实现1.掌握输出格式化接口的设计思想

2.掌握输出格式化接口的实现方式

3.掌握新旧API的实现区别1、输出格式化接口的设计与实现

2、旧版API的OutputFormat解析

3、新版API的OutputFormat解析

OutputFormat主要用于描述输出数据的格式,它能够将用户提供的key/value对写入特定格式的文件中。我们将介绍Hadoop如何设计OutputFormat接口,以及一些常用的OutputFormat实现。getRecordWriter方法返回一个RecordWriter类对象。该类中的方法write接收一个key/value对,并将之写入文件。在Task执行过程中,MapReduce框架会将map()或者reduce()函数产生的结果传入write方法,输出格式化接口的设计与实现旧版输出格式化接口在旧版API中,OutputFormat是一个接口,它包含两个方法:RecordWriter<K,V>getRecordWriter(FileSystemignored,JobConfjob,Stringname,Progressableprogress)throwsIOException;voidcheckOutputSpecs(FileSystemignored,JobConfjob)throwsIOException;checkOutputSpecs方法一般在用户作业被提交到JobTracker之前,由JobClient自动调用,以检查输出目录是否合法。旧版输出格式化接口

Hadoop自带了很多OutputFormat实现,它们与InputFormat实现相对应,具体如图所示。所有基于文件的OutputFormat实现的基类为FileOutputFormat,并由此派生出一些基于文本文件格式、二进制文件格式的或者多输出的实现。旧版输出格式化接口

为了深入分析OutputFormat的实现方法,我们选取比较有代表性的FileOutputFormat类进行分析。同介绍InputFormat实现的思路一样,我们先介绍基类FileOutputFormat,再介绍其派生类TextOutputFormat。基类FileOutputFormat需要提供所有基于文件的OutputFormat实现的公共功能,总结起来,主要有以下两个:旧版输出格式化接口(1)实现checkOutputSpecs接口该接口在作业运行之前被调用,默认功能是检查用户配置的输出目录是否存在,如果存在则抛出异常,以防止之前的数据被覆盖。(2)处理side-effectfile任务的side-effectfile并不是任务的最终输出文件,而是具有特殊用途的任务专属文件。它的典型应用是执行推测式任务。在Hadoop中,因为硬件老化、网络故障等原因,同一个作业的某些任务执行速度可能明显慢于其他任务,这种任务会拖慢整个作业的执行速度。为了对这种“慢任务”进行优化,Hadoop会为之在另外一个节点上启动一个相同的任务,该任务便被称为推测式任务,最先完成任务的计算结果便是这块数据对应的处理结果。旧版输出格式化接口

为防止这两个任务同时往一个输出文件中写入数据时发生写冲突,FileOutputFormat会为每个Task的数据创建一个side-effectfile,并将产生的数据临时写入该文件,待Task完成后,再移动到最终输出目录中。这些文件的相关操作,比如创建、删除、移动等,均由OutputCommitter完成。它是一个接口,Hadoop提供了默认实现FileOutputCommitter,用户也可以根据自己的需求编写OutputCommitter实现,并通过参数{mitter.class}指定。OutputCommitter接口定义以及FileOutputCommitter对应的实现如下表所示。旧版输出格式化接口旧版输出格式化接口

如下图所示,除了接口变为抽象类外,新API中的OutputFormat增加了一个新的方法:g

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论