5.4单词统计分析代码实现-Mapper实现(完)_第1页
5.4单词统计分析代码实现-Mapper实现(完)_第2页
5.4单词统计分析代码实现-Mapper实现(完)_第3页
5.4单词统计分析代码实现-Mapper实现(完)_第4页
5.4单词统计分析代码实现-Mapper实现(完)_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据项目开发——单词统计分析-mapper代码实现目录content02Reducer类的编写01Mapper类的编写03Driver类的编写添加依赖:hadoop-commonhadoop-hdfshadoop-client实战开发:WordCountMapperWordCountReducerWordCountMain/开发环境:mavenIDEA/Eclipse上传运行:hadoopjarwordcount-1.0-SNAPSHOT.jar

/input/data.txt/output/wc单词统计功能开发流程引入依赖<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>2.9.2</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>2.9.2</version></dependency>本案例中的测试数据位于“G:/wordcount/input”的文件夹中。首先在新建项目中的pom.xml文件中引入依赖,如图所示:Mapper类的编写新建WordCountMapper类,该类继承了org.apache.hadoop.mapreduce.Mapper类。WordCountMapper类是map()函数的执行者,用户需要根据数据处理需求重写map()方法。创建WordCountMapper类Mapper类的编写importjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;publicclassWordCountMapperextendsMapper<LongWritable,Text,Text,IntWritable>{ @Override protectedvoidmap(LongWritablekey,Textvalue,Contextcontext) throwsIOException,InterruptedException{ Stringline=value.toString();//将Text类型转成字符型 String[]words=line.split("");//切割单词 for(Stringword:words){//遍历words context.write(newText(word),newIntWritable(1)); } }}WordCountMapper类的代码如图所示:Mapper类的编写上述代码中可知,WordCountMapper类使用extends关键字继承了Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>类,其中:KEYIN:是MapTask读取到key的数据类型,是一行的起始偏移量的数据类型,使用长整型,在MapReduce中使用LongWritable。VALUEIN:是MapTask读取到的数据的value的类型,是一行的内容的数据类型,本案例中一行内容的数据类型为文本型,在MapReduce中使用Text。KEYOUT:是用户的自定义map方法要返回的结果Key-Value中的key的数据类型,在WordCount逻辑中,需要输出的单词是字符型,在MapReduce中使用Text。VALUEOUT:是用户的自定义map方法要返回的结果Key-Value中value的数据类型,在wordcount逻辑中,需要输出的单词数量是整数,在MapReduce中使用IntWritable。在mapreduce中,map产生的数据需要传输给reduce,需要进行序列化和反序列化。而jdk中的原生序列化机制产生的数据量比较冗余,就会导致数据在mapreduce运行过程中传输效率低下。所以,hadoop专门设计了自己的序列化机制,那么,mapreduce中传输的数据类型就必须实现hadoop自己的序列化接口。hadoop为jdk中的常用基本类型Long,String,Integer,Float等数据类型封装了自己的实现了hadoop序列化接口的类型:LongWritable,Text,IntWritable,FloatWritable。Mapper类的编写Mapper类的编写然后需要重写map方法上述代码中对map方法的重写,可以通过快捷键实现,使用Alt+Insert组合键会出现提示,如图所示:在生成类的各项基本方法界面中选择OverrideMethods,出现可以重写的方法,选择重写方法界面如图所示:Mapper类的编写选中要重写的方法之后,会出现如图代码,将代码中的super.map(key,value,context);删除,就可以在map()方法中编写逻辑代码,map()读入进来的数据为Text类型,要对单词按空格进行切分,需要将Text类型转换为字符型,转换代码如下所示:Stringline=value.toString();//将Text类型转成字符型删除此行Mapper类的编写其次,将读入进来的数据按照空格进行切分,切分代码如下所示:String[]words=line.split("");//切割单词最后,需要将单词转换成为<单词,1>的形式,遍历切割完成后的单词数组,将每个单词都转化成为<单词,1>形式,代码如下所示:for(Stringword:words){//遍历

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论