




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop大数据项目开发——单词统计分析-mapper代码实现目录content02Reducer类的编写01Mapper类的编写03Driver类的编写添加依赖:hadoop-commonhadoop-hdfshadoop-client实战开发:WordCountMapperWordCountReducerWordCountMain/开发环境:mavenIDEA/Eclipse上传运行:hadoopjarwordcount-1.0-SNAPSHOT.jar
/input/data.txt/output/wc单词统计功能开发流程引入依赖<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>2.9.2</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>2.9.2</version></dependency>本案例中的测试数据位于“G:/wordcount/input”的文件夹中。首先在新建项目中的pom.xml文件中引入依赖,如图所示:Mapper类的编写新建WordCountMapper类,该类继承了org.apache.hadoop.mapreduce.Mapper类。WordCountMapper类是map()函数的执行者,用户需要根据数据处理需求重写map()方法。创建WordCountMapper类Mapper类的编写importjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;publicclassWordCountMapperextendsMapper<LongWritable,Text,Text,IntWritable>{ @Override protectedvoidmap(LongWritablekey,Textvalue,Contextcontext) throwsIOException,InterruptedException{ Stringline=value.toString();//将Text类型转成字符型 String[]words=line.split("");//切割单词 for(Stringword:words){//遍历words context.write(newText(word),newIntWritable(1)); } }}WordCountMapper类的代码如图所示:Mapper类的编写上述代码中可知,WordCountMapper类使用extends关键字继承了Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>类,其中:KEYIN:是MapTask读取到key的数据类型,是一行的起始偏移量的数据类型,使用长整型,在MapReduce中使用LongWritable。VALUEIN:是MapTask读取到的数据的value的类型,是一行的内容的数据类型,本案例中一行内容的数据类型为文本型,在MapReduce中使用Text。KEYOUT:是用户的自定义map方法要返回的结果Key-Value中的key的数据类型,在WordCount逻辑中,需要输出的单词是字符型,在MapReduce中使用Text。VALUEOUT:是用户的自定义map方法要返回的结果Key-Value中value的数据类型,在wordcount逻辑中,需要输出的单词数量是整数,在MapReduce中使用IntWritable。在mapreduce中,map产生的数据需要传输给reduce,需要进行序列化和反序列化。而jdk中的原生序列化机制产生的数据量比较冗余,就会导致数据在mapreduce运行过程中传输效率低下。所以,hadoop专门设计了自己的序列化机制,那么,mapreduce中传输的数据类型就必须实现hadoop自己的序列化接口。hadoop为jdk中的常用基本类型Long,String,Integer,Float等数据类型封装了自己的实现了hadoop序列化接口的类型:LongWritable,Text,IntWritable,FloatWritable。Mapper类的编写Mapper类的编写然后需要重写map方法上述代码中对map方法的重写,可以通过快捷键实现,使用Alt+Insert组合键会出现提示,如图所示:在生成类的各项基本方法界面中选择OverrideMethods,出现可以重写的方法,选择重写方法界面如图所示:Mapper类的编写选中要重写的方法之后,会出现如图代码,将代码中的super.map(key,value,context);删除,就可以在map()方法中编写逻辑代码,map()读入进来的数据为Text类型,要对单词按空格进行切分,需要将Text类型转换为字符型,转换代码如下所示:Stringline=value.toString();//将Text类型转成字符型删除此行Mapper类的编写其次,将读入进来的数据按照空格进行切分,切分代码如下所示:String[]words=line.split("");//切割单词最后,需要将单词转换成为<单词,1>的形式,遍历切割完成后的单词数组,将每个单词都转化成为<单词,1>形式,代码如下所示:for(Stringword:words){//遍历
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年高中历史 专题一 梭伦改革 一 雅典往何处去教学实录(含解析)人民版选修1
- 《短视频剪与制作PR》 非线性编辑 课程授课计划
- 3做学习的主人-我和时间交朋友好经验共分享(第3课时)(教学设计)2023-2024学年统编版道德与法治三年级上册
- 2024年五年级语文下册 第四单元 10 青山处处埋忠骨教学实录 新人教版
- 2024-2025学年高中化学 第2章 第1节 课时1 简单分类法及其应用教学实录 新人教版必修1
- 二甲双胍联合恩格列净治疗2型糖尿病合并肥胖患者对糖脂代谢的影响
- 2023-2024学年人教版(2015)小学信息技术四年级下册个性表格巧制作(教学设计)
- 1我是独特的 第一课时(教学设计)-2023-2024学年道德与法治三年级下册统编版
- 9 古诗三首 九月九日忆山东兄弟 教学设计-2023-2024学年语文三年级下册统编版
- 工程施工项目合作协议合同
- 法务助理实习报告
- 2025幼儿园疫情报告制度及流程
- GB/T 41869.3-2024光学和光子学微透镜阵列第3部分:光学特性测试方法
- 2024年9月时事政治试题带答案
- 食品经营放心承诺书模板
- 空调安装及维修的注意事项
- 苗圃建设项目施工组织设计范本
- 广电和通信设备调试工(高级)理论考试复习题库(含答案)
- 产房应急预案及流程
- 泉州市中学生五祖拳健身操教案
- 培智三年级生活数学(下)教学计划
评论
0/150
提交评论