下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、实验3 MapReduce编程初级实践1. 实验目的1. 通过实验掌握基本的 Map Reduce编程方法;2. 掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。2. 实验平台已经配置完成的 Hadoop伪分布式环境。3. 实验内容和要求1. 编程实现文件合并和去重操作对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并, 并剔除其中重复的内容,得到一个新的输出文件G下面是输入文件和输出文件的一个样例供参考。实验最终结果(合并的文件)園£J* Vs" TElD hd f 1Id Ih 11:9 OOO/
2、u set/w_ hd ri:/ Lu L d Ihu st .9000/u s20150101y20)5010)X2O15O1My|20150102y201501®X2O15O1Q3耳20150104z20150104y20150105y20150105z匸in 501%X代码如下:package com.Merge;import java.i o.I OExceptio n;import org.apache.hadoop.c onf.Con figurati on;import org.apache.hadoop.fs.Path;import org.apache.hadoop
3、.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.i nput.;import org.apache.hadoop.mapreduce.lib.output.;public class Merge public static class Map exte nds Mapper<Object, Te
4、xt, Text, Text private static Text text = new Text();public void map(Object key. Text value, Con text con text) throws IOExceptio n. In terruptedExcepti on text = value;context.write(text, new Text(""); public static class Reduce exte nds Reducer<Text, Text, Text, Text> public void r
5、educe(Text key, Iterable<Text> values, Con text con text) throws IOExceptio n, In terruptedExcepti on con text.write(key, new Text(""); public static void main(String args) throws Exception Con figurati on conf = new Con figurati on();conf.set("fs.defaultFS", "hdfs:/lo
6、calhost:9000");Strin g otherArgs = new Stri ng "in put", "output" ;if (otherArgs.length != 2) System.err.println("Usage: Merge and duplicate removal <in> <out>"); System.exit(2);Job job = Job.getInstance(conf, "Merge and duplicate removal"); j
7、ob.setJarByClass(Merge.class);job.setMapperClass(Map.class);job.setReducerClass(Reduce.class);job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class);(job, new Path(otherArgs0);(job, new Path(otherArgs1);System.exit(job.waitForCompletion(true) ? 0 : 1);2. 编写程序实现对输入文件的排序现在有多个输入文件, 每个文件
8、中的每行内容均为一个整数。要求读取所有文件中的整数,进行升序排序后,输出到一个新的文件中,输出的数据格式为每行两个整数,第一个数字为第二个整数的排序位次,第二个整数为原待排列的整数。下面是输入文件和输出文件的 一个样例供参考。实验结果截图:代码如下:package com.MergeSort;import java.i o.I OExceptio n;import org.apache.hadoop.c onf.Con figurati on;import org.apache.hadoop.fs.Path;import org.apache.hadoop.i o.ln tWritable;i
9、mport org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.i nput.;import org.apache.hadoop.mapreduce.lib.output.;public class MergeSort public static class Map ext
10、e ndsMapper<Object, Text, IntWritable, IntWritable> private static IntWritable data = new IntWritable();public void map(Object key, Text value, Con text con text) throws IOExceptio n, In terruptedExcepti on String line = value.toString(); data.set(I nteger.parse In t(l in e);con text.write(dat
11、a, new In tWritable(1); public static class Reduce exte ndsReducerV ntWritable, I ntWritable, I ntWritable, I ntWritable private static IntWritable linenum = new IntWritable(l);public void reduce(I ntWritable key, Iterable<I ntWritablevalues,Con text con text) throws IOExcepti on, In terruptedExc
12、epti on for (I ntWritable val : values) con text.write(li nenum, key);linenum = new In tWritable(li nenu m.get() + 1);public static void main(String args) throws Exception Con figurati on conf = new Con figurati on();conf.set("fs.defaultFS", "hdfs:/localhost:9000");Stri ng otherA
13、rgs = new Stri ng "in put2", "output2" ; /*直接设置输入参数*/if (otherArgs.length != 2) System.err.pri ntln ("Usage: mergesort <in> <out>");System.exit(2);Job job = Job.getI nsta nce(conf, "mergesort"); job.setJarByClass(MergeSort.class); job.setMapperClas
14、s(Map.class);job.setReducerClass(Reduce.class);job.setOutputKeyClass(l ntWritable.class);job.setOutputValueClass(l ntWritable.class);(job, new Path(otherArgs0);(job, new Path(otherArgs1);System.exit(job.waitForCompletion(true) ? 0 : 1);3. 对给定的表格进行信息挖掘下面给出一个child-pare nt的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。实验
15、最后结果截图如下: hdfs:/localhost:900JI STjoin.jdva hdfs:/hcalhost:900 E3 先 一grand_child grand parentMark JesseMark AlicePhilipPhilip AliceJone JesseJone AliceSteven JesseSteven AlkeSteven FrankSteven M aryJone FrankJone Mary代码如下:package com.jo in;import java.i o.IO Excepti on;import java.util.*;import org.
16、apache.hadoop.c onf.Con figurati on;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.;import org.apache.hadoop.map
17、reduce.lib.output.;public class STjoin public static int time = 0;public static class Map extends Mapper<Object, Text, Text, Text> public void map(Object key, Text value, Context context) throws IOException, InterruptedException String child_name = new String();String parent_name = new String(
18、);String relation_type = new String(); String line = value.toString();int i = 0;while (line.charAt(i) != ' ') i+;String values = line.substring(0, i), line.substring(i + 1) ;if (pareTo("child") != 0) child_name = values0; parent_name = values1; relation_type = "1&qu
19、ot;context.write(new Text(values1), new Text(relation_type +"+"+ child_name + "+" + parent_name); relation_type = "2"context.write(new Text(values0), new Text(relation_type +"+"+ child_name + "+" + parent_name); public static class Reduce extends Red
20、ucer<Text, Text, Text, Text> public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException if (time = 0) context.write(new Text("grand_child"), newText("grand_parent");time+;int grand_child_num = 0;String grand_child = n
21、ew String10;int grand_parent_num = 0;String grand_parent = new String10;Iterator ite = values.iterator();while (ite.hasNext() String record = ite.next().toString();int len = record.length();int i = 2;if (len = 0)continue;char relation_type = record.charAt(0); String child_name = new String();Stri ng
22、 pare nt_n ame = new Stri ng();while (record.charAt(i) != '+') child_ name = child_ name + record.charAt(i); i+;i = i + 1;while (i < len) pare nt_n ame = pare nt_n ame + record.charAt(i); i+;if (relatio n_type = '1') gra nd_childgra nd_child_ num = child_ name;gra nd_child_ nu m+;
23、 else gran d_pare ntgra nd_pare nt_num = pare nt_n ame; gra nd_pare nt_nu m+; -if (gra nd_pare nt_num != 0 && gra nd_child_ num != 0) for (int m = 0; m < gra nd_child_ num; m+) for (int n = 0; n < gra nd_pare nt_num; n+) context.write(new Text(grand_childm), new Text( gran d_pare ntn ); -public static void main(String args) throws Exception Con figurati on conf = new Con figurati on();conf.set("fs.defaultFS", "hdfs:/localhost:9000");String otherArgs = new String "input3", "output3" ;if (otherArgs.length != 2) System.err.pri ntl n(&qu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《大学物理(上册)》课件-第1章
- 2025-2030全球车辆燃油油位计行业调研及趋势分析报告
- 2025-2030全球电积铜行业调研及趋势分析报告
- 2025年全球及中国直接空气捕获和储存(DACS)行业头部企业市场占有率及排名调研报告
- 2025-2030全球多层土壤传感器行业调研及趋势分析报告
- 2025年全球及中国阻燃塑料薄膜和片材行业头部企业市场占有率及排名调研报告
- 2025-2030全球医用手指康复训练仪行业调研及趋势分析报告
- 2025-2030全球化学谷物熏蒸剂行业调研及趋势分析报告
- 2025年全球及中国智慧教育公共服务平台行业头部企业市场占有率及排名调研报告
- 2025年全球及中国工业胶囊填充设备行业头部企业市场占有率及排名调研报告
- 2025年度院感管理工作计划(后附表格版)
- 励志课件-如何做好本职工作
- 2024年山东省济南市中考英语试题卷(含答案解析)
- 2024年社区警务规范考试题库
- 2025中考英语作文预测:19个热点话题及范文
- 第10讲 牛顿运动定律的综合应用(一)(讲义)(解析版)-2025年高考物理一轮复习讲练测(新教材新高考)
- 静脉治疗护理技术操作标准(2023版)解读 2
- 2024年全国各地中考试题分类汇编(一):现代文阅读含答案
- GB/T 30306-2024家用和类似用途饮用水处理滤芯
- 暑假作业 10 高二英语完形填空20篇(原卷版)-【暑假分层作业】2024年高二英语暑假培优练(人教版2019)
- 武强县华浩数控设备科技有限公司年产9000把(只)提琴、吉他、萨克斯等乐器及80台(套)数控雕刻设备项目环评报告
评论
0/150
提交评论