课题一分组去topN统计温度案例_第1页
课题一分组去topN统计温度案例_第2页
课题一分组去topN统计温度案例_第3页
课题一分组去topN统计温度案例_第4页
课题一分组去topN统计温度案例_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分组取topN统计温度案例掌握分组取topN统计温度案例

1、需求2、设计思路3、阶段4、代码编写5、结果展示需求:从一组数据中,统计每一年的每一个月中,气温最高的前两天。输入样例:1949-10-0114:21:0234c1949-10-0214:01:0236c1950-01-0111:21:0232c1950-10-0112:21:0237c1951-12-0112:21:0223c1950-10-0212:21:0241c1950-10-0312:21:0227c1951-07-0112:21:0245c 1951-07-0212:21:0246c1951-07-0312:21:0347c需求输出样例:1949-10-2-361949-10-1-341.对于输出结果,如何保证,选取两条气温最高的记录?将相同的年月下的记录按照温度降序排列。这样,在最终获取结果时,前两条记录一定是气温最高的两天。2.如何获得相同的年月下的气温最高的记录呢?对于reduce端拉取的数据,保证reduce每次处理的数据为同一年同一个月份下的数据,将同年同月的数据排序(这个阶段可由group做),取前两条记录,即为该年该月下,气温最高的前两条记录。3.上一个wordCount案例中的排序,是按照MapReduce程序默认的字典排序规则,进行排序,但对于本示例,既要对日期进行升序排列(默认),又要对温度做降序排列,那么如何操作?设计思路map阶段:负责将数据切分,对应存入JavaBean中。将JavaBean传入partition阶段。partition阶段:继承Partitioner,复写getPartition()方法,指定相同年份的数据分到同一个reduce中,这样,一个reduce任务,对应输出一个文件。sort阶段:确保每个传递过来的JavaBean,确定排序规则:相同的年份,比较月份;月份相同,比较温度。group阶段:此阶段为shufflereduce端的分组排序。Reduce阶段:统计每一年中每一个月中每天的温度,并选择其中温度最高的两条记录。阶段Configurationconf=newConfiguration();conf.set("fs.defaultFS","HDFS://Master:9000");Jobjob=Job.getInstance(conf);//设置程序入口job.setJarByClass(runJob.class);//设置map类job.setMapperClass(mapper.class);//设置map的输出类型job.setMapOutputKeyClass(weather.class);job.setMapOutputValueClass(IntWritable.class);//设置reduce类job.setReducerClass(reduce.class);job.setPartitionerClass(TQpartition.class);job.setSortComparatorClass(sort.class);job.setGroupingComparatorClass(group.class);job.setNumReduceTasks(3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论