Hadoop大数据开发基础与案例实战(微课版)课件 5.3WrdCount设计思路_第1页
Hadoop大数据开发基础与案例实战(微课版)课件 5.3WrdCount设计思路_第2页
Hadoop大数据开发基础与案例实战(微课版)课件 5.3WrdCount设计思路_第3页
Hadoop大数据开发基础与案例实战(微课版)课件 5.3WrdCount设计思路_第4页
Hadoop大数据开发基础与案例实战(微课版)课件 5.3WrdCount设计思路_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据项目开发——单词统计分析设计目录content02设计思路01设计过程part-r-00000的内容如下:part-r-00001的内容如下:words1.txt的内容如下:thisisagoodpigthatisagoodbearwords2.txt的内容如下:thisisabadpigthatisabadbearMapReduce案例描述输入文件是words1.txt和words2.txt两个文本文件,文件内容仅有字符串和空格。输出文件为part-r-00000和part-r-00001,文件内容是:文件中出现的单词及单词出现的次数。单词统计?设计思路各个单词之间的频数不具有相关性,可以将不同的单词分发到不同的节点上处理;在统计单词数量任务中,可以将大的数据集切分成小的数据集,且各数据集之间相互独立,方便并行处理;MapReduce单词统计任务的解决思路符合MapReduce的编程思想。设计思路指定输入文件所在的位置将两个文件切分成两个输入分片,然后对输入分片进行格式化,文件按行分解,从而形成以行偏移量为key、行内容为value的键值对。将键值对的value按空格分解成一个个单词,生成<word,1>形式的键值对。输入阶段输入分片及其格式化阶段设计map()函数阶段设计思路设计reduce()函数,将输入的<word,list(value)>形式的数据进行汇总,最后生成以key为单词、value为单词频数的键值对。系统默认的输出格式为“单词+空格+单词频数”的形式,若要输出特定样式的数据,需要对输出结果进行格式化,需要进行指定。指定单词统计程序的输出结果文件位置。设计reduce()函数阶段输出格式化阶段输出阶段设计过程1.输入分片及其格式化:对输入分片进行格式化操作,形成<key1,value1>形式的数据流,key1为偏移量,从0开始,每读取一个字符就增加1;value1为每行文本内容。包括空格、换行符等设计过程map()函数将接收到的<key1,value1>形式的输入数据流,按空格进行拆分,输出结果为<key2,1>形式的数据。key2为字符串形式的单词,value的值为1,表示单词数为1。2.Map过程设计过程将多个Map任务的<key2,value2>形式的输出,处理成<key2,list(value2)>形式的中间结果。3.Shuffle过程设计过程reduce()函数接收<key2,list(value2)>形式的数据流,对相同单词的值集合进行计算,汇总出单词出现的总次数。4.Reduce过程功能实现part-r-00000的内容如下:part-r-00001的内容如下:words1.txt的内容如下:thisisagoodpigthatisagoodbearwords2.txt的内容如下:thisisabadpigthatisabadbearMapReduce输入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论