版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、技术创新,变革未来MapReduce技术平台详解内容MapReduce介绍MapReduce优缺点MapReduce基本流程 MapReduce编程范例MapReduce练习案例MapReduce介绍MapReduce 是一个分布式计算框架基于它写出来的应用程序能够运行在由上千个商用机器组 成的大型集群上以一种可靠容错的方式并行处理PB级别的数据集Hadoop MapReduce 其实就是 Google MapReduce 的一 个开源版本MapReduce优点易于编程:简单的实现一些接口,类似于写一个简单的串 行程序,就可以完成一个分布式程序,这个分布式程序可以 分布到大量廉价的 PC 机器
2、运行良好的扩展性:计算资源不够的时候,可以通过简单的增 加机器扩展计算能力高容错性:例如其中一台机器挂了,会自动把上面的计算任务转移到另外一个节点上运行,不至于任务运行失败,整 个过程不需要人工参与离线处理PB 级以上海量数据:适合离线处理MapReduce缺点实时计算: MapReduce 无法像 Mysql 一样,在毫秒或者 秒级内返回结果流式计算: MapReduce 自身的设计特点决定了数据源必 须是静态的,不能动态变化,而流式计算的输入数据是动态 的DAG计算:涉及多次迭代计算,MapReduce 可以做,但是每个MapReduce 作业的输出结果都会写入到磁盘,造成 大量的磁盘IO
3、,导致性能低下MapReduce基本流程(1)MapReduce是一种编程模型,用于大规模数据集的并行 计算,主要思想是Map(映射)和Reduce(化简)。MapReduce程序将输入数据列表变成输出数据列表。MapReduce程序由两个阶段组成:Map和Reduce,用户 只需要实现map()和reduce()两个函数,即可实现分布式计 算。MapReduce基本流程(2)map任务处理对输入文件的每一行,解析成key、value对,每一个键值 对调用一次map函数写自己的逻辑,对输入的key、value处理,转换成新的key、value输出对输出的key、value进行分区对不同分区的数
4、据,按照key进行排序、分组,相同key的value放到一个集合中(可选)分组后的数据进行归约MapReduce基本流程(3)reduce任务处理对多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点对多个map任务的输出进行合并、排序写reduce函数逻辑,对输入的key、value处理,转换成新 的key、value输出把reduce的输出保存到文件中MapReduce的基本设计思想对大数据并行处理:分而治之上升到抽象模型:Map与Reduce上升到框架:以统一框架为程序员隐藏系统细节MapReduce编程范例PatentMapReduce练习某旅行APP每天产生
5、大量访问日志,用户【uuid-x】每一次操作会产生一条 日志记录,假设用户可通过单程搜索【search-dancheng】,往返搜索【 search-wangfan】等多个入口进入,可通过报价详情页【detail】选择航班 并完成最后的下订单,可通过【submit】完成购票操作日志格式如下,请计算20150521这一天该旅行APP有多少单程搜索,有多 少往返搜索MapReduce练习合并文档去重:资源文件a1:hadoop test hello word资源文件a2: happy birthdaythis isa test最终结果: hadoop testhello word happy birthday thisis a如果不去重呢?MapReduce练习统计结果:1-3年经验3-5年经验5-10年经验8-30k10-33k20-35kMapReduce练习气象数据集:由分布在美国全国各地区的很多气象传感器每隔一小时进行 收集MapRedu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025合资办学合同
- 2025办公用品的长期采购合作合同
- 农村社会实践报告范文
- 超市盘点分析报告范文
- 监理工作总结报告范文
- 课题申报书:高水平大学教学为主型岗位准入与动态转换机制研究
- 上海农林职业技术学院《针织服饰设计》2023-2024学年第一学期期末试卷
- 11葡萄沟 公开课一等奖创新教学设计
- 3《自己之歌》公开课一等奖创新教学设计统编版高中语文选择性必修中册
- 上海南湖职业技术学院《传递过程》2023-2024学年第一学期期末试卷
- 职业生涯规划-体验式学习知到智慧树章节测试答案2024年秋华侨大学
- 2024河北省建筑安全员-A证考试题库及答案
- 山东实验中学2025届高三第三次诊断考试 英语试卷(含答案)
- 2024至2030年冬虫夏草菌粉项目投资价值分析报告
- 2024版发电机安全性能检测服务合同2篇
- ICT测试原理与应用
- 中小学校图书馆管理员业务培训
- C语言编程新思路知到智慧树期末考试答案题库2024年秋山东理工大学
- GB/T 25229-2024粮油储藏粮仓气密性要求
- 2024年社区工作者考试试题库
- 人教PEP版(2024)三年级上册英语Unit 4《Plants around us》单元作业设计
评论
0/150
提交评论