版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、技术创新,变革未来MapReduce技术平台详解内容MapReduce介绍MapReduce优缺点MapReduce基本流程 MapReduce编程范例MapReduce练习案例MapReduce介绍MapReduce 是一个分布式计算框架基于它写出来的应用程序能够运行在由上千个商用机器组 成的大型集群上以一种可靠容错的方式并行处理PB级别的数据集Hadoop MapReduce 其实就是 Google MapReduce 的一 个开源版本MapReduce优点易于编程:简单的实现一些接口,类似于写一个简单的串 行程序,就可以完成一个分布式程序,这个分布式程序可以 分布到大量廉价的 PC 机器
2、运行良好的扩展性:计算资源不够的时候,可以通过简单的增 加机器扩展计算能力高容错性:例如其中一台机器挂了,会自动把上面的计算任务转移到另外一个节点上运行,不至于任务运行失败,整 个过程不需要人工参与离线处理PB 级以上海量数据:适合离线处理MapReduce缺点实时计算: MapReduce 无法像 Mysql 一样,在毫秒或者 秒级内返回结果流式计算: MapReduce 自身的设计特点决定了数据源必 须是静态的,不能动态变化,而流式计算的输入数据是动态 的DAG计算:涉及多次迭代计算,MapReduce 可以做,但是每个MapReduce 作业的输出结果都会写入到磁盘,造成 大量的磁盘IO
3、,导致性能低下MapReduce基本流程(1)MapReduce是一种编程模型,用于大规模数据集的并行 计算,主要思想是Map(映射)和Reduce(化简)。MapReduce程序将输入数据列表变成输出数据列表。MapReduce程序由两个阶段组成:Map和Reduce,用户 只需要实现map()和reduce()两个函数,即可实现分布式计 算。MapReduce基本流程(2)map任务处理对输入文件的每一行,解析成key、value对,每一个键值 对调用一次map函数写自己的逻辑,对输入的key、value处理,转换成新的key、value输出对输出的key、value进行分区对不同分区的数
4、据,按照key进行排序、分组,相同key的value放到一个集合中(可选)分组后的数据进行归约MapReduce基本流程(3)reduce任务处理对多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点对多个map任务的输出进行合并、排序写reduce函数逻辑,对输入的key、value处理,转换成新 的key、value输出把reduce的输出保存到文件中MapReduce的基本设计思想对大数据并行处理:分而治之上升到抽象模型:Map与Reduce上升到框架:以统一框架为程序员隐藏系统细节MapReduce编程范例PatentMapReduce练习某旅行APP每天产生
5、大量访问日志,用户【uuid-x】每一次操作会产生一条 日志记录,假设用户可通过单程搜索【search-dancheng】,往返搜索【 search-wangfan】等多个入口进入,可通过报价详情页【detail】选择航班 并完成最后的下订单,可通过【submit】完成购票操作日志格式如下,请计算20150521这一天该旅行APP有多少单程搜索,有多 少往返搜索MapReduce练习合并文档去重:资源文件a1:hadoop test hello word资源文件a2: happy birthdaythis isa test最终结果: hadoop testhello word happy birthday thisis a如果不去重呢?MapReduce练习统计结果:1-3年经验3-5年经验5-10年经验8-30k10-33k20-35kMapReduce练习气象数据集:由分布在美国全国各地区的很多气象传感器每隔一小时进行 收集MapRedu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年房产认购专项协议范本
- 2024年成品油销售协议模板
- 2023-2024学年珠海市全国大联考(江苏卷)高三第二次数学试题试卷
- 2024年高效代理合作招募协议模板
- 2024年幼教岗位聘用协议范本
- 彩钢瓦安装工程协议模板2024年
- 2024年海水产品长期供应协议模板
- 2024年度润滑油分销协议范本
- 文书模板-《硬件设计合同》
- 2024房产居间服务协议模板
- 古建新生 课件 2024-2025学年人美版(2024)初中美术七年级上册
- 绵阳市高中2022级(2025届)高三第一次诊断性考试(一诊)物理试卷(含标准答案)
- 项目终止欠款合同模板
- 江苏省南通市如皋市2024-2025学年九年级上学期10月期中物理o化学试题
- 吉林市2024-2025学年度高三第一次模拟测试 (一模)化学试卷(含答案 )
- 金匮要略2022-2023-2学期学习通超星期末考试答案章节答案2024年
- 2024中国东方航空技术限公司全球校园招聘高频难、易错点500题模拟试题附带答案详解
- 2024年西藏自治区中考道德与法治试题卷(含答案解析)
- 2024年秋季新统编版七年级上册道德与法治全册教案
- 2022版义务教育艺术课程标准美术新课标学习解读课件
- 行政复议法-形考作业1-国开(ZJ)-参考资料
评论
0/150
提交评论