云计算与大数据技术 课件9.3 MapReduce计算框架_第1页
云计算与大数据技术 课件9.3 MapReduce计算框架_第2页
云计算与大数据技术 课件9.3 MapReduce计算框架_第3页
云计算与大数据技术 课件9.3 MapReduce计算框架_第4页
云计算与大数据技术 课件9.3 MapReduce计算框架_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MapReduceMapReduceMapReduce是一个分布式运算程序的计算框架,其核心功能是将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的分布式运算程序,从而并发运行在一个Hadoop集群上。MapReduce的基本思路是先对庞大的数据集进行划分,将其分解成若干个小的数据集,再将每个(或多个)数据集交由集群中的某个普通计算节点运行,得到一个中间的输出结果。之后,将这些中间的输出结果根据一定的规则进行汇聚,归并出最后的输出结果到HDFS上。MapReduce架构MapReduce2.0采用了主从(MasterSlave)结构,ResourceManager(资源管理器)是Master,NodeManger(节点管理器)是Slave。ResourceManager分为Scheduler(调度器)和ApplicationsManager(应用程序管理器)。Scheduler负责作业的调度并将集群中的资源分配给应用,ApplicationManager负责接收任务。MapReduce2.0架构Container(容器)是YARN中资源的抽象,将操作系统中多维度的资源(如CPU、内存、网络I/O和磁盘I/O等)封装在一起,是YARN中资源的基本单位。客户端提交一个作业(应用程序)到ResourceManager上,ResourceManager先与集群中的NodeManager通信,然后根据集群中NodeManger的资源使用情况,确定运行作业的NodeManager;MapReduce2.0架构MapReduce2.0架构确定了运行的节点后,作业马上向ResourceManger申请资源,资源被封装成Container的形式响应给应用,申请到资源后,ResourceManger马上在NodeManger上启动作业。所有任务运行完成后,ApplicationMaster向ResourceManager发出注销指令,结束整个应用程序的运行。MapReduce的执行流程MapReduce的执行流程下面以一个基于MapReduce的WordCount例子的执行流程来展示MapReduce的执行流程MapReduce的shuffle机制MapReduce的shuffle机制Shuffle是MapReduce框架中Map阶段与Reduce阶段之间数据传递的关键流程,其每个处理步骤都在不同的MapTask和ReduceTask节点上分布式地进行。具体而言,它负责将MapTask输出的结果数据发送给ReduceTask,并在这一过程中,根据Key对数据进行分区和排序。MapReduce的shuffle机制Shuffle的核心机制包括数据分区(Partition)、数据排序(Sort,根据Key进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论