hadoop需要哪些技术支持_第1页
hadoop需要哪些技术支持_第2页
hadoop需要哪些技术支持_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、hadoop是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼 此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,hadoop 包含以下两个主要组件:hadoop distributed file system (i1dfs)和一个分布 式计算引擎,该引擎支持以mapreduce作业的形式实现和运行程序。hadoop还提供了软件基础架构,以一系列map和reduce任务的形式运行 mapreduce作业。map任务在输入数据的子集上调用map函数。在完成这些调用 后,reduce任务开始在meip函数所生成的中间数据上调用reduce任务,生成最 终的输出。map和re

2、duce任务彼此单独运行,这支持并行和容错的计算。最重要的是,hadoop基础架构负责处理分布式处理的所有复杂方面:并行 化、调度、资源管理、机器间通信、软件和硬件故障处理,等等。得益于这种干 净的抽象,实现处理数百(或者甚至数千)个机器上的数tb数据的分布式应用 程序从未像现在这么容易过,甚至对于之前没有使用分布式系统的经验的开发人 员也是如此。map tidebdfettn f ."memory & ” "丰亠匸f伽 i / pontiiom / /讣i- w*ssl v reducephase reduce task» othtfrucnmap re

3、duce过程图shuffle combine整体的shuffle过程包含以卜几个部分:map端shufflc> sort阶段、reduce 端shuffle。即是说:shuffle过程横跨map和reduce两端,中间包含sort阶段,就是数据从map task输出到reduce task输入的这段过程。sort> combine是在map端的,combine是提前的reduce ,需要自己设 置。iladoop集群屮,大部分map task与reduce task的执彳亍是在不同的节点 上。当然很多情况下reduce执行时需要跨节点去拉取其它节点上的map task 结果。如果集

4、群正在运行的job有很多,那么task的正常执行对集群内部的 网络资源消耗会很严重。而对于必要的网络资源消耗,最终的目的就是最大化地 减少不必要的消耗。还有在节点内,相比于内存,磁盘10对job完成时间的 影响也是可观的。从最基本的要求来说,对于mapreduce的job性能调优的 shuffle过程,目标期望可以有:完整地从map task端拉取数据到reduce端。在跨节点拉取数据时,尽可能地减少对带宽的不必要消耗。减少磁盘10对task执行的影响。总体来讲这段shuffle过程,能优化的地方主要在于减少拉取数据的量及尽 量使用内存而不是磁盘。yarnresourcemanager代替集群

5、管理器applicationmastcr 代替一个专用且短暂的 jobtipckcrnodemanager 代替 tasktracker一个分布式应用程序代替一个mapreduce作业一个全局resourcemanager以主要后台进程的形式运行,它通常在专用机 器上运行,在各种竞争的应用程序之间仲裁可用的集群资源。在用户提交一个应用程序时,一个称为app 1 icationmaster的轻量型进程 实例会启动来协调应用程序内的所有任务的执行。这包括监视任务,重新启动失 败的任务,推测性地运行缓慢的任务,以及计算应用程序计数器值的总和。有趣 的是,applicationmaster可在容器内运

6、行任何类型的任务。nodemanager是tasktracker的一种更加普通和高效的版本。没有i占1定数 量的map和reduce slots, nodemanager拥有许多动态创建的资源容器。大数据 iladoop 发厂商有 amazon web scrviccs> cloudera ilortonworks> ibm. mapr科技、华为和大快搜索。这些厂商都是基于apache开源项目,然后 增加打包、支持、集成等特性以及自己的创新等内容。大快的大数据通用计算平台(dki1),已经集成相同版本号的开发框架的全 部组件。如果在开源人数据框架上部署人快的开发框架,需要平台的组件支持如 下:数据源与 sql 引擎:dk. hadoop> spark> hive> sqoop、flume、kafka数据采集:dk. haclo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论