![2017年大数据晚直播课地址-3月24日mapreduce_第1页](http://file4.renrendoc.com/view/5dcd6711f58195df5014ae15216896e0/5dcd6711f58195df5014ae15216896e01.gif)
![2017年大数据晚直播课地址-3月24日mapreduce_第2页](http://file4.renrendoc.com/view/5dcd6711f58195df5014ae15216896e0/5dcd6711f58195df5014ae15216896e02.gif)
![2017年大数据晚直播课地址-3月24日mapreduce_第3页](http://file4.renrendoc.com/view/5dcd6711f58195df5014ae15216896e0/5dcd6711f58195df5014ae15216896e03.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MapReduce的体系①MapReduce的基本概采用Mpde架构实现的程序能够在由大量的普通配置的计算机构成的集群中实现并行化操作。Maece系统在运行过程中只关心数Mpde架构可以使那些没有进行并行计算和分布式计算的开发能充分利用分布式系统的丰富资源进行并行式、分布式的开发。MapReduce框架由一个单独的masterJobTracker和集群节点上的slaveTaskTracker共同组成master负责调度一个作业中的所有任务,把这些任务分布在不同的slave上masterslave节点上这些任务的执行情况,并重新执行失败的任务slave仅负责执行由master②MapReduce是什MapReduce是一种编程模型,一种云计算的计算模型MapReduce主要用来解决什么问Mece致力于解决大规模数据处理的问题。基于分治法的思想,点上处理时每个节点先就近本地的数据来进行MpMp(cmi(shffle和sort)后再分发到ece节点。MapReduce的思MapReduce编程模式的主要思想是将自动分割的要执行问题拆解成Map()和Reduce(化简)的方式。它的两项操作是Map和Reduce在数据分割后通过Map函数的程序将数据成不同的区块,分配给计算机群处理,达到分布式运算的效果。再通过Reduce函数的9、Hadoop的数据管Hadoop的数据管理主要包括Hadoop的分布式文件HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理它们都有自己完整的数据定义和体系结构,以及实现数据从宏观到微观的管理方法HDFS的数据管通过3个重要的角色来进行字节点NameNode数据节点和客户端Clientmede是分布式文件系统中的管理者,它主要负责管理文件系统名空间、集群配置信息和块的等。NmNe节点将文件系统的Mtdta在内存中,Metadata的信息主要包括文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode中的信息等。DataNode是文它将文件块在本地文件系统中,保存了所有的Block的Metadata,同时周期性地将所有存在的Block给NameNodeClinet就是文件系统文件的应用程序HBase的数据管HBase是一个分布式的、面向列的开源数据库。HBaseApache的的数据库。HBase是BigTable的开源实现3)Hive的数据管Hive作为一个数据管它的数据管理按照使用层次方面可以从元数据、数据和查询计划3个方面来介绍①元数Hive数据仓库将元数据在关系数据库中,如MySQL、Derby。Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性、表的数据所 Hive的数据在HDFS中,大部分查询是通过MapReduce来完成的,但是带有*的查询是不会MapReduce任务的。②数据在Hive中没有专门的数据格式,也不需要为数据建立索户可以自由地在Hive中组织表表之前创建表时通知Hive在数Hive就可以解析数据了③查询计查询计划是通过解释器、编译器、优化器完成QL查询语句从词法在HS中,并在Mpce调用执行。HADOOP_HEAPSIZEtasktrackerJVMmapreduce um2 um),分配给每个子jvm的 namenodenamenode比如,配备8核处理器时,并计划在各个处理器上分别跑2个进程,可将mapred.tasktracker.map.tasks.um和mapred.tasktracker.reduce.tasks.um分别设为7,每个子JVM的内存量mapred.child.java.opts提提高至400M。Bbnamenodemapio.sort.mbmap内容被spillmapreduce100mapreducer的数据 httpreducer数,此设置针对tasktracker,而非map5用于把map输出并行到reducershuffle ducer的缓冲区大小,如果map输出dfs.hosts记录即将作为datanode加入集群的机器列表mapred.hoststasktrackdfs.hosts.exclude待移除机器列表mapred.hosts.excludeJVM置为-1时,表示。JobConf的setNumTasksToExecutePerJvm()方法也可以设置。 erval,回收站中保留的时间,以分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国造币厂化工材料项目投资可行性研究报告
- PU胶生产项目可行性报告3
- 《分苹果》(教案)2024-2025学年数学二年级上册
- 知识产权侵权行为的社会影响与法律规制
- 2025年杀虫剂乳化品项目可行性研究报告
- 2025年中国铺管船行业市场调查研究及投资战略咨询报告
- 2025年中国球星卡行业发展前景及投资战略咨询报告
- 2025年中国抗焦虑药行业市场全景监测及投资前景展望报告
- 设计师转正申请书范文
- 2025年中国静脉曲张压力袜市场前景预测及投资规划研究报告
- 2025年上半年中煤科工集团北京华宇工程限公司中层干部公开招聘易考易错模拟试题(共500题)试卷后附参考答案
- 会议室墙面隔音板施工方案
- 特朗普就职演说全文与核心要点
- (完整版)陆河客家请神书
- 2025年教科版新教材科学小学一年级下册教学计划(含进度表)
- 北京市海淀区2024-2025学年五年级上册语文期末试卷(有答案)
- 2024-2024年高考全国卷英语语法填空
- 《乒乓球》体育课教案(全)
- 阻变随机存储器(RRAM)综述(自己整理)
- 提高住房公积服务质量打造住房公积金服务品牌
- VAV末端系统调试方案
评论
0/150
提交评论