1.hadoop介绍-hdfs和mapreduce工作原理1hadoop_第1页
1.hadoop介绍-hdfs和mapreduce工作原理1hadoop_第2页
1.hadoop介绍-hdfs和mapreduce工作原理1hadoop_第3页
1.hadoop介绍-hdfs和mapreduce工作原理1hadoop_第4页
1.hadoop介绍-hdfs和mapreduce工作原理1hadoop_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Hadoop入门及应用讲师:Robby本节课的主要内容Hadoop介绍HDFS介绍HDFS架构Hadoop要解决2个问题海量数据的存储 - HDFS海量数据的分析 - MapReduceHadoop的历史始于2002年的apache项目Nutch2003年Google发表了关于GFS的论文2004年Nutch的开发者开发了NDFS2004年Google发表了关于MapReduce的论文2005年MapR被引入了NDFS2006年改名为Hadoop,NDFS的创始人加入Yahoo,Yahoo成立了一个专门的小组发展Hadoop学习Hadoop的目的Hadoop是IT行业一个新的热点,是云计算的一

2、个具体实现Hadoop本身具有很高的技术含量,是IT工程师学习的首选Hadoop是什么?Hadoop = The Hadoop projectsCommon, Avro, MapReduce, HDFS, Pig, Hive, Hbase, ZooKeeper, Sqoop, OozieHDFS设计目标Very large filesStreaming data accesswrite-once, read-many-timesCommodity hardwareHDFS不适合的场景Low-latency data accessLots of small filesMultiple write

3、rs, arbitrary file modificationsHDFS架构(1)a.txt 600G在Hadoop中,一个文件被划分成大小固定的多个文件块,分布的存储在集群中的节点中HDFS架构(2)同一个文件块在不同的节点中有多个副本111HDFS架构(3)我们需要一个集中的地方保存文件的分块信息/home/hdfs/a.txt.part1,3,(dn1,dn2,dn3)/home/hdfs/a.txt.part2,3,(dn2,dn3,dn4)/home/hdfs/a.txt.part3,3,(dn6,dn11,dn28)HDFS架构(4)HDFS架构(5)Block:一个文件分块,默认

4、64MNameNode:保存整个文件系统的目录信息,文件信息以及文件相应的分块信息。DataNode:用于存储BlocksHDFS的HA策略:NameNode一旦宕机,整个文件系统将无法工作。如果NameNode中的数据丢失,整个文件系统也就丢失了。2.x开始,HDFS支持NameNode的active-standy模式MapReduce原理(1)问题:求出以下数组当中最大的数1,3,23,3,4,18,2,8,10,16,7,5int Max(int a, n)int m=0;for(int i=0; in; i+)if(mai) m=ai;return m;MapReduce原理(2)MapReduce是一种编程模型,用于大规模数据集的并行计算。1,3,233,4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论