




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Hadoop Basics-HDFSJohnson JiangMay. 2015什么是Hadoop? Hadoop是?Apache开源软件基金会开发的运行于大规模普通服务器上的用于大数据存储、计算、分析的分布式存储系统和分布式运算框架? Hadoop由两个部分组成? 分布式文件系统HDFS? 分布式运算框架MapReduce? Hadoop这个单词是什么意思?? 它是作者儿子的一个毛绒玩具小象的名字Hadoop版本图Hadoop生态环境HDFS结构内容HDFS主要组件的功能 NameNode 存储元数据元数据保存在内存中 保存文件,block ,datanode之间的映射关系DataNode
2、存储文件内容文件内容保存在磁盘维护了block id到 datanode本地文件的映射关系文件文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等DataNode在本地文件系统存储文件块数据,以及块数据的校验8NameNodeNamenode是一个中心服务器,单一节点,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问文件操作,NameNode负责文件元数据
3、的DataNode负责处理文件内容的读写请求,数据流不经过NameNode,只会询问它跟那个DataNode联系NameNode副本存放在那些DataNode上由NameNode来控制,根据全局情况做出块放置决定,读取文件时NameNode尽量让用户先读取最近的副本,降低带块消耗和读取时延Namenode全权管理数据块的复制,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。 块存储结构metadate物理存储结构NameNode(NN)Dat
4、aNode一个数据块在DataNode以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode 的心跳,则认为该节点不可用。集群运行中可以安全加入和退出一些机器DataNode(DN)保存Block启动DN线程的时候会向NN汇报block信息通过向NN发送心跳保持与其联系(3
5、秒一次),如果NN 10分钟没有收到DN的心跳,则认为其已经lost,并copy其上的block到其它DN 数据损坏(corruption)处理当DN读取block的时候,它会计算checksum;如果计算后的checksum,与block创建时值不一样,说明该block已经损坏。client读取其它DN上的block;NN标记该块已经损坏,然后复制block达到预期设置的文件备份数;DN在其文件创建后三周验证其checksum。HDFS文件权限与Linux文件权限类似r: read; w:write; x:execute,权限x对于文件忽略,对于文件夹表示是否允许访问其内容如果Linux系统用户zhangsan使用hadoop命令创建一个文件,那么这个文件在HDFS中owner就是zhangsanHDFS的权限目的:阻止好人做错事,而不是阻止坏人做坏事。HDFS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于劳动力转移视角的劳务品牌建设
- 公司章程内部管理制度
- 2024年贵州六枝特区城政建设有限责任公司招聘真题
- 劳模感谢发言材料
- 河南郑州工商学院招聘笔试真题2024
- 社区社区服务设施维护与管理基础知识点归纳
- 制造系统安全性和可靠性评估指标体系研究-洞察阐释
- 基于AI的生理学教学评估与学习效果提升
- 社区托育服务的质量监控与评估体系建设
- 造纸业企业经营管理方案
- 核赔经典疑难案例解析
- 西班牙语入门语法(修正)
- 文科物理学习通课后章节答案期末考试题库2023年
- 监理工作验收的流程及验收的标准
- 大棚房整治工作总结报告【六篇】
- 古今字通假字异体字繁简字
- “一河(湖)一策”方案编制指南 (试行)
- 湖南省专业技术人员继续教育2022年公需科目考试试题及参考答案
- 消防栓定期检查记录表
- 高一地理知识点总结
- 工程勘察服务成本要素信息
评论
0/150
提交评论