hadoop教程-培训课件

上传人：汤*** IP属地：北京上传时间：2022-10-18 格式：PPTX 页数：58 大小：1.52MB 积分：20 举报 版权申诉

已阅读5页，还剩53页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

法律【】和幻灯片为炼数成金网络课程的教学资料，所有资料只能在课程内使用，不得在课程以外范围散播，违者将可能被法律和经济责任。课程详情

炼数成金培训http:

2013.07.302o,

World!安装好的hadoop集群做个测试2013.07.303测试2013.07.304测试2013.07.3052013.07.306其它测试范例2013.07.307通过web了解Hadoop的活动通过用浏览器和http通过用浏览器和httpjobtracker所在节点的50030端口namenode所在节点的50070端口jobtracker集群2013.07.3082013.07.309Jobtracker2013.07.3010Jobtracker2013.07.30112013.07.3012日志2013.07.3013日志内容2013.07.3014Hadoop一些备受关注的特性与版本演进Append：支持文件追加功能，如果想使用HBase，需要这个特性。减少数据块数目。详细ponent/12313080RAID：在保证数据可靠的前提下，通过引入：Symlink

：支持HDFS文件

，具体可参考：Security：Hadoop安全性，具体可参考：NameNode

HA：具体可参考：1064HDFS

Federation和YARN2013.07.3015版本演进2013.07.3016Apache版本。stable文件夹下的版本。各版本说明：稳定版：找到一个镜像，Hadoop最全版本：

mon/branches/，可直接导到eclipse中。2013.07.3017Cloudera发布版Apache当前的版本管理是比较

的，各种版本层出不穷，让很多初学者不知所措，相比之下，Cloudera公司的Hadoop版本管理的要很多。知道，Hadoop遵从Apache开源协议，用户可以免费地任意使用和修改Hadoop，也正因此，市面上出现了很多Hadoop版本，其中比较出名的一是Cloudera公司的版，

该版本称为CDH（Cloudera

Distribution

Hadoop）。截至目前为止，CDH共有4个版本，其中，前两个已经不再更新，最近的两个，分别是CDH3（在ApacheHadoop

0.20.2版本基础上演化而来的）和CDH4在ApacheHadoop2.0.0版本基础上演化而来的），分别对应Apache的Hadoop

1.0和Hadoop2.0，它们每隔一段时间便会更新一次。2013.07.3018CD

本演进Cloudera以patch

level划分小版本，比如patch

level为923.142表示在原生态

ApacheHadoop

0.20.2基础上添加了1065个patch（这些patch是各个公司或者个人贡献的，在Hadoop

jira上均有记录），其中923个是最后一个beta版本添加的patch，而142个是稳定版

后新添加的patch。由此可见，patch

level越高，功能越完备且解决的bug越多。Cloudera版本层次更加清晰，且它提供了适用于

系统的Hadoop安装包，可直接使用apt-get或者yum命令进行安装，更加省事。2013.07.3019CDH发布版版本含义介绍：https:/display/DOC/CDH+Version+and+Packaging+Information各版本特性查看：https:/display/DOC/CDH+Packaging+Information+for+Previous+Releases各版本：

CDH3：

/cdh/3/

CDH4：

/cdh4/cdh/4/注意，Hadoop压缩包在这两个

中的最上层

中，不在某个文件夹里，很多人进到

还找不到安装包！2013.07.3020HDFS提供分布式

机制，提供可线性增长的海量

能力自动数据冗余，无须使用Raid，无须另行备份为进一步分析计算提供数据基础2013.07.3021HDFS设计基础与目标硬件错误是常态。因此需要冗余流式数据

。即数据批量

而非随机读写，Hadoop擅长做的是数据分析而不是事务处理写多次读的逻辑设计，即大规模数据集简单一致性模型。为了降低系统复杂度，对文件采用是文件一经写入，关闭，就再也不能修改程序采用“数据就近”原则分配节点执行2013.07.3022HDFS体系结构NameNodeDataNode事务日志映像文件SecondaryNameNode2013.07.3023Namenode管理文件系统名空间记录每个文件数据块在各个Datanode上的位置和副本信息协调客户端对文件的记录命名空间内的改动或空间本身属性的改动Namenode使用事务日志记录HDFS元数据的变化。使用映像文件

文件系统名空间，包括文件

，文件属性等2013.07.3024Datanode负责所在物理节点的管理一次写入，多次（不修改）文件由数据块组成，典型的块大小是64MB数据块尽量散

各个节点2013.07.3025数据流程客户端要

HDFS中的一个文件首先从namenode获得组成这个文件的数据块位置列表根据列表知道

数据块的datanodedatanode获取数据Namenode并不参与数据实际传输2013.07.3026读过程图解2013.07.3027写入数据流程2013.07.3028客户端请求namenode创建新文件客户端将数据写入DFSOutputStream建立pipeline依次将目标数据块写入各个datanode，建立多个副本写过程图解2013.07.3029HDFS的可靠性2013.07.3030冗余副本策略机架策略心跳机制安全模式校验和回收站元数据保护快照机制冗余副本策略因子指定副本数量可以在hdfs-site.xml中设置所有数据块都有副本Datanode启动时，遍历本地文件系统，产生一份hdfs数据块和本地文件的对应关系列表（blockreport）汇报给namenode2013.07.3031副本因子参数2013.07.3032机架策略集群一般放在不同机架上，机架间带宽要比机架内带宽要小HDFS的“机架感知”一般在本机架存放一个副本，在其它机架再存放别的副本，这样可以防止机架失效时丢失数据，也可以提高带宽利用率2013.07.3033RackAware.py2013.07.3034#!/usr/bin/python#-*-coding:UTF-8

-*-importsysrack

{"hadoop-node-31":"rack1","hadoop-node-32":"rack1","hadoop-node-49":"rack2","hadoop-node-50":"rack2","hadoop-node-51":"rack2","1":"rack1","2":"rack1","9":"rack2","0":"rack2","1":"rack2",}if

name

=="

main

":print

"/"

+rack.get(sys.argv[1],"rack0")core-site.xml配置文件<property><name></name><value>/opt/modules/hadoop/hadoop-1.0.3/bin/RackAware.py</value>路径--></property>然后重启hadoop的namenode和jobtracker，可以在logs里看下namenode和jobtracker的日志，看到机架感知功能已经启用了。2013.07.3035心跳机制Namenode周期性从datanode接收心跳信号和块报告Namenode根据块报告验证元数据没有按时发送心跳的datanode会被标记为宕机，不会再给它任何I/O请求如果datanode失效造成副本数量下降，并且低于预先设置的阈值，namenode会检测出这些数据块，并在合适的时机进行重新重新

的原因还包括数据副本本身损坏、磁盘错误，

因子被增大等2013.07.3036安全模式Namenode启动时会先经过一个“安全模式”阶段安全模式阶段不会产生数据写在此阶段Namenode收集各个datanode的报告，当数据块达到最小副本数以上时，会被认为是“安全”的在一定比例（可设置）的数据块被确定为“安全”后，再过若干时间，安全模式结束当检测到副本数不足的数据块时，该块会被

直到达到最小副本数2013.07.3037安全模式实验2013.07.3038校验和在文件创立时，每个数据块都产生校验和校验和保存在.meta文件内客户端获取数据时可以检查校验和是否相同，从而发现数据块是否损坏如果正在

的数据块损坏，则可以继续

其它副本2013.07.3039回收站删除文件时，其实是放入回收站/trash回收站里的文件可以快速恢复可以设置一个时间阈值，当回收站里文件的存放时间超过这个阈值，就被彻底删除，并且

占用的数据块2013.07.3040打开回收站功能2013.07.3041在conf/core-site.xml添加配置：<property><name>erval</name><value>10080</value><description>Number

minutes

between

trashcheckpoints.

zero,

the

trash

featureisdisabled</description></property>重启集群验证回收站功能实验2013.07.3042恢复及清空2013.07.3043元数据保护映像文件刚和事务日志是Namenode的

数据。可以配置为拥有多个副本副本会降低Namenode的处理速度，但增加安全性Namenode依然是单点，如果发生故障要手工切换2013.07.3044快照这个时间点的状态在Hadoop

2.x某版本里讲获得支持

某个时间点的映像，需要时可以使数据Hadoop目前还不支持快照，已经列入开发计划，此功能2013.07.3045HDFS文件操作2013.07.3046命令行方式API方式列出HDFS下的文件注意，hadoop没有当前的概念，也没有cd命令2013.07.3047上传文件到HDFS2013.07.3048数据写在了哪儿（从OS看）2013.07.3049将HDFS的文件

到本地2013.07.3050删除HDFS下的文档2013.07.3051查看HDFS下某个文件的内容2013.07.3052查看HDFS基本统计信息2013.07.3053怎样添加节点？在新节点安装好hadoop把namenode的有关配置文件

到该节点修改masters和slaves文件，增加该节点设置ssh免

进

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

hadoop教程-培训课件

文档简介

温馨提示

最新文档

评论

hadoop教程-培训课件

文档简介

温馨提示

最新文档

评论

相关文档