




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
法律【】和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被法律和经济责任。课程详情
炼数成金培训http:
2013.07.302o,
World!安装好的hadoop集群做个测试2013.07.303测试2013.07.304测试2013.07.3052013.07.306其它测试范例2013.07.307通过web了解Hadoop的活动通过用浏览器和http通过用浏览器和httpjobtracker所在节点的50030端口namenode所在节点的50070端口jobtracker集群2013.07.3082013.07.309Jobtracker2013.07.3010Jobtracker2013.07.30112013.07.3012日志2013.07.3013日志内容2013.07.3014Hadoop一些备受关注的特性与版本演进Append:支持文件追加功能,如果想使用HBase,需要这个特性。减少数据块数目。详细ponent/12313080RAID:在保证数据可靠的前提下,通过引入:Symlink
:支持HDFS文件
,具体可参考:Security:Hadoop安全性,具体可参考:NameNode
HA:具体可参考:1064HDFS
Federation和YARN2013.07.3015版本演进2013.07.3016Apache版本。stable文件夹下的版本。各版本说明:稳定版:找到一个镜像,Hadoop最全版本:
mon/branches/,可直接导到eclipse中。2013.07.3017Cloudera发布版Apache当前的版本管理是比较
的,各种版本层出不穷,让很多初学者不知所措,相比之下,Cloudera公司的Hadoop版本管理的要很多。知道,Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正因此,市面上出现了很多Hadoop版本,其中比较出名的一是Cloudera公司的版,
该版本称为CDH(Cloudera
Distribution
Hadoop)。截至目前为止,CDH共有4个版本,其中,前两个已经不再更新,最近的两个,分别是CDH3(在ApacheHadoop
0.20.2版本基础上演化而来的)和CDH4在ApacheHadoop2.0.0版本基础上演化而来的),分别对应Apache的Hadoop
1.0和Hadoop2.0,它们每隔一段时间便会更新一次。2013.07.3018CD
本演进Cloudera以patch
level划分小版本,比如patch
level为923.142表示在原生态
ApacheHadoop
0.20.2基础上添加了1065个patch(这些patch是各个公司或者个人贡献的,在Hadoop
jira上均有记录),其中923个是最后一个beta版本添加的patch,而142个是稳定版
后新添加的patch。由此可见,patch
level越高,功能越完备且解决的bug越多。Cloudera版本层次更加清晰,且它提供了适用于
系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。2013.07.3019CDH发布版版本含义介绍:https:/display/DOC/CDH+Version+and+Packaging+Information各版本特性查看:https:/display/DOC/CDH+Packaging+Information+for+Previous+Releases各版本:
CDH3:
/cdh/3/
CDH4:
/cdh4/cdh/4/注意,Hadoop压缩包在这两个
中的最上层
中,不在某个文件夹里,很多人进到
还找不到安装包!2013.07.3020HDFS提供分布式
机制,提供可线性增长的海量
能力自动数据冗余,无须使用Raid,无须另行备份为进一步分析计算提供数据基础2013.07.3021HDFS设计基础与目标硬件错误是常态。因此需要冗余流式数据
。即数据批量
而非随机读写,Hadoop擅长做的是数据分析而不是事务处理写多次读的逻辑设计,即大规模数据集简单一致性模型。为了降低系统复杂度,对文件采用是文件一经写入,关闭,就再也不能修改程序采用“数据就近”原则分配节点执行2013.07.3022HDFS体系结构NameNodeDataNode事务日志映像文件SecondaryNameNode2013.07.3023Namenode管理文件系统名空间记录每个文件数据块在各个Datanode上的位置和副本信息协调客户端对文件的记录命名空间内的改动或空间本身属性的改动Namenode使用事务日志记录HDFS元数据的变化。使用映像文件
文件系统名空间,包括文件
,文件属性等2013.07.3024Datanode负责所在物理节点的管理一次写入,多次(不修改)文件由数据块组成,典型的块大小是64MB数据块尽量散
各个节点2013.07.3025数据流程客户端要
HDFS中的一个文件首先从namenode获得组成这个文件的数据块位置列表根据列表知道
数据块的datanodedatanode获取数据Namenode并不参与数据实际传输2013.07.3026读过程图解2013.07.3027写入数据流程2013.07.3028客户端请求namenode创建新文件客户端将数据写入DFSOutputStream建立pipeline依次将目标数据块写入各个datanode,建立多个副本写过程图解2013.07.3029HDFS的可靠性2013.07.3030冗余副本策略机架策略心跳机制安全模式校验和回收站元数据保护快照机制冗余副本策略因子指定副本数量可以在hdfs-site.xml中设置所有数据块都有副本Datanode启动时,遍历本地文件系统,产生一份hdfs数据块和本地文件的对应关系列表(blockreport)汇报给namenode2013.07.3031副本因子参数2013.07.3032机架策略集群一般放在不同机架上,机架间带宽要比机架内带宽要小HDFS的“机架感知”一般在本机架存放一个副本,在其它机架再存放别的副本,这样可以防止机架失效时丢失数据,也可以提高带宽利用率2013.07.3033RackAware.py2013.07.3034#!/usr/bin/python#-*-coding:UTF-8
-*-importsysrack
=
{"hadoop-node-31":"rack1","hadoop-node-32":"rack1","hadoop-node-49":"rack2","hadoop-node-50":"rack2","hadoop-node-51":"rack2","1":"rack1","2":"rack1","9":"rack2","0":"rack2","1":"rack2",}if
name
=="
main
"/"
+rack.get(sys.argv[1],"rack0")core-site.xml配置文件<property><name></name><value>/opt/modules/hadoop/hadoop-1.0.3/bin/RackAware.py</value>路径--><!--机架感知</property><property><name>topology.script.number.args</name><value>20</value><!--机架服务器数量,由于我写了20个,所以这里写20--></property>然后重启hadoop的namenode和jobtracker,可以在logs里看下namenode和jobtracker的日志,看到机架感知功能已经启用了。2013.07.3035心跳机制Namenode周期性从datanode接收心跳信号和块报告Namenode根据块报告验证元数据没有按时发送心跳的datanode会被标记为宕机,不会再给它任何I/O请求如果datanode失效造成副本数量下降,并且低于预先设置的阈值,namenode会检测出这些数据块,并在合适的时机进行重新重新
的原因还包括数据副本本身损坏、磁盘错误,
因子被增大等2013.07.3036安全模式Namenode启动时会先经过一个“安全模式”阶段安全模式阶段不会产生数据写在此阶段Namenode收集各个datanode的报告,当数据块达到最小副本数以上时,会被认为是“安全”的在一定比例(可设置)的数据块被确定为“安全”后,再过若干时间,安全模式结束当检测到副本数不足的数据块时,该块会被
直到达到最小副本数2013.07.3037安全模式实验2013.07.3038校验和在文件创立时,每个数据块都产生校验和校验和保存在.meta文件内客户端获取数据时可以检查校验和是否相同,从而发现数据块是否损坏如果正在
的数据块损坏,则可以继续
其它副本2013.07.3039回收站删除文件时,其实是放入回收站/trash回收站里的文件可以快速恢复可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值,就被彻底删除,并且
占用的数据块2013.07.3040打开回收站功能2013.07.3041在conf/core-site.xml添加配置:<property><name>erval</name><value>10080</value><description>Number
of
minutes
between
trashcheckpoints.
If
zero,
the
trash
featureisdisabled</description></property>重启集群验证回收站功能实验2013.07.3042恢复及清空2013.07.3043元数据保护映像文件刚和事务日志是Namenode的
数据。可以配置为拥有多个副本副本会降低Namenode的处理速度,但增加安全性Namenode依然是单点,如果发生故障要手工切换2013.07.3044快照这个时间点的状态在Hadoop
2.x某版本里讲获得支持
某个时间点的映像,需要时可以使数据Hadoop目前还不支持快照,已经列入开发计划,此功能2013.07.3045HDFS文件操作2013.07.3046命令行方式API方式列出HDFS下的文件注意,hadoop没有当前的概念,也没有cd命令2013.07.3047上传文件到HDFS2013.07.3048数据写在了哪儿(从OS看)2013.07.3049将HDFS的文件
到本地2013.07.3050删除HDFS下的文档2013.07.3051查看HDFS下某个文件的内容2013.07.3052查看HDFS基本统计信息2013.07.3053怎样添加节点?在新节点安装好hadoop把namenode的有关配置文件
到该节点修改masters和slaves文件,增加该节点设置ssh免
进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 5S系列知识介绍
- 山东省济宁市兖州区2025年高三年级模拟考试(一)历史试题含解析
- 山东省招远一中2024-2025学年高三第二次模考历史试题理试题含解析
- 浙江工业大学之江学院《异常心理学》2023-2024学年第二学期期末试卷
- 徽商职业学院《食品质量与安专业全综合实验(实验)》2023-2024学年第一学期期末试卷
- 河南省漯河市重点中学2024-2025学年高考生物试题查漏补缺试题(文理)含解析
- 重庆工信职业学院《定向运动》2023-2024学年第二学期期末试卷
- 贵州装备制造职业学院《卫生管理统计学》2023-2024学年第二学期期末试卷
- 中国民航大学《大学外语四》2023-2024学年第一学期期末试卷
- 湖北省部分高中协作体2025届高三三月联考一模考试语文试题及答案
- 2025年汽车维修技能大赛理论知识考试题库及答案(共450题)
- 2024年南通市公安局苏锡通园区分局招聘警务辅助人员考试真题
- 不良资产处置业务操作流程与财务管理
- 2024-2025学年人教版初中地理七年级下册课件 第10章 第2节 巴西
- 2025届山东省青岛市高三下学期一模英语试题(原卷版+解析版)
- 2025年开封大学单招职业倾向性考试题库含答案
- 2025届福建省厦门市高三第二次质量检测地理试题(原卷版+解析版)
- 车队安全学习培训课件
- 地理视角解读电影《哪吒》-开学第一课-高中地理
- JJF1033-2023计量标准考核规范
- 《儿童代谢综合征临床防治指南(2025)》临床解读
评论
0/150
提交评论