




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《大数据平台部署与运维》单元4HDFS分布式文件系统任务4.2
HDFS的系统管理操作01HDFS安全模式学习目标02HDFS扩容操作03HDFS数据平衡04HDFS存储策略05HDFS快照任务4.3HDFS的系统管理操作【任务场景】经理:小张,你梳理一下HDFS的系统管理操作,制定一下我们运维团队的操作规范?小张:好的,我们随着数据量的增加,会出现扩容,以及系统维护的一系列操作。我整理出来,形成操作标准。任务4.3HDFS的系统管理操作【任务布置】了解HDFS的安全模式操作、扩容操作、数据平衡操作以及快照操作的使用场景和具体操作方法。任务4.3HDFS的系统管理操作4.3.1HDFS安全模式在启动期间,NameNode从fsimage和edits日志文件加载文件系统状态。然后,它等待DataNode注册与发送BlockReport,验证集群中的数据块副本是否恢复正常,等待过程中它不会过早地开始复制块,以免发生数据错误。在此期间,NameNode保持Safemode状态。NameNode的安全模式本质上是HDFS集群的只读模式,它不允许对文件系统或块进行任何修改。通常,在DataNode报告大多数文件系统块可用之后,NameNode会自动离开Safemode。当需要对文件系统进行生产性维护,如数据迁移、备份等操作时,需人工将HDFS设置为安全模式。进入安全模式后,因文件系统对客户端是只读状态,用户只能从文件系统获取数据,但文件的修改操作,包括写、删除或重命名均会失败。HDFS安全模式常用的操作命令如下:
查看是否处于安全模式hdfsdfsadmin-safemodeget等待退出安全模式hdfsdfsadmin-safemodewait手动进入安全模式hdfsdfsadmin-safemodeenter手动离开安全模式hdfsdfsadmin-safemodeleave任务4.3HDFS的系统管理操作4.3.1HDFS安全模式
与安全模式相关的属性配置项配置内容说明dfs.replication.min1最小副本级别dfs.safemode.threshold.pct0.999在namenode退出安全模式之前,系统中满足最小副本级别(由dfs.replication.min定义)的块的比例。dfs.safemode.extension30000满足最小副本条件之后,namenode还需处于安全模式的时间(以毫秒为单位)任务4.3HDFS的系统管理操作4.3.2扩容操作
随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。动态增加新节点的步骤如下:1.准备新节点,安装操作系统并配置主机名、ssh免密码登录、关闭防火墙、配置时间同步,特别注意的是,需要在/etc/hosts中添加新节点的解析。2.在hdfs配置文件的worker中添加新节点的信息并分发到所有节点。3.在新增节点上启动DataNode和NodeManager。启动DataNode$HADOOP_HOME/sbin/hadoop-daemon.shstartdatanode启动NodeManager$HADOOP_HOME/sbin/hadoop-daemon.shstartnodemanager任务4.3HDFS的系统管理操作4.3.3数据平衡
HDFS数据并不总是均匀地分布在在DataNode上。HDFS为管理员提供了一个工具,可以在DataNode上分析数据块放置的位置并重新平衡数据。导致hdfs数据不平衡的原因有很多,比如:向集群中添加新的数据节点。从集群中删除节点。数据节点之间的磁盘大小不一致。任务4.3HDFS的系统管理操作4.3.3数据平衡hdfsbalancer用法如下:hdfsbalancer[-policy<policy>][-threshold<threshold>][-exclude[-f<hosts-file>|<comma-separatedlistofhosts>]][-include[-f<hosts-file>|<comma-separatedlistofhosts>]][-source[-f<hosts-file>|<comma-separatedlistofhosts>]][-blockpools<comma-separatedlistofblockpoolids>][-idleiterations<idleiterations>][-runDuringUpgrade][-asService]如果将Balancer作为长时间运行的服务运行,需使用-asService参数和daemon-mode启动Balancer。可以使用以下命令执行此操作:hdfs--daemonstartbalancer-asService,或者仅使用带有参数-asService的sbin/start-balancer.sh脚本。任务4.3HDFS的系统管理操作4.3.4HDFS存储策略存储策略是在性能和成本之间妥协的一个技术产物。它通过配置DISK、SSD、RAM_SSD和ARCHIVE不同的存储类型来存放不同性能要求的数据,来提高HDFS的性价比。目前HDFS支持的存储类型如下:1.DISK:普通磁盘,一般指机械硬盘,是最常用的存储类型。2.SSD:固态硬盘,它的性能是机械硬盘的数十倍甚至上百倍。3.RAM_DISK:内存固态硬盘,它的性能非常高,一般提供给对性能要求非常严苛的场景使用。4.ARCHIVE-归档/压缩,不是实际的磁盘类型,而是数据被压缩存储,它一般是低成本、低性能、高密度的存储空间的节点组成,用来存储归档或备份数据,因它的计算性能差,一般不执行计算任务。HDFS可以根据存储策略要求,可以将数据从SSD迁移到DISK或者ARCHIVE中,用户也可以选择在SSD或者RAM_SSD中存储数据,以便提高性能。存储策略允许将不同的文件存储到不同的存储类型上,并且允许将数据块的不同副本存储到不同存储类型上。任务4.3HDFS的系统管理操作4.3.4HDFS存储策略目前HDFS支持的存储策略包含如下:Hot:用于存储和计算,一般满足大部分场景。数据的所有副本都放置在DISK存储类型中。Cold:用于数据存档。数据不再使用,进行归档。此类数据的所有副本放在ARCHIVE存储类型中。Warm:一般提供给性能要求不高的场景使用。数据的部分副本放置在DISK存储类型中,其它的在ARCHIVE存储类型中。All_SSD:一般提供给性能要求高的场景使用。数据的所有副本放置在SSD存储类型中。One_SSD:一般提供给性能要求高的场景使用,但需要考虑成本。数据的一个副本放置在SSD中,其它放置的在DISK存储类型中.Lazy_Persist:一般应用在性能要求极为苛刻的场景中使用,用于在内存中写入具有单个副本的块。数据的副本首先写入RAM_DISK,然后延迟保存在DISK中。Lazy_Persist策略仅对单个副本块有用。对于具有多个副本的块,所有副本都将写入DISK,因为仅将其中一个副本写入RAM_DISK不会提高整体性能。Provided:在HDFS之外存储数据。数据的一个副本存储在HDFS之外,其它副本存储在DISK中。任务4.3HDFS的系统管理操作4.3.4HDFS存储策略在使用存储策略前,需要先完成存储配置,相关示例如下:
<property><name>dfs.storage.policy.enabled</name><value>true</value><description>启动存储策略特性</description></property><property><name>dfs.data.dir</name><value>[DISK]/hadoop/datanode/disk01,[DISK]/hadoop/datanode/data02,[SSD]/hadoop/datanode/ssd01,[SSD]/hadoop/datanode/ssd02</value><description>datanode上数据块的物理存储位置</description></property>任务4.3HDFS的系统管理操作4.3.4HDFS快照
HDFS快照是文件系统的只读时间点副本。可以在文件系统的子树或整个文件系统上创建快照。快照的一些常见用例是数据备份、防止用户错误和灾难恢复的场景。HDFS的快照操作的相关命令如下:
允许目录创建快照hdfsdfsadmin-allowSnapshot<path>禁止目录创建快照hdfsdfsadmin-disallowSnapshot<path>创建快照hdfsdfs-createSnapshot<path>[<snapshotName>]删除快照hdfsdfs-deleteSnapshot<path><snapshotName>命名快照hdfsdfs-renameSnapshot<path><oldName><newName>查看快照差异hdfssnapshotDiff<path><fromSnapshot><toSnapshot>
任务4.3HDFS的系统管理操作【工作流程】1.Hadoop安全模式操作2.向Hadoop集群增加worker节点3.HDFS快照操作任务4.3HDFS的系统管理操作【操作步骤】1.Hadoop安全模式操作:
进入安全模式[root@master01~]#hdfsdfsadmin-safemodegetSafemodeisOFF[root@master01~]#hdfsdfsadmin-safemodeenterSafemodeisON[root@master01~]#hdfsdfsadmin-safemodegetSafemodeisON验证是否可以上传文件,在安全模式下HDFS无法写入数据。[root@master01~]#hdfsdfs-puttest.txt/put:Cannotcreatefile/test.txt._COPYING_.Namenodeisinsafemode.验证文件是否下载,在安全模式下HDFS允许读取数据[root@master01~]#hdfsdfs-get/dir01/test.txt./test_new.txt退出安全模式[root@master01~]#hdfsdfsadmin-safemodeleaveSafemodeisOFF任务4.3HDFS的系统管理操作【操作步骤】2.向Hadoop集群增加worker节点:(1)操作系统准备新增节点为worker03节点,对worker03节点准备操作系统。准备过程请参考《任务3.1搭建Hadoop集群》,具体包含如下操作:操作系统安装配置IP地址配置SSH免密码登录配置hostname禁用selinux关闭防火墙配置时间同步配置JAVA环境任务4.3HDFS的系统管理操作【操作步骤】2.向Hadoop集群增加worker节点:(2)修改worker节点配置修改worker配置文件增加“worker03”节点,在master01节点执行,后续分发到其他节点。
(3)将Hadoop安装包同步到其他节点,在master01节点执行。[root@master01~]#yuminstall-yrsync[root@master01~]#rsync-a/opt/hadoopworker01:/opt/[root@master01~]#rsync-a/opt/hadoopworker02:/opt/[root@master01~]#rsync-a/opt/hadoopworker03:/opt/(4)启动datanode和nodemanager在新增节点worker03上启动datanode和nodemanager[root@worker03~]#/opt/hadoop/sbin/yarn-daemon.shstartdatanode[root@worker03~]#/opt/hadoop/sbin/yarn-daemon.shstartnodemanager[root@master01~]#vim/opt/hadoop/etc/hadoop/workersworker01worker02worker03任务4.3HDFS的系统管理操作【操作步骤】2.向Hadoop集群增加worker节点:(5)检查启动状态在master01节点检查hdfs状态,worker03上的DataNode已启动[root@master01~]#hdfsdfsadmin-report...Name:17:9866(worker03)Hostname:worker03DecommissionStatus:Normal检查NodeManager是否启动[root@master01~]#yarnnode-listTotalNodes:3Node-Id Node-State Node-Http-Address Number-of-Running-Containersworker01:32848 RUNNING worker01:80420worker03:44527 RUNNING worker03:80420worker02:34417 RUNNING worker02:80420任务4.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年03月山东今日莱阳报社公开招聘新闻记者1人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年03月中国地质科学院水文地质环境地质研究所第一批公开招聘应届毕业生15人(北京)笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 贵州省考试院2025年4月高三年级适应性考试地理试题及答案
- 柔印直接制版机项目安全评估报告
- 甘肃机电职业技术学院《汉语速录》2023-2024学年第二学期期末试卷
- 温州商学院《医药文献检索》2023-2024学年第二学期期末试卷
- 天津商务职业学院《第二外语(日、德)(2)》2023-2024学年第一学期期末试卷
- 沙洲职业工学院《幼儿语言教育与活动指导》2023-2024学年第二学期期末试卷
- 楚雄医药高等专科学校《专修健美操(2)》2023-2024学年第二学期期末试卷
- 西北大学现代学院《现场急救知识与技术》2023-2024学年第二学期期末试卷
- 格构梁班组合同
- 福建省泉州市20023年第29届WMO竞赛二年级数学下学期竞赛试卷
- 2025年安全生产有限空间作业应急处理能力试题集试卷
- 四川省昭觉中学高中地理 1.2 当代环境问题的产生及特点教学实录 新人教版选修6
- 内蒙古赤峰山金红岭有色矿业有限责任公司招聘考试真题2024
- 撬装式承压设备系统安全技术规范
- 融资面试试题及答案
- 2024山西三支一扶真题及答案
- 云南省卫生健康委所属事业单位招聘工作人员真题2024
- 农庄合作协议书范本
- 幕墙UHPC施工专项方案 (评审版)
评论
0/150
提交评论