内容讲义讲稿_第1页
内容讲义讲稿_第2页
内容讲义讲稿_第3页
内容讲义讲稿_第4页
内容讲义讲稿_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分布式文件系统HDF|2018年9

121233441什么是概Hadoop分布式文件系统(HadoopDistributedFile2003年10 了 FileHDFS是GFS的开源实HDFS是ApacheHadoop 子项在开源大数据技术体设计目运行在大量廉 机器上:硬件错误是常态,提供容错机简单一致性模型:一次写入多 ,支持追加,不允许修改,保证数据一致流式数 :批量读而非随机读,关注吞吐量而非时大规模数据集:典型文件大小GB~TB

HDFS简 优高容错、高可用、高扩海量数

HDFS简缺不适合低延迟数不适合大量小文-元数据占用NameNode大量内存-磁盘寻道时间超 时不支持并发写-典型文件大小GB~TB,百万以上文件数量,PB以上数据规构建成本低、安全可-构建在廉价 服务器-适合大规模离线批处-

-不支持文件随机修- 2系统架构图

Namespace/MetadataNamespace/Metadata

HDFS原Heartbeats,Heartbeats,Balancing,ReplicationHDFSNodesWritetoLocalNodesWritetoLocal系统架构图

HDFS原 Active活动Master管理节点(集群中唯一管理命名空管理元数据:文件的位置、所有者、权限、数据块管理Block副本策略:默认3个副处理客户端读写请求,为DataNode分配任Standby热备Master管理节点(ActiveNameNode的热备节点-Hadoop3.0允许配置多个StandbyActiveNameNode宕机后,快速升级为新的周期性同步edits编辑日志,定期合并fsimage与edits到本地磁

HDFS原

HDFS原NameNode元数据文edits(编辑日志文件):保存了 检查点(Checkpoint)之后的所有文件更新操fsimage(元数据检查点镜像文件):保存了文件系统中所有 和文件信息,如:某个录下有哪些 和文件,以及文件名、文件副本数、文件由哪些Block组成ActiveNameNode内存中有一 的元数据(=fsimage+StandbyNameNode在检查点定期将内存中的元数据保存到fsimage文件Slave工作节点(可大规模扩展Block和数据校验执行客户端发送的读写操通过心跳机制定期(默认3秒)向NameNode汇报运行状态和Block列表信集群启动时,DataNode向NameNode提供Block列表信 Block数据HDFS最 单文件写入HDFS会被切分成若干个Block大小固定,默认为128MB,可自定若一个Block的大小小于设定值,不会占用整个块空默认情况下每个Block有3个副将文件切分为与NameNode交互,获取文件元数与DataNode交互 或写入数管理

HDFS原 Block是HDFS的最 单如何设置Block大-块太大:Map任务数太少,作业执行Block和元数据分 于DataNode,元数 于Block多副-以DataNode节点为备份对

HDFS原 Block副本放置策副本1:放在Client所在节-对 副本2:放在不同的机架节点副本N:随机选节点选

HDFS原

HDFS原Block文Block文件是DataNode本地磁盘中名为“blk_blockId”的Linux文 -DataNode的 │├──│├── ││└──││├──││├──││ ├──││ ├── ││ ├──││ └──- ││└──│└──

├├── ├── ├── ├── ├── ├── ├── └──└──元数据的两 形内存元数据文件元数据(editsedits(编辑日志文件Client请求变更操作时,操作首先被写入再写入内TransactionIdfsimage(元数据镜像检查点文件fsimage文件名会标记对应的Transaction

HDFS原 edits与fsimage的合并机

HDFS原上传

HDFS原

HDFS原

HDFS原什么是安全模安全模式是HDFHDFS安全模式是HDFS确保Block数据安全的一种保护机ActiveNameNode启动时,HDFS会进入安全模式,DataNode NameNode汇报可用列表等信息,在系统达到安全标准前,HDFS一直处于“只读”状何时正常离开安全模Block上报率:DataNode上报的可用Block个数/NameNode元数据记录的Block个当Block上报率>=阈值时,HDFS才能离开安全模式,默认阈值为不建议手动强制退出安全模 触发安全模式的原NameNode重NameNode磁盘空间不Block上报率低于阈DataNode无法正常启日志中出现严重异用户操作不当,如:强制关机(特别注意故障排找到DataNode不能正常启动的原因,重启清理NameNode磁谨慎操

HDFS原

HDFS原ActiveNN与StandbyNN的主备切利用QJM实现元数据高可QJM机制(QuorumJournal-只要保证Quorum(法定人数)数量的QJM共 系-部署奇数(2N+1)个 -写edits的时候,只要超过半数(N+1)JournalNode返回成功,就代表本次写入成-最多 N个JournalNode宕-基于Paxos算法实利用ZooKeeper实现Active节

上传

HDFS原ZooKeeper

JournalNode

MonitorOf

SharedNNstatesinglewriter

MonitorOfBlockReportstoActive&StandbyDNfencing:Updatecmdsfromone 3 REST3.1语hadoopfs<args>(使用面最广,可以操作任何文件系统< 类似,可通过help查看帮HDFS格式示例:HDFS上的一个文件-URI简写

HDFS文件管 S

HDFS文件管hadoopfs-hadoopfs-Returnusagehadoopfs-usageReturnthehelpforanindividualhadoopfs-ls[-d][-h][-R]-d:Directoriesarelistedasplain-h:Formatfilesizesinahuman-readablefashion(eg64.0minstead -R:Recursivelylistsubdirectorieshadoopfs-get[-ignorecrc][-crc]Copyfilestothelocalfilesystem.FilesthatfailtheCRCcheckmaybecopiedthe-ignorecrcoption.FilesandCRCsmaybecopiedusingthe-crchadoopfs-get/user/hadoop/filehadoopfs-get /user/hadoop/filehadoopfs-put<localsrc>...Copysinglesrc,ormultiplesrcsfromlocalfilesystemtothedestinationfileAlsoreadsinputfromstdinandwritestodestinationfileS

HDFS文件管hadoopfs-cp[-f]hadoopfs-cp[-f][-p|-p[topax]]URI[URI...]<dest>Copyfilesfromsourcetodestination.Thiscommandallowsmultiplesourcesasinwhichcasethedestinationmustbeadirectory.-f:Overwritethedestinationifitalready-p:Preservefileattributes[topx](timestamps,ownership,permission,ACL,hadoopfs-mvURI[URI...]Movesfilesfromsourcetodestination.Thiscommandallowsmultiplesourcesaswellinwhichcasethedestinationneedstobeadirectory.Movingfilesacrossfilesystemsisnotpermitted.hadoopfs-rm[-f][-r|-R][-skipTrash]URI[URI...]Deletefilesspecifiedasargs.-f:theoptionwillnotdisplayadiagnosticmessageormodifytheexitstatustoreflectanerrorifthefiledoesnotexist.-R:theoptiondeletesthedirectoryandanycontentunderit-r:theoptionisequivalentto--skipTrash:theoptionwillbypasstrash,ifenabled,anddeletethespecifiedfile(s)immediay.Thiscanbeusefulwhenitisnecessarytodeletefilesfromanover-quotadirectory.REST

HDFS文件管HDFS的所有接口都支持RESTHDFSURI与HTTP写入文Step1:提交一个HTTPPUT请求,这个阶段不会传输数|false>][&blocksize=<LONG>][&replication=<SHORT>]Step2:提交另一个HTTPPUT请求,并提供本地的文件路-curl-i-XPUT-T<LOCAL_FILE> REST

HDFS文件管获取文提交HTTPGET请[&length=<LONG>]删除文提交HTTPDELETE请 4

HDFS系统管配置文core-site.xml:Hadoop全局配hdfs-site.xml:HDFS局部配示例:NameNodeURI配置(core-环境变量文Hadoop-env.sh:设置了HDFS运行所需的环境

HDFS系统管hdfs- DetermineswhereonthelocalfilesystemtheDFSnamenodeshouldstorethenametable(fsimage).Ifthisisacomma-delimitedlistofdirectoriesthenthenametableisreplicatedinallofthedirectories,forredundancy.DetermineswhereonthelocalfilesystemanDFSdatanodeshouldstoreitsblocks.Ifthisisacomma-

listofdirectories,thendatawillbestoredinallnameddirectories,typicallyondifferentdevices.Directoriesthatdonotexistareignored.Thedefaultblocksizefornewfiles,inbytes.Youcanusethefollowingsuffix(caseinsensitive):k(kilo),m(mega),g(giga),t(tera),p(peta),e(exa)tospecifythesize(suchas128k,512m,1g,etc.),Orprovidecompletesizeinbytes(suchas for128MB).spaceinbytespervolume.AlwaysleavethismuchspacefreefornonhdfsDefaultblockreplication.Theactualnumberofreplicationscanbespecifiedwhenthefileiscreated.defaultisusedifreplicationisnotspecifiedincreateNumberofminutesafterwhichthecheckpointgetsdeleted.Ifzero,thetrashfeatureisdisabled.Thisoptionmaybeconfiguredbothontheserverandtheclient.Iftrashisdisabledserversidethentheclientsideconfigurationischecked.Iftrashisenabledontheserversidethenthevalueconfiguredontheserverisusedandtheclientconfigurationvalueisignored. /etc/init.d/hadoop-hdfs-namenode/etc/init.d/hadoop-hdfs-namenode-/etc/init.d/hadoop-hdfs-datanode-/etc/init.d/hadoop-hdfs-journalnode-

HDFS系统管 SNameNode(格式化或恢复

HDFS系统管#hdfsnamenode[-format[-clustered#hdfsnamenode[-format[-clusteredcid][-force][-nonInteractive]]|[-recover[-force]Command-format[-clusteridcid][-[-FormatsthespecifiedNameNode.ItstartstheNameNode,formatsitandthenshutitdown.-forceoptionformatsifthenamedirectoryexists.-nonInteractiveoptionabortsifthenamedirectoryexists,unless-forceoptionisspecified.-recover[-RecoverlostmetadataonacorruptSReport(报告文件系统信息

HDFS系统管##hdfsdfsadmin[generic_options][-report[-live][-dead] Command-report[-live][-dead] Reportsbasicfilesysteminformationandstatistics.OptionalflagsmaybeusedtofilterthelistofdisplayedDataNodes. SFsck(检查文件系统健康状况

HDFS系统管#hdfsfsck<path>[-move#hdfsfsck<path>[-move|-delete]|[-files[-blocks[-locations|-racks]]CommandStartcheckingfromthis-Deletecorrupted-Printoutfilesbeing-files-Printouttheblock-files-blocks-Printoutlocationsforevery-files-blocks-Printoutnetworktopologyfordata-nodeMovecorruptedfilesto4.2Fsck(检查文件系统健康状况

HDFS系统管 4.2

HDFS系统管Safemode(安全模式 自动进入安全模式(也支持手动进入),该模式下只支持读操检测Block上报率超过阈值,才会离开安全模在TDH慎用hdfsdfsadminleave,想了解变量设置,请联 ##hdfsdfsadmin[generic_options][-safemodeenter|leave|get|Note:Safemodemaintenancecommand.SafemodeisaNamenodestateinwhichdoesnotacceptchangestothenamespace(read-doesnotreplicateordeleteSafemodeisenteredautomaticallyatNamenodestartup,andleavessafemodeautomaticallywhentheconfiguredminimumpercentageofblockssatisfiestheminimumreplicationcondition.Safemodecanalsobeenteredmanually,butthenitcanonlybeturnedoffmanuallyaswell. 4.2NameNodeHA(主备切换

HDFS系统管#hdfshaadmin-failover[--forcefence]#hdfshaadmin-failover[--forcefence][--forceactive]<serviceId>#hdfshaadmin-getServiceStateCommandinitiateafailoverbetweentwo-determinewhetherthegivenNameNodeisActiveortransitionthestateofthegivenNameNodeto-transitionthestateofthegivenNameNodeto4.2mission mission(DataNode退役和服役

HDFS系统管##hdfsdfsadmin[generic_options]-Notes:Re-readthehostsandexcludefilestoupdatethesetofDatanodesthatareallowedtoconnecttoNamenodeandthosethatshould missioned CommandNamesafilethatcontainsalistofhoststhatarepermittedtoconnecttonamenode.Thefullpathnameofthefilemustbespecified.IfthevalueisallhostsareNamesafilethatcontainsalistofhoststhatarenotpermittedtoconnecttonamenode.Thefullpathnameofthefilemustbespecified.Ifthevalueisempty,nohostsareexcluded.将计划退役的DataNode列表加入dfs.hosts.exclude文hadoopdfsadmin- 的状态 变 将这组DataNode从dfs.hosts文件中删hadoopdfsadmin-

4.2mission mission(DataNode退役和服役退役和服役

HDFS系统管删除DataNode(先退役再删除 4.2Balancer(数据重分布

HDFS系统管#hdfsbalancer[-threshold#hdfsbalancer[-threshold[-exclude[-f<hosts-file>|<comma-separatedlistofhosts>][-include[-f<hosts-file>|<comma-separatedlistofhosts>]Command-thresholdPercentageofdiskcapacity.Thisoverwritesthedefault-exclude-f<hosts-file><comma-separatedlistofExcludesthespecifieddatanodesfrombeingbalancedbythe-include-f<hosts-file><comma-separatedlistofIncludesonlythespecifieddatanodestobebalancedbythe4.2Balancer(数据重分布集群平衡的标准:每个DataNode 使用率和集群 使用率的差值均小于阀默认阈值为10,设置值为

HDFS系统管 4.2默认带宽为1M/s,主要为了Balance的同时不影响HDFS操建议Balance的时候,带宽设为10M/s,并且停止操作

HDFS系统管##hdfsdfsadmin[generic_options][-setBalancerBandwidth<bandwidthinbytesperCommand-<bandwidthinbytesperChangesthenetworkbandwidthusedbyeachdatanodeduringHDFSblockbalancing.<bandwidth>istheumnumberofbytespersecondthatwillbeusedbyeachdatanode.Thisvalueoverridesthedfs.balance.bandwidthPerSecparameter.NOTE:ThenewvalueisnotpersistentontheDataNode. 4.2Distcp(分布式拷贝大规模集群内部和集使用MapReduce实现文件分发、错误处理恢复,以及报告生

HDFS系统管#hadoopdistcpoptions[source_path...]#hadoopdistcpoptions[source_path...]Notes:distcp(distributedcopy)isatoolusedforlargeinter/intra-clustercopying.ItusesMapReducetoeffectitsdistribution,errorhandlingandrecovery,andreporting.Command-mumnumberofsimultaneousOverwrite-Specifybandwidthpermap,in4.2

HDFS系统管 限制HDFS允许管理员对用户 设置Quota,主要从两个维度:文件数量和文件大限制指 及 中的文件总限制指 中的所有文件的容量大小,需要考虑副本#hdfsdfsadmin-setSpaceQuota<N>Notes:SetthespacequotatobeNbytesforeach#hdfsdfsadmin-clrSpaceQuotaNotes:Removeanyspacequotaforeach#hadoopfs-count-q[-h][-v]Notes:Withthe-qoption,alsoreportthenamequotavaluesetforea

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论