版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
【第1章回顾】1.了解Hadoop功能、起源和版本。2.理解Hadoop生态系统组成及各组件作用。(重点)3.理解Hadoop体系架构。(重点)4.掌握Hadoop部署要点,包括运行环境、运行模式和主要配置文件(hadoop-env.sh、yarn-env.sh、mapred-env.sh、core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、slaves)等。(重点)5.熟练掌握在Linux环境下部署全分布模式Hadoop集群:规划集群、准备机器及软件环境、安装和配置Hadoop集群、关闭防火墙、格式化文件系统、启动和验证Hadoop、关闭Hadoop。(重点)【课程内容】开学第一课(理论1学时)第1章部署全分布模式Hadoop集群(理论3学时+实验2学时)第2章HDFS实战(理论4学时+实验2学时)第3章MapReduce编程(理论4学时+实验2学时)第4章部署ZooKeeper集群和ZooKeeper实战(理论4学时+实验2学时)第5章部署本地模式Hive和Hive实战(理论4学时+实验2学时)第6章Flume实战(理论4学时+实验2学时)第7章Kafka实战(理论4学时+实验2学时)第8章Spark集群部署和基本编程(理论4学时+实验2学时)第9章Flink集群部署和基本编程(选修)第2章HDFS实战2.1初识HDFS2.2HDFS体系架构(重点)2.3HDFS文件存储原理(重点)2.4HDFS接口(重点,难点)2.5HDFS高可靠性机制2.6综合实战:HDFS实战(实验)2.1初识HDFSHDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,是Hadoop三大核心之一,是针对谷歌文件系统GFS(GoogleFileSystem)的开源实现。HDFS是一个具有高容错性的文件系统,适合部署在廉价的机器上,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。大数据处理框架如MapReduce、Spark等要处理的数据源大部分都存储在HDFS上,Hive、HBase等框架的数据通常也存储在HDFS上。简而言之,HDFS为大数据的存储提供了保障。经过多年的发展,HDFS自身已经十分成熟和稳定,且用户群愈加广泛,HDFS逐渐成为分布式存储的事实标准。2.1初识HDFSHDFS文件系统的基本特征包括以下几个方面。(1)高容错性:把硬件出错看做一种常态,HDFS设计了相应机制能够快速自动进行错误检测和恢复。例如,一个节点出现故障,它上面的数据在其它节点存在备份,并且会被自动补充。(2)数据容量大:HDFS每个集群可以支持数百个节点,以支持应用程序的大数据需求。(3)可扩展性:水平扩展性强,数据节点可以根据需要进行增删。(4)高吞吐量:数据传输速率高,支持高并发大数据应用程序。(5)就近计算:客户请求尽可能在数据节点上直接完成计算任务,这样在大数据的业务中可以降低网络负担,增加吞吐量。2.2HDFS体系架构HDFS采用Master/Slave架构模型,一个HDFS集群包括一个NameNode和多个DataNode。名称节点NameNode为主节点,数据节点DataNode为从节点,文件被划分为一系列的数据块(Block)存储在从节点DataNode上,NameNode是中心服务器,不存储数据,负责管理文件系统的命名空间(Namespace)以及客户端对文件的访问。2.2HDFS体系架构1.NameNodeNameNode运行在日常硬件上,通常只有一个,是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,包括文件/目录的元数据和每个文件对应的数据块列表,它负责接收用户的操作请求。作为HDFS主服务节点的核心,它主要完成下面任务:(1)管理命名空间(Namespace)。(2)控制客户端对文件的读写。(3)执行常见文件系统操作,比如文件的重命名、复制、移动、打开、关闭以及目录操作。2.2HDFS体系架构1.NameNodeHDFS命名空间(NameSpace)支持传统的层次型文件组织结构,与大多数现有文件系统类似,用户可以创建、删除、移动或重命名文件。在HDFS中,NameNode负责管理分布式文件系统的命名空间,保存了两个核心数据结构:FsImage和EditLog。其中,FsImage用于维护文件系统树以及文件树中所有文件和目录的元数据;操作日志文件EditLog记录了所有针对文件的创建、删除、重命名等操作。NameNode记录了每个文件中各个块所在的数据节点的位置信息,但是并不持久化存储这些信息,而是在系统每次启动时扫描所有数据节点重构得到这些信息。2.2HDFS体系架构2.DataNodeDataNode也运行在日常硬件上,通常有多个,它为HDFS提供真实文件数据的存储服务。HDFS数据存储在DataNode上,数据块的创建、复制和删除都在DataNode上执行。DataNode将HDFS数据以文件的形式存储在本地的文件系统中,但并不知道有关HDFS文件的信息。DataNode把每个HDFS数据块存储在本地文件系统的一个单独的文件中,并不在同一个目录创建所有的文件,实际上,它用试探的方法来确定每个目录的最佳文件数目,并且在适当的时候创建子目录。在同一个目录中创建所有的本地文件并不是最优的选择,这是因为本地文件系统可能无法高效地在单个目录中支持大量的文件。当一个DataNode启动时,它会扫描本地文件系统,产生一个这些本地文件对应的所有HDFS数据块的列表,然后作为报告发送到NameNode,这个报告就是块状态报告。2.2HDFS体系架构严格地说,客户端并不算是HDFS的一部分。客户端可以支持打开、读取、写入等常见操作,并且提供了类似Shell的命令行方式来访问HDFS中的数据,也提供了API作为应用程序访问文件系统的客户端编程接口。2.3HDFS文件存储原理2.3.1数据块Block2.3.2副本存放策略2.3.3数据读取2.3.4数据写入2.3.1数据块BlockHDFS中的数据以文件块Block的形式存储,Block是最基本的存储单位,每次读写的最小单元是一个Block。对于文件内容而言,一个文件的长度大小是N,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。Hadoop2.0中默认Block大小是128MB。不同于普通文件系统,HDFS中如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。Block的大小可以根据实际需求进行配置,可以通过HDFS配置文件hdfs-site.xml中的参数dfs.blocksize来定义块大小,但要注意,数字必须是2K,文件的大小可以不是Block大小的整数倍,这时最后一个块可能存在剩余。2.3.1数据块Block为什么HDFS数据块设置的这么大呢?原因是和普通的本地磁盘文件系统不同,HDFS存储的是大数据文件,通常会有TB甚至PB的数据文件需要管理,所以数据的基本单元必须足够大才能提高管理效率。而如果还使用像Linux本地文件系统EXT3的4KB单元来管理数据,则会非常低效,同时会浪费大量的元数据空间。2.3.2副本存放策略HDFS采用多副本方式对数据进行冗余存储,通常一个数据块的多个副本会被分布到不同的DataNode上。HDFS提供可靠的算法实现在分布式环境中存储大量数据。简单来说,每个数据块Block都存在副本以提高容错性。默认情况下每个块存在3个副本。数据块的信息会定期由DataNode报送给NameNode,任何时候,当NameNode发现一个块的副本个数少于3个或者多于3个时都会进行补充或者删除。副本放置的基本原则是保证并非所有的副本都在同一个机架(Rack)上。这样放置的好处在于提供高容错性的同时降低延时,注意一个Rack可能包含多个DataNode,而数据分布在不同DataNode可以提高数据读写并发。对于多于3个副本的情况,其它副本将会随机分布在不同DataNode,同时保证同一个机架中最多存在两个副本。可以通过配置文件hdfs-site.xml中的参数dfs.replication来定义Block副本数。2.3.2副本存放策略Block副本在机架中的放置策略Block:123机架1121机架2232机架33312.3.2副本存放策略
Hadoop0.17之前:副本1:同机架的其它节点副本2:同机架的另一个节点副本3:不同机架的节点其它副本:随机选择Hadoop0.17之后:副本1:同Client的节点副本2:不同机架的节点副本3:同副本2机架中的另一个节点其它副本:随机选择机架1机架22.3.3数据读取客户端JVM1352数据节点DataNode23515312客户端DistributedFileSytemFSDataInputStreamDFSInputStream名称节点NameNode(2)获取数据块信息(4)读取请求(7)关闭文件(3)生成对象实例(5)读取数据6.读取数据元数据(名称,块个数,地址,……)(1)打开文件(6)读取数据…数据节点DataNode数据节点DataNode2.3.3数据读取客户端读取HDFS上的文件时,需要调用HDFSJavaAPI一些类的方法,从编程角度来看,主要经过以下几个步骤。(1)客户端生成一个FileSystem实例(DistributedFileSystem对象),并使用此实例的open()方法打开HDFS上的一个文件。(2)分布式文件系统(DistributedFileSystem)通过远程过程调用(RemoteProcedureCall,RPC)向NameNode发出请求,获得文件第一批块的位置信息,即数据块编号和所在DataNode地址,同一数据块按照副本数会返回多个位置信息,这些位置信息按照Hadoop拓扑结构排序,距离客户端近的排在前面。(3)FileSystem实例获得地址信息后,生成一个文件系统数据输入流(FSDataInputStream)对象实例返回给客户端,此实例封装了一个分布式文件系统数据输入流(DFSInputStream)对象,负责存储数据块信息和DataNode地址信息,并负责后续的文件内容读取工作。(4)客户端向FSDataInputStream发出读取数据的read()调用。(5)FSDataInputStream收到read()调用请求后,FSDataInputStream封装的DFSInputStream选择与第一个数据块最近的DataNode,并读取相应的数据信息返回给客户端,在第一个数据块读取完成后,DFSInputStream负责关闭指向第一个块的DataNode连接,接着读取下一个块。这些操作从客户端的角度来看只是在读一个持续不断的数据流。(6)DFSInputStream依次选择后续数据块的最近DataNode节点,并读取数据返回给客户端,直到最后一个数据块读取完毕。DFSInputStream从DataNode读取数据时,可能会遇到某个DataNode失效的情况,则会自动选择下一个包含此数据块的最近的DataNode去读取。(7)客户端读取完所有数据块,然后调用FSDataInputStream的close()方法关闭文件。2.3.4数据写入HDFS的设计遵循“一次写入,多次读取”的原则,所有数据只能添加不能更新。数据会被划分为等尺寸的块写入不同的DataNode中。每个块通常保存指定数量的副本(默认3个)。HDFS数据写入基本过程为:客户端向NameNode发送文件写请求,NameNode给客户分配写权限,并分配块的写入地址——DataNode的IP,兼顾副本数量和块Rack自适应算法,例如副本因子是3,则每个块会分配到三个不同的DataNode,为了提高传输效率,客户端只会向其中一个DataNode复制一个副本,另外两个副本则由DataNode传输到相邻DataNode。2.3.4数据写入客户端JVM1352数据节点DataNode23515312客户端DistributedFileSytemFSDataOutputStreamDFSOutputStream(2)创建文件元数据(3)写入数据(6)关闭文件(4)写入数据包(1)创建文件请求(5)接收确认包(4)(5)(5)(5)(7)写操作完成元数据(名称,块个数,地址,……)名称节点NameNode数据节点DataNode数据节点DataNode2.3.4数据写入从编程角度来说,将数据写入HDFS主要经过以下几个步骤。(1)客户端通过调用分布式文件系统DistributedFileSytem的create()方法创建新文件。(2)DistributedFileSytem通过RPC调用NameNode,在文件系统的命名空间中创建一个没有块关联的新文件。创建前,NameNode会做各种校验,例如文件是否存在、客户端有无创建文件的权限等,若校验通过,NameNode会记录下新文件,否则会抛出I/O异常。(3)FileSystem返回文件系统数据输出流(FSOutputStream)的对象,与数据读取相似,FSOutputStream被封装成分布式文件系统数据输出流(DFSOutputStream),DFSOutputStream可以协调NameNode和DataNode之间的协同工作。客户端开始写数据到DFSOutputStream。(4)DFSOutputStream将数据切成一个个小的数据包(Packet),然后排成数据队列(DataQueue)。DataQueue由DataStreamer读取,并通知NameNode分配DataNode,用来存储数据块(每块默认复制3块)。分配的DataNode放在一个数据流管道(Pipeline)里。DataStreamer将数据块写入Pipeline中的第一个DataNode,第一个DataNode将数据块发送给第二个DataNode,以此类推。(5)DFSOutputStream还维护着一个被称为响应队列(AckQueue)的队列,这个队列也由数据包组成,用于等待DataNode收到数据后返回响应数据包,当数据流管道中的所有DataNode都表示已经收到响应信息时,AckQueue才会把对应的数据包移除掉。(6)客户端完成写数据后,调用close()方法关闭写入流。(7)客户端通知NameNode把文件标记为已完成,然后NameNode把文件写成功的结果反馈给客户端,此时就表示客户端已完成了整个HDFS的数据写入过程。2.3.4数据写入数据写入可以看作是一个流水线Pipeline过程,具体来说,客户端收到NameNode发送的块存储位置DataNode列表后,将做如下工作。(1)选择DataNode列表中的DataNode1,通过IP地址建立TCP连接。(2)客户端通知DataNode1准备接收块数据,同时发送后续DataNode的IP地址给DataNode1,副本随后会拷贝到这些DataNode。(3)DataNode1连接DataNode2,并通知DataNode2连接DataNode3,前一个DataNode发送副本数据给后一个DataNode,依次类推。(4)Ack确认消息遵从相反的顺序,即DataNode3收到完整块副本后返回确认给DataNode2,DataNode2收到完整块副本后返回确认给DataNode1。而DataNode1最后通知客户端所有数据块已经成功复制。对于三个副本,DataNode1会发送三个Ack给客户端表示三个DataNode都成功接收。随后,客户端通知NameNode,完整文件写入成功,NameNode更新元数据。(5)当客户端接到流水线已经建立完成的通知后,将会准备发送数据块到流水线中,然后各个数据块按序在流水线中传输。这样以来,客户端只需要发送一次,所有备份将在不同DataNode之间自动完成,提高了传输效率。2.4HDFS接口2.4.1HDFSWebUI2.4.2HDFSShell2.4.3HDFSJavaAPI2.4.1HDFSWebUIHDFSWebUI主要面向管理员,提供服务器基础统计信息和文件系统运行状态的查看功能,不支持配置更改操作。地址为http://NameNodeIP:50070。2.4.2HDFSShell1.HDFS文件系统命令2.HDFS系统管理命令1.HDFS文件系统命令方法1:hadoopfs[genericoptions]推荐,使用面最广,可以操作任何文件系统,比如本地文件、HDFS文件、HFTP文件及S3文件系统等。方法2:hdfsdfs[genericoptions]专门针对HDFS文件系统的操作。1.HDFS文件系统命令[xuluhui@master~]$hadoopfsUsage:hadoopfs[genericoptions] [-appendToFile<localsrc>...<dst>] [-cat[-ignoreCrc]<src>...] [-checksum<src>...] [-chgrp[-R]GROUPPATH...] [-chmod[-R]<MODE[,MODE]...|OCTALMODE>PATH...] [-chown[-R][OWNER][:[GROUP]]PATH...] [-copyFromLocal[-f][-p][-l][-d]<localsrc>...<dst>] [-copyToLocal[-f][-p][-ignoreCrc][-crc]<src>...<localdst>] [-count[-q][-h][-v][-t[<storagetype>]][-u][-x]<path>...] [-cp[-f][-p|-p[topax]][-d]<src>...<dst>] [-createSnapshot<snapshotDir>[<snapshotName>]] [-deleteSnapshot<snapshotDir><snapshotName>] [-df[-h][<path>...]] [-du[-s][-h][-x]<path>...] [-expunge] [-find<path>...<expression>...] [-get[-f][-p][-ignoreCrc][-crc]<src>...<localdst>] [-getfacl[-R]<path>] [-getfattr[-R]{-nname|-d}[-een]<path>] [-getmerge[-nl][-skip-empty-file]<src><localdst>] [-help[cmd...]] [-ls[-C][-d][-h][-q][-R][-t][-S][-r][-u][<path>...]] [-mkdir[-p]<path>...] [-moveFromLocal<localsrc>...<dst>] [-moveToLocal<src><localdst>] [-mv<src>...<dst>] [-put[-f][-p][-l][-d]<localsrc>...<dst>] [-renameSnapshot<snapshotDir><oldName><newName>] [-rm[-f][-r|-R][-skipTrash][-safely]<src>...] [-rmdir[--ignore-fail-on-non-empty]<dir>...] [-setfacl[-R][{-b|-k}{-m|-x<acl_spec>}<path>]|[--set<acl_spec><path>]] [-setfattr{-nname[-vvalue]|-xname}<path>] [-setrep[-R][-w]<rep><path>...] [-stat[format]<path>...] [-tail[-f]<file>] [-test-[defsz]<path>] [-text[-ignoreCrc]<src>...] [-touchz<path>...] [-truncate[-w]<length><path>...] [-usage[cmd...]]1.HDFS文件系统命令命令选项功能-ls显示文件的元数据信息或者目录包含的文件列表信息-mv移动HDFS文件到指定位置-cp将文件从源路径复制到目标路径-rm删除文件,“-rm-r”或者“-rm-R”可以递归删除文件夹,文件夹可以包含子文件夹和子文件-rmdir删除空文件夹,注意:如果文件夹非空,则删除失败-put从本地文件系统复制单个或多个源路径上传到HDFS,同时支持从标准输入读取源文件内容后写入目标位置-get复制源路径指定的文件到本地文件系统目标路径指定的文件或文件夹-cat将指定文件内容输出到标准输出stdout-mkdir创建指定目录-setrep改变文件的副本系数,选项-R用于递归改变目录下所有文件的副本系数,选项-w表示等待副本操作结束才退出命令2.HDFS系统管理命令[xuluhui@master~]$hdfsdfsadminUsage:hdfsdfsadminNote:AdministrativecommandscanonlyberunastheHDFSsuperuser. [-report[-live][-dead][-decommissioning][-enteringmaintenance][-inmaintenance]] [-safemode<enter|leave|get|wait>] [-saveNamespace] [-rollEdits] [-restoreFailedStoragetrue|false|check] [-refreshNodes] [-setQuota<quota><dirname>...<dirname>] [-clrQuota<dirname>...<dirname>] [-setSpaceQuota<quota>[-storageType<storagetype>]<dirname>...<dirname>] [-clrSpaceQuota[-storageType<storagetype>]<dirname>...<dirname>] [-finalizeUpgrade] [-rollingUpgrade[<query|prepare|finalize>]] [-refreshServiceAcl] [-refreshUserToGroupsMappings] [-refreshSuperUserGroupsConfiguration] [-refreshCallQueue] [-refresh<host:ipc_port><key>[arg1..argn] [-reconfig<namenode|datanode><host:ipc_port><start|status|properties>] [-printTopology] [-refreshNamenodesdatanode_host:ipc_port] [-getVolumeReportdatanode_host:ipc_port] [-deleteBlockPooldatanode_host:ipc_portblockpoolId[force]] [-setBalancerBandwidth<bandwidthinbytespersecond>] [-getBalancerBandwidth<datanode_host:ipc_port>] [-fetchImage<localdirectory>] [-allowSnapshot<snapshotDir>] [-disallowSnapshot<snapshotDir>] [-shutdownDatanode<datanode_host:ipc_port>[upgrade]] [-evictWriters<datanode_host:ipc_port>] [-getDatanodeInfo<datanode_host:ipc_port>] [-metasavefilename] [-triggerBlockReport[-incremental]<datanode_host:ipc_port>] [-listOpenFiles] [-help[cmd]]2.4.3HDFSJavaAPI类名说明org.apache.hadoop.fs.FileSystem通用文件系统基类,用于与HDFS文件系统交互,编写的HDFS程序都需要重写FileSystem类,通过该类,可以方便地像操作本地文件系统一样操作HDFS集群文件org.apache.hadoop.fs.FSDataInputStream文件输入流,用于读取HDFS文件org.apache.hadoop.fs.FSDataOutputStream文件输出流,向HDFS顺序写入数据流org.apache.hadoop.fs.Path文件与目录定位类,用于定义HDFS集群中指定的目录与文件绝对或相对路径org.apache.hadoop.fs.FileStatus文件状态显示类,可以获取文件与目录的元数据、长度、块大小、所属用户、编辑时间等信息;同时可以设置文件用户、权限等内容官网/docs/r2.9.2/api/index.html
2.5HDFS高可靠性机制2.5.1HDFSNameNodeHA高可用机制2.5.2HDFSNameNodeFederation联邦机制2.5.1HDFSNameNodeHA高可用机制在Hadoop2.0中,HDFSNameNode的单点故障问题得到了解决,这就是HDFSNameNodeHighAvailability(HDFSNameNode高可用机制,简称HDFSNameNodeHA)。HDFSNameNode高可用机制体系架构心跳心跳监视名称节点健康状态提交EditLog通过共享存储系统(NFS、QJM或ZooKeeper)同步状态向主、备名称节点上报数据块的位置信息主备切换控制器主备切换控制器
ZooKeeper集群ZooKeeperZooKeeperZooKeeper主名称节点(活跃)备名称节点(待命)数据节点1数据节点2数据节点3数据节点4数据节点N读取EditLog监视名称节点健康状态…NameNode主备切换流程图ZKFC进程7.切换主备状态4.通过ZK选举主备1.主备状态监控ZooKeeper集群主名称节点2.状态变化回调HealthMonitorZKFailoverControllerActiveStandbyElector3.需要主备选举5.返回ZK选举结果6.返回主备状态ZKFC进程7.切换主备状态4.通过ZK选举主备1.主备状态监控备名称节点2.状态变化回调HealthMonitorZKFailoverControllerActiveStandbyElector3.需要主备选举5.返回ZK选举结果6.返回主备状态JournalNode集群写入EditLog读取EditLog2.5.2HDFSNameNodeFederation联邦机制在Hadoop2.0中引入了HDFSFederation联邦机制,可以解决如下问题。(1)集群扩展性。多个NameNode分管一部分目录,使得一个集群可以扩展到更多节点,不再像Hadoop1.0中由于内存的限制而制约文件存储数目。(2)性能更高效。多个NameNode管理不同的数据,且同时对外提供服务,将为用户提供更高的读写吞吐率。(3)良好隔离性。用户可以根据需要将不同业务数据交由不同NameNode管理,这样可以大大降低不同业务之间的影响。2.5.2HDFSNameNodeFederation联邦机制在Hadoop2.0中引入了HDFSFederation联邦机制,可以解决如下问题。(1)集群扩展性。多个NameNode分管一部分目录,使得一个集群可以扩展到更多节点,不再像Hadoop1.0中由于内存的限制而制约文件存储数目。(2)性能更高效。多个NameNode管理不同的数据,且同时对外提供服务,将为用户提供更高的读写吞吐率。(3)良好隔离性。用户可以根据需要将不同业务数据交由不同NameNode管理,这样可以大大降低不同业务之间的影响。HDFS数据管理体系架构块存储服务名称节点
块管理NS
存储数据节点数据节点…命名空间HDFSNameNodeFederation体系架构块存储名称节点-1
块池1NS1
公共存储数据节点1
命名空间名称节点-k
块池kNSk名称节点-n
块池nNSn
块池…数据节点2
…数据节点m
………2.6综合实战:HDFS实战启动HDFS集群使用HDFSShell命令使用HDFSWebUI界面搭建HDFS开发环境Eclipse使用HDFSJavaAPI编程关闭HDFS集群2.6.1启动HDFS集群在使用HDFS接口操作和管理HDFS文件之前,首先需要启动HDFS集群,只需在主节点上执行以下命令即可。[xuluhui@master~]$start-dfs.shstart-dfs.sh命令会在主、从节点上启动NameNode、DataNode和SecondaryNameNode服务。2.6.2使用HDFSShell命令【案例2-1】在/usr/local/hadoop-2.9.2目录下创建目录HelloData,在该目录下新建2个文件file1.txt和file2.txt,在其下任意输入一些英文测试语句。使用HDFSShell命令完成以下操作:首先创建HDFS目录/InputData,然后将file1.txt和file2.txt上传至HDFS目录/InputData下,最后查看这两个文件内容。【案例2-1】(1)在本地Linux文件系统/usr/local/hadoop-2.9.2目录下创建一个名为HelloData的文件夹,使用的命令如下所示。[xuluhui@master~]$mkdir/usr/local/hadoop-2.9.2/HelloData(2)在HelloData文件夹下创建2个文件file1.txt和file2.txt。创建file1.txt文件使用的命令如下所示。[xuluhui@master~]$vim/usr/local/hadoop-2.9.2/HelloData/file1.txt然后在file1.txt中写入如下测试语句。HelloHadoopHelloHDFSHelloXijingUniversity创建file2.txt文件使用的命令如下所示。[xuluhui@master~]$vim/usr/local/hadoop-2.9.2/HelloData/file2.txt然后在file2.txt中写入如下测试语句。HelloSparkHelloFlinkHelloXijingUniversity【案例2-1】(3)使用“hadoopfs”命令创建HDFS目录/InputData,使用的命令如下所示。[xuluhui@master~]$hadoopfs-mkdir/InputData(4)查看HDFS目录/InputData是否创建成功。【案例2-1】(5)将file1.txt和file2.txt上传至HDFS目录/InputData下,使用的命令如下所示。[xuluhui@master~]$hadoopfs-put/usr/local/hadoop-2.9.2/HelloData/*/InputData(6)查看HDFS上文件file1.txt和file2.txt内容。2.6.2使用HDFSShell命令【案例2-2】使用HDFSShell系统管理命令打印出当前文件系统整体信息和各个节点的分布信息。【案例2-2】2.6.3使用HDFSWebUI界面【案例2-3】通过HDFSWebUI查看【案例2-1】中创建的HDFS目录/InputData及其下文件。【案例2-3】2.6.4搭建HDFS开发环境Eclipse1.获取EclipseEclipse官方下载地址为/downloads/packageseclipse-java-2018-09-linux-gtk-x86_64.tar.gz,例如存放在master机器的/home/xuluhui/Downloads中。2.安装Eclipse安装目录如/usr/local
[xuluhui@master~]$suroot[root@master~]#cd/usr/local[root@masterlocal]#tar-zxvf/home/xuluhui/Downloads/eclipse-java-2018-09-linux-gtk-x86_64.tar.gz3.打开EclipseIDE进入/usr/local/eclipse中通过可视化桌面打开EclipseIDE,默认的工作空间为“/home/xuluhui/eclipse-workspace”。2.6.5使用HDFSJavaAPI编程【案例2-4】使用HDFSJavaAPI编写HDFS文件操作程序,实现上传本地文件到HDFS的功能,采用本地执行和集群执行两种执行方式测试,观察结果。【案例2-4】1.在Eclipse中创建Java项目打开EclipseIDE,进入主界面,选择菜单『File』→『New』→『JavaProject』,创建Java项目“HDFSExample”。2.在项目中添加所需JAR包(1)右键单击Java项目“HDFSExample”,从弹出的菜单中选择『BuildPath』→『ConfigureBuildPath…』(2)进入窗口【PropertiesforHDFSExample】,可以看到添加JAR包的主界面(3)单击图中的按钮AddExternalJARs,依次添加的JAR包包括:$HADOOP_HOME/share/hadoop/hdfs/hadoop-hdfs-2.9.2.jar$HADOOP_HOME/share/hadoop/hdfs/lib/*,即其下所有JAR包$HADOOP_HOME/share/hadoop/common/hadoop-common-2.9.2.jar$HADOOP_HOME/share/hadoop/common/lib/*,即其下所有JAR包【案例2-4】(4)完成JAR包添加后,单击按钮ApplyandClose。(5)自动返回到Eclipse界面,从图中可以看到,项目“HDFSExample”目录树下多了“ReferencedLibraries”,内部有以上步骤添加进来的两个JAR包。【案例2-4】3.在项目中新建包(1)右键单击Java项目“HDFSExample”,从弹出的菜单中选择『New』→『Package』。(2)进入窗口【NewJavaPackage】,输入新建包的名字,例如“com.xijing.hdfs”,完成后单击Finish按钮。【案例2-4】4.编写Java程序(1)右键单击Java项目“HDFSExample”中目录“src”下的包“com.xijing.hdfs”,从弹出的菜单中选择『New』→『Class』。(2)进入窗口【NewJavaClass】。输入新建类的名字,例如“UploadFile”,还可以选择是否创建main函数。完成后单击Finish按钮。(3)自动返回到Eclipse界面,可以看到,Eclipse自动创建一个名为UploadFile.java的源代码文件,包、类、main方法已出现在代码中。【案例2-4】packagecom.xijing.hdfs;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileStatus;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;publicclassUploadFile{ publicstaticvoidmain(String[]args)throwsIOException{ Configurationconf=newConfiguration();
conf.set("fs.defaultFS","hdfs://master:9000");//新加入代码行 FileSystemhdfs=FileSystem.get(conf); Pathsrc=newPath("/usr/local/hadoop-2.9.2/HelloData/file1.txt"); Pathdst=newPath("file1.txt"); hdfs.copyFromLocalFile(src,dst); System.out.println("Uploadto"+conf.get("fs.defaultFS")); FileStatusfiles[]=hdfs.listStatus(dst); for(FileStatusfile:files){ System.out.println(file.getPath()); } }}【案例2-4】方法1:本地执行【案例2-4】方法2:Hadoop集群执行(1)打包代码,生成JAR文件。第一步,右键单击Java项目“HDFSExample”,从弹出的快捷菜单中选择『Export…』。第二步,在弹出的“Export”对话框中,选择“JARfile”,单击按钮Next。第三步,在弹出的“JARExport”对话框中,指定JAR包的存放路径等,单击按钮Finish。【案例2-4】方法2:Hadoop集群执行(2)使用命令“hadoopjar”将hdfsexample.jar提交到Hadoop集群执行。(3)通过“hadoopfs-ls/”验证文件file1.txt是否已上传到HDFS文件/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 糖尿病低血糖定义
- 小麦白粉病盆栽试验
- 高层建筑物业管理
- 苏锡常镇四市3月一模语文讲评课件
- 会计信息系统实训-供应链篇(用友U8 V10.1)(第2版) 课件 单元1 会计信息系统认知
- 甲状腺肿瘤的术后护理
- 正邦猪场管理员述职
- 初中名词所有格归类
- 《“数学思考”复习》教案
- 2024-2025学年高一【数学(人教A版)】三角函数的图象变换-教学设计
- 2024年版数据中心租赁合同
- 四川省部分学校2024-2025学年高一上学期期中调研测试政治试题
- 2024年度陕西省高校教师资格证之高等教育学基础试题库和答案要点
- 盐城工学院《算法与数据结构》2022-2023学年期末试卷
- 面食市场营销策略方案
- 医疗器械监督管理条例培训2024
- 六年级语文上册 第八单元专项训练字词(含答案)(部编版)
- 街道办消防安全知识培训课件
- 2024年肺结节诊治中国专家共识解读课件
- 绝经后子宫内膜增厚诊疗2024课件
- 2024-2030年轨道交通产业发展分析及发展趋势与投资前景预测报告
评论
0/150
提交评论