HDFS数据读写过程_第1页
HDFS数据读写过程_第2页
HDFS数据读写过程_第3页
HDFS数据读写过程_第4页
HDFS数据读写过程_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HDFS数据读写过程1HDFS数据写入流程HDFS数据读取流程23编程实现HDFS读写读数据的过程1.1HDFS数据写入流程1.1HDFS数据写入流程(1)客户端向NameNode发送文件上传申请。(2)NameNode返回块ID以及存储数据块的DataNode地址列表等信息。(3)客户端向DataNode中写入数据块。(4)当客户端写入一份数据块后,DataNode之间异步进行数据块复制。(5)最后面的DataNode上数据块写入完成后,会发送一个确认信息给前一个DataNode。第一个写入块的DataNode反馈确认信息给客户端,数据写入完毕。(6)客户端向NameNode发送最终的确认信息。1.2HDFS数据读取流程1.2HDFS数据读取流程(1)客户端发送读取数据的请求给NameNode。(2)NameNode返回数据块ID以及存储数据块DataNode地址列表。该列表按照存储起始数据块的DataNode与客户端的距离进行排序。(3)客户端直接在最近的DataNode上读取数据。如果读取失败,则从另一个副本所在的DataNode上读取数据。1.3利用JAVAAPI读写数据Hadoop中用于文件操作的主类位于org.apache.hadoop.fs软件包中Hadoop文件API的起点是FileSystem抽象类FileSystem.get(Configurationconf)来得到所需的FileSystem实例Configuration类的默认实例化方法是以工程中bin目录中的配置文件为基础Hadoop的基本文件操作:open、read、write、close下面语句可以得到与HDFS接口的FileSystem对象:Configurationconf=newConfiguration();//配置文件FileSytemhdfs=FileSystem.get(conf);//访问hdfs分布式下面语句可以得到用于本地文件系统的FileSystem对象:FileSystemlocal=FileSystem.getLocal(conf);//访问本地Hadoop的文件系统1.3利用JAVAAPI读写数据FileSystem的open()方法返回的是一个输入流FSDataInputStream对象,在HDFS文件系统中,具体的输入流就是DFSInputStream;FileSystem中的create()方法返回的是一个输出流FSDataOutputStream对象,在HDFS文件系统中,具体的输出流就是DFSOutputStream。Configurationconf=newConfiguration();conf.set("fs.defaultFS","hdfs://localhost:9000");conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");FileSystemfs=FileSystem.get(conf);FSDataInputStreamin=fs.open(newPath(uri));FSDataOutputStreamout=fs.create(newPath(uri));1.3利用JAVAAPI读写数据FSDataInputStream封装了DFSInputStreamFileSystemfs=FileSystem.get(conf);FSDataInputStreamin=fs.open(newPath(uri));Configurationconf=newConfiguration();importorg.apache.hadoop.fs.FileSystem通过ClientProtocal.getBlockLocations()远程调用名称节点,获得文件开始部分数据块的位置对于该数据块,名称节点返回保存该数据块的所有数据节点的地址并根据距离客户端远近进行排序客户端获得输入流FSDataInputStream以后调用read()函数开始读取数据输入流根据前面的排序结果选择距离客户端最近的数据节点建立连接并读取数据数据从数据节点读到客户端,当该数据块读取完毕时FSDataInputStream关闭和该数据节点的连接通过ClientProtocal.getBlockLocations()查找下一个数据块1.3利用JAVAAPI读写数据--读数据的过程FileSystemfs=FileSystem.get(conf);FSDataOutputStreamout=fs.create(newPath(uri));Configurationconf=newConfiguration();importorg.apache.hadoop.fs.FileSystemRPC远程调用名称节点在文件系统的命名空间中新建一个文件名称节点会执行一些检查(文件是否存在,客户端权限)FSDataOutputStream封装了DFSOutputStream数据被分成一个个分包分包被放入DFSOutputStream对象的内部队列DFSOutputStream向名称节点申请保存数据块的若干数据节点这些数据节点形成一个数据流管道队列中的分包最后被打包成数据包发往数据流管道中的第一个数据节点第一个数据节点将数据包发送到第二个节点依此类推,形成“流水线复制”为了保证节点数据准确,接收到数据的数据节点要向发送者发送

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论