HDFS支持的文件格式_第1页
HDFS支持的文件格式_第2页
HDFS支持的文件格式_第3页
HDFS支持的文件格式_第4页
HDFS支持的文件格式_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

朱佳目录0102确定正确文件格式的标准HDFS支持的文件格式确定正确文件格式的标准1确定正确文件格式的标准文件格式的灵活性:一些文件格式能很好地支持随着时间的推移模式的演变。如果预计会添加或删除数据字段,以该文件格式可以读取历史数据而无须修改代码,则这就是最好的格式。在理想情况下,应该能够读取所有历史数据,即使模式已随时间更改,也无须重写代码。压缩能力:当使用大文件时,需要警惕需要的磁盘存储。如果文件大小为10GB,由于每个文件将被复制3次,故实际上需要30GB的磁盘存储来存储该文件。显然,任何可以节省磁盘存储空间的事情都是一件大好事情。确定正确文件格式的标准可分割性:如果Hadoop可以从文件中的任何特定点读取数据,则该文件被认为是可拆分的。如果Hadoop无法在文件中的任意点开始处理文件,那么该文件是不可拆分的。性能:压缩数据对性能有明显影响,需要在此上下文中区分出写入和读取性能。一些文件格式对于读取压缩数据表现得很好,但是提供较低的写入性能。文件大小:如前所述,使用大型可拆分文件是有利的,因为小文件不利于高效处理。确定正确文件格式的标准与处理工具的兼容性:选择文件格式的关键标准是格式与Hadoop环境中使用的各种工具(如Hive和Pig)的兼容性。Hadoop组件支持多种数据格式,如文本文件、SequenceFiles和RC。例如,Hive可以将数据加载到Text、Parquet、Avro、RC和SequenceFile格式文件。HDFS支持的文件格式2HDFS支持的文件格式Hadoop支持多种数据存储格式。可以在SQL语句中明确指定使用某种格式,例如STOREDASPARQUETFILE或使用已安装的接口(如Avro)。下面简要回顾Hadoop支持的数据格式。文本文件和二进制格式:文本文件是默认的存储格式,它是以分隔形式存储的数据,每条记录使用单独的行,使用记录界定新行。HDFS支持的文件格式SequenceFiles:SequenceFiles提供用于存储二进制键/值对的持久数据结构。这些文件是基于行的,并且经常被MapReduce作业用来在它们之间传输数据。SequenceFiles支持拆分,即使是压缩数据。SequenceFiles用作存储小文件的容器。RC文件和ORC文件:RC文件和ORC文件是高效的二进制格式,这种文件以列格式存储数据具有很多优点。RC文件是一种高性能的平面文件存储格式,以二进制键/值对的形式存储数据。HDFS支持的文件格式Parquet文件格式:Parquet提供了一种支持编码模式和高效压缩的列式存储格式,从而提供更高的查询性能。Parquet支持Snappy和gzip压缩格式。Avro文件:Avro是较受欢迎的Hadoop存储格式之一。Avro使用AvroSerDes可以轻松地表示复杂的数据存储。在许多方面,Avro类似于序列文件。虽然Se

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论