




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
章和1.基本组成PigMapReduceCoreChukwaHiveHbaseZooKeeperAvroHDFSHadoop-0.20.0以前Core----一系列分布式文件系统和通用I/O的组件和接口(序列化、JavaRPC和持久化数据结构)Avro----一种提供高效、跨语言PRC的数据序列化系统,持久化数据存储。分布式数据处理模式和执行环境,运行于大型商用机集群;分布式文件系统,运行于大型商用机集群;一个分布式的、高可用性的协调服务;Pig----一种数据流语言和运行环境,用以检索非常大的数据集,运行在MapReduce和HDFS集群上;Chukwa------分布式数据收集和分析系统;Hive---分布式数据仓库,Hive管理HDFSSQL的查询语言用以查询数据;Hbase----HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询。2.MapReduce执行作业流程①指定作业的各种参数;②指定输入、输出路径;③指定Map和Reduce类;④指定Map和Reduce的输出类型;⑤运行作业。第3章3-1文件读取453-2文件写入第4章的1.读取存储在HDFS上的文件时,为了加快速度可以禁用校验和;2.文件的压缩支持多种格式,比如zip、gzipbzip2等;3.序列化-----将结构化的对象转为字节流以便于通过网络进行传输或者写入持久存储的过程。反序列化------将字节流转为一系列结构化对象的过程。Hadoop自己的序列化格式为,紧凑、快速,但不易扩展java以外的语言,MapReduce程序使用Writables来序列化key/value对。org.apach.hadoop.ioBooleanWritableDoubleWritableByteWritableIntWritable此外,short和char类型均可存储在IntWritable中;4.文件的容器SequenceFile类和MapFile类,共同点是两者都是按key排序的,区别是后者有索引。第5章1.配置文件和运行环境的选取,有本地环境、伪分布式环境、分布式集群环境三种运行模式,可以分别配置不同格式的xml文件以初始化一些基本环境参数;2.编写完Mapper和Reducer在本地(是否是伪分布式还不确定)运行数据测试,然后再集群上测试;3.后期还涉及到一些调试、作业调优等工作。一些复杂的任务都是由多个MapReduce作业分阶段完成,至于工作流的调度还有待于优化。第6章1.运行MapReduce作业的工作原理MapReduceJobTrackerJobClient程序客户端节点JobTracker节点TasktrackerFileSystemChild流处理Tasktracker节点2.3.,FairSchedule4.Shffle和排序Map端可以通过调整内存缓冲区、属性配置加快patition和针对每个分区的排序;reduce端类似5.任务的执行推测式执行,JVM重用,坏记录的处理。map端详细流程:第7章几种MapReduce输入输出的类型:文本、二进制、数据库等输入文件:文件是MapReduce任务的数据的初始存储地。正常情况下,输入文件一般是存在HDFS里。这些文件的格式可以是任意的;我们可以使用基于行的很大数十G或更大。输入格式:InputFormat类定义了如何分割和读取输入文件,它提供有下面的几个功能:选择作为输入的文件或对象;定义把文件划分到任务的InputSplits;为RecordReader读取文件提供了一个工厂方法;Hadoop自带了好几个输入格式。其中有一个抽象类叫FileInputFormat,所有操作文件的InputFormat类都是从它那里继承功能和属性。当开启Hadoop作业时,FileInputFormat会得到一个路径参数,这个路径内包含了所需要处理的文件,FileInputFormat会读取这个文件夹内的所有文件(译注:默认不包括子文件InputSplit。你可以通过JobConf对象的方法来设定应用到你的作业输入文件上的输入格式。下表给出了一些标准的输入格式:第一个tab字符前的所有行剩下的内容SequenceFileInputFormatHadoop定义的高性能用户自定义二进制格式表4.1MapReduce提供的输入格式默认的输入格式是,它把输入文件每一行作为单独的一个TextInputFormat把整个文件行当做值数据,KeyValueInputFormat则是通过搜寻tab字符来把行拆分为键值对。这在把一个MapReduce的作业输出作为下一个作业的输入时显得KeyValueInputFormat格式输出数据。最后来讲讲SequenceFileInputFormat,它会读取特殊的特定于HadoopHadoop的mapper快速读取数据的特性。Sequence文件是块压缩的并提供了对几种数据类型(不仅仅是文本Squence文件可以作为MapReduce任务的输出数据,并且用它做一个MapReduce作业到另一个作业的中间数据是很高效的。InputSplitMapReduce程序中单个map任务的一个单元。把一个MapReduce程序应用到一个数据集上,即是指一个作业,会由几个(也可能几百个)任务组成。Map任务可能会读取整个文件,但一般是读取文件的一部分。默认情况下,FileInputFormat及其子类会以64MB(与HDFS的BlockHadoop建议Split大小与此相同)为基数来拆分文件。你可以在0.20.*以后是在mapred-default.xmlmapred.min.split.size参数来控制MapReduce作业的JobConf对象中重写这个参数。通过以块形式处理文件,我们可以让多个map任务并行的操作一个文件。如果Block)组成的文件可能会分散在集群内的好几个节点上(译注:事这种情况,你可以写一个自定义的InputFormat,这样你就可以控制你文件是如何被拆分(或不拆分)成文件块的。自定义的文件格式在第五部分有描述。输入格式定义了组成mapping阶段的map任务列表,每一个任务对应一统节点上,可能会有多个map任务被分派到同一个节点上。任务分派好后,节点开始运行任务,尝试去最大并行化执行。节点上的最大任务并行数由mapred.tasktracker.map.tasks.maximum参数控制。记录读取器(RecordReader):InputSplit定义了如何切分工作,但是没有描述如何去访问它。RecordReader类则是实际的用来加载数据并把数据转换为适合mapper读取的键值对。RecordReader实例是由输入格式定义的,默认的输入格式,TextInputFormat,提供了一个LineRecordReader,文件中的字节偏移量。RecordReader会在输入块上被重复的调用直到整个输RecordReader都会调用Mapper的方法。Mapper:Mapper执行了MapReduce程序第一阶段中有趣的用户定义map()被送到Reducer那里。对于整个作业输入部分的每一个map任务(输入块),每一个新的Mapper实例都会在单独的Java进程中被初始化,mapper之间不能进行通信。这就使得每一个map任务的可靠性不受其它map任务的影响,只由本地机器的可靠性来决定。map()方法除了键值对外还会接收额外的两个参数(译注:在0.20.×后的版本,接口已变化,由Context对象代替这两个参数):OutputCollector对象有一个叫的方法,它可以利用该方法把键值对送到作业的reduce阶段。Reporter对象提供当前任务的信息,它的getInputSplit()方法会返回一个描述当前输入块的对象,并且还允许map任务提供关于系统执行进setStatus()方法允许你生成一个反馈给用户的状态消息,incrCounter()方法允许你递增共享的高性能计数器,除了默认的计数器mapper都可以递增计数器,JobTracker会收集由不同处理得到的递增数据并把它们聚集在一起以供作业结束后的读取。Partition&:当第一个map任务完成后,节点可能还要继续执行更多的map任务,但这时候也开始把map任务的中间输出交换到需要它们的reducermap输出到reducer的过程叫做一个reduce合(被称为“partitions是reduce任务的输入数据。每一个map任务生成的键值对可能会隶属于任意的partition,有着相同键的数值总是在一起被reduce,不管它是来自那个mapper的。因此,所有的map节点必须就把不同的中间数据发往何处达成一致。Partitioner类就是用来决定给定键值对的去向,默认的分类器(partitioner)会计算键的哈希值并基于这个结果来把键赋到相应的partition上,自定义的分类器在第五部分有详细描述。reduce)关联到相同键上的所有数值,每一个节点收到的中间键集合在被送到具体的reducer那里前就已经自动被Hadoop排序过了。归约(Reduce):每个reduce任务都会创建一个Reducer实例,这是个已赋予到reducer的partitionreducer的reduce()方法只会未定义的顺序返回关联到同一个键的值。reducer也要接收一个OutputCollector和Report对象,它们像在方法中那样被使用。输出格式:提供给OutputCollector的键值对会被写到输出文件中,写入的方式由输出格式控制。OutputFormat的功能跟前面描述的InputFormat类很像,Hadoop提供的OutputFormat的实例会把文件写在本地磁盘或HDFS上,它们都是继承自公共的FileInputFormatreducer会把结果输出写在公共文件夹中一个单独的文件内,这些文件的命名一般是part-nnnnnnnnnn是关联到某个reduce任务的partition的id,输出文件夹通过FileOutputFormat.setOutputPath()来设置。你可以通过具体MapReduce作业的JobConf对象的setOutputFormat()方法来设置具体用到的输出格式。下表给出了已提供的输出格式:默认的输出格式,以"key\tvalue"的方式输出行输出二进制文件,适合于读取为子MapReduce作业的输入忽略收到的数据,即不做输出NullOutputFormat表4.2:Hadoop提供的输出格式Hadoop提供了一些OutputFormat实例用于写入文件,基本的(默认的)实例是TextOutputFormat,它会以一行一个键值对的方式把数据写入一个文本文件里。这样后面的MapReduce任务就可以通过KeyValueInputFormat于在MapReduce作业间使用的中间格式,那就是SequenceFileOutputFormat,它可以快速的序列化任意的数据类型到文件中,而对应SequenceFileInputFormat则会把文件反序列化为相同的类型并提交为下一个Mapper的输入数据,方式和前一个Reducer的生成方式一样。NullOutputFormat不会生成输出文件并丢弃任何通过OutputCollector传递给它的键值对,如果你在要reduce()方法中显式的写你自己的输出文件并且不想Hadoop框架输出额外的空输出文件,那这个类是很有用的。RecordWriterInputFormat中通过RecordReader读取单个记录的实现很相似,OutputFormat类是RecordWriter对象的工厂方法,用来把单个的记录写到文件中,就像是OuputFormat直接写入的一样。Reducer输出的文件会留在HDFS上供你的其它应用使用,比如另外一个MapReduce作业,或一个给人工检查的单独程序。第8章联接:MapReduce能够在大型数据集之间进行联接(join开始编写代码做联接。每个节点,则联接可以由一个MapReduce实现;将大数据集放在一起,用小数据集去检索大数据集的元数据进行联接。如果两个数据集都很大,则可以使用map端联接或者reduce端联接来实现。map端联接map端联接是在数据到达map函数之前就执行合并的,虽然对于每个map的输起来像一个严格的要求,实际上MapReduce作业输出的说明。也就是前期的数据排序如果是MapReduce做的,则是像符合的。InputFormat:Howthese
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论