版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9 ••对应的云计算系HadoopGFSHadoopMapReduceHadoopBigtableHadoopChubbyEucalyptus、EnomalyECPNimbus、AmazonAmazonSectorand 2011年接近 需 于一个开源的网络搜索引擎项目Apache由ApacheLucene创始人DougCutting 这个移出的子项目成为了这个移出的子项目成为了2004实2006.112009.3HDFS究集群增个集群总Cutting加 个台的最初版点器2008.4Nutch移Hadoop个节点运到新框目正式启1TB排序Hadoop试集仅20个节点209稳定运 集 •数 存放的位置(机架感知策略 通过联系amenode,得到所. 数 数5.FSDataInputStream连接距离最近的datanode 7FSDataInputStream从datanode数据时如果遇到错误,会尝试从该块的另外一个最近的datanode数8.每个的块通过校验和确认以保证数据完整他datanode块之前通知namenode网络看做是一棵节点间距离是节点到他们最近的共同祖先的距离… 联系amenode,内列dataqueue求namenode分配适合的新块来数据备份节点,然后该节点完之后发送给第二个节点,以此类8.FSDataOutputStream一个确认队列ackqueue, 第一个复本放在节点本第二个复本放在与第第三个复本放在与第其他复本放在集群中随机选择的节点同时考虑节点 负载 负GFS:多台物理服务台提供服HDFS:单一中心服务器模GFS:ChunkServer在Chubby中获取独占锁表示其生存Master通过轮询这些独占锁获知ChunkServer的生存状HDFS:DataNode通过心跳的方式告知NameNode其生存状GFS中,Master损坏时,替补服务器可以快速获知Chunk的状HDFS中,NameNode损坏后,NameNode恢复时需要花费一时间获知DataNode的状在添加数 节点时,GFS的伸缩性较HDFS要(如个)副本损坏处理 副本失败时,Master负责发起拷贝任文件删除时,仅删 结实际数据的删除在等待一段时间后实优点•Job–a“fullprogram”-anexecutionofaMapperandReduceracrossadatasetTask–anexecutionofaMapperoraReduceronasliceofdataTaskAttempt–aparticularinstanceofanattempttoexecuteataskonamachinewordcountinputoutputMasternoderunsJobTrackerinstance,whichacceptsJobrequestsfromclientsTaskTrackerinstancesrunonslaveTaskTrackerforksseparateJavaprocessforJobJar文件包含了java程序代XML文件包含序列化的程序配置操Mapper的并Reducer的并Data计算数据 ConfiguringWithClientprogramcreatesaIdentifyclassesimplementingMapperandSpecifyinputs,Optionally,otheroptionsSubmit
GetnewjobIDfromDeterminesproperdivisionofinputintoSendsjobdata(jar/conf/inputsplits)tothefilesysteminadirectorynamedafterthejobjobjarwithahighreplicationfactor(mapred.submit.replication=10),easyfortasktrackerstoCallsubmitJob(JobID)onPutJobinthequeue,andhaveSchedulerhandleDifferentschedulersInsertsjarandJobConf(serializedtoXML)insharedPostsaJobInProgresstoitsrunTaskTrackersrunningonslavenodesperiodicallyqueryJobTrackerforwork(alsoasaheart-beat)Retrievejob-specificjarandTaskTrackerclosetodataselectedinLaunchtaskinseparateinstanceofmain()isprovidedbyEachTaskTrackerhasafixednumberofmap/reducetaskslots(resource-bounded),withmaptasksinSetsupthechildTaskInProgressReadsXMLConnectsbacktonecessaryIndependenttaskUsesTaskRunnertolaunchusercrashesdonotaffectTaskRunnerlaunchesyourTaskknowsaheadoftimewhichInputSplitsitshouldCallsMapperonceforeachrecordretrievedfromRunningtheReducerismuchtheReportseveryCreatingtheYouprovidetheinstanceofShouldOneinstanceofyourMapperisinitializedperExistsinseparateprocessfromallInstancesofMapper–nodata0.19void parablekey,WritableOutputCollectoroutput,Reporter0.20API(0.19APIalsosupportedvoidmap(KEYINkey,VALUEINvalue,Contextcontext){Context.write((KEYOUT)key,(VALUEOUT)value);}Hadoopstringsintegers(IntWritable),所有 都 Definesinputdata(e.g.,aIdentifiespartitionsofthedatathatformanFactoryforRecordReaderobjectstoextract(k,v)fromtheinput1、文本,行号切2、一定分隔符方式,支持自定义分隔3、大数据,比如影音等等,通过二进制流数FileInputFormatwillreadallfilesoutofaspecifieddirectoryandsendthemtothemapperDelegatesfilteringthisfilelisttoamethodsubclassesmayoverridee.g.,Createyourown“xyzFileInputFormat”toreadfromdirectoryEachInputFormatprovidesitsownRecordReaderLineRecordReader–Readsalinefromatext切分大小由mapred.min.split.size控通过getSplit()获得细RecordReadersfileoffset,MapfunctionreceivesContextContext.write()takes(k,v)Any parable,Writable)canbePartitionAndintgetPartition(key,val,OutputsthepartitionnumberforagivenOnepartition==valuessenttooneReduceHashPartitionerusedbyUseskey.hashCode()toreturnpartitionJobsetsPartitionerMapOutputinWhenyoucallcollect()inWrite<partition-id,key-value>inbuffer//parition-idobtainedbycallWhenthebufferisfull,callsortAndSpill()tocreatespillsortedbypartition-Callcombiner.reduce()ifcombinerisnotWritepartitionedkey-valuesonebyWhenmapfinishes,callmergeParts()tomergethespillsbyReduceCopy:callReduceCopier.fetchOutput()togetmapNote,copymaystartatthesameasSort:Mergethemapoutput,andcreatesaIteratoraccesskey-valueReduce:callerreduce(KEYINkey,Iterable<VALUEIN>values,Contextcontext)Keys&valuessenttoonepartitionallgotothesamereducetaskCallsaresortedbykey–“earlier”keysarereducedandoutputbefore“later”keysRemember–values.next()alwaysreturnstheobject,differentFinally:WritingTheTextOutputFormat–Writes“keyval\n”stringsoutputSequenceFileOutputFormat–Usesabinaryformatpack(k,v)NullOutputFormat–Discards•数据库系统已无法适应大型分布式数 的需空间的扩展只需要加 结
2006年底由PowerSetChadWalters和JimKellerman2008年成为ApacheHadoop的一个子项现已作为产品被使 Row
Column“<html>..“<html>..“<html>..
列列
列
其中,族 都可为任意形式的 数据模型-RowRow““
“<html>..“<html>..
Column “<html>..“<html>..RowTimeColumn:RowColumn “<html>..“<html>..“<html>..RowTimeColumn:
ZooKeeper
Map Map
为区域 负 区域的分
区域服务器(RegionServer)职
修改confhbase-env.sh,Hbase-启动Hbasebin/start-bin/hbase createdescribedropget/put
HBase
HBase 数据库andWhyPigseatPigLatin运行PigLatinPigLatin是数据流编程语言,是对输入的一步步操作,每Records=D‘input/ncdc/micro-tab/sample.txt’AS(year:chararray,temperature:int,quality:int);Filtered_records=FILTERrecordsBY atr9999D(quality=0Rquality=4Rquality=5Rquality=9);Grouped_records=Pfiltered_re=grouped_recordsP
的记录进行过组PigLatin从文件系统或其他中加载数文件系统交互命令,如创建 、删除文 文件到一 、改变当 算数、条件、布尔、函数、字段名、第n个字段、键值对中键值数值、文本(字符数组)集合、键值对(键必须是字符数组计算函数、过滤函数、加载函数 函Grouped_records=GROUPrecordsBYyearHiveQLvs对表的进一步划比如对日志文件按照日期进行分区,则同一天记录被存放在同一分区中,以缩小处理范桶分区可以进一步分为桶为数据提供额外的结构以获得更高效的处比 市机动车牌尾号除以5的余数分成5个TABLEtable1(id STRING,eDA tabletable1;MSELECTyear,PSELECTyear,EPBYyear
•map-reducejob业界普遍总结出老Hadoop的Map-Reduce只能支持4000节点主机的上限。TaskTrackermap/reducetask的表示过于简单,没有考虑到cpu/内存的占用情况,如果两个大内存消耗的task被调度到了一块,很容易出现TaskTrackermaptaskslotreducetaskslotmaptaskreducetask的时候,会造成资源的浪费,也就是前面提为一个class做了太多的事情,代码量达3000多行,,classbug修复和版本的难HadoopMapReducebug升和特性化)时,都会强制进行系统级别的升级更新。更HadoopAPI ResourceManager,ApplicationMaster与NodeManager三个部分。ResourceManager是一个中心的服务,它做的事情是调JobApplicationMaster、另外监控ApplicationMaster的存在情况。ResourceManager负责作业与资源的调度。接收JobSubmitterContext)度过程,分配一个Container作为AppMstrApplicationMasterJob包括task的 ApplicationMaster,它可以运行在ResourceManagerNodeManager功能比较专一,就是负责Container状态 ,并向RM保持心跳。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2031年中国水晶内雕机行业投资前景及策略咨询研究报告
- 2025至2030年中国插入式压缩活性炭棒滤芯数据监测研究报告
- 二零二五年度海水淡化项目水处理维修工程合同样本2篇
- 二零二五年度企业间民间借贷合同范本-设备融资租赁3篇
- 二零二五年度社会福利项目合同终止及福利保障协议3篇
- 二零二五年度夜间配送服务合同2025年度3篇
- 施工单位工程质量自评报告三篇
- 村镇乡垃圾清运合同
- 物业管理装修协议
- 房屋装修工程合同范本
- 2024年湖南高速铁路职业技术学院高职单招数学历年参考题库含答案解析
- 三创赛获奖-非遗文化创新创业计划书
- 道路通行能力手册第4章-高速公路基本路段
- 传感器与测试技术试卷及答案
- 2020年普通高等学校招生全国统一数学考试大纲
- 土方转运方案
- (11.3.1)-10.3蒸汽压缩制冷循环
- GB/T 679-2002化学试剂乙醇(95%)
- 总则(养牛场环评报告)
- 最全新能源材料-锂离子电池材料189张课件
- 封条模板A4直接打印版
评论
0/150
提交评论