版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop培训-的的 大数据 数据特 大:数据量大。面对与处理比过去更大的数据4具有4V集 多结构化 文本
/文档增长海量数据的及时有效•价值密度•单条数据并无太多价值,但庞大的数据量蕴巨部数据快速增长所带来问析析多样化数多样化数 和报告意外业务经典技术理遵守Codd二表范化型据模设以求据整技术特数据操作遵循ACID(原子性、一致性、性、持久性)原数据操作基于SQL语言实现,支持复杂的SQL模式(Schema)固强事务,强一致性保强大的索引、执行计划与优化引擎机数据抽象与物理层相对独立,数据分页存优技术体系完整、成熟、可可严格保证数据完整性与一致可非常容易地建立二级索SQL对复杂数据操作需求只局限不是天然为分布式与并行设计,水平扩展性受限,可管理数据量与负载量难以适应大规需SQL引擎可支持的数据需求场景有关系模型不适合与处理许多非结构化/半结构化的场适用场企业交易操作与数据管理支复杂BI报表与分析需代表产Oracle,DB2,Informix,MySQL,SQL7关系数据库的基本特8MPP架构示例--改进型技术理在保证关系模型、SQL体系与写时模式约束的前提下,提高经典RDBMS的水平扩展性并发负载支持能技术特保持经典RDBMS的一切原有特引入分布式数据特引入分布节点并行操作特通常采用软硬件的模优保持经典RDBMS的一切原有优水平可扩展性大大提部分产品实现资源精局限大多数情况下更适合于批量操作为主的OLAP场适用场企业交易操作支持与数据管复杂BI报表与分析需代表产OracleExaData,IBMPureData,TeraData,EMC分分布式文大变=小变新新技术 常见的分布式文件系统mogileFS、TFS、FastDFS文件服务。HadoopBerkeleyDB列鉴自的igTale,按列。方图数据并非对等的,关系型的或者键值对的,可能都不是最好的方式,图是图形关系的最佳SqlonStorm=ApacheFlink是一个高效、分布式、基于Java实现的通用大数据分析引、可靠性和扩展易用完全兼容Hadoop的由DougCutting以及HadoopApacheHadoop0.20.x,0.21.x,Hadoop2.00.23.x:x:YARN,HDFSFederation,NameNode 称 (安装 使用 22安装 使用 安装 使用 是apachehadoop平HadoopHadoop1.0与Hadoop选择依 3是否经实践验证,这个可通过检查是否有一些大点的公司4是否有强大的社区支持,当出现一个问题时,能够通过社ABABACADAE3BI7CD5告诉:B有很高 J EK •••••••••••SparkSpark据dd其他技术在处理时效性方面都无法达到实时或准实时的地,但是在某些景,比如算法交、 测实时 等方需要从大量的信息中及发现潜在模式,这种情况,就要使用流处理的技术——、arktreamg。©2014基于内存计算的一个框架,计算速出比较快,也可以用于实时计算,擅长代计算和交互式计算—Spark和SparkStreamingII
LandingFiles
DataData
StagingFiles
DataData
Landing
TabularAudioAudio
Tabular 数据合 户服层 RestAPI、SOAP、层 据 间的交互层
系 系境统 用户 数据中层实时数 源
数据专有通据
用户 数据批量
35Web服务Web服务日Scribe、消息队实时计算模Strom实时计算模Strom、Spark离线&内存计MapReduce、R数据接
Hbase、实 和计
离线计算和分
Hadoop优⒈高可靠性。Hadoop按位和处理数据的动数据,各个节点的动态平衡,因此 生态系统介 Nosql数据库,Key-2最大化利用内hadoopdistributefilesystem分布式文件系最大化利用磁编程模型,主要用来做数据的分最大化利用讨论和问大数 哪些问题Hadoop大数据的方案解决的哪些问可靠性分 HDFS原理和应用开HDFS的设计目HDFS设计原HDFS主要组件及功HDFS系统架HDFS的设计目节点失效是常—宕—磁盘坏理想状可靠性分 HDFS设计原文件以块(block)方每个块远比多数文件系统来的大(预设通过副本机制实现数据容错,默认3通过副本机制提高可靠度 吞吐master(NameNode)来协 元数据Slave( 数NameNode主要功能提供名称查询服务,它是一个jettyNameNode保存metadate信息包文件owership和文件包含哪些Block保存在哪个DataNode(由DataNode启动时上报NameNode的metadate信息在启动后会加载到 到磁盘文件名为Block的位置信息不会保存到NameNode的metadate信息在启动后会加载设置一个Block64MB,如果上传文件小于该值,仍然会占用一个 名空间(NameNodemetadata),但是物理
保存启动DN线程的时候会向NN汇报block信通过向NN发送心跳保持与其联系(3秒一次),如果NN10分钟没有到DN的心跳,则认为其已经lost,并copy其上的block到其它
HDFSHDFS设计的目标:机器的宕掉、磁盘的坏掉是正常MasterNodeNameNodeService
Rack
Rack
DataNodeShuts
--Block为--repliction默认拷贝2--threeHDFS文 结讨论和问 MapReduce设计理何为分布式计移动计算,而不是移动数据1G的带需要大概4小
JobTracker(JT)和Tasktracker(TT)MapReduceMapReduce设计的目标:移动计算,而不是移动数据©2014
getmap
(onlocaldisks)
Run
Getnewjob
JTClientJTClient
MapMaporTTMapReduce文件写MapReduce1protectedvoidsetup(Context2protectedvoidmap(KEYINkeyVALUEINContextcontext)throwsIOException,InterruptedException{context.write((KEYOUT)key,(VALUEOUT)}3、protectedvoidcleanup(Context)throwsIOException,InterruptedException//}4、publicvoidrun(ContextcontextthrowsIOExceptionInterruptedException}}1protectedvoidsetup(Context)throwsIOException,InterruptedException}2、protectedvoidreduce(KEYINkeyIterable<VALUEINvaluesContext)throwsIOException,InterruptedExceptionfor(VALUEINvalue:values)context.write((KEYOUT)key,(VALUEOUT)}}3、protectedvoidcleanup(Context)throwsIOException,InterruptedException}4、publicvoidrun(ContextcontextthrowsIOExceptionInterruptedExceptionwhile(context.nextKey())}}
MapReduce编码示例一--- oworldbyeworldMap输入:(0, oworldbyeworld)代publicstaticclassextendsMapper<Object,Text,Text,IntWritable>{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();)throwsIOException,InterruptedException{while(itr.hasMoreTokens()){}}}Map输 o,Reduce输
MapReduce编码示例一---输入:(bye 代publicstaticclassprivateIntWritableresult=newIntWritable();Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritableval:values){sum+=val.get();}context.write(key,result);}}Reduce输 o,文件输入格式Defaultformat;readslinesoftextfilesThebyteoffsetoftheThelineParseslinesintokey-valEverythinguptothefirsttabcharacterTheremainderofthelineperformancebinaryInputSplit定义了输入到单个任务的输入数一个MapReduce程序被统称InputSplit将文件分为64MB的数据记录读入InputSplit定义了一个数据分块,但没有定义如 数据记TextInputFormat提供读入一个文本行数据记合并相同key的键值对,减少partitioner时候的数据通信开是在本地执行的一个Reducer,满足一定的条件才能够执Partitioner&Partitioner&
做用户定义的Reduce文件输出格式写入到HDFS的所有OutputFormat都继自 个号(partitionid)文件输出格式Default;writeslinesin"key\tvalue"WritesbinaryfilessuitableforreadingDisregardsitsTextOutputFormat实现了缺省的LineRecordWriter,以value”形式输出一行结Codec为压缩,解压缩的算法实在Hadoop中 pressionCode的实现来表示下面是一些实现Map任务输出的压缩属在程序中运Configurationconf=newConfiguration(); press. (FIFO三公平调度器(FairCapacity五配置多个队列①
②④
⑤task ⑦Hadoop作业描述方Ta
(推测式任务Speculative
队列用户被划分到某个每个队列分配一定量的作业提交时 LOW,VERY_LOW)任务本地性(nodelocalityrack<hasafree
按到达时mapmapmapmapmapmapmapmapmap
reducereducereducereduce
开源的,共享集群调度以队列方式组织作基于最小资源量(minshare)与公平共享量(fairshare)进行调度作业优先级越高,分配到的资源按缺额排序,缺额大者优<?xml 由Yahoo!开源,共享集群调度以队列方式组织作每个队列内部采用FIFO调度策每个队列分配一定比例资可限制每个用户使用资源按到达时间排序,先来先服
100(20%, (50%,(30%,HadoopStreaming介 运行一个MapReduceStreaming程cattest.log|wc/bin/hadoopjarcontrib/streaming/hadoop-streaming--mappercat-reducer'wc- /data/test.log-output技术理流程是先分(Ma)后合(Reduce),技术特数据自动分片,分布近地Map,分区Reduce,分布式计批量流式处理,无随机读非实时响优海量数据快速批量处低成高水平可扩展局限不适合实时数据查询需很多需求需要自行编程实适用场海量数据的分析与挖掘需代表产HadoopHA原YARN原Yarn资源管Snapshots介其他特Hadoop1.0的局限-
当map-reducejob非常多的时候,会造成很大的Map-Reduce只能支4000节点主机的上批处理模式,时效性低效的资源管maptaskslotreducetaskslot,只有map
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 呼伦贝尔学院《羽毛球专项与实践Ⅲ》2021-2022学年第一学期期末试卷
- 呼伦贝尔学院《体育Ⅲ》2021-2022学年第一学期期末试卷
- 《传染病预防知识》课件
- 红河学院《中国民族音乐》2022-2023学年第一学期期末试卷
- 红河学院《小组社会工作》2021-2022学年第一学期期末试卷
- 员工年终总结与明年计划
- 《天线原理与安装》课件
- 同理心与心理健康教育
- 秋季养生保健小常识
- 第07讲 平面向量奔驰定理与三角形四心问题(高阶拓展、竞赛适用)(学生版)-2025版高中数学一轮复习考点帮
- 高质量的幼儿园教育
- 小学体育-轻度损伤的自我处理教学课件设计
- 第一章-公路概论课件
- 基于PLC的水箱温度控制系统
- 十三项核心制度-上海第十人民医院
- 危险化学品企业设备完整性管理专项行动方案
- 七步洗手法 课件
- YYT-0664-2020医疗器械软件软件生存周期过程核查表
- 学科前沿讲座-公共关系(2022下)学习通课后章节答案期末考试题库2023年
- 注射低分子肝素患者知情同意书
- 化妆品生产质量管理规范(2022年)PPT
评论
0/150
提交评论