基础服务部网络大V- MapReduce技术简介-_第1页
基础服务部网络大V- MapReduce技术简介-_第2页
基础服务部网络大V- MapReduce技术简介-_第3页
基础服务部网络大V- MapReduce技术简介-_第4页
基础服务部网络大V- MapReduce技术简介-_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MapReduce技术简介1.什么是MapReduce2.MapReduce概念3.Hadoop计算组件对比目录2计算框架内存计算Spark批处理计算MapReduce实时流式计算StormMPP并行计算数据库及存储NoSQL数据库HBase关系数据库PostgreSQL分布式文件系统HDFS数据采集及管理日志采集Flume关系数据库连接Sqoop数据交换ETL工具Kettle大数据应用交通大数据应用公安大数据应用安全大数据应用无线大数据应用……服务及接口可编程接口数据即服务DAAS数据访问数据挖掘MahoutSQLonHadoop数据可视化R语言数据仓库Hive搜索引擎Lucene/ElasticNewSQL数据库系统服务分布式消息队列Kafka协调与同步系统ZooKeeper名字空间管理系统ApacheDS集群资源管理YARN作业调度Oozie安全管理Kerberos/LDAPH3C业务运维管理系统管理安装部署版本管理集群管理安全管理认证/授权合规审计Portal数据安全运行监控性能监控故障管理短信Email中心应用性能分析运营管理资源管理业务管理云管理接口多维分析数据搜索数据共享自助分析RestfulODBCJDBC数据分析Pig数据管理LinuxOS统一存储CEPH……多维度建模多算法引擎运营商大数据应用金融大数据应用DataEngine大数据管理平台什么是MapReduce4我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。1.什么是MapReduce2.MapReduce概念3.Hadoop计算组件对比5目录MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归约)”是它的主要思想,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。MapReduce概念易于编程良好的扩展性系统优化高容错性特点JobTracker是集群事务的集中处理点,存在单点故障JobTracker需要完成的任务太多,既要维护job的状态又要维护job的task的状态,造成过多的资源消耗在TaskTracker端,以map/reducetask的数目作为资源的表示过于简单,没有考虑到cpu/内存的占用情况,如果两个大内存消耗的task被调度到了一块,很容易出现OOMMapReduceV1架构YARN/MRv2最基本的想法是将原JobTracker主要的资源管理和job调度/监视功能分开作为两个单独的守护进程。这个设计大大减小了JobTracker(也就是现在的ResourceManager)的资源消耗,并且让监测每一个Job子任务(tasks运行在container中)状态的程序分布式化了,更安全。并且,ResourceManager可以开启HA功能,解决了单点故障问题。YARN/MapReduceV2架构MRClientResourceManagerApplicationsMastersNodeManagerContainerContainerNodeManagerContainerNodeManagerApplicationsMasterMapReduce流程9UserProgramMasterworkerworkersplit0split1split2workerworkerOutputfileOutputfile①fork①fork①fork②Assignmap②Assignreduce③read④localwrite⑤remoteread⑥write⑥writeIput

HDFSMapReduceOutputHDFSworkerMap端流程Map端Shuffle设计包括4个阶段:Input:分片数据输入Partition:让Map对Key进行分区Spill:将内存中溢出的数据写入磁盘中的临时文件,

并对数据进行排序和合并Merge:将溢写文件归并到一起Reduce端流程Reduce端Shuffle有两个阶段:Copy:map任务结束,拷贝map输出Merge:将多个map的输出文件合并MapReduce应用统计近10年计算机论文研究方向写一个小程序,把所有论文按顺序遍历一遍写一个分布式多线程程序,并发遍历论文使用方法一的程序把作业交给多个计算机完成使用MapReduce12例:WordCount的MapReduce执行过程MapReduce应用执行过程示例MapReduce的典型应用场景中,目前日志分析用的比较多,还有做搜索的索引,机器学习算法包Mahout也是之一,当然它能做的东西还有很多,比如数据挖掘、信息提取、大规模的算法图形处理、文字处理、分布排序、Web连接图反转和Web访问日志分析。谷歌,超过一万个不同的项目已经采用MapReduce来实现,包括大规模的算法图形处理、文字处理、数据挖掘、机器学习、统计机器翻译以及众多其他领域。MapReduce应用场景1.什么是MapReduce2.MapReduce概念3.Hadoop计算组件对比15目录计算框架内存计算Spark批处理计算MapReduce实时流式计算StormMPP并行计算数据库及存储NoSQL数据库HBase关系数据库PostgreSQL分布式文件系统HDFS数据采集及管理日志采集Flume关系数据库连接Sqoop数据交换ETL工具Kettle大数据应用交通大数据应用公安大数据应用安全大数据应用无线大数据应用……服务及接口可编程接口数据即服务DAAS数据访问数据挖掘MahoutSQLonHadoop数据可视化R语言数据仓库Hive搜索引擎Lucene/ElasticNewSQL数据库系统服务分布式消息队列Kafka协调与同步系统ZooKeeper名字空间管理系统ApacheDS集群资源管理YARN作业调度Oozie安全管理Kerberos/LDAPH3C业务运维管理系统管理安装部署版本管理集群管理安全管理认证/授权合规审计Portal数据安全运行监控性能监控故障管理短信Email中心应用性能分析运营管理资源管理业务管理云管理接口多维分析数据搜索数据共享自助分析RestfulODBCJDBC数据分析Pig数据管理LinuxOS统一存储CEPH……多维度建模多算法引擎运营商大数据应用金融大数据应用大数据的计算组件计算组件的对比MapReduce是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,是一种磁盘计算框架,非常适合数据密集型计算。SparkSpark则是一种内存计算框架,它将数据尽可能放到内存中以提高迭代

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论