云计算(分布式计算)入门_第1页
云计算(分布式计算)入门_第2页
云计算(分布式计算)入门_第3页
云计算(分布式计算)入门_第4页
云计算(分布式计算)入门_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云端漫步云计算的基本概念世界为我们保存了多少数据?照片:5M*100张=500M视频:50M*10部=500M微博记录:10M*50条=500MQQ聊天记录:1KB/文字*5000条+100KB/图片*200张=25M各种账号信息、各种成绩信息、各种游戏信息、各种坑爹信息…数据!数据!2020年35.2ZB2001年1.8ZB增长20倍!!数据太多,搞不定怎么办?抬头看天!!云?云——商业上的模型!IaaS(Infrastructure-as-a-Service)基础设施即服务PaaS(Platform-as-a-Service)平台即服务SaaS(Software-as-a-Service)软件即服务云——“旧”的技术?下面的词是不是很熟悉?网格计算高性能计算分布式计算虚拟化负载均衡…分布式计算神经网络网格技术广播网络Web2.0虚拟化各种开源框架新的浏览器技术……基础技术支持按需服务无处不在的网络快速计算反应独立的资源池标准服务基础特征IaaSPaaSSaaS交互模式私有的、公共的、社区的、混合的部署模式云的实质——

资源的共享将互联网看作一个大的资源池,我们本地除了具有基本的终端设备(不限种类,可能是PC、手机、电视、甚至电冰箱洗衣机等)而这些终端只具备基本的功能(可视、可输入、发声、电力)之外,其余的能力,直接从互联网上获取,记住!我们获取的仅仅是我们需要的部分,并且我们也只为这部分付费(运气好可能还免费)

IBM的创立者托马斯·沃森: 全世界只需要5台电脑就足够了BillGates: 个人用户的内存只需640K足矣李开复先生的一个比喻: 银行!!分布式计算的难点怎样将资源有效而透明的整合起来怎样存储大数据怎样建立编程模型Google三大论文GFSBigTableMap/Reduce其实现分别对应于hadoop:HDFSHBaseMapReduceGFS(GoogleFileSystem)本质:一个面向大规模数据密集型应用的、可伸缩的分布式文件系统效果:客户云端主机主机主机..…存储空间无限大?基本特征高容错性性能上的高稳定性对大文件的处理进行了优化数据的更新不会删除原数据灵活性高(应用程序API)BigTable本质:数据库不同点:非关系型(NoSQL)分布式可扩展服务可配置…架构Map/Reduce本质:编程模型Or框架应用场景:分布式大文件的并行计算贡献:通过简单的接口来实现自动的并行化和大规模的并行计算MapReduce过程Map:映射简单说来,一个map函数就是对一些独立元素组成的概念上的列表的每一个元素进行指定的操作。Reduce:化简reduce操作指的是对一个列表的元素进行适当的合并一个简单的例子:

统计:ababccbaabacbacacaba的字符频率ababccbaab------------------acbacacabaMap1:a:4b:4c:2Map2:a:5b:2c:3格式化输出1:<a,4><b,4><c,2>格式化输出2:<a,5><b,2><c,3>最终输出:<4,9><b,6><c,5>Map过程Map/Reduce

框架Reduce过程云计算和Hadoop有几毛钱关系? 云计算只是商业概念。它提出的是一种新的商业模式,是网格计算的进化版。 Hadoop是云计算的产品。它是云计算在发展过程中应运而生的一个框架。Hadoop是什么?Hadoop,是一个分布式系统基础架构,简单说,就是一个可以简单快速运行和处理大规模数据的软件平台。Hadoop的特点:1.扩容能力:可靠存储和处理PB级数据;2.成本低:普通机器即可搭建;3.高效率:并行计算;4.可靠性:自动维护备份,失败后自动重新部署任务。Hadoop主要子项目HDFS:Hadoop分布式文件系统MapReduce:并行计算框架HBase:类似BigTable的分布式NoSQL列数据库Hive:数据仓库工具Zookeeper:分布式锁设施Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制分而治之!Hadoop的做法就是:大事化小,小事化了。将一个大任务分割成很多的小任务,然后分别进行处理。类似于分布式系统。对于大量任务,我们一般的处理方法就是并行和串行两种。但是串行处理过于缓慢!因此一般是并行处理。Hadoop的设计思想Hadoop结构组成

Master:NameNode和JobTrackerSlave:DataNode和TaskTrackerMaster负责接收和调度任务,并对下面的Slave进行监控,一般还有一个SecondaryNameNode。Slave主要负责对Client的任务进行处理(计算或者存储)。结构示意Hadoop平台一般由一个Master和多个Slave组成。Master节点Slave节点心跳机制Master和Slave之间怎么进行联系的呢?它们是通过一种叫做HeartBeat的方式进行通信的。Slave每隔一定的时间(可调,默认为3秒)向Master发送一个消息,报告自己当前的状态,然后Master也通过这个心跳的返回值,向Slave传达指令。HeartBeat是单向的,只能是Slave发送给Master。Hadoop的当前应用公司名称集群机器数主要用途淘宝网1100台9.3PB大作业处理阿里巴巴15台数据排序,搜索引擎百度10-500个节点数据分析,数据挖掘Facebook两个(1100/300)数据挖掘,日志统计HULU13台日志存储和分析TWITTER未知存储数据雅虎25000台支持广告系统和搜索百度:Baidu对Hadoop中关键组件使用C++进行了重写(包括map,shuffler和reducer等),经他们内部测试(5nodes,40GBdata),效率提升了约20%。淘宝:淘宝针对自己集群特点(作业小,slot多,作业之间有依赖,集群共享,有些作业有时效性),对jobtracker和namenode进行了优化,据其官方博客称,其jobtracker有较大性能提升,且namenode吞吐量提升了8+倍。但其具体优化方法,未公开。一些公司对Hadoop的优化Hadoop存在的不足1.采用Java实现:对于CPU密集型任务来说,IO操作是致命缺点;2.开源项目:开源是把双刃剑,大家都可以修改,但是一些企业改进后为了公司的技术利益,不予公布;3.性能还不稳定:尚不成熟;4.HDFS小文件问题:HDFS存储文件的默认大小是64MB;5.JobTracker同时监控和调度,负载过大。

未来,我来!深入理解HDFS为什么需要HDFS?在哪里存储数据?什么是HDFS?为什么需要HDFS?HDFS的结构-Namenode(名字节点):负责文件系统名称,管理文件存储和控制客户端的访问。一般在一个单独机器上运行。-Datanode(数据节点):负责文件的操作(读,写,删除)。他也一般在一个单独机器上运行。-SecondaryNamenode:当名字节点出问题,负责管理整个系统像名字节点。HDFS结构Namenod

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论