版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
云计算&大数据关键技术与应用
目录云计算&大数据技术架构虚拟化技术12分布式数据处理技术海量数据存储技术34大数据技术应用实例5云计算运营两大阵营云计算产品的生态系统4基础硬件层虚拟化软件存储软件Swift网络软件虚拟化和基础软件层Glance基础架构及服务层应用层商用软件开源软件虚拟桌面海量数据处理大数据分析面临的主要技术问题需要提供一个高效稳定的存储和计算引擎如何支撑1万、10万台以上的机群规模?多集群架构,运维和管理系统如何在一个平台上支持多个组织的多个用户进行开发?多租户支持,安全隔离,权限控制如何了解业务运行状态?元数据管理,指标系统如何管理不同种类的任务?服务化,统一计算入口,可度量和控制的计算资源快速查询,精准搜索,智能分析…云计算技术用于处理大数据Highperformance–高并发读写
高并发、实时动态获取和更新数据HugeStorage–海量数据的高效率存储访问和智能分析
类似SNS网站,海量用户信息的高效率实时存储和查询HighScalability&&HighAvailability–高可扩展性和高可用性
需要拥有快速横向扩展能力、提供7*24小时不间断服务阿里大数据状况淘宝主站(2011年):30亿店铺、宝贝浏览10亿计的在线宝贝数千万量级交易笔数数据产品(2011年):50G统计汇总结果千万量级数据查询请求平均20.8ms的响应时间数据来源:阿里相关技术介绍ppt阿里技术架构总览数据来源:阿里相关技术介绍ppt腾讯大数据状况数据来源:2012-12-1赵伟《HIVE在腾讯分布式数据仓库实践分享》腾讯技术架构数据来源:2012-12-1赵伟《HIVE在腾讯分布式数据仓库实践分享》百度大数据状状况数据来源:2011年百度云计算总工工程师林仕鼎讲座《百度云计算总总体介绍》数据来源:2012.10百度杨毅讲座《百度的下一代代计算系统》百度技术架构构数据来源:2011年百度云计算总工工程师林仕鼎讲座《百度云计算总总体介绍》海量结构化数据存储系统(SQL)分布式文件系统海量非结构化数据存储系统(SQL)机器学习大数据应用机器学习分布式文件系系统海量数据存储储大规模计算智能分析大数据技术架架构-模型分布式并行计计算系统数据挖掘语义搜索……HIVEPig!ZooKeeper分布式文件系系统海量数据存储储大规模计算智能分析算法法大数据技术架架构-典型开源实现现目录云计算&大数据技术架架构虚拟化技术12分布式数据处处理技术海量数据存储储技术34大数据技术应应用实例大数据技术应应用实例56虚拟化技术通过虚拟化技技术可实现软软件应用与底底层硬件相隔隔离,它包括括将单个资源源划分成多个个虚拟资源的的裂分模式,,也包括将多多个资源整合合成一个虚拟拟资源的聚合合模式虚拟化软件实实现对硬件的的抽象,资源源的分配、调调度和管理,,虚拟机与宿宿主操作系统统及多个虚拟拟机间的隔离离等功能,目目前典型的实实现(基本成成为事实标准准)有:CitrixXenVMwareESXServerMicrosoftHype-VRedhatKVM网络虚拟化存储虚拟化桌面虚拟化计算虚拟化计算虚拟化技术Container1Container2Container3GuestOSGuestOSGuestOSVM1VM2VM3虚拟硬件虚拟硬件虚拟硬件VirtualMachineMonitorHypervisororStandardHostOSHardwareStandardHostOSHardware操作系统虚拟化层HypervisorOSVirtualization硬件虚拟化(Hypervisors)虚拟硬件访问问创建多个虚拟拟硬件实例宿主操作系统统及每个Guest必须为完整操操作系统VMwareESXi,MicrosoftHyper-V操作系统虚拟拟化(Containers)虚拟操作系统统访问创建多个虚拟拟操作系统实实例物理服务器拥拥有单个、标标准的OS内核VMwareworkstation,SunSolarisContainers,OpenVZ网络虚拟化::软件定义网网络SDN(SoftwareDefinedNetwork)SDN是一种新兴的控制与转发发分离并直接可编程的网络架构传统网络设备备紧耦合的网网络架构被拆拆分成应用、、控制、转发发三层分离的的架构。控制制功能被转移移到了服务器器上,上层应应用、底层转转发设施被抽抽象成多了逻逻辑实体网络虚拟化-VxLan实现虚拟机的跨网络迁移移虚拟可扩展VLAN(VirtualExtensibleVLAN,VXLAN)标准将创建建一个逻辑网网络(或扩展展VLAN),支持地理理分散的数据据中心之间实实现远距离虚虚拟机(VM)迁移。VXLAN最终会实现多多租户云网络络所需要的远远距离分割支持思科与VMware已经合作将VXLAN标准整合到产产品中,但是是这个由思科科、VMware、Arista网络、Broadcom公司、Citrix系统和红帽等等公司共同制制定的VXLAN草案仍然有待待互联网工程程工作小组((IETF)标准化。云计算基础设设施管理技术术云计算资源规规模庞大,服服务器数量众众多并分布在在不同的地点点,同时运行行着数百种应应用,如何有有效的管理这这些服务器,,保证整个系系统提供不间间断的服务是是巨大的挑战战。云计算系统的的平台管理技技术能够使大大量的服务器器协同工作,,方便的进行行业务部署和和开通,快速速发现和恢复复系统故障,,通过自动化化、智能化的的手段实现大大规模系统的的可靠运营常用的开源VIMOpenStackCloudStackOpenNebulaEucalyptusC(Cloudstack)DeltaCloudCleverOpenStack简介OpenStack是由Rackspace和NASA共同开发的云云计算平台,,帮助服务商商和企业内部部实现类似于于AmazonEC2和S3的云基础架构构服务(IaaS)。用Python语言编写大型用户:NASA加拿大半官方方机构CANARIE网络的DAIR项目RackspaceCloud惠普云(使用UbuntuLinux)MercadoLibre的IT基础设施云,,现以Openstack管理超过60000台服务器OpenStack社区目录云计算&大数据技术架架构虚拟化技术12分布式数据处处理技术海量数据存储储技术34大数据技术应应用实例5Google分布式处理架架构Google云计算应用BigTableGFSMapReduceChubby组件调用关系系分析分布式文件系系统分布式计算模模型分布式文件系系统-Google文件系统统(GFS)Google48%MSN19%Yahoo33%客户端客户端客户端互为备份管理节点GFS主节点点GFS主节点点C0C1C2C5数据结点1C0C2C5数据结点NC1C5数据结点2…客户端客户端客户端客户端客户端客户端C1分布式文件系系统-HDFS基本结构采用主从架构构,由一个Namenode和若干个Datanode组成Namenode:负责管理名字字空间
与客客户端访问Datanode:管理附带的存存储,
存储储文件的block一个文件分成成多个block,Block是HDFS最小存储与分分配单位,,分布存储,典典型块大小为为64MB或128MB一个block被复制存放于多个datanodeHDFS在Yahoo安装
了14PB的在线磁盘分布式文件系系统-GlusterFS分布式文件系系统-LustreMDS:MetadataServer,元数据管理器器,管理名字字空间和文件件对象映射OSS:ObjectStorageServer,I/O服务器MDT:MetadataTarget,MDS的本地磁盘存存储OST:ObjectStorageTarget,OSS的本地磁盘存存储OSTMDT分布式文件系系统-写入性能比较来源:中科院院深圳先进技技术研究院熊文,喻之斌,须成忠的论文文《几个常见分布布式文件系统统特征分析和和性能对比》(《集成技术》2012年11月)分布式文件系系统-读取性能比较较来源::中科科院深深圳先先进技技术研研究院院熊文,喻之斌斌,须成忠忠的论论文《几个常常见分分布式式文件件系统统特征征分析析和性性能对对比》(《集成技技术》2012年11月)分布式式计算模模型-概述待处理理数据据量巨巨大短时间间处理理如何进进行并并行分分布式式计算算?如何分分发待待处理理数据据?如何处处理分分布式式计算算中的的错误误?MapReduce模型Google公司的的核心心计算算模型型分布式式计算模模型-MapReduce一个软软件架架构,,是一一种处处理海海量数数据的的并行行编程程模式,,用于于大规模模数据据集((通常常大于于100TB)的并并行运运算适合要要求:待处理理的数数据集集可以以分解解成许许多小小的数数据集集,而而且每每一个个小数数据集集都可可以完完全并并行地地进行行处理理。MapReduce实现了了Map和Reduce两个功功能Map把一个个函数数应用用于集集合中中的所所有成成员,,然后后返回回一个个基于于这个个处理理的结结果集集Reduce对结果果集进进行分分类和和归纳纳Map()和Reduce()两个函函数可可能会会并行行运行行计算流流程分布式式计算模模型-MapReduce提供数数据的的存储储访问问、数数据块块划分分、计计算节节点调调度管管理、、数据据通信信、结结果收收集、、容错错处理理、负负载均均衡、、性能能优化化等JobTracker:主结结点接受用户提提交的的MRjob分派map任务和和reduce任务监管tasks和tasktrackers,重新新执行行失效效任务务一般情况应应该把把JobTracker部署在在单独独的机机器上TaskTracker:任务的的调度度多个运运行于于多个个节点点的slaver服务,,一个个Datanode节点一一个。。按照jobtracker的要求求执行行map或者reduce任务管理存存储,,传输输中间间结果果分布式式计算模模型-MapReduce任务执执行状态更更新Shuffle&Sort单词记数问问题(WordCount)(Hadoop自带例例子))给定一一个巨巨大的的文本本(如如1TB),如如何计计算单单词出出现的的数目目?MapReduce示例Step1:自动对对文本本进行行分割割MapReduce示例Step2:在分割割之后后的每每一对对<key,value>进行用用户定定义的的Map进行处处理,,再生生成新新的<key,value>对MapReduce示例Map类:编编程实实现HadoopMapper接口的的Map方法Step3:对输出出的结结果集集归拢拢、排排序(系统自自动完完成))MapReduce示例Step4:通过Reduce操作生生成最最后结果MapReduce示例Reduce类:编编程实实现HadoopReduce接口的的Reduce方法目录录云计算算&大数据据技术术架构构虚拟化化技术术12分布式式数据据处理理技术术海量数数据存存储技技术34大数据据技术术应用用实例例51.Volume2.
Variety3.value4.Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命无法在在一定定时间间内用用传统统数据据库软软件工工具对对其内内容进进行抓抓取、、管理理和处处理的的数据据集合合大数据据的特特点数据量量巨大大全球在在2010年正式式进入入ZB时代,,IDC预计到到2020年,全全球将将总共共拥有有35ZB的数据据量1PB数据相当于于50%的的全美美学术术研究究图书书馆藏藏书资资讯内内容。而到2012年为止止,人人类生生产的的所有有印刷刷材料料的数数据量量是200PB,全人人类历历史上上说过过的所所有话话的数数据量量大约约是5EB。存储原原理数据库库存储储数据库库以行行、列列的二二维表表的形形式存存储数数据以一维维字符符串的的方式式存储储到磁磁盘行式存存储按行来来序列列化并并追加加到磁磁盘列式存存储按行来来序列列化并并追加加到磁磁盘列族CAP理论分布式式数据系系统的的CAP原理的的三要要素::一致性性(Consistency)可用性性(Availability)分区容容忍性性(Partitiontolerance)CAP原理::在分布布式系系统中中,这这三个个要素素最多多只能能同时时实现现两点点,不不可能能三者者兼顾顾对于分分布式式数据据系统统,分区容容忍性性是基基本要要求对于大大多数数web应用,,牺牲一一致性性而换取取高可可用性性,是是目前前多数数分布布式数数据库库产品品的方方向。。NoSQL的两个个核心心模型型Google的BigTableBigTable提出了了一种种很有有趣的的数据据模型型,它它将各各列数数据进进行排排序存存储。。数据据值按按范围围分布布在多多台机机器,,数据据更新新操作作有严严格的的一致致性保保证。。Amazon的DynamoDynamo使用的的是另另外一一种分分布式式模型型。Dynamo的模型型更简简单,,它将将数据据按key进行hash存储。。其数数据分分片模模型有有比较较强的的容灾灾性,,因此此它实实现的的是相相对松松散的的弱一一致性性:最最终一一致性性。NoSQL技术分分类Key-value一个Key对应一一个Value,能提提供非非常快快的查查询速速度、、大的的数据据存放放量和和高并并发操操作,,非常常适合合通过过主键键对数数据进进行查查询和和修改改等操操作RedisBerkeleyDBKyotoCabinet/Tycoon列式存存储按列存存储数数据,,最大大的特特点是是方便便存储储结构构化和和半结结构化化数据据,方方便做做数据据压缩缩,对对针对对某一一列或或者某某几列列的查查询有有非常常大的的IO优势HbaseCassandra文档结构结构和和Key-value非常相相似,,也是是一个个Key对应一一个Value,但但是是这这个个Value主要要以以JSON或者者XML等格格式式的的文文档档来来进进行行存存储储,,是是有有语语义义的的。。可可以以对对某某些些字字段段建建立立索索引引,,实实现现关关系系数数据据库库的的某某些些功功能能。。MongoDBCouchDB图式式存存储储以图图论论为为基基础础Neo4J简介介Bigtable是一一个个分分布布式式的的结结构构化化数数据据存存储储系系统统,,它它被被设设计计用用来来处处理理海海量量数数据据::通通常常是是分分布布在在数数千千台台普普通通服服务务器器上上的的PB级的的数数据据。。Google的很很多多项项目目使使用用Bigtable存储储数数据据,,包包括括Web索引引、、GoogleEarth、GoogleFinance等。数据据模模型型Bigtable是一一个个稀稀疏疏的的、、分分布布式式的的、、持持久久化化存存储储的的多多维维度度排排序序Map。Map的索索引引是是行行关关键键字字、、列列关关键键字字以以及及时时间间戳戳;;Map中的的每每个个value都是是一一个个未未经经解解析析的的byte数组组NoSQL————BigTable特点点适合合大大规规模模海海量量数数据据,,PB级数数据据;;分布布式式、、并并发发数数据据处处理理,,效效率率极极高高;;易于于扩扩展展,,支支持持动动态态伸伸缩缩;;适用用于于廉廉价价设设备备;;适合于读读操作,,不适合合写操作作;不适用于于传统关关系数据据库;简介HadoopDatabase,HBase是GoogleBigtable的开源实实现,是一个高可可靠性、、高性能能、面向向列、可可伸缩的的分布式式存储系系统,利利用HBase技术可在在廉价PCServer上搭建起起大规模模结构化化存储集集群。数据模型型类似GoogleBigtable利用GFS作为其文文件存储储系统,,HBase利用HadoopHDFS作为其文文件存储储系统;;Google运行MapReduce来处理Bigtable中的海量量数据,,HBase同样利用用HadoopMapReduce来处理HBase中的海量量数据;;GoogleBigtable利用Chubby作为协同同服务,,HBase利用Zookeeper作为对应。NoSQL—Hbase底层数据存储储基于HDFS高可用,,高性能能列存储,,多版本本百亿行×百万列×上万个版版简介:一个开源的的使用C语言编写写、支持持网络、、可基于于内存也也可持久久化的key-value存储系统统,仅有有一万行行代码。。从2010年3月15日起,Redis的开发工工作由VMware主持。NoSQL———Redis速度快::C语言、数数据加载载到内存存持久化::数据保保存到内内存的同同时,还还可以同步到磁盘上数据结构构:支持持五种数数据结构构支持多语语言:诸诸如C,PHP,java,Perl,Ruby,Python等主从复制制:支持持简单的的主从复复制,官官方提供供数据,,Slave在21秒完成了了对Amazon网站10Gkeyset的复制相比memcached的优势::value类型更丰丰富数据操作作方法更更多可将内存存数据持持久化最初由Facebook开发,用用于储存存收件箱箱等简单单格式数据集GoogleBigTable的数据模模型与AmazonDynamo的完全分分布式的的架构于于一身Facebook于2008将Cassandra开源,此此后,由由于Cassandra良好的可可扩放性性,被Digg、Twitter等知名Web2.0网站所采采纳,成成为了一一种流行行的分布布式结构构化数据据存储方案NoSQL———Cassandra特点模式灵活活:使使用Cassandra,像文档档存储,,你不必必提前解解决记录录中的字字段。你你可以在在系统运运行时随随意的添添加或移移除字段段。这是是一个惊惊人的效效率提升升,特别别是在大大型部署署上。真正的可可扩展性性:Cassandra是纯粹意意义上的的水平扩扩展。为为给集群群添加更更多容量量,可以以指向另另一台电电脑。你你不必重重启任何何进程,,改变应应用查询询,或手手动迁移移任何数数据。多数据中中心识别别:你你可以调调整你的的节点布布局来避避免某一一个数据据中心起起火,一一个备用用的数据据中心将将至少有有每条记记录的完完全复制制。介于关系数据据库和非非关系数数据库之间,是非关系系数据库库当中功功能最丰丰富,最最像关系系数据库库的支持的数据结结构非常常松散,,是类似似json的bjson格式,可以存储比较较复杂的的数据类型型支持的查询语语言非常常强大,,其语法法有点类类似于面面向对象象的查询询语言,,几乎可可以实现现类似关关系数据据库单表表查询的的绝大部部分功能能,而且且还支持持对数据据建立索索引。NoSQL———MongoDB主要特点点文档型::存储在集集合中的的文档,,被存储储为键-值对的形形式。键键用于唯唯一标识识一个文文档,为为字符串串类型,,而值则则可以是是各种复复杂的文文件类型型。面向集合存储储:易存储对对象类型型的数据据,包括括文档内内嵌对象象及数组组。模式自由由:无需知道道存储数数据的任
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度文化产品出口代理协议模板3篇
- 2025年度征收补偿与安置补偿协议执行监督办法4篇
- 2024年04月湖南国家开发银行湖南分行暑期实习生招考笔试历年参考题库附带答案详解
- 个人汽车租借协议2024年标准格式样张版B版
- 2025年度文化创意产业园区场地租赁管理协议4篇
- 个人与公司买卖合同范本完整版
- 2025年度文化产业园区场地合作开发合同协议书4篇
- 2024版室外房屋墙面装修合同书版B版
- 2025年度化妆品全球包销代理合同范本4篇
- 2024装饰装修合同的法律适用
- 2023年全国统一建筑工程预算工程量计算规则完整版
- 教科版四年级科学下册第三单元岩石与土壤4.制作岩石和矿物标本(教学设计)教案
- 大学《工程力学》期末考试试题库含详细答案
- 2022年湖北省武汉市中考数学试卷含解析
- TLFSA 003-2020 危害分析与关键控制点(HACCP)体系调味面制品生产企业要求
- LY/T 2244.3-2014自然保护区保护成效评估技术导则第3部分:景观保护
- 纪律教育月批评与自我批评五篇
- GB/T 26480-2011阀门的检验和试验
- GB/T 13342-2007船用往复式液压缸通用技术条件
- 药店员工教育培训资料
- GB 20371-2016食品安全国家标准食品加工用植物蛋白
评论
0/150
提交评论