版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机导论教师:第11章云计算与大数据11目录CONTENTS1云计算基础2云计算的关键技术3云计算的应用4云计算与其他集群计算比较5大数据简介目录CONTENTS6云计算与大数据系统7大数据处理系统实例8大数据的应用本章学习目标了解云计算的服务类型和部署方式了解云计算的关键技术及云计算的应用理解大数据处理的主要过程本章学习目标云计算
云计算是传统计算机技术和网络技术融合发展的产物,它涉及网络存储(NetworkStorageTechnologies)、分布式计算(Distributedcomputing)、并行计算(ParallelComputing)、虚拟化(Virtualization)、负载均衡(LoadBalance)、效用计算(UtilityComputing)、热备份冗余(HighAvailable)等。除此之外,云计算还要关注系统的扩展及方便管理、降低成本等方面的问题。
云计算简介云计算发展历程1983年SunMicrosystems提出“网络是电脑”。2006年3月Amazon推出弹性计算云(ElasticComputeCloud,EC2)服务。2006年8月9日Google首席执行官埃里克·施密特在搜索引擎大会(SESSanJose2006)首次提出“云计算”的概念。2007年10月Google与IBM开始在美国大学校园推广云计算计划。2008年1月30日Google宣布在台湾启动“云计算学术计划”。2008年2月1日Yahoo、HP和Intel宣布了一项涵盖美国、德国和新加坡的联合研究计划,推出了云计算研究测试床,以推进云计算。2008年8月3日美国专利商标局网站信息显示,Dell正在申请“云计算”商标,此举旨在加强对这一未来可能重塑技术架构的术语的控制权。2010年3月5日Novell与云安全联盟(CSA)共同宣布了一项供应商中立计划,名为“可信任云计算计划”。2009年1月阿里软件在江苏南京建立了中国首个“电子商务云计算中心”。2009年7月中国首个企业云计算平台“中化企业云计算平台”诞生2009年11月中国移动云计算平台“大云”计划启动。
云计算的服务类型
按照提供服务的层次和类别,云计算可以包括以下几个层次的服务:基础设施即服务(InfrastructureasaService,IaaS)、平台即服务(PlatformasaService,PaaS)、软件即服务(Softwareasaservice,SaaS)。不同服务类型下,用户通过云计算获取的服务内容云计算的服务类型1.IaaS
IaaS能为用户提供计算基础架构,通常指提供物理机、虚拟机、网络资源及其他资源,如虚拟机映像库、块存储或基于文件的存储、防火墙、负载均衡、IP地址、虚拟局域网等。目前主要的IaaS提供商和产品包括:Amazon的AWS、Microsoft的Azure、Rackspace的OpenStack、IBM的SoftLayer、VMware的VCloud等。中国有阿里云、青云及大云等,他们都是采用虚拟技术来提供虚拟机IaaS。云计算的服务类型2.PaaS
PaaS也被称为中间件服务,为用户提供的服务平台包括操作系统、编程语言运行环境、数据库和大数据集处理、Web服务器等。PaaS把开发环境作为一种服务来提供,可以使用中间商的设备和软件开发自己的程序,通过服务器和Internet传给用户。主要的服务平台包括Amazon的AWSElasticBeanstalk、Google的GAE(GoogleAppEngine)、新浪的ASE、百度云的开发引擎、大数据处理系统hadoop等。云计算的服务类型3.SaaS
SaaS是为用户提供按需支付费用的应用软件。用户不必操心各种应用程序的安装、设置和运行维护,一切都由SaaS提供商来完成。
用户只需要支付费用,通过可视化的客户端来使用它,如Google的Apps、Microsoft的Office365、Citrix的CloudStack,以及目前流行的各种云存储(网盘)、云相册、云备份、云打印、云监控等针对个人使用的云服务产品。公有云公有云是当前最主流且最受欢迎的云计算部署形式之一。公有云由服务供应商运行,为用户提供各种各样的信息技术资源。社区云社区云是指在一定的地域范围内,或面向两个及两个以上组织开放的云计算服务,该范围内的用户一般具有共同的需求,如云服务模式、安全级别等。私有云私有云主要为企业内部提供云服务,在企业的防火墙内工作,由企业自行管理。混合云混合云是公有云和私有云的融合,是近年来云计算的主要模式和发展方向。目前可供选择的混合云产品较少。云计算的部署云计算的部署在云部署与云计算的应用过程中,不同阶段存在不同角色,他们分别能提供云服务和使用云服务。云计算产业链图如下图所示。云计算的特点超大规模虚拟化高可靠性高可扩展通用性按需部署高性价比动态资源池支持海量信息处理可计量的服务云计算体系结构海量分布式存储技术弹性计算技术云计算的关键技术并行编程模式分布式资源管理技术云计算平台管理技术数据管理技术云计算的应用1.云计算平台Google云计算平台:Google是云计算最大的实践者之一,运营较接近云计算特征的商用平台——在线应用服务托管平台Google应用引擎(GAE)。软件开发者可以在此之上编写应用程序。开源云计算平台:Hadoop是Apache基金会的开源云计算平台项目
(分布式系统基础架构),
是从Nutch项目发展而来的,专门负责分布式存储及分布式运算的项目。Hadoop已成为目前应用最广、最成熟的云计算开源项目之一。Amazon的AWS云服务:Amazon是以在线书店和电子零售业发展起来的,
如今已在业界享有盛誉,它的云计算服务不涉及应用层面的计算,主要是基于虚拟化技术提供底层的可通过网络访问的存储、计算机处理、信息排队和数据库管理系统等租用式服务。云计算的应用2.云计算衍生产品
云存储:云存储是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。典型的云存储包括百度云、阿里云、网盘等,为用户提供存储和下载大容量文件服务。云安全:云安全是在Internet和云计算融合时代,信息安全的最新发展之一,包括以下两方面内容:1、云计算技术在安全领域的应用;2、安全技术在云计算平台的应用。其他:在游戏、教育、通信和娱乐、交通、医疗等领域,云计算同样应用广泛。如交通云、医疗云、购物云和高性能计算云等。云计算与其他集群计算比较1.云计算与网格计算
网格计算(GridComputing)是20世纪90年代中期发展起来的所谓下一代Internet核心技术。网格技术的开创者IanFoster将之定义为“在动态、多机构参与的虚拟组织中协同共享资源和求解问题”。网格在网络基础之上,基于SOA(Service-OrientedArchitecture,面向服务的体系结构),使用互操作、按需集成等技术手段,将分散在不同地理位置的资源虚拟成一个有机整体,以实现计算、存储、数据、软件和设备等资源的共享,从而大幅提高资源的利用率,使用户获得前所未有的计算和信息能力。云计算和网格计算的一个重要区别在于资源调度模式。云计算采用集群来存储和管理数据资源,运行的任务以数据为中心,调度计算任务到数据存储节点运行;网格计算以计算为中心。
云计算与其他集群计算比较2.云计算与分布式计算
分布式计算(DistributedComputation)是指在一个松散或严格约束条件下使用硬件和软件系统处理任务,系统包含多个处理器单元或存储单元、多个并发过程、多个程序。一个程序先被分成多个部分,再通过网络连接起来在计算机上运行。分布式计算类似于并行计算,但并行计算通常指一个程序的多个部分同时运行于某台计算机上的多个处理器上。因此,分布式计算通常需要处理异构环境、多样化的网络连接、不可预知的网络或计算机错误。云计算属于分布式计算的范畴,是以提供对外服务为导向的分布式计算形式。
云计算与其他集群计算比较3.云计算与并行计算
并行计算(ParallelComputing)是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机,也可以是以某种方式互连的若干台独立计算机构成的集群。
云计算是并行计算的一种形式,也属于高性能计算、超级计算的形式之一。
云计算与其他集群计算比较4.云计算与效用计算
效用计算(UtilityComputing)是一种提供服务的模型,在这个模型里服务提供商能提供客户需要的计算资源和基础设施管理,并根据应用所占用的资源情况进行计费,而不仅按照速率进行收费。效用计算理念发展的进一步延伸就是云计算技术,该技术正在逐步成为技术发展的主流。云计算以服务的形式提供计算、存储,应用资源的思想与效用计算非常类似。两者的区别不在于思想背后的目标,而在于组合到一起,使这些思想成为现实的技术。
大数据简介1.大数据的定义
“大数据(BigData)”是指大量数据的集合,可以使用数据量来区分和判断。维基百科对“大数据”的定义为:巨量资料或大数据,是指所涉及的资料量规模巨大。由于数量太大,想要通过目前的主流软件,在合理的时间把这些数据采集、管理、处理、整理成为帮助企业经营决策的资讯,是无法做到的。
在今天,不同行业中“大数据”的范围可以从TB到PB,但在20年前,1GB的数据已然是大数据。可见,随着计算机软硬件技术的发展,符合大数据标准的数据集容量也会增长,其数据集规模已经超过了传统数据库软件获取、存储、分析和管理的能力。
大数据简介2.大数据的数据结构类型
大数据的数据结构类型包括以下4种。(1)结构化数据。结构化数据包括预定义的数据类型、格式和结构的数据。例如,关系型数据库中的数据。(2)半结构化数据。半结构化数据是具有可识别模式并可解析的文本数据文件。例如,自描述和具有定义模式的可扩展标记语言数据文件。(3)准结构化数据。准结构化数据是具有不规则数据格式的文本数据,使用工具可进行格式化。例如,包含不一致的数据值和格式化的网站点击数据。(4)非结构化数据。非结构化数据是没有固定结构的数据,通常保存为不同类型的文件。例如,文本文档、图片、音频和视频。
3.大数据的特征
数据量大速度快类型繁多价值密度低大数据简介大数据简介4.大数据的处理技术按照“大数据”处理的实时性,大数据处理可分为实时大数据处理和离线大数据处理两种。
大数据处理的一般过程为:大数据采集、大数据预处理、大数据存储与管理、大数据分析与挖掘、大数据展现与应用。大数据处理的关键技术是在处理大数据的各个阶段使用的相关技术。
大数据处理技术处理大数据各阶段的对应技术大数据处理技术1.大数据的采集技术
“大数据采集系统”一般分为大数据智能感知层和基础支撑层。大数据智能感知层相关技术,是指对海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理的技术。
ApacheFlume是Apache旗下的一款开源数据采集系统,Flume最初是由Cloudera的工程师设计用于合并日志数据的系统,后来逐渐用于处理流数据事件。
大数据处理技术2.大数据的预处理技术
“大数据预处理技术”主要完成对已接收数据的抽取、清洗等操作。(1)抽取:获取的数据可能具有多种结构和类型,数据抽取可以将这些复杂的数据转化为单一的或便于处理的结构和类型,以达到快速分析和处理的目的。(2)清洗:大数据并不全是有价值的,有些数据并不是人们所关心的内容,或是完全错误的干扰项,因此要对数据过滤、去噪,提取出有效的数据。该步骤对后续的数据分析非常重要,它能够提高数据分析的准确性。
大数据处理技术3.大数据存储与管理技术“大数据存储与管理技术”是解决大数据的存储、表示、处理、可靠性及有效传输等关键问题的技术,包括如下技术:(1)数据库技术。数据库分为关系型数据库、非关系型数据库及数据库缓存系统。关系型数据库包含了传统关系数据库系统和NewSQL数据库。非关系型数据库主要是指NoSQL数据库,分为键值数据库、列存数据库、图存数据库及文档数据库等。(2)大数据安全技术。大数据安全技术包括数据销毁、透明加解密、分布式访问控制、数据审计、隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。
大数据处理技术4.大数据分析与挖掘技术
“数据挖掘”是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又有潜在价值的信息和知识的过程。数据挖掘算法能以很高的速度处理大量数据,通过分割、集群、孤立点分析,以及其他各种方法精炼数据、挖掘价值。数据挖掘涉及的技术方法很多,包括很多分类。5.大数据展现与应用技术大数据技术重点应用于商业智能、政府决策、公共服务三大领域,如应用于商业智能技术、政府决策技术、电信数据信息处理与挖掘技术、电网数据信息处理与挖掘技术、气象信息分析技术、环境监测技术、警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安系统)、大规模基因序列分析比对技术、Web信息挖掘技术。
1.大数据处理系统的功能
云计算与大数据系统海量数据存储
大数据处理系统能够存储随时间变化不断变大的数据,多种数据类型的数据,结构化、半结构化和非结构化的数据,可以存储极大的数据个体,也可以存储很小的数据个体。并行服务快速开发
系统必须提供并行服务的开发框架,让开发人员能够依据此框架迅速开发出面向大数据的程序代码,并可在动态分布集群上实现并行运算。可在廉价机器搭建的集群上运行
实现廉价是大数据处理系统需要达到的重要目标之一,系统可以安装并运行在廉价的机器上,还具有将规模庞大的廉价机器组成集群并协调工作的功能。高速处理
系统能满足用户对响应速度的要求。在数据规模不断增大、数据量短时间内快速增大时,系统的处理速度不受影响。实用性可靠性可扩展性完整性安全性云计算与大数据系统2.大数据处理系统的特性云计算与大数据系统3.云计算与大数据处理系统大数据处理系统属于云计算的PaaS。PaaS能为用户提供计算平台系统、编程语言的运行环境、数据库、Web服务器等,把开发环境作为一种服务来提供。用户可以使用中间商的设备开发和运行自己的程序,并通过Internet及其服务器传输到其他用户手中。当然,用户也可以构建自己私有的大数据处理系统,搭建一个服务器集群,安装大数据处理软件,如Hadoop,使用命令行方式,或者调用Hadoop的API对静态大数据文件进行处理,或者安装Spark软件,对前台的动态数据流进行实时处理。大数据处理系统实例1.Google大数据处理系统Google拥有全球较强大的搜索引擎,能为全球用户提供基于海量数据的实时搜索服务。Google为了解决海量数据的存储和快速处理问题,设计了一种简单而又高效的大数据处理系统,让多达百万台计算机协同工作,共同完成对海量数据的存储和快速处理。Google大数据处理系统的核心技术包括Google文件系统(GFS)、分布式计算编程模式(MapReduce)和分布式结构化数据存储系统(BigTable)。GFS能提供大数据的存储访问服务,MapReduce能实现并行计算,BigTable能管理和组织结构化大数据。1.GFSGoogle大数据处理系统GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它与MapReduce及BigTable结合得非常紧密,是基础的底层系统,可以运行于价格较低的普通硬件上,提供容错功能。GFS将整个系统的节点分为Client(客户端)、Master(主服务器)和ChunkServer(数据块服务器)三类。客户端在访问GFS时,首先访问Master主服务器,获取将要与之进行交互的ChunkSever信息,然后直接访问ChunkServer来完成数据存取。GFS的这种设计模式,在实现大数据存储与处理的目标的同时,做到了在一定规模下使成本降到最低,且保证了系统的可靠性及其他性能。2.MapReduceGoogle大数据处理系统
MapReduce是处理大数据的并行编程模式,用于大数据(大于1TB)的并行计算,Map(映射)、Reduce(化简)是从函数式编程语言和矢量编程语言中借鉴来的,这种编程模式适用于非结构化和结构化的海量数据的搜索、挖掘、分析和智能机器学习。与传统的分布式程序相比,MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节。3.BigTableGoogle大数据处理系统BigTable是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。Google的很多数据,包括Web索引、卫星图像数据等在内的海量结构化和半结构化数据都存储在BigTable中。BigTable是通过一个行关键字、一个列关键字和一个时间戳进行索引的。BigTable由客户端、主服务器和子表服务器三部分构成。大数据处理系统实例2.HadoopHadoop是一个开源分布式计算平台。用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理,Hadoop已广泛被企业用于搭建大数据处理系统。据不完全统计,全球已经有数以万计的Hadoop被安装和使用,中国移动、百度、阿里巴巴都在大规模地使用Hadoop。1.基础部分Hadoop是支撑Hadoop的公共部分,包括文件系统、远程过程调用RPC和序列化函数库等。HadoopCommon可以提供高吞吐量的可靠分布式文件系统,是GFS的开源实现。HDFS是大型分布式数据处理模型,是GoogleMapReduce的开源实现。MapReduce2.配套部分Hadoop01HBase支持结构化数据存储的分布式数据库,是GoogleBigTable的开源实现。02Hive提供数据摘要和查询功能的数据仓库。03Pig在MapReduce上构建的一种脚本式开发方式,大大简化了MapReduce的开发工作。2.配套部分Hadoop04Cassandra由Facebook支持的开源、可扩展分布式数据库,是Amazon库层架
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年新的劳务分包合同范本
- 福建省福州市仓山区师范大学附中2025届物理高一第一学期期末学业质量监测模拟试题含解析
- 2024年工业品刀具销售合同范本
- 2024年仓库存放杂物租用合同范本
- 打印机购销标准合同范本6篇
- 医护人员辞职信
- 职业生涯规划测评
- 古风个性的签名53条
- 幼儿园语言课说课稿
- 2024年全钽电解电容器密封玻璃项目投资申请报告代可行性研究报告
- 2022版18项医疗核心制度
- 铜陵有色金属集团股份有限公司冬瓜山铜矿废水处理设施升级改造项目环评报告
- 工程伦理学案例分析报告
- 医院安全风险辨识清单
- (完整版)书籍装帧设计
- 六年级数学辅差作业
- 水稳底基层、基层试验段总结
- 高中统编语文教材总体框架及主要特点
- 社区便民生活服务O2O平台功能需求说明书
- 英语学科教学常用专业词汇
- 潼关县太洲矿业有限责任公司蒿岔峪甘斜凹西坡金矿矿山地质环境保护与土地复垦方案
评论
0/150
提交评论