版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop大数据技术——Hadoop与云计算、spark、数据库湖南软件职业技术大学Hadoop与云计算云计算是什么
云计算是一种可以通过网络方便地接入共享资源池,按需获取计算资源(包括网络、服务器、存储、应用、服务等)的服务模型。共享资源池中的资源可以通过较少的管理代价和简单业务交互过程而快速部署和发布。湖南软件职业技术大学移动电话PCsTVsPDAsGPS导航汽车电子设备智能家电iPhoneDCs传感器。。。按需提供服务宽带网络访问
资源池化高可伸缩性
可量化服务
大规模以服务的形式为用户提供应用程序、数据存储、基础设施等资源,并可以根据用户需求自动分配资源,而不需要管理员的干预。比如亚马逊弹性计算云(AmazonEC2),用户可以通过Web表单提交自己需要的配置给亚马逊,从而动态获得计算能力,这些配置包括CPU核数、内存大小、磁盘大小等。用户可以通过各种终端设备,比如智能手机、笔记本等,随时随地通过互联网访问云计算服务。资源以共享池的方式统一管理。通过虚拟化技术,将资源分享给不同的用户,而资源的存放、管理以及分配策略对用户是透明的。服务的规模可以快速伸缩,来自动适应业务负载的变化。这样就保证了用户使用的资源与业务所需要的资源的一致性,从而避免了因为服务器超载或者冗余造成服务质量下降或者资源的浪费。云计算服务中心可以通过监控软件监控用户的使用情况,从而根据资源的使用情况对提供的服务进行计费。承载云计算的集群规模非常巨大,一般达到数万台服务器以上。从集群规模来看,云计算赋予了用户前所未有的计算能力。云计算的特点服务非常廉价云服务可以采用非常廉价的PCServer来构建,而不是需要非常昂贵的小型机。另外云服务的公用性和通用性,极大地提升了资源利用率,从而大幅降低使用成本。云计算包含3种模式它的含义是基础设施即服务。比如,阿里云主机提供的就是基础设施服务,可以直接购买阿里云主机服务。它的含义是平台即服务。比如,阿里云主机上已经部署好Hadoop集群,可以提供大数据平台服务,用户直接购买平台的计算能力运行自己的应用即可。它的含义是软件即服务,比如阿里云平台已经部署好具体的项目应用,用户直接购买账号使用它们提供的软件服务即可。IaaSPaaSSaaSHadoopVS云计算总的来说,云计算是一种运营模式,而Hadoop是一种技术手段,对云计算提供技术支撑。湖南软件职业技术大学Hadoop与SparkSpark是什么湖南软件职业技术大学
Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算的特性,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量的廉价硬件之上形成集群,从而提高并行计算能力。Spark于2009年诞生于加州大学伯克利分校AMPLab,在开发以Spark为核心的BDAS时,AMPLab提出的目标是:onestacktorulethemall,也就是说在一套软件栈内完成各种大数据分析任务。目前,Spark已经成为Apache软件基金会旗下的顶级开源项目。01易用性Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell,可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。实时的流处理与Hadoop相比,Spark不仅支持离线计算还支持实时流计算。SparkStreaming主要用来对数据进行实时处理,而Hadoop在拥有了YARN之后,也可以借助其他框架进行流式计算。运行速度快Spark源码是由Scala语言编写的,Scala语言非常简洁并具有丰富的表达力。
Spark充分利用和集成了Hadoop等其他第三方组件,同时着眼于大数据处理,那么数据处理速度是至关重要的,Spark通过将中间结果缓存在内存从而减少磁盘I/O来达到性能的提升。支持复杂查询除了简单的map及reduce操作之外,Spark还支持复杂查询。Spark支持SQL查询、流式计算、机器学习和图算法,同时用户可以在同一个工作流中无缝地搭配这些计算范式。容错性Spark引入了弹性分布式数据集RDD(ResilientDistributedDataset),它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集的一部分丢失,则可以根据“血统”对它们进行重建。另外在对RDD进行计算时可以通过CheckPoint机制来实现容错。02030405Spark的特点HadoopVSSpark湖南软件职业技术大学Hadoop与Spark的异同湖南软件职业技术大学Hadoop与传统关系型数据库数据表这种数据库管理系统需要结构(例如表)在存储数据之前被定义出来。有了表,每一列(字段)都存储一个不同类型(数据类型)的信息。数据库中的每条记录都有自己唯一的key(主键)作为属于某个表的一行,行中的每一个信息都对应了表中的一列——所有的关系一起构成了关系模型。RDNMS传统关系型数据库RDBMS(RelationalDatabaseManagementSystem)是指对应于一个关系模型的所有关系的集合。关系型数据库系统实现了关系模型,并用它来处理数据。关系模型在表中将信息与字段关联起来,从而存储数据。
RDBMS是什么容易理解二维表结构是非常贴近逻辑世界的一个概念,关系模型相对网状、层次等其他模型来说更容易理解。支持SQL支持SQL语言完成复杂的查询功能。易于维护丰富的完整性(实体完整性、参照完整性和用户定义的完整性)大大降低了数据冗余和数据不一致的概率。使用方便通用的SQL语言使得操作关系型数据库非常方便。。RDBMS的特点湖南软件职业技术大学HadoopRDBMSRDBMS适合处理GB级别的数据,数据量超过这个范围就会出现性能急剧下降
Hadoop可以处理PB级别的数据,没有数据规模的限制。数据规模访问方式VSRDBMS支持交互处理和批处理Hadoop仅支持批处理。集群收缩性RDBMS是非线性扩展的Hadoop支持线性扩展,可以通过简单的增加节点来扩展Hadoop集群规模。
总的来说,Hado
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度年福建省高校教师资格证之高等教育法规练习题及答案
- 2024年三坐标测量机项目资金筹措计划书代可行性研究报告
- 应急救援-综合(党群)管理岗
- 计算机平面设计专业调研报告
- 2024年企业业绩对赌协议模板指南
- 沪教版初一上学期期末化学试卷及答案指导
- 2024年书法家作品授权协议
- 2024年房产及土地交易协议样式
- 2024年企业办公空间装潢协议样本
- 2024年度外籍专家劳动协议范本
- 镁合金行业发展分析及投资前景预测报告
- 室内维修方案
- 小学信息技术课堂与学科教学逆向融合管见 论文
- 军士生生涯规划
- 北师大版数学三年级上册全册分层作业设计含答案
- 认知障碍人员培训课件
- 中国艾滋病现状
- 国际业务基础知识培训
- 急诊科中的老年病急症救治
- 亚马逊账户安全培训内容
- 生活区消防安全培训课件
评论
0/150
提交评论