《大数据与云计算》课件-12.Spak_第1页
《大数据与云计算》课件-12.Spak_第2页
《大数据与云计算》课件-12.Spak_第3页
《大数据与云计算》课件-12.Spak_第4页
《大数据与云计算》课件-12.Spak_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据与云计算知识点Spark简介Spark简介3Spark的特性1Spark概述2Spark发展历程5Spark运行模式6Spark架构角色4Spark框架模块Spark简介一、Spark概述Spark是UCBerkekeyAMPLab开发的通用分布式并行计算框架Spark基于MapReduce算法实现分布式计算,拥有HadoopMapReduce所具有的优点,不同的是工作中的中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此,Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce算法Spark是基于内存的计算框架,计算速度快,但它仅涉及计算,并不涉及数据存储,后期仍需要使用Spark对接外部的数据源,如hdfs等。Spark简介二、Spark发展历程2009年,诞生于伯克利大学Map实验室2010年,通过BSD许可协议正式对外开源发布2012年,发布第一个正式版本Spark0.6.02013年,捐赠给Apache软件基金会并切换开源许可协议至Apache2.0,发布SparkStreaming、SparkMlib、Shark2014年,成为ASF的顶级项目,5月底发布Spark1.0.0,发布SparkGraphx、SparkSQL2015年,推出大数据分析DataFrame,国内大量IT公司开始重点部署或者使用Spark来替代MapReduce、Hive、Storm等传统的大数据计算框架2016年,推出更强的数据分析手段DataSet2017年,发布StructuredStreaming2018年,发布Spark2.4.0,成为全球最大的开源项目Spark简介三、Spark的特性易用性速度快通用性兼容性Spark简介四、Spark的框架模块SparkCoreSparkSQLSparkStreamingSparkMLSparkGraphxSpark简介五、Spark的运行模式本地模式Standlone模式Hadoopyam模式Kubernetes模式云服务器模式Spark简介六、Spark的架构角色知识点Spark入门1Spark的安装与配置2Spark编程基础Spark入门Spark入门一、Spark的安装1.安装Java环境2.安装hadoop3.安装sparkSpark入门一、Spark的安装A配置环境变量C配置Spark-envB配置主机信息DSource配置文件Spark入门Spark的配置Spark的简单使用01Spark的交互模式02Spark编写执行独立程序03Spark入门二、Spark编程基础Spark入门课程总结2Spark的特性与主要构成1Spark的发展历程43

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论