《循序渐进学Spark》读书笔记思维导图_第1页
《循序渐进学Spark》读书笔记思维导图_第2页
《循序渐进学Spark》读书笔记思维导图_第3页
《循序渐进学Spark》读书笔记思维导图_第4页
《循序渐进学Spark》读书笔记思维导图_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《循序渐进学Spark》最新版读书笔记,下载可以直接修改思维导图PPT模板小结第章机制架构过程内存书模型简介问题模块特性阶段编程大数据学院象工作领域本书关键字分析思维导图01第1章Spark架构与集群环境第3章Spark机制原理第2章Spark编程模型第4章深入Spark内核目录03020405第5章SparkonYARN第7章Spark调优第6章BDAS生态主要模块第8章Spark2.0.0目录070608内容摘要本书以小象学院git项目方式管理。感谢姜冰钰、陈超、冼茂源等每一位内容贡献者,感谢他们花费大量时间,将自己对Spark的理解加上在实际工作、学习过程中的体会,融汇成丰富的内容。与企业不断涌现的对大数据技术的需求相比,大数据人才还存在很大缺口,对大数据技术充满期许的新人正在源源不断地加入这个领域。在小象学院的教学实践过程中,我们发现,一本能完整系统地介绍Spark各模块原理并兼顾使用实战的书,对于初入大数据领域的技术人员至关重要。于是,我们根据日常积累的经验,著成本书。第1章Spark架构与集群环境比如Google的MapReduce,它提出了简单、通用并具有自动容错功能的批处理计算模型Shuffle是MapReduce框架中的一个特定的阶段,介于Map阶段和Reduce阶段之间,当Map的输出结果要被Reduce使用时,输出结果需要按关键字值(key)哈希,并且分发到每一个Reducer上,这个过程就是Shuffle。1.1Spark概述与架构1.2在Linux集群上部署Spark1.3Spark集群试运行1.4IntellijIDEA的安装...第1章Spark架构与集群环境1.5EclipseIDE的安装与配...1.7本章小结1.6使用SparkShell开发运...第1章Spark架构与集群环境1.1.1Spark概述1.1.3Spark架构1.1.2Spark生态1.1Spark概述与架构1.2.1安装OpenJDK1.2.2安装Scala1.2.3配置SSH免密码登录1.2.4Hadoop的安装配置1.2.5Spark的安装部署1.2.6Hadoop与Spark的集...0103020405061.2在Linux集群上部署Spark1.4.2Intellij的配置1.4.1Intellij的安装1.4IntellijIDEA的安装...第2章Spark编程模型显而易见,Spark基于内存计算的特性使其擅长于迭代式与交互式任务MapReduce之所以不擅长迭代式、交互式和流式的计算工作,主要因为它缺乏在计算的各个阶段进行有效的资源共享,针对这一点,Spark创造性地引入了RDD(弹性分布式数据集)来解决这个问题。2.1RDD弹性分布式数据集2.2Spark程序模型2.3Spark算子2.4本章小结第2章Spark编程模型2.1.1RDD简介2.1.3RDD特性总结2.1.2深入理解RDD2.1RDD弹性分布式数据集2.3.1算子简介2.3.2Value型Transmat...2.3.3Key-Value型Tran...2.3.4Action算子2.3Spark算子第3章Spark机制原理RDD的重要特性之一就是资源共享。3.1Spark应用执行机制分析3.2Spark调度机制3.3Spark存储与I/O3.4Spark通信机制第3章Spark机制原理3.5容错机制及依赖3.7本章小结3.6Shuffle机制第3章Spark机制原理3.1.1Spark应用的基本概念3.1.3应用提交与执行3.1.2Spark应用执行机制概要3.1Spark应用执行机制分析3.2.1Application的调度3.2.2job的调度3.2.3stage(调度阶段)和Ta...3.2.4task的调度3.2Spark调度机制3.3.2BlockManager中的...3.3.1Spark存储系统概览3.3Spark存储与I/O3.4.1分布式通信方式3.4.3Client、Master和...3.4.2通信框架AKKA3.4Spark通信机制3.5.2Checkpoint(检查点...3.5.1Lineage(血统)机制3.5容错机制及依赖3.6.2Shuffle历史及细节3.6.1什么是Shuffle3.6Shuffle机制第4章深入Spark内核为了减少网络I/O开销,分布式计算的一个核心原则是数据应该尽量做到本地计算。4.1Spark代码布局4.2Spark执行主线[RDD→Ta...4.3Client、Master和Wo...4.4Shuffle触发4.5Spark存储策略4.6本章小结010302040506第4章深入Spark内核4.1.1Spark源码布局简介4.1.3SparkCore外模块概...4.1.2SparkCore内模块概...4.1Spark代码布局4.2.1从RDD到DAGSchedu...4.2.3从TaskScheduler...4.2.2从DAGScheduler到...4.2Spark执行主线[RDD→Ta...4.3.2交互过程调用4.3.1交互流程概览4.3Client、Master和Wo...4.4.2触发ShuffleRead4.4.1触发ShuffleWrit...4.4Shuffle触发4.5.1CacheManager职能4.5.2BlockManager职能4.5.3DiskStore与Disk...4.5.4MemoryStore类4.5Spark存储策略第5章SparkonYARNRDD将操作分为两类:Transformation与Action。5.1YARN概述5.2SparkonYARN的部署...5.3SparkonYARN的配置...5.4本章小结第5章SparkonYARN5.3.2SparkonYARN的...5.3.1YARN的自身内存配置5.3SparkonYARN的配置...第6章BDAS生态主要模块看的第二本spark的书,出版时间较新选的,马马虎虎,大量贴代码不说明的情况,没有详细介绍架构和设计思想,但是又写着核心代码分析,应用也没写多少,实在差强人意,不过总体架构的说明和最后的优化总结也算是一些亮点。6.1SparkSQL6.2SparkStreaming6.3SparkR6.4MLlibonSpark6.5本章小结12345第6章BDAS生态主要模块6.1.1SparkSQL概述6.1.3SparkSQL如何使用6.1.2SparkSQL的架构分析6.1SparkSQL6.2.1SparkStreamin...6.2.2SparkStreamin...6.2.3SparkStreamin...6.2.4数据源DataSource6.2.5DStream操作123456.2SparkStreaming6.3.1R语言概述6.3.2SparkR简介6.3.3DataFrame创建6.3.4DataFrame操作6.3SparkR6.4.1机器学习概述6.4.2机器学习的研究方向与问题6.4.3机器学习的常见算法6.4.4MLlib概述6.4.5MLlib架构6.4.6MLlib使用实例——电影推...0103020405066.4MLlibonSpark第7章Spark调优建议使用前两种存储级别即可。7.1参数配置7.2调优技巧7.3实践中常见调优问题及思考7.4本章小结第7章Spark调优7.2.1序列化优化7.2.2内存优化7.2.3数据本地化7.2.4其他优化考虑7.2调优技巧第8章Spark2.0.0作者自己都没把spark整明白。8.1功能变化8.2Core以及SparkSQL的...8.3MLlib8.4SparkR第8章Spark2.0.08.5Streaming8.7本章小结8.6依赖、打包第8章Spark2.0.08.1.1删除的功能8.1.3不再建议使用的功能8.1.2Spark中发生变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论