剖析spark作业运行机制

上传人：学*** IP属地：安徽上传时间：2023-05-17 格式：PPTX 页数：15 大小：470.48KB 积分：14 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

剖析spark作业运行机制主要内容2Spark运行机制Spark运行机制特点3一、spark运行机制4Spark运行机制流程图5Spark运行机制构建SparkApplication的运行环境，启动SparkContextSparkContext向资源管理器（可以是Standalone，Mesos，Yarn）申请运行Executor资源，并启动StandaloneExecutorbackend，Executor向SparkContext申请TaskSparkContext将应用程序分发给ExecutorSparkContext构建成DAG图，将DAG图分解成Stage、将Taskset发送给TaskScheduler，最后由TaskScheduler将Task发送给Executor运行Task在Executor上运行，运行完释放所有资源

6Spark运行机制1）第一步：生成RDD

Spark本身对RDD的操作模式是惰性计算。在惰性计算机制中，尽管每一次算子操作都会将一个RDD转换成一个新的RDD，并且逻辑上会顺序的执行这一系列计算，但是这些RDD的操作并不是立即执行的，而是会等到出现行动算子时才触发整个RDD操作序列，将之前的所有算子操作形成一个有向无环图（DirectedAcyclicGraph，DAG），每个有向无环图再触发执行一个作业（Job）。例如，WordCount程序中，只有程序执行到saveAsTextFile时，Spark才对RDD进行真正的处理，将之前的flatMap、map、reduceByKey和saveAsTextFile这些算子连成一个有向无环图，并向Spark提交该作业。

采用惰性计算的优势：

1.相关的操作序列可以进行连续计算，不用为存储的中间结果离散的独立分配内存空间；

2.节省存储空间，为之后对RDD变换操作的优惠提供了条件；

7Spark运行机制（2）第二步：生成Stage

Driver节点中的DAGSchedule实例会对有向无环图中节点间的依赖关系进行遍历，将所有操作切分为多个调度阶段（Stage）；

（3）第三步：生成Task

每个Stage需要转换成任务在集群中的Worker节点上执行，因此，由Driver节点中的TaskSchedule实例将Stage转换为Task，并提交到Worker节点的Executor进程中执行；8二、RDD特点9RDD特点1.Alistofpartitions2.Afunctionforcomputingeachsplit3.AlistofdependenciesonotherRDDs4.Optionally,aPartitionerforkey-valueRDDs5.Optionally,alistofpreferredlocationstocomputeeachspliton101.Alistofpartitions

RDD由很多partition构成，在spark中，计算式，有多少partition就对应有多少个task来执行

一组分片（partition），即数据集的基本组成单位，对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPUCore的数目。每个分配的存储是由BlockManager实现的，每个分区都会被逻辑映射成BlockManager的一个Block，而这个Block会被一个Task负责计算。112.Afunctionforcomputingeachsplit

对RDD做计算，相当于对RDD的每个split或partition做计算

Spark中的RDD的计算是以分片为单位的，每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合，不需要保存每次计算的结果123.AlistofdependenciesonotherRDDs

RDD之间有依赖关系，可溯源

RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算134.Optionally,aPartitionerforkey-valueRDDs

如果RDD里面存的数据是key-value形式，则可以传递一个自定义的Partitioner进行重新分区，比如可以按key的hash值分区

一个partitioner，即RDD的分片函数。当前Spark中实现了两种类型的分片函数，一个是基于哈希的HashPartitioner，另外一个基于范围的RangePartitioner。只有对于key-value的RDD，才会有Partitioner，非key-value的RDD的Partitioner的值是None。Partitioner函数不但决定了RDD本身的分片数量，也决定了parentRDDShuffle输出时的分片数量145.Optionally,alistofpreferredlocationstocomputeeachspliton

最优的位置去计算，也就是数据的本地性

计算每个split时，在split所在机器的本地上运行task是最好的，避免了数据的移动

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

剖析spark作业运行机制

文档简介

温馨提示

最新文档

评论

剖析spark作业运行机制

文档简介

温馨提示

最新文档

评论

相关文档