版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据计算平台《大数据导论》课程IntroductiontobigdataSpark整体架构和模块Spark运行模式011Spark运行模式•Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalone模式。•对于外部资源调度框架的支持,目前的实现包括相对稳定的Mesos模式,以及HadoopYARN模式。•本地模式:常用于本地开发测试,本地还分别local和localcluster。Spark运行模式Standalone模式使用Spark自带的资源调度框架采用Master/Slaves的典型架构,选用ZooKeeper来实现Master的HAStandalone:独立集群运行模式ZookeeperMasterWorkerNodeExecutorcacheTaskTaskWorkerNodeExecutorcacheTaskTaskApplicationStandbyMaster该模式主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上,也可以运行在本地Client端。当用spark-shell交互式工具提交Spark的Job时,Driver在Master节点上运行;当使用spark-submit工具提交Job或者在Eclips、IDEA等开发平台上使用”newSparkConf.setManager(“spark://master:7077”)”方式运行Spark任务时,Driver是运行在本地Client端上的。Standalone运行模式理解YARN-Client和YARN-Cluster深层次的区别之前先清楚一个概念:ApplicationMaster。在YARN中,每个Application实例都有一个ApplicationMaster进程,它是Application启动的第一个容器。它负责和ResourceManager打交道并请求资源,获取资源之后告诉NodeManager为其启动Container。从深层次的含义讲YARN-Cluster和YARN-Client模式的区别其实就是ApplicationMaster进程的区别。YARN-Cluster模式下,Driver运行在AM(ApplicationMaster)中,它负责向YARN申请资源,并监督作业的运行状况。当用户提交了作业之后,就可以关掉Client,作业会继续在YARN上运行,因而YARN-Cluster模式不适合运行交互类型的作业。YARN-Client模式下,ApplicationMaster仅仅向YARN请求Executor,Client会和请求的Container通信来调度他们工作。Client和Cluster的区别RDD在Spark中运行大概分为以下三步:
创建RDD对象DAGScheduler模块介入运算,计算RDD之间的依赖关系,RDD之间的依赖关系就形成了DAG每一个Job被分为多个Stage。划分Stage的一个主要依据是当前计算因子的输入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间的消息传递开销RDD运行模式Clustermanager线程BlockmanagerRDD对象DAGSchedulerTaskSchedulerRDDDAG任务任务集Worker以下面一个按a-z首字母分类,查找相同首字母下不同姓名总个数的例子来看一下RDD是如何运行起来的Sc.textFile(“hdfs:/names”).map(name=>(name.charAt(0),name)).groupByKey().mapValues(names=>names.toSet.size).collect()catratcap(c,cat)(r,rat)(c,cap)c,(cat,cap)r,(r,rat)(c,2)(r,1)res0=[(c,2),(r,1)]创建RDD
上面的例子除去最后一个collect是个动作,不会创建RDD之外,前面四个转换都会创建出新的RDD。创建执行计划Spark会尽可能地管道化,并基于是否要重新组织数据来划分阶段(stage),例如本例中的groupBy()转换就会将整个执行计划划分成两阶段执行。最终会产生一个DAG(directedacyclicgraph,有向无环图)作为逻辑执行计划。以下面一个按a-z首字母分类,查找相同首字母下不同姓名总个数的例子来看一下RDD是如何运行起来的HadoopRDDgroupby()map()mapValues()collect()catratcap(c,cat)(r,rat)(c,cap)c,(cat,cap)r,(r,rat)(c,2)(r,1)res0=[(c,2),(r,1)]阶段1阶段2调度任务是将各阶段划分成不同的任务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 肱骨骨折护理题库及答案
- 护理实习生与老年人沟通能力的现状及影响因素分析-基于云南省某三甲医院的横断面调查
- 2025年海南省公需课学习-养殖水域滩涂规划编制工作规范
- 2025年营养周饮食健康知识竞赛题库及答案(共220题)
- 2025年八大特殊作业安全生产知识考试判断题及答案(共80题)
- 2025年粮食作物生产试卷及答案
- 中学地理押题题库及答案
- 照明节能维护合同范本
- 2025年部队文字考试题库及答案
- 2025年陕西榆林中考试题及答案
- 【MOOC】影视鉴赏-扬州大学 中国大学慕课MOOC答案
- 南京信息工程大学《数学分析(3)》2022-2023学年第一学期期末试卷
- 沥青混凝土心墙碾压石渣坝施工方案
- 装载机铲斗的设计
- 中国民俗文化概说(山东联盟)智慧树知到答案2024年青岛理工大学
- 基础有机化学实验智慧树知到期末考试答案章节答案2024年浙江大学
- 2024年北京市人力资源市场薪酬状况白皮书
- 数字孪生智慧水利整体规划建设方案
- 业委会换届问卷调查表
- 慕课《如何写好科研论文》期末考试答案
- 幼儿园中班安全教育《这些东西能吃吗》
评论
0/150
提交评论