单元9 任务9.3部署与操作Spark on YARN_第1页
单元9 任务9.3部署与操作Spark on YARN_第2页
单元9 任务9.3部署与操作Spark on YARN_第3页
单元9 任务9.3部署与操作Spark on YARN_第4页
单元9 任务9.3部署与操作Spark on YARN_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单元9

Spark计算框架部署任务9.3部署与操作SparkonYARN任务9.3部署与操作SparkonYARN【任务场景】经理:小张,你把Spark集群部署到Hadoop集群吧,这样能够充分利用计算资源。小张:如果将Spark部署到Hadoop集群的话,我们可以使用SparkonYARN模式,这种模式下,直接在HadoopYARN中启动Spark任务。经理:那就部署SparkonYARN模式吧。小张:好的。任务9.3部署与操作SparkonYARN任务布置:配置SparkonYARN模式,提交Spark任务到YARN中,并从YARN中查看计算任务。知识点1:SparkonYARN运行原理

SparkonYARN是工作中或生产上用的非常多的一种运行模式。其主要优势是可以将Spark、MapReduce、Flink等框架跑在同一个YARN集群中,使用YARN统一管理控制计算资源,多种计算框架可以共享集群资源,按需分配,这样可以提升整个资源的利用率。

HDFSYARN:资源管理和调度框架MapReduceSparkStormFlink...知识点1:SparkonYARN运行原理

当在YARN上运行Spark作业,每个Sparkexecutor作为一个YARN容器(container)运行。Spark可以使得多个Tasks在同一个容器(container)里面运行。这是个很大的优点。

有两种部署模式可用于在YARN上启动Spark应用程序。cluster模式和client模式。

在cluster模式下,Spark驱动程序在集群上由YARN管理的应用程序主进程内运行,客户端可以在启动应用程序后离开,Cluster模式主要用于生产环境中,因为Driver运行在Yarn集群中某一台nodeManager中,每次提交任务的Driver所在的机器都是随机的,不会产生某一台机器网卡流量激增的现象,缺点是任务提交后不能看到日志。只能通过yarn查看日志。在client模式中,driver运行在client进程中,applicationmaster只用于向YARN请求资源。client模式适用于测试场景,因为Driver运行在本地,任务执行后可直接看到执行结果,但是此模式下Driver会与yarn集群中的Executor进行大量的通信,会造成客户机网卡流量的大量增加。知识点1:SparkonYARN运行原理Yarn-cluster模式提交任务流程如下:1.客户机提交Application应用程序,发送请求到RS(ResourceManager),请求启动AM(ApplicationMaster)。2.RS收到请求后随机在一台NM(NodeManager)上启动AM(相当于Driver端)。3.AM启动,AM发送请求到RS,请求一批container用于启动Executor。4.RS返回一批NM节点给AM。5.AM连接到NM,发送请求到NM启动Executor。6.Executor反向注册到AM所在的节点的Driver。Driver发送task到Executor。知识点1:SparkonYARN运行原理Yarn-client模式提交任务流程:1.客户端提交一个Application,在客户端启动一个Driver进程。2.Driver进程会向RS(ResourceManager)发送请求,启动AM(ApplicationMaster)。3.RS收到请求,随机选择一台NM(NodeManager)启动AM。这里的NM相当于Standalone中的Worker节点。4.AM启动后,会向RS请求一批container资源,用于启动Executor。5.RS会找到一批NM返回给AM,用于启动Executor。AM会向NM发送命令启动Executor。6.Executor启动后,会反向注册给Driver,Driver发送task到Executor,执行情况和结果返回给Driver端。知识点1:SparkonYARN运行原理

在YARN上启动Spark,需配置HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群配置文件的目录。这些配置用于写入HDFS并连接到YARNResourceManager。此目录中包含的配置将分发到YARN集群,以便应用程序使用的所有容器都使用相同的配置。

与Spark支持的其他集群管理器在--master

参数中指定master的地址不同,在YARN模式下,ResourceManager的地址是从Hadoop配置中获取的。因此,--master参数为yarn。或直接修改配置文件spark-defaults.conf中的“spark.master”,将模式配置配置为yarn。SparkonYARN部署流程1.检查依赖的Hadoop环境我们需要将Spark部署在HadoopMaster节点上用来提交任务,首先检查已部署Hadoop环境并统计集群信息。节点类型节点名称IP地址组件Mastermaster01192.168.137.214NameNodeSecondaryNameNodeResourceManagerSpark客户端Workerworker01192.168.137.215DataNodeNodeManagerWorkerworker02192.168.137.216DataNodeNodeManagerSparkonYARN部署流程2.在Hadoop集群的Master节点上部署Spark。(1)下载并解压Spark安装包下载spark-3.2.0-bin-hadoop3.2.tgz文件,解压并放到/opt/目录下。[root@master01~]#tar-zxvfspark-3.2.0-bin-hadoop3.2.tgz[root@master01~]#mvspark-3.2.0-bin-hadoop3.2/opt/spark(2)准备spark-shell运行所需要的jar包[root@master01~]#hdfsdfs-mkdir/spark_jars[root@master01~]#hdfsdfs-put/opt/spark/jars/*/spark_jars修改spark-env.sh配置文件[root@localhost~]#vim/opt/spark/conf/spark-env.shspark.yarn.jars=hdfs://master01:9000/spark_jars/*SparkonYARN部署流程(3)配置yarn以运行Spark任务在/opt/hadoop/etc/hadoop/yarn-site.xml添加如下配置

<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value></property><property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value></property>(4)将修改的Hadoop部署配置文件同步到其他节点[root@master01~]#yuminstall-yrsync[root@master01~]#rsync-a/opt/hadoopworker01:/opt/[root@master01~]#rsync-a/opt/hadoopworker02:/opt/SparkonYARN部署流程(5)配置系统环境变量在master节点上修改profile文件[root@master01~]#vim/etc/profileSPARK_HOME=/opt/sparkSPARK_CONF_DIR=$SPARK_HOME/confexportPATH=$PATH:$SPARK_HOME/binexportHADOOP_CONF_DIR=/opt/hadoop/etc/hadoopexportYARN_CONF_DIR=/opt/hadoop/etc/hadoop[root@master01~]#source/etc/profile(6)安装pyspark[root@master01~]#yuminstall-ypython3[root@master01~]#pipinstallpysparkSparkonYARN部署流程3.验证SparkonYARN提交spark-submit任务,查看任务执行情况[root@master01~]#spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn--deploy-modecluster--driver-memory4g--executor-memory2g--executor-cores2--queuedefaultexamples/jars/spark-examples*.jar10查看YARN的WebUI,确认sp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论