《大数据导论》课件-第二章_第1页
《大数据导论》课件-第二章_第2页
《大数据导论》课件-第二章_第3页
《大数据导论》课件-第二章_第4页
《大数据导论》课件-第二章_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据导论大数据导论Spark基本介绍目录01什么是Spark

02Spark的特点03Spark的重要角色什么是Spark?Spark是一种基于内存的快速、通用、课扩展的大数据分析引擎。定义:什么是Spark?Spark特色通用兼容性快易用Spark的重要角色把用户程序转为作业(JOB)跟踪Executor的运行状况为执行器节点调度任务UI展示应用运行状况。Driver(驱动器)负责运行组成Spark应用的任务,并将结果返回给驱动器进程通过自身的块管理器(BlockManager)为用户程序中要求缓存的RDD提供内存式存储。Executor(执行器)下面我们进入Spark部署步骤详解平台搭建操作sparkstandalone集群模式部署大数据导论目录sparkstandalone集群模式部署上传、解压、压缩包前提:jdk环境已完成配置防火墙已关闭zookeeper已完成配置解压spark包到指定的目录tarzxvf包名-C指定路径文件配置(cd/usr/loacl/src/spark/conf/)1.修改文件名spark-env.sh.template为spark-env.sh2.进入spark-env.sh文末添加以下配置exportJAVA_HOME=/usr/local/src/jdkexportSPARK_MASTER_HOST=masterexportSPARK_MASTER_PORT=7073.修改文件名slaves.template为slaves4.进入slaves添加以下从节点主机名slave01slave02文件分发,从节点同步以上配置scp-r/usr/local/src/spark/conf/*root@hoat002:/usr/local/src/spark/conf/scp-r/usr/local/src/spark/conf/*root@hoat003:/usr/local/src/spark/conf/启动在sbin目录下执行启动集群 ./start-all.sh启动worker ./start-slave.sh启动master ./start-master.sh 使用主节点ip地址接端口号8080进行访问sparkHA部署大数据导论目录sparkHA部署基于上节课的操作将conf目录下的spark-env.sh文件进行修改注释以下两行代码exportSPARK_MASTER_HOST=masterexportSPARK_MASTER_PORT=7077再添加以下代码exportSPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER-Dspark.deploy.zookeeper.url=master,slave01,slave02-Dspark.deploy.zookeeper.dir=/spark"文件分发同步以上配置scp-r/usr/local/src/spark/conf/spark-env.shroot@host001:/usr/local/src/spark/conf/scp-r/usr/local/src/spark/conf/spark-env.shroot@host001:/usr/local/src/spark/conf/启动zookeeperzkServer.shstart启动sparkha./start-all.sh从节点执行start-master.sh 使用主节点ip地址接端口号8080进行访问Zookeeper组件搭建配置大数据导论目录Zookeeper组件搭建配置zookeeper配置解压zookeeper的压缩包到指定的路径下tarzxf/usr/local/src/zookeeper-3.4.5.tar.gz-C/usr/local/src/mvzookeeper-3.4.5zookeeper

环境变量配置vi/etc/profileexportZK_HOME=/usr/local/src/zookeeperexportPATH=$PATH:$ZK_HOME/bin执行source/etc/profile生效Cd/usr/local/src/zookeeper/conf修改文件名zoo_sample.cfg为zoo.cfg在dataDir写入zoopeeker的路径dataDir=/usr/local/src/zookeeper/zk_data/并在文末添加以下配置server.100=master:2888:3888 server.200=slave01:2888:3888server.300=slave02:2888:3888##2888:数据交换端口##3888:选举信息端口配置zoo.cfgCd/usr/local/src/zookeeper/conf修改文件名zoo_sample.cfg为zoo.cfg在dataDir写入zoopeeker的路径dataDir=/usr/local/src/zookeeper/zk_data/并在文末添加以下配置server.100=master:2888:3888 server.200=slave01:2888:3888server.300=slave02:2888:3888##2888:数据交换端口##3888:选举信息端口在zoopeeker下创建路径zk_datamkdir-p/usr/local/src/zookeeper/zk_data配置zoo.cfg分发文件,将zookeeper的文件同步到其他节点上scp-r/usr/local/src/zookeeperroot@slave01:/usr/local/src/scp-r/usr/local/src/zookeeperroot@slave02:/usr/local/src/scp/etc/profileroot@slave01:/etc/profilescp/etc/profileroot@slave02:/etc/profileslave01为200slave02为300source/etc/profile分发文件再在zk_data下创建myid文件写入上面配置的id号master为100启动启动 zkServer.shstart查看状态 zkServer.shstatus查看进程 jpsQuorumPeerMain大数据导论Spark基本介绍目录01什么是Spark

02Spark的特点03Spark的重要角色什么是Spark?Spark是一种基于内存的快速、通用、课扩展的大数据分析引擎。定义:什么是Spark?Spark特色通用兼容性快易用Spark的重要角色把用户程序转为作业(JOB)跟踪Executor的运行状况为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论