大数据分析及应用项目教程(Spark SQL)(微课版) 课件 第2章 实践环境准备_第1页
大数据分析及应用项目教程(Spark SQL)(微课版) 课件 第2章 实践环境准备_第2页
大数据分析及应用项目教程(Spark SQL)(微课版) 课件 第2章 实践环境准备_第3页
大数据分析及应用项目教程(Spark SQL)(微课版) 课件 第2章 实践环境准备_第4页
大数据分析及应用项目教程(Spark SQL)(微课版) 课件 第2章 实践环境准备_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章实践环境准备Hadoop集群环境搭建第一部分环境准备启动Hadoop集群运行经典案例wordcount安装Hadoop学习目标和要求1、掌握Hadoop集群环境搭建的环境准备工作,包括配置主机名、防火墙设置、免密登录设置、Java环境设置。2、掌握安装Hadoop的过程、配置文件设置及启动集群的方法。3、会在Hadoop集群运行经典案例wordcount。环境准备1、集群节点规划此集群由三个节点构成,分别是master、slaver01、slaver02。集群搭建部署均在虚拟机中完成,使用VMwareWorkstation16Pro虚拟计算机软件。环境准备2、配置主机名和IP(1)修改对应虚拟机的IP地址:

vi/etc/sysconfig/network-scripts/ifcfg-ens33(2)将三台虚拟机的主机名修改为master、slaver01、slaver02。

hostnamectlset-hostname主机名(3)重启网络,使网络配置生效。

systemctlrestartnetwork环境准备3、连接MobaXterm终端工具使用MobaXterm终端工具,为master、slaver01和slaver02创建SSH连接。环境准备4、关闭防火墙

防火墙是对服务器进行保护的一种服务,但有时候会带来很多麻烦,它会妨碍Hadoop集群间的相互通信,所以我们要关闭防火墙。关闭master、slaver01和slaver02主机的防火墙,并设置开机不自启。systemctlstatusfirewalldsystemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalld环境准备5、关闭SElinuxSELINUX是对系统安全级别更细粒度的设置。关闭master、slaver01和slaver02主机的SElinux。vi/etc/sysconfig/selinux环境准备6、修改/etc/hosts文件修改master、slaver01和slaver02主机的/etc/hosts文件,建立主机和ip地址之间的映射关系。vi/etc/hosts7、配置免密登录首先在master节点创建生成密钥。将密钥拷贝到slaver01和slaver02两个节点,完成免密登录配置。环境准备8、配置Java环境在master节点上传JDK软件包并解压。在.bash_profile文件中配置环境变量。使用source.bash_profile命令,使.bash_profile文件配置生效。查看Java版本,验证安装成功。使用scp命令将jdk解压安装相关文件分发到slaver01和slaver02节点。安装Hadoop

由于三个节点都需要安装Hadoop,为了提高部署效率,先在master节点进行部署安装,然后将相关的文件和配置拷贝分发到另外两个节点中。上传Hadoop安装包并解压。修改环境变量。使环境变量生效。修改hadoop的配置文件hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、workers。分发Hadoop和环境变量文件到slaver01和slaver02。格式化HDFS文件系统。启动Hadoop集群1、启动Hadoop集群只需要在master节点输入start-all.sh。接着查看各节点的服务进程。2、打开Google浏览器,输入地址30:8088,可以打开Yarn页面。3、输入地址30:9870,可以打开HDFS页面。案例wordcount通过经典案例wordcount,体验Hadoop运行MapReduce计算。1、在本地root目录下创建一个txt文件,输入一段自定义文字。2、上传文本到到hdfs。案例wordcount3、运行命令并查看结果hadoopjarhadoop-mapreduce-examples-3.2.1.jarwordcount/input/outputSpark集群部署与使用第二部分Spark安装启动SparkSpark集群测试学习目标和要求1、掌握Spark集群安装配置方法。2、会启动关闭Spark集群。3、能使用Spark-shell进行简单编程测试。Spark安装1、上传软件包使用MobaXterm工具,将软件包上传至master节点的root目录下,然后将其解压到/usr/local目录中。Spark安装2、在.bash_profile文件中修改环境变量执行source.bash_profile使环境变量生效Spark安装3、修改Spark配置文件(1)配置spark-env.sh文件(2)配置workers文件4、复制修改spark启动脚本,避免和hadoop的启动脚本冲突。5、分发Spark安装文件到slaver01和slaver02。启动Spark1、在master节点输入start-spark-all.sh,启动Spark。2、查看各节点服务进程状态(此处已经启动Hadoop集群)启动Spark3、Web查看Spark主页情况在浏览器中输入地址30:8080/,进行查看。Spark集群测试1、使用spark-submit工具提交Spark作业spark-submit提交任务及参数说明:--class:应用程序的主类,仅针对java或scala应用。--master:master的地址,提交任务到哪里执行,例如spark://host:port,yarn,local。--driver-memory:driver进程所使用的内存数量,以字节为单位。可以指定不同的后缀如“512m”或“15g”,默认是1G。--executor-memory:executor使用的内存数量,以字节为单位。可以指定不同的后缀如“512m”或“15g”,默认是1G。--total-executor-cores:所有executor总共的核数。仅仅在mesos或者standalone下使用。Spark集群测试Spark集群测试2、使用Spark-sql(1)输入spark-sql命令,启动spark-sql。(2)使用SQL命令,执行创建数据库、创建表等操作。Spark集群测试3、使用Sparkshell(1)输入spark-shell命令,启动spark-shell。(2)执行SparkShell常用命令Spark集群测试(2)执行SparkShell常用命令①:help命令,查看SparkShell常用的命令Spark集群测试(2)执行SparkShell常用命令②:paste命令,进入paster模式Scala安装第三部分下载安装包安装配置学习目标和要求1、会下载、安装配置Scala工具。2、能启动Scala进行编程测试。下载安装包通过连接地址/download/2.13.6.html直接下载scala-2.13.6.tgz压缩包。安装配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论