Spark大数据分析实务 课件 项目2 Spark大数据环境安装搭建-技能拓展+测试题V1.0_第1页
Spark大数据分析实务 课件 项目2 Spark大数据环境安装搭建-技能拓展+测试题V1.0_第2页
Spark大数据分析实务 课件 项目2 Spark大数据环境安装搭建-技能拓展+测试题V1.0_第3页
Spark大数据分析实务 课件 项目2 Spark大数据环境安装搭建-技能拓展+测试题V1.0_第4页
Spark大数据分析实务 课件 项目2 Spark大数据环境安装搭建-技能拓展+测试题V1.0_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Spark大数据环境安装搭建技能拓展+测试题技能拓展1.搭建单机版环境单机版环境可以满足对Spark的应用程序测试工作,对于初学者而言是非常有益的。搭建单机版Spark集群的步骤如下。在Spark官网选择对应版本的Spark安装包并下载至Windows本地路径下。将Spark安装包上传至Linux虚拟机的/opt目录下。将Spark安装包解压至/usr/local目录下,如代码248所示。解压后,单机版的Spark集群即可搭建成功。技能拓展进入Spark安装目录的/bin目录下,使用SparkPi计算Pi的值,如代码249所示,其中,参数“2”是指两个并行度,运行结果如下图。需要注意的是,由于计算Pi的过程是基于随机点的生成和判断,所以每次运行时结果都会有一定的误差。技能拓展2.搭建单机伪分布式环境Spark单机伪分布式集群指的是在一台机器上既有Master进程,又有Worker进程。Spark单机伪分布式集群可在Hadoop伪分布式的基础上进行搭建。读者可自行了解如何搭建Hadoop伪分布式集群(本书使用的Hadoop安装包版本为3.1.4),本书不做介绍。搭建Spark单机伪分布式集群的步骤如下。将Spark安装包解压至Linux的/usr/local目录下。复制配置文件。进入解压后的Spark安装目录的/conf目录下,复制spark-env.sh.template文件并重命名为spark-env.sh。技能拓展修改配置文件。使用vim命令打开spark-env.sh文件,在文件末尾添加内容。启动Spark单机伪分布式集群。切换到Spark安装目录的/sbin目录下,启动Spark单机伪分布式集群。查看进程。通过命令“jps”查看进程,如果既有Master进程又有Worker进程,那么说明Spark单机伪分布式集群启动成功,如下图。技能拓展计算SparkPi。切换至Spark安装包的/bin目录下,使用SparkPi计算Pi的值,运行结果如下图。注意:由于计算Pi采用随机数,所以每次计算结果也会有差异。知识测试(1)下列不属于Hadoop集群环境搭建模式的是()。A.单机环境B.伪分布式环境C.完全分布式环境D.嵌入式分布式环境(2)配置Hadoop时,下列配置文件中包含JAVA_HOME变量的是()。A.hadoop-default.xmlB.hadoop-env.shC.hadoop-site.xmlD.configuration.xs知识测试(3)在CentOS7.8版本的Linux系统中,使用()命令可以查看某个虚拟机的IP地址。A.servicenetworkrestartB.ipaddrC.servicenetworkstartD.ip(4)yarn-site.xml文件的作用是()。A.设置了Hadoop运行基本环境的配置B.设置了YARN框架运行环境的配置C.设置了YARN框架的相关配置D.设置了MapReduce框架的相关配置知识测试(5)现有一个节点,在节点中有解压的Hadoop安装包(未配置),若搭建包含4个节点的Hadoop集群,则下列选项中步骤正确的是()。①克隆虚拟机②配置SSH免密码登录③格式化NameNode④修改配置文件⑤配置时间同步服务A.④①②⑤③B.③②①⑤④C.⑤①③②④D.④①③②⑤知识测试(6)下列不属于Spark架构中的组件的是()。A.DriverB.SparkContextC.ClusterManagerD.ResourceManager(7)Spark是Hadoop生态下()组件的替代方案。A.HadoopB.YARNC.HDFSD.MapReduce知识测试(8)Spark支持的运行模式不包括()。A.Standalone模式B.Mesos模式C.YARN模式D.Local模式(9)在Spark中,如果需要对实时数据进行流式计算,那么使用的子框架是()。A.SparkMLlibB.SparkSQLC.SparkStreamingD.SparkGraphX知识测试(10)关于SparkRDD,下列说法不正确的是()。A.Hive支持类SQL语言B.Hive不适用于复杂的机器学习算法,复杂的科学计算等场景。C.Hive能做到交互式的实时查询D.Hive目前主要应用在日志分析、多维度数据分析、海量结构化数据离线分析等方面技能测试测试修改master虚拟机的IP地址测试要点掌握CentOS版本的Linux系统网络配置方法。掌握IP地址的修改方法。需求说明根据具体的集群搭建需求及不同的个人计算机,有些时候需要更改Hadoo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论