云计算与大数据技术概论-实验2-3_第1页
云计算与大数据技术概论-实验2-3_第2页
云计算与大数据技术概论-实验2-3_第3页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Spark Core:Scala 单词计数1、实验描述ScalaSpark WordCount实验时长:45主要步骤:sparkwordcount 示例程序Scala 程序查看实验结果2、实验环境、slave01、slave02)系统版本:Centos 7.5HadoopApache Hadoop 2.7.3SparkApache Spark 2.1.1JDK 版本:1.8.0_131Scala 版本: scala2.11.11IDEAideaIC-2017.2.73、相关技能SparkIDEAScalaSpark4、知识点linuxScala IDEASpark RDDScala5、实验效果

2、spark RDD 单词计数结果查看操作最终效果如下图:图 1图 26、实验步骤HadoopmasterHadoop1. zkpkmaster$ cd hadoop-2.7.3/2. zkpkmasterhadoop-2.7.3$ sbin/start-all.sh3. zkpkmasterhdfs dfsadmin -safemodeleave图 3masterjpsNameNode, SecondaryNameNode, ResourceManager图 4slave01jpsDataNode, NodeManager图 5slave02jpsDataNode, NodeManager图

3、6IDEA,配置软件包依赖,创建工程1. 1. zkpkmaster $ cd idea-IC-172.4574.19/2. zkpkmaster nohup bin/idea.sh &进入如下界面,点击 Create New Project图 7进入如下图界面,按照图标依次点击,最后点击next图 8GroupIdArtifactIdVersionnext图 9Mavensetting.xmlwarehousenextsetting.xml/home/zkpk/apache-maven-3.5.0/confwarehouse/home/zkpk/apache-maven-3.5.0/ware

4、house图 10spark_testnext图 11spark_test图 12如 5.1.6 步骤所示,工程创建完成后会自动打开一个名为zkpk 的 xml 文件,删除如下图标红部分的依赖图 13在 xml 文件中找到 properties 配置项,修改 scala 版本号(此处对应 scala 安装版本),并添加spark(spark)图 14dependencyscalaspark$scala.version表示上述配置的 scala.version 变量图 15一般修改 pom.xml 文件后,会提示 enable auto-import,点击即可,如果没有提示,则可以点击Maven

5、-Reimportpom.xml图 16language file,Project Structure图 17ModulesLanguage level8ApplyOK图 18Java CompilerfileSetting图 19弹出如下对话框,依次选择 Build,Execution-Compiler-Java bytecode version 为 1.8,设置图中的 Target bytecode version1.8Apply OK图 20test图 21App图 22 MavenScalaSparksrcmainscalaorg.zkpk.labScala Class图 23ok图

6、24ScalaWordCountobject ScalaWordCount图 25object ScalaWordCountmain图 26在 main 方法中创建列表 List 对象并赋值给常量 list,列表中包含 4hi hi spark”,“hello spark hello hi sparksql”,“hello hi hi sparkstreaming”,“hello hi sparkgraphx”图 27创建 SparkConf 对象,对 Spark 运行属性进行配置,调用该对象的setAppName 方法设置 Spark ”,调用 setMaster 方法设置 Spark 程序

7、运行模式,一般分为两种:本地模式和 yarn”,属性设置完成后赋值给常量sparkConfSparkContextsparkconfsc,Spark图 28调用 SparkContext 对象 sc 的方法 parallelize,参数为列表对象 list,该方法使用现成的 scala 集RDDlines,类型为 String(RDD 为 Spark 计算中的最小数据单元),该 RDD 存储元素是字符串语句图 29调用 RDD 对象 lines 的 flatMap 方法按照空格切分 RDDRDD 对象wordsStringRDD图 30调用 RDD 对象 words 的 mapRDDkv 对,

8、key 是 String 是 Int 类型的 1,并赋值给新的 RDD 对象 wordAndOne,参数为类型键值对图 31调用 RDD 对象 wordAndOne 的 reduceByKeyInt 类型变量,该方法将RDDKeyvaluevalueRet,最终返回(key,valueRet)键值对,并赋值给新的 RDD 对象 wordAndNum,参数为(String,Int)类型键值对图 32调用 RDD 对象 wordAndNum 的 sortBykv 对中的 value,即单词出现次booleantrue图 33调用 ret 对象的 collect 方法,获取集合中的元素,再调用mkS

9、tring 方法,参数为“,”,将集合中的元素用逗号连接成字符串,调用println图 34调用 ret 对象的 saveAsTextFile,该方法的参数为运行时指定的参数,此方法的用处是将Spark 程序运行的结果保存到指定路径,一般是把结果保存到HDFS1. 1. hdfs:/master:9000/sparktestHDFSsparktestSparkContextscstopspark运行程序,查看结果Run图 35Edit Configurations图 36ApplicationApplication图 37指 定 Application 的 名 称 Name, 主 函 数 Main Class, 参 数 arguments 和 运 行 模 式 VM options(由于在编写程序是已经指定了本地运行模式,所以这里的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论