Spark编程基础期末试卷2

上传人：好*** IP属地：辽宁上传时间：2023-03-07 格式：DOC 页数：4 大小：52.50KB 积分：6 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷部分：/5______________________学年第____学期______________________课程期末考试试卷（B）共页（闭卷考试）适用学生：_________________________________学院___________专业____级____班姓名___________学号___________题目一二三四总分得分一．单选题：本大题共20小题，每小题2分，共40分。1.下列不属于Spark生态系统的是（）。A.SparkStreamingB.StormC.SharkSQLD.SparkR2.以下说法正确的是（）。A.数组中的元素都属于同一个数据类型B.默认情况下，Scala使用的是可变映射C.List中不可以存放重复对象D.Set中可以有重复对象且Set中元素是有序的3.spark.deploy.recoveryMode不支持那种（）。A.ZooKeeperB.FileSystemC.NONED.Hadoop4.表达式“for(i<-1to3;j<-1to3;ifi!=j)print((i+j)+"")的”输出结果是（）。A.343545B.123456C.246D.12465.有如下函数定义。deffac(n:Int):Int={varres=0for(i<-1ton){res+=i}res}则fac(5)的输出结果是（）。A.14B.15C.0D.56.关于累加器，下面哪个是错误的（）。A.支持加法B.支持数值类型C.可并行D.不支持自定义类型7.在图的属性转换过程中，哪个不是图的属性转换方法（）。A.mapEdgesB.mapTripletsC.mapDegreeD.mapVertices8.下面哪一种全部是转化操作？（）A.map、take、reduceByKeyB.map、filter、collectC.map、zip、reduceByKeyD.map、join、take9.Dstream的转换操作中，将RDD进行聚合的操作是（）。A.flatmap()B.reduce()C.count()D.union()10.下列适合Spark大数据处理场景的是（）。A.复杂的批处理B.基于历史数据的交互式查询C.基于实时数据流的数据处理D.PB级的数据存储11.下列不属于SparkStreaming的输出操作的是（）。A.saveAsTextFilesB.saveAsStreamingFilesC.saveAsHadoopFilesD.saveAsObjectFiles12.DataFrame和RDD最大的区别（）。A.科学统计支持B.多了schemaC.存储方式不一样D.外部数据源支持13.下面哪个属性是图无法获取到的（）。A.VertexRDDB.numVerticesC.EdgeVertexD.EdgeRDD14.下列不是MLlib数据类型的是（）。A.本地向量B.标记向量C.本地矩阵D.向量矩阵15.下列不属于大数据技术的是（）。A.大数据采集技术B.大数据存储及管理技术C.财务报表分析技术D.大数据分析及挖掘技术二．填空题：本大题有9小题，共10空，每空2分，共20分。1.Scala是__________________，每个值都是一个对象，包括基本数据类型和函数，每个操作都是方法的调用。Scala是一门__________________语言，每个函数都是一个值。2.Spark中使用__________________对RDD的关系进行建模。3.Spark的一个重要特点是基于__________________计算的，因而更快。4.Scala中没有基本类型的概念，Scala中没有原生的数据类型，所有的数据类型都是__________________。5.在特征提取过程中，通过计数方法将一组文本文档转换为向量使用__________________方法。6.Stage的Task的数量由__________________的决定。7.SparkJob默认的调度模式是__________________。8.如果一个RDD在计算过程中出错，可以直接通过它的父RDD重新计算得到，这就是Spark基于__________________的容错机制。9.Spark采用__________________和堆外内存（Off-heapmemory）的规划机制。三．简答题：本大题有5小题，每小题6分，共30分。1.spark的有几种部署模式，每种模式特点？2.Spark中Worker的主要工作是什么？3.什么是RDD宽依赖和窄依赖？4.spark有哪些组件？5.Spark为什么比mapreduce快？四．程序题：本大题有2小题，每小题10分，共20分。使用Spark编程对E:\\hello.txt中的单词进行统计，完成程序中的代码。importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectSparkWordCountWithScala{defmain(args:Array[String]):Unit={valconf=newSparkConf()//设置运行模式为localconf.setMaster("local")//设置任务名conf.setAppName("WordCount")//创建SparkCore的程序入口1._____________________________________//读取文件生成RDDvalfile:RDD[String]=sc.textFile("E:\\hello.txt")//把每一行数据按照“,”分割2._____________________________________//让每一个单词都出现一次3._____________________________________//单词计数4.___

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Spark编程基础期末试卷2

文档简介

温馨提示

最新文档

评论

Spark编程基础期末试卷2

文档简介

温馨提示

最新文档

评论

相关文档