《spark编程基础》课程考试复习题库及答案_第1页
《spark编程基础》课程考试复习题库及答案_第2页
《spark编程基础》课程考试复习题库及答案_第3页
《spark编程基础》课程考试复习题库及答案_第4页
《spark编程基础》课程考试复习题库及答案_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1《spark编程基础》课程考试复习题库及答案多选题1.以下哪些是Spark的组件?()A、MLBase/MLlibB、GraphXC、SparkRD、Matlab答案:ABC2.在Spark中,对RDD的Action操作有哪些?()A、saveAsTextFileB、saveAsSequenceFileC、saveAsObjectFileD、saveAsParquet答案:ABC3.在Spark中,对RDD的transformation操作有哪些?()A、flatmapB、sleC、reduceByKeyD、reduce答案:ABC4.关于spark应用程序部署,描述正确的有?()A、使用java开发的spark程序,需要编译,部署到服务器执行B、使用scala开发的spark程序,需要编译,部署到服务器执行C、使用python开发的spark程序,需要编译,部署到服务器执行D、使用scala开发的spark程序,不需要编译,直接部署到服务器执行答案:AB5.Spark是什么()A、Spark是基于内存计算的框架B、Spark是基于磁盘计算的框架C、Spark是一种基于RDD计算框架D、Spark是一种并行计算框架答案:ACD6.开发spark应用程序,常用的开发语言有哪些?()A、PythonB、ScalaC、JavaD、objectC答案:ABC7.Scala中可以定义哪些类型的类?A、对象类B、实例类C、抽象类D、特质类答案:ABCD8.Spark使用的资源管理器有哪些?()A、MesosB、standaloneC、yarnD、cloud答案:ABCD9.spark的数据,可以存储在哪些地方?()A、HDFSB、CassandraC、HbaseD、S3答案:ABCD10.SparkStreaming的数据来源有哪些?()A、KafkaB、FlumeC、HDFSD、Twitter/Kinesis答案:ABCD11.Scala中的异常处理机制包括哪些?A、try/catch块B、throw语句C、try/finally块D、catch/finally块答案:ABC12.进入sparkshell,可以传递哪些参数?()A、--masterB、--driver-memoryC、--driver-coresD、--executor-cores答案:ABCD13.大数据处理主要的三种场景为()A、批处理B、交互处理C、流式计算D、事务处理答案:ABC14.spark都有哪些组件?()A、SparkSQLB、SparkStreamingC、MLlibD、GraphX答案:ABCD15.parkRDD持久化存储数据来源,有哪些?()A、HDFSB、CassandraC、HbaseD、S3答案:ABCD16.关于SparkRDD,说法正确的有哪些?()A、RDD可以来源于持久存储,也可以从其他RDD转换B、RDD状态不可变,不能修改C、支持元素根据Key进行分区,保存到多个节点上D、可以设置存储级别(内存、磁盘等)来进行持久化答案:ABCD17.在Spark中,对RDD的transformation操作有哪些?()A、mapB、unionC、joinD、istinct答案:ABCD18.Scala中的控制结构包括哪些?A、if/else结构B、for循环结构C、while循环结构D、o/while循环结构答案:ABC19.Spark与Hadoop的区别()。A、Spark是基于内存计算框架,而Hadoop基于硬盘计算框架B、Spark是基于硬盘计算框架,而Hadoop基于内存计算框架C、Spark是一站式计算框架,而Hadoop只适合离线处理计算框架D、Spark只适合离线处理计算框架,而Hadoop是一站式计算框架答案:AC20.以下对SparkSQL的描述正确的有?()A、SparkSQL运行开发人员之间处理RDDB、SparkSQL可以直接查询hive中的数据C、SparkSQL运行开发人员之间使用SQL进行复制的数据分析D、SparkSQL的性能上,和Hive类似。答案:ABC21.可以使用哪些语言来编写spark应用程序?()A、javaB、scalaC、pythonD、R答案:ABCD22.以下哪些操作为窄依赖()A、mapB、filterC、unionD、groupByKey答案:ABC23.Spark中RDD的数据来源有哪些?()A、存储设备获取B、从其他RDD转换来C、从磁盘读取文件D、从hdfs读取数据答案:ABCD24.在Spark中,对RDD的Action操作有哪些?()A、takeB、takeSleC、foreachD、countByKey答案:ABCD25.关于Sparkstreaming和storm描述正确的是?()A、Storm逐条处理数据,而streaming有一定的时间窗口B、storm是亚秒级,而streaming有一定的延迟C、storm和streaming都是由scala开发D、streaming可以完全替代storm答案:AB26.Scala中的参数传递方式有哪些?A、值传递B、引用传递C、默认传递D、上下文传递答案:ABD27.Spark的运行模式有哪些?()A、localB、StandaloneC、onYarnoronmesosD、onCloud答案:ABCD28.SparkStreaming具有哪些特性?()A、可伸缩B、高吞吐量C、容错D、实时流处理答案:ABCD29.下列对spark描述正确的有?()A、spark是基于内存计算的B、spark处理大量数据的一个快速通用的引擎C、spark由lab实验室开发D、spark目前是apache的顶级项目答案:ABCD30.关于spark可视化程序,默认端口,描述正确的有()A、8080显示master运行情况B、4040可以看到job相关的信息C、8081显示的是worker运行的情况D、4040可以看到storage相关的信息答案:ABCD31.Scala中可以定义哪些类型的函数?A、有参函数B、无参函数C、返回值函数D、嵌套函数答案:ABCD32.Spark的容错机制是()。A、checkpointB、persistC、acheD、lineage答案:AD33.spark基本特点有哪些?()A、EaseofuseB、GeneralityC、RunseverywhereD、Speed答案:ABCD34.在如下选项中,选出窄依赖项()A、mapB、flatmapC、unionD、istinct答案:ABC35.在Sparkshell中,导入数据的过程,哪些是正确的?()A、valrdd=sc.parallelize()B、valrdd=sc.textFile()C、valrddnew=rddold.map()D、valrddnew=rddold.filter()答案:ABCD36.spark和hadoop对比,说法正确的是?()A、Hadoop中间结果会存储在磁盘上B、spark中间结果会存储在内存中C、Spark相对于hadoop提供了更多的操作D、Spark已经完全取代hadoop答案:ABC37.对于spark开发环境搭建,所依赖的环境必须要有哪些()A、jdkB、scalaC、pythonD、spark答案:ABD38.在spark中,以下选项,描述正确的有?()A、一个应用程序,可能会有多个jobB、一个job,可能对应一个stageC、一个stage,可能会对应多个taskD、一个job,可能对应多个stage答案:ACD39.在Spark中,对RDD的Action操作有哪些?()A、ReduceB、collectC、ountD、first答案:ABCD40.以下对SparkCore描述正确的有?()A、引入了RDDB、移动计算而非移动数据C、使用线程池来减少task启动开销D、使用akka作为通讯框架答案:ABCD判断题1.Scala是一种面向对象和函数式编程语言。A、正确B、错误答案:A2.Scala中的print和println两个方法无区别()A、正确B、错误答案:B3.Scala中的“type”关键字可以用来定义类型别名。(对/错)A、正确B、错误答案:A4.spark是由java语言开发()A、正确B、错误答案:B5.Scala中的“case”关键字可以用来定义案例类。(对/错)A、正确B、错误答案:A6.由于Spark提供一站式的解决方案,而且sparkstreaming和apachestorm功能相似,所以sparkStreaming可以完全替代apachestorm。()A、正确B、错误答案:B7.Estimator翻译成转换器()A、正确B、错误答案:B8.在对sparkstreaming的测试中,使用nc-lk9999,可以向9999端口,发送数据。()A、正确B、错误答案:A9.subtract是对两个RDD进行交集运算()A、正确B、错误答案:B10.在Scala中,可以用“var”关键字声明可变对象。(对/错)A、正确B、错误答案:A11.PipeLine翻译为流水线或者管道。()A、正确B、错误答案:A12.MLlib是Spark的机器学习(MachineLearning)库()A、正确B、错误答案:A13.在spark对RDD的操作中,每个action操作,可以看成是一个job()A、正确B、错误答案:A14.Scala中的变量必须先声明后使用。(对/错)A、正确B、错误答案:B15.Scala中的“List”类型是一种可变集合类型。(对/错)A、正确B、错误答案:B16.Scala中的“object”关键字可以用来定义单例对象。(对/错)A、正确B、错误答案:A17.next可以返回迭代器的下一个元素()A、正确B、错误答案:A18.MapReduce是一种分布式并行编程模型。()A、正确B、错误答案:A19.在spark中,对rdd执行transformation操作后,现有的RDD并不会立刻通过转换,生产一个新的RDD。()A、正确B、错误答案:A20.编写spark应用程序,首先需要创建sparkcontext对象。()A、正确B、错误答案:A21.Load命令导入脚本,一次运行多行程序()A、正确B、错误答案:A22.Spark运行模式中,lacal这种模式,可以应用于生产环境中()A、正确B、错误答案:B23.Scala中的变量必须先声明后使用。(对/错)A、正确B、错误答案:B24.在spark的web图形界面master:8080,可以看到master的运行情况()A、正确B、错误答案:A25.Transformer翻译成估计器或评估器()A、正确B、错误答案:B26.intersection是对两个RDD进行并集运算()A、正确B、错误答案:B27.hasNext用于检测是否还有下一个元素()A、正确B、错误答案:A28.Scala中的“null”关键字可以用来表示对象未被初始化。(对/错)A、正确B、错误答案:A29.在Spark中,如果RDD数据大于内存空间,那么执行persist()方法,只能将数据缓存到磁盘中()A、正确B、错误答案:A30.在spark的web图形界面master:4040,可以看到执行persist后,都有是否缓存数据成功()A、正确B、错误答案:A31.Scala中的“println”函数可以用来输出信息到控制台。(对/错)A、正确B、错误答案:A32.在spark中,RDD的数据来源,可以是持久化的存储,也可以来自于RDD的转换。()A、正确B、错误答案:A33.spark运行模式中,onyarn这种模式,不可以应用于生产环境中()A、正确B、错误答案:B34.spark运行模式中,onyarn这种模式,可以应用于生产环境中()A、正确B、错误答案:A35.在Spark中,对RDD数据执行cache()方法,数据默认缓存在磁盘中。A、正确B、错误答案:B36.命令sudotar-zxf/data/scala-2.12.15.tgz-C/apps功能是将scala安装包解压缩()A、正确B、错误答案:A37.在Spark中,对RDD的transformation操作,是延迟执行的。()A、正确B、错误答案:A38.valintValueArr=newArrayInt是声明一个长度为3的字符数组()A、正确B、错误答案:B39.在spark中,对rdd执行transformation操作后,现有的RDD会立刻通过转换,生产一个新的RDD。()A、正确B、错误答案:B40.union是对两个RDD进行差集运算()A、正确B、错误答案:B41.Spark是2009年诞生于伯克利大学Lab的基于内存计算框架()A、正确B、错误答案:A42.Scala中的函数类型指的是函数的返回类型。(对/错)A、正确B、错误答案:B填空题1.标注点是一种()的本地向量。答案:带有标签2.键值对转换操作()是对具有相同键的值进行分组。答案:groupByKey()3.Scala中,____关键字用来表示一个函数类型。答案:Function4.阶段():答案:是作业的基本调度单位,一个作业会分为多组任务5.Scala中,____关键字用来表示一个不可变集合。答案:Set6.使用()方法将一个RDD标记为持久化。答案:persist()7.RDD操作包括转换操作和()两种类型。答案:行动操作8.RDD是()的简称。答案:弹性分布式数据集9.在spark-shell中读取目录:/data/word.txt文件命令为:v()答案:alrdd1=sc.textFile(file:///data/word.txt10.Scala中,____关键字用来声明一个可变变量。答案:var11.()是对数据提取、转换和加载答案:ETL12.应用():答案:用户编写的Spark应用程序13.Scala中,____用来定义一个可变集合。答案:List14.importorg.apache.spark.ml.linalg.{Vector,Vectors}valsv2:Vector=(),()))生成的稀疏向量为.)答案:Vectors.sparse(3,Seq((0,2.0|2,8.015.使用()方法重新设置RDD分区个数。答案:repartition()16.数学家()设计了“λ演算答案:阿隆佐•邱奇|AlonzoChurch17.DataFrame操作中()操作可以实现条件查询。答案:filter()18.程序valarray=Array()for(){breakable{if()breakprintln()}}语句将输出()答案:1,3,10,5,4|i<-array|i>5|i|1,3,5,419.RDD:是()弹性分布式数据集的简称答案:ResillientDistributedDataset20.vallist=List(),listreduceRight{_-_}运行结果()答案:1,2,3,4,5|321.程序valr=for()ifi%2==0)yield{print();i}的输出结果为()。答案:i<-Array(1,2,3,4,5)|i|2422.作业():答案:一个作业包含多个RDD及作用于相应RDD上的各种操作23.本地向量分为稠密向量和()两种。答案:稀疏向量24.Scala的数据类型包括:()答案:Byte、Char、Short、Int、Long、Float、Double和Boolean25.Executor:是运行在工作节点()的一个进程,负责运行Task答案:WorkerNode26.程序valarray=Array()breakable{for(){if()breakprintln()}}将输出()答案:1,3,10,5,4|i<-array|i>5|i|1,327.vallist=List(),list.reduce(),运行结果()答案:1,2,3,4,5|_+_|1528.()()将图灵的理论物化成为实际的物理实体,成为了计算机体系结构的奠基者答案:冯·诺依曼|JohnVonNeumann29.Scala中,____关键字用来定义一个类型别名。答案:type30.valtuple=()、Print()结果是:()答案:“hello”,2015,21.3|tuple._2|201531.Scala中,____关键字用来定义一个案例类。答案:case32.编程范式是指计算机编程的基本风格或典范模式。常见的编程范式主要包括()程和函数式编程答案:命令式编33.Spark生态系统主要包括:()、SparkSQL、()、StructuredStreaming、SparkMlib和GraphX。答案:SparkCore|SparkStreaming34.HDFS的全称为:()。答案:Hadoop分布式文件系统35.英国数学家()采用了完全不同的设计思路,提出了一种全新的抽象计算模型——图灵机答案:阿兰·图灵36.大数据计算模式主要有:()计算。答案:批处理计算、流计算、图计算和查询分析37.根据Spark的部署方式,驱动器会启动基于网页的用户界面,默认在端口()上运行。答案:404038.Scala中,____关键字用来表示一个可变集合。答案:MutableSet39.DataFrame即带有()信息的RDD。答案:Schema40.DAG:是()有向无环图)的简称答案:DirectedAcyclicGraph41.大数据的“4V”概念包含四个层面,分别是:()。答案:数据量大、数据类型繁多、处理速度快和价值密度低42.Scala中,____函数用来输出信息到控制台。答案:println43.稠密向量表示形式是[1.0,0.0,3.0]对应的稀疏向量形式则是())答案:(3,[0,2],[1.0,3.0]44.Scala中,____关键字用来声明一个不可变变量。答案:val45.Scala中,____关键字用来定义一个对象。答案:object46.通过并行集合()创建RDDv()valrdd=sc.parallelize())答案:数组|alarray=Array(1,2,3,4,5|array47.vallist=List(),listreduceLeft{_-_}运行结果()答案:1,2,3,4,5|-1348.任务():答案:运行在Executor上的工作单元简答题1.简述RDD有哪几种创建方式?答案:(1)从本地文件系统中加载数据创建RDD:(2)从分布式文件系统HDFS中加载数据创建RDD(3)通过并行集合创建RDD2.Spark部署模式有哪些?答案:Local模式:单机模式Standalone模式:使用Spark自带的简单集群管理器YARN模式:使用YARN作为集群管理器Mesos模式:使用Mesos作为集群管理器Kubernetes模式:搭建在Kubernetes集群上3.简述RDD分区的原则。答案:RDD分区的一个原则是使得分区的个数尽量等于集群中的CPU核心数目。local模式:默认为本地机器的CPU数目,若设置了local[N],则默认为N。Standalone或YARN模式:在“集群中所有CPU核心数目总和”和“2”这二者中取较大值作为默认值。Mesos模式:默认的区分数为8。4.简述Spark相对于HadoopMapreduce有哪些优点?答案:(1)Spark的计算模式也属于MapReduce,但不局限于Map和Reduce,还提供了多种数据集操作类型,编程模型比MapReduce更灵活;(2)Spark提供了内存计算,中间结果直接存放到内存中,带来了更高的迭代运算效率;(3)Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。5.简述二项逻辑回归模型是什么?答案:6.简述流数据的特征。答案:(1)数据快速持续到达,也许是无穷无尽的。(2)数据来源众多,格式复杂。(3)数据量大,但是不十分关注储存,一旦流数据中的某个元素经过处理,则要么被丢弃,要么被归档储存。(4)注重数据的整体价值,不过分关注个别数据。(5)数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序。7.在spark-shell中编程实现间隔20秒一次访问文件夹data/logfile里的数据流,并进行词频统计输出结果。答案:(1)importorg.apache.spark.streaming._(2)valssc=newStreamingContext(sc,Seconds(20))(3)vallines=ssc.textFileStream("file:///data/logfile")(4)valwords=lines.flatMap(_.split(""))(5)valwordCounts=words.map(x=>(x,1)).reduceByKey(_+_)(6)wordCounts.print()(7)ssc.start()(8)ssc.awaitTermination()8.在Linux系统中的/data下有文件file.txt,该数据集包含了某大学计算机系的成绩,数据格式为:Tom,DataBase,90Hanmeimei,Algorithm,70Jerry,Spark,85根据给定的数据,在Spark-shell中编写程序代码来实现下面题目要求。答案:(1)该系总共有多少学生;valrdd1=sc.textFile("file:///data/file.txt")Valrdd2=rdd1.map(row=>row.split(",")(0))valrdd3=rdd2.distinct()//去重操作rdd3.count//取得总数(2)该系共开设来多少门课程;valrdd1=sc.textFile("file:///data/file.txt")valrdd2=rdd1.map(row=>row.split(",")(1))valrdd3=rdd2.distinct()rdd3.count(3)该系Spark课程共有多少人选修;Valrdd1=sc.textFile("file://data/file.txt")valrdd2=rdd1.filter(row=>row.split(",")(1)=="Spark")rdd2.count9.简述spark在启动时,分别采用local、local[k]、local[*]时有什么区别?答案:(1)local:使用一个Worker线程本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论