Spark大数据技术与应用 习题及答案汇 王小洁 第1-7章_第1页
Spark大数据技术与应用 习题及答案汇 王小洁 第1-7章_第2页
Spark大数据技术与应用 习题及答案汇 王小洁 第1-7章_第3页
Spark大数据技术与应用 习题及答案汇 王小洁 第1-7章_第4页
Spark大数据技术与应用 习题及答案汇 王小洁 第1-7章_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

11、【实战任务1】Spark的特点包括(ABD)A.快速B.通用C.可延伸D.兼容性2、【实战任务2】Spark的组成不包括以下哪一个(D)A.SparkCoreB.SparkSQLC.SparkStreamingD.MapReduce3、【实战任务1】与Hadoop相比,Spark主要有以下哪些优点(ABCD)A.提供多种数据集操作类型而不仅限于MapReduceB.数据集中式计算而更加高效C.提供了内存计算,带来了更高的迭代运算效率D.基于DAG的任务调度执行机制4、【实战任务3】Spark的环境搭建包括以下哪些模式?(ABCD)A.单机模式B.单机伪分布模式C.完全分布模式D.Standalone模式5、【实战任务3】SparkDriver的功能是什么(ABD)A.是作业的主进程B.负责了作业的调度C.负责向HDFS申请资源D.负责作业的解析6、【实战任务2】ClusterManager是(A)A.主节点B.从节点C.执行器D.上下文7、【实战任务2】以下哪个不是Spark的组件(B)A.DAGSchedulerB.MultiSchedulerC.TaskSchedulerD.SparkContext8、【实战任务2】Spark的四⼤组件下⾯哪个不是(D)A.SparkStreamingB.MLlibCGraphxD.SparkR9、【实战任务2】下⾯哪个操作是窄依赖(B)AjoinBfilterCgroupDsort10、【实战任务2】下⾯哪个操作肯定是宽依赖(C)AmapBflatMapCreduceByKeyDsample11、【实战任务1】Spark是什么(ACD)A.Spark是基于内存计算的框架B.Spark是基于磁盘计算的框架C.Spark是一种基于RDD计算框架D.Spark是一种并行计算框架12、【实战任务2】Spark的核心模块是(B)A. SparkStreamingB. SparkCoreC. MapReduceD. SparkSQL13、【实战任务1】Spark的优势有哪些(BCD)A.完全依赖HadoopMapReduce框架获得海量大数据计算能力B.Spark对小数据集能达到亚秒级的延迟C.Spark提供了不同层面的灵活性数据并行的范式D.内存缓存、流数据处理、图数据处理等更为高级的数据处理能力14、【实战任务2】Spark的部署模式有(ABCD)A.本地模式B.standalone模式C.SparkonYarn模式D.mesos模式15、【实战任务1】Spark产生的原因(ABC)A.MapReduce具有很多的局限性B.Spark不适合做交互式处理C.现有的各种计算框架各自为战D.Spark只能进行交互式计算16、【实战任务1】Spark图计算的产品是(A)A.GraphXB.PregelC.FlumeD.PowerGraph17、【实战任务1】Spark的劣势是(D)A.允许速度快B.业务实现需要较少代码C.提供很多函数D.需要更多机器运行21、 【实战任务2】Scala关于变量定义、赋值,错误的是(B)A. vala=3B. vara:String=3C. varb:Int=3;b=6D. varb="HelloWorld";b="123"2、 【实战任务2】下面输出与其他不一致的是(D)A. println("HelloWorld")B. print("HelloWorld\n")C. printf("Hello%s","World\n")D. valw="World";println("Hello$w")3、 【实战任务7】关于元组Tuple说法错误的是(D)A. 元组的可以包含不同类型的元素B. 访问元组第⼀个元素的⽅式为pair._1C. 元组是不可改变的D. 元组最多只有2个元素4、 【实战任务5】对于函数下列说法正确的是(A)defgetGoodsPrice(goods:String)={valprices=Map(“book”->5,“pen”->2,“sticker”->1)prices.getOrElse(goods,0)}A. getGoodsPrice("book")//等于5B. getGoodsPrice("pen")//等于2C. getGoodsPrice("sticker")//等于1D. getGoodsPrice("sock")//等于“sock”5、 【实战任务4】表达式for(i<-1to3;for(j<-1to3;ifi!=j)print((10*i+j))+""输出结果正确的是(C)A. 111213212223313233B. 111321233133C. 121321233132D. 1112212231326、 【实战任务5】关于函数deffac(n:Int)={varr=1;for(i<-1ton)r=r*i;r}fac(5)输出结果正确的是(B)A. 15B. 120C. 200D. 3007、 【实战任务4】Scala中,下⾯的哪个类定义是不正确的(C)A. classCounter{defcounter=“counter”}B. classCounter{valcounter=“counter”}C. classCounter{varcounter:String}D. classCounter{defcounter(){}8、 【实战任务5】有关柯⾥化描述错误的是(D)A. 柯⾥化是指将原来接受两个参数的函数变成新的接受⼀个参数的函数的过程。新的函数返回⼀个以原有第⼆个参数作为参数的函数。B. 有时,使⽤柯⾥化将某个函数参数单拎出来,可以提供更多⽤于类型推断的信息。C. 将函数defadd(x:Int,y:Int)=x+y,变形为defadd(x:Int)(y:Int)=x+y的过程是⼀个柯⾥化过程。D. 柯⾥化是多参数列表函数的特例。9、 【实战任务8】对于在scala中⽂件相关操作描述正确的是(D)A. 可以直接使⽤scala的库来读取⼆进制⽂件。B. 可以直接使⽤scala的库来写⼊⽂件⽂件。C. 在读取⽂件时,如果不指定⽂件编码格式则scala会推断出正确的格式进⾏读取。D. 以上描述均不正确。10、【实战任务8】有关操作符优先级的描述不正确的是(C)A. *=的优先级低于+。B. >的优先级⾼于&。C. 后置操作符的优先级⾼于中置操作符。D. %的优先级⾼于+。11、【实战任务1】Scala有以下那些特点(ABCD)A.Scala是一门多范式的编程语言,设计初衷是要继承面向对象编程和函数式编程的各种特性B.Scala运行在Java虚拟机上,并兼容现有的Java程序C.Scala源代码被编译成Java字节码,可以运行在JVM上,也可以调用现有的Java类库D.Scala语音简洁优雅大方,很多大数据底层框架采用Scala去实现与编程12、【实战任务2】Scala通过(A)来定义变量。A.valB.defineC.def13、【实战任务2】Scala使用那些修饰符(AC)A.publicB.ScalaC.privateD.bool14、【实战任务2】在Scala中,数据分为两类(AD)A.常量B.常数C.变数D.变量15、【实战任务4】在Scala中属于匿名函数的是(A)A.=>B.=》C.<-D.->16、【实战任务1】有关Scala安装说法错误的式(B)A.Scala语言可以运行在Windows系统上B.Scala语言是基于Java之上,大量使用Java的类库和变量,使用Scala之前续安装Java1.4版本C.Scala可以运行在Linux、Unix等系统上D.Scala语言可以运行在MacOSX系统上17、【实战任务4】Scala函数支持(ABCD)A.递归函数B.高阶函数C.柯里化D.匿名函数18、【实战任务5】Scala中允许继承多个父类。(A)A.正确B.错误31.【实战任务1】Spark组件中的核心概念是(A)。A.RDDB.DataSetC.DataFrameD.Data2.【实战任务2】下列方法中,不能创建RDD的方法是?( D )A.makeRDDB.parallelizeC.textFileD.testFile3.【实战任务3】下列选项中,哪个不属于转换算子操作?( C )A.filter(func)B.map(func)C.reduce(func)D.reduceByKey(func)4.【实战任务3】下列选项中,能使RDD产生宽依赖的是(D)A.map(func)B.filter(func)C.unionD.groupByKey()5.【实战任务3】RDD的操作主要是哪2种操作(AD)。A.转换算子操作B.分组操作C.读写操作D.行动算子操作6.【实战任务3】下列属于RDD的转换算子的是(ACD)。A.groupByKey()B.reduce()C.reduceByKey()D.map()7.【实战任务3】下列属于RDD的行动算子的是(ABC)。A.count()B.first()C.take()D.filter()8.【实战任务1】下面哪个不是RDD的特点(C)A.可分区B.可序列化C.可修改D.可持久化9.【实战任务1】RDD具有(A,C)特征(多选)。A.可容错性B.简洁性C.并行数据结构D.结构化10.【实战任务1】关于RDD,下列错误的是?(A)A.RDD运行在工作节点(WorkerNode)的一个进程,负责运行Task.B.Application是用户编写的Spark应用程序C.一个Job包含多个RDD及作用于相应RDD上的各种操作D.DAG反映RDD之间的依赖关系11.【实战任务1】创建RDD可以有如下几种?(ABC)A.由外部存储系统的数据集创建,包括本地的文件系统B.由一个已经存在的Scal集合创建C.比如所有Hadop支持的数据集D.以上说法都不对12.【实战任务1】以下哪个是键值对RDD特有的算子操作(D)。A.mapB.flatMapC.filterD.reduceByKey13.【实战任务2】以下哪种文件RDD不可操作(D)。A.JSON格式文件B.CSV格式文件C.SquenceFile格式文件D.Word格式文件14.【实战任务3】以下哪些是Spark运行模式的MASTER_URL的取值(ABC)(多选)。A.localB.spark://ip:portC.local[1]D.localhost15.【实战任务2】以下哪些算子可以获取RDD种的第一条数据(AC)(多选)。A.firstB.countC.take(1)D.collect41、【实战任务1】以下哪个说法是正确的(A)。A.SparkSQL的前身是SharkB.SparkSQL核心模型是RDDC.HiveContext只支持SQL语法解析器D.SQLContext继承了HiveContext2、【实战任务1】SparkSQL能处理的数据源不包括以下哪个?(D)。A.JSON文件 B.CSV文件C.Parquet文件D.Execl文件3、【实战任务1】SparkSQL的特点不包括以下哪个?(C)。A.容易集成B.提供了统一的数据访问C.对Hive不支持D.标准化数据库连接4、【实战任务2】DataFrame的创建数据源不包括下面哪个?(D)。A.外部结构化数据文件 B.现有的RDD数据集C.Hive数据表D.外部的Execl表格文件5、【实战任务2】DataFrame查看前30条记录可以使用以下哪两个方法完成?(选择两项)(AB)。A.showB.takeC.collectD.pringSchema6、【实战任务2】以下哪个方法可以用于对DataFrame进行排序查询?(A)。A.sortB.limitC.groupByD.join7、【实战任务2】如果要对DataFrame对象userDF按照年龄age降序排序,以下哪个是正确的(B)。A.userDF.orderBy(“age”)B.userDF.orderBy(desc(“age”))C.userDF.orderBy(“agedesc”)D.userDF.orderBy(“age”).desc()8、【实战任务2】以下哪个选项可以保证DataFrame输出数据是如果目的地已有数据报错?(D)。A.overwriteB.appendC.ignoreD.default9、【实战任务2】以下哪个操作会返回一个新的DataFrame对象(C)。A.collectB.takeAsListC.whereD.first10、【实战任务2】以下哪个操作的DataFrame的where操作含义一致(C)。A.firstB.sortC.filterD.limit11、【实战任务2】SparkSQL的入口对象是(B)。A.SparkContextB.SparkSessionC.SparkSQLD.StreamingContext12、【实战任务2】以下哪些是SparkSQL的数据抽象(AB)(多选)。A.DatasetB.DataFrameC.RDDD.DStream13、【实战任务2】以下哪个是DataFrame的输出操作(C)。A.showB.printSchemaC.writeD.take14、【实战任务2】以下哪些是DataFrame数据输出时savemode可选的值(ABCD)(多选)。A.overwriteB.appendC.ignoreD.error15、【实战任务2】以下哪个是Dataset的创建方式(D)。A.从Scala集合创建B.从RDD数据集创建C.将DataFrame转换为DatasetD.以上都是51、【实战任务1】SparkStreaming的核心编程模型是以下哪个(A)A.DStreamB.RDDC.DataFrameD.Dataset2、【实战任务1】下面关于SparkStreaming的描述错误的是(D)。A.SparkStreaming的基本原理是将实时输入数据流以时间片为单位进行拆分,然后采用Spark引擎以类似批处理的方式处理每个时间片数据B.SparkStreaming最主要的抽象是DStream(DiscretizedStream,离散化数据流),表示连续不断的数据流C.SparkStreaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字D.SparkSteaming的数据抽象是DataFrame3、【实战任务2】DStream的创建需要借助以下哪个对象?(D)A.SparkContextB.SQLContextC.SparkSessionD.StreamingContext4、【实战任务3】Dstream窗口操作中哪个函数基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的Dstream。(B)A.windowB.reduceByWindowC.reduceByKeyAndWindowD.countByWindow5、【实战任务3】SparkStreming中哪个函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream,这可以用来在DStream做任意RDD操作。(A)A.transformB.reduceC.joinD.cogroup6、【实战任务3】SparkStreming中哪个函数可以对源DStream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的DStream。(D)A.unionB.mapC.flatMapD.filter7、【实战任务3】DStream输出操作中print函数会打印出DStream中数据的前几个元素。(A)A.10B.15C.1D.58、【实战任务3】SparkStreming中哪个函数可以对源DStream的每个元素通过函数func被映射出0或者更多的输出元素。(C)A.unionB.mapC.flatMapD.filter9、【实战任务3】SparkStreming中哪个函数当被调用的两个DStream分别含有K,V和K,W键值对时,返回一个K,Seq[V],Seq[W]类型的新的DStream。(D)A.unionB.reduceC.joinD.cogroup10、【实战任务2】SparkStreming中哪个函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream时,返回类型为(K,(V,W))键值对的一个新DStream。(C)A.unionB.reduceC.joinD.cogroup11、【实战任务2】SparkStreaming能够和(BCD)无缝集成(多选)。A.HadoopB.SparkSQLC.SparkMllibD.SparkGraphX12、【实战任务2】SparkSteaning能够处理来自(ABCD)的数据(多选)。A.KafkaB.FlumeC.TwitterD.HDFS13、【实战任务2】SparkSteaming中批处理时间间隔是指(A)。A.系统将获取到的数据流封装成一个RDD的时间间隔.B.数据流进行统计分析的时间间隔C.数据流进行统计分析的频率D.作业处理的周期14、【实战任务2】编写SparkStreaming程序的基本步骤包括()(多选)。A.通过创建输入DStream(InputDstream)来定义输入源B.通过对DStream应用转换操作和输出操作来定义流计算C.调用StreamingContext对象的start()方法来开始接收数据和处理流程D.通过调用StreamingContext对象的awaitTermination()方法来等待流计算进程结束 15、【实战任务1】parkStreaming的特点有(ABCD)(多选)。A.实时流处理B.可伸缩C.高吞吐量D.容错能力强61、【实战任务1】以下属于图计算的数据抽象的是(D)。A.DataFrameB.DatasetC.DStreamD.Graph2、【实战任务1】在Spark的软件栈中,用于图计算的是(C)A.SparkSQLB.SparlMLlibC.SparkGraphXD.SparkStreaming3、【实战任务2】SparkGraphX中EdgeRDD继承自(B)。A.EdgeRDDB.RDD[Edge]C.VertexRDD[VD]D.RDD[(VertextId,VD)]4、【实战任务2】SparkGraphX中(B)是完整提供边的各种操作的类。A.RDD[Edge]B.EdgeRDDC.RDD[(Vertexld,VD)]D.VertexRDD5、【实战任务2】SparkGraphX中VertexRDD[VD]继承自(D)。A.EdgeRDDB.RDD[Edge]C.VertexRDD[VD]D.RDD[(Vertexld,VD)]6、【实战任务2】SparkGraphX中(A)是存放着Edge对象的RDDA.RDD[Edge]B.EdgeRDDC.RDD[(Vertexld,VD)]D.VertexRDD7、【实战任务3】SparkGraphX中类Graph的reverse方法可以(A)。A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性D.合并边相同的属性8、【实战任务3】SparkGraphX中graph.triplets可以得到(C)。A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图9、【实战任务3】SparkGraphX中graph.edges可以得到(B)。A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图10、【实战任务3】SparkGraphX中(C)方法可以查询顶点信息。A.numVerticesB.numEdgesC.verticesD.edges11、【实战任务1】Spark图计算的产品是(A)。A.GraphXB.PegelC.FlumeD.PowerGraph12、【实战任务2】SparkGraphX哪个视图包含图的所有信息(C)。A.顶点视图B.边视图C.三元组视图D.以上均不是13、【实战任务2】以下哪个操作可以将图的方向反转(A)。A.reverseB.subgraphC.mapEdgesD.mask14、【实战任务2】GraphX中(A)方法可以查询度数。A.degreesB.degreeC.verticesD.edges15、【实战任务1】对GraphX以下描述正确的是(ABCD)(多选)。A.GraphX是一种基于内存的分布式的图计算框架与图计算库B.GraphX中引入了弹性分布式属性图C.GraphX实现了表视图与图视图的统一D.GraphX提供了丰富的PregelAPI用以实现经典的图计算算法71、【实战任务二】MLlib包括(ABCD)。A.分类模型B.聚类模型C.特征抽取D.统计模型2、【实战任务二】SparkMLlib主要提供了哪几个方面的工具(ABCD)A.算法工具:常用的学习算法,如分类、回归、聚类、协同过滤等。B.特征化工具:特征提取、转化、降维和选择工具。C.流水线:用于构建、评估和调整ML工作流的工具。D.实用工具:线性代数、统计、数据处理等工具。3.【实战任务二】SparkMLlib数据类型有(ABCD)A.LocalVector本地向量集B.LabeledPoint向量标签C.Localmatrix本地矩阵D.Distributematrix分布式矩阵4.【实战任务一】下面论述中错误的是(A)。A.机器学习和人工智能是不存在关联关系的两个独立领域B.机器学习强调三个关键词:算法、经验、性能C.推荐系统、金融反欺诈、语音识别、自然语言处理和机器翻译、模式识别、智能控制等领域,都用到了机器学习的知识D.机器学习可以看作是一门人工智能的科学,该领域的主要研究对象是人工智能5.【实战任务一】下面关于机器学习处理过程的描述,错误的是(D)。A.在数据的基础上,通过算法构建出模型并对模型进行评估B.评估的性能如果达到要求,就用该模型来测试其他的数据C.评估的性能如果达不到要求,就要调整算法来重新建立模型,再次进行评估D.通过算法构建出的模型不需要评估就可以用于其他数据的测试6.【实战任务一】下面的论述中,正确的是(AB)。A.传统的机器学习算法,由于技术和单机存储的限制,大多只能在少量数据上使用B.利用MapReduce框架在全量数据上进行机器学习,这在一定程度上解决了统计随机性的问题,提高了机器学习的精度C.MapReduce可以高效支持迭代计算D.Spark无法高效支持迭代计算7.【实战任务二】下面关于SparkMLlib库的描述正确的是(AC)。A.MLlib库从1.2版本以后分为两个包:spark.mllib和spark.mlB.Spark.mllib包含基于DataFrame的原始算法APIC.Spark.mllib包含基于RDD的原始算法APID.Spark.mllib提供了基于RDD的、高层次的API8.【实战任务一】Spark生态系统组件MLlib的应用场景是(D)A.图结构数据的处理B.基于历史数据的交互式查询C.复杂的批量数据处理D.基于历史数据的数据挖掘9.【实战任务一】Sp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论