【MOOC】Spark编程基础-厦门大学中国大学慕课MOOC答案

上传人：小*** IP属地：未知上传时间：2024-12-09 格式：DOCX 页数：19 大小：26.69KB 积分：8.4 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

【MOOC】Spark编程基础-厦门大学中国大学慕课MOOC答案第1章大数据技术概述单元测验1、【单选题】大数据计算模式有以下四种，对电子商务网站购物平台数据的实时分析处理过程属于哪一种?本题答案：【流计算】2、【单选题】大数据技术及其代表性的软件种类很多，不同的技术有其不同应用场景，都对应着不同的大数据计算模式，请问软件产品Pregel主要应用于以下哪种计算模式？本题答案：【图计算】3、【单选题】经过多年的发展，Hadoop生态系统不断完善和成熟，目前已经包含多个子项目，其中YARN的主要功能是?本题答案：【负责集群资源调度管理的组件】4、【单选题】Hadoop生态系统中用于构建数据仓库并允许用户输入SQL语句进行查询的功能组件是?本题答案：【Hive】5、【单选题】MapReduce的一个基本设计思想是?本题答案：【计算向数据靠拢】6、【单选题】Hadoop的生态系统组件之一Sqoop的功能是?本题答案：【用来在Hadoop和关系数据库之间的交换数据，改进数据的互操作性】7、【单选题】以下哪一项不是Hadoop的缺点？本题答案：【数据文件被分布存储到多台机器上】8、【单选题】网络中很多数据是以图的形式呈现的，比如社交网络、交通事故，现场证据采集等，为了解决大型图的分布式计算问题，最适合采用以下哪种计算框架：本题答案：【Pregel】9、【单选题】用户在使用HDFS时，仍然可以像普通文件系统那样用文件名去访问文件，以下哪个选项是正确的访问方式？本题答案：【把文件名发送给名称节点，根据文件名在名称节点上找到数据块的实际存储信息，客户端再到数据节点上获取数据】10、【多选题】大数据处理的基本流程有以下哪四个步骤？本题答案：【数据采集#存储管理#处理分析#结果呈现】11、【多选题】目前学术界和业界比较认可的关于大数据的四个特点是?本题答案：【数据量大#数据类型多#处理速度快#价值密度低】12、【多选题】Hadoop两大核心组成部分是什么？本题答案：【分布式文件系统HDFS#分布式计算框架MapReduce】13、【多选题】与Hadoop相比，Spark主要有以下哪些优点？本题答案：【提供多种数据集操作类型而不仅限于MapReduce#提供了内存计算，带来了更高的迭代运算效率#基于DAG的任务调度执行机制】14、【多选题】YARN是负责集群资源调度管理的组件。不同的计算框架统一运行在YARN框架之上，具有哪些优点：本题答案：【计算资源按需伸缩#不同负载应用混搭，集群利用率高#共享底层存储，避免数据跨集群迁移#大大降低了运维成本】15、【多选题】关于Hadoop生态系统中HBase与其它部分的关系，以下说法正确的有：本题答案：【HBase利用MapReduce来处理HBase中的海量数据，实现高性能计算#利用Zookeeper作为协同服务，实现稳定服务和失败恢复#使用HDFS作为高可靠的底层存储，利用廉价集群提供海量数据存储能力#利用Pig和Hive为HBase提供了高层语言支持#使用Sqoop为HBase提供了高效便捷的RDBMS数据导入功能】16、【多选题】Spark的设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成了一套完整的生态系统，可以支持以下哪些操作计算：本题答案：【SQL即席查询（SparkSQL）#流式计算（SparkStreaming）#机器学习（MLlib）#图计算（GraphX）】17、【多选题】Flink和Spark一样，都是基于内存的计算框架，都支持流计算，在流式处理方面，以下选项是Flink的主要特点的有：本题答案：【Flink是一行一行地处理数据#Flink可以支持毫秒级的响应#Flink支持增量迭代，具有对迭代进行自动优化的功能】第2章Scala语言基础单元测验1、【单选题】以下哪个选项不是Scala的数据类型？本题答案：【Integer，Void】2、【单选题】Scala关于变量定义、赋值，错误的是？本题答案：【vala:String=3】3、【单选题】下面四个选项中，哪一个选项中a的取值与其他三个选项不同？本题答案：【vala:Double=1+2】4、【单选题】下面输出与其他不一致的是？本题答案：【valw=World;println(Hello$w)】5、【单选题】关于元组Tuple说法错误的是？本题答案：【元组最多只有2个元素】6、【单选题】以下对集合的描述有误的是？本题答案：【为了顾及安全性问题，Scala仅支持不可变集合而不支持可变集合】7、【单选题】有关操作符优先级的描述不正确的是？本题答案：【+的优先级高于！】8、【单选题】对集合(Set)进行操作Set(2,0,1)+1+1-1之后的结果为？本题答案：【Set(2,0)】9、【单选题】如果需要使用scala库中的sqrt函数,如sqrt(2)，下列引用包的方式错误的是?本题答案：【importsqrt】10、【单选题】关于辅助构造器，以下说法正确的是？本题答案：【辅助构造器的参数可以是任意多个】11、【单选题】Scala中，类成员的缺省访问级别是？本题答案：【public】12、【单选题】以下关于闭包描述错误的是？本题答案：【对于defmulBy(factor:Double)=(x:Double)=3*x;valtriple=mulBy(3);,函数triple是一个闭包】13、【单选题】高阶函数是指？本题答案：【函数参数为函数或返回结果为函数的函数】14、【单选题】对于以下代码描述有误的是？valdata=Map(1-One,2-Two)valres=for((k,v)-data;if(k1))yieldv本题答案：【运行后res的结果为List(One,Two)】15、【单选题】Scala中，下面的哪个类定义是不正确的？本题答案：【classCounter{varcounter:String}】16、【单选题】以下关于类和单例对象的对比说法正确的是？本题答案：【单例对象不可以带参数，而类可以】17、【单选题】Scala语言中，关于List的定义，不正确的是？本题答案：【vallist=List[String]('A','B','C')】18、【单选题】对于Map(book-5,pen-2).map(m=m._1-m._2*2)的结果，下面哪个是正确的？本题答案：【Map(book-10,pen-4)】19、【单选题】以下单例对象，定义错误的是？本题答案：【objectPerson(PID:String){}】20、【单选题】表达式for(i-1to3;j-1to3;ifi!=j){print((10*i+j));print()}输出结果正确的是？本题答案：【121321233132】21、【单选题】以下程序段的输出结果是importutil.control.Breaks._valarray=Array(2,6,10,5,4)for(i-array){breakable{if(i5)breakprintln(i)}}本题答案：【2,5,4】22、【单选题】以下选项说法错误的是？abstractclassCar{valcarBrand:Stringdefinfo()defgreeting(){println(“welcome”)}}本题答案：【info和greeting都是Car的抽象方法】23、【单选题】类classCounter{varvalue=0},Scala采用类似Java中的getter和setter方法，value字段默认定义的方法是？本题答案：【value,value_=】24、【单选题】defpw(x:Int):Int={if(x==0)1else2*pw(x-1)},求pw(5)?本题答案：【32】25、【多选题】以下哪些选项属于Scala的基本特性?本题答案：【是一门类Java的多范式语言#运行于Java虚拟机（JVM）之上，并且兼容现有的Java程序#是一门纯粹的面向对象的语言#是一门函数式语言，支持高阶函数，允许嵌套多层函数，并支持柯里化（Currying）】26、【多选题】关于主构造器，以下说法正确的是？本题答案：【主构造器的参数可以直接放在类名后#主构造器会执行类定义中的所有语句#主构造器中可以使用默认参数】27、【多选题】Scala中，关于包的引用正确的是？本题答案：【包和其成员可以用import#可以引用某个文件夹下的特定文件#可以引用某个文件夹下的所有文件】28、【多选题】Scala里的函数是“头等公民”，以下哪些说法是正确的？本题答案：【将函数赋值给变量#将函数作为参数传递给其他函数#将函数作为其他函数的返回值】29、【多选题】以下关于特质的说法正确的是？本题答案：【类可以实现任意数量的特质#特质可以要求实现它们的类具备特定的字段、方法或超类#当将多个特质叠加在一起时，顺序很重要，其方法先被执行的特质排在更后面】30、【多选题】对于元组valt=(1,3.14,Fred)说法正确的是？本题答案：【t的类型为Tuple3[Int,Double,java.lang.String]#val(first,second,_)=t//second等于3.14#t._0无法访问，会抛出异常】31、【多选题】Scala语言中，下面描述正确的是？本题答案：【Scala中，Float是AnyVal的子类#Scala中，Long是AnyVal的子类】32、【多选题】对于valprices=Map(book-5,pen-2,sticker-1)结果说法正确的是？本题答案：【prices(sticker)//等于1#(prices+(shoes-30))(shoes)//等于30#(prices-pen)(book)//等于5】33、【多选题】Scala中，类和它的伴生对象说法正确的是？本题答案：【类和它的伴生对象定义在同一个文件中#类和它的伴生对象可以互相访问私有特性】34、【多选题】关于数组vala=Array(1,2,3)下列说法正确的是？本题答案：【valb=a.map(_*2)//b等于Array(2,4,6)#valb=for(elem-a)yield2*elem//b等于Array(2,4,6)#valb=for(elem-aifelem%2==0)yield2*elem//b等于Array(4)】35、【多选题】关于Scala的类层级结构，以下说法正确的是？本题答案：【AnyVal是所有值类型的父类#Nothing是所有其他类型的子类#Null是所有引用类型的子类】36、【多选题】以下关于Scala各种数据结构的说法正确的是?本题答案：【集合(Set)是不重复元素的容器#迭代器(Iterator)是一种提供了按顺序访问容器元素的数据结构#列表(List)一旦被定义,其值就不能改变】37、【多选题】valbooks=List(“Hadoop”,”Hive”,”Mapreduce”),以下哪些操作能将字符串全部变成大写？本题答案：【books.map(s=s.toUpperCase)#for(book-books)yieldbook.toUpperCase#books.map(_.toUpperCase)】38、【多选题】在Scala中，关于Nothing，null，Null，Option，Some，None的说法正确的是？本题答案：【Nothing是所有其他类型的子类，没有实例，主要用于异常处理函数的返回类型#null表示一个空对象，可以赋值给任何引用类型#类Option是一个抽象类，有一个具体子类Some和一个对象None，分别表示有值和无值的情况#Null是所有引用类型的子类，其唯一的实例是null】第3章Spark的设计与运行原理单元测验1、【单选题】以下哪个不是Spark的组件?本题答案：【Flink】2、【单选题】下面哪个不是RDD的特点?本题答案：【可修改】3、【单选题】Task是Executor上的工作单元，运行于下面哪个组件上？本题答案：【WorkerNode】4、【单选题】下面哪个操作肯定是宽依赖？本题答案：【reduceByKey】5、【多选题】以下是Spark的主要特点的有?本题答案：【运行速度快#容易使用，简洁的API设计有助于用户轻松构建并行程序#通用性，Spark提供了完整而强大的技术栈#运行模式多样】6、【多选题】Spark的运行架构包括哪些？本题答案：【集群资源管理器（ClusterManager）#执行进程（Executor）#WorkerNode#任务控制节点DriverProgram】7、【多选题】关于RDD之间的依赖分为窄依赖和宽依赖，以下说法正确的是？本题答案：【存在一个父RDD的一个分区对应一个子RDD的多个分区，则为宽依赖#存在一个父RDD的一个分区只被一个子RDD的一个分区所使用，则为窄依赖】8、【多选题】Spark可以采用几种不同的部署方式，以下正确的部署方式有？本题答案：【Local#Standalone#SparkonMesos#SparkonYARN】9、【多选题】目前的大数据处理典型应用场景可分为哪几个类型?本题答案：【复杂的批量数据处理#基于历史数据的交互式查询#基于实时数据流的数据处理】10、【多选题】以下选项中哪些是Spark的优点？本题答案：【具有高效的容错性#可以将中间结果持久化到内存】第4章Spark环境搭建和使用方法单元测验1、【单选题】判断HDFS是否启动成功，可以通过哪个命令？本题答案：【jps】2、【单选题】spark-shell在启动时，master-url采用local[*]时，它的含义是？本题答案：【使用与逻辑CPU个数相同数量的线程来本地化运行Spark】3、【单选题】下面描述正确的是：本题答案：【Spark是一个分布式计算框架，可以和Hadoop组合使用】4、【多选题】Spark部署模式有哪几种?本题答案：【Local模式（单机模式）#Standalone模式#YARN模式#Mesos模式】5、【多选题】关于Hadoop和Spark的相互关系，以下说法正确的是？本题答案：【Hadoop和Spark可以相互协作#Hadoop负责数据的存储和管理#Spark负责数据的计算#Spark要操作Hadoop中的数据，需要先启动HDFS】6、【多选题】HDFS若启动成功，系统会列出以下哪些进程？本题答案：【NameNode#DataNode#SecondaryNameNode】7、【多选题】spark-shell在启动时，采用yarn-client模式时，以下说法正确的是？本题答案：【当用户提交了作业之后，不能关掉Client#该模式适合运行交互类型的作业】8、【多选题】spark-shell在启动时，采用yarn-cluster模式时，以下说法正确的是？本题答案：【当用户提交了作业之后，就可以关掉Client#该模式不适合运行交互类型的作业】9、【多选题】开发Spark独立应用程序的基本步骤通常有哪些?本题答案：【安装编译打包工具，如sbt，Maven#编写Spark应用程序代码#编译打包#通过spark-submit运行程序】10、【多选题】集群上运行Spark应用程序的方法步骤有哪些?本题答案：【启动Hadoop集群#启动Spark的Master节点和所有Slave节点#在集群中运行应用程序JAR包#查看集群信息以获得应用程序运行的相关信息】第5章RDD编程单元测验1、【单选题】下面哪个方法是用来从文件系统中加载数据创建RDD的本题答案：【textFile()】2、【单选题】以下操作中，哪个不是SparkRDD编程中的操作本题答案：【getLastOne()】3、【单选题】valdata=Array(1,2,3,4,5)valrdd1=sc.parallelize(data)valrdd2=rdd1.map(x=x+10)上述语句执行以后，rdd2中的元素是本题答案：【11,12,13,14,15】4、【单选题】valarray=Array(“Hadoopisgood”,”Sparkisfast”,”Sparkisbetter”)vallines=sc.papallelize(array)valwords=lines.flatMap(line=line.split(“”))上述语句执行以后，words中的元素是本题答案：【”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”】5、【单选题】假设有一个RDD的名称为words，包含9个元素，分别是：(”Hadoop”,1),(”is”,1),(”good”,1),(”Spark”,1),(”is”,1),(”fast”,1),(”Spark”,1),(”is”,1),(”better”,1)。则语句words.groupByKey()的执行结果得到的新的RDD中，所包含的元素是本题答案：【(”Hadoop”,1),(”is”,(1,1,1)),(”good”,1),(”Spark”,(1,1)),(”fast”,1),(”better”,1)】6、【单选题】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.take(3)上述语句执行的结果是本题答案：【Array(1,2,3)】7、【单选题】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.reduce((a,b)=a+b)上述语句执行的结果是本题答案：【15】8、【单选题】有一个键值对RDD，名称为pairRDD，它包含4个元素，分别是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),则pairRDD.reduceByKey((a,b)=a+b)执行结果得到的RDD，它里面包含的元素是本题答案：【(“Hadoop”,1),(“Spark”,2),(“Hive”,1)】9、【单选题】valwords=Array(one,two,two,three,three,three)valwordPairsRDD=sc.parallelize(words).map(word=(word,1))valwordCountsWithGroup=wordPairsRDD.groupByKey().map(t=(t._1,t._2.sum))上述语句的执行结果wordCountsWithGroup中包含的元素是本题答案：【(“one”,1),(“two”,2),(“three”,3)】10、【单选题】valwords=Array(one,two,two,three,three,three)valwordPairsRDD=sc.parallelize(words).map(word=(word,1))wordCountsWithReduce=wordPairsRDD.reduceByKey(_+_)上述语句的执行结果wordCountsWithReduce中包含的元素是本题答案：【(“one”,1),(“two”,2),(“three”,3)】11、【单选题】有一个键值对RDD，名称为pairRDD，包含4个元素，分别是(Hadoop,1)、(Spark,1)、(Hive,1)和(Spark,1)，则pairRDD.keys操作得到的RDD中所包含的元素是本题答案：【”Hadoop”,”Spark”,”Hive”,”Spark”】12、【单选题】有一个RDD，名称为pairRDD，包含4个元素，分别是(Hadoop,1)、(Spark,1)、(Hive,1)和(Spark,1)，则pairRDD.values操作得到的RDD中所包含的元素是本题答案：【1,1,1,1】13、【单选题】有一个键值对RDD，名称为pairRDD，包含4个元素，分别是(Hadoop,1)、(Spark,1)、(Hive,1)和(Spark,1)，则pairRDD.mapValues(x=x+1)操作得到的RDD中所包含的元素是本题答案：【(Hadoop,2)、(Spark,2)、(Hive,2)和(Spark,2)】14、【单选题】valpairRDD1=sc.parallelize(Array((spark,1),(spark,2),(hadoop,3),(hadoop,5)))valpairRDD2=sc.parallelize(Array((spark,fast)))pairRDD1.join(pairRDD2)上述语句执行以后，pairRDD1这个RDD中所包含的元素是本题答案：【(“spark”,(1,”fast”)),(“spark”,(2,”fast”))】15、【多选题】RDD操作包括哪两种类型本题答案：【转换（Transformation）#行动（Action）】16、【多选题】以下操作中，哪些是转换（Transformation）操作本题答案：【filter()#reduceByKey(func)】17、【多选题】以下操作中，哪些是行动（Action）操作本题答案：【collect()#reduce()】18、【多选题】以下关于RDD的持久化的描述，正确的是本题答案：【persist(MEMORY_ONLY)：表示将RDD作为反序列化的对象存储于JVM中，如果内存不足，就要按照LRU原则替换缓存中的内容#persist(MEMORY_AND_DISK)：表示将RDD作为反序列化的对象存储在JVM中，如果内存不足，超出的分区将会被存放在硬盘上#通过持久化（缓存）机制可以避免重复计算的开销#使用cache()方法时，会调用persist(MEMORY_ONLY)】19、【多选题】关于RDD分区的作用，下面描述正确的是本题答案：【增加并行度#减少通信开销】第6章SparkSQL单元测验1、【单选题】关于Shark，下面描述正确的是：本题答案：【Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑】2、【单选题】下面关于SparkSQL架构的描述错误的是：本题答案：【SparkSQL执行计划生成和优化需要依赖Hive来完成】3、【单选题】要把一个DataFrame保存到people.json文件中，下面语句哪个是正确的：本题答案：【df.write.json(people.json)】4、【单选题】以下操作中，哪个不是DataFrame的常用操作：本题答案：【sendto()】5、【多选题】Shark的设计导致了两个问题：本题答案：【执行计划优化完全依赖于Hive，不方便添加新的优化策略#Spark是线程级并行，而MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支】6、【多选题】下面关于为什么推出SparkSQL的原因的描述正确的是：本题答案：【SparkSQL可以提供DataFrameAPI，可以对内部和外部各种数据源执行各种关系操作#可以支持大量的数据源和数据分析算法，组合使用SparkSQL和SparkMLlib，可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力】7、【多选题】下面关于DataFrame的描述正确的是：本题答案：【DataFrame的推出，让Spark具备了处理大规模结构化数据的能力#DataFrame比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能#Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询#DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息】8、【多选题】要读取people.json文件生成DataFrame，可以使用下面哪些命令：本题答案：【spark.read.json(people.json)#spark.read.format(json).load(people.json)】9、【多选题】从RDD转换得到DataFrame包含两种典型方法，分别是：本题答案：【利用反射机制推断RDD模式#使用编程方式定义RDD模式】10、【多选题】使用编程方式定义RDD模式时，主要包括哪三个步骤：本题答案：【制作“表头”#制作“表中的记录”#把“表头”和“表中的记录”拼装在一起】第7章SparkStreaming单元测验1、【单选题】以下流计算框架中，哪个不是开源的：本题答案：【IBMStreamBase】2、【单选题】下面关于SparkStreaming的描述错误的是：本题答案：【SparkStreaming的数据抽象是DataFrame】3、【单选题】下面关于SparkStreaming和Storm的描述正确的是：本题答案：【SparkStreaming无法实现毫秒级的流计算，而Storm可以实现毫秒级响应】4、【单选题】下面描述错误的是：本题答案：【在SparkSQL编程中需要生成一个StreamingContext对象】5、【单选题】下面不属于SparkStreaming基本输入源的是：本题答案：【双向数据流】6、【多选题】以下关于流数据特征的描述，哪些是正确的：本题答案：【数据快速持续到达，潜在大小也许是无穷无尽的#数据来源众多，格式复杂#数据量大，但是不十分关注存储，一旦流数据中的某个元素经过处理，要么被丢弃，要么被归档存储#数据顺序颠倒，或者不完整，系统无法控制将要处理的新到达的数据元素的顺序】7、【多选题】流计算处理流程一般包括哪三个阶段：本题答案：【数据实时采集#数据实时计算#实时查询服务】8、【多选题】以下产品哪些属于日志采集组件：本题答案：【Scribe#Flume】9、【多选题】流处理系统与传统的数据处理系统的不同之处在于：本题答案：【流处理系统处理的是实时的数据，而传统的数据处理系统处理的是预先存储好的静态数据#用户通过流处理系统获取的是实时结果，而通过传统的数据处理系统获取的是过去某一时刻的结果#流处理系统无需用户主动发出查询，实时查询服务可以主动将实时结果推送给用户】10、【多选题】编写SparkStreaming程序的基本步骤包括：本题答案：【通过创建输入DStream（InputDstream）来定义输入源#通过对DStream应用转换操作和输出操作来定义流计算#调用StreamingContext对象的start()方法来开始接收数据和处理流程#通过调用StreamingContext对象的awaitTermination()方法来等待流计算进程结束】11、【多选题】DStream有状态转换操作包括哪两种：本题答案：【滑动窗口转换操作#updateStateByKey操作】第8章SparkMLlib单元测验1、【单选题】下面论述中错误的是：本题答案：【机器学习和人工智能是不存在关联关系的两个独立领域】2、【单选题】下面关于机器学习处理过程的描述，错误的是：本题答案：【通过算法构建出的模型不需要评估就可以用于其他数据的测试】3、【单选题】下面关于机器学习流水线(PipeLine)的描述，错误的是：本题答案：【流水线构建好以后，就是一个转换器（Transformer）】4、【单选题】下面关于评估器（Estimator）的描述错误的是：本题答案：【评估器实现了方法transfrom()，它接受一个DataFrame并产生一个转换器】5、【单选题】下面关于转换器（Transformer）的描述错误的是：本题答案：【技术上，转换器实现了一个方法fit()，它通过附加一个或多个列，将一个DataFrame转换为另一个DataFrame】6、【多选题】下面的论述中，正确的是：本题答案：【传统的机器学习算法，由于技术和单机存储的限制，大多只能在少量数据上使用#利用MapReduce框架在全量数据上进行机器学习，这在一定程度上解决了统计随机性的问题，提高了机器学习的精度】7、【多选题】下面关于SparkMLlib库的描述正确的是：本题答案：【MLlib库从1.2版本以后分为两个包：spark.mllib和spark.ml#spark.mllib包含基于RDD的原始算法API】8、【多选题】下面论述中正确的是：本题答案：【DataFrame可容纳各种数据类型，与RDD数据集相比，它包含了模式（schema）信息，类似于传统数据库中的二维表格#流水线用DataFrame来存储源数据#转换器（Transformer）是一种可以将一个DataFrame转换为另一个DataFrame的算法】《Spark编程基础》期末考试1、【单选题】大数据技术及其代表性的软件种类很多，不同的技术有其不同应用场景，都对应着不同的大数据计算模式，请问软件产品Storm主要应用于以下哪种计算模式：本题答案：【流计算】2、【单选题】经过多年的发展，Hadoop生态系统不断完善和成熟，目前已经包含多个子项目，其中YARN的主要功能是本题答案：【负责集群资源调度管理的组件】3、【单选题】Hadoop生态系统中用于构建数据仓库并允许用户输入SQL语句进行查询的功能组件是本题答案：【Hive】4、【单选题】Hadoop的生态系统组件之一Sqoop的功能是本题答案：【用来在Hadoop和关系数据库之间的交换数据，改进数据的互操作性】5、【单选题】下面输出与其他不一致的是本题答案：【valw=World;println(Hello$w)】6、【单选题】对集合(Set)进行操作Set(2,0,1)+1+1-1之后的结果为本题答案：【Set(2,0)】7、【单选题】关于Map(book-5,pen-2).map(m=m._1-m._2*2)的结果，以下哪个是正确的本题答案：【Map(book-10,pen-4)】8、【单选题】关于元组Tuple说法错误的是本题答案：【元组最多只有2个元素】9、【单选题】以下对集合的描述有误的是本题答案：【为了顾及安全性问题，Scala仅支持不可变集合，而不支持可变集合】10、【单选题】如果需要使用Scala库中的sqrt函数,如sqrt(2)，下列引用包的方式错误的是本题答案：【importsqrt】11、【单选题】以下哪个不是Spark的组件?本题答案：【Flink】12、【单选题】Task是Executor上的工作单元，运行于下面哪个组件上？本题答案：【WorkerNode】13、【单选题】下面哪个不是RDD的特点：本题答案：【可修改】14、【单选题】spark-shell在启动时，master-url采用local[*]时，它的含义是：本题答案：【使用与逻辑CPU个数相同数量的线程来本地化运行Spark】15、【单选题】下面描述正确的是本题答案：【Spark是一个分布式计算框架，可以和Hadoop组合使用】16、【单选题】valarray=Array(“Hadoopisgood”,”Sparkisfast”,”Sparkisbetter”)vallines=sc.papallelize(array)valwords=lines.flatMap(line=line.split(“”))上述语句执行以后，words中的元素是：本题答案：【”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”】17、【单选题】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.reduce((a,b)=a+b)上述语句执行的结果是：本题答案：【15】18、【单选题】下面哪个方法是用来从文件系统中加载数据创建RDD的：本题答案：【textFile()】19、【单选题】假设有一个RDD的名称为words，包含9个元素，分别是：(”Hadoop”,1),(”is”,1),(”good”,1),(”Spark”,1),(”is”,1),(”fast”,1),(”Spark”,1),(”is”,1),(”better”,1)。则语句words.groupByKey()的执行结果得到的新的RDD中，所包含的元素是本题答案：【(”Hadoop”,1),(”is”,(1,1,1)),(”good”,1),(”Spark”,(1,1)),(”fast”,1),(”better”,1)】20、【单选题】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.take(3)上述语句执行的结果是：本题答案：【Array(1,2,3)】21、【单选题】valwords=Array(one,two,two,three,three,three)valwordPairsRDD=sc.parallelize(words).map(word=(word,1))valwordCountsWithGroup=wordPairsRDD.groupByKey().map(t=(t._1,t._2.sum))上述语句的执行结果wordCountsWithGroup中包含的元素是：本题答案：【(“one”,1),(“two”,2),(“three”,3)】22、【单选题】要把一个DataFrame保存到people.json文件中，下面语句哪个是正确的本题答案：【df.write.json(people.json)】23、【单选题】关于Shark，下面描述正确的是：本题答案：【Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑】24、【单选题】下面关于SparkSQL架构的描述错误的是：本题答案：【SparkSQL执行计划生成和优化需要依赖Hive来完成】25、【单选题】以下操作中，哪个不是DataFrame的常用操作：本题答案：【sendto()】26、【单选题】下面关于SparkStreaming的描述错误的是：本题答案：【SparkStreaming的数据抽象是DataFrame.】27、【单选题】下面描述错误的是：本题答案：【在SparkSQL编程中需要生成一个StreamingContext对象】28、【单选题】以下流计算框架中，哪个不是开源的：本题答案：【IBMStreamBase】29、【单选题】下面论述中错误的是本题答案：【机器学习和人工智能是不存在关联关系的两个独立领域】

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【MOOC】Spark编程基础-厦门大学中国大学慕课MOOC答案

文档简介

温馨提示

最新文档

评论

【MOOC】Spark编程基础-厦门大学 中国大学慕课MOOC答案

文档简介

温馨提示

最新文档

评论

相关文档

【MOOC】Spark编程基础-厦门大学中国大学慕课MOOC答案