南开大学23春“物联网工程”《大数据开发技术(二)》考试高频考点参考题库答案_第1页
南开大学23春“物联网工程”《大数据开发技术(二)》考试高频考点参考题库答案_第2页
南开大学23春“物联网工程”《大数据开发技术(二)》考试高频考点参考题库答案_第3页
南开大学23春“物联网工程”《大数据开发技术(二)》考试高频考点参考题库答案_第4页
南开大学23春“物联网工程”《大数据开发技术(二)》考试高频考点参考题库答案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

长风破浪会有时,直挂云帆济沧海。南开大学23春“物联网工程”《大数据开发技术(二)》考试高频考点参考题库带答案(图片大小可自由调整)第I卷一.综合考核(共15题)1.GraphX中()是存放着Edg对象的RDDA.RDD[Edge]B.EdgeRDDC.RDD[(VertexId,VD)]D.VertexRDD2.Scala中创建一个方法时经常用void表示该方法无返回值。()T.对F.错3.Mllib中metrics.fMeasureByThreshold表示()指标A.准确度B.召回率C.F值D.ROC曲线4.Spark可以从()分布式文件系统中读取数据A.HDFSB.HbaseC.HiveD.Tachyon5.()是Spark的数据挖掘算法库。A.SparkCoreB.BlinkDBC.GraphXD.Mllib6.PairRDD可以通过()获得仅包含键的RDDA.keyB.keysC.valueD.values7.请阐述Spark对数据进行持久化的特点8.SparkStreming中DStream代表着一系列的持续的RDDs。()A.正确B.错误9.SparkSQL读取的数据源支持()A.Hive表B.Parquent文件C.JSON数据D.关系数据库10.以下哪个不是Scala的数据类型()A.AnyRefB.AnythingC.NULLD.Nothing11.以下哪个方法可以从集合中创建RDD?()A.parallelizeB.makeRDDC.textFileD.loadFile12.Spark中的每个RDD一般情况下是由()个分区组成的。A.0B.1C.多D.无数13.TF-IDF中TF指的是()A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率14.RDD的filter过滤会将返回值为true的过滤掉。()T.对F.错15.Scala中创建一个方法时经常用void表示该方法无返回值A.正确B.错误第II卷一.综合考核(共15题)1.Scala列表方法中丢弃前n个元素,并返回新列表的方法是()A.dropB.headC.filterD.init2.Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值。()A.正确B.错误3.SparkDataFrame中()方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList4.在图结构中,每个元素都可以有()后继。A.至少一个B.零个或多个C.一个D.零个5.以下哪个是Scala的数据类型()A.AnyB.NULLC.NothingD.AnyRef6.SparkStreming中()函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union7.GraphX中VertexRDD[VD]继承自()。A.EdgeRDDB.RDD[Edge]C.VertexRDD[VD]D.RDD[(VertexId,VD)]8.以下哪个函数可以求两个RDD交集()A.unionB.substractC.intersectionD.cartesian9.RDD是一个可读写的数据结构。()T.对F.错10.以下哪个函数可以对RDD进行排序?()A.sortByB.filterC.distinctD.intersection11.以下哪个函数可以对两个RDD进行合并()A.unionB.substractC.intersectionD.cartesian12.Scala集合分为可变的和不可变的集合。()A.正确B.错误13.Scala通过()来定义变量A.valB.valC.defineD.def14.Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。()A.正确B.错误15.RDD的map操作不会改变RDD的分区数目。()T.对F.错第I卷参考答案一.综合考核1.参考答案:A2.参考答案:F3.参考答案:C4.参考答案:ABCD5.参考答案:D6.参考答案:B7.参考答案:(1)RDD\r\n的存储级别应该根据需要以及环境具体情况设定,在RDD参与第一次计算后,RDD就会根据设置的存储级别保存RDD计算后的值在内存中或磁盘上。(2)只有未曾设置存储级别的RDD才能设置存储级别,设置了存储级别的RDD不能修改其存储级别。(3)\r\n针对仅存储数据在内存中的存储策略,如果内存不足的话,Spark会使用LRU缓存策略清除最老的分区,为新的RDD提供空间,所以缓存在内存中的RDD分区是会被清除的,而不能长久保存,而缓存在磁盘上的数据则不用担心。8.参考答案:A9.参考答案:ABCD10.参考答案:B11.参考答案:AB12.参考答案:C13.参考答案:AB14.参考答案:F15.参考答案:B第II卷参考答案一.综合考核1.参考答案:A2.参考

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论