2024年知识竞赛-大数据智能办公系统知识笔试考试历年高频考点试题摘选含答案

上传人：住*** IP属地：四川上传时间：2024-06-23 格式：DOCX 页数：19 大小：39.95KB 积分：25 举报 版权申诉

2024年知识竞赛-大数据智能办公系统知识笔试考试历年高频考点试题摘选含答案_第2页

2024年知识竞赛-大数据智能办公系统知识笔试考试历年高频考点试题摘选含答案_第3页

2024年知识竞赛-大数据智能办公系统知识笔试考试历年高频考点试题摘选含答案_第4页

2024年知识竞赛-大数据智能办公系统知识笔试考试历年高频考点试题摘选含答案_第5页

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2024年知识竞赛-大数据智能办公系统知识笔试考试历年高频考点试题摘选含答案第1卷一.参考题库(共75题)1.stage的task数量是由什么决定的（）A、partitionB、jobC、stageD、taskscheduler2.reduceByKey算子在一个（K，V）的RDD上调用，返回一个（K，V）的RDD，使用指定的reduce函数，将相同key的值聚合到一起3.cogroup算子在类型为（K，V）和（K，W）的RDD上调用，返回一个（K，（Iterable，Iterable））类型的RDD4.spark程序无法连接和访问mysql中的数据5.以下关于List的定义。正确的是？（）A、vallist=List（4，7，3）B、vallist=List[Int]（1，2，3）C、vallist=List[String]（‘a’，’b’，’c’）D、vallist=List[Int]（"a"，"b"）6.AnyVal是scala中的String类的父类7.该方法被称为cons，意为构造，向队列的头部追加数据，创造新的列表8.DataFrame不能够转换成Rdd9.spark内部集成的standalone功能为（）A、任务调度框架B、任务模式C、资源调度框架D、任务整合10.spark中的foreach算子作用（）A、使程序在内存中运行B、使程序触发执行C、使程序具有一致性D、使程序具有安全性11.以下哪个算子与别的算子不同？（）A、mapB、filterC、flatMapD、reduce12.flume在读取文本文件的时候，一个文本数据是一个？（）A、agentB、eventC、sourceD、float13.关于元组Tuple说法错误的是？（）A、元组的可以包含不同类型的元素B、元组是不可变的C、访问元组第一个元素的方式为pair._1D、元组最多只有2个元素14.yarn中nodemanager的作用（）A、管理集群中整体节点的资源情况B、管理本机节点的资源C、存储数据D、读取数据15.spark中的弹性分布式数据集相当于java中的（）概念A、类B、接口C、方法D、内部类16.hdfs是一个基于内存的计算模型17.spark计算速度比mapreduce计算速度快，不仅仅是因为内存18.zookeeper可以实现以下哪些功能（）A、同步配置文件B、选举C、资源动态平衡D、分布式锁19.有关scala安装错误的是？（）A、Scala语言可以运行在Window系统上B、Scala是基于java之上，大量使用java的类库和变量，使用Scala可以使用先安装Java1.4版本C、Scala语言可以运行在Linux、Unix等系统上D、Scala语言可以运行在MacOSX系统上20.下列关于set和list集合说法错误的是（）A、set集合无序可重复B、list集合有序可重复C、set集合有序不可重复D、list集合有序不可重复21.以下语句的运行结果为vari=0；while（iA、运行报错B、循环三次C、循环两次D、死循环22.dataFrame和RDD其实是一回事，没有区别23.在kafka中，数据的操作基本单元是哪个？（）A、eventB、agentC、partitionD、topic24.以下属于消息中间件的是哪些（）A、ActiveMQB、RabbitMQC、KafkaD、Mysql25.scala语言中，下面描述正确的是？（）A、scala中，Float是Double的子类。B、scala中，Int是Long的子类。C、scala中，Double是AnyRef的子类D、scala中，Long是AnyVal的子类26.类和单例对象间的差别是（）A、单例对象不可以定义方法，而类可以B、单例对象不可以带参数，而类可以C、单例对象不可以定义私有属性，而类可D、单例对象不可以继承，而类可以27.Linux中查看一个文本文件的指令有哪些（）A、结构化数据文件B、hive的表C、外部数据库D、RDDs28.kafka是一个关于什么的中间件（）A、消息B、传输C、操作D、事物29.下列关于kafka中的partition说法正确的是（）A、partition是逻辑存在的B、partition是最小的逻辑单元C、topic是真正数据存储的地方D、partition不存储数据30.sorted会将所给的对象进行排序，请说出下列程序输出结果为vala3=Array（1，2，3，4，5，100，7）valcs=a3.sorted；for（jA、123457100B、234571001C、457100123D、10075432131.valsite：List[String]=List（"Runoob"，"Google"，"Baidu"）println（site.head+site.tail）可以知道head返回列表第一个元素，tail返回除第一个元素外的所有元素32.Set集合是无序不重复的集合33.spark可以编写sql脚本的框架是（）A、sparkcoreB、sparkstreamingC、mlbaseD、sparksql34.checkpoint算子是action类算子，不会延迟加载35.foreach算子在数据集的每一个元素上，运行函数func进行操作36.Spark有如下特性（）A、ScalaB、javaC、python37.以下组件中和mesos相类似的组件是哪个（）A、yarnB、hdfsC、mapreduceD、以上都不对38.创建rdd可以有如下几种？（）A、由外部存储系统的数据集创建，包括本地的文件系统B、由一个已经存在的Scala集合创建C、比如所有Hadoop支持的数据集，比如HDFS、Cassandra、HbaseD、以上说法都不对39.分区是kafka消息队列的最小单位40.agent组件中不包含哪个？（）A、sourceB、sinkC、channelD、broker41.在子类中重写超类的抽象方法时，你不需要使用override关键字42.spark是由以下哪个机构研发出来的（）A、阿里学院B、美国伯克利分校C、麻省理工大学D、复旦大学43.spark程序中由一个或多个以下哪个选项组成（）A、jobB、driverC、ageD、worker44.以下关于集合的说法哪个不正确（）A、Set是一组没有先后次序的值。B、Map是一组（键，值）对偶。C、List中的值是有先后次序的D、为了顾及安全性问题，Scala仅支持不可变集合而不支持可变集合。45.kafka是一个日志收集系统46.scala和java一样，变量都不可以懒加载47.以下对于操作说法正确的是vart=List（1，8，3，5，5）；println（t.filter{x=>x>3}）（）A、对不可变列表进行元素大于3的操作，返回新的列表List（8，5，5）并打印出来B、对不可变列表进行元素大于3的操作，返回过滤后的列表List（8，5，5）并打印出来，不产生新列表C、对可变列表进行元素大于3的操作，返回新的可变列表List（8，5，5）并打印出来D、对可变列表没有这个filter方法，编译错误48.scala中所有类的父类是下列哪个选项（）A、AnyB、AnyIntC、AnyRefD、AnyVal49.下面有关方法与函数的定义差别错误的是？（）A、方法是以def开头，函数的标志为=>B、Scala方法是类的一部分，而函数是一个对象可以赋值给一个变量C、Scala中使用val语句可以定义函数，def语句定义方法D、方法与函数可以互相转化，没有本质的区别。50.flume出现.BindException：？Cannot？assign？requested？address异常该怎样解决（）A、a1.sources.r1.type地址填写错误B、a1.sources.r1.bind地址填写错误C、a1.sources.r1.bin填写错误D、以上都不对51.以下对list的操作take说法正确的是vart=List（1，8，3，5，5）；println（t.take（2））（）A、打印列表的前2个元素，结果为List（1，8）B、打印列表的后2个元素，结果为List（5，5）C、打印列表的从下表2开始的所有元素，结果为List（3，5，5）D、以上答案都不对52.一定要在第一行调用主构造器53.对于元组valt=（1，3.14，"Fred"）说法不正确的是？（）A、t._0等于1B、t的类型为Tuple3[Int，Double，java.lang.String]C、val（first，second，_）=t//second等于3.14D、t._0无法访问，会抛出异常54.spark框架的API支持哪种语言进行开发（）A、javaB、pythonC、scalaD、go55.spark中的rdd是一个（）数据集A、弹性分布式B、弹性计算C、运送数据D、心跳56.下列选项中是spark组件的有？（）A、sparkcoreB、sparkstreamingC、GrophxD、sparksql57.storm和？spark？streaming？最大的区别？（）A、科学统计支持B、是否具有schemaC、是否是真正的实时计算框架D、不同公司的产品58.Scala结合了（）和函数式的编程语言A、面向对象B、对象过程C、非纯面向对象D、python59.与spark基于内存相比，mapreduce是基于（）运行的计算框架A、内存B、磁盘C、内存加磁盘D、网络60.sparkSql仅仅支持查询原生的RDD，其他方式的查询都不支持61.Spark架构提供了大量的库，其中包含SQL、DataFrames、MLlib、GraphX、SparkStreaming等架构62.以下可以作为消息组件的是（）A、redisB、kafkaC、rabbitMQD、monggdb63.在scala语言中String字符串中不可以应用插值器64.SparkStreaming支持的数据输入源包括如下那些选项？（）A、KafkaB、FlumeC、TwitterD、ZeroMQ和简单的TCP套接字65.使用大部分语言编写的程序都可以和kafka服务器通信66.下面选项中a的取值不一致的是？（）A、vala=3B、vala：Double=1+2C、vara=1；a+=2D、valb=1.+（2）；vala=b.toInt67.spark是由以下哪个大学研发出来的（）A、阿里学院B、美国伯克利分校C、麻省理工大学D、复旦大学68.scala和java一样，在for循环中都可以使用continue关键字69.spark架构中会出现控制算子的原因是以下哪个选项（）A、spark备份的安全原因B、spark用户的要求C、兼容hiveD、兼容hbase70.以下关于driver的特性说法正确的是（）A、foreachB、countC、mapD、flatmap71.hadoop架构中的主要用InputFormats进行数据切分，哪一个是默认值（）A、TextInputFormatB、KeyValueInputFormatC、SequenceFileInputFormatD、FileInputFormat72.以下有关Flume的叙述正确的是（）A、Flume是消息中间件B、Flume是日志收集系统C、Flume是缓冲组件D、以上都不对73.spark支持的分布式部署方式中哪个是错误的（）A、standaloneB、sparkonmesosC、sparkonYARND、sparkonlocal74.下面哪个端口不是spark自带服务的端口（）A、8080B、8090C、18080D、404075.在scala中，以下哪些属于动作算子（）A、foreachB、reduceC、countD、map第2卷一.参考题库(共75题)1.关于高阶函数描述错误的是：（）A、在程序中应该首先被定义的函数B、将函数作为参数其他函数的参数使用C、执行时间长的函数D、函数的方法体比较长2.spark中cache算子是（）的算子A、延迟执行B、立即执行C、等待执行D、陈列执行3.数组的下标从1开始4.类默认是（）级别的A、publicB、privateC、protectedD、以上都不是5.下面算子中哪些是转换算子（）A、cacheB、countC、mapD、flatMap6.spark架构中哪些架构可以相互转化（）A、sparkcoreB、sparksqlC、sparkstreamingD、sparkR7.Scala中，Object相当于class的一个实例，通常在里面放一些静态的（）A、FieldB、MethodC、管理块服务器D、Source8.spark的组件不包含哪个（）A、sparkcoreB、hdfsC、GraphxD、sparkstreaming9.spark中persist算子具有以下哪个特性（）A、懒执行B、立即执行C、一致性D、冗余性10.在Linux中文件权限读、写、执行的三种标志符号依次是（）A、xrwB、rwxC、rdxD、srw11.在linux中，文件exer1的访问权限为rw-r--r--，现要增加所有用户的执行权限和同组用户的写权限，下列命令正确的是（）A、chmod？a+x，？g+w？exer1B、chmod？775？exer1C、chmod？765exer1D、chmod？g？w？exer112.Flume有两个主要的版本，目前使用的版本是哪个（）A、NG版本B、OG版本C、DG版本D、MG版本13.以下是spark中的转换算子作用的是（）A、使程序在内存中运行B、使程序触发执行C、使程序具有一致性D、使程序具有安全性14.spark中cache算子和persist算子的关系（）A、_useDiskB、_useMemoryC、_useOffHeapD、_useDes15.spark架构中cache算子应具有以下哪些特性？（）A、spark？coreB、spark？streamingC、GrophxD、spark？sql16.groupByKey算子在一个（K，V）的RDD上调用，返回一个（K，Iterator[V]）的RDD17.Rdd不能够转换成DataFrame18.下面那个说法正确对于flume必须运行在哪个jdk之上（）A、jdk1.6B、jdk1.7C、jdk1.8D、jdk1019.以下关于特质的说法错误的是？（）A、类可以实现任意数量的特质。B、特质可以要求实现它们的类具备特定的字段、方法或超类。C、与Java接口（Interface）相同，Scala特质也可以提供方法和字段的实现。D、当将多个特质叠加在一起时，顺序很重要——其方法先被执行的特质排在更后面。20.spark中一个action算子对应一个（）A、jobB、taskC、driverD、stage21.对于以下2个列表的操作，下面那些说法说法正确vart=List（1，2，3）vart2=List（4，5）（）A、vart3=t++t2得到List（1，2，3，4，5）B、vart3=List.concat（t，t2）得到List（1，2，3，4，5）C、vart3=t：：：t2得到List（1，2，3，4，5）D、vart3=t.：：：（t2）得到List（4，5，1，2，3，）22.spark是哪个大学研发出来的（）A、阿里学院B、美国伯克利分校C、麻省理工大学D、复旦大学23.以下对list的操作distinct说法正确的vart=List（1，8，3，5，5）println（t.distinct）（）A、distinct为去重操作，返回一个新的结果为List（1，8，3，5）B、distinct为去重操作，返回的是在原基础的列表List（1，8，3，5）C、List为可变列表，没有这个distinct方法返回，编译出现错误的是一个新的去重的新的可变列表ListD、List为可变列表，返回的是一个新的去重的新的可变列表List（1，8，3，5）24.下面输出结果为objectYs{defadd（i：Int）（implicity：Int=100）：Int=i+ydefmain（args：Array[String]）：Unit={implicitvalabc：Int=300varadd2=add（2）；println（add2）}}（）A、102B、302C、103D、10525.scala中String类没有插值器的概念26.sortWith会将所给的对象进行给定升降序排序，请说出下列程序输出结果为vala3=Array（4，5，100，7）B22valcs=a3.sortWith（_>_）；for（jA、100754B、457100C、754100D、54100727.SCALA有以下哪些特点？（）A、Scala是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性B、Scala运行在Java虚拟机上，并兼容现有的Java程序C、Scala源代码被编译成Java字节码，所以它可以运行于JVM之上，并可以调用现有的Java类库D、SCALA语言简洁优雅大方，很多大数据底层框架采用scala去实现与编程28.SparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用29.附属构造器，名称一定是this，参数不能带val或var30.只有主构造函数才可以写参数31.下列数组定义与其他一致的是？（）A、vala=Array[Int]（0，0）B、vala=Array（0，0）C、vala=newArray[Int]（2）D、vala=Array[Int]（1，1）32.objectTest4{defadd（i：Int）（implicity：Int=100）：Int=i+ydefmain（args：Array[String]）：Unit={implicitvalabc：Int=300implicitvala：Double=300.0varadd2=add（2）（101）；println（add2）}}（）A、102B、103C、302D、编译出现错误，有3个相同类型的隐式值33.以下哪些属于数值类型？（）A、IntB、StringC、FloatD、Long34.spring中关于bean的说法正确的是（）A、rdd是由一组partition够成的B、rdd之间都是独立的，没有依赖C、算子作用在partition上D、每个rdd都会提供一批最优的计算位置35.在以下哪个jdk上面可以正常运行Flume（）A、jdk1.5B、jdk1.4C、jdk1.3D、jdk1.636.以下语句的运行结果为varj=2；vari=0；while（iA、4B、8C、16D、3237.hdfs默认的备份数量（）A、1B、2C、3D、438.在scala中使用那个关键字定义方法（）A、defB、mainC、objectD、class39.对于以下列表的操作，那些说法说法正确varc=List（1，2，3，4，5，99，101）vargs=c.count（_>3）（）A、变量gs的结果为4B、count表示按照括号内的函数进行计算，本题表示在列表中元素大于3的个数计算C、count表示按照括号内的函数进行求和计算，本题表示在列表中元素大于3的个数求合计，其结果为299D、以上答案都不对40.下面对于for循环说法正确的是？（）A、以def开头B、参数类型必须指定C、返回值类型可以不指定D、最后一行为返回值41.standalone架构是spark架构内部集成的（）A、任务调度框架B、任务模式C、资源调度框架D、任务整合42.spark生态圈不能进行实时计算43.scala语言中可以使用breakable和break关键字来实现java中的continue功能44.以下关于sparkstreaming说法正确的是（）A、sparkstreaming分布式微批架构B、sparkstreaming实时存储架构C、sparkstreaming是普通存储架构D、sparkstreaming分布式实时计算架构45.Spark是在Scala语言中实现的，它将Scala用作其应用程序框架46.以下有关集合的说法中，其中正确的是（）A、List集合中数据可以重复B、Set集合中数据可以重复C、Map集合是键值对的形式存储的数据D、Set集合和List集合没有区别47.val：声明不可变的变量48.spark框架中，机器学习库的框架是哪个（）A、hadoopB、spark？streamingC、mlbaseD、RDD49.spring的核心控制器是ActionServlet50.以上是spark组件的是？（）A、基于standalone模式到的运行B、基于yarn的运行模式C、基于mesos模式的运行D、基于java的运行模式51.Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab52.reduceRight通过如下程序块其输出结果为varlist=List（1，2，99，4，100）varjs=list.reduceRight（_max_）println（js）（）A、10B、-2C、-8D、以上答案都不对53.scala语言中，关于List的定义。不正确的是？（）A、vallist=List（1，2，3）B、vallist=List[Int]（1，2，3）C、vallist=List[String]（‘a’，’b’，’c’）D、vallist=List[String]（）54.在scala中对于以下2个列表的操作，那些说法说法正确vart=List（1，2，3）vart2=List（4，5）（）A、vart3=t++t2得到List（1，2，3，4，5）B、vart3=List.concat（t，t2）得到List（1，2，3，4，5）C、vart3=t：：：t2得到List（1，2，3，4，5）D、vart3=t.：：：（t2）得到List（1，2，3，4，5）55.有关构造器的说法那些不正确？（）A、下面直接在class后面申明的定义为类中的主构造器classUser（varx：Int，age：Int）{}B、类可以有任意多个辅构造器C、每一个辅构造器必须先实现主构造器的方法D、像只有一个主构造器一样，也只能有一个辅构造器56.以下关于rdd的特性说法错误的是（）A、rdd是仅仅由一组partition够成的B、rdd之间都是独立的，没有依赖C、算子作用在partition上D、每个rdd都会提供一批最优的计算位置57.storm和sparkstreaming最大的区别（）A、科学统计支持B、是否具有schemaC、是否是真正的实时计算框架D、不同公司的产品58.zookeeper具有以下哪几种节点（）A、临时序列化节点B、临时节点C、持久化节点D、持久序列化节点59.join算子在类型为（K，V）和（K，W）的RDD上调用，返回一个相同key对应的所有元素对在一起的（K，（V，W））的RDD60.kafka主要组成部分是source、sink和channel61.Kafka是由哪个组织研的组件（）A、googleB、apacheC、sunD、oracle62.DataFrame支持如下那种风格（）A、易整合B、统一的数据访问方式C、兼容HiveD、标准的数据连接63.spark中的图计算框架是（）A、sparkcoreB、sparkstreamingC、mlbaseD、Grophx64.sparkSql可以访问hive数据，并将其结果取回作为RDD使用65.以下选项组合后能够执行spark程序的是，换句话说spark程序计算结果必须包含哪几个算子？（）A、转换算子，action算子B、转换算子，控制算子C、转换算子，tracform算子D、转换算子66.flume在大数据架构中的作用是（）A、监测收集数据B、处理数据C、计算数据D、存储数据67.在Spark中以下算子属于执行算子的是（）A、mapB、foreachC、flatmapD、join68.spark中map算子具有以下哪个特性（）A、懒执行B、立即执行C、一致性D、冗余性69.只有主构造函数才可以写参数，进行参数的初始化70.sparkSql是基于hive的71.hadoop中的hdfs是分布式（）A、计算框架B、存储系统C、中介系统D、网络系统72.下面哪个不是RDD的特点（）A、可分区B、可序列化C、可修改D、可持久化73.下面有关集合说法错误的是？（）A、Set是最简单的一种集合。集合中的对象不按特定的方式排序，并且没有重复对象B、Map是一种把键对象和值对象映射的集合，它的每一个元素都包含一对键对象和值对象C、元组是不同类型的值的集合D、元组下标与别的一样也是从0开始74.在scala中Int类型是几个字节（）A、1B、2C、3D、475.Scala异常处理：（）A、Case匹配的方式处理B、Throw出去

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2024年知识竞赛-大数据智能办公系统知识笔试考试历年高频考点试题摘选含答案

文档简介

温馨提示

最新文档

评论

2024年知识竞赛-大数据智能办公系统知识笔试考试历年高频考点试题摘选含答案

文档简介

温馨提示

最新文档

评论

相关文档