大数据题库-大数据技术与工具练习试题及答案_第1页
大数据题库-大数据技术与工具练习试题及答案_第2页
大数据题库-大数据技术与工具练习试题及答案_第3页
大数据题库-大数据技术与工具练习试题及答案_第4页
大数据题库-大数据技术与工具练习试题及答案_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页大数据题库-大数据技术与工具练习试题及答案1.下列关于ZooKecper特点的描述错误的是()。A、复杂性B、自我复制C、顺序访问D、高速读取【正确答案】:A解析:

ZooKeeper的设计回标和特点包括简单性、自我复制、顺序访问和高速读取。2.下列组件中MapReduce编程模型中最后执行的是()。A、MapperB、PartitionerC、ReducerD、RecordReader【正确答案】:C解析:

MapReduce编程模型中四个组件的执行顺序是RecordReader→MapperPartitioner→Reducer。3.MapReduce任务Map输出结果将被写入()。A、HDFS文件系统B、新的记录文件C、磁盘(Linux文件系统)D、主数据库【正确答案】:C解析:

MapReduce中的Map输出结果会被写入对应的磁盘中。4.在MapReduce中,通常将Map拆分成M个片段、Reduce拆分成R个片段,下列描述错误的是()。A、MapReduce中单台机器上执行大量不同的任务可以提高集群的负载均衡能力B、Master必须执行O(M+R)次调度C、Master在内存中保存O(M+R)个状态D、M和R要比集群中Worker数量多【正确答案】:C解析:

master必须执行O(M+R)次调度,并且在内存中保存O(MXR)个状态,故C错。5.SparkJob默认的调度模式是()。A、FIFOB、FAIRC、无D、运行时指定【正确答案】:A解析:

默认情况下Spark的调度模式是FIFO(先进先出)。6.执行一个job,如果这个job的输出路径已经存在,那么程序会()。A、覆盖这个输出路径B、抛出警告,但是能够继续执行C、抛出一个异常,然后退出D、创建一个新的输出路径【正确答案】:C解析:

MapReduce编程模型中的输出目录必须是不存在的目录,否则程序抛出异常并且退出运行。7.MapReduce对map()函数的返回值进行处理后再返回给reduce()函数的目的是()。A、减少map()函数和reduce()函数之间的数据传输B、优化map()函数C、优化reduce()函数D、这一步骤并无必要【正确答案】:A解析:

为了降低map()函数与reduce()函数之间的数据传输量,一般先对map()函数的输出结果进行处理。8.Hadoop生态系统中,HBase是一种()。A、分布式文件系统B、数据仓库C、实时分布式数据库D、分布式计算系统【正确答案】:C解析:

HBase是一个面向列的实时分布式数据库。9.下列关于DataNode的描述错误的是()。A、DataNode负责处理文件系统客户端的文件读写请求B、DataNode进行数据块的创建、删除和复制工作C、集群中的DataNode一般是一个节点一个D、文件的副本系数由DataNode储存【正确答案】:D解析:

文件副本的数目称为文件的副本系数,这个信息是由NameNode保存的。10.大数据平台构建分布式文件系统、分布式数据仓库、非关系型数据库、关系型数据库,实现各类数据的集中存储与统一管理,满足()存储需求。A、历史数据B、离线数据C、实时数据D、多样化数据【正确答案】:D解析:

大数据平台构建分布式文件系统、分布式数据仓库、非关系型数据库、关系型数据库、实现各类数据的集中存储与统一管理,满足多样化数据存储需求。11.Spark中引人RDD概念的目的是()。A、数据存储B、数据查重C、提升容错能力D、增强数据一致性【正确答案】:C解析:

在Spark中引入RDD概念的目的是实现Spark的并行操作和灵活的容错能力。12.通常落伍者是影响MapReduce总执行时间的主要影响因素之一,为此MapReduce采用()机制来解决。A、分布式计算B、惰性计算C、推测性执行的任务备份D、先进先出【正确答案】:C解析:

MapReduce采用推测性执行的任务备份机制,当作业中大多数的任务都已经完成时,系统在几个空闲的节点上调度执行剩余任务的备份,并在多个Worker上同时进行相同的剩余任务。13.一个MapReduce程序中的MapTask的个数由()决定。A、输入的总文件数B、客户端程序设置的mapTask的个数C、FileInputFormat.getSplits(JobContextjob)计算出的逻辑切片的数量D、输入的总文件大小/数据块大小【正确答案】:C解析:

MapReduce编程模型中的MapTask的并行度决定机制是由FilelnputFormat.getSplits(JobContextjob)决定的。该方法的返回值是List<InputSplit>splits,这个结果集合中的每个InputSplit就是一个逻辑输入切片,每个逻辑输入切片在默认情况下是会要启动一个MapTask任务进行计算的,因此C对。14.在HDFS中,()是文件系统的工作节点。A、DataNodeB、ClientC、NameNodeD、Flume【正确答案】:A解析:

数据节点(DataNode)是分布式文件系统HDFS的工作节点,负责数据的存储读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定发送自己所存储的块的列表,每个数据节点中的数据会被保存在各自节点本地Linux文件统中。15.解决Master故障的方法是设置检查点,当Master失效时,从()检查点开)动另一个Master进程。A、第一个B、中间一个C、最后一个D、随机选择一个【正确答案】:C解析:

从最后一个检查点开始启动另-Master进程使得因故障产生的影响更小。16.()不是HDFS的设计目标。A、流式数据访问B、大规模数据集C、移动计算D、多次写入,多次读取的文件访问模型【正确答案】:D解析:

HDFS的设计以一次写入,多次读取为主要应用场景,因此D错。17.MapReduce使用()来记录不同事件的发生次数。A、日志B、事件触发器C、状态列表D、计数器【正确答案】:D解析:

MapReduce使用计数器来记录不同事件的发生次数。18.下列关于HDFS的描述正确的是()。A、如果NameNode宕机,SecondaryNamcNode会接替它使集群继续工作B、HDFS集群支持数据的随机读写C、NameNode磁盘元数据不保存Block的位置信息DataNode通过长连接与NameNode保持通信【正确答案】:C解析:

SccondaryNameNode并不是NameNode节点的备份,所以A错;存储在HD集群上的数据是不支持随机修改和删除的,只支持追加,所以B错;NanNode和DataNo之间的通信是基于一种心跳机制,该机制不是长连接是短连接形式,每次发送一个数据(自身状态信息+数据块信息)即可,所以D错。19.Hadoop中,Reducer的三个步骤是()。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort--Shuffle-Reduce【正确答案】:A解析:

Reducer主要分为Shuffle洗牌、Sort排序和Reduce三个步骤。20.Spark中Job的划分依据是()。A、依赖B、Action算子C、Transformation算子【正确答案】:B解析:

Action的触发会生成一个Job,Job会提交给DAGScheduler分解成Stage。因Job是由Action算子划分的,B正确。21.分布式应用程序可以基于分布式应用程序协调服务实现同步服务,配置维护和命名服务等的工具是()。A、FlumeB、ZookeeperC、StormD、SparkStreaming【正确答案】:B解析:

Zookeeper和Chubby均是分布式协调服务。22.相对于HadoopMapRcducel.0,Spark的特点不包括()。A、速度快B、并发多C、通用性D、易用性【正确答案】:B解析:

相较于HadoopMapReduce,Spark的特点为速度快、通用性和易用性。23.RDD中的数据被()在集群中,使得任务可以并行执行。A、顺序存储B、连续存储C、分块存储D、分区存储【正确答案】:D解析:

RDD为分区存储。24.()的主要目标是提供可扩展的机器学习算法及其实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。A、MahoutB、FlumeC、SqoopD、HBase【正确答案】:A解析:

Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,如聚类、分类、推荐过滤、频繁子项挖掘等。25.在MapReduce中,为了发现Worker故障,Master周期性进行的操作是()。A、JoinB、PingCheckD、Connect【正确答案】:B解析:

为了发现Worker故障,Master周期性进行Ping操作。26.下列进程中不是HDFS的守护进程的是()。A、SecondaryNameNodeB、DataNodeC、MRAppMaster/YamChildD、NameNode【正确答案】:C解析:

NameNode是HDFS集群的主节点,DataNode是HDFS集群的从节点,SecondaryNameNode是HDFS集群启动的用来给NameNode节点分担压力的角色,这个三个服务进程会一直启动着。MRAppMaster/YarnChild进程是只有在YARN集群运行了MapReduce程序之后才会启动的程序。27.下列描述中不属于HDFS集群中的NameNode职责的是()。A、维护HDFS集群的目录树结构B、维护HDFS集群的所有数据块的分布、副本数和负载均衡C、负责保存客户端上传的数据D、响应客户端的所有读写数据请求【正确答案】:C解析:

NameNode是HDFS的管理节点,DataNode是HDFS集群的工作节点。所以用户上传的数据是由DataNode进行保存的;NameNode负责保存用户上传的数据的元数据和维护HDFS的抽象目录树结构,也会响应客户端的所有读写请求。28.在Spark中,()是指RDD的每个分区都只被子RDD的一个分区所依赖。A、子分区B、父分区C、宽依赖D、窄依赖【正确答案】:D解析:

窄依赖定义。29.()肯定是宽依赖操作。A、mapB、flatMapC、reduceByKeyD、sample【正确答案】:C解析:

Spark中常见的窄依赖操作包括map、filer、union、sample等,宽依赖操作包括reduceByKey、groupByKey、join等。30.()主要提供内存计算框架。A、Spark核心层B、资源管理层C、服务层D、Spark层【正确答案】:A解析:

Spark的技术架构可以分为资源管理层、Spark核心层和服务层三层。资源管理层主要提供资源管理功能;Spark核心层主要提供内存计算恒架;服务层主要提供面向特定类型的计算服务。31.DataFrame和RDD最大的区别是()。A、科学统计支持B、DataFrame多了schemaC、存储方式不一样D、外部数据源支持【正确答案】:B解析:

相比于RDD,DataFrame多了数据的结构信息,即schema。32.HBase依靠()提供强大的计算能力。A、ZooKeeperB、ChubbyC、RPCD、MapReduce【正确答案】:D解析:

Chubby是分布式协调系统,类似于ZooKecper。RPC(RemoteProcedureCall)是远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。HBase依靠MapReduce提供强大的计算能力。33.()负责HDFS数据存储。A、NameNodeB、JobTrackerC、DataNodeD、SccondaryNameNode【正确答案】:C解析:

DataNode负责HDFS的数据块存储。34.()用于对RDD中的数据进行计算。A、分区B、算子C、日志D、数据块【正确答案】:B解析:

算子是Spark中定义的函数,用于对RDD中的数据进行操作、转换和计算。35.()不是Spark服务层的功能。A、SQL查询B、实时处理C、机器学习D、内存计算【正确答案】:D解析:

Spark服务层主要提供面向特定类型的计算服务。如SQL金询、实时处理、机器学习以及图计算。36.在MapReduce计算架构中,()组件运行在DataNode上,具体管理本节点计算任务的执行。A、ClientB、JobTrackerC、TaskTrackerD、Task【正确答案】:C解析:

TaskTracker组件运行在DataNode上,具体管理本节点计算任务的执行。37.下列操作中MapReduce的Shuffle阶段最后做的是()。A、溢写B、分区C、排序D、合并【正确答案】:D解析:

MapReduce编程模型分为Mapper和Reducer阶段,在Mapper和Reducer的中间还有一个Shuffle阶段。Shuflle中的执行顺序是先分区,然后在溢写之前进行排序,最后治出的多个磁盘文件会进行合并成一个大文件。38.()不是RDD的缓存方法。A、persistB、cacheC、memoryD、以上答案都正确【正确答案】:C解析:

RDD的缓存方法包括persist和cache.其中cache方法默认存储到内存中。39.()是Spark的核心数据结构。A、弹性分布式数据集B、列表C、元组D、字典【正确答案】:A解析:

弹性分布式数据集(RDD)是Spark的核心数据结构。40.为了降低MapRcduce两个阶段之间的数据传递量,一般采用()函数对map阶段的输出进行处理。A、sort()B、combiner()C、join()D、gather()【正确答案】:B解析:

为了降低数据传递量,采用combiner()函数对map()函数的数据结果进行合并处理。41.下列数据类型Hive不支持的是()。A、StructB、IntC、MapD、Long【正确答案】:D解析:

Hive支持原生数据类型(TinyInt、Smalllnt、Int、BigInt、Boolean、Float、Double、String),也支持复杂数据类型(Map、Array、Struct、Union),不支持Long。42.HBase依靠()存储底层数据。A、HDFSB、HadoopC、MemoryD、MapReducc【正确答案】:A解析:

HBase位于结构化存储层,HDFS为HBase提供了高可靠性的底层存储支持。43.()通常与NameNode在一个节点启动。A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、JobTracker【正确答案】:D解析:

Hadoop的集群是基于master/slave模式,NameNode和JobTracker属于master,DataNode和TaskTracker属于slave,master只有一个,而slave有多个。SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常SecondaryNameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。JobTracker对应于NameNode,TaskTracker对应于DataNode。DataNode和NameNode是针对数据存放来而言的,JobTracker和TaskTracker是对于MapRcduce执行而言的。44.在Hadoop中,()是默认的InputFormat类型,它将每行内容作为新值,而将字节偏移量作为key。A、FilelnputFormatB、TextlnputFormatC、KeyValueTextInputFormatD、CombineTextInputFormat【正确答案】:B解析:

TextInputFormat是默认的InputFormat。每条记录是一行输入,键Key是LongWritable类型,存储该行在整个文件中的字节偏移量。45.MapReduce计算框架的输入数据结构是()。A、kcy-valucB、input-outputC、map-reduceD、key-column【正确答案】:A解析:

MapReduce计算框架的输入是键值对,即key-value。46.依托(),结合应用推进数据归集,形成统一的数据资源中心。A、全业务数据中心和数据平台B、营销基础数据平台和大数据平台C、全业务中心和营销基础数据平台D、全业务数据中心和大数据平台【正确答案】:A解析:

详见《国网互联网部关于加强数据管理的通知》(互联数据[2019]14号)。47.DAGScheduler的作用是()。A、负责分配任务B、负责调度Worker的运行C、负责创建执行计划D、负责清理执行完毕的任务【正确答案】:C解析:

Scheduler模块分为DAGScheduler和TaskScheduler两个部分。DAGScheduler负责创建执行计划;TaskScheduler负责分配任务并调度Worker的运行。48.Hive的数据最终存储在()中。A、HDFSB、HBaseC、RDBMSD、MctaStore【正确答案】:A解析:

Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统HDFS中。49.下列关于MapReduce计算框架中生成键值对的说法正确的是()。A、可以有相同的键,值必须唯一B、可以有相同的值,键必须唯一C、可以有相同的键,也可以有相同的值D、键和值都必须唯一【正确答案】:C解析:

键值对中的键和值并没有必然的联系,两者可以相同。50.当()时,可以不考虑RDD序列化处理。A、完成成本比较高的操作后B、执行容易失败的操作之前C、RDD被重复使用D、实时性要求高【正确答案】:D解析:

RDD的序列化处理主要在完成成本比较高的操作之后、执行容易失败的操作之前、当RDD被重复使用或者计算其代价很高时进行。51.在Hadoop中,()执行文件系统命名空间操作。A、DataNodeB、NameNodeC、JobTrackerD、TaskTracker【正确答案】:B解析:

NameNode在HDFS这种文件系统中充当着Master的角色,负责的功能有很多,比如文件系统目录管理(命名空间管理)、数据块管理、数据节点管理、租约管理、缓存管理等。52.Hadoop环境下HDFS系统中的NameNode实现的功能是()。A、管理文件系统的命名空间B、管理存储空间C、分配算力D、调控算法【正确答案】:A解析:

NameNode负责管理文件系统的命名空间。53.HBase是一种可伸缩、高可靠、高性能、分布式和面向()的动态模式数据库。A、列B、行C、行和列D、元组【正确答案】:A解析:

HBase支持的是列式存储。54.在Hadoop的分区阶段,默认的Partitioner是()。A、RangePartitionerB、PartitionerC、HashPartitionerD、用户自定义的Partitioner【正确答案】:C解析:

Hadoop中默认的Partitioner是HashPartitioner。55.Spark可以处理的数据任务包括()。A、数据流处理B、交互式处理C、图数据处理D、以上都是【正确答案】:D解析:

Spark可以很好地支持数据流计算、交互式处理、图计算等多种计算模式。56.在MapReduce中,reduce()函数可以将()值相同的输入进行合并处理A、inputB、keyC、valueD、number【正确答案】:B解析:

rcduce()函数根据key值合并value值。57.HDFS是Hadoop平台上的分布式文件系统,它是由()组成的。A、一个NameNode、一个SecondaryNamcNode和多个DataNodeB、一个DataNode、--个SecondaryNameNode和多个NameNodeC、多个NameNode、一个SecondaryNameNode和多个DataNodeD、一个NameNode、一个SecondaryNameNode和一个DataNode【正确答案】:A解析:

HDFS由一个NameNodc、一个SecondaryNamcNode和多个DataNode组成。58.下列关于Hadoop的说法错误的是()。A、它运行在通用硬件上B、它是Apache软件基金会(ASF)下的项目C、它是最好的实时流式数据处理框架D、Hadoop对数据的处理是有延迟的【正确答案】:C解析:

Hadoop不善于处理除批处理计算模式之外的其他计算模式,如流计算等。故C错。59.Spark比MapReduce快的原因不包括()。A、Spark基于内存迭代,而MapReduce基于磁盘迭代B、DAG计算模型比MapReduce更有效率C、Spark是粗粒度的资源调度,而MapReduce是细粒度的资源调度D、Spark支持交互式处理,MapReduce善于处理流计算【正确答案】:D解析:

A、B、C是Spark比MapReduce快的原因。MapReduce不善于处理除批处理算模式之外的其他计算模式,如流计算、交互式计算和图计算等。60.HBase使用一个()节点协调管理一个或多个RegionServer从属机。A、NameNodeB、DataNodeC、JobTrackerD、Master【正确答案】:D解析:

HBase中由一个Master节点负责协调管理一个或多个RegionServer从属机。61.为了提高系统性能,Spark采取惰性计算模式。下列关于惰性计算模式的描述正确的是()。A、执行Transformation操作时不会提交,只有执行Action操作时才会被提交到集群中开始被执行B、执行Action操作时不会提交,只有执行Transformation操作时才会被提交到集群中开始被执行C、只有执行完Action操作和Transformation操作时,所有操作才会被提交到集群中开始被执行D、执行完Action操作或Transformation操作时都不会提交到集群【正确答案】:A解析:

Spark惰性计算模式定义。62.下列关于Spark的说法错误的是()。A、采用内存计算模式B、可利用多种语言编程C、主要用于批处理D、可进行map()操作【正确答案】:C解析:

HadoopMapReduce主要用于批处理,与Hadoop不同的是,Spark更为通用--些,可以很好地支持流计算、交互式处理、图计算等多种计算模式。63.Hadoop中partition()函数代表的是()。A、分区函数B、特征函数C、算法函数D、排序函数【正确答案】:A解析:

partition()代表分区函数。64.大数据平台核心分布式存储与计算组件采用Hadoop技术体系中的分布式存储、分布式计算框架及Spark等开源产品和技术,实现对数据的安全控制和管理功能,其中分布式存储不包括()。A、HDFSB、PostgresqC、HiveD、HBase【正确答案】:B解析:

Postgresql并非分布式存储。65.下列关于Sqoop的说法不正确的是()。A、主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作B、数据导入导出通过MapReduce完成C、Sqoop具备MapReduce的并行化和容错性D、Sqoop的Reduce操作速度更快【正确答案】:D解析:

Sqoop是一个强大的工具,主要用来处理大量的数据传输,并不会影响Rey的操作速度。66.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是()。A、一次写入、少次读取B、多次写入、少次读取C、多次写入、多次读取D、一次写入、多次读取【正确答案】:D解析:

HDFS的设计以一次写入、多次读取为主要应用场景。67.Spark的特点不包括()。A、速度快B、通用性C、易用性D、单一操作性【正确答案】:D解析:

Spark是一个快速、通用和易于使用的计算平台。68.在MapReduce中,下列组件中用户不指定也不会有默认的是()。A、CombinerB、OutputFormatC、PartitionerD、InputFormat【正确答案】:A解析:

在MapReduce编程模型中,Combiner是可有可无的组件,它的作用是给MapTask的结果数据做局部合并以减少ReduceTask接收的数据量,以减少网络数据传输;OutputFormat的默认组件是TextOutputFormat;InputFormat的默认组件是TextInputFormat;Partitioner的默认实现是HashPartitioner。69.MapReduce编程模型,键值对<key,value>的kcy必须实现()接口。A、WritableComparableB、ComparableC、WritableD、LongWritable【正确答案】:A解析:

Hadoop为Key的数据类型,必须实现WritableComparable,而Value的数据类型只需要实现Writable即可。70.在Hadoop生态系统中,()建立在MapReduce之上,主要用来弥补MapReduce编程的复杂性。A、HbaseB、FlumeC、PigD、Sqoop【正确答案】:C解析:

Pig是对MapReduce编程复杂性的抽象,Pig平台包含用于分析Hadoop数据集的执行环境和脚本语言(PigLatin)。71.()是窄依赖操作。A、joinB、filterC、groupD、sort【正确答案】:B解析:

spark中常见的窄依赖操作包括map、filer、union、sample等,宽依赖的操作包括reduceByKey、groupByKey、join等。72.MapReduce默认的分区函数是()。A、hashB、diskC、reduceD、map【正确答案】:A解析:

MapReduce默认的分区函数是hash。73.HBase依靠()提供消息通信机制。A、ZooKeeperB、ChubbyC、RPCD、Socket【正确答案】:A解析:

ZooKeeper是一个高可用、高性能的分布式协调服务,为HBasc提供消息通借机制。74.RDD默认的存储级别是()。A、MEMORY_ONLYB、MEMORY_ONLY_SERC、MEMORY_ANDISKE、MEMORY_AND_DISK_SER【正确答案】:A解析:

RDD存储级别定义。75.MapReduce适用于()。A、任意应用程序B、任意可在WindowsServet2008上运行的程序C、可以串行处理的应用程序D、可以并行处理的应用程序【正确答案】:D解析:

MapReduce适用于并行处理的应用程序。

68

76.在HadoopMapReduce中,()是客户端需要执行的一个工作单元。A、InputB、JobClientD、Task【正确答案】:B解析:

MapReduce作业(Job)是客户端需要执行的一个工作单元,它包括输入数据、MapReduce程序和配置信息。77.在MapReduce中,下列描述错误的是()。A、Worker故障和Master故障的处理方法不相同B、Map和Reduce的处理结果都存储在本地文件系统C、一个Worker发生故障时,该节点上执行完的Map任务需要再次执行D、MapReduce具有很强的容错机制【正确答案】:B解析:

已经完成的Map任务的输出存储在本台机器上,Reduce任务的输出存储在全局文件系统上,故B错。78.HBase作为数据存储组件封装于大数据平台,用于()。A、关系型数据库存储B、分布式文件存储C、非关系型数据库存储D、列式存储【正确答案】:C解析:

HBase是列式存储,以流的方式在列中存储所有的数据。对于任何记录,索引者可以快速地获取列上的数据。列式存储主要用于非关系型数据库存储。79.为提高计算性能,Spark中Transformation操作采用的计算模式是()。A、活性计算模式B、惰性计算模式C、实时计算模式D、非实时计算模式【正确答案】:B解析:

Spark的所有Transformation操作采取的都是惰性计算模式。80.HBase的一个典型应用是Webtable,它是一个以网页()为主键的表。A、标题B、URLC、内容D、类别【正确答案】:B解析:

Webtable中,以网页URL为主键。81.下列关于Hadoop中MapReduce的说法正确的是()。A、可以没有Reduce任务B、Reducer输入为随机输入C、Shuffle主要实现数据可视化功能D、一个Reducer只能从一个Map复制所需要的partition【正确答案】:A解析:

MapReduce中的Reduce并不是必须存在的。82.在MapReduce中,下列描述错误的是()。A、经过map()函数的计算可以得出一个中间数据集B、map()函数是确定的,用户不可自定义C、对map()函数的返回值,进行--定的处理后才进入下个阶段D、map()函数的输入输出都是同一数据结构【正确答案】:B解析:

map()函数是由用户所自定义的。83.下列业务场景中,不能直接使用Reducer充当Combiner的是()。A、sum求和B、max求最大值C、count求计数D、avg求平均【正确答案】:D解析:

求平均需要对全部数据进行计算而非部分数据,在不更改业务逻辑的情况,使用Reducer充当Combiner,最终会造成业务结果不正确。84.客户端从HDFS上读取数据时会()。A、从NameNode上获取数据B、从DataNode上获取Block位置C、从NameNode上获取Block位置D、从NameNode上获取数据和Block位置【正确答案】:C解析:

NameNode保存数据Block的位置,DataNode保存数据。85.Spark的劣势是()。A、运算速度快B、业务实现需要较少代码C、提供很多现成函数D、需要更多机器内存【正确答案】:D解析:

Spark采用的是内存计算模式,需要的内存较多。86.下列关于新旧MapReduccAPI的描述错误的是()。A、新API放在org.apachB、hadoop.mapreduce包中,而旧API则是放在org.apachC、hadoop.mapred中D、新AP1倾向于使用接口方式,而旧API倾向于使用抽象类E、新API使用Configuration,而旧API使用JobConf来传递配置信息F、新API可以使用Job对象来提交作业【正确答案】:B解析:

在新API中,原来的大量接口都被改成了抽象类。所以使用新API编写MapReduce程序时,都是由实现接口变成抽象类,因此B错。87.在Hadoop生态系统中,()的主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作。A、HDFSB、FlumeC、HiveD、Sqoop【正确答案】:D解析:

Sqoop主要用于在Hadoop与传统的数据库问进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。88.下列关于SecondaryNameNode的说法正确的是()。A、它是NameNode的热备B、它对内存没有要求C、它的目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间D、SecondaryNameNode应与NameNode部署到一个节点【正确答案】:C解析:

SccondaryNameNodc是给NamcNode减轻压力的角色,工作职责就是定期合并磁盘元数据文件为序列化的镜像文件,即帮助NameNode合并编辑日志以减少NameNode冷启动时需要加载元数据的时间。在合并的时候也需要把之前的元数据都加载到内存,所以对内存也有一定的依赖,即不能和NamcNodc启动在同--个节点,否则就起不到任何减轻压力的作用。89.()计算框架源自--种分布式计算模型,其输入和输出值均为键值对结构。A、MahoutB、MapReduceC、SparkD、Sqoop【正确答案】:B解析:

MapReduce定义。90.下列不属于Transformation操作的是()。A、mapB、filterC、sampleD、count【正确答案】:D解析:

Transformation常用函数为map、filter、flatMap、sample、union、join等。91.下列关于MapReduce说法不正确的是()。A、MapReduce是一种计算框架B、MapRcduce来源于Google的学术论文C、MapReduce程序只能用java语言编写D、MapReduce隐藏了并行计算的细节,方便使用【正确答案】:C解析:

MapReduce程序可用多种语言编写,如Ruby、Python、Java等。92.Spark核心层主要关注的问题是().A、存储B、计算C、传输D、连接【正确答案】:B解析:

Spark核心层定义,Spark核心层主要关注计算问题。93.()负责MapReduce任务调度。A、NameNodeB、JobtrackerC、TaskTrackerD、SecondaryNameNode【正确答案】:B解析:

Jobtracker负责MapRcduce任务调度,TaskTracker负责任务执行。94.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正确答案】:B解析:

Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三种。95.下列不属于Action操作的是()。A、collectB、filterC、reduceD、count【正确答案】:B解析:

Action常用的函数为reduce、collect、count、take、first、foreach等。96.HadoopMapReducc2.0中,()负资资源的管理和调度。A、JobTrackerB、YARNC、TaskTrackerD、ApplicationMaster【正确答案】:B解析:

Hadoop2.0比起Hadoop1.0来说,最大的改进是加入了资源调度框架YARN,负贵资源的管理和调度。97.下列关于HDFS特征的说法错误的是()。A、支持超大文件B、基于商用硬件C、流式数据访问D、低吞吐量【正确答案】:D解析:

HDFS设计中重视数据的高吞吐量,因此其数据吞吐量高,但也造成了其数据延迟访问的特征。98.Spark的()组件用于支持实时计算需求。A、SparkSQLB、SparkStreamingC、SparkGraphXD、SparkMLLib【正确答案】:B解析:

SparkStreaming组件用于实时处理。99.下列关于Hive说法正确的是()。A、一种数据仓库工具B、一种数据处理工具C、一种可视化工具D、一种分析算法【正确答案】:A解析:

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。100.大数据平台技术架构不包含()。A、数据整合B、数据存储C、数据计算D、数据溯源【正确答案】:D解析:

利用大数据平台可以实现数据整合、数据存储、数据计算等技术,无法实现数溯源。1.ApacheFlume主要解决的是日志数据的收集和处理问题,Flume的主要设计目的和特征包括()。A、高可靠性B、可扩展性C、管理复杂D、不支持用户自定义【正确答案】:AB解析:

Flume的主要设计目的和特征包括高可靠性、可扩展性、支持方便管理、支持用

户自定义2.在Hive架构中,支持的数据操作有()。A、插入B、查询C、删除D、分析【正确答案】:BD解析:

Hive提供简单的HiveQL查询、分析功能,可以较好地满足基于数据仓库的统计分析需要。3.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力,如下感于分布式存储组件的有()。A、MapReduceB、SparkC、HDFSD、HBasc【正确答案】:CD解析:

MapRcduce和Spark的核心功能是分布式计算。4.Spark的组件包括()。A、SparkStreamingB、MLibC、GraphXD、SparkR【正确答案】:ABC解析:

Spark的组件包括SparkSQL、SparkStreaming、MLid、GraphX。5.Spark容错性的方式有()。A、数据检查点B、存储原始数据C、记录数据的更新D、自建数据版本【正确答案】:AC解析:

Spark容错性有数据检查点和记录数据的更新两种方式。6.MapReduce中运行程序副本程序的机器有()。A、Map服务器B、Master服务器C、Worker服务器D、Reduce服务器【正确答案】:BC解析:

MapRcduce中,运行程序副本程序的机器分为Master服务器和若干个Worker服务器两类。7.下列关于HBase的说法正确的有()。A、面向列的数据库B、非结构化的数据库C、支持大规模的随机、实时读写D、采用松散数据模型【正确答案】:ABCD解析:

HBase是非结构化的、多版本的、面向列和开源的数据库;HBase提供了对大模数据的随机、实时读写访问;从存储模型看,HBase采用的是松散数据模型。8.相对于HadoopMapReduce,Spark的特点有()。A、通用性B、易用性C、速度快D、容错性【正确答案】:ABC解析:

相对于HadoopMapReduce,Spark的特点包括速度快、通用性和易用性。9.Hadoop组件Zookeeper的设计目标和主要特点包括()。A、简单性B、自我复制C、顺序访问D、高速读取【正确答案】:ABCD解析:

ZooKeeper的设计目标和特点包括简单性、自我复制、顺序访问和高速读取。10.下列服务中可以用于存储数据的有()。A、MapReduceB、YARNC、HBaseD、HDFS【正确答案】:CD解析:

MapReduce是计算模型;YARN是通用资源管理系统;HBase是动态模式数据库;HDFS是Hadoop分布式文件系统,是数据存储的基础。11.下列关于MapReduce1.0版本的说法正确的有()。A、扩展性差B、可靠性差C、资源利用率低D、无法支持多种计算框架【正确答案】:ABCD解析:

MapReducel.0存在的局限性包括扩展性差、可靠性差、资源利用率低、无法支持多种计算框架。12.Hadoop的HDFS是一种分布式文件系统,其适合()的数据存储和管理。A、大量小文件存储B、高容错、高吞吐量C、低延迟读取D、流式数据访问【正确答案】:BD解析:

HDFS不适合小文件存储,HDFS的读取操作相比于传统的数据库延迟较高,不适合低延迟读取。13.Hadoop的优点包括()。A、可其性B、高效性C、可伸煽性D、成本低【正确答案】:ABCD解析:

Hadoop的优点包括可靠性、高效性、可伸缩性和成本低。14.下列关于Pig的说法正确的有()。A、Pig的主要目的是弥补MapReduce编程的复杂性B、Pig的核心是一种数据分析语言C、Pig程序的结构适合串行处理D、Pig主要包含PigLatin和Pig执行环境两部分【正确答案】:ABD解析:

Pig程序的结构适合并行处理。15.下列有关MapReduce计算框架的描述正确的有()。A、MapReduce可以计算任务的划分和调度B、MapReduce可完成数据的分布存储和划分C、MapReduce可以实现处理系统节点出错检测和失效恢复D、MapReduce可实现处理数据与计算任务的同步【正确答案】:ABCD解析:

根据MapReduce定义可得,A、B、C、D都可以实现。16.Spark的技术架构可以分为()。A、资源管理层B、Spark核心层C、应用层D、服务层【正确答案】:ABD解析:

Spark的技术架构可以分为资源管理层、Spark核心层和服务层三层。17.Hadoop运行的模式包括()。A、单机版B、伪分布式C、分布式D、全分布式【正确答案】:ABC解析:

Hadoop运行模式包括单机版、伪分布式和分布式。18.下列关于Pig的说法正确的有()。A、弥补MapReduce编程复杂性B、封装MapReduce处理过程C、PigLatin是一种数据分析语言D、适用于并行处理【正确答案】:ABCD解析:

Pig建立在MapRcduce之上,主要目的是弥补MapRcduce编程的复杂性;Pig较好地封装了MapReduce的处理过程;PigLatin是数据分析的描述语言;Pig的结构适用于并行处理。19.Spark中的Scheduler模块可以分为()。A、DAGSchcdulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正确答案】:AC解析:

Scheduler模块分为DAGScheduler和TaskScheduler两个部分。20.下列关于Hive的说法正确的有()。A、Hive是基于Hadoop的数据仓库工具B、Hive可以将结构化的数据文件映射为一张数据库表C、最初,Hive由Google开源,用于解决海量结构化日志数据统计问题D、Hive的主要应用场景是离线分析【正确答案】:ABD解析:

Hive不是由谷歌提出和开源的,谷歌提出的三大核心技术是GFS、BigTable、MapReduce。21.MapReduce对map()函数的返回值处理后才传给reduce()函数,其中涉及的操作有()。A、合并B、排序C、分区D、抽样【正确答案】:ABC解析:

分别涉及Shuffle(排序)、Combiner(合并)和Partition(分区)操作。22.在数据科学中,计算模式发生了根本性的变化-从集中式计算、分布式计算、网格计算等传统计算过渡至云计算,有一定的代表性的是Google云计算三大技术,这三大技术包括()。A、HadoopYARN资源管理器B、GFS分布式存储系统C、MapReduce分布式处理技术D、BigTable分布式数据库【正确答案】:BCD解析:

Google云计算的三大核心技术为GFS、MapReduce和BigTable。HadoopYARN资源管理器属于Hadoopo23.Spark2.0提供的应用库包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正确答案】:ABCD解析:

Spark2.0提供的应用库包括SparkSQL、SparkStreaming、MLib、GraphX。24.Spark的基本流程主要涉及()等角色。A、DriverProgramB、ClusterManagerC、WorkerNodeD、Executor【正确答案】:ABCD解析:

Spark的基本流程主要涉及DriverProgram(驱动程序)、Spark-Context、ClusterManage(集群管理器)、WorkerNode(工作节点)、Executor(执行器)和Cache(缓存)等角色。

-.25.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正确答案】:ABCD解析:

可以将MapReducc的工作流程概括为4个独立的实体。4个实体分别为:①Client,用来提交MapRcduce的作业。编写MapRcducc程序,配置作业,提交作业,即需程序员完成的工作。②JobTracker,用来协调作业的运行。与TaskTracker通信,协调整个作业的执行。③TaskTracker,用来处理作业划分后的任务。保持与JobTracker的通信,在分配的数据片段上执行Map或Reduce任务,TaskTracker和JobTracker的不同有个很重要方面,就是在执行任务的时候TaskTracker可以有n个,JobTracker则只会有一个。④HDFS,用来在其他实体间共享作业文件。保存作业的数据、配置信息等,最后的结果也是保存在HDFS上面。26.在Spark中,弹性分布式数据集的特点包括()。A、可分区B、可序列化C、可直接修改D、可持久化【正确答案】:ABD解析:

RDD不可修改。27.Hadoop框架的缺点有()。A、MapReduce编程框架的限制B、过多的磁盘操作,缺乏对分布式内存的支持C、无法高效支持迭代式计算D、不支持多用户写入和任意修改文件【正确答案】:ABCD解析:

以上四项都为Hadoop的缺点。28.Spark支持的计算模型有()。A、批处理B、实时计算C、机器学习模型D、交互式查询【正确答案】:ABCD解析:

Spark支持的计算模型有批处理、实时计算、机器学习模型、交互式查询。29.HBase中KeyValue数据的存储格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正确答案】:A解析:

HBase中KeyValue数据的存储格式是HFile。30.下列属于HBasc性能优化的有()。A、读优化B、写优化C、配置优化D、JVM优化【正确答案】:ABCD解析:

HHBase性能优化包含读优化、写优化、配置优化、JVM优化。31.下列关于HadoopMapReduce的描述正确的有()。A、reduce()函数的输入是value集B、reduce()函数将最终结果写到HDFS系统中C、用户可以自己定义reduce()函数D、reduce()函数的输入数据是经过map()函数处理之后的数据【正确答案】:BCD解析:

reduce()函数的输入是key-value集。32.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkonYARN模式D、SparkonMesos模式【正确答案】:ABCD解析:

Spark支持上述四种运行模式,在实验中为了充分利用资源,一般配置Standalou模式运行。33.下列关于Hadoop中map输出结果的说法正确的有()。A、<key,value>键值对B、输出中间临时结果C、输出最终计算结果D、输出结果永久保留【正确答案】:AB解析:

map输出结果并非是最终结果且只暂时保留。34.下列关于Flume的描述正确的有()。A、Flume具有一定的容错性B、Flume使用Java编写C、Flume不支持failoverD、Flume是一个分布式的轻量级工具,适应各种方式的数据收集【正确答案】:ABD解析:

Flume本身提供了failover机制,可以自动切换和恢复。35.下列关于HDFS文件写人的描述正确的有()。A、不支持多用户对同一文件的写操作B、用户不可以在文件任意位置进行修改C、默认将文件复制成三份存放D、复制的文件块默认不存在同一机架上【正确答案】:ABCD解析:

根据HDFS定义。36.Flume的特点包括()。A、分布式B、高可靠C、高容错D、易于定制和扩展【正确答案】:ABCD解析:

Flume的特点包括分布式、高可靠、高容错、易于定制和扩展。37.下列关于MapReduce与HBase关系的描述正确的有()。A、两者不可或缺,MapReduce是HBase可以正常运行的保证B、两者不是强关联关系,没有MapReduce,HBasc可以正常运行C、MapReduce可以直接访问HBaseD、它们之间没有任何关系【正确答案】:BC解析:

HBase是Hadoop数据库。它是一个适合于非结构化数据存储的数据库,与MapReduce并无强关联关系,HadoopMapReduce为HBase提供了高性能的计算能力,可直接访问HBase。38.大数据平台的计算组件主要有()。A、StormB、SparkC、MapReduceD、Sqoop【正确答案】:ABC解析:

Storm是Twitter开源的分布式实时大数据处理框架;Spark是专为大规模数据处理而设计的快速通用的计算引擎;MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算;Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递;因此A、B、C正确。39.ETL技术主要涉及操作有()。A、抽取B、转换C、加载D、分析【正确答案】:ABC解析:

ETL技术主要涉及抽取(extract)、转换(transform)、加载(load)。40.RDD的特征有()。A、可容错性B、简洁性C、并行数据结构D、结构化【正确答案】:AC解析:

RDD是一个容错的、并行的数据结构。41.下列关于Zookecper的描述正确的有()。A、Zookccper维护着一个树形的层次结构B、Zookeeper的数据访问具有原子性C、Zookecper被设计用来实现协调服务D、Zookceper被设计用来实现大容量数据存储【正确答案】:ABC解析:

Zookeeper无法用来存储数据。42.Spark提交工作的方式有()。A、ClientB、ClusterC、StandaloneD、YARN【正确答案】:AB解析:

Spark提交作业的方式是Client和Clustero43.从Hadoop实现角度看,HadoopMapReducel.0主要由()组成。A、编程模型B、数据处理引擎C、运行时环境D、算法库【正确答案】:ABC解析:

HadoopMapReduce1.0计算框架主要由编程模型、数据处理引擎和运行时环境组成。

国家电网有限公司大数据应用习题集44.下列关于Spark中RDD的描述正确的有()。A、RDD(ResilientDistributedDataset)叫作弹性分布式数据集,是Spark中最基本的数据抽象B、Resilient:表示弹性的C、Destributed:分布式,可以并行在集群计算Dataset:就是一个集合,用于存放数据【正确答案】:ABCD解析:

A、B、C、D全部正确。45.Spark比MapReduce计算快的原因有()。A、基于内存的计算B、基于DAG的调度框架C、基于Lineage的容错机制D、基于分布式计算的框架【正确答案】:ABC解析:

Spark比MapReduce计算快的原因包括基于内存计算、使用基于Lineage的容错机制和基于DAG的调度框架。46.Spark的关键技术包括()。A、RDDB、SchedulerC、StorageD、Shuffle【正确答案】:ABCD解析:

Spark的关键技术包括RDD、Schedulcr、Storagc、Shuffc。47.下列中属于MapReduce特征的有()。A、以主从结构的形式运行B、容错机制的复杂性C、任务备份机制的必要性D、数据存储位置固定【正确答案】:ABC解析:

数据存储位置具有多样性,并非固定,所以D错。48.在MapReducel.0版本中,JobTracker功能有()。A、资源管理B、作业控制C、作业存储D、作业审核【正确答案】:AB解析:

在MapReducel.0中,JobTracker同时兼备了资源管理和作业控制两个功能。49.Spark组件包含()两个算子。A、MapB、ActionC、TransformationD、Reduce【正确答案】:BC解析:

Spark针对RDD提供了多种基础操作,可以大致分为Action和Transformation两种。50.SparkRDD的依赖机制包括()。A、宽依赖B、深度依赖C、广度依赖D、窄依赖【正确答案】:AD解析:

RDD之间的依赖关系可以分为窄依赖和宽依赖两种。1.用户自定义的reduce()函数接受一个中间key值和一个相关的value值的集合。()A、正确B、错误【正确答案】:A解析:

略2.Shuffle横跨Map端和Reduce端,在Map端包括Spill过程,在Reduce端包括copy和sort过程。()A、正确B、错误【正确答案】:A解析:

MapReduce的Shuffle过程介绍。3.为了降低map()函数与reduce()函数之间的数据传递量,一般采用combiner()函数对map()函数的输出结果进行合并处理。()A、正确B、错误【正确答案】:A解析:

略4.Combiner运行0次、1次或多次,Reducer都会产生相同的输出结果。()A、正确B、错误【正确答案】:A解析:

Combiner多次运行,并不影响输出结果,运行Combiner的意义在于使Map输出的中间结果更紧凑,使得写到本地磁盘和传给Reducer的数据更少。5.MapReduce在中间key值采用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论