hadoop基础知识考试题库及答案_第1页
hadoop基础知识考试题库及答案_第2页
hadoop基础知识考试题库及答案_第3页
hadoop基础知识考试题库及答案_第4页
hadoop基础知识考试题库及答案_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1hadoop基础知识考试题库及答案一、单选题1.当提交某个MapReduce任务后,在任务列表中显示该任务的状态(state)值为“ACCEPTED”,这表示()A、正在接受中B、正在执行中C、等待执行中D、任务恢复中答案:C2.Hadoop生态圈中ZooKeeper的作用描述错误的选项是:A、ZooKeeper是一个开源的分布式应用程序协调服务B、基于ZooKeeper可以实现同步服务C、ZooKeeper可以实现配置维护.命名服务D、ZooKeeper负责文件系统底层读写答案:D解析:ZooKeeper不负责文件系统底层读写。3.分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫。()A、名称节点,数据节点B、数据节点,名称节点C、名称节点,主节点D、从节点,主节点答案:A4.Sqoopimport命令中与Hive不相关的常用参数有()。A、--hive-importB、--create-hive-tableC、--hive-tableD、--create-hive-list答案:D5.下面关于分布式文件系统HDFS的描述正确的是:()A、分布式文件系统HDFS是一种关系型数据库B、分布式文件系统HDFS是GoogleBigtable的一种开源实现C、分布式文件系统HDFS是谷歌分布式文件系统GFS(GoogleFileSystem)的一种开源实现D、分布式文件系统HDFS比较适合存储大量零碎的小文件答案:C6.向Hadoop集群提交MapReduce任务时,可以使用下列()命令。A、hadoopsubmitB、hadoopputC、hadoopjarD、mapredueejar答案:C7.HDFS的数据导出到mySQL的默认操作时生成()语句A、insertB、inputC、importD、update答案:A8.Sqoopimport命令中与HBase不相关的常用参数有()。A、--last-valueB、--hbase-create-tableC、--hbase-row-keyD、--hbase-table答案:A9.______负责将海量数据进行分布式存储。A、MapReduceB、HDFSC、HBaseD、YARN答案:B10.Hadoop和Hadoop生态圈的描述中,正确的是:A、与Hadoop相比,Hadoop生态圈是指Hadoop框架本身B、Hadoop生态圈,不仅包含Hadoop,还包括保证Hadoop框架正常高效运行的其他框架C、常见的Hadoop生态圈组件有ZooKeeper.Flume.Redis.Hive.Flink等D、Hadoop含义范围大于Hadoop生态圈答案:B解析:

Hadoop生态圈是指Hadoop框架及其保证其正常高效运行的其他框架。

Redis不是Hadoop生态圈的组件,它是一个独立的内存数据库,主要用于缓存和数据存储。Flink虽然可以与Hadoop生态圈中的其他组件(如HDFS.YARN等)集成使用,但是它本身不是Hadoop生态圈中的组件,而是一个独立的分布式计算框架。

Hadoop生态圈含义大于Hadoop。11.在MapReduce程序中,必须包含的模块有()。

(3.0)A、MapperbinerReducerB、setupMapperReducerC、MapperReducerD、MapperReducercleanup答案:C12.默认端口50070的作用是()A、查看HDFS监控B、查年YARN监控C、查看日志监控D、不确定答案:A13.假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:A、start-hdfs.sh,stop-hdfs.shB、start-dfs.sh,stop-dfs.shC、start-dfs.sh,stop-hdfs.shD、start-hdfs.sh,stop-dfs.sh答案:B14.下列说法正确的是:A、第二名称节点无法解决单点故障问题B、第二名称节点是热备份C、HDFSHA提供高可用性,可以实现可扩展性.系统性能和隔离性D、HDFSHA可用性不好答案:A15.在Hadoop集群中,以下哪些是DataNode的主要功能?A、存储数据B、管理文件系统命名空间C、执行计算任务D、通信与协调答案:C解析:DataNode在Hadoop集群中主要负责存储数据和执行计算任务,而文件系统命名空间的管理是由NameNode负责的,通信与协调则是由Zookeeper负责的。16.下列关于biner的描述,正确的是().A、在MapReduce作业流程中可随意添加binerB、添加了biner意味着MapReduce程序的运行效率得到了优化C、biner可以代替ReduceD、应该谨慎使用biner答案:D17.HDFS默认的当前工作目录是/user/$user,则的值需要在以下哪个配置文件内说明?A、mapred-site.xmlB、core-site.xmlC、hdfs-site.xmlD、yarn-site.xml答案:B18.下列()命令可以下截HDFS目录/user/root/live.txt.A、hdfsdft-get/user/root/live.txtB、hdfsdft-put/user/root/live.txtC、hdfsdft-move/user/root/live.txtD、hdfsdft-download/user/root/live.txt答案:A19.Sqoopimport命令中与Hive不相关的常用参数有______。A、--hive-importB、--create-hive-tableC、--hive-tableD、--create-hive-list答案:D20.下列描述说法错误的是?()A、SecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。B、Hadoop是一个用于处理大数据的分布式集群架构,支持在GNU/Linux系统以及Windows系统上进行安装使用。C、VMwareWorkstation是一款虚拟计算机的软件,用户可以在单一的桌面上同时操作不同的操作系统。D、SSH是一个软件,专为远程登录会话和其他网络服务提供安全性功能的软件。答案:D21.在MapReduce程序中,必须包含的模块有()。A、MapperbinerReducerB、setupMapperReducerC、MapperReducerD、MapperReducercleanup答案:C22.下列哪个是Zookeeper最重要的特征。A、可靠性B、实时性C、全局数据一致性D、数据更新原子性答案:C23.下列哪项通常是集群的最主要的性能瓶颈?()A、CPUB、网络C、磁盘D、内存答案:C24.分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫:A、名称节点,数据节点B、数据节点,名称节点C、名称节点,主节点D、从节点,主节点答案:A25.下列关于biner的描述,正确的是().A、在MapReduce作业流程中可随意添加binerB、添加了biner意味着MapReduce程序的运行效率得到了优化C、biner可以代替ReduceD、应该谨慎使用biner答案:D26.以下名词解释不正确的是:A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现B、HBase:提供高可靠性.高性能.分布式的行式数据库,是谷歌BigTable的开源实现C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理.特殊查询和分析存储D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统答案:B27.()不是HBase的特点。A、大B、稀疏C、面向列D、面向行答案:D28.关闭集群的顺序为()。

①stop-dfs.sh

②stop-yarn.sh

③mr-jobhistory-daemon.shstophistoryserver

(3.0)A、①②③B、②①③C、③②①D、①③②答案:B29.HadoopJavaAPI创建文件夹的方法是()。A、listStatus(Pathf)B、delete(Pathf)C、mkdir(Pathf)D、open(Pathf)答案:C30.以hadoopjar提交MapReduce任务时,如果命令行中指定的输出目录已经存在,执行的结果将会是()。A、覆盖原目录B、自动创建新目录C、报错并中断任务D、以上都不是答案:C31.下列哪一项是将Map输出内容写入一个顺序文件,格式紧凑,易压缩,效率高。A、TextOutputFormatB、NullOutputFormatC、FilterOutputFormatD、SequenceFileOutputFormat答案:D32.MapReduce默认的输入格式是。A、SequenceFileInputFormatB、TextInputFormatC、NullInputFormatD、MapFileInputFormat答案:B33.下面哪项是Hadoop的作者?()A、MartinFowlerB、DougcuttingC、MarkElliotZuckerbergD、KentBeck答案:B34.下列()情况适合添加biner。

(3.0)A、MapReduce程序求平均值B、MapReduce程序求和C、MapReduce程序求中位数D、MapReduce程序对数据进行排序答案:B35.下列属于Hadoop内置数据类型的是()。

(3.0)A、IntegerWritableB、StringWritableC、ListWritableD、MapWritable答案:D36.在MapReduce程序中,Mapper模块中的自定义类MyMapper继承自()父类。A、MapperB、ReducerC、binerD、Partitioner答案:A37.默认端口50070的作用是()

(3.0)A、查看HDFS监控B、查年YARN监控C、查看日志监控D、不确定答案:A38.Hadoop是_______软件基金会下用Java语言开发的一个开源分布式计算平台。A、GoogleB、IBMC、ApacheD、Oracle答案:C39.下列()情况适合添加biner。A、MapReduce程序求平均值B、MapReduce程序求和C、MapReduce程序求中位数D、MapReduce程序对数据进行排序答案:B40.关于HDFS集群中的DataNode的描述不正确的是?

(3.0)A、一个DataNode上存储的所有数据块可以有相同的B、存储客户端上传的数据的数据块C、DataNode之间可以互相通信D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:A41.配置Hadoop的工作框架为yarn时,需要在下面哪个配置文件内说明。A、mapred-site.xmlB、core-site.xmlC、hdfs-site.xmlD、yarn-site.xml答案:A42.在使用MapReduce进行词频统计时,对于文本行“hellohadoophelloworld”,经过Reduce函数处理后直接输出的结果,应该是下面哪种形式:A、<"hello",1,1>.<"hadoop",1>和<"world",1>B、<"hello",2>.<"hadoop",1>和<"world",1>C、<"hello",<1,1>>.<"hadoop",1>和<"world",1>D、<"hello",1>.<"hello",1>.<"hadoop",1>和<"world",1>答案:B43.采用多副本冗余存储的优势不包含:A、加快数据传输速度B、节约存储空间C、容易检查数据错误D、保证数据可靠性答案:B44.关闭集群的顺序为()。

①stop-dfs.sh

②stop-yarn.sh

③mr-jobhistory-daemon.shstophistoryserverA、①②③B、②①③C、③②①D、①③②答案:B45.在Zookeeper中,以下哪个不是Znode的类型?A、持久性ZnodeB、临时性ZnodeC、顺序性ZnodeD、随机性Znode答案:D解析:Zookeeper中的Znode类型包括持久性Znode.临时性Znode和顺序性Znode,没有随机性Znode。46.在使用MapReduce进行词频统计时,对于文本行“hellohadoophelloworld”,经过Map函数处理后直接输出的结果,应该是下面哪种形式:()A、<"hello",1,1><"hadoop",1><"world",1>B、<"hello",2><"hadoop",1><"world",1>C、<"hello",<1,1>><"hadoop",1><"world",1>D、<"hello",1><"hello",1><"hadoop",1><"world",1>答案:D47.搭建Hadoop集群的步骤是()

①克隆虚拟机

②配置SSH免密码登录

③格式化

④修改配置文件

⑤配置时间同步服务A、④①②⑤③B、③②①⑤④C、⑤①③②④D、②⑤④①③答案:A48.以不属于比较过滤器的有()。A、过滤器B、列簇过滤器C、值过滤器D、列过滤器答案:A49.YARN监控的默认端口是()A、50070端口B、8088端口C、19888端口D、8080端口答案:B50.关于SecondaryNameNode哪项是正确?A、它是NameNode的热备B、它对内存没有要求C、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间D、SecondaryNameNode应与NameNode部署到一个节点答案:C51.MapReduce框架中,Partitioner函数有什么作用?A、对Map函数输出的键值对进行分区,决定发送给哪个Reduce函数B、对Reduce函数输出的键值对进行分区,决定写入哪个输出文件C、对Map函数输入的键值对进行分区,决定由哪个Map函数处理D、对Reduce函数输入的键值对进行分区,决定由哪个Reduce函数处理答案:A解析:Partitioner函数是一个可选的组件,它可以对Map函数输出的键值对进行自定义分区,从而决定发送给哪个Reduce函数。默认情况下,Partitioner函数根据键的哈希值对Reduce函数数量取模来分区。52.在使用MapReduce进行词频统计时,对于文本行“hellohadoophelloworld”,经过Map函数处理后直接输出的结果,应该是下面哪种形式:A、<"hello",1,1><"hadoop",1><"world",1>B、<"hello",2><"hadoop",1><"world",1>C、<"hello",<1,1>><"hadoop",1><"world",1>D、<"hello",1><"hello",1><"hadoop",1><"world",1>答案:D53.在Hbasek中________命令表示通过正则表达式来启动指定表。A、enableB、dropC、disableD、enable_all答案:D54.在MapReduce程序中,Mapper模块中的自定义类MyMapper继承自()父类。A、MapperB、ReducerC、binerD、Partitioner答案:A55.以下名词解释不正确的是:A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现B、HBase:提供高可靠性.高性能.分布式的行式数据库,是谷歌BigTable的开源实现C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理.特殊查询和分析存储D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统答案:B56.将HBase的数据导出到MySQL,需要借助()的中转作用来完成。A、SqoopB、HiveC、UpdateD、import答案:B57.关于自定义数据类型,下列说法正确的是()。

(3.0)A、自定义数据类型必须继承Writable接口B、自定义MapReduce的key需要继承Writable接口C、自定义MapReduce的value需要继承Writableparable接口D、自定义数据类型必须实现readFields(DataInputdatainput)方法答案:D58.以下哪个不是HDFS的守护进程?A、secondaryNameNodeB、DataNodeC、HregionServerD、NameNode答案:C59.启动集群的顺序为()。①start-dfs.sh②start-yarn.sh③mr-jobhistory-daemon.shstarthistoryserverA、①②③B、②①③C、③②①D、③①②答案:A60.克隆虚拟机之后需要修改()文件。

①/etc/udev/rules.d/70-presistent-net.rules

②/etc/sysconfig/network-scripts/ifcfg-eth0

③/etc/sysconfig/networkA、①②B、①②③C、②③D、①③答案:B61.下列语句描述错误的是______。A、可以通过CLI方式、JavaAPI方式调用SqoopB、Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行数据的导入导出操作。C、Sqoop是独立的数据迁移工具,可以在任何系统上执行。D、如果在Hadoop分布式集群环境下,连接MySQL服务器参数不能是localhost或。答案:C62.HDFS中的文件块默认保存()份。A、1B、2C、3D、不确定答案:C63.NameNode在一个称为的文件中存储所有元数据信息,启动集群时,加载到内存。A、filestoreB、FsImageC、memoryfileD、sorefile答案:B64.在Linux下安装NTP服务的命令是()A、yuminstallntpB、yumremoventpC、yumupdatentpD、yumlist答案:A65.在()配置文件里可以修改文件块的副本数。A、hdfs-site.xmlB、slavesC、core-site.xmlD、hadoop-env.sh答案:A66.Hadoop2.x版本中的数据块大小默认是多少?A、64MB、128MC、256MD、512M答案:B67.YARN监控的默认端口是()。A、19888端口B、50070端口C、8088端口D、8080端口答案:C68.在CentOS7中关闭防火墙的命令是。A、geditB、ifconfigC、sourceD、systemctl答案:D69.DataNode中的数据存储在哪里?()A、内存B、磁盘答案:B70.Hadoop3.0中,Yarn是什么?A、一个分布式文件系统B、一个分布式计算框架C、一个分布式协调服务D、一个分布式资源管理框架答案:D71.下列()命令可以下载HDFS目录/user/root/live.txt。A、hdfsdfs-get/user/root/live.txtB、hdfsdfs-download/user/root/live.txtC、hdfsdfs-put/user/root/live.txtD、hdfsdfs-move/user/root/live.txt答案:A72.向Hadoop集群提交MapReduce任务时,可以使用下列()命令。A、hadoopsubmitB、hadoopputC、hadoopjarD、mapreducejar答案:C73.Sqoopimport命令中与HBase不相关的常用参数有。A、--last-valueB、--hbase-create-tableC、--hbase-row-keyD、--hbase-table答案:A74.CentOS配置虚拟机网络模式时,使用命令重启系统。A、ifconfigB、sourceC、restartD、reboot答案:D75.Flume以()为最小的独立运行单位。A、StageB、AgentC、TaskD、Job答案:B76.下列哪个选项中对MapReduceShuffle过程的描述是错误的:A、默认情况下map任务的环形缓冲区大小为100M,可通过改变mapreduce.taskio.sort.mb属性来调整B、环形缓冲区溢出阈值参数为mapreduce.map.sort.spill.percent,默认值为0.8C、溢出写过程按顺序的方式将缓冲区的内容写到磁盘目录D、biner函数在排序后的输出上运行答案:C解析:溢出写过程按轮询的方式将缓冲区的内容写到磁盘目录77.HBase的数据最终是以的形式存储在HDFS中的。A、ConnectionB、AdminC、ConfigurationD、Table答案:C78.下面关于Hadoop系统中使用bineFileInputFormat解决小文件问题的描述错误的是:A、bineFileInputFormat是使用HadoopAPI(抽象类bineFileInputFormat)来解决小文件的问题B、抽象类bineFileInputFormat的基本思想是通过使用一个定制的InputFormat允许将小文件合并到Hadoop的分片或块中C、要使用抽象类bineFileInputFormat,需要实现3个定制类:CustomCFIF.PairOfStringLong.CustomRecordReaderD、PairOfStringLong要扩展bineFileInputFormat,创建子类来支持定制格式的输入答案:D解析:CustomCFIF要扩展bineFileInputFormat,创建子类来支持定制格式的输入79.下列关于MapReduce说法不正确的是。A、MapReduce是一种计算框架B、MapReduce来源于google的学术论文C、MapReduce程序只能用Java语言编写D、MapReduce隐藏了并行计算的细节,方便使用答案:C80.在使用MapReduce进行词频统计时,对于文本行“hellohadoophelloworld”,经过Reduce函数处理后直接输出的结果,应该是下面哪种形式:()A、<"hello",1,1>.<"hadoop",1>和<"world",1>B、<"hello",2>.<"hadoop",1>和<"world",1>C、<"hello",<1,1>>.<"hadoop",1>和<"world",1>D、<"hello",1>.<"hello",1>.<"hadoop",1>和<"world",1>答案:B81.列出MySQL数据库的Saoop命令是。A、sqooplist-datalbasesB、sqooplist_tableC、sqooplistD、sqooplist_mand答案:A82.上传一个大小为500MB的文件data.txt到以Hadoop2.6搭建的集群上。这个文件会占用()个HDFS文件块。A、3B、4C、5D、8答案:B83.在词频统计(WordCount)的执行过程中,()模块负责进行单词的拆分与映射。A、MapperB、ReducerC、DriverD、Main答案:A84.在HadoopMapReduce中,以下哪种情况会导致数据倾斜?A、数据量太大B、数据分布不均匀C、Map阶段出错D、Reduce阶段出错答案:B解析:数据分布不均匀是导致数据倾斜的主要原因,某些键可能有大量的值,而其他键可能只有很少的值,这可能会导致某些Reduce任务处理的数据量比其他任务多很多,从而导致数据倾斜。85.下列说法错误的是:A、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个SlaveC、Map函数将输入的元素转换成<key,value>形式的键值对D、不同的Map任务之间不能互相通信答案:A86.默认端口50070的作用是()?A、查看YARN监控B、查看HDFS监控C、查看日志监控D、不确定答案:B87.查看主机名称的命令是()A、ifconfigB、topC、wgetD、hostname答案:D88.MapReduce框架中,Map函数的输入和输出是什么?A、输入是键值对,输出是键值对B、输入是键值对,输出是列表C、输入是列表,输出是键值对D、输入是列表,输出是列表答案:A解析:Map函数的输入和输出都是键值对,输入的键值对通常由InputFormat根据输入文件生成,输出的键值对通常由OutputFormat根据输出文件格式写入。89.关于Hadoop中通信说法正确的是:A、Client和NameNode之间是通过rpc通信B、DataNode和NameNode之间是通过socket通信C、Client和DataNode之间是通过简单的rpc通信D、DataNode和Client之间不用通信答案:A解析:Client和DataNode之间是通过简单的socket通信,其他的是通过rpc通信。90.将MySOL的数据按需导入HDFS/Hive/HBase,使用的参数是()。A、--whereB、--needC、--queryD、--alter答案:C91.以MapReduce统计学员的平均成绩,如果输出结果的格式为"学生姓名平均成绩",例如“Alice89.5”,那么通过()选用输出键值对格式。A、job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);B、job.setOutputKeyClass(IntWritable.class);job.setOutputValueClass(Text.class);C、job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.class);D、job.setOutputKeyClass(Text.class);job.setOutputValueClass(DoubleWritable.class);答案:D92.HDFS默认备份数量?()A、0B、1C、2D、3答案:D93.在Job类中对输出键值对格式进行设置时,如果Mapper的输出格式与Reducer的输出格式一样,那么可以省略下列()设置。A、job.setOutputKeyClass()与job.setOutputValueClass()B、job.setMapOutputKeyClass()与job.setMapOutputValueClass()C、job.setReduceOutputKeyClass()与job.setReduceOutputValueClass()D、以上都不能省略答案:B94.HDFSFederation设计不能解决“单名称节点”存在的哪个问题:A、HDFS集群扩展性B、性能更高效C、良好的隔离性D、单点故障问题答案:D95.MapReduce适用于下列哪个选项?()A、任意应用程序B、任意可以在WindowsServer2008上的应用程序C、可以串行处理的应用程序D、可以并行处理的应用程序答案:D96.在HBase中,使用类可以转化Java的数据类型,例如将String或long转化为HBase原生支持的原始字节数组。A、PutB、BytesC、HTableD、Get答案:B97.下列属于Hadoop内置数据类型的是()。A、IntegerWritableB、StringWritableC、ListWritableD、MapWritable答案:D98.自定义MapReduce排序规则时需要重写下列哪种方法。A、readFields()B、pareTo()C、map()D、reduce()答案:B99.有关Hadoop生态中各个角色在高可用上的作用,下列描述错误的是:A、YARN集群:为主备切换控制器提供主备选举支持B、共享存储系统:共享存储系统保存了NameNode在运行过程中所产生的HDFS的元数据,ActiveNameNode和StandbyNameNode通过共享存储系统实现元数据同步C、DataNode节点:DataNode节点的HDFS的Block和DataNode之间的映射关系,在故障主备切换时,DataNode会主动上报Block和DataNode的映射关系D、NameNode节点:一台处于Active状态,为主NameNode,另外一台处于Standby状态,为备NameNode,只有主NameNode才能对外提供读写服务答案:A解析:ZooKeeper为主备切换控制器提供主备选举支持。100.Hadoop是一个什么样的平台?A、一个分布式文件系统B、一个分布式计算框架C、一个分布式协调服务D、一个分布式数据处理平台答案:D解析:

Hadoop是一个分布式数据处理平台,可以实现大规模数据的存储.管理和分析。

HDFS(分布式文件系统).MapReduce(分布式计算框架).Yarn分布式资源管理框架.Zookeeper(分布式协调服务)。101.MapReduce自定义排序规则需要重写下列那项方法()A、readFields()B、pareTo()C、map()D、reduce()答案:B102.在Linux下安装NTP服务的命令是()A、yuminstallntpB、yumremoventpC、yumupdatentpD、yumlist答案:A103.Hive中有一数据表sc,其中包含学号sno、课程号cno和成绩grade字段,如果查询课程号为1的课程的平均成绩,以下方法可行的是。A、selectcno,avg(grade)fromscwherecno='1';B、selectcno,average(grade)fromscwherecno='1';C、selectcno,avg(grade)fromscgroupbycnohavingcno='1';D、selectcno,average(grade)fromscgroupbycnohavingcno='1';答案:C104.Flume中常见的Sink不存在的是()。A、BodySinkB、FileRollSinkC、HiveSinkD、HBaseSink答案:A105.域名映射关系的在哪个文件中修改?()A、hostnameB、hostsC、profileD、network答案:B106.NameNode中的元数据存储在哪里?()A、内存B、磁盘C、光盘D、U盘答案:A107.在Zookeeper中,以下哪个不是Znode的类型?A、持久性ZnodeB、临时性ZnodeC、顺序性ZnodeD、随机性Znode答案:D108.以下哪个不是MapReduce处理数据的步骤?A、SplitB、MapC、ShuffleD、Connect答案:D解析:MapReduce处理数据的步骤包括Split,Map,Shuffle,Reduce,没有Connect步骤。109.下列语句描述错误的是()A、可以通过CLI方式.JavaAPI方式调用SqoopB、Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行数据的导入导出操作。C、Sqoop是独立的数据迁移工具,可以在任何系统上执行。D、如果在Hadoop分布式集群环境下,连接MySQL服务器参数不能是localhost或。答案:C110.Flume是一种可配置.高可用的()。A、数据采集工具B、数据挖掘工具C、数据驱动工具D、数据可视化工具答案:A111.NameNode中的元数据存储在哪里?A、内存B、磁盘C、外存D、光盘答案:A112.以下名词解释不正确的是:()A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现B、HBase:提供高可靠性.高性能.分布式的行式数据库,是谷歌BigTable的开源实现C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理.特殊查询和分析存储D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统答案:B解析:列式数据库113.在MapReduce程序中,Reducer类中包括的函数有()。A、startupreduceendB、setupreducecleanupC、startrunreduceendD、startuprunend答案:B114.在Hadoop中,如果一个文件小于一个HDFS块的大小,会发生什么?A、文件不会被存储B、文件会被拆分成更小的块C、文件会占用一个整个的HDFS块D、文件会被压缩到符合HDFS块大小答案:C解析:如果一个文件小于一个HDFS块的大小,那么这个文件仍然会占用一个整个的HDFS块的空间。115.关闭集群的顺序为(

①stop-dfs.sh

②stop-yarn.sh

③mr-jobhistory-daemon.shstophistoryserver)A、①②③B、②①③C、③②①D、①③②答案:B116.下列说法错误的是:()A、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个SlaveC、Map函数将输入的元素转换成<key,value>形式的键值对D、不同的Map任务之间不能互相通信答案:A117.在驱动类中,()设置输入数据的格式。A、使用方法setOutputFormatB、使用方法setOutputKeyValueC、使用方法setInputFormatD、使用方法setJarByClass答案:C118.NameNode中的元数据存储在哪里?A、内存B、磁盘C、外存答案:A119.下列()命令可以显示出HDFS文件系统中在线的数据节点。A、hdfsdfsadmin-report-liveB、hdfsdfsadmin-report-activeC、hdfsdfsadmin-report-deadD、hdfsdfsadmin-report-demissioning答案:A120.显示当前目录的命令是()A、cdB、pwdC、whoD、ls答案:B121.MapReduce默认的输出格式是()。A、SequenceFileOutputFormatB、TextOutputFormatC、NullOutputFormatD、MapFileOutputFormat答案:B122.Flume以()为最小的独立运行单位。A、StageB、AgentC、TaskD、Job答案:B123.关闭集群的顺序为。①stop-dfs.sh②stop-yarn.sh

③mr-jobhistory-daemon.shstophistoryserverA、①②③B、②①③C、③②①D、③①②答案:B124.关于SecondaryNameNode,以下说明哪项是正确的?A、它是NameNode的热备B、它对内存没有要求C、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间D、SecondaryNameNode应与NameNode部署到一个节点答案:C125.分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫:A、名称节点,数据节点B、数据节点,名称节点C、名称节点,主节点D、从节点,主节点答案:A126.启动集群的顺序为()

①start-dfs.sh

②start-yarn.sh

③mr-jobhistory-daemon.shstarthistorysever

(3.0)A、①②③B、②①③C、③②①D、③①②答案:A127.Hadoop序列化的特点有()。A、紧湊.快速.互扩展.互操作B、紧湊.快速C、互扩展D、互操作答案:A128.采用多副本冗余存储的优势不包含:A、加快数据传输速度B、节约存储空间C、容易检查数据错误D、保证数据可靠性答案:B129.在HBase客户端API常用类中,类提供一个管理HBase数据库的表信息的接口。A、TableDescriptorB、TableC、AdminD、HbaseConfiguration答案:C130.设置MapReduce参数传递的正确方式是()。A、通过变量赋值进行传递B、通过get()和set()方法传递C、通过conf.set("argName",args[n])传递D、通过job.set("argName",args[n])传递答案:C131.如果相要自定义biner,需要继承下列哪个类。A、MapperB、ReducerC、InputFormatD、OutputFormat答案:B132.MapReduce自定义排序规则需要重写下列哪项方法()A、readFields()B、pareTo()C、map()D、reduce()答案:B133.下列说法正确的是:()A、第二名称节点无法解决单点故障问题B、第二名称节点是热备份C、HDFSHA提供高可用性,可以实现可扩展性.系统性能和隔离性D、HDFSHA可用性不好答案:A134.Hive中有一数据表sc,其中包含学号sno.课程号cno和成绩grade字段,如果查询每门课程最高分,以下方法可行的是。A、selectcno,max(grade)fromsc;B、selectcno,min(grade)fromsc;C、selectcno,max(grade)fromscgroupbysno;D、selectcno,max(grade)fromscgroupbycno;答案:D135.DataNode中的数据存储在哪里?A、内存B、磁盘C、外存D、光盘答案:B136.DataNode中的数据存储在哪里?A、内存B、磁盘答案:B137.下列说法正确的是()。A、biner发生在Reduce端B、MapReduce默认的输入格式是KeyValueInputFormatC、Partitioner的作用是对key进行分区D、自定义值类型需要实现Writableparable接口答案:C138.有关Hadoop的高可用下列描述错误的是:A、Hadoop集群中有ActiveNameNode和StandbyNameNode;其中ActiveNameNode和StandbyNameNode节点互为主备B、ActiveNameNode提供读写服务,StandbyNameNode节点只提供读服务C、主备切换控制器ZKFC,ZookeeperFailoverController作为独立运行的进程,对NameNode的主备切换进行总体控制D、ZKFC主要以心跳的方式检测NameNode的健康状况,在ActiveNameNode故障时借助Zookeeper实现自动的主备选举和切换答案:B解析:主备NameNode只有ActiveNameNode提供读写服务。139.下列哪个方法负责将一个大数据在逻辑上分成许多片。A、map()B、getSplits()C、createRecordReader()D、reduce()答案:B140.列出MySQL数据库的Saoop命令是()A、sqooplist-datalbasesB、sqooplist_tableC、sqooplistD、sqooplist_mand答案:A141.MapReduce框架中,biner函数有什么作用?A、对Map函数输出的键值对进行合并,减少网络传输量B、对Reduce函数输出的键值对进行合并,减少磁盘写入量C、对Map函数输入的键值对进行合并,减少磁盘读取量D、对Reduce函数输入的键值对进行合并,减少内存占用量答案:A解析:biner函数是一个可选的组件,它可以对Map函数输出的键值对进行局部合并,从而减少Shuffle阶段的网络传输量。biner函数必须满足结合律和交换律,否则会影响最终结果。142.下面不属于Sqoop数据库连接参数的是()。A、--connectB、--pC、--helpD、--username答案:B143.在Hadoop的MapReduce中,如果一个任务失败了,会怎么处理?A、任务会被立即删除B、任务会被重新安排到其他节点C、任务会被标记为失败,不会被重新执行D、任务会在当前节点上重新执行答案:B解析:如果Hadoop的MapReduce中的一个任务失败了,那么这个任务会被重新安排到其他节点上执行。144.关于自定义数据类型,下列说法正确的是()。A、自定义数据类型必须继承Writable接口B、自定义MapReduce的key需要继承Writable接口C、自定义MapReduce的value需要继承Writableparable接口D、自定义数据类型必须实现readFields(DataInputdatainput)方法答案:D145.HDFSFederation设计不能解决“单名称节点”存在的哪个问题:()A、HDFS集群扩展性B、性能更高效C、良好的隔离性D、单点故障问题答案:D146.显示当前目录的命令是()A、cdB、pwdC、whoD、ls答案:B147.开启集群的顺序为。①start-dfs.sh②start-yarn.sh

③mr-jobhistory-daemon.shstarthistoryserverA、①②③B、②①③C、③②①D、③①②答案:A148.在Mapper类的setup函数里,下列()方式可以用来获取参数值。A、context.get("argName")B、Configuration.get("argName")C、contet.getConfiguration.getInt("argName")D、contet.getConfiguration.get("argName")答案:D149.以下不属于Hive表的类型的是。A、内部表B、外部表C、分区表D、分层表答案:D150.Hadoop使用Java语言编写,因此它的运行环境需要Java环境的支持。以下说法不正确的是()。A、Hadoop3.x需要Java8B、Hadoop2.7及以后版本需要Java7或Java8C、Hadoop2.6及早期版本需要Java7D、Hadoop2.6及早期版本需要Java6答案:C151.下面关于分布式文件系统HDFS的描述正确的是:A、分布式文件系统HDFS是一种关系型数据库B、分布式文件系统HDFS是GoogleBigtable的一种开源实现C、分布式文件系统HDFS是谷歌分布式文件系统GFS(GoogleFileSystem)的一种开源实现D、分布式文件系统HDFS比较适合存储大量零碎的小文件答案:C152.使用CentOS7系统对网卡进行配置,使用以下哪个命令进入网卡配置文件。()A、vim/etc/sysconfig/network-scripts/ifcfg-eth0B、vim/etc/sysconfig/networkC、vim/etc/sysconfig/network-scripts/ifcfg-ens33D、vim/etc/sysconfig/network-scripts/ifcfg-lo答案:C153.以下不是Hive的基础数据类型的是。A、floatB、booleanC、longD、timestamp答案:C154.下列哪个属性是hdfs-site.xml中的配置。A、fs.defaultFSB、dfs.replicationC、hadoop.tmp.dirD、答案:B155.以下选项中,哪个程序负责HDFS数据存储。()A、NameNodeB、DataNodeC、SecondaryNameNodeD、ResourceManager答案:B156.在Zookeeper中,如果Leader节点宕机了,会发生什么?A、集群停止工作B、所有的Follower节点也会宕机C、会进行新的Leader选举D、数据会丢失答案:C解析:如果Zookeeper的Leader节点宕机,Zookeeper集群会进行新的Leader选举。157.yarn-site.xml文件的作用是()A、配置MapReduce框架B、配置Hadoop的HDFS系统的命名C、配置YARN框架D、保存子节点信息答案:C158.下列关于MapReduce模型中Map函数与Reduce函数的描述正确的是。A、一个Map函数就是对一部分原始数据进行指定的操作。B、一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作。C、Map与Map之间不是相互独立的。D、Reducee与Reduce之间不是相互独立的。答案:A159.下面关于MapReduce模型中Map函数与Reduce函数的描述正确的是()A、一个Map函数就是对一部分原始数据进行指定的操作。B、一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作。C、Map与Map之间不是相互独立的。D、Reducee与Reduce之间不是相互独立的。答案:A160.下列()命令可以显示出HDFS目录/user/root中的内容。A、hdfsdfs-dir/user/root/B、hdfsdfs-report/user/root/C、hdfsdfs-ls/user/root/D、hdfsdfs-display/user/root/答案:C161.下面关于分布式文件系统HDFS的描述正确的是:A、分布式文件系统HDFS是一种关系型数据库B、分布式文件系统HDFS是GoogleBigtable的一种开源实现C、分布式文件系统HDFS是谷歌分布式文件系统GFS(GoogleFileSystem)的一种开源实现D、分布式文件系统HDFS比较适合存储大量零碎的小文件答案:C162.下面关于HiveSQL编译顺序正确的是:

(1)遍历QueryBlock,翻译为执行操作树OperatorTree

(2)遍历OperatorTree,翻译为MapReduce任务

(3)遍历ASTTree,抽象出查询的基本组成单元QueryBlock

(4)逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量

(5)物理层优化器进行MapReduce任务的变换,生成执行计划

(6)将SQL转化为抽象语法树ASTTreeA、(6)(3)(2)(1)(5)(4)B、(6)(3)(1)(2)(4)(5)C、(3)(6)(1)(2)(4)(5)D、(1)(2)(6)(3)(4)(5)答案:B解析:Hive将SQL转化为MapReduce任务的,整个编译过程分为六个阶段:(6)(3)(1)(2)(4)(5)163.Flume中常见的Sink不存在的是()。A、BodySinkB、FileRollSinkC、HiveSinkD、HBaseSink答案:B164.大数据的特征有volume、variety、value和。A、velocityB、VariousC、versionD、virtual答案:A165.在Hadoop官方的示例程序包hadoop-mapreduce-examples-2.6.4.jar中,封装了一些常用的测试模块。可以获得文件中单词长度的中位数的模块是()。A、workcountB、wordmeanC、wordmedianD、wordstandarddeviation答案:C166.HadoopJavaAPI创建文件夹的方法是()。A、listStatus(Pathf)B、delete(Pathf)C、mkdir(Pathf)D、open(Pathf)答案:C167.采用多副本冗余存储的优势不包含:()A、加快数据传输速度B、节约存储空间C、容易检查数据错误D、保证数据可靠性答案:B168.Event由()和()组成。A、Header.BodyB、BodyC、Leg.BodyD、Arm答案:A169.Flume扇出流的形式为()A、1:1B、1:nC、n:mD、n:1答案:B170.HBase将同一个列族里的数据存储在同一个中。A、文件B、目录C、节点D、Region答案:B171.在HBase中_____列族属性用于限定数据的超时时间。A、IN_MEMORYB、MIN_VERSIONSC、PRESSIOND、TTL答案:D172.有多种浏览HDFS文件目录的方式,以下()是不对的。A、通过HDFS命令B、通过Web浏览器C、通过Eclipse中的ProjectExplorerD、通过SSH客户端工具答案:D173.MapReduce程序最后输出的结果通常都是按键值进行排序的,那么排序工作发生在MapReduce执行过程中的()阶段。A、MapB、shuffleC、ReduceD、biner答案:B174.MapReduce程序被初始化为一个工作任务,每个工作任务可以分为Map和()两个阶段。A、ReadB、CollectC、ReduceD、Split答案:C175.YARN监控的默认端口是()

(3.0)A、50070端口B、8088端口C、19888端口D、8080端口答案:B176.()是HBase的核心。A、StorageB、StoreC、StoreFileD、MemStore答案:B177.下列哪项通常是集群的最主要瓶颈()A、CPUB、网络C、磁盘IOD、内存答案:C178.启动集群的顺序为()

①start-dfs.sh

②start-yarn.sh

③mr-jobhistory-daemon.shstarthistoryseverA、①②③B、②①③C、③②①D、③①②答案:A179.列簇是()的集合A、列B、QualifierC、RowkeyD、值答案:A180.以下哪项不是Zookeeper能提供的服务?A、配置管理B、分布式同步C、数据库服务D、集群管理答案:C解析:Zookeeper不能提供数据库服务,它主要提供配置管理,分布式同步,集群管理等服务。多选题1.MapReduce与HBase的关系,哪些描述是正确的:A、两者不可或缺,MapReduce是HBase可以正常运行的保证B、MapReduce可以直接访问HBaseC、它们之间没有任何关系D、两者不是强关联关系,没有MapReduce,HBase可以正常运行答案:BD2.下列选项哪些是ReduceTask的工作过程主要经历的阶段()A、Copy阶段B、Merge阶段C、Sort阶段D、Map阶段答案:ABC3.以下属于从其他表查询数据导入Hive操作的是。A、insertintotabletablename1selectcolname1,colname2fromtablename2;B、insertoverwritetabletablename1selectcolname1,colname2fromtablename2;C、fromtablenameinsertintotabletablename1selectcolname1insertintotabletablename2selectcolname2;D、createtablenewtablenameasselectcolname1,colname2fromtablename;答案:ABCD4.对新一代资源管理调度框架YARN的理解正确的是。A、YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架B、YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMasterC、YARN既是资源管理调度框架,也是一个计算框架D、MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务答案:ABD5.在Hadoop2.x及3.x版本中,以下哪些是YARN的主要组件?A、ResourceManagerB、NodeManagerC、ApplicationMasterD、JobTracker答案:ABC解析:在HadoopYARN框架中,ResourceManager.NodeManager和ApplicationMaster是主要组件。JobTracker是Hadoop1.x版本的MapReduce组件,在YARN框架中已经被ResourceManager和ApplicationMaster取代。6.在Hadoop集群中,以下哪些是DataNode的主要功能?A、存储数据B、管理文件系统命名空间C、执行计算任务D、通信与协调答案:AC解析:文件系统命名空间的管理是由NameNode负责的,通信与协调则是由Zookeeper负责的。7.Client端上传文件的时候下列哪些项正确。A、数据经过NameNode传递给DataNodeB、Client端将文件以Block为单位,管道方式依次传到DataNodeC、Client只上传数据到一台DataNode,然后由NameNode书责Block复制工作D、当某个DataNode失败,客户端会继续传给其它DataNode答案:BC8.客户端上传文件的时候哪项是正确的?A、数据经过NameNode传递给DataNodeB、客户端端将文件切分为多个Block,依次上传C、客户端只上传数据到一台DataNode,然后由NameNode负责Block复制工作D、客户端发起文件上传请求,通过RPC与NameNode建立通讯。答案:BD9.下列选项参数是Sqoop指令的是?()A、importB、outputC、inputD、export答案:AD10.下面说法选项错误的是()A、在一个Agent中,同一个source可以有多个channelB、在一个Agent中,同一个sink可以有多个channelC、在一个Agent中,同一个source只能多1个channelD、在一个Agent中,同一个sink只能有1个channel答案:AD11.下列选项中是配置job的必要参数()A、typeB、dependenciesC、mandD、答案:AC12.VMware提供了哪几种工作模式?

(5.0)A、host-only仅主机模式B、NAT模式C、自定义除以上3种其他模式D、桥接(bridged)模式答案:ABD13.YARN主要包含的模块有以下哪些?A、ApplicationMasterB、ResourceManagerC、NodeManagerD、QuorumJournalManager答案:ABC14.客户端上传文件的时候哪项是正确的()A、数据经过NameNode传递给DataNodeB、客户端将文件切分为多个Block,依次上传C、客户端只上传数据到一台DataNode,然后由NameNode负责Block负责工作D、客户端发起文件上传请求,通过RPC与NameNode建立通信答案:BC15.关于数据副本的存放策略正确的有些?

(5.0)A、第三个副本:与第一个副本相同机架的其他节点上;B、更多副本:随机节点。C、第一个副本,放置在上传文件的数据节点;D、第二个副本,放置在与第一个副本不同的机架的节点上;答案:ABCD16.以下HDFS相关的shell命令正确的是。A、hadoopfs-ls<path>:显示<path>指定的路径的目录结构B、hdfsdfs-mkdir<path>:创建<path>指定的文件夹C、hadoopfs-copyFromLocal<path1><path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中D、hdfsdfs-rm<path>:删除路径<path>指定的文件答案:AB17.HDFS中常用命令有下面哪些?

(5.0)A、hadoopfs–rmB、hadoopfs–lsC、hadoopfs–putD、hadoopfs–display答案:ABC18.以下哪些是Hive数仓工具使用的数据模型?A、表B、数据库C、分区D、集群答案:ABC解析:在Hive中,集群不是一种数据模型,而是指Hadoop集群,是Hive运行的底层硬件和软件环境。19.以下关于SSH免密码配置的描述正确的选项有。A、SSH专为远程登录会话和其他网络服务提供安全性的协议B、SSH是SecureShell的缩写,则IETF的网络工作小组制定C、SSH是建立在应用层和传输层上的安全协议D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。答案:ABCD20.以下属于sqoop-env.sh配置文件中设置的是。A、HADOOP_MON_HOMEB、HADOOP_MAPRED_HOMEC、HIVE_HOMED、HBASE_HOME答案:ABC21.下列选项哪些是ReduceTask的工作过程主要经历的阶段()A、Copy阶段B、Merge阶段C、Sort阶段D、Map阶段答案:ABC22.以下属于Sqoop基本传输命令的是。A、exportB、importC、evalD、Job答案:ABCD23.关于数据副本的存放策略正确的有些。A、第三个副本:与第一个副本相同机架的其他节点上B、更多副本:随机节点C、第一个副本,放置在上传文件的数据节点;D、第二个副本,放置在与第一个副本不同的机架的节点上答案:ABCD24.以下关于SSH免密码配置的描述正确的选项有哪个?A、SSH专为远程登录会话和其他网络服务提供安全性的协议。B、SSH是SecureShell的缩写,则IETF的网络工作小组制定。C、SSH是建立在应用层和传输层上的安全协议。D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。答案:ABCD25.以下哪些是Zookeeper可以提供的服务?A、配置管理B、分布式锁C、集群管理D、数据分析答案:ABC解析:Zookeeper可以提供配置管理,分布式锁和集群管理等服务,但它并不负责数据分析。26.以下关于altertable,能实现的是。A、更改表名(rename)B、更改列名.类型.位置(change)C、添加新的列(add)D、删除列(drop)答案:ABC27.以下HDFS相关的shell命令不正确的是。A、hadoopfs-ls<path>:显示<path>指定的路径的目录结构B、hdfsdfs-mkdir<path>:创建<path>指定的文件夹C、hadoopfs-copyFromLocal<path1><path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中D、hdfsdfs-rm<path>:删除路径<path>指定的文件答案:CD28.下面哪些是Hadoop2.x的组件?

(5.0)A、SparkB、HiveC、HBaseD、GFS答案:ABC判断题1.HDFS既适合超大数据集存储,也适合小数据集的存储。A、正确B、错误答案:B2.启动Hadoop集群服务之前需要格式化文件系统。A、正确B、错误答案:A3.Map阶段处理数据时,是按照Key的哈希值与ReduceTask数量取模进行分区的规则。A、正确B、错误答案:A4.NameNode负责管理元数据,客户端每次读写请求时,都会从磁盘中读取或写入元数据信息并反馈给客户端。A、正确B、错误答案:A5.NameNode本地磁盘保存了数据块的位置信息。A、正确B、错误答案:B6.分区数量是ReduceTask的数量。A、正确B、错误答案:A7.Hadoop是Java开发的,所以MapReduce只支持Java语言编写。A、正确B、错误答案:B8.SecondaryNameNode是NameNode的备份,可以有效解决Hadoop集群单点故障问题。A、正确B、错误答案:B9.Hadoop存在多个副本,且默认备份数量是3。A、正确B、错误答案:A10.JobTracker是HDFS重要角色。A、正确B、错误答案:B11.Hadoop默认调度器策略为FIFOA、正确B、错误答案:A12.ClouderaCDH是需要付费使用的。A、正确B、错误答案:A13.在MapReduce程序中,必须开发Map和Reduce相应的业务代码才能执行程序。A、正确B、错误答案:B14.配置Hadoop集群只需要修改core-site.xml配置文件就可以。A、正确B、错误答案:B15.伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。A、正确B、错误答案:A16.在Hadoop集群中,NameNode负责管理所有DataNode。A、正确B、错误答案:A17.在Hadoop1.x版本中,MapReduce程序是运行在Yarn集群之上。A、正确B、错误答案:B18.如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。A、正确B、错误答案:B19.BlockSize是不可以修改的。A、正确B、错误答案:B20.Hadoop是由Java语言开发的。A、正确B、错误答案:A简答题1.每个数据节点会定期向名称节点发送______,汇报自己的状态信息。答案:心跳信号或心跳消息2.在linux系统中,r表示____权限,w表示____权限,x表示____权限。答案:只读;写入;执行;3.当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳消息,这时,这些数据节点就会被标记为______。答案:宕机4.______是一款分析历史数据的利器,只有在结构化数据的情况下才能大显神威。答案:Hive5.NameNode以元数据形式维护着_______、________文件。答案:fsImage;EditLog;6.MapReduce分布式计算框架主要包括______和______两部分。答案:Map(映射);map;Map;Reduce(规约);reduce;Reduce7.在词频统计wordcount的执行过程中,______模块负责进行单词的拆分与映射。答案:Mapper8.如果在MapReduce作业中添加biner,除了需要声明biner类外,还需要在里面配置biner类。答案:Diver9.Flume传输的基本单位是______。答案:Event;事件;10.MapReduce程序最后输出的结果通常都是按照key进行排序的,那么排序工作发生在MapReduce执行的过程中的______阶段。答案:shuffle11.HDFS存储文件时,大文件被分割成数据块,默认大小为_____。答案:128MB;12.复制通道选择器主要用于从一个Source复制Event到多个______中。答案:Channel;通道;13.YARN采用主从架构,其核心组件包括:ResourceManager、______和ApplicationMaster。答案:NodeManager14.Partitioner组件目的是___________。答案:将key均匀分布在ReduceTask上;15.HDFS宕机处理,正常运行时DataNode会周期性发送心跳信息给NameNode,默认周期是_____一次。答案:3s;16.脚本一键启动Hadoop集群服务命令是_______。答案:start-all.sh;17.____是一款分析历史数据的利器,只有在结构化数据的情况下才能大显神威。答案:Hive;18.NameNode若在预定的时间内没有收到心跳信息,它会认为DataNode出问题,将它从集群中移除,预定时间默认值是____。答案:10min;19.在MapReduce程序中,主要包含的模块有______和Reducer。答案:Mapper20.ZooKeeper集群运行时采用______方式选择Leader。答案:选举21.在HDFS的Shell操作中,可以使用:hadoopfs____/a.txt/b.txt,将HDFS根目录下的文件a.txt更名为b.txt。答案:-mv;解析:-mv命令是移动或重命名文件或目录的命令,它可以在HDFS的Shell操作中使用,也可以在本地文件系统的Shel

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论