Hadoop大数据应用开发智慧树知到期末考试答案章节答案2024年深圳信息职业技术学院

上传人：题*** IP属地：浙江上传时间：2024-08-06 格式：DOCX 页数：6 大小：19.06KB 积分：6 举报 版权申诉

Hadoop大数据应用开发智慧树知到期末考试答案章节答案2024年深圳信息职业技术学院_第2页

Hadoop大数据应用开发智慧树知到期末考试答案章节答案2024年深圳信息职业技术学院_第3页

Hadoop大数据应用开发智慧树知到期末考试答案章节答案2024年深圳信息职业技术学院_第4页

Hadoop大数据应用开发智慧树知到期末考试答案章节答案2024年深圳信息职业技术学院_第5页

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Hadoop大数据应用开发智慧树知到期末考试答案+章节答案2024年深圳信息职业技术学院Zookeeper：针对谷歌Chubby的一个开源实现，是高效可靠的协同工作系统。（）

答案:对.Spark集群相比于SparkRDDAPI，SparkSQL对结构化数据的操作更加高效和方便。（）

答案:对SparkonYarn模式提交任务后，会依次进行6个过程：①启动SparkContext；②任务构建成DAG图；③executor向SparkContext进行注册；④向Yarn申请executor资源；⑤进行Stage划分与TaskSet生成；⑥Task发送给executor执行。（）

答案:错Hadoop特SparkMLlib是机器学习的算法包，包含了机器学习的一些常用的算法和处理工具。（）

答案:对YARN既是资源管理调度框架，也是一个计算框架。

答案:错第二名称节点(SecondaryNameNode)是HDFS架构中的一个组成部分，它是用来保存名称节点中对HDFS元数据信息的备份，并减少名称节点重启的时间。（）

答案:对.Hadoop的特点包括高可靠性、高扩展性、高效性、高容错性、高成本。（）

答案:错在一个基本的Hadoop集群中，DataNode主要负责存储被拆分的数据块？（）

答案:对在Hadoop中，安装完全分布式ApacheHadoop的核心配置文件有core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml。（）

答案:对Hadoop的两大核心是HDFS和MapReduce，HDFS用来存储数据，MapReduce用来处理数据。（）

答案:对分布式文件系统HDFS是谷歌分布式文件系统GFS（GoogleFileSystem）的一种开源实现。（）

答案:对SparkSQL目前暂时不支持Lisp语言（）

答案:对进行基于Hadoop的MapReduce编程环境配置时，必须要的步骤包括配置SSH、配置Java环境变量、配置Eclipse和配置Hadoop环境变量。（）

答案:错Hive是一个基于Hadoop的数据仓库工具，用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储。（）

答案:对Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写。

答案:错Hadoop项目包括（）

答案:HadoopDistributedFileSystem;HadoopMapReduce;HadoopCommon下列关于Scala的说法正确的是:（）

答案:Scala是Spark的主要编程语言，但Spark还支持Java、Python、R作为编程语言;Scala运行于Java平台，兼容现有的Java程序;Scala具备强大的并发性，支持函数式编程;Scala是一种多范式编程语言MapReduce相较于传统的并行计算框架有什么优势？（）

答案:what，简单;非共享式，容错性好;普通PC机，便宜，扩展性好;批处理、非实时、数据密集型下列说法中，哪些选项描述正确？（）

答案:Spark在借鉴HadoopMapReduce优点的同时，很好地解决了MapReduce所面临的问题;Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作关于SecondaryNameNode的说法错误的是（）

答案:SecondaryNameNode应与NameNode部署到一个节点;是NameNode的备份;对内存没有要求下列关于传统并行计算框架（比如MPI）和MapReduce并行计算框架比较正确的是（）

答案:前者所需硬件价格贵，可扩展性差，后者硬件便宜，扩展性好;前者适用于实时、细粒度计算、计算密集型，后者适用于批处理、非实时、数据密集型;前者是共享式(共享内存/共享存储)，容错性差，后者是非共享式的，容错性好;前者相比后者学习起来更难对新一代资源管理调度框架YARN的理解正确的是:（）

答案:MapReduce2.0是运行在YARN之上的计算框架，由YARN来为MapReduce提供资源管理调度服务;YARN的体系结构包含三个组件：ResourceManager，NodeManager，ApplicationMaster;YARN可以实现“一个集群多个框架”，即在一个集群上部署一个统一的资源调度管理框架Spark支持的分布式布署方式中哪个是（）。

答案:SparkonYARN;standalone;SparkonMesos启动HDFS集群时，（）

答案:磁盘元数据的大小会影响HDFS集群启动时长;先启动NameNode，再启动DataNodeMapReduce体系结构主要由以下那几部分构成？（）

答案:Task;Client;JobTracker;TaskTracker在一个基本的Hadoop集群中，DataNode主要负责什么（）

答案:存储被拆分的数据块以下哪项不属于Hadoop运行的模式（）

答案:完全分布式Spark中的Executor是（）

答案:执行器以下名词解释不正确的是（）

答案:HBase：提供高可靠性、高性能、分布式的行式数据库，是谷歌BigTable的开源实现SparkSQL目前暂时不支持下列哪种语言（）

答案:LispHDFS的优点不包括（）

答案:适合低延迟数据访问在HDFS根目录下创建一个文件夹/test，且/test文件夹内还包含一个文件夹dir，正确的shell命令是（）

答案:hadoopfs-mkdir-p/test/dir下列关于Scala特性的描述，错误的是哪一项？（）

答案:Scala语法复杂，但是能提供优雅的API计算下面哪个程序负责分布式文件系统HDFS的数据存储（）

答案:DataNode在Hadoop生态系统中，Kafka主要解决Hadoop中存在哪些的问题？（）

答案:Hadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介HDFS中的文件块默认保存几份（）

答案:3份以下哪项通常是搭建Hadoop集群面临的瓶颈（）

答案:磁盘IO在HDFS中，NameNode的主要功能是什么？（）

答案:存储元数据第三次信息化浪潮的标志是（）

答案:云计算、大数据、物联网技术的普及在一个基本的Hadoop集群中，SecondaryNameNode主要负责什么（）

答案:协调数据计算任务以下不属于Hadoop生态圈的组件是（）

答案:Matlab下列关于MapReduce工作流程，哪个描述是正确的（）

答案:所有的数据交换都是通过MapReduce框架自身去实现的上传一个大小为500MB的文件data.txt，到Hadoop2.6搭建的集群上。这个文件会占用多少个HDFS文件块？（）。

答案:4个以下哪些组件不是Hadoop的生态系统的组件（）

答案:MapReduce在Hadoop项目结构中，MapReduce指的是什么（）

答案:分布式并行编程模型Kafka中的最小消息单元是什么？（）

答案:消息Kafka的消费者可以在消费时指定从哪个偏移量开始消费消息，这个偏移量可以是：（）

答案:ABC都是Kafka使用什么作为消息的唯一标识符？（）

答案:偏移量Kafka中的ISR是指什么？（）

答案:副本集合Kafka的副本有什么作用？（）

答案:提高消息处理的容错性Kafka支持哪些消息保证机制？（）

答案:ABC都支持Flume主要用于哪些场景？（）

答案:数据采集和传输FlumeAgent的三个核心组件是Source、Channel和Sink。（）

答案:对Flume内部数据传输的基本单元是Byte。（）

答案:错Flume中，用于存储数据的组件是什么？（）

答案:Channel设计Flume架构时，Sink组件的数据可以流向一个新的Agent的Channel组件。（）

答案:错Flume中，可以使用哪个选项来指定配置文件的路径？（）

答案:--configHive是一个基于Hadoop的数据仓库工具，依赖HDFS存储数据，依赖MapReduce处理数据。（）

答案:对Hive不支持索引。（）

答案:错以下不属于Hive的复合数据类型是（）

答案:SET下列选项中，修改数据表属性的语法格式中用于修改数据表属性操作的子句是（）

答案:SETTBLPROPERTIES以下不属于Hive的原始数据类型是（）

答案:LONG下列对HBase的理解正确的是：（）

答案:HBase是针对谷歌BigTable的开源实现;HBase多用于存储非结构化和半结构化的松散数据下列对HBase数据模型的描述错误的是（）

答案:HBase中执行更新操作时，会删除数据旧的版本，并生成一个新的版本关于HBaseShell命令解释错误的是（）

答案:list：显示表的所有数据HBase是一个行式分布式数据库，是Hadoop生态系统中的一个组件（）

答案:错HBase是一种什么数据库（）

答案:列式数据库HBase和传统关系型数据库的区别在于哪些方面:（）

答案:存储模式;数据操作;数据模型;数据索引MapReduce的作业主要包括什么？（）

答案:计算数据，即CPU密集工作;从磁盘或从网络读取数据，即IO密集工作Hadoop框架是用Java实现的，因此MapReduce应用也必须要用Java编程语言完成。（）

答案:错Spark的计算模式也属于MapReduce，但编程模型比HadoopMapReduce更灵活。（）

答案:对MapReduce集群一般使用大量低端服务器，因此节点硬件失效和软件出错是常态。（）

答案:对在MapReduce工作流程中，所有的数据交换都是通过MapReduce框架自身去实现的（）

答案:对传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是（）

答案:hdfsdfs-putfile.txt/path在Hadoop项目结构中，HDFS指的是什么（）

答案:分布式文件系统以下哪个命令无法用来操作HDFS文件（）

答案:hdfsfs假设已经配置好环境变量，启动Hadoop和关闭Hadoop的命令分别是（）

答案:start-dfs.sh，stop-dfs.sh对HDFS通信协议的理解正确的是:（）

答案:名称节点和数据节点之间则使用数据节点协议进行交互;客户端与数据节点的交互是通过RPC（RemoteProcedureCall）来实现的;客户端通过一个可配置的端口向名称节点主动发起TCP连接，并使用客户端协议与名称节点进行交互JobTracker主要包括哪三大功能？（）

答案:任务监控;资源管理;任务调度以下哪个不

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Hadoop大数据应用开发智慧树知到期末考试答案章节答案2024年深圳信息职业技术学院

文档简介

温馨提示

最新文档

评论

Hadoop大数据应用开发智慧树知到期末考试答案章节答案2024年深圳信息职业技术学院

文档简介

温馨提示

最新文档

评论

相关文档