完整版hadoop习题册

上传人：y*** IP属地：天津上传时间：2021-06-03 格式：DOCX 页数：18 大小：39.27KB 积分：18 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第一章大数据概述1.互联网的发展分为个阶段。A. B.三C 二D.四2. 下列不属于大数据特点的是（A.种类和来源多样化B.数据量巨大C.分析处理速度快）。D.价值密度高3. 互联网发展的第个时代为智能互联网。A.3.0B.4.0C.1.0D.2.04. 关于大数据叙述不正确的一项是（）。A. 大数据=“海量数据” + “复杂类型的数据”B. 大数据是指在一定时间对内容抓取、管理和处理的数据集合C. 大数据可以及时有效的分析海量的数据D. 数据包括结构化数据、半结构化数据、结构化数据。5. 下列数据换算正确的一项为（A. 1YB=1024EBB. 1TB=1024MBC. 1PB=102

2、4EB）。D.1024ZB=1EB6. 结构化数据的表现形式为A.文本B视图7. 结构化的数据，A.数据B结构C.内容D结构8. 结构化的数据，A.数据B结构C.内容D结构9. 软件是大数据的 A.核心B.部件C引擎10. 大数据技术不包括（A.数据计算B.数据存储11. 大数据的特点不包括（A.数量大B.类型少。C二维表 D.查询先有,再有结构数据结构内容先有结构数据结构内容,再有。D集合）。C数据冗余）。C速度快D.数据采集D.价值高第二章Hadoop 简介1. 下列对云栈架构层数不正确的一项为A. 三层云栈架构B. 四层云栈架构C五层云栈架构D.六层云栈架构2. 下列不是云计

3、算三层架构的概括。A.IaaSB.PaaS C.SaaP3.laaS基础设施及服务可以称为 A.弹性计算4. 四层云栈模式，为虚拟资源层。A.硬件部分B效用计算是将三层模式中的B虚拟化部分D.SaaSOC.有效计算D.随需应用进行分解，分为两层，一层为硬件层，一层C基础设施D.平台5. 五层云栈模式，第五层为。C云应用程序层D.云软件环境层A. 固件/硬件层B.云基本资源层6. 大数据是的应用。A. 人工智能B云计算C物联网D.互联网7. hadoop中第一阶段的输出可以作为下一阶段的输入。A. 应用场景B.分布式计算C.分阶段计算D.高效处理8. .hadoop中将海量数据分割于多个节

4、点，由每个节点并行计算，将得到的结果归并到输出。D.高效处理A.应用场景B.分布式计算C.分阶段计算9. 下列选项中不是 hadoop 特点的是。A.可靠性B.扩容能力C高效率D.成本高10. hadoop 能可靠地存储和处理 A.TBB.PBC.YB11. hadoop 集群可以用 _种模式进行。A.四B.三C五12. hadoop 集群不可以在字节数据。D.ZBD.二进行。A. 联机模式B.单机模式C虚拟分布模式D.完全分布模式13. 模式： hadoop 安装时的默认模式，不对配置文件进行修改。A. 联机B.单机C虚拟分布D.完全分布14. 模式：在一台机器上用软件模拟多节点集群。A

5、. 联机B.单机C虚拟分布D.完全分布15. 模式： Hadoop 安装运行在多台主机上，构成一个真实的hadoop 集群，在所有的节点上都安装JDK和hadoop，相互通过高速局域网连接。A. 联机B.单机C虚拟分布D.完全分布16. 完全分布式，各节点之间设置，将各个从节点生成的公钥添加到主节点的信任列表。A.SSHB.JDKC.hadoop17. 完全分布式，不需要修改的配置文件为A.core-site.xmlB.hdfs-site.xml18. HDFS架构中有两个A.DataNodes B. JobTrackeD.HDFSOC.hadoop-env.shD.mapred -site

6、.xmlC.NameNodeD.SecondayNameNode19. 下列不是 hadoop 核心组件的是。A. JobTrackerB.TaskTrackerC.HDFSD.Hbase20. 存储 Hadoop 集群中所有存储节点上的文件，为海量提供存储。A. JobTrackerB.TaskTrackerC.HDFSD.HBase第四章HDFS文件系统1.机器上。A.分布式存储B.分页式存储C.链式存储2. 下列关于 hadoop 系统架构叙述不正确的一项为A. 由一台In tel x86处理器的服务器或 PC机组成。B. 部署在低成本Intel/linux硬件平台上。C通过高速局域网

7、构成一个计算集群。D.各个节点上运行Lin ux操作系统。3. 主节点程序A.NameNode4. 从节点程序是指跨多台计算或服务器的文件或文件夹，数据存储在多台机器而不是单台OB.DataNodeC.SecondaryNameNodeC.SecondaryNameNodeD.顺序存储D.JobtrackerA.NameNode B.DataNode5. HDFS结构不包括。A.Master体系结构B.主从服务器6. HDFS分布式文件系统的特点为。A.半透明性B低可用性C.可扩展性7. HDFS中的block默认保存份。A.3B.2C.1 D.不确定8. 下列通常与 NameNode 在

8、一个节点启动。A. SecondaryNameNodeB. DataNodeC. TaskTrackerD. Jobtracker9. HDFS每个文件被划分成同 DataNode 上。C元数据服务器D.JobtrackerD存储服务器D.支持一个应用程序并发访问.大小的多个block，属于同一个文件的blocks分散存储在不A. 32MBB. 64MBC. 128MBD. 无法确定10. 下面哪个程序负责 HDFS数据存储？（）A. NameNodeB. JobTrackerC. DataNodeD. SecondaryNameNodeE. tasktracker11. NameNode是H

9、DFS系统中的管理局节点，它管理文件系统的命名空间，记录每个文件数据块在 DataNode 上的位置和副本信息、协调客户端对文件的访问、记录命名空间内的改动和空间本身属性的改动。A. 错误B正确12. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠行、高扩展性、高吞吐率等特征，适合的读写任务是A. 一次写入，少次读取B.多次写入，少次读取 C多次写入，多次读取D.次写入，多次读取13. 关于HDFS的文件写入，正确的是A. 支持多用户对同一文件的写操作B. 用户可以在文件任意位置进行修改C默认将文件复制成三份存放D.复制的文件块默认存在同一机架上14. Cl

10、ie nt在HDFS上进行文件写入时，name node根据文件大小和配置情况，返回部分data node信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块A.Clie ntB. Name nodeC. Data nodeD. Sec on dary n ame node15. HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括A.B.C.D.利用Seque nceFile、Map File、Har等方式归档小文件多Master设计Block大小适当调小调大name node内存或将文件系统元数据存到硬盘里

11、16. 在HDFS的数据读取过程中，客服端首先调用件。的实例的open()方法打开一个文A.DistributedFileSystem17.在HDFS的数据读取过程中, 对象实例返回给客户端。B.FileSystemC.FSDataOut putSystemDistributedFileSystem 获取这些信息后,D.Out putSystem生成一个的 close()接A. DistributedFileSystemC. FSDataOut pu tSystem18. 在HDFS的数据读取过程中, 口关闭这个文件。B. FSDataI np utSystemD.Inpu tSystem客户

12、端读取完所有数据块后，调用的实例的createO方法打开一个文A. DistributedFileSystemC. FSDataOut pu tSystem19. 在HDFS的数据写入过程中, 件。B. FSDataI np utSystemD. Inpu tSystem客服端首先调用 B.FileSystemC.FSDataOut putSystem客户端写完所有数据块后，调用_D.Out putSystem 的close()方法A.DistributedFileSystemC.FSDataOut pu tSystem21.HDFS的错误检测不包括。A.NameNode 检测 B.DataN

13、ode 检测B.FSDatal np utSystemD.Inpu tSystemC数据错误检测D.冗余检测A. DistributedFileSystem20.在HDFS的数据写入过程中, 结束这次文件写入操作。第五章 MapReduce 原理与编程1.MapReduce 应用于的数据处理。A.小规模 B.中小规模C大规模2. MapReduce 能处理的海量数据大于 _A.1TB B.10GB C.10TB3. 下列关于 MapReduce 说法不正确的是A. MapReduce 是一种计算框架B. MapReduce 的核心思想是“分而治之”C. MapReduce 是一个串行的编程模

14、型D. MapReduce来源于Google的学术论文4. 下列关于 MapReduce 的特性叙述正确的一项是A. 自动实现分布式串行计算B. 自动实现分页式并行计算C. 容错，提供状态监控工具D. 不容错，提供状态监控工具5. 在分布式并行计算体系中，A.SISDB.SIMD6. 在分布式并行计算体系中，A.SISDB.SIMDD超大规模D.1PB采用一个指令流处理单个数据流。c.MISD D.MIMD采用多个指令流同时处理多个数据流。D.MIMDC.MISDoc扩展性弱7. 关于集群的特点下列叙述正确的一项是D.性价比低A. 系统吞吐量小B.可靠性高8. 下列关于 MapReduce 的

15、基本思想叙述不正确的一项是A. 对相互间具有计算机以来关系的大数据进行分而治之。B. 用Map和Reduce两个函数提供了高层并行编程抽象模型。C提供了同一框架D. 为程序员隐藏系统细节9. 下列关于 MPI 叙述不正确的一项是A. MPI 是一个信息传递应用程序的接口B. MPI 程序经常在共享内存的机器上使用C. M PI并行计算增加高层并行编程模型D. MPI 缺少统一的计算框架支持10. 下列关于 MapReduce 计算原理叙述不正确的一项是A. 将大数据集划分为小数据集，小数据集划分为更小数据集B. 将最终划分的小数据分发布到集群节点上C. 以串行的方式完成计算处理D. 将计算结果

16、递归融汇，得到最后的结果11. 下列关于 Map/Reduce 并行计算模型叙述正确的一项为A. Map/Reduce 把待处理的数据集分割成许多大的数据块B. 大数据块经Map()函数并行处理后输出新的中间结果C. reduceO函数把多任务处理后的中间结果进行汇总D. reduce 阶段的作用接受来自输出列表的迭代器12. 在 MapReduce 计算架构中，组件属于 hadoop 的软件模块。A.Client B.JobTracker13. 在 MapReduce 计算架构中，分配和工作调度管理。A.Client B.JobTracker14. 在 MapReduce 计算架构中，

17、任务的执行。C. TaskTracker D.Task组件运行在 NameNode 节点上，提供集群资源的C. TaskTracker D.Task组件运行在 DataNode 上，具体管理本节点计算C.TaskTracker D.TaskA.Client B.JobTracker15. 下列关于JobTracker叙述不正确的一项为 A.MapReduce 框架的使用者B协调Map Reduce作业C分配任务D. 监控任务16. 下列关于 Map/Reduce 计算流程叙述不正确的一项为A. Mapper读取分派给它的输出 Split，并生成相应的本地缓存。B. Mapper 执行计算处理任

18、务，将中间结果输出保存在本地缓存。C. App licatio n Master调度Reducer读取 Mapp er的中间输出文件，执行Reduce任务。D. Reducer 将最后结果写入输出文件保存到HDFS。17. MapReduce 流程有各阶段。A.三B.二C四D五18. 在Map Reduce中，阶段，Ma pper执行map task，将输出结果写入中间文件。A.ShuffleB.MapC.Reduce19. 在 MapReduce 中，阶段，把D.SortMapper 的输出数据归并整理后分发给 Reducer 处A.ShuffleB.Map20. 在 MapReduce

19、中， _ A.ShuffleD.SortB.MapC.Reduce_阶段，Reducer执行reduce task，将最后结果写入 HDFSC.Reduce D.Sort第六章HBASE数据库1. HBase 依靠 A. HDFS2. HBase 依赖A.存储底层数据。B. HadoopC._提供强大的计算能力。Zookeeper B. ChubbyC.MemoryRPC3.A.3. 下列选项中，关于 HBase特性描述不正确的一项是A.高可靠性B.高性能C面向行HBase依赖提供消息通信机制ZookeeperB. ChubbyC. RPCD. MapReduceD. MapReduceD.

20、 SocketoD.可伸缩理。Client4. HBase架构的四大组件中，包含访问HBase的接口。A. ZookeeperB.MasterC. Region ServerD.5. HBase架构的四大组件中， HBase具体对外提供服务的进程。A. ZookeeperB.MasterC. Region ServerD. Client6. HBase架构的四大组件中，分布式协调服务器。A. ZookeeperB.MasterC. Region ServerD.Client7. HBase架构的四大组件中，HBase集群的主控服务器。A. ZookeeperB.MasterC. Region

21、 ServerD.Client9. 下列关于HBase系统分层架构叙述不正确的一项为 A. HDFS提供了 HBase的顶层物理存储结构B. Hadoop平台提供了存储基础结构：Hadoop集群及系统软件C. 客户端：提供了数据库访问接口D. Region Server：管理多个regions并提供数据访问服务10. HFile数据格式中的KeyValue数据格式中Value部分是()。A. 拥有复杂结构的字符串B. 字符串C二进制数据D. 压缩数据11. 下列关于 split 叙述正确的一项是。A.当单个StoreFile大小小于一定的阙值后触发B把当前的Region分裂成2个子Regio

22、nC子Region会被Master分配到不同的 Region Server上D.是HBase提供的超载机制12. HBase数据模型以的形式存储数据。A.表B视图C数组D.记录13. 下列不属于HBase基本元素的一项是。A.表B.记录C行键D.单元格14. 下列关于HBase数据模型叙述不正确的一项是 A. 表有单元格组成B. 个表可以包含若干个列族C. 一个列族内可用列限定符来标志不同的列D. 存于表中单元的数据尚需打上时间戳15. 在HBase数据模型中，不可以作为行键的是。A.字符串B.整数C二进制串D.并行化的结构16. 下列关于数据模型中行的叙述不正确的一项为 A. 表按照行

23、键“逐字节排序”顺序对行进行有序化的处理B. 表内数据非常“紧密”C不用行的列的数目完全可以大不相同D.可以只对一行上“锁”17. 在HBase数据模型中，列必须用来定义。A.键B族C单元格D.时间戳的字典序排序。18. 在HBase物理存储结构中，table表中的所有行都按照A.ASCIIB.keyC.row keyD.key rowregion 。19. 在HBase物理存储结构中，region按大小分割的，每个表一开始有A.个B.两个C三个D.不确定20. 是HBase中分布式存储和负载均衡的最小单位。上读写数据。A.HRegionB.Store C.MemStoreD.StoreFi

24、le21. 客户端从 Zookeeper 获取 Region 的存储位置信息后，直接在 _A.ZookeeperB.HMasterC.Region ServerD.HLog22. 将数据更新写入，只有其写入完成后， commit() 才返回给客户端。A.ZookeeperB.HMasterC.Region ServerD.HLog第七章 Hive 数据仓库_，并提供完整的SQL查询功能。D.二维表1. Hive 可以将结构化的数据文件映射成A.数据库表B表单C视图2. 关于Hive与Pig的比较正确的一项为A. Pig更适合于数据呈现的工作B. Pig能对中小规模的数据进行迭代处理C. Hi

25、ve更适合做数据准备阶段的工作D. Hive会按照用户所需要的形式呈现3. Hive 包括中连接模式。A.二B.四 C三D.五4. 模式，只适合于 Hive简单试用及单元测试。A. 单用户模式B. 多用户模式C多用户远程模式D.单用户远程模式5. 模式，多个 Hive 用户通过网络连接到数据库。A. 单用户模式B. 多用户模式C多用户远程模式D.单用户远程模式6. 模式，用于非Java客户端访问元数据库，在服务器端启动一个MetaStoreServer，客户端利用 Thrift 协议通过 MetaStoreServer 访问元数据库。A. 单用户模式B. 多用户模式C多用户远程模式D.单用户远

26、程模式第八章流计算系统。(1.1988 年通信领域的美国学者 Monika R. Henziger 将流数据定义为“只能以事先规定好的顺序被读取一次的数据的一个序列” 。 ()A.正确B.错误2. MapReduce 批处理模型是先将数据存储于文件系统或数据库，然后对存储系统中的静态数据进行处理运算，这一步骤并不是实时在线的，因此又被称为离线批处理模式。()A.正确B.错误3. 流计算是在数据到达之后即进行计算处理。A.正确B.错误4. 在流计算系统模型中，分布式系统常用来表征计算流程或计算模型。A.无项循环图B有向循环图C无向非循环图D.有向非循环图5. 在流计算的处理模式中Nativ

27、e Stream Processing System基于数据读入顺序逐条进行处理，每一条数据达到即可得到及时处理。A.正确B.错误的吞吐率是指服务器在单位时间内对所有的客户端完6. 对 Client/Server 系统而言，成的任务数。A.服务器端B.客户端7. 对 Client/Server 系统而言，成的该客户提交的任务数目。A.服务器端B.客户端C系统端D.管理员端的吞吐率是指对单个客户而言服务器在单位时间内完c系统端D.管理员端8. 关于 Storm 流计算叙述不正确的一项为。A. Storm是一种Native Stream Processing System，即对流数据的处理是

28、基于每条数据进行B. Storm其并行计算是基于有Spout和Bolt组成的有向拓扑图 ToPology来实现C. Topology：定义了串行计算的逻辑模型（或者称抽象模型），也即从功能和架构的角度设计了计算的步骤和流程。D. Topology里的Spout和Bolt的功能是靠 worker节点上的Task来实现Storm 流计算的特点的是。B.实时性 C复杂性D.容错性的计算机体系采用了主从（Master/Slave）架构。B.错误9. 下列不是A.分布式10StormA.正确11. 在Storm的软件架构中，运行在主节点上，是整个流计算集群的控制核心，总体主控程序 Nimbus 集群调度器 Zookeeper 工作节点控制程序 Supervisor 工作进程 Worker负责 topology 的提交、运行状态监控、负载均衡及任务重新分配等。A.B.C.D.由 Hadoop 平台提供，是整个集群状态同步协调的核心12. 在 Storm 的软件架构中， _组件。A. 主控程序 NimbusB. 集群调度器 ZookeeperC. 工作节点控制程序 SupervisorD. 工作进程 Worker13. 在Storm的软件架构中，运行在工作节点（称为nod

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

完整版hadoop习题册

文档简介

温馨提示

最新文档

评论

完整版hadoop习题册

文档简介

温馨提示

最新文档

评论

相关文档