单元测试2:大数据处理与分析技术II试题及答案_第1页
单元测试2:大数据处理与分析技术II试题及答案_第2页
单元测试2:大数据处理与分析技术II试题及答案_第3页
单元测试2:大数据处理与分析技术II试题及答案_第4页
单元测试2:大数据处理与分析技术II试题及答案_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、单元测试2:大数据处理与分析技术II基本信息:矩阵文本题 *姓名:_部门:_员工编号:_1. MapReduce设计的一个理念就是“计算向数据靠拢”。 判断题 *对(正确答案)错2. 目前数据实验的统计结果表明:正向匹配的切分精度略高于逆向匹配。 判断题 *对错(正确答案)答案解析:逆向匹配的切分精度略高于正向匹配3. 两个键值对和,如果对其进行归并(merge),会得到,如果对其进行合并(combine),会得到a, 判断题 *对错(正确答案)答案解析:两个键值对和,如果合并,会得到,如果归并,会得到“a”,4. 所谓Shuffle过程,是指对Map输出结果进行分区、排序、合并等处理,并交给

2、Reduce的过程。 判断题 *对(正确答案)错5. 第三次信息化浪潮的标志是() 单选题 *个人电脑的普及云计算、大数据、物联网技术的普及(正确答案)虚拟现实技术的普及互联网的普及6. 以下关于云计算、大数据和物联网之间的关系,论述错误的是: 单选题 *云计算侧重于数据分析(正确答案)物联网可以借助于云计算实现海量数据的存储物联网可以借助于大数据实现海量数据的分析云计算、大数据和物联网三者紧密相关,相辅相成答案解析:大数据侧重于海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价提供给用户;物联网的发展目标是实

3、现物物相连,应用创新是物联网发展的核心。7. 每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的 单选题 *GraphXS4(正确答案)ImpalaHive答案解析:S4: Yahoo!的分布式流计算平台8. 以下哪个不是Hadoop的特性: 单选题 *成本高(正确答案)支持多种编程语言高容错性高可靠性9. 以下哪个不是大数据时代新兴的技术: 单选题 *SparkHadoopHBaseMySQL(正确答案)10. 关于Hadoop技术描述错误的是?() 单选题 *HDFS是一个分布式文件系统联盟链HDFS适合存储大量的小文件(正确答案)HDFS存储空间由数据节点数决定答案解析:A选项

4、是定义.B选项说的联盟链指HDFS中的联盟,Hdfs federation实际是把多个hdfs集群统一到一个命名空间下。Hdfs federation 作用扩大NN容量,共享DN数据,且方便客户端访问。C选项是错误的,HDFS小文件存储问题一直是一个令人头疼的问题,因为HDFS是基于大数据存储的,但是它还需要存储元数据信息,无论数据量多大,元数据量是差不多的,所以最好是存储大文件,而不是海量小文件,可以使用归约和压缩的方式进行解决D选项:存储主要是由于DataNode决定,所以数据节点越多,存储能力越强11. 采用多副本冗余存储的优势不包含: 单选题 *保证数据可靠性容易检查数据错误加快数据传

5、输速度节约存储空间(正确答案)12. Hadoop集群中的HDFS的默认的副本块的个数是? 单选题 *123(正确答案)4答案解析:HDFS集群采取分散存储 + 冗余存储的策略,用户上到HDFS集群的文件,HDFS集群会为它存储多份。默认是3份13. Spark 的四大组件下面哪个不是() 单选题 *SQL and DataFramesSpark StreamingMLlib (machine learning)GraphX (graph)是spark的四大组件Spark StreamingMlibGraphxSpark R(正确答案)14. Spark相比Hadoop的, 不是其优势的是()

6、 单选题 *DAG执行引擎线程池模型增多task启动开销(正确答案)充分利用内存,减少磁盘IO更适合迭代计算答案解析:spark 比Hadoop快的原因:数据本地性、调度优化、传输优化,最主要的是基于内存计算和引入了DAG。Hadoop的计算结果在磁盘中,spark是在内存中;数据计算任务需要多个步骤时,Hadoop需要引入Oozie等工具,但是spark有DAGHadoop中,每一个job 的计算结果都会存储在hdfs中,所以每一步计算都要进行硬盘的IO,大大增加了系统的延迟15. HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠

7、性、高可扩展性、高吞吐率等特征,适合的读写任务是? 单选题 *一次写入,少次读出多次写入,少次读出一次写入,多次读出(正确答案)多次写入,多次读出答案解析:HDFS的设计初衷就是为将来的海量数据的分布式计算做铺垫的,所以HDFS是一次写入,多次读出的场景16. MapReduce正确的流程顺序是什么?() 单选题 *Map-Reduce-CombineReduce-Combine- MapMap-Combine- Reduce(正确答案)Combine- Reduce- Map答案解析:map函数操作所产生的键值对会作为combine函数的输入,经combine函数处理后再送到reduce函数

8、进行处理,减少了写入磁盘的数据量,同时也减少了网络中键值对的传输量。17. 下列说法错误的是() 单选题 *Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写(正确答案)Map函数将输入的元素转换成形式的键值对MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave不同的Map任务之间不能互相通信答案解析:hadoop 通过hadoop streaming 的方式也可以调用其他编程语言实现的MR,例如c+等18. 在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hell

9、o world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式: 单选题 *hello,、和(正确答案)、和、和、和答案解析:Map过程:对读取的单词进行map操作,每个词都以形式生成19. 对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是() 单选题 *(正确答案)hello,答案解析:reduce操作是对map的结果进行排序,合并,最后得出词频。20. 大数据的特性包括: *价值密度低(正确答案)处理速度快(正确答案)数据类型繁多(正确答案)数据量大(正确答案)21. Hadoop的

10、两大核心是?() *MapReduce(正确答案)HBaseHDFS(正确答案)GFS答案解析:Hadoop的两大核心是HDFS和MapReduce,HDFS用来存储数据,MapReduce用来处理数据。22. 回顾Hadoop的工作流程,可以发现Hadoop存在如下哪些缺点: *表达能力有限。计算都必须要转化成Map和Reduce两个操作,但这并不适合所有的情况,难以描述复杂的数据处理过程(正确答案)磁盘IO开销大。每次执行时都需要从磁盘读取数据,并且在计算完成后需要将中间结果写入到磁盘中,IO开销较大(正确答案)没有提供文件管理系统,必须和其他的分布式文件系统进行集成才能运作延迟高。一次计

11、算可能需要分解成一系列按顺序执行的MapReduce任务,任务之间的衔接由于涉及到IO开销,会产生较高延迟(正确答案)23. 关于NoSQL数据库和关系数据库,下列说法正确的是: *NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力(正确答案)NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库大多数NoSQL数据库很难实现数据完整性(正确答案)关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础(正确答案)答案解析:如果源数据格式是 SQL 数据,没法控制;数据量小;数据间交叉引用关系复杂;查询模式丰富;应用又不需要高性能;不担心机器故障等高可用性问题,那么继续沿用关系型数据库也是一个务实的选择。24. NoSQL数据库的类型包括: *键值数据库(正确答案)列族数据库(正确答案)文档数据库(正确答案)图数据库(正确答案)25. 分词任务中,主要的难点在于() *未登陆词识别(正确答案)稳定划分歧义切分(正确答案)短文本长文本26. 假设,有以下4种标签:B

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论