大数据分析师理论知识考试复习题库（含答案）

上传人：无*** IP属地：河北上传时间：2025-04-09 格式：PDF 页数：127 大小：31.52MB 积分：12 举报 版权申诉

已阅读5页，还剩122页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据分析师理论知识考试复习题库(含答案)

一、单选题

1.Spark是用以下那种编程语言实现的？

A、c

B\C++

C、java

D\SeaIa

答案：D

解析：Spark中用Scala开发语法简洁许多，且支持类型推断，可大大提升开发

效率。

2.在FusinlnsightManager界面中，对Lader的操作不包括下列哪个选项()

A、切换Lader主备节点

B、启动Lader实例

C、配置Lader参数

D、查看Lader服务状态

答案：A

解析：在FusinInsight界面中，对Lader的操作不包括切换Lader主备节点

3.Hive不适用于以下哪个场景单选

A、非实时分析，例如日析

B、数据挖掘，例如用户析，区域展示

C、数据汇总，例如母天,每击数，点击排行

D、实时在线数

答案：D

解析：Hive不适用于实时在线数单选。由于hive主要用于数据分析，因此延时

比较高，不适用于实时场景，适用于离线大数据分析

4.Hadp平台中HBase的Regin是由哪个服务进程来管理？

A、HMaster

B、DataNde

C、ReginServer

D、Zkeeper

答案：C

解析：Hadp平台中HBase的Regin是由ReginServer管理

5.Hadp组件在企业应用中，能用于大数据集实时查询的产品有（）。

A、Hive

B、Pig

C、Mahut

DvHbase

答案：D

解析：Hadp组件在企业应用中，能用于大数据集实时查询的产品有Hbase。

6.下列选项中无法通过大数据技术实现的是？（）

A、商业模式发现

B、信用评估

C、商品推荐

D、运营分析

答案：A

解析：商业模式发现无法通过大数据技术实现

7.日常数据通报型报告的特点错误的是（）。

A、进度性

B、规范性

C、时效性

D、全面性

答案：D

解析：日常数据通报型报告的特点有进度性，规范性，时效性。https://zhuan

Ian.zhihu./p/53857057日常数据通报是以定期数据分析报表为依据，反映计划

执行情况，并分析影响和形成原因的一种数据分析报告。这种数据分析报告一般

是按日、周、月、季、年等时间阶段定期进行，所以也叫定期分析报告。

8.HBase依赖（）提供强大的计算能力

A、Prtbuf

B、Java

C、Kafka

D、Chubby

答案：D

解析：谷歌收购云计算公司CuIdSimpIe强化云计算能力

9.以下关于Hive操作描述不正确的是（）。

A、Hive是一个建立在hadp文件系统上的数据仓库架构，可以用其对HDFS上

B\Hive依赖于MapReduce处理数据

C、Hive的加载数据时候，可以用leal进行修饰，表示从某个本地目录下加载

数据

D、Hive一般可以用于实时的查询分析

答案：D

解析：Hive不可以用于实时的查询分析

10.以下关于继承的叙述正确的是（）

A、在Java中类只允许单一继承

B、在Java中一个类只能实现一个接n

C\在Java中一个类不能同时继承一个类和实现一个接口

D、在Java中接口只允许单一继承

答案：A

解析：继承分为单继承和多继承两种形式。单继承允许一个类可以有多个子类,

但只能有一个父类；多继承则允许一个类不仅可以有多个子类，还可以有多个父

类。但需要注意一点，Java只支持单继承，但可以通过接口实现多继承的功能。

一个类可以同时继承一个类和实现一个接口。

11.关于HIVE的描述不正确的？

A、Hive最佳使用景是大数据的批处理作业

B、Hive可以实现大规模数据集上实现低延迟快速的查询

C、Hive构建在基于静态批处理的Hadp之上，Hadp通常有较高的延迟并且在作

业提交和调度的时候需要大量开销

D\Hive查询操作过程严格遵循HadpMapreduce的作用执行模型.Hive将用户的

HveQL语句通过解释器转换为MapreduceHadp集群上

答案：B

解析：Hive不可以实现大规模数据集上实现低延迟快速的查询。Hive构建在基

于静态批处理的Hadp之上，Hadp通常都有较高的延迟并且在作业提交和调度的

时候需要大量的开销。因此，hive并不能够在大规模数据集上实现低延迟快速

的查询

12.MapReduce的Shuffle过程以下中哪个操作是最后做的？

A、排序

B、合并

C、分区

D、溢写

答案：B

解析：map阶段shuffle过程就是将map结果进行分区、排序'合并

13.以下哪个方法用于定义线程的执行体？

A、start0

B、init()

C、run()

D\synchrnized0

答案：C

解析：run()方法是用来定义这个线程在启动的时候需要做什么，但是，直接执

行run()方法那就不是线程，必须使用start。启动，那样才是线程。线程是进

程中的实体，一个进程可以拥有多个线程，一个线程必须有一个父进程。线程不

拥有系统资源，只有运行必须的一些数据结构；与父进程的其它线程共享该进程

所拥有的全部资源。线程可以创建和撤消线程，从而实现程序的并发执行。一般，

线程具有就绪、阻塞和运行三种基本状态。

14.以下哪种不是Hive支持的数据类型？

A、Struct

B、Int

C、Map

DvLng

答案：D

解析：Hive不支持Lng类型，Lng是Java里面的，在Hive里Lng对应的应该是

BIGINTo

15.下面说法错误的是（）。

A、Hadp集群采用的是Master/Slave工作模式

B\DataNde上保存着的是元数据，真正的数据是存放在NameNde上的

C、HDFS采用了一种对文件切割后分别存放的存储方式。

D、HDFS是为高数据吞吐量应用优化的。

答案：B

解析：DataNde上数据块以文件形式存储在磁盘上,包括两个文件,一个是数据本

身，一个是数据块元数据包括长度、校验'时间戳；

16.请问以下哪个命令组成是错误的？

A、sbin/stp-dfs.sh

B、sbin/hdfsdfsadmin-reprt

C、bin/hadpnamende-frmat

Dvbin/hadpfs-cat/hadpdata/my.txt

答案：B

解析：A选项，sbin/stp-dfs.sh是用来停止日志相关服务。C选项，它负责管

理文件系统的命名空间，维护文件系统的文件树以及所有的文件和目录的元数据。

D选项，文件目录有关。B选项命令不存在。所以选B。

17.YARN中默认的资源调度器是？

A、FIF调度器

B、容量调度器

GFair调度器

D、以上全不是

答案：B

解析：YARN中默认的资源调度器是容量调度器

18.关于相关性rA,B说法错误的是（）。

A、rA,B>0,正相关。A随B的值得增大而增大

B、rA,B=0不相关。AB无关

C、rA,B〈O,负相关。A随B的值得增大而减少

D、不能单纯依据rA,B<Ofig定AB相关性

答案：D

解析：不能单纯依据rA,B〈Ofig定AB相关性是错误的r为相关系数

19.HDFS有一个gzip文件大小75MB,客户端设置Bick大小为64MBo当运行map

reduce任务读取该文件时inputsplit大小为？

A\—map取64MB,另外—map取11MB

B、128MB

G64MB

D、75MB

答案：D

解析:gzip不支持split,所以inputsplit大小为文件大小

20.以下关于fusininsightCTbase的描述不正确的是？

A、CThase的读写数据接口，统一封装了行定义的接口，自动进行冷字段的合并

和解析,不需要在应用程序中进行合并和解释

B、CTHBase是基于Hbase的聚簇表开发框架。云HBASE数据库(CT-Hbase)基

于开源HBase引擎，支持NSQL和二级索引的实时数据分析服务。

C、CTHbase提供了一套Webui进行元数据定义，提供了只管医用的表设计工具，

降低表设

D、CTHbase的javaAPI提供一套Hbas链接池管理的接口，内部进行连接共享,减

少客户端应用开发难度。

答案：B

解析：CTHBase不是基于Hbase的聚簇表开发框架。云HBASE数据库(CT-Hbase)

基于开源HBase引擎,支持NSQL和二级索引的实时数据分析服务。

21.在Webheat架构中，用户能够通过安全的HTTPS协议执行以下哪些操作？

A、执行HiveDDL操作

B\运行Mapreduce任务

C\运行HiveHL任务

D、以上全都正确

答案：D

解析：在Webheat架构中，用户能够通过安全的HTTPS协议执行HiveDDL操作、

运行Mapreduce任务、运行HiveHL任务

22.HBase依赖()提供消息通信机制

A、Zkeeper

B\Chubby

C\RPC

D、Scket

答案：A

解析：ZKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Ggl

e的Chubby一个开源的实现，是Hadp和Hbase的重要组件。它是一个为分布式

应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同

步、组服务等。

23.在Mapper类中，共有4个函数：setup()\map()、()、run()。

A、Reducer0

B\cIeanup0

C、SplitO

D、IcaI0

答案：B

解析：在Mapper类中，共有4个函数：setup()、map()、cIeanup()、r

un()o

24.kafka-cIustermirrring工具可以实现以下哪个功能()

A、kafka集群数据同步方案

B、kafka单集群内数据备份

C、kafka单集群内数据恢复

D、以上全部不对

答案：A

解析：kafka-cIustermirrring工具可以实现kafka集群数据同步方案

25.FusininsightHD系统中Hive不支持的存储格式包括？

A、TextfiIe

B、SequencefiIe

C、RCFILE

D、HfiIe

答案：D

解析:FusininsightHD系统中Hive不支持的存储格式包括HfiIe。Textfile文

本文件SequencefilesequenceFiIe文件是Hadp用来存储二进制形式的［Key,Va

lue］对而设计的一种平面文件(FlatFiIe)。RCFiIe文件格式是FaceBk开源的一

种Hive的文件存储格式，首先将表分为几个行组，对每个行组内的数据进行按

列存储，每一列的数据都是分开存储，正是先水平划分，再垂直划分的理念。H

FiIe是HBase存储数据的文件组织形式。

26.关于数据分析报告错误的是()。

A、展示分析结果

B\验证分析质量

C、展示分析过程

D、提供决策依据

答案：C

解析：数据分析报告用来展示分析结果，验证分析质量以及提供决策依据https:

//zhuanlan.zhihu./p/53857057数据分析报告一项目可行性判断的重要依据。

27.UMP系统中的角色不包括

A、CntrIler服务器

B、Prxy服务器

CvAgent服务器

D、HDFS服务器

答案：D

解析：UMP系统中的角色包括CntrIler服务器、Web控制台、Prxy服务器、Age

nt服务器、日志分析服务器、信息统计服务器、愚公系统；依赖的开源组件包

括Mnesia、RabbitMQ、ZKeeper和LVS。

28.Hive是基于Hadp的数据仓库软件，可以查询和管理PB级别的分布式数据。

以下关于hive特性的描述不正确的是？

A、灵活方便的ETL

B、易用易编程

C、可直接访可HDFS又件以及Hbase

D\仅支持mapreducet计算引擎

答案：D

解析：目前Hive支持MapReduce、Tez和Spark3种计算引擎

29.创建Lader作业中，可以在以下哪个步骤中设置过滤器类型（）

A、输入设置

B、转换

C、基本信息

D、输出

答案：A

解析：创建Lader作业中，可以在输入设置中设置过滤器类型

30.YARN的基于标准调度，是对下列选项中的哪个进行标签化？

A、Appmaster

B、Resurcemanager

C、Ndemanager

D、Cntainer

答案：c

解析：YARN的基于标准调度，是对Ndemanager进行标签化

31.下列哪些语句关于Java内存回收的说明是正确的？

A、程序员必须创建一个线程来释放内存

B、内存回收程序负责释放无用内存

C、内存回收程序允许程序员直接释放内存

D、内存回收程序可以在指定的时间释放内存对象

答案：B

解析：A：垃圾回收程序是一般是在堆上分配空间不够的时候会自己进行一次GC

（垃圾收集），程序员不需要也不能主动释放内存。B：Java的内存释放由垃圾

回收程序来进行释放C：在Java里，内存的释放由垃圾回收程序进行管理，程

序员不能直接进行释放。D：程序员可以调用System.gc（）运行垃圾回收器，但

是不能指定时间。

32.Hadp集群中存在的最主要瓶颈是（）。

A、CPU

B、网络

C、磁盘10

D、内存

答案：C

解析：面对大数据，读取数据需要经过I,这里可以把I理解为水的管道。管道

越大越强，我们对于T级的数据读取就越快。所以I的好坏，直接影响了集群对

于数据的处理。

33.下面与Zkeepe类似的框架是哪一个？（）

A、Prtbuf

B、Java

C、Kafka

D、Chubby

答案：D

解析：顾名思义zkeeper就是动物园管理员，他是用来管hadp（大象）、Hive（蜜

蜂）、Pig（小猪）的管理员，Zkeeper:是一个分布式的、开源的程序协调服务，是

hadp项目下的一个子项目。他提供的主要功能包括：配置管理、名字服务、分

布式锁、集群管理。A：PrtcIBuffers是一种轻便高效的结构化数据存储格式,

可以用于结构化数据串行化，或者说序列化。B：面向对象的编程语言；C：Kaf

ka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。

D：Chubby是一个面向松耦合分布式系统的锁服务，通常用于为一个由大量小型

计算机构成的松耦合分布式系统提供高可用的锁服务。一个分布式锁服务的目的

是允许他的客户端进程同步彼此的操作，并对当前所处环境的基本状态信息达成

一致。

34.以下哪个部分不是一篇数据分析报告必须有的。（）

A、标题

B、正文

C、结论与建议

D、附录

答案：D

解析：附录不是一篇数据分析报告必须有的。

35.以下关于Zkeeper的Leader节点在收到数据变更请求后的读写流程说法正确

的是？

A、仅写入内存

B、同时写入磁盘和内存

C、先写入内存再写入磁盘

D、先写磁盘再写内存

答案：D

解析：Zkeeper的Leader节点在收到数据变更请求后的读写流程是先写磁盘再

写内存

36.在fusinlnsigh产品中，关于kafka的tpic,以下描述不正确的是?

A、tpic的partitin数量可以创建时配置

B、每个tpic只能被分成一个partitin区

C、每条发布到kafka的消息都有一个类别,这个类别被称为tpic.也可以理解为

一个存储消息的队列

D、每个partitin在存储层面对应一^Ig文件，Ig文件中记录了所有的消息数

据

答案：B

解析：Kafka中Tpic被分成多个Partitin分区。tpic是一^逻辑概念，Parti

tin是最小的存储单元，掌握着一个Tpic的部分数据。每个Partitin都是一^

单独的1g文件，每条记录都以追加的形式写入。

37.HBase表中每个celI的多版本是通过()表示的。

A、timestamp

B、rwkey

C、bIckid

D、ceIIid

答案：A

解析：HBase通过以下几个要素来定位一^t"celI：表(table),行(rwkey),

列族(cIumnfamiIy),列标识(cIumnquaIifier),时间戳(timestamp)。每

个CelI可能有多个版本，它们之间用时间戳(TimeStamp)区分。

38.FusininsightHD中Lader从SFTP服务器导入文件时不需要做编码转换和数

据转换且速度最快的文件类型是以下哪项？

A、graph-fiIe

B、binary-fiIe

C、text-fiIe

D、sequence-fiIe

答案：B

解析:binary-fiIe是FusininsightHD中Lader从SFTP服务器导入文件时不需

要做编码转换和数据转换且速度最快的文件类型

39.下面与HDFS类似的框架是？

A、NTFS

B、FAT32

C、GFS

D、EXT3

答案：C

解析：HDF(HarmnySDriverFundatin)驱动框架，为驱动开发者提供驱动框架能

力，包括驱动加载、驱动服务管理和驱动消息机制。

40.关于Dataset,下列说法不正确的是？

A、Dataset不需要反序列化就可执行大部分操作

B、Dataset是一个由特定域的对象组成的强类型集合

GDataset与RDD高度类似〉性能比RDD好

D、Dataset执行srt,fiIter,shuffle登操作需要进行反序列化

答案：D

解析：Dataset执行srt,fiIter,shuffle登操作不需要进行反序列化。Java序

列化就是指把Java对象转换为字节序列的过程Java反序列化就是指把字节序列

恢复为Java对象的过程。序列化最重要的作用：在传递和保存对象时.保证对象

的完整性和可传递性。对象转换为有序字节流,以便在网络上传输或者保存在本

地文件中-反序列化的最重要的作用：根据字节流中保存的对象状态及描述信息,

通过反序列化重建对象。

41.Zkeeper在分布式应用中主要的作用不包括以下哪些选项？

A、选举Master节点

B、保证各节点上数据的

C、分配集群资源

D、存储及群中

答案：C

解析：资源分配是Spark任务中需要深入理解

42.Hive是以（）技术为基础的数据仓库。

A、HDFS

B、MAPREDUCE

C、HADP

D、HBASE

答案：C

解析：Hive是基于Hadp的一个数据仓库工具，用来进行数据提取、转化、加载，

这是一种可以存储'查询和分析存储在Hadp中的大规模数据的机制。A:Hadp分

布式文件系统（HDFS）是指被设计成适合运行在通用硬件上的分布式文件系统。B:

MapReduce是一种编程模型，用于大规模数据集的并行运算。D:HBase是一个分

布式的、面向列的开源数据库

43.关于fusinInsightHDStreaming的Supervisr描述正确的是（）

A、Supervisr是在Tplgy中接受数据然后执行处理的组件

B、Supervisr负责接受Nimbus分配的任务,启动和停止属于自己管理的Wrker

进程

C、Supervisr负责资源分配和任务调度

D、supervisr是运行具体处理逻辑的过程

答案：B

解析：Bit是在Tplgy中接受数据然后执行处理的组件；Nimbus:负责资源分配

和任务调度；Supervisr:负责接收Nimbus分配的任务

44.在Spark生态组件中，哪个产品可用于复杂的批量数据处理。（）

A、SparkCre

B\SparkSqI

C、SparkStreaming

D、MLIib

答案：A

解析：1.在Spark生态组件中，sparkcre可用于复杂的批量数据处理2.SparkS

beaming是一个对实时数据流进行高吞吐、高容错的流式处理系统3.MLIib：是

Spark实现一些常见的机器学习算法和实用程序4.SparkSQL是基于sparkcre提

供的一个用来处理结构化数据的模块（库）

45.关于hive与传统据仓库的对比，以下描述错误的是？

A、数据存储独位于数据存储之外，从而解耦合元数据和数据，灵活性高，而传统

数据，灵活性低

B、Hive基于HDFS存储理论上存储量可无限扩展，而传统数据仓库存储量会有

上限

C、由于hive的数据存储在HDFS中，所以可以保证数据的高容错，高可靠

D、由于Hive基于大数据平台，所以查询效率比传统数据仓库快

答案：D

解析：Hive在加载数据的过程中不会对数据进行任何处理，甚至不会对数据进

行扫描，因此也没有对数据中的某些Key建立索引。Hive要访问数据中满足条

件的特定值时，需要暴力扫描整个数据，因此访问延迟较高

46.关于HBase与传统的关系数据库的区别说法错误的是

A、数据类型：关系数据库采用关系模型，具有丰富的数据类型和存储方式，HB

ase则采用了更加简单的数据模型，它把数据存储为未经解释的字符串

B、数据操作：关系数据库中包含了丰富的操作，其中会涉及复杂的多表连接。H

Base则不存在复杂的表与表之间的关系，只有简单的插入、查询、删除、清空

等，因为HBase在设计上就避免了复杂的表和表之间的关系

C、存储模式：关系数据库是基于行模式存储的。HBase是基于列存储的，每个

列族都由几个文件保存，不同列族的文件是分离的

D、数据维护：在关系数据库中执行更新操作时，并不会删除数据旧的版本，而

是生成一个新的版本，旧有的版本仍然保留。在HBase中，更新操作会用最新的

当前值去替换记录中原来的旧值，旧值被覆盖后就不会存在。

答案：D

解析：数据维护：在关系数据库中，更新操作会用最新的当前值去替换记录中的

原来的旧值，旧值被覆盖够就不会存在，而在HBase中执行更新操作时，不糊并

不会删除数据旧的版本，而是生成一个新的版本，旧的有的版本保留。

47.以下哪类数据不属于半结构化数据？

A、HTML

B、XML

C、二维表

D、JSN

答案：C

解析：二维表,数据结构,是一个关系名，意思是指关系模型中，数据结构的表示方

法

48.在Hadp生态组件中，哪个产品可用于复杂的批量数据处理。（）

A、MapReduceXHive

B、ImpaIa

C、Strm

D、Mahut

答案：A

解析：在Hadp生态组件中，MapReducevHive可用于复杂的批量数据处理。

49.以下关于HiveSQL基本操作描述正确的是（）

A、创建外部表必须要指定Lcatin信息

B\创建外部表使用external关键字，创建普通表需要指定internal关键字

C、加载数据到Hive时源数据必须是HDFS的一个路径

D、创建表时可以指定列分割符

答案：D

解析：建立外部表可以不指定Lcatin,会在默认在/hive/warehuse/数据库名称

/表名，建立目录。创建内部表时不需要关键字。加载数据到Hive时源数据不一

定是HDFS的一个路径

50.HDFS的副本放置策略中，同一机架不同的服务器之间的距离是（）

A、3

B、2

C、1

D、4

答案：B

解析：HDFS的副本放置策略中，同一机架不同的服务器之间的距离是2

51.关于HBaseRegin的定位说法错误的是

A、元数据表，又名.META.表，存储了Regin和Regin服务器的映射关系。当HB

ase表很大时，.META.表也会被分裂成多个Regin

B、为了加快访问速度，.META.表的全部Regin都会被保存在内存中

C、根数据表，又名-RT-表，记录所有元数据的具体位置。-RT-表只有唯一一个

Regin,名字是在程序中被写死的。Zkeeper文件记录了-RT-表的位置

D、为了加速寻址，客户端会缓存位置信息，寻址过程客户端只需要询问Zkeepe

r服务器，不需要连接Master服务器，由于数据放在内存中，因此不存在缓存

失效问题。

答案：D

解析：客户端访问数据时的“三级寻址”-为了加速寻址，客户端会缓存位置信

息，同时,需要解决缓存失效问题•寻址过程客户端只需要询问Zkeeper服务器，

不需要连接Master服务器

52.HBasett靠（）存储底层数据

A、HDFS

B、Hadp

C、Memry

D、MapReduce

答案：A

解析：首先HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储

的数据库.另一个不同的是HBase基于列的而不是基于行的模式.

53.关于HBase下面说法正确的是（）。

A、HBase®一个稀疏、多维度、排序的映射表，这张表的索引是行键、列

B、每个值是一个未经解释的字符串，没有数据类型，程序员要自己去对它进

C、用户在表中存储数据，每一行都有一个可排序的行键和任意多的列

D、以上说法都正确

答案：D

解析：Hbase是HadpDatabase的简称，Hbase是分布式、面向列的开源数据库（准

确是面向列族）。HDFS为Hbase提供可靠的底层数据存储服务，MapReduce为H

base提供高性能的计算能力，Zkeeper为Hbaset提供稳定服务和FaiIver机制，

因为我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取

的分布式数据库解决方案。Hbase的特点：1,海量存储2,列式存储3,极易扩

张4,高并发5,稀疏（主要针对Hbase的灵活性）

54.下列不可作为java语言标识符的是

A、a1

B、1

C、1

D、11

答案：D

解析：Java标识符由数字，字母和下划线（_）,美元符号（$）或人民币符号

（¥）组成。在Java中是区分大小写的，而且还要求首位不能是数字。

55.从数据表中查找记录用以下哪一项（）

A、UPDATE

B、FIND

GSELECT

D、CREATE

答案：C

解析：SELECT用于查找记录

56.LSM更能保证哪种操作的性能？

A、读

B、写

C、随机读

D、合并

答案：B

解析：B+索引树和1g型（append）文件操作（数据库WAL日志）是数据读写的

两个极端。B+树读效率高而写效率差；1g型文件操作写效率高而读效率差；因

此要在排序和1g型文件操作之间做个折中，于是就引入了lg-structedmergetr

ee模型，通过名称可以看出LSM既有日志型的文件操作，提升写效率，又在每

个sstable中排序，保证了查询效率。

57.查看kafkaMTpic的partitin详细信息时,使用如下那个命令?

Avbin/kakfa-tpicssh—create

B、bin/kakfa-tpicssh—deIete

C、bin/kakfa-tpics.sh-list

Dvbin/kakfa-tpics.sh—describe

答案：D

解析：使用bin/kakfa-tpicssh—describe查看kafkaMTpic的partitin详细信

息

58.关于HBaseshelI命令，哪个命令是使表无效。（）

A、aIert

B\disabIe

C\drp

D、以上都不是

答案：B

解析：1.alter:修改列族模式2.disable：使表无效3.drp：删除表

59.Kafka集群中，Kafka服务端部署的角色是

A、Prducer

B、Cnsumer

CvZKeeper

D、Brker

答案：D

解析：一台kafka服务器节点就是一个brker,负责处理消息读、写请求，存储消

息,在kafkacluster这一层这里,其实里面是有很多个brker—集群由多个br

ker组成。prducer是向kafkabrker发消息的客户端,cnsumer是向kafkabrker

取消息的客户端

60.LSM含义是?

A、日志结构合并树

B、二叉树

C、平衡二叉树

D、长平衡二叉树

答案：A

解析：LSM-Tree全称是LgStructuredMergeTree,是一种分层，有序，面向磁盘

的数据结构，其核心思想是充分了利用了，磁盘批量的顺序写要远比随机写性能

图出很多

61.FusininsightHD系统审计日志不可以记录下面哪些操作？

A、手动清除告警

B、启停服务实例

C、查询历史监控

D、删除服务实例

答案：C

解析：FusininsightHD系统审计日志不可以记录查询历史监控

62.关于hive建表基本描述正确的是()

A、不可再修改表名

B、可再增加新列

C\创建外部表需要制定externaI关键字

D、不可再修改列名

答案：C

解析：创建外部表需要制定external关键字

63.Hbase中以下对于LSM的描述正确的是()。

A、LSM的读操作和写操作是独立

B、LSM的读操作和写操作不是独立

C、LSM并不区分读和写

DxLSM中读写是同一种操作

答案：A

解析：LSM中读操作和写操作相互独立，且并不相同

64.有一段java应用程序，它的主类名是a1,那么保存它的源文件名可以是

A、a1.java

B、a1.cIass

C、a1

D、都对

答案：A

解析：1、必须以java结尾。这样才能被编辑器javacexe所编辑。2、源文件中

如果只有一个类，文件名必须与该类名相同。3、输入命令：pushd路径（此命

令可将当前目录设为所希望的任一个已存在的路径）。4、输入命令：e：转移到

e盘，然后再输入cd转移到所希望的已知路径。

65.关于MapReduce框架中一^乍业的reduce任务数，下列说法正确的是（）

A、由自定义的Partitiner来确定

B、是分块总数目的一半

C、可以由用户来自定义，通过JbCnf.setNumReducetTask（int）来设定一^IM乍

业中reduce的任务数目

D\由MapReduce随机确定其数目

答案：C

解析：—jb的ReduceTasks数量是通过mapreduce.jb.reduces参数设置也可

以通过编程的方式，调用Jb对象的setNumReduceTasks（）方法来设置目

66.以下命令组成错误的是（）。

A、vim/etc/prfiIe

B\surce/etc/prfiIe

C、hadpnamende-frmat

D\bin/hadpfs-cat/hadpdata/y/txt

答案：D

解析：394、vim/etc/prfiIe虽然可以进入prfiIe文件，但是对于普通用户，无

法修改；etc/prfiIe:在登录时，操作系统定制用户环境时使用的第一个文件，此

文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行。使用

命令hadpnamende-frmat对namende进行格式化。hadpfs-cat＞从DFS多个part

文件合并拷贝文件到本地文件系统。

67.不属于HDFS优势是（）„

A、时间快

B、超大文件

C、大量小文件

D、商用硬件

答案：A

解析：HDFS优势：1、海量数据存储：HDFS可横向扩展，其存储的文件可以支持

PB级别或更高级别的数据存储。2、高容错性：数据保存多个副本，副本丢失后

自动恢复。可构建在廉价的机器上，实现线性扩展。当集群增加新节点之后，n

amende也可以感知，进行负载均衡，将数据分发和备份数据均衡到新的节点上。

3、商用硬件：Hadp并不需要运行在昂贵且高可靠的硬件4、大文件存储

68.在创建对象时必须

A、先声明对象，然后才能使用对象

B、先声明对象，为对象分配内存空间，然后才能使用对象

C、先声明对象，为对象分配内存空间，对对象初始化，然后才能使用对象

D、上述说法都对

答案：C

解析：Java就是这样规定的

69.Hbase的某张表的Rwkey划分splitkey为9.E.a.z请问表里面有几个Regin?

A、6

B、3

C、5

D、4

答案：C

解析：Hbase的某张表的Rwkey划分spIitkey为9.E.a.z表里面有5个Regin

70.在Zkeeper和Yarn的协同工作中，当ActiveResurcemanager产生故障时，S

tandbyResurcemanager会从以下哪个目录中获取AppIicatin相关信息（）

A、metastre

B、Statestre

CvStreage

DvWarehuse

答案：B

解析：在Zkeeper和Yarn的协同工作中,当ActiveResurcemanager产生故障时，

StandbyResurcemanager会从Statestre目录中获取AppIicatin相关信息（）

71.Kafka集群在运行期间直接依赖于下面哪些组件？

A、spark

B、zkeeper

Cvhdfs

Dvhbase

答案：B

解析：ZKeeper作为给分布式系统提供协调服务的工具被kafka所依赖

72.下面与Zkeepe淡似的框架是？

A、Prtbuf

B、Java

C、Kafka

D、Chubby

答案：D

解析：，ZKeeper是一^分布式服务框架，是ApacheHadp的一^1^子项目，主要

用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、配置

管理、集群管理、分布式锁、发布/订阅等。

73.HFiIe数据格式中的KeyValue数据格式中Value部分是()。

A、拥有复杂结构的字符串

B、字符串

C、二进制数据

D、压缩数据

答案：C

解析：元数据是key-value类型的值，但元数据快只保存元数据的vaIue值，元

数据的key值保存在第五项(元数据索引块)中。

74.解压.tar.gziS尾的HBase压缩包使用的Linux命令是？

A、tar-zxvf

B、tar-zx

C、tar-s

D、tar-nf

答案：A

解析：tar-zxvf

75.Flume用于收集数据，其传输的数据基本单位是？

AvSplit

B、Bick

C、Event

D、Packet

答案：c

解析：Flume用于收集数据，其传输的数据基本单位是Event。

76.下面哪个进程负责MapReduce任务调度。

A、NameNde

B、Jbtracker

C\TaskTracker

D、SecndaryNameNde

答案：B

解析：Jbtracer负责MapReduce任务调度

77.HFiIe数据格式中的Magic字段用于0。

A、存储随机数，防止数据损坏

B、存储数据的起点

C、存储数据块的起点

D、指定字段的长度

答案：A

解析：每一个HFiIe内部包括多种不同类型的块结构，这些块结构从逻辑上来讲

可归并为两类。分别用于数据存储和数据索弓I（简称数据块和索引块）

78.LSM的读操作和写操作是独立的？

A、是。

B、否。

C、LSM并不区分读和写

DxLSM中读写是同一种操作

答案：A

解析：如果我们对写性能特别敏感，我们最好怎么做？一一Appendnly：所有写

操作都是将数据添加到文件末尾。这样做的写性能是最好的，大约等于磁盘的理

论速度（200~300MB/s）o

79.fusininsight对于管理操作，下列错误的是?

A、可对服务进行启停重启

B、可以添加和卸载服务

C、常用服务隐藏或显示

D、可查看服务的当前状态

答案：C

解析：可设置不常用的服务隐藏或显示

80.Hive中的数据类型，下面说正确的是（）。

A、TINYINT,1个字节（8位）有符号整数

B、SMALLINT,2字节（16位）有符号整数

C、INT,4个字节（32位）有符号整数

D、以上都正确

答案：D

解析：1.Hive中的数据类型分为两类：基本类型和复杂类型2.基本类型包含：t

inyint,smaIIint,int,bigint,flat,dubIe,bIean,string,timestamp,

binary3.复杂类型：array,map和structa.array：数组类型，对应了Java中

的集合或者数组。

81.以下哪个不是HDFS的守护进程

A、SecndaryNameNde

B、NameNde

GMrappMaster/YarnChiId

D、DataNde

答案：c

解析：namende\Secndnamende\Datande\Jbtracker\Tasktracker都是守护进程

82.以下哪个channel类型的数据不会持久化（）?

AvFiIeChanneI

B、MemryChanneI

C、JDBCChanneI

D、HDFSChanneI

答案：B

解析：JDBCChanneI的数据类型不会持久化

83.hadp系统中YARN资源的抽象是用什么表示？

A、内存

B、CPU

C、Cntainer

D、磁盘空间

答案：C

解析：hadp系统中YARN资源的抽象是用Cntainer表示

84.Spark是用以下哪种编程语言实现的（）?

A、C

B、C++

C、JAVA

D、SeaIa

答案：D

解析：Scala是Spark的原生语言

85.关系数据库已经流行很多年，Hadp已经有了HDFS和MapReduce,关于需要H

Base说法错误的是

A、Hadp可以很好地解决大规模数据的离线批量处理问题，但是，受限于HadpM

apReduce编程框架的高延迟数据处理机制，使得Hadp无法满足大规模数据实时

处理应用的需求

B、HDFS面向随机访问模式，不是批量访问模式

C、传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性

能问题（分库分表也不能很好解决）

D、传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间

答案：B

解析：Hadp可以很少地解决大规模数据的离线批量处理问题，但是，受限于ha

dpMapReduce编程框架的高延迟数据处理机制，使得hadp无法满足大规模数据

实施处理应用的需求HDFS面向批量访问模式，不是随机访问模式。传统的通用

关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题（分库分

表也不能很好的解决）传统关系数据库在数据结构变化时一般需要停机维护，空

列浪费存储空间因此，业界出现了一类面向半结构化数据存储和处理的高扩展、

低写入、查询延迟的系统，例如，键值数据库、文档数据库和列族数据库（如B

igTable和HDase）Hbase已经成功应用于互联网服务领域和传统行业的众多在

线模式数据分析处理系统中

86.HBase表中每个celI的多版本是通过（）表示的？

A、timestamp

B、rwkey

C、bIckid

D、ceIIid

答案：A

解析：每个CelI可能有多个版本，它们之间用时间戳（TimeStamp）区分。

87.为了保障流应用的快照存储的可靠性，快照主要存储在哪里？

A、jbmanager的内存中

B、可靠性高的单机数据库中

C、本地文件系统中

D、hdfs中

答案：D

解析：为了保障流应用的快照存储的可靠性，快照主要存储在hdfs中

88.关于HBase的HLg工作原理说法错误的是

A、分布式环境必须要考虑系统出错。HBase采用HLg保证系统恢复

B、HBase系统为每个Regin服务器配置了一个HLg文件，它是一种预写式日志

(WriteAheadLg)

C、用户更新数据不需要先写入日志后，才能写入MemStre缓存，并且，直到Me

mStre缓存内容对应的日志已经写入磁盘，该缓存内容才能被刷写到磁盘

D、发生故障后，系统会根据每条日志记录所属的Regin对象对HLg数据进行拆

分，分别放到相应Regin对象的目录下，然后，再将失效的Regin重新分配到可

用的Regin服务器中，并把与该Regin对象相关的HLg日志记录也发送给相应的

Regin服务器

答案：C

解析：Regin服务器领取到分配给自己的Regin对象以及与之相关的HLg日志记

录以后，会重新做一遍日志记录中的各种操作，把日志记录中的数据写入到Mem

Stre缓存中，然后，刷新到磁盘的StreFile文件中，完成数据恢复。

89.采用Flume传输数据过程中，为了防止因Flume进程重启而丢失数据，推荐

使用以下哪种channel类型？

A、MemryChanneIs

B\FiIeChanneI

C、JDBCChanneI

D\HDFSChanneI

答案：B

解析：采用Flume传输数据过程中，为了防止因Flume进程重启而丢失数据，推

荐使用FiIeChannel

90.加载数据到Hive表，哪种方式不正确？

A、直接将本地路径的文件lad到Hive表中

B、将HDFS上的文件lad到Hive表中

C、Hive支持Insertint单条记录的方法，所以可以直接在命令行插入单条记录

D、将其他表的结果集insertint到Hive表

答案：C

解析：Hive不支持Insertint单条记录的方法

91.关于HadpMapReduce分片(spit)概念，下列说法不正确的是()。

A、Hadp为每个spIit创建—个Map任务

B、split的多少决定了Map任务的数目

C、大多数情况下，理想的分片大小是一个HDFS块对应一个spit

D、split是一个物理概念

答案：D

解析：split不是一^物理概念，是一个概念上的切片，blck是物理概念。

92.以下选项中，不属于信息时代的定律的是()

A、吉尔德定律

B、摩尔定律

C、麦特卡尔夫定律

D、达律多定律

答案：A

解析：吉尔德定律(GiIder'sLaw)又称为胜利者浪费定律，由乔治•吉尔德提出，

最为成功的商业运作模式是价格最低的资源将会被尽可能的消耗，以此来保存最

昂贵的资源。.吉尔德定律(GiIder飞Law)被描述为：在未来25年，主干网的带

宽每6个月增长一倍，12个月增长两倍。.其增长速度是摩尔定律预测的CPU增

长速度的3倍，并预言将来上网会免费。.

93.Javaapplicatin中的主类需包含main方法，main方法的返回类型是什么？

A、int

B、fIat

C\dubIe

D\vid

答案：D

解析：vid,即不返回对象，main方法是程序执行的入口，main方法也不需要初

始化对象就能执行

94.关于Hadp生态系统软件说法错误的是

A、HDFS是分布式文件系统

B、YARN是资源管理和调度器

C、Tez是运行在YARN之上的下一代Hadp查询处理框架

D、Hive是Hadp上的数据仓库，为了提高效率，可以越过HDFS直接管理数据的

存储

答案：D

解析：hive的表使用的默认存储是hdfs的文件系统，相当于表的数据是存储在

hdfs文件系统中的。因此无法越过HDFS直接管理数据的存储

95.以下哪个方法用于定义线程的执行体？

A、start0

B、init()

C、run()

D、synchrnized0

答案：C

解析：通过继承Thread类来创建并启动线程的步骤如下:定义Thread类的子类，

并重写该类的run()方法,该run()方法将作为线程执行体。创建Thread子类的

实例，即创建了线程对象。调用线程对象的start。方法来启动该线程。

96.哪个命令是删除文件的？

A、dfs-cIear

B、dfs-ls

C、dfs-rm

D、dfs-deI

答案：c

解析：dfs-rm命令是用来删除文件的。dfs-clear没找到dfs-ls没找到dfs-de

I没找到

97.大数据的核心价值是()。

A、数据交易

B、数据分析

C、数据融合

D、数据处理

答案：B

解析：大数据的核心价值是数据分析

98.HDFS中的数据块（blck）默认保存几份？（）

A、3份

B、2份

C、1份

D、不确定

答案：A

解析：HDFS中的数据块（blck）默认保存3份，每份默认为128M

99.Kafka集群中，Kafka服务端的角色是？

A、Brker

B、Cnsumer

C、Zkeeper

D、Prducer

答案：A

解析:Kafka集群中，Kafka服务端的角色是Brker。Cnsumer就是负责从Kafka

集群中消费消息数据的应用程序ZkeeperI是一个开源的分布式的，为分布式框

架提供协调服务的Apache项目。Prducer就是负责向Kafka集群中写入消息数

据的应用程序

100.万维网之父是（）。

A、彼得•德鲁克

B、舍恩伯格

c、蒂姆・伯纳斯-李

D、斯科特・布朗

答案：C

解析：万维网之父是蒂姆•伯纳斯•李

101.关于HDFS集群中的DataNde的描述不正确的是？

A、一个DataNde上存储的所有数据块可以有相同的

B、存储客户端上传的数据的数据块

C、DataNde之间可以互相通信

D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑

答案：A

解析：出于安全性和高可用性考虑，并不会把一个blck的多个副本放在同一个

datande上

102.下列关于HadpAPI的说法错误的是()o

A、Hadp的API只适用于HDFS文件系统

B、Cnfiguratin类的默认实例化方法是以HDFS系统的资源配置为基础的

C、FiIeStatus对象存储文件和目录的元数据

D、FSDataInputStream是java,i.DataInputStream的子类

答案：A

解析：Hadp的API是通用的，既可以适用于HDFS,又可以适用于Hbase、Mapre

duce等

103.下列数据结构具有记忆功能的是？

A、队列

B、循环队列

G栈

D、顺序表

答案：C

解析：具有记忆功能的是栈

104.FusininsightHD系统中,下面哪个方法不能查看到Lader作业执行的结果

()

A\通过Laderlll界面查看

B、通过YARN任务管理

GNdemanager查看

D、通过Manager的查看

答案：C

解析:FusininsightHD系统中，使用Ndemanager查看不能查看到Lader作业执

行的结果

105.Hbase中的Regin是由哪个服务进程来管理的？

AvHreginserver

B、Zkeeper

C、Master

D、Datande

答案：A

解析：Hbase中的Regin是由Hreginserver来管理的

106.如下哪项不是ZKeeper的关键特性()?

A、最终一致性

B、延时性

C、可靠性

D、等待无关性

答案：B

解析：ZKeeper的关键特性包括最终一致性，可靠性，等待无关性

107.使用Hbase客户端批量写入10条数据，某个Hreginserver节点上包含该表

的2个Regin,分别为A和B,10条数据中有6条属于A.4条属于B,请问写入这1

0条数据需要向该HreginServer发送几次RPC请求？

A、10

B、6

C、2

D、1

答案：D

解析：使用Hbase客户端批量写入10条数据，某个Hreginserver节点上包含该

表的2个Regin,分别为A和B,10条数据中有6条属于A.4条属于B,写入这10

条数据需要向该HreginServer发送1次RPC请求

108.以下哪个不属于Hadp中Mapreduce组件的特点？

A、身容错

B、良好的扩展性

C、实时计算

D、易于编程

答案：c

解析：高度抽象的编程思想，良好的扩展性，高容错性，适用于并行计算和离线

计算

109.关于HBase和BigTable说法错误的是

A、HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌Bi

gTable的开源实现，主要用来存储非结构化和半结构化的松散数据

B、BigTable和HBase均采用Chubby提供协同服务管理

CxBigTabIe和HBase都是一个分布式存储系统

D、HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计

算机集群处理由超过10亿行数据和数百万列元素组成的数据表

答案：B

解析：BigTable是一个分布式存储系统，它利用谷歌提出的MapReduce分布式

并行计算模型来处理海量数据，使用谷歌分布式文件系统GFS作为底层数据存储,

采用Chubby提供协同服务管理。HadpDatabase,是一^个高可靠性'高性能'面

向列,可伸缩、实时读写的分布式数据库。利用HadpHDFS作为其文件存储系统，

利用Zkeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散

数据。

110.使用JAVAAPI进行HBase表数据添加操作，以下命令输写正确的是0。c

A、HTabIe.add(newPut(Bytes.tBytes(rw));

B、HTabIe.insert(newPut(Bytes.tBytes(rw))

GHTabIe.putfnewPut(Bytes.tBytes(rw));

D、HTabIe.updatefnewPut(Bytes.tBytes(rw))

答案：c

解析:BPtabIe.get(tabIe).scan();

111.在Java中，一个类可同时定义许多同名的方法,这些方法的形式参数个数、

类型或顺序各不相同，传回的值也可以不相同。这种面向对象程序的特性称为

A、隐藏

B、覆盖

C、重载

D、Java不支持此特性

答案：C

解析：一个类可以定义多个同名的方法，只要这些方法的参数列表不完全相同,

这称为方法重载。

112.HBase依赖()技术框架提供消息通信机制。

A、Zkeeper

B、Chubby

C、RPC

DvScket

答案：A

解析：“hbase依赖“Zkeeper”提供消息通信机制

113.用定期数据分析报表作为依据的反映计划执行情况的数据分析报告是()。

A、专题分析报告

B、综合分析报告

C、日常数据通报

D、实时运营报告

答案：C

解析：用定期数据分析报表作为依据的反映计划执行情况的数据分析报告是日常

数据通报

114.LSM结构的数据首先存储在()0

A、硬盘上

B、内存中

C、磁盘阵列中

D、闪存中

答案：B

解析：LSM树的核心特点是利用顺序写来提高写性能，但因为分层(此处分层是

指的分为内存和文件两部分)的设计会稍微降低读性能，但是通过牺牲小部分读

性能换来高性能写，使得LSM树成为非常流行的存储结构。

115.哪一项不属于Hive的流控特性()?

A、已经建立的总连接数阈值控制

B、某个特定用户已经建立的连接数阈值控制

C、每个用户已经建立的连接数阈值控制

D、单位时间内所建立的连接数阈值控制

答案：B

解析：某个特定用户已经建立的连接数阈值控制不属于Hive的流控特性

116.下列关于Finkbarrier描述错误的是?()

A、一个barrier将本周期快照的数据与下一个周期快照的数据分隔开来

B、barrier是F1ink快照的核心

C\在插入barrier的时候，会暂时阻断数据流

D、barrier周期性插入到数据流中，并作为数海流的一部分随之流动

答案：C

解析：在插入barrier的时候，不会暂时阻断数据流

117.如果要给队列QueueA设置容量为30%,应该设置哪个参数()?

A、yarn.scheduIer.capacity.rt.QueueA.minimum-user-1imit-percent

B、yarn,scheduIer.capacity.rt.QueueD.user-limit-factr

C、yarn,scheduIer.capacity.rt.QueueA.capacity

D、yarn,scheduIer.capacity.rt.QueueA.state

答案：c

解析：在YARN中应设置为yarn,scheduler,capacity,rt.QueueA.capacity

118.HadptnryarnscheduIercapacity,rt.Queueafinim.m-user-1imit-percent

设置为50,下面说法错误的是？

A、一个用户提交任务，可以使用QueueA的100%的资源。

B、如果QueueA中已经有2个用户的任务运行,这时第3个用户提交的任务需要

等待释放资源。

C、QueueA中必须保障每个用户至少得到50%的资源

D、QueueA中的每个用户最多只能获得50%的资源

答案：D

解析：如果有资源需求，每个队列都会对分配给用户的资源百分比实施限制。用

户限制可以在最小值和最大值之间变化。前者(最小值)设置为该属性值，后者

（最大值）取决于已提交应用程序的用户数。例如，假设此属性的值为25。如

果两个用户已将应用程序提交到队列，用户不可以使用超过50%的队列资源。

如果第三位用户提交了一个应用程序，用户都不能使用超过33%的队列资源。

如果有4个或更多用户，用户都不能使用超过25%的队列资源。值100表示未

施加用户限制。默认值为100。值指定为整数。

119.下列论据中，能够支撑“大数据无所不能”的观点的是（）

A、互联网金融打破了传统的观念和行为

B、大数据存在泡沫

C、大数据具有非常高的成本

D、个人隐私泄露与信息安全担忧

答案：D

解析：“个人隐私泄露与信息安全担忧”能够支撑“大数据无所不能”的观点

120.关于MapReduceShuffle过程合并（bine）操作，两个健值对＜"a",1＞和＜

"a",1＞经过合并操作结果为（）。

A、＜"a",2＞

B、＜"a",＜1,1»

C、＜"a,a",2＞

D、＜"a,a",＜1,1»

答案：A

解析:关于MapReduceShuffle过程合并（bine）操作,两个健值对＜"a",1＞和

＜"a",1＞经过合并操作结果为＜"a",2＞o归并的结果是1＞＞。

121.KafkaCIusterMirrring工具可以实现以下哪些功能?

A、Kafka数据同步方案

B、Kafka单集群内数据备份

C、Kafka单集群内数据恢复

D、以上全不正确

答案：A

解析：可使用MirrrMaker工具创建从源Kafka群集(源群集)到目标Kafka群

集(目标群集)的镜像，从而实现数据同步

122.HBase是分布式列式存储系统，记录按什么集中存放。

A、列族

B、列

C、行

D、不确定

答案：A

解析：HBase是一个分布式列式存储系统,记录按列簇集中存放,通过主键(rw,ke

y)和主键的range来检索数据。

123.HFiIe数据格式中的MetaIndex字段用于()。

A、Meta块的长度

B、Meta块的结束点

C、Meta块数据内容

D\Meta块的起始点

答案：D

解析：HFile是参照谷歌的SSTable存储格式进行设计的。全部的数据记录都是

通过它来完毕持久化，其内部主要探用分块的方式进行存储

124.以下哪个操作是hive不支持的？()

A、表增加列

B、表删除列

C、表修改列

D、修改表名

答案：B

解析：hive不支持表删除列

125.Fusininsight产品中，关乎Kafka说法不正确的是()

AsKafka强依赖Zkeeper

B、Kafka的服务端可以产生消息

C、Kafka的部署的实例个数不得小于2

D\Cnsumer作为Kafka的客户端角色专门进行消息的消费

答案：B

解析：Kafka的服务端不可以产生消息

126.Hadp平台中启用YARN组件的日志聚集功能，需要配置哪个参数？

A、yarn,ndemanager.Ical-dirs

Bvyarn,ndemanager.Ig-dirs

C、yarn,acI.enabIe

D、yarn.Ig-aggregatin-enabIe

答案：D

解析：Hadp平台中启用YARN组件的日志聚集功能，需要配置yarn.Ig-aggrega

tin-enabIe参数

127.下列国家的大数据发展行动中，集中体现“重视基础、首都先行”的国家是

()。

A、美国

B、日本

C、中国

D、韩国

答案：D

解析：国家的大数据发展行动中，集中体现“重视基础、首都先行”的国家是韩

国

128.关于Kafka的基本概念描述错误的是()?

A、Kafka集群包含一^或多个服务实例，这些服务实例被称为Brker

B、每条发布到Kafka集群的消息都有一个类别，这个类别被称为Tpic

C、每个Cnsumer属于多个的CnsumerGrup

D、Kafka将Tpic分成—1^或者多个Partitin,每个Partitin在物理上对应—

文件夹，该文件夹下存储这个Partitin的所有消息

答案：C

解析：每个Cnsumer进程都会划归到一^逻辑的CnsumerGrup中

129.以下关于Zkeeper关键特性中的原子性说法正确的是？

A、客户端发送的更新会按照他们被发送的顺序进行应用

B、更新只能全部完成或失败，不会部分完成

G一条消息被一＞个server接收，将被所有server接收

D、集群中无论哪台服务器，对外示均是同一视图

答案：B

解析：数据更新原子性：一次数据更新要么成功，要么失败。

130.SQL语言中，删除一个表中所有数据，但保留表结构的命令是（）。

A、DELETE

B、DRP

C、DRP

D、REMRE

答案：A

解析：2、truncate和

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据分析师理论知识考试复习题库（含答案）

文档简介

温馨提示

最新文档

评论

大数据分析师理论知识考试复习题库（含答案）

文档简介

温馨提示

最新文档

评论

相关文档