




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术原理与应用
第1章大数据概述
1单选(2分)
第三次信息化浪潮的标志是:
A.个人电脑的普及
B.云计算、大数据、物联网技术的普及
C.虚拟现实技术的普及
D.互联网的普及
正确答案:B你选对了
2单选(2分)
就数据的量级而言,1PB数据是多少TB?
A.2048
B.1000
C.512
D.1024
正确答案:D你选对了
3单选(2分)
以下关于云计算、大数据和物联网之间的关系,论述错误的是:
A.云计算侧重于数据分析
B.物联网可借助于云计算实现海量数据的存储
C.物联网可借助于大数据实现海量数据的分析
D.云计算、大数据和物联网三者紧密相关,相辅相成
正确答案:A你选对了
4单选(2分)
以下哪个不是大数据时代新兴的技术:
A.Spark
B.Hadoop
C.HBase
D.MySQL
正确答案:D你选对了
5单选(2分)
每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:
A.MapReduce
B.DremeI
C.Storm
D.PregeI
正确答案:A你选对了
6单选(2分)
每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:
A.GraphX
B.S4
C.Impala
D.Hive
正确答案:B你选对了
7单选(2分)
每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:
A.Pregel
B.Storm
C.Cassandra
D.FIume
正确答案:A你选对了
8单选(2分)
每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:
A.HDFS
B.S4
C.DremeI
D.MapReduce
正确答案:C你选对了
9多选(3分)
数据产生方式大致经历三个阶段,包括:
A.运营式系统阶段
B.感知式系统阶段
C.移动互联网数据阶段
D.用户原创内容阶段
正确答案:ABD你选对了
10多选(3分)
大数据发展三个阶段是:
A.低谷期
B.成熟期
C.大规模应用期
D.萌芽期
正确答案:BCD你选对了
11多选(3分)
大数据的特性包括:
A.价值密度低
B.处理速度快
C.数据类型繁多
D.数据量大
正确答案:ABCD你选对了
12多选(3分)
图领奖获得者、著名数据库专家JimGray博士认为,人类自古以来在科学研究上先后经历哪几种范
式:
A.计算科学
B.数据密集型科学
C.实验科学
D.理论科学
正确答案:ABCD你选对了
13多选(3分)
大数据带来思维方式的三个转变是:
A.效率而非精确
B.相关而非因果
C.精确而非全面
D.全样而非抽样
正确答案:ABD你选对了
14多选(3分)
大数据主要有哪几种计算模式:
A.流计算
B.图计算
C.查询分析计算
D.批处理计算
正确答案:ABCD你选对了
15多选(3分)
云计算的典型服务模式包括三种:
A.SaaS
B.laaS
C.MaaS
D.PaaS
正确答案:ABD你选对了
第2章大数据处理架构Hadoop
1单选(2分)
启动hadoop所有进程的命令是:
A.start-dfs.sh
B.start-aII.sh
C.start-hadoop.sh
D.start-hdfs.sh
正确答案:B你选对了
2单选(2分)
以下对Hadoop的说法错误的是:
A.Hadoop是基于Java语言开发的,只支持Java语言编程
BHadoop2.0增加了NameNodeHA和Wire-compatibiIity两个重大特性
C.HadoopMapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算
D.Hadoop的核心是HDFS和MapReduce
正确答案:A你选对了
3单选(2分)
以下哪个不是Hadoop的特性:
A.成本高
B.支持多种编程语言
C.高容错性
D.高可靠性
正确答案:A你选对了
4单选(2分)
以下名词解释不正确的是:
A.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统
B.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
C.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询
和分析存储
D.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
正确答案:B你选对了
5多选(3分)
以下哪些组件是Hadoop的生态系统的组件:
A.HBase
B.OracIe
0.HDFS
D.MapReduce
正确答案:ACD你选对了
6多选(3分)
以下哪个命令可用来操作HDFS文件:
A.hadoopfs
B.hadoopdfs
C.hdfsfs
D.hdfsdfs
正确答案:ABD你选对了
第3章分布式文件系统HDFS
1单选(2分)
HDFS的命名空间不包含:
A.字节
B.文件
0.块
D.目录
正确答案:A你选对了
2单选(2分)
对HDFS通信协议的理解错误的是:
A.客户端与数据节点的交互是通过RPC(RemoteProcedureCall)来实现的
B.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交
互
C.名称节点和数据节点之间则使用数据节点协议进行交互
D.HDFS通信协议都是构建在loT协议基础之上的
正确答案:D你选对了
3单选(2分)
采用多副本冗余存储的优势不包含:
A.保证数据可靠性
B.容易检查数据错误
C.加快数据传输速度
D.节约存储空间
正确答案:D你选对了
4单选(2分)
假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:
A.start-dfs.sh,stop-hdfs.sh
B.start-hdfs.sh,stop-hdfs.sh
C.start-dfs.sh,stop-dfs.sh
D.start-hdfs.sh,stop-dfs.sh
正确答案:C你选对了
5单选(2分)
分布式文件系统HDFS采用主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,
一类存储元数据叫,另一类存储具沐数据叫:
A.名称节点,主节点
B.从节点,主节点
C.名称节点,数据节点
D.数据节点,名称节点
正确答案:C你选对了
6单选(2分)
下面关于分布式文件系统HDFS的描述正确的是:
A.分布式文件系统HDFS是GoogleBigtable的一种开源实现
B.分布式文件系统HDFS是谷歌分布式文件系统GFS(GoogleFileSystem)的一种开源实现
C.分布式文件系统HDFS比较适合存储大量零碎的小文件
D.分布式文件系统HDFS是一种关系型数据库
正确答案:B你选对了
7多选(3分)
以下对名称节点理解正确的是:
A.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
B.名称节点用来负责具体用户数据的存谜
C.名称节点通常用来保存元数据
D.名称节点的数据保存在内存中
正确答案:ACD你选对了
8多选(3分)
以下对数据节点理解正确的是:
A.数据节点通常只有一个
B.数据市点用来存储具体的文件内容
C.数据节点的数据保存在磁盘中
D.数据节点在名称节点的统一调度下进吁数据块的创建、删除和复制等操作
正确答案:BCD你选对了
9多选(3分)
HDFS只设置唯一一个名称节点带来的局限性包括:
A.集群的可用性
B.性能的瓶颈
C.命名空间的限制
D.隔离问题
正确答案:ABCD你选对了
10多选(3分)
以下HDFS相关的shelI命令不正确的是:
A.hadoopdfsmkdir<path>:创建<path>指定的文件夹
B.hdfsdfs-rm<path>:删除路径令8地》指定的文件
C.hadoopfs-copyFromLocaI<path1><path2>:将路径<path2》指定的文件或文件夹复制到路径
<path1>指定的文件夹中
D.hadoopfs-Is<path>:显示<path>指定的文件的详细信息
正确答案:AC你选对了
第4章分布式数据库HBase
1单选(2分)
HBase是一种数据库
A.行式数据库
B.关系数据库
C.文档数据库
D.列式数据库
正确答案:D你选对了
2单选(2分)
下列对HBase数据模型的描述错误的是:
A.每个HBase表都由若干行组成,每个行由行键(rowkey)来标识
B.HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
C.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本
D.HBase列族支持动态扩展,可很轻松地添加一个列族或列
正确答案:C你选对了
3单选(2分)
下列说法正确的是:
A.如果不启动Hadoop,则HBase完全无法使用
B.HBase的实现包括的主要功能,组件是库函数,一个Master主服务器和一个Region服务器
C.如果通过HBaseShell插入表数据,可以插入一行数据或一个单元格数据
D.Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等
正确答案:D你选对了
4单选(2分)
在HBase数据库中,每个Region的建议最佳大小是:
A.2GB-4GB
B.100MB-200MB
C.500MB-1000MB
D.1GB-2GB
正确答案:D你选对了
5单选(2分)
HBase三层结构的顺序是:
A.Zookeeper文件,.MEATA.表,-ROOT-表
B-ROOT-表,Zookeeper文件,.MEATA.表
0.Zookeeper文件,-ROOT-表,.MEATA.表
D..MEATA.表,Zookeeper文件,-ROOT-表
正确答案:C你选对了
6单选(2分)
客户端是通过级寻址来定位Region:
A.三
B.二
C.一
D.四
正确答案:A你选对了
7单选(2分)
关于HBaseShelI命令解释错误的是:
A.create:创建表
B.put:向表、行、列指定的单元格添加数据
C.list:显示表的所有数据
D.get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值
正确答案:C你选对了
8多选(3分)
下列对HBase的理解正确的是:
A.HBase是针对谷歌BigTable的开源实现
B.HBase是一种关系型数据库,现成功应用于互联网服务领域
C.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件
D.HBase多用于存储非结构化和半结构亿的松散数据
正确答案:AD你选对了
9多选(3分)
HBase和传统关系型数据库的区别在于哪些方面:
A.数据操作
B.数据索引
C.数据模型
D.存储模式
正确答案:ABCD你选对了
10多选(3分)
访问HBase表中的行,有哪些方式:
A.通过某列的值区间
B.全表扫描
C.通过一个行健的区间来访问
D.通过单个行健访问
正确答案:BCD你选对了
第5章NoSQL数据库
1单选(2分)
下列关于NoSQL数据库和关系型数据库的比较,不正确的是:
A.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性
B.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言
C.NoSQL数据库的可扩展性比传统的关系型数据库更好
D.NoSQL数据库具有弱一致性,关系型数据库具有强一致性
正确答案:A你选对了
2单选(2分)
以下对各类数据库的理解错误的是:
A.键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等
B.文档数据库的数据是松散的,XML和JS0N文档等都可作为数据存储在文档数据库中
C.图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱
D.HBase数据库是列族数据库,可扩展性强,支持事务一致性
正确答案:D你选对了
3单选(2分)
下列数据库属于文档数据库的是:
A.MySQL
B.Redis
C.MongoDB
D.HBase
正确答案:C你选对了
4单选(2分)
NoSQL数据库的三大理论基石不包括:
A.最终一致性
B.BASE
C.ACID
D.CAP
正确答案:C你选对了
5多选(3分)
关于NoSQL数据库和关系数据库,下列说法正确的是:
A.NoSQL数据库可支持超大规模数据存储,具有强大的横向扩展能力
B.NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库
C.大多数NoSQL数据库很难实现数据完整性
D.关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础
正确答案:ACD你选对了
6多选(3分)
NoSQL数据库的类型包括:
A.键值数据库
B.列族数据库
C.文档数据库
D.图数据库
正确答案:ABCD你选对了
7多选(3分)
CAP是指:
A.一致性
B.可用性
C.持久性
D.分区容忍性
正确答案:ABD你选对了
8多选(3分)
NoSQL数据库的BASE特性是指:
A.软状态
B.持续性
C.最终一致性
D.基本可用
正确答案:ACD你选对了
第6章云数据库
1单选(2分)
下列Amazon的云数据库属于关系数据库的是:
A.AmazonSimpleDB
B.AmazonDynamoDB
0.AmazonRDS
D.AmazonRedshift
正确答案:C你选对了
2单选(2分)
下列关于UMP系统的说法不正确的是:
A.Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能
B.Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例
C.UMP系统是低成本和高性能的MySQL云数据库方案
D.Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务
正确答案:D你选对了
3多选(3分)
UMP依赖的开源组件包括
A.LVS
B.ZooKeeper
C.Mnesia
D.RabbitMQ
正确答案:ABCD你选对了
4多选(3分)
在UMP系统中,Zookeeper主要发挥的作用包括:
A.监控所有MySQL实例
B.负责集群负载均衡
C.提供分布式锁,选出一个集群的“总管”
D.作为全局的配置服务器
正确答案:ACD你选对了
5多选(3分)
UMP系统设计了哪些机制来保证数据安全:A.记录用户操作日志
B.数据访问IP白名单
C.SSL数据库连接
D.SQL拦截
正确答案:ABCD你选对了
第7章MapReduce
1单选(2分)
下列说法错误的是:
A.Map函数将输入的元素转换成<key,value)形式的键值对
B.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写
C.MapReduce框架采用了Master/SIave架构,包括一个Master和若干个Slave
D.不同的Map任务之间不能互相通信
正确答案:B你选对了
2单选(2分)
在使用MapReduce程序WordCount进行词频统计时,对于文本行"helIohadoophelIoworId”,经
过WordCount程序的Map函数处理后直接输出的中间结果,应是下面哪种形式:
A.<"heIIo",1,1>、<”hadoop",1>和<"worId",1>
B.<"heIIo",2>、<"hadoop",1>^<"worId",1>
C.<"helIO",<1,1»H<"hadoop",1>和<"worId”,1>
D.<"hello",1>s<"hello",1>s<nhadoop",1>^<MworId",1>
正确答案:D你选对了
3单选(2分)
对于文本行"hellohadoophelloworld”,经过WordCount的Reduce函数处理后的结果是:
A.<"helIo",<1,1»<"hadoop",1X,,world",1>
B.<"helIo",1><"helIo",1><"hadoop",1><"worId",1>
C.<"helIo",1,1><"hadoop",1><"worId",1>
D.<"heIIo",2><"hadoop",1X"worId",1>
正确答案:B你选对了
4多选(3分)
下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:
A.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
B.前者相比后者学习起来更难
C.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型
正确答案:ABCD你选对了
5多选(3分)
MapReducel.O的体系结构主要由哪几个部分组成:
A.JobTracker
B.TaskTracker
C.Client
D.Task
正确答案:ABCD你选对了
第8章Hadoop再探讨
1单选(2分)
下列说法正确的是:
A.HDFSHA可用性不好
B.第二名称节点是热备份
C.HDFSHA提供高可用性,可实现可扩展性、系统性能和隔离性
D.第二名称节点无法解决单点故障问题
正确答案:D你选对了
2单选(2分)
HDFSFederation设计不能解决“单名称节点”存在的哪个问题:
A.单点故障问题
B.HDFS集群扩展性
C.性能更高效
D.良好的隔离性
正确答案:A你选对了
3多选(3分)
下列哪些是HadoopLO存在的问题:
A.抽象层次低
B.表达能力有限
C.开发者自己管理作业之间的依赖关系
D.执行迭代操作效率低
正确答案:ABCD你选对了
4多选(3分)
下列对Hadoop各组件的理解正确的是:
A.Oozie:工作流和协作服务引擎
B.Pig:处理大规模数据的脚本语言
0.Kafka:分布式发布订阅消息系统
D.Tez:支持DAG作业的计算框架
正确答案:ABCD你选对了
5多选(3分)
对新一代资源管理调度框架YARN的理解正确的是:
A.YARN既是资源管理调度框架,也是一个计算框架
B.MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务
C.YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架
D.YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster
正确答案:BCD你选对了
第9章数据仓库Hive
1单选(2分)
下列有关Hive和ImpaIa的对比错误的是:
A.Hive与Impala中对SQL的解释处理七较相似,都是通过词法分析生成执行计划
B.Hive与Impala使用相同的元数据
C.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询
D.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此
正确答案:D你选对了
2单选(2分)
下列关于Hive基本操作命令的解释错误的是:
A.createtabIeifnotexistsusr(idbigint,namestring,ageint);//如usr表不存在,创建表
usr,含三个属性id,name,age
B.loaddataIocaIinpath'/usr/1ocaI/data'overwriteintotabIeusr;//吉巴目
录,/usr/1ocaI/dataJ下的数据文件中的数据以追加的方式装载进usr表
C.createdatabaseuserdb;//创建数据库userdb
D.insertoverwritetabIestudentseIect*fromuserwhereage>10;//向表usr1中插入来自
usr表的age大于10的数据并覆盖student表中原有数据
正确答案:B你选对了
3多选(3分)
下列说法正确的是:
A.Impala和Hive、HDFS、HBase等工具可统一部署在一个Hadoop平台上
B.数据仓库Hive不需要借助于HDFS就可完成数据的存储
C.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据
D.HiveQL语法与传统的SQL语法很相似
正确答案:ACD你选对了
4多选(3分)
ImpaIa主要由哪几个部分组成:
A.Hive
B.Impalad
C.StateStore
D.CLI
正确答案:BCD你选对了
5多选(3分)
以下属于Hive的基本数据类型是:
A.BINARY
B.STRING
C.FLOAT
D.TINYINT
正确答案:ABCD你选对了
第10章Spark
1单选(2分)
SparkSQL目前暂时不支持下列哪种语言:
A.Python
B.Java
C.SeaIa
D.Lisp
正确答案:D你选对了
2单选(2分)
RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的
操作的是:
A.groupBy
B.filter
0.count
D.map
正确答案:C你选对了
3单选(2分)
下列说法错误的是:
A.在选择SparkStreaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选
择流计算框架Storm
B.RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只
有遇到“动作(Action)”类型的操作时才会触发真正的计算
C.Spark支持三种类型的部署方式:StandaIone,SparkonMesos,SparkonYARN
D.RDD提供的转换接口既适用fiIter等粗粒度的转换,也适合某一数据项的细粒度转换
正确答案:D你选对了
4单选(2分)
下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:
A.fiIter(func):筛选出满足函数func的元素,并返回一个新的数据集
B.map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集
C.count:):返回数据集中的元素个数
D.take(n):返回数据集中的第n个元素
正确答案:D你选对了
5单选(2分)
下列大数据处理类型与其对应的软件框架不匹配的是:
A.复杂的批量数据处理:MapReduce
B.基于历史数据的交互式查询:Impala
C.基于实时数据流的数据处理:Storm
D.图结构数据的计算:Hive
正确答案:D你选对了
6多选(3分)
Apache软件基金会最重要的三大分布式计算系统开源项目包括:
A.OracIe
B.Hadoop
0.Storm
D.Spark
正确答案:ABC你选对了
7多选(3分)
Spark的主要特点包括:
A.运行模式多样
B.运行速度快
0.通用性好
D.容易使用
正确答案:ABCD你选对了
8多选(3分)
下列关于Scala的说法正确的是:
A.Scala运行于Java平台,兼容现有的Java程序
B.Scala具备强大的并发性,支持函数式编程
C.SeaIa是一种多范式编程语言
D.SeaIa是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言
正确答案:ABCD你选对了
9多选(3分)
Spark的运行架构包括:
A.运行作业任务的工作节点WorkerNode
B.每个工作节点上负责具体任务的执行进程Executor
C.每个应用的任务控制节点Driver
D.集群资源管理器ClusterManager
正确答案:ABCD你选对了
第11章流计算
1单选(2分)
流计算秉承一个基本理念,即数据的价值随着时间的流逝而,如用户点击流:
A.降低
B.不确定
C.不变
D.升高
正确答案:A你选对了
2单选(2分)
Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做
A.Spout
B.Bolt
0.TupIe
D.Topology
正确答案:D你选对了
3多选(3分)
对于一个流计算系统来说,它应达到如下哪些需求:
A.海量式
B.高性能
C.分布式
D.实时性
正确答案:A、B、C、D你选对了
4多选(3分)
数据采集系统的基本架构包括哪些部分:
A.Controller
B.Store
C.Agent
D.Collector
正确答案:B、C、D你选对了
5多选(3分)
以下哪些是开源的流计算框架:
A.FacebookPuma
B.Yahoo!S4
C.IBMInfoSphereStreams
D.TwitterStorm
正确答案:B、D你选对了
6多选(3分)
下面哪几个属于Storm中的StreamGroupings的分组方式:
A.按照字段分组
B.广播发送
C.随机分组
D.全局分组
正确答案:A、B、C、D你选对了
第12章Flink
1单选(2分)
以下哪个不是Flink的优势:
A.同时支持高吞吐、低延迟、高性能
B.不支持增量迭代
C.同时支持流处理和批处理
D.支持有状态计算
正确答案:B你选对了
2单选(2分)
在Flink中哪个是基于批处理的图计算库:
A.SQL&Table库
B.FlinkML
C.Gelly
D.CEP
正确答案:C你选对了
3多选(3分)
下面关于Flink的说法正确的是:
A.Flink起源于Stratosphere项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大
学和哈索普拉特纳研究所联合开展的
B.FIink可以同时支持实时计算和批量计算
C.FIink不是Apache软件基金会的项目
D.Flink是Apache软件基金会的5个最大的大数据项目之一
正确答案:A、B、D你选对了
4多选(3分)
Flink的主要特性包括:
A.精确一次的状态一致性保障
B.批流一体化
0.精密的状态管理
D.事件时间支持
正确答案:A、B、C、D你选对了
5多选(3分)
下面论述正确的是:
A.SparkStreaming通过采用微批处理方法实现高吞吐和容错性,但是栖牲了低延迟和实时处理能力
B.Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态
0.流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink
可满足要求
D.FIink实现了GoogleDatafIow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框
架,并且同时支持批处理和流处理
正确答案:A、B、C、D你选对了
6多选(3分)
Flink常见的应用场景包括:
A.数据流水线应用
B.事件驱动型应用
C.地图应用
D.数据分析应用
正确答案:A、B、D你选对了
7多选(3分)
Flink核心组件栈分为哪三层:
A.物理部署层
B.Runtime核心层
C.Core层
D.API&Libraries层
正确答案:A、B、D你选对了
8多选(3分)
Flink有哪几种部署模式:
A.运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上
B.YARN集群模式
C.StandaIone集群模式
D.LocaI模式
正确答案:A、B、C、D你选对了
9多选(3分)
Flink系统主要由两个组件组成,分别为:
A.JobManager
B.JobScheduIer
C.TaskScheduler
D.TaskManager
正确答案:A、D你选对了
10多选(3分)
在编程模型方面,Flink提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽
象:
A.DataStreamAPI(有界或无界流数据)以及DataSetAPI(有界数据集)
B.TableAPI
C.状态化的数据流接口
D.SQL
正确答案:A、B、C、D你选对了
第13章图计算
1单选(2分)
Pregel是一种基于模型实现的并行图处理系统:
A.TSP
B.STP
C.BSP
D.SBP
正确答案:C你选对了
2单选(2分)
谷歌在后Hadoop时代的新“三驾马车”不包括:
A.Caffeine
B.DremeI
C.Pregel
D.Hama
正确答案:D你选对了
3多选(3分)
下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:
A.Hama
B.Giraph
C.PregeI
D.Neo4j
正确答案:A、B、C你选对了
4多选(3分)
以下关于Pregel图计算框架说法正确的是:
A.通常只对满足交换律和结合律的操作才会开启Combiner功能
B.Pregel采用检查点机制来实现容错
C.对于全局拓扑改变,Pregel采用了惰性协调机制
D.Aggregator提供了一种全局通信、监控和数据查看的机制
正确答案:A、B、C、D你选对了
第14章大数据在不同领域的应用
1单选(2分)
下列说法错误的是:
A.ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品
B.基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法
C.UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品
D.UserCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化
正确答案:B你选对了
2多选(3分)
推荐方法包括哪些类型:
A.专家推荐
B.协同过滤推荐
C.基于内容的推荐
D.基于统计的推荐
正确答案:A、B、C、D你选对了
期末试卷
1单选(2分)
数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:
A.运营式系统阶段
B.感知式系统阶段
C.数据流阶段
D.用户原创内容阶段
正确答案:C你选对了
2单选(2分)
第三次信息化浪潮的发生标志是以下哪种技术的普及:
A.互联网
B.CPU
C.物联网、云计算和大数据
D.个人计算机
正确答案:C你选对了
3单选(2分)
在Flink中哪个是基于批处理的图计算库:
A.SQL&Table库
B.CEP
C.Geliy
D.FlinkML
正确答案:C你选对了
4单选(2分)
Hadoop的两大核心是和
A.MapReduce;HBase
B.HDFS;HBase
C.HDFS;MapReduce
D.GFS;MapReduce
正确答案:C你选对了
5单选(2分)
HDFS默认的一个块大小是
A.64MB
B.8KB
C.32KB
D.16KB
正确答案:A你选对了
6单选(2分)
在分布式文件系统HDFS中,负责数据的存储和读取:
A.数据节点
B.第二名称节点
C.名称节点
D.主节点
正确答案:A你选对了
7单选(2分)
上传当前目录下的本地文件fiIe.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:
A.hdfsdfs-put/pathfile.txt
B.hadoopdfs-put/pathfile.txt
C.hdfsfs-putfile.txt/path
D.hdfsdfs-putfile.txt/path
正确答案:D你选对了
8单选(2分)
在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:
A.hadoopfs-mkdir-p/test/dir
B.hdfsfs-mkdir-p/test/dir
C.hadoopdfs-mkdir/test/dir
D.hdfsdfs*mkdir-p/test/dir
正确答案:A你选对了
9单选(2分)
下列有关HBase的说法正确的是:
A.在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库
B.HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库
C.HBase是一种NoSQL数据库
D.HBase数据库表可以设置该表任意列作为索引
正确答案:C你选对了
10单选(2分)
已知一张表student存储在HBase中,向表中插入一条记录{id:2015001,name:Mary,{score:math]:88),其id
作为行键,其中,在插入数学成绩88分时,正确的命令是:
A.put'student','score:math','88'
B.put'student','2015001','score:math'88'
C.put'student','2015001','math'88'
D.put'student','2015001','88'
正确答案:B你选对了
11单选(2分)
NoSQL数据库的三大理论基石不包括:
A.ACID
B.最终一致性
C.BASE
D.CAP
正确答案:A你选对了
12单选(2分)
在设计词频统计的MapReduce程序时,对于文本行“helIobigdatah程Iohadoop”,经过map函数处理后直
接输出的结果应该是(没有发生combine和merge操作):
A.<"helIo",1,1>、<"bigdata",1>和<沙@也叩",
B.<"hello",<1,1»^<">8€^{2",1>和<号2(1。(^”,1》
C.<"helIo",2>、<"bigdata",1>^<Mhadoop",1>
D.<"hello",1>.<,fhello",1>.<nbigdata",1>^<"hadoop",1>
正确答案:D你选对了
13单选(2分)
假设已经配置好PATH环境变量,启动Hadoop的命令是:
A.start-hdfs.sh
B.start-fs.sh
C.start-dfs.sh
D.start-hadoop.sh
正确答案:C你选对了
14单选(2分)
下列说法错误的是:
A.HDFSFederation使得HDFS的命名服务能够水平扩展
B.第二名称节点是热备份,而HDFSHA不是热备份
C.HDFSHA可以解决单点故障问题
D.第二名称节点无法解决单点故障问题
正确答案:B你选对了
15单选(2分)
RDD操作包括转换(Transformation)和动作(Action)两种类型,下列RDD操作属于动作(Action)类型的是:
A.join
B.map
C.collect
D.groupBy
正确答案:C你选对了
16单选(2分)
下列关于Hive的说法正确的是:
A.Hive支持频繁数据更新
B.Hive不支持索引
C.Hive支持批量导入
D.Hive的可扩展性差
正确答案:C你选对了
17多选(3分)
大数据的特点包括:
A.数据量大
B.处理速度快
C.价值密度低
D.数据种类繁多
正确答案:A、B、C、D你选对了
18多选(3分)
下列适用于批处理计算的框架有哪些:
A.PregeI
B.Spark
C.MapReduce
D.Storm
正确答案:B、C你选对了
19多选(3分)
下列适用于流计算的框架有哪些:
A.Storm
B.DremeI
C.SparkStreaming
D.PregeI
正确答案:A、C你选对了
20多选(3分)
Flink核心组件栈分为哪三层:
A.Core层
B.Runtime核心层
C.API&Libraries层
D.物理部署层
正确答案:B、C、D你选对了
21多选(3分)
从技术架构上来看,物联网可以分为哪几层:
A.感知层
B.处理层
C.应用层
D.网络层
正确答案:A、B、C、D你选对了
22多选(3分)
HBase需要根据哪些属性来唯一地确定一个单元格(celI)中的某个版本数据:
A.行键
B.列族
C.列限定符
D.时间戳
正确答案:A、B、C、D你选对了
23多选(3分)
典型的NoSQL数据库的类型包括:
A.键值数据库
B.列族数据库
C.图数据库
D.文档数据库
正确答案:A、B、C、D你选对了
24多选(3分)
CAP是指:
A.持久性
B.可用性
C.一致性
D.分区容忍性
正确答案:B、C、D你选对了
25多选(3分)
云计算主要包括哪3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校家庭教育指导
- 企业税收基本知识培训
- 产品买卖购销合同标准文本
- 蓝色海岸五一端午节活动策划案
- 强化劳动教育引导
- 买卖合作协议合同标准文本
- 保定劳务用工合同样本
- 公司住房借款合同样本
- 中介劳务运作合同标准文本
- 与学徒合同标准文本
- 中医护理三基练习题库+答案
- 2025年护士三基考核试题及答案
- 七年级下册2025春季历史 教学设计《明朝对外关系》 学习资料
- 《设备管理标准化实施手册》
- 湖南省长沙市明达中学2024-2025学年九年级下学期入学考试英语试卷(含答案无听力原文及音频)
- 汽车站建设项目可行性研究报告
- 《中国古典园林之美》课件
- 2024年09月上海2024交通银行交银金融科技校园招考笔试历年参考题库附带答案详解
- 2025年人教五四新版八年级数学上册阶段测试试卷
- 2025年广西中马钦州产业园区管委会招商服务有限公司招聘笔试参考题库附带答案详解
- 《李宁战略选择》课件
评论
0/150
提交评论