




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MOOC大数据技术原理与应用-厦门大学中国大学慕课答案第1章大数据概述单元测验1、问题:第三次信息化浪潮的标志是:选项:A、个人电脑的普及B、互联网的普及C、云计算、大数据、物联网技术的普及D、虚拟现实技术的普及正确答案:【云计算、大数据、物联网技术的普及】2、问题:就数据的量级而言,1PB数据是多少TB?选项:A、512B、1024C、1000D、2048正确答案:【1024】3、问题:以下关于云计算、大数据和物联网之间的关系,论述错误的是:选项:A、云计算侧重于数据分析B、云计算、大数据和物联网三者紧密相关,相辅相成C、物联网可以借助于云计算实现海量数据的存储D、物联网可以借助于大数据实现海量数据的分析正确答案:【云计算侧重于数据分析】4、问题:以下哪个不是大数据时代新兴的技术:选项:A、HadoopB、SparkC、HBaseD、MySQL正确答案:【MySQL】5、问题:每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:选项:A、MapReduceB、PregelC、DremelD、Storm正确答案:【MapReduce】6、问题:每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:选项:A、GraphXB、S4C、HiveD、Impala正确答案:【S4】7、问题:每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:选项:A、CassandraB、FlumeC、StormD、Pregel正确答案:【Pregel】8、问题:每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:选项:A、MapReduceB、HDFSC、DremelD、S4正确答案:【Dremel】9、问题:数据产生方式大致经历了三个阶段,包括:选项:A、运营式系统阶段B、用户原创内容阶段C、感知式系统阶段D、移动互联网数据阶段正确答案:【运营式系统阶段#用户原创内容阶段#感知式系统阶段】10、问题:大数据发展的三个阶段是:选项:A、萌芽期B、低谷期C、成熟期D、大规模应用期正确答案:【萌芽期#成熟期#大规模应用期】11、问题:大数据的特性包括:选项:A、数据量大B、数据类型繁多C、处理速度快D、价值密度低正确答案:【数据量大#数据类型繁多#处理速度快#价值密度低】12、问题:图领奖获得者、著名数据库专家JimGray博士认为,人类自古以来在科学研究上先后经历了哪几种范式:选项:A、实验科学B、理论科学C、计算科学D、数据密集型科学正确答案:【实验科学#理论科学#计算科学#数据密集型科学】13、问题:大数据带来思维方式的三个转变是:选项:A、精确而非全面B、全样而非抽样C、效率而非精确D、相关而非因果正确答案:【全样而非抽样#效率而非精确#相关而非因果】14、问题:大数据主要有哪几种计算模式:选项:A、批处理计算B、流计算C、图计算D、查询分析计算正确答案:【批处理计算#流计算#图计算#查询分析计算】15、问题:云计算的典型服务模式包括三种:选项:A、PaaSB、IaaSC、SaaSD、MaaS正确答案:【PaaS#IaaS#SaaS】第2章大数据处理架构Hadoop单元测验1、问题:启动hadoop所有进程的命令是:选项:A、start-dfs.shB、start-hadoop.shC、start-all.shD、start-hdfs.sh正确答案:【start-all.sh】2、问题:以下对Hadoop的说法错误的是:选项:A、Hadoop的核心是HDFS和MapReduceB、Hadoop是基于Java语言开发的,只支持Java语言编程C、Hadoop2.0增加了NameNodeHA和Wire-compatibility两个重大特性D、HadoopMapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算正确答案:【Hadoop是基于Java语言开发的,只支持Java语言编程】3、问题:以下哪个不是Hadoop的特性:选项:A、高容错性B、高可靠性C、成本高D、支持多种编程语言正确答案:【成本高】4、问题:以下名词解释不正确的是:选项:A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现B、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统正确答案:【HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现】5、问题:以下哪些组件是Hadoop的生态系统的组件:选项:A、MapReduceB、HDFSC、OracleD、HBase正确答案:【MapReduce#HDFS#HBase】6、问题:以下哪个命令可以用来操作HDFS文件:选项:A、hadoopfsB、hdfsdfsC、hadoopdfsD、hdfsfs正确答案:【hadoopfs#hdfsdfs#hadoopdfs】第3章分布式文件系统HDFS单元测验1、问题:HDFS的命名空间不包含:选项:A、目录B、文件C、块D、字节正确答案:【字节】2、问题:对HDFS通信协议的理解错误的是:选项:A、HDFS通信协议都是构建在IoT协议基础之上的B、名称节点和数据节点之间则使用数据节点协议进行交互C、客户端与数据节点的交互是通过RPC(RemoteProcedureCall)来实现的D、客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互正确答案:【HDFS通信协议都是构建在IoT协议基础之上的】3、问题:采用多副本冗余存储的优势不包含:选项:A、加快数据传输速度B、节约存储空间C、容易检查数据错误D、保证数据可靠性正确答案:【节约存储空间】4、问题:假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:选项:A、start-hdfs.sh,stop-hdfs.shB、start-dfs.sh,stop-dfs.shC、start-dfs.sh,stop-hdfs.shD、start-hdfs.sh,stop-dfs.sh正确答案:【start-dfs.sh,stop-dfs.sh】5、问题:分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫:选项:A、名称节点,数据节点B、数据节点,名称节点C、名称节点,主节点D、从节点,主节点正确答案:【名称节点,数据节点】6、问题:下面关于分布式文件系统HDFS的描述正确的是:选项:A、分布式文件系统HDFS是一种关系型数据库B、分布式文件系统HDFS是GoogleBigtable的一种开源实现C、分布式文件系统HDFS是谷歌分布式文件系统GFS(GoogleFileSystem)的一种开源实现D、分布式文件系统HDFS比较适合存储大量零碎的小文件正确答案:【分布式文件系统HDFS是谷歌分布式文件系统GFS(GoogleFileSystem)的一种开源实现】7、问题:以下对名称节点理解正确的是:选项:A、名称节点通常用来保存元数据B、名称节点的数据保存在内存中C、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问D、名称节点用来负责具体用户数据的存储正确答案:【名称节点通常用来保存元数据#名称节点的数据保存在内存中#名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问】8、问题:以下对数据节点理解正确的是:选项:A、数据节点用来存储具体的文件内容B、数据节点的数据保存在磁盘中C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作D、数据节点通常只有一个正确答案:【数据节点用来存储具体的文件内容#数据节点的数据保存在磁盘中#数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作】9、问题:HDFS只设置唯一一个名称节点带来的局限性包括:选项:A、性能的瓶颈B、命名空间的限制C、隔离问题D、集群的可用性正确答案:【性能的瓶颈#命名空间的限制#隔离问题#集群的可用性】10、问题:以下HDFS相关的shell命令不正确的是:选项:A、hadoopfs-lspath:显示path指定的文件的详细信息B、hadoopdfsmkdirpath:创建path指定的文件夹C、hadoopfs-copyFromLocalpath1path2:将路径path2指定的文件或文件夹复制到路径path1指定的文件夹中D、hdfsdfs-rmpath:删除路径path指定的文件正确答案:【hadoopdfsmkdirpath:创建path指定的文件夹#hadoopfs-copyFromLocalpath1path2:将路径path2指定的文件或文件夹复制到路径path1指定的文件夹中】第4章分布式数据库HBase单元测验1、问题:HBase是一种数据库选项:A、行式数据库B、列式数据库C、文档数据库D、关系数据库正确答案:【列式数据库】2、问题:下列对HBase数据模型的描述错误的是:选项:A、HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳B、HBase列族支持动态扩展,可以很轻松地添加一个列族或列C、HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本D、每个HBase表都由若干行组成,每个行由行键(rowkey)来标识正确答案:【HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本】3、问题:下列说法正确的是:选项:A、HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器B、Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等C、如果不启动Hadoop,则HBase完全无法使用D、如果通过HBaseShell插入表数据,可以插入一行数据或一个单元格数据正确答案:【Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等】4、问题:在HBase数据库中,每个Region的建议最佳大小是:选项:A、100MB-200MBB、500MB-1000MBC、1GB-2GBD、2GB-4GB正确答案:【1GB-2GB】5、问题:HBase三层结构的顺序是:选项:A、Zookeeper文件,.MEATA.表,-ROOT-表B、Zookeeper文件,-ROOT-表,.MEATA.表C、-ROOT-表,Zookeeper文件,.MEATA.表D、.MEATA.表,Zookeeper文件,-ROOT-表正确答案:【Zookeeper文件,-ROOT-表,.MEATA.表】6、问题:客户端是通过级寻址来定位Region:选项:A、一B、二C、三D、四正确答案:【三】7、问题:关于HBaseShell命令解释错误的是:选项:A、create:创建表B、list:显示表的所有数据C、put:向表、行、列指定的单元格添加数据D、get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值正确答案:【list:显示表的所有数据】8、问题:下列对HBase的理解正确的是:选项:A、HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件B、HBase是针对谷歌BigTable的开源实现C、HBase多用于存储非结构化和半结构化的松散数据D、HBase是一种关系型数据库,现成功应用于互联网服务领域正确答案:【HBase是针对谷歌BigTable的开源实现#HBase多用于存储非结构化和半结构化的松散数据】9、问题:HBase和传统关系型数据库的区别在于哪些方面:选项:A、数据模型B、数据操作C、存储模式D、数据索引正确答案:【数据模型#数据操作#存储模式#数据索引】10、问题:访问HBase表中的行,有哪些方式:选项:A、通过单个行健访问B、通过一个行健的区间来访问C、全表扫描D、通过某列的值区间正确答案:【通过单个行健访问#通过一个行健的区间来访问#全表扫描】第5章NoSQL数据库单元测验1、问题:下列关于NoSQL数据库和关系型数据库的比较,不正确的是:选项:A、NoSQL数据库具有弱一致性,关系型数据库具有强一致性B、NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性C、NoSQL数据库的可扩展性比传统的关系型数据库更好D、NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言正确答案:【NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性】2、问题:以下对各类数据库的理解错误的是:选项:A、HBase数据库是列族数据库,可扩展性强,支持事务一致性B、文档数据库的数据是松散的,XML和JSON文档等都可以作为数据存储在文档数据库中C、键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等D、图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱正确答案:【HBase数据库是列族数据库,可扩展性强,支持事务一致性】3、问题:下列数据库属于文档数据库的是:选项:A、MySQLB、HBaseC、RedisD、MongoDB正确答案:【MongoDB】4、问题:NoSQL数据库的三大理论基石不包括:选项:A、CAPB、BASEC、最终一致性D、ACID正确答案:【ACID】5、问题:关于NoSQL数据库和关系数据库,下列说法正确的是:选项:A、关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础B、NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力C、大多数NoSQL数据库很难实现数据完整性D、NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库正确答案:【关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础#NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力#大多数NoSQL数据库很难实现数据完整性】6、问题:NoSQL数据库的类型包括:选项:A、键值数据库B、列族数据库C、文档数据库D、图数据库正确答案:【键值数据库#列族数据库#文档数据库#图数据库】7、问题:CAP是指:选项:A、一致性B、可用性C、持久性D、分区容忍性正确答案:【一致性#可用性#分区容忍性】8、问题:NoSQL数据库的BASE特性是指:选项:A、基本可用B、软状态C、最终一致性D、持续性正确答案:【基本可用#软状态#最终一致性】第6章云数据库单元测验1、问题:下列Amazon的云数据库属于关系数据库的是:选项:A、AmazonSimpleDBB、AmazonRDSC、AmazonDynamoDBD、AmazonRedshift正确答案:【AmazonRDS】2、问题:下列关于UMP系统的说法不正确的是:选项:A、UMP系统是低成本和高性能的MySQL云数据库方案B、Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能C、Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例D、Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务正确答案:【Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务】3、问题:UMP依赖的开源组件包括:选项:A、MnesiaB、LVSC、RabbitMQD、ZooKeeper正确答案:【Mnesia#LVS#RabbitMQ#ZooKeeper】4、问题:在UMP系统中,Zookeeper主要发挥的作用包括:选项:A、作为全局的配置服务器B、提供分布式锁,选出一个集群的“总管”C、监控所有MySQL实例D、负责集群负载均衡正确答案:【作为全局的配置服务器#提供分布式锁,选出一个集群的“总管”#监控所有MySQL实例】5、问题:UMP系统设计了哪些机制来保证数据安全:选项:A、SSL数据库连接B、记录用户操作日志C、数据访问IP白名单D、SQL拦截正确答案:【SSL数据库连接#记录用户操作日志#数据访问IP白名单#SQL拦截】第7章MapReduce单元测验1、问题:下列说法错误的是:选项:A、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个SlaveC、Map函数将输入的元素转换成key,value形式的键值对D、不同的Map任务之间不能互相通信正确答案:【Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写】2、问题:在使用MapReduce程序WordCount进行词频统计时,对于文本行“hellohadoophelloworld”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:选项:A、hello,1,1、hadoop,1和world,1B、hello,2、hadoop,1和world,1C、hello,1,1、hadoop,1和world,1D、hello,1、hello,1、hadoop,1和world,1正确答案:【hello,1、hello,1、hadoop,1和world,1】3、问题:对于文本行“hellohadoophelloworld”,经过WordCount的Reduce函数处理后的结果是:选项:A、hello,1,1hadoop,1world,1B、hello,2hadoop,1world,1C、hello,1,1hadoop,1world,1D、hello,1hello,1hadoop,1world,1正确答案:【hello,2hadoop,1world,1】4、问题:下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:选项:A、前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好B、前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好C、前者相比后者学习起来更难D、前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型正确答案:【前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好#前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好#前者相比后者学习起来更难#前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型】5、问题:MapReduce1.0的体系结构主要由哪几个部分组成:选项:A、ClientB、JobTrackerC、TaskTrackerD、Task正确答案:【Client#JobTracker#TaskTracker#Task】第8章Hadoop再探讨单元测验1、问题:下列说法正确的是:选项:A、第二名称节点无法解决单点故障问题B、第二名称节点是热备份C、HDFSHA提供高可用性,可以实现可扩展性、系统性能和隔离性D、HDFSHA可用性不好正确答案:【第二名称节点无法解决单点故障问题】2、问题:HDFSFederation设计不能解决“单名称节点”存在的哪个问题:选项:A、HDFS集群扩展性B、性能更高效C、良好的隔离性D、单点故障问题正确答案:【单点故障问题】3、问题:下列哪些是Hadoop1.0存在的问题:选项:A、抽象层次低B、表达能力有限C、开发者自己管理作业之间的依赖关系D、执行迭代操作效率低正确答案:【抽象层次低#表达能力有限#开发者自己管理作业之间的依赖关系#执行迭代操作效率低】4、问题:下列对Hadoop各组件的理解正确的是:选项:A、Pig:处理大规模数据的脚本语言B、Tez:支持DAG作业的计算框架C、Oozie:工作流和协作服务引擎D、Kafka:分布式发布订阅消息系统正确答案:【Pig:处理大规模数据的脚本语言#Tez:支持DAG作业的计算框架#Oozie:工作流和协作服务引擎#Kafka:分布式发布订阅消息系统】5、问题:对新一代资源管理调度框架YARN的理解正确的是:选项:A、YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架B、YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMasterC、YARN既是资源管理调度框架,也是一个计算框架D、MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务正确答案:【YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架#YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster#MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务】第9章数据仓库Hive单元测验1、问题:下列有关Hive和Impala的对比错误的是:选项:A、Hive与Impala使用相同的元数据B、Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划C、Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询D、Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此正确答案:【Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此】2、问题:下列关于Hive基本操作命令的解释错误的是:选项:A、createdatabaseuserdb;//创建数据库userdbB、createtableifnotexistsusr(idbigint,namestring,ageint);//如果usr表不存在,创建表usr,含三个属性id,name,ageC、loaddatalocalinpath‘/usr/local/data’overwriteintotableusr;//把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表D、insertoverwritetablestudentselect*fromuserwhereage10;//向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据正确答案:【loaddatalocalinpath‘/usr/local/data’overwriteintotableusr;//把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表】3、问题:下列说法正确的是:选项:A、数据仓库Hive不需要借助于HDFS就可以完成数据的存储B、Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上C、Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据D、HiveQL语法与传统的SQL语法很相似正确答案:【Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上#Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据#HiveQL语法与传统的SQL语法很相似】4、问题:Impala主要由哪几个部分组成:选项:A、ImpaladB、StateStoreC、CLID、Hive正确答案:【Impalad#StateStore#CLI】5、问题:以下属于Hive的基本数据类型是:选项:A、TINYINTB、FLOATC、STRINGD、BINARY正确答案:【TINYINT#FLOAT#STRING#BINARY】第10章Spark单元测验1、问题:SparkSQL目前暂时不支持下列哪种语言:选项:A、ScalaB、JavaC、PythonD、Lisp正确答案:【Lisp】2、问题:RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:选项:A、mapB、filterC、groupByD、count正确答案:【count】3、问题:下列说法错误的是:选项:A、Spark支持三种类型的部署方式:Standalone,SparkonMesos,SparkonYARNB、在选择SparkStreaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架StormC、RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换D、RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算正确答案:【RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换】4、问题:下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:选项:A、count():返回数据集中的元素个数B、filter(func):筛选出满足函数func的元素,并返回一个新的数据集C、take(n):返回数据集中的第n个元素D、map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集正确答案:【take(n):返回数据集中的第n个元素】5、问题:下列大数据处理类型与其对应的软件框架不匹配的是:选项:A、复杂的批量数据处理:MapReduceB、基于历史数据的交互式查询:ImpalaC、基于实时数据流的数据处理:StormD、图结构数据的计算:Hive正确答案:【图结构数据的计算:Hive】6、问题:Apache软件基金会最重要的三大分布式计算系统开源项目包括:选项:A、HadoopB、SparkC、StormD、Oracle正确答案:【Hadoop#Spark#Storm】7、问题:Spark的主要特点包括:选项:A、运行速度快B、容易使用C、通用性好D、运行模式多样正确答案:【运行速度快#容易使用#通用性好#运行模式多样】8、问题:下列关于Scala的说法正确的是:选项:A、Scala是一种多范式编程语言B、Scala运行于Java平台,兼容现有的Java程序C、Scala具备强大的并发性,支持函数式编程D、Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言正确答案:【Scala是一种多范式编程语言#Scala运行于Java平台,兼容现有的Java程序#Scala具备强大的并发性,支持函数式编程#Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言】9、问题:Spark的运行架构包括:选项:A、集群资源管理器ClusterManagerB、运行作业任务的工作节点WorkerNodeC、每个应用的任务控制节点DriverD、每个工作节点上负责具体任务的执行进程Executor正确答案:【集群资源管理器ClusterManager#运行作业任务的工作节点WorkerNode#每个应用的任务控制节点Driver#每个工作节点上负责具体任务的执行进程Executor】第11章流计算单元测验1、问题:流计算秉承一个基本理念,即数据的价值随着时间的流逝而,如用户点击流:选项:A、降低B、升高C、不变D、不确定正确答案:【降低】2、问题:Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做选项:A、TopologyB、BoltC、TupleD、Spout正确答案:【Topology】3、问题:对于一个流计算系统来说,它应达到如下哪些需求:选项:A、高性能B、海量式C、实时性D、分布式正确答案:【高性能#海量式#实时性#分布式】4、问题:数据采集系统的基本架构包括哪些部分:选项:A、AgentB、CollectorC、StoreD、Controller正确答案:【Agent#Collector#Store】5、问题:以下哪些是开源的流计算框架:选项:A、Yahoo!S4B、TwitterStormC、FacebookPumaD、IBMInfoSphereStreams正确答案:【Yahoo!S4#TwitterStorm】6、问题:下面哪几个属于Storm中的StreamGroupings的分组方式:选项:A、随机分组B、按照字段分组C、广播发送D、全局分组正确答案:【随机分组#按照字段分组#广播发送#全局分组】第12章Flink单元测验1、问题:以下哪个不是Flink的优势:选项:A、同时支持高吞吐、低延迟、高性能B、同时支持流处理和批处理C、不支持增量迭代D、支持有状态计算正确答案:【不支持增量迭代】2、问题:在Flink中哪个是基于批处理的图计算库:选项:A、FlinkMLB、GellyC、CEPD、SQLTable库正确答案:【Gelly】3、问题:下面关于Flink的说法正确的是:选项:A、Flink不是Apache软件基金会的项目B、Flink可以同时支持实时计算和批量计算C、Flink起源于Stratosphere项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的D、Flink是Apache软件基金会的5个最大的大数据项目之一正确答案:【Flink可以同时支持实时计算和批量计算#Flink起源于Stratosphere项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的#Flink是Apache软件基金会的5个最大的大数据项目之一】4、问题:Flink的主要特性包括:选项:A、批流一体化B、精密的状态管理C、事件时间支持D、精确一次的状态一致性保障正确答案:【批流一体化#精密的状态管理#事件时间支持#精确一次的状态一致性保障】5、问题:下面论述正确的是:选项:A、流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink可以满足要求B、Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态C、SparkStreaming通过采用微批处理方法实现了高吞吐和容错性,但是牺牲了低延迟和实时处理能力D、Flink实现了GoogleDataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理正确答案:【流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink可以满足要求#Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态#SparkStreaming通过采用微批处理方法实现了高吞吐和容错性,但是牺牲了低延迟和实时处理能力#Flink实现了GoogleDataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理】6、问题:Flink常见的应用场景包括:选项:A、事件驱动型应用B、数据分析应用C、地图应用D、数据流水线应用正确答案:【事件驱动型应用#数据分析应用#数据流水线应用】7、问题:Flink核心组件栈分为哪三层:选项:A、物理部署层B、Runtime核心层C、APILibraries层D、Core层正确答案:【物理部署层#Runtime核心层#APILibraries层】8、问题:Flink有哪几种部署模式:选项:A、Local模式B、Standalone集群模式C、YARN集群模式D、运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上正确答案:【Local模式#Standalone集群模式#YARN集群模式#运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上】9、问题:Flink系统主要由两个组件组成,分别为:选项:A、JobManagerB、TaskSchedulerC、JobSchedulerD、TaskManager正确答案:【JobManager#TaskManager】10、问题:在编程模型方面,Flink提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽象:选项:A、状态化的数据流接口B、DataStreamAPI(有界或无界流数据)以及DataSetAPI(有界数据集)C、TableAPID、SQL正确答案:【状态化的数据流接口#DataStreamAPI(有界或无界流数据)以及DataSetAPI(有界数据集)#TableAPI#SQL】第13章图计算单元测验1、问题:Pregel是一种基于模型实现的并行图处理系统:选项:A、BSPB、TSPC、SBPD、STP正确答案:【BSP】2、问题:谷歌在后Hadoop时代的新“三驾马车”不包括:选项:A、CaffeineB、DremelC、HamaD、Pregel正确答案:【Hama】3、问题:下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:选项:A、PregelB、HamaC、GiraphD、Neo4j正确答案:【Pregel#Hama#Giraph】4、问题:以下关于Pregel图计算框架说法正确的是:选项:A、通常只对满足交换律和结合律的操作才会开启Combiner功能B、Aggregator提供了一种全局通信、监控和数据查看的机制C、Pregel采用检查点机制来实现容错D、对于全局拓扑改变,Pregel采用了惰性协调机制正确答案:【通常只对满足交换律和结合律的操作才会开启Combiner功能#Aggregator提供了一种全局通信、监控和数据查看的机制#Pregel采用检查点机制来实现容错#对于全局拓扑改变,Pregel采用了惰性协调机制】第14章大数据在不同领域的应用单元测验1、问题:下列说法错误的是:选项:A、UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品B、ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品C、UserCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化D、基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法正确答案:【基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法】2、问题:推荐方法包括哪些类型:选项:A、专家推荐B、基于统计的推荐C、基于内容的推荐D、协同过滤推荐正确答案:【专家推荐#基于统计的推荐#基于内容的推荐#协同过滤推荐】大数据技术原理与应用期末试卷1、问题:数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:选项:A、运营式系统阶段B、用户原创内容阶段C、感知式系统阶段D、数据流阶段正确答案:【数据流阶段】2、问题:第三次信息化浪潮的发生标志是以下哪种技术的普及:选项:A、个人计算机B、互联网C、物联网、云计算和大数据D、CPU正确答案:【物联网、云计算和大数据】3、问题:在Flink中哪个是基于批处理的图计算库:选项:A、FlinkMLB、GellyC、CEPD、SQLTable库正确答案:【Gelly】4、问题:Hadoop的两大核心是和选项:A、HDFS;MapReduceB、HDFS;HBaseC、MapReduce;HBaseD、GFS;MapReduce正确答案:【HDFS;MapReduce】5、问题:HDFS默认的一个块大小是选项:A、64MBB、8KBC、16KBD、32KB正确答案:【64MB】6、问题:在分布式文件系统HDFS中,负责数据的存储和读取:选项:A、数据节点B、主节点C、名称节点D、第二名称节点正确答案:【数据节点】7、问题:上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:选项:A、hdfsdfs-putfile.txt/pathB、hadoopdfs-put/pathfile.txtC、hdfsdfs-put/pathfile.txtD、hdfsfs-putfile.txt/path正确答案:【hdfsdfs-putfile.txt/path】8、问题:在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:选项:A、hadoopfs-mkdir-p/test/dirB、hadoopdfs-mkdir/test/dirC、hdfsfs-mkdir-p/test/dirD、hdfsdfs*mkdir-p/test/dir正确答案:【hadoopfs-mkdir-p/test/dir】9、问题:下列有关HBase的说法正确的是:选项:A、HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库B、HBase是一种NoSQL数据库C、在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库D、HBase数据库表可以设置该表任意列作为索引正确答案:【HBase是一种NoSQL数据库】10、问题:已知一张表student存储在HBase中,向表中插入一条记录{id:2015001,name:Mary,{score:math}:88},其id作为行键,其中,在插入数学成绩88分时,正确的命令是:选项:A、put'student','2015001','score:math','88'B、put'student','2015001','88'C、put'student','2015001','math','88'D、put'student','score:math','88'正确答案:【put'student','2015001','score:math','88'】11、问题:NoSQL数据库的三大理论基石不包括:选项:A、CAPB、BASEC、最终一致性D、ACID正确答案:【ACID】12、问题:在设计词频统计的MapReduce程序时,对于文本行“hellobigdatahellohadoop”,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作):选项:A、hello,1,1、bigdata,1和hadoop,1B、hello,2、bigdata,1和hadoop,1C、hello,1,1、bigdata,1和hadoop,1D、hello,1、hello,1、bigdata,1和hadoop,1正确答案:【hello,1、hello,1、bigdata,1和hadoop,1】13、问题:假设已经配置好PATH环境变量,启动Hadoop的命令是:选项:A、start-dfs.shB、start-hadoop.shC、start-fs.shD、start-hdfs.sh正确答案:【start-dfs.sh】14、问题:下列说法错误的是:选项:A、第二名称节点无法解决单点故障问题B、HDFSHA可以解决单点故障问题C、第二名称节点是热备份,而HDFSHA不是热备份D、HDFSFederation使得HDFS的命名服务能够水平扩展正确答案:【第二名称节点是热备份,而HDFSHA不是热备份】15、问题:RDD操作包括转换(Transformation)和动作(Action)两种类型,下列RDD操作属于动作(Action)类型的是:选项:A、mapB、joinC、collectD、groupBy正确答案:【collect】16、问题:下列关于Hive的说法正确的是:选项:A、Hive支持频繁数据更新B、Hive的可扩展性差C、Hive不支持索引D、Hive支持批量导入正确答案:【Hive支持批量导入】17、问题:大数据的特点包括:选项:A、数据量大B、数据种类繁多C、处理速度快D、价值密度低正确答案:【数据量大#数据种类繁多#处理速度快#价值密度低】18、问题:下列适用于批处理计算的框架有哪些:选项:A、MapReduceB、SparkC、StormD、Pregel正确答案:【MapReduce#Spark】19、问题:下列适用于流计算的框架有哪些:选项:A、StormB、SparkStreamingC、PregelD、Dremel正确答案:【Storm#SparkStreaming】20、问题:Flink核心组件栈分为哪三层:选项:A、物理部署层B、Runtime核心层C、APILibraries层D、Core层正确答案:【物理部署层#Runtime核心层#APILibraries层】21、问题:从技术架构上来看,物联网可以分为哪几层:选项:A、感知层B、网络层C、处理层D、应用层正确答案:【感知层#网络层#处理层#应用层】22、问题:HBase需要根据哪些属性来唯一地确定一个单元格(cell)中的某个版本数据:选项:A、行键B、列族C、列限定符D、时间戳正确答案:【行键#列族#列限定符#时间戳】23、问题:典型的NoSQL数据库的类型包括:选项:A、键值数据库B、列族数据库C、文档数据库D、图数据库正确答案:【键值数据库#列族数据库#文档数据库#图数据库】24、问题:CAP是指:选项:A、一致性B、可用性C、持久性D、分区容忍性正确答案:【一致性#可用性#分区容忍性】25、问题:云计算主要包括哪3种类型:选项:A、IaaSB、PaaSC、SaaSD、CaaS正确答案:【I
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度白酒年份酒拍卖交易合同
- 2025房产继承与分割专项服务协议书
- 二零二五电子合同规范管理与服务实施合同
- 二零二五年度房屋借住社区文化活动参与与支持协议合同范本
- 2025版建筑工程质量检测与施工验收规范合同
- 二零二五年购车奖励与保养积分奖励合同
- 2025版建筑工程施工进度监理规范与服务协议
- 二零二五版冷冻食品冷藏运输安全责任合同
- 2025版冷库仓储服务与产品分销合作协议
- 2025年物流园区专用车位使用权购买协议
- 叶酸发放知识培训课件
- 中小校长考试试题及答案
- (高清版)DB44∕T 2650-2025 网络安全合规咨询服务规范
- 中国海运拼箱行业市场发展前瞻及投资战略研究报告2025-2028版
- 2025年江苏省苏州市中考物理试卷(含答案)
- 2025年食品科学基础知识考试试题及答案
- 档案AI应用的成本效益分析与效能评估
- 2024ODCC-02007数据中心电能路由器应用白皮书
- 龙湖集团招标管理原则
- 近亲属任职情况申报表
- GB/T 20145-2006灯和灯系统的光生物安全性
评论
0/150
提交评论