大数据平台技术智慧树知到期末考试答案章节答案2024年山东交通学院

上传人：题*** IP属地：浙江上传时间：2024-07-27 格式：DOCX 页数：8 大小：15.11KB 积分：6 举报 版权申诉

免费预览已结束，剩余4页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据平台技术智慧树知到期末考试答案+章节答案2024年山东交通学院RDD表示只读的分区的数据集，对RDD进行改动，只能通过RDD的转换操作。（）

答案:对MapReduce编程较为灵活（）。

答案:对HDFS中的NameNode节点用于存放元数据，元数据内容包含文件与数据块的映射表和每个数据块的内容（）

答案:错非结构化数据不易收集和管理，且难以直接进行查询和分析（）。

答案:对Sink是Flume中事件的源头，负责接收数据到FlumeAgent，可以处理多种类型、多种格式的数据（）

答案:错Kafka的描述正确的是（）。

答案:分布式消息系统;开源的;可以运行在Linux上下面关于Flume中Sink的说法正确的是（）。

答案:Sink可以将事件批量的写入到存储系统;Sink是事件目的;Sink可以自动不断接收事件关于MapReduce使用说法正确的是（）。

答案:可以将一个目录作为输入路径;可以将一个目录作为输出路径;可以将一个文件作为输出路径;可以将一个文件作为输入路径数据库访问过大怎么解决（）。

答案:配置垂直分库;大表分片;配置主从分离SparkStreaming主要用于处理批处理的数据。（）

答案:错使用消息队列的好处（）。

答案:解耦;缓冲;可恢复性具体来看，流式数据处理一般包含下面的流程（）。

答案:数据实时采集;实时查询服务;数据实时计算Kafka集群描述正确的是（）。

答案:集群中的每一个服务器都是一个代理下面关于Flume中Source的说法正确的是（）。

答案:Source负责接收数据到FlumeAgent;Source可以处理多种类型、多种格式的数据;Source是事件源头下面关于Channel的类型包括（）。

答案:MemoryChannel;FileChannellinux系统中ls命令的作用是（）。

答案:查看linux文件夹包含的文件2TB数据等于多少MB（）。

答案:2097152在Spark的计算过程中初次读取数据之后每次迭代的数据都是从哪里读取的（）。

答案:内存一个gzip文件大小75MB，集群设置Block大小为64MB，请问其占用几个Block？（）

答案:2下面哪项关于HBase的常用命令的描述是正确的（）。

答案:HBase使用scan命令时可以指定扫描区间在Spark操作中，textFile()的作用是（）。

答案:获取文件集合在Spark的运行架构中，分布式数据集（RDD）的主要功能是（）。

答案:提供弹性分布式数据的操作关于MapReduce配置意义错误的是（）。

答案:mapreduce.map.memory.mb配置所有MapTask使用的总内存在Spark中，集群管理器的主要功能是（）。

答案:高效地在一个计算节点到数千个计算节点之间伸缩计算在大数据平台的基本架构中，服务封装层主要负责（）。

答案:根据不同的用户需求对各种大数据处理和分析功能进行封装并对外提供服务Kafka开发语言（）。

答案:Scala下列关于HDFS常用命令错误的是（）。

答案:创建多级目录bin/hdfsdfs-mkdir/test/a如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（）

答案:错大数据的4V特征包括（）。

答案:种类繁多;变化频繁;价值巨大但价值密度低;规模庞大RDD中可以对创建好的RDD进行编辑改动。（）

答案:错在SparkStreaming中，可以通过streamingContext.start()来开始接收数据和处理流程。（）

答案:对MapReduce主要用于流式计算（）。

答案:错发布到topic的消息会被所有订阅者消费（）。

答案:对一个RDD可以简单的理解为一个分布式的元素集合。（）

答案:对在SparkStreaming中，可以通过streamingContext.awaitTermination()方法来等待处理结束。（）

答案:对半结构化数据一般为纯文本数据，其中的每条记录都会有预定义的规范，但其包含的信息也都具有相同的格式（）。

答案:错Channel是位于Source和Sink之间的缓冲区，可以同时处理多个Source和Sink（）

答案:对在SparkStreaming中，可以通过streamingContext.stop()来手动结束流计算进程。（）

答案:对电商个性化推荐系统主要流程包括（）。

答案:使用多种算法引擎进行汇总、对比、计算等若干操作，最终形成对用户购买商品的个性化推荐信息;使用实时计算平台或离线计算平台通过多种算法进行数据分析与挖掘，得到用户画像和所购买商品的画像;通过多种可视化平台展示出去;从多方面收集用户购物信息数据，将各类数据进行分布式存储Hbase特点（）。

答案:列与列之间相互不影响;支持PB级别数据量Hbase基本架构包含（）。

答案:RegionServer;HMaster下面关于Flume中Channel的说法正确的是（）。

答案:Channel是位于Source和Sink之间的缓冲区;Channel可以同时处理多个Source和Sink;Channel的类型包括MemoryChannel和FileChannel;Channel允许Source和Sink运作在不同的速率上Hadoop2.x中HDFS默认的block的大小为128M。（）

答案:对下面关于Flume中Event的说法正确的是（）。

答案:Event由Header和Body两部分组成;Event是Flume的基本数据传输单元;Event的Body用来存放该条数据，形式为字节数组;Event的Header用来存放该Event的一些属性，为K-V结构Kafka特点（）。

答案:支持KafkaServer间的消息分区;高吞吐率;支持离线数据处理和实时数据处理下列对元数据解释正确的是（）

答案:NameNode内存中的数据;DataNode启动时上报的block位置信息+fsimage+edits;只有当NameNode正常停止时（非“意外情况下宕机”），才会将元数据写入到fsimage（除位置信息）。关系型数据库特点（）。

答案:严格定义列结构;遵循sql标准;列之间可以具有关系;支持事务的ACID特性Spark的任务调度执行机制是以什么为基础的（）。

答案:DAGEB、TB、GB、MB之间的换算关系是（）。

答案:1024倍下面哪个程序负责HDFS数据的存储（）

答案:Datanodekafka描述不正确的是（）。

答案:更多的consumer无法有效提升并发消费能力在大数据平台的基本架构中，数据采集层主要负责（）。

答案:从各种不同的数据源采集数据Python编写MapReduce代码时，可能用到的方法有（）。

答案:reducer;yield;run;mapper下列HDFS常用配置意义正确的是（）

答案:＜!--NameNodeWebUI地址--＞＜property＞＜name＞node.http-address＜/name＞＜value＞hadoop1:50070＜/value＞＜/property＞;＜!--副本数量--＞＜property＞＜name＞dfs.replication＜/name＞＜value＞1＜/value＞＜/property＞;＜!--指定NameNode节点和通信端口--＞＜property＞＜name＞fs.defaultFS＜/name＞＜value＞hdfs://hadoop1:8020＜/value＞＜/property＞HDFS中block默认会保存几份？()

答案:3Message的描述正确的为（）。

答案:是通信的基本单位SparkStreaming对实时输入数据流进行拆分的单位是（）。

答案:时间下列关于MapReduce说法不正确的是（）。

答案:MapReduce程序只能用java语言编写下面不属于Flume中Agent的组成部分（）。

答案:EventHBASE支持（）。

答案:简单的事务关于NameNode的功能下列说法不正确的是（）

答案:具体文件存储地点。在vi编辑器的命令模式下，要进入取代模式并取代光标所在的那一个字符一次，需要按下键盘上的（）。

答案:r键在vi编辑器的命令模式下，要向后删除一个字符，需要按下键盘上的（）。

答案:x键大数据的特点不包括下面哪一项（）。

答案:价值密度高在Spark操作中，parallelize()的作用是（）。

答案:从内存数据中创建RDD关于SecondaryNameNode哪项是正确的（）。

答案:它对内存不是没有要求消息队列点对点中描述不正确的是（）。

答案:Queue只能支持单个消费者下列属于HDFS常用命令中上传文件的是（）

答案:bin/hdfsdfs-put1.txt/2.txt在Hadoop的计算过程中每次迭代的数据都是从哪里读取的（）。

答案:磁盘在大数据平台的基本架构中，数据处理层主要负责（）。

答案:大数据的处理和分析工作列出命名空间的命令为（）。

答案:list_namespace大数据至少为以下哪种存储量级?（）

答案:PB下面对于Python实现MapReduce代码说法错误的是（）。

答案:sum(list)用于获取列表list的长度MapReduce适用于（）。

答案:可以并行处理的应用程序HBase的预写日志可以降低数据丢失的风险。（）

答案:对下面哪项关于HBase的常用命令的描述是错误的（）。

答案:HBase要查看表可以使用list_namespace;HBase全表扫描使用get命令;HBase一张正在使用的表可以直接使用drop命令删除以下说法有误的是（）。

答案:HBase不需要考虑读写性能在SparkStreaming中，作为一个长期运行的task跑在一个Executor上，用于接收DStream的组件是（）。

答案:Receiver弹性分布式数据集RDD的特性包括（）。

答案:分区;依赖;只读;弹性在Spark操作中，collect()的作用是（）。

答案:以数组的形式返回数据集中的所有元素下面关于Spark驱动程序driverprogram的说法，正确的是（）。

答案:每个Spark应用程序都包含一个驱动程序;驱动程序定义了分布式数据集以应用在集群中;驱动程序包含Spark应用程序中的主函数;驱动程序负责把并行操作发布到集群上Spark框架的特色包括（）。

答案:容易使用;运行速度快;运行模式多样;通用性从概念上而言，流数据(或数据流)是指（）。

答案:数据记录是流数据的最小组成单元;在时间分布和数量上无限的一系列动态数据集合体在Spark操作中，map(func)的作用是（）。

答案:对RDD中的数据按照func进行计算得到新的RDDSpark支持的集群管理器包括（）。

答案:Standalone;HadoopYARN;ApacheMesosSparkStreaming最主要的抽象是离散化数据流，表示连续不断的数据流。（）

答案:对在SparkStreaming中，可以通过streamingContext.awaitTermination()方法来手动结束流计算进程。（）

答案:错以下对消息模型的说法正确的是（）。

答案:发布订阅模型消息可以重复消费;发布订阅模型以主题区分消息类别;点对点模型中同一消息只有一个消费者可以消费;点对点模型中消息被消费后即删除以下对Kafka名词解释错误的是（）。

答案:Partition指Kafka的数据副本对市面上的消息队列产品描述正确的是（）。

答案:Kafka支持动态扩展下列关于MapReduce说法正确的是（）。

答案:MapReduce隐藏了并行计算的细节，方便使用;MapReduce是一种计算框架;MapReduce来源于google的学术论文MapReduce中Map阶段的输出将作为下面哪个阶段的输入（）。

答案:Reduce下面哪项是错误的（）。

答案:MapReduce的输出目录如果已经存在了，任务的输出结果将会覆盖该路径下的原有内容HDFS中的NameNode节点用于存放元数据，元数据内容包含（）。

答案:文件与数据块的映射表;数据块与数据节点的映射表读取HDFS文件可以使用命令hdfsdfs-get。（）

答案:对因为HDFS有多个数据副本，所以NameNode是不存在单点故障问题的。（）

答案:错以下哪一项用于配置HDFS的block大小（）。

答案:dfs.blocksizeHadoop2.x中HDFS默认的block的大小为（）。

答案:128MBNameNode负责管理元数据，客户端每次读写请求，它都会从磁盘中读取或者写入元数据信息并反馈客户端。（）

答案:错在Flume的配置文件中，对某个目录下文件进行监控的命令是（）。

答案:tail-fChannel是位于Source和Sink之间的缓冲区，对Source和Sink进行一对一处理（）

答案:错Source是Flume中事件的源头，负责接收数据到FlumeAgent，可以处理多种类型、多种格式的数据（）

答案:对Flume的Agent包含这些组成部分（）。

答案:Channel;Sink;SourceEvent由这两部分组

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据平台技术智慧树知到期末考试答案章节答案2024年山东交通学院

文档简介

温馨提示

最新文档

评论

大数据平台技术智慧树知到期末考试答案章节答案2024年山东交通学院

文档简介

温馨提示

最新文档

评论

相关文档