大数据处理期末考试题库_第1页
大数据处理期末考试题库_第2页
大数据处理期末考试题库_第3页
大数据处理期末考试题库_第4页
大数据处理期末考试题库_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据期末考试题库Spark选择题Spark的四大组件下面哪个不是(D)A.SparkStreamingBMlibCGraphxDSparkR下面哪个端口不是spark自带服务的端口(C)A.8080B.4040C.8090D.18080spark1.4版本的最大变化(B)AsparksqlRelease版本B引入SparkRCDataFrameD支持动态资源分配SparkJob默认的调度模式(A)AFIFOBFAIRC无D运行时指定哪个不是本地模式运行的个条件(D)Aspark.localExecution.enabled=trueB显式指定本地运行CfinalStage无父StageDpartition默认值下面哪个不是RDD的特点(C)A.可分区B可序列化C可修改D可持久化关于广播变量,下面哪个是错误的(D)A任何函数调用B是只读的C存储在各个节点D存储在磁盘或HDFS关于累加器,下面哪个是错误的(D)A支持加法B支持数值类型C可并行D不支持自定义类型Spark支持的分布式部署方式中哪个是错误的(D)AstandaloneBsparkonmesosCsparkonYARNDSparkonlocalStage的Task的数量由什么决定(A)APartitionBJobCStageDTaskScheduler下面哪个操作是窄依赖(B)AjoinBfilterCgroupDsort下面哪个操作肯定是宽依赖(C)AmapBflatMapCreduceByKeyDsamplespark的master和worker通过什么方式进行通信的?(D)AhttpBnioCnettyDAkka默认的存储级别(A)AMEMORY_ONLYBMEMORY_ONLY_SERCMEMORY_AND_DISKDMEMORY_AND_DISK_SERspark.deploy.recoveryMode不支持那种(D)A.ZooKeeperB.FileSystemDNONEDHadoop下列哪个不是RDD的缓存方法(C)Apersist()BCache()CMemory()Task运行在下来哪里个选项中Executor上的工作单元(C)ADriverprogramB.sparkmasterC.workernodeDClustermanagerhive的元数据存储在derby和MySQL中有什么区别(B)A.没区别B.多会话C.支持网络环境D数据库的区别DataFrame和RDD最大的区别(B)A.科学统计支持B.多了schemaC.存储方式不一样D.外部数据源支持Master的ElectedLeader事件后做了哪些操作(D)A.通知driverB.通知workerC.注册applicationD.直接ALIVE(Spark)Spark是什么()?正确答案:A,C,DA.Spark是基于内存计算的框架B.Spark是基于磁盘计算的框架C.Spark是一种基于RDD计算框架D.Spark是一种并行计算框架spark的数据,可以存储在哪些地方?正确答案:A,B,C,DA.HDFSB.CassandraC.HbaseD.S3大数据处理主要的三种场景为()正确答案:A,B,C批处理交互处理流式计算事务处理以下对SparkCore描述正确的有?正确答案:A,B,C,D引入了RDD移动计算而非移动数据使用线程池来减少task启动开销使用akka作为通讯框架以下对SparkSQL的描述正确的有?正确答案:A,B,CA.SparkSQL运行开发人员之间处理RDDB.SparkSQL可以直接查询hive中的数据C.SparkSQL运行开发人员之间使用SQL进行复制的数据分析D.SparkSQL的性能上,和Hive类似。以下哪些是Spark的组件?正确答案:A,B,CA.MLBase/MLlibB.GraphXC.SparkRD.MatlabSpark的运行模式有哪些?正确答案:A,B,C,DA.localB.StandaloneC.onYarnoronmesosD.onCloudspark运行模式中,onyarn这种模式,可以应用于生产环境中。正确答案:A正确错误spark运行模式中,local这种模式,可以应用于生产环境中。正确答案:B正确错误Spark使用的资源管理器有哪些?正确答案:A,B,C,DA.MesosB.standaloneC.yarnD.cloudspark都有哪些组件?正确答案:A,B,C,DA.SparkSQLB.SparkStreamingC.MLlibD.GraphXSpark是2009年诞生于伯克利大学AMPLab的基于内存计算框架正确答案:A正确错误下列对spark描述正确的有?正确答案:A,B,C,DA.spark是基于内存计算的B.spark处理大量数据的一个快速通用的引擎C.spark由AMPlab实验室开发D.spark目前是apache的顶级项目spark是由java语言开发正确答案:B正确错误Spark的容错机制是()。正确答案:A,DA.checkpointB.persistC.cacheD.lineageSpark与Hadoop的区别()。正确答案:A,CA.Spark是基于内存计算框架,而Hadoop基于硬盘计算框架park是基于硬盘计算框架,而Hadoop基于内存计算框架C.Spark是一站式计算框架,而Hadoop只适合离线处理计算框架D.Spark只适合离线处理计算框架,而Hadoop是一站式计算框架spark基本特点有哪些?正确答案:A,B,C,DA.EaseofuseB.GeneralityC.RunseverywhereD.Speed可以使用哪些语言来编写spark应用程序?正确答案:A,B,C,DA.javaB.scalaC.pythonD.Rspark和hadoop对比,说法正确的是?正确答案:A,B,CA.Hadoop中间结果会存储在磁盘上B.spark中间结果会存储在内存中C.Spark相对于hadoop提供了更多的操作D.Spark已经完全取代hadoopSpark常见组件描述错误的是()。正确答案:BA.SparkCore:是以内存使用RDD的计算实现有向无环图的分布式并行计算框架parkStreaming:是一个对实时数据流进行低吞吐量、高容错性处理的流式处理框架C.SparkSQL:是一个可以直接通过sql语句处理RDD,来进行查询与计算D.SparkMLBase:是专注于机器学习方面E.SparkGraphX:是专注于图计算方面F.SparkR:是一种使用R语言开发,且能实现并行处理的计算框架大数据期末题目汇总选择题下面哪个程序负责HDFS数据存储。(C)A.NameNodeB.JobtrackerDatanodeD.secondaryNameNodeHDFS中的block默认保存几个备份。(A)A.3份B.2份1份D.不确定HDFS1.0默认BlockSize大小是多少。(B)A.32MBB.64MBC.128MBD.256MB下面哪个进程负责MapReduce任务调度。(B)A.NameNodeB.JobtrackerC.TaskTrackerD.secondaryNameNodeHadoop1.0默认的调度器策略是哪个。(A)A.先进先出调度器B.计算能力调度器C.公平调度器D.优先级调度器Client端上传文件的时候下列哪项正确?(B)数据经过NameNode传递给DataNodeClient端将文件切分为Block,依次上传Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作以上都不正确在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功?(D)Namenode,Datanode,TaskTrackerNamenode,Datanode,secondaryNameNodeNamenode,Datanode,HMasterNamenode,JobTracker,secondaryNameNode若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。(D)A.MaxB.MinC.CountD.AverageMapReduce编程模型,键值对<key,value>的key必须实现哪个接口?(A)A.WritableComparableB.ComparableC.WritableD.LongWritable以下哪一项属于非结构化数据。(C)A.企业ERP数据B.财务系统数据C.视频监控数据D.日志数据HBase数据库的BlockCache缓存的数据块中,哪一项不一定能提高效率。(D)A.-ROOT—表B..META.表C.HFileindexD.普通的数据块HBase是分布式列式存储系统,记录按什么集中存放。(A)A.列族B.列C.行D.不确定HBase的Region组成中,必须要有以下哪一项。(B)A.StoreFileB.MemStoreC.HFileD.MetaStore客户端首次查询HBase数据库时,首先需要从哪个表开始查找。(B)A..META.B.—ROOT-C.用户表D.信息表15、设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。(A)A.分桶B.分区C.索引D.分表填空题大数据的特点:Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、Veracity(真实性)大数据的性质:非结构性、不完备性、时效性、安全性、可靠性大数据处理的全过程:数据采集与记录-->数据抽取、清洗、标记-->数据集成、转换、简约-->数据分析与建模-->数据解释大数据的关键技术:流处理、并行化、摘要索引、可视化科学研究范式:第一范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型计算)CAP理论:Consistency(一致性)、Availability(可用性)、PartitionTolerance(分区容错性)。一个分布式系统不可能同时满足一致性、可用性、分区容错性三个系统需求,最多只能同时满足两个。HDFS目标:兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性流式数据的特征:实时性、易失性、突发性、无序性、无限性、准确性Storm特征:编程简单、支持多语言、作业级容错、水平扩展、底层使用Zero消息队列,快搜索引擎的工作过程:爬行->抓取存储->预处理->排名搜索引擎的评价指标:查全率、查准率、响应时间、覆盖范围、用户方便性数据分析的目的:对杂乱无章的数据进行集中、萃取、提炼,进而找出所研究对象的内在规律,发现其价值。Hadoop的三种安装模式:单机伪分布式完全分布式yarn配置后的web监控的默认端口是8088HDFSweb界面的默认端口为50070目前得到广泛应用的分布式文件系统主要包括GFS和HDFS。HDFS采用“一次写入,多次读取”的简单文件模型。HDFS采用了主从结构模型。Hase3个主要功能组件:库函数,Master主服务器,Region服务器MapReduce模型的核心是Map函数和Reduce函数。YARN的目标就是实现“一个集群,多个框架”。判断题Hadoop支持数据的随机读写。(hbase支持,hadoop不支持)(错)NameNode负责管理元数据信息metadata,client端每次读写请求,它都会从磁盘中读取或会写入metadata信息并反馈给client端。(内存中读取)(错)MapReduce的inputsplit一定是一个block。(默认是)(错)MapReduce适于PB级别以上的海量数据在线处理。 (离线) (错)链式MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个。(对)MapReduce计算过程中,相同的key默认会被发送到同一个reducetask处理。(对)HBase对于空(NULL)的列,不需要占用存储空间。(没有则空不存储)(对)HBase可以有列,可以没有列族(columnfamily)。(有列族)(错)简答题简述大数据技术的特点。Volume(大体量):即可从数百TB到数十数百PB、甚至EB规模。Variety(多样性):即大数据包括各种格式和形态的数据。Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。Veracity(准确性):即处理的结果要保证一定的准确性。Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业价值。启动Hadoop系统,当使用bin/start-all.sh命令启动时,请给出集群各进程启动顺序。答:启动顺序:namenode—>datanode->secondarynamenode->resourcemanager->nodemanager简述HBase的主要技术特点。(1)列式存储(2)表数据是稀疏的多维映射表(3)读写的严格一致性(4)提供很高的数据读写速度(5)良好的线性可扩展性(6)提供海量数据(7)数据会自动分片(8)对于数据故障,hbase是有自动的失效检测和恢复能力。(9)提供了方便的与HDFS和MAPREDUCE集成的能力。科学研究第一范式、第二范式、第三范式、第四范式。第一范式(科学实验)、第二范式(科学理论)、第三范式(系统模拟)、第四范式(数据密集型计算)第一范式:经验范式,以观察和实验为依据的研究。第二范式:以建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论