版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Spark期末练习题库基本信息:[矩阵文本题]*姓名:________________________学号:________________________班级:________________________1.SparkSQL目前暂时不支持下列哪种语言(
)。[单选题]*A、Sca1aB、JavaC、Lispl(正确答案)D、Python2.RDD操作分为转换Transformation和动作Action两种类型,下列属于动作Action类型的操作是()。[单选题]*A、Count(正确答案)B、mapC、filterD、groupBy3.下列部署方式可以设置多个主角色的是(
)
*A、StandaloneHA模式(正确答案)B、Local模式C、Sparkonyarn模式D、standalone模式4.下列关于常见的动作Action和转换Transformation操作的API解释错误的是()。[单选题]*A、count():返回数据集中的元素个数B、take(n):返回数据集中的第n个元素(正确答案)C、map(fwnc)t将每个元素传递到函数func中,并将结果返回为一个新的数据集D、filter(funs):筛选出满足函数tung的元素,并返回一个新的数据集5.下面哪个操作是窄依赖()[单选题]*A、joneB、filter(正确答案)C、groupD、sort6.下面哪个操作肯定是宽依赖()[单选题]*A、mapB、flatMapC、reduceByKey(正确答案)D、sample7.关于安全模式命令,正确的是()[单选题]*A、退出安全模式:hadoopdfsadmin-safemodeleave(正确答案)B、退出安全模式:hadoopdfs-safemodeleaveC、进入安全模式:hadoopdfs-safemodeenterD、进入安全模式:hadoopdfsadminenter8.spark中默认的存储级别()[单选题]*A、MEMORY_ONLY(正确答案)B、MEMORY_ONLY_SERC、NEMORY_AND_DlSKD、MEMORY_AND_DISK_SER9.以下哪一个不是saprk的特点()[单选题]*A、随处运行B、代码简洁C、使用复杂(正确答案)D、运行快速10.spark的四大组件下面哪个不是()[单选题]*A、SparkStreamingB、MibC、GraphxD、SparkR(正确答案)11.下面哪个端口不是spark自带服务的端口()[单选题]*A、8080B、4040C、8090(正确答案)D、1808012.SparkJob默认的调度模式()[单选题]*A、FIFOQ(正确答案)B、FAIRC、无D、运行时指定13.哪个不是本地模式运行的条件()[单选题]*A、sparklocalExecution.enabled=trueB、显式指定本地运行C、finalStage无父StageD、partition默认值(正确答案)14.下面哪个不是RDD的特点()[单选题]*A、可分区B、可序列化C、可修改(正确答案)D、可持久化15.关于广播变量,下面哪个是错误的()[单选题]*A、任何函数调用B、是只读的C、存储在各个节点D、存储在磁盘或HDFS(正确答案)16.关于安全模式的描述错误的是()[单选题]*A、NameNode在启动时会自动进入安全模式B、NameNode只有在安全启动模式下才会进入安全模式(正确答案)C、安全模式是一种状态,文件系统不允许有任何修改D、进入安全模式后,系统会显示NameNodeinsafemode,说明系统正在处于安全模式17.关于累加器,下面哪个是错误的()[单选题]*A、支持加法B、支持数值类型C、可并行D、不支持自定义类型(正确答案)18.Spark支持的分布式部署方式中哪个是错误的()[单选题]*A、standaloneB、sparkonmesosC、sparkonYARND、Sparkonlocal(正确答案)19.stage的Task的数量由什么决定()[单选题]*A、Partition(正确答案)B、JobC、StageD、TaskScheduler20.spark的master和worker通过什么方式进行通信的是()[单选题]*A、httpB、nioC、nettyD、Akka(正确答案)21.spark.deploy.recoveryMode不支持那种()[单选题]*A、ZooKeeperB、FileSystemC、NONED、hadoop(正确答案)22.Task运行在下来哪里个选项中Executor上的工作单元()[单选题]*A、DriverprogramB、sparkmasterC、workernode(正确答案)D、Clustermanager23.hive的元数据存储在derby和mysql中有什么区别()[单选题]*A、没区别B、多会话(正确答案)C、支持网络环境D、数据库的区别24.DataFrame和RDD最大的区别()[单选题]*A、科学统计支持B、多schema(正确答案)C、存储方式不—样D、外部数据源支持25.Master的ElectedLeader事件后做了哪些操作()[单选题]*A、通知driverB、通知workerC、注册applicationD、直接ALIVE(正确答案)26.下列哪—项不是applicationMaster的功能()[单选题]*A、数据切分B、为应用程序申请资源,并进一步分配给内部任务C、任务监控与容错D、所有应用的管理者(正确答案)27.SparkRDD中没有的特性是()[单选题]*A、位置优先B、分布式C、弹性D、固定大小(正确答案)28.大数据的特点不包括()[单选题]*A、数据量大B、数据类型多C、处理速度快D、价值密度高(正确答案)29.大数据的特点不包括()[单选题]*A、数据量大B、数据类型单—(正确答案)C、处理速度快D、价值密度低30.大数据计算模式不包括()[单选题]*A、批处理计算B、流计算C、图计算D、云计算(正确答案)31.大数据计算模式不包括()[单选题]*A、离线处理计算(正确答案)B、流计算C、图计算D、查询分析计算32.Spark的运行架构包括()。*A每个工作节点上负责具体任务的执行进程Executor(正确答案)B.每个应用的任务控制节点Driver(正确答案)C.集群资源管理器clusterManager(正确答案)D.运行作业任务的工作节点WorkerNode(正确答案)33.SparkRDD的依赖机制包括()*A、宽依赖(正确答案)B、深度依赖C、广度依赖D、窄依赖(正确答案)34.Spark组成部件包括(BC)*A、ResourceManagerB、Executor(正确答案)C、Driver(正确答案)D、RDD35.以下是Spark中executor的作用是()*A、保存计算的RDD分区数据(正确答案)B、向Driver反向注册(正确答案)C、接受Driver端发送来的任务Task,作用在RDD上进行执行(正确答案)D、做资源调度任务36.Stage的Task的数量不是由什么决定()*A、PartitionB、Job(正确答案)C、Stage(正确答案)D、TaskScheduler(正确答案)37.spark是什么?[填空题]*_________________________________答案解析:
ApacheSpark是用于大规模数据(large-scaladata)处理的统一(unified)分析引擎。Spark是一款分布式内存计算的统一分析引擎。其特点就是对任意类型的数据进行自定义计算。Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。38.SparkSQL和Hive的异同点?[填空题]*_________________________________39.Hadoop的基于进程的计算和Spark基于线程方式优缺点?[填空题]*_________________________________答案解析:Hadoop中的MR中每个map/reducetask都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。比如多个maptask读取不同数据源文件需要将数据源加载到每个maptask中,造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率,Spark采用了线程的最小的执行
单位,但缺点是线程之间会有资源竞争。40.Spark特点有哪些?[填空题]*_________________________________答案解析:速度快、使用简单、通用性强、多种模式运行41.Spark有哪些模块?[填空题]*_________________________________答案解析:核心SparkCore、SQL计算(SparkSQL)、流计算(SparkStreaming)、图计算(GraphX)、机器学习(MLlib)42.SparkOnYarn的本质?[填空题]*_________________________________答案解析:Master角色由YARN的ResourceManager担任.Worker角色由YARN的NodeManager担任.Driver角色运行在YARN容器内或提交任务的客户端进程中真正干活的Executor运行在YARN提供的容器内43.SparkOnYarn需要什么?[填空题]*_________________________________答案解析:1.需要Yarn集群:已经安装了2.需要一台主机安装Spark客户端工具,比如spark-submit,可以将Spark程序提交到YARN中44.SparkonYARN的两种模式[填空题]*_________________________________45.PySpark是什么?和bin/pyspark程序有何区别?[填空题]*_________________________________46.什么是RDD[填空题]*_________________________________47.RDD的特性是[填空题]*_________________________________48.说说RDD算子怎么分类的,它们都有什么特点[填空题]*_________________________________49.RDD创建有哪几种方法?[填空题]*_________________________________50.Transformation和Action的区别?[填空题]*_________________________________51.reduceByKey和groupByKey的区别?[填空题]*_________________________________52.对于分区操作有什么要注意的地方?[填空题]*_________________________________53.RDD的缓存的特点[填空题]*_________________________________54.CheckPoint的特点[填空题]*_________________________________55.缓存和checkPoint的对比[填空题]*_________________________________56.CheckPoint和缓存注意哪些地方[填空题]*_________________________________57.Cache和Checkpoint区别[填空题]*_________________________________58.广播变量解决了什么问题?[填空题]*_________________________________59.累加器解决了什么问题?[填空题]*_________________________________60.DAG是什么[填空题]*_________________________________61.什么是宽依赖和窄依赖?[填空题]*_________________________________62.Spark是怎么做内存计算的?DAG的作用?Stage阶段划分的作用?[填空题]*_________________________________答案解析:Spark会产生DAG图DAG图会基于分区和宽窄依赖关系划分阶段一个阶段的内部都是窄依赖,窄依赖内,如果形成前后1:1的分区对应关系,就可以产生许多内存迭代计算的管道
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度车间租赁安全协议书(含安全生产责任险)
- 二零二五年度茶业投资合作框架协议
- 2025年度解除婚约协议书(情感修复与法律支持)
- 二零二五年度油茶种植基地承包与生态修复协议
- 2025年度食堂食品安全风险评估与监督执行协议
- 施工现场施工防生物污染制度
- 施工日志填写中的施工材料消耗记录方法
- 个人商铺抵押借款合同范本
- 云服务器托管服务合同(三)
- 二手厂房买卖合同
- 职业暴露与防护
- 年产15吨透明质酸生产车间的初步工艺设计
- 大模型在航空航天领域的应用:智能探索宇宙的无限可能
- 酒店行业客源渠道分析
- 2024年中国陪诊服务行业市场发展趋势预测报告-智研咨询重磅发布
- AVL-CRUISE-2019-整车经济性动力性分析操作指导书
- 肠道医学解剖和生理学
- 人教版九年级英语动词时态专项练习(含答案和解析)
- 兰州市规范医疗服务价格项目基准价格表
- 火灾隐患整改登记表
- 普通地质学教材
评论
0/150
提交评论