版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录绪论第一章单元测试第二章单元测试第三章单元测试第四章单元测试第五章单元测试第六章单元测试绪论1【判断题】正确答案:BUserCF算法符合人们对于“趣味相投”的认知,即兴趣相似的用户往往有相同的物品喜好。()。A.错B.对第一章单元测试1【判断题】正确答案:ASpark是一种快速、分布式、可扩展、容错的集群计算框架()。A.对B.错2.【多选题】(5分)正确答案:ABCDSpark的主要特点()。A.通用性,Spark提供了完整而强大的技术栈B.运行速度快C.容易使用,简洁的API设计有助于用户轻松构建并行程序D.运行模式多样3.【多选题】(5分)正确答案:ACSpark任务执行器中有存储模块,当需要多轮迭代计算时,中间结果可以写入()。A.硬盘B.CPUC.内存D.U盘4【判断题】正确答案:ASpark的资源管理器为任务执行器分配资源,包括分配CPU和内存()。A.对B.错5.【多选题】(5分)正确答案:BDSpark应用的计算逻辑会被解析成DAG,这个解析操作由以下哪个功能模块完成()。A.ApplicationMasterB.DriverC.ClientD.Executor6【单选题】(3分)正确答案:D当Spark运行时,每次执行一个应用程序,第一步应该是()。A.并向任务执行器发送应用程序代码和文件B.在任务执行器上执行TaskC.启动任务执行器D.DriverProgram即应用程序的“指挥所”会向集群资源管理器申请资源7【单选题】(3分)正确答案:CSpark图计算的产品是()。A.PowerGraphB.FlumeC.GraphXD.Pregel第二章单元测试1.【多选题】(5分)正确答案:ABCDSpark的运行架构包括哪些()。A.WorkerNodeB.执行进程(Executor)C.任务控制节点DriverProgramD.集群资源管理器(Clustermanager)2【单选题】(3分)正确答案:Dscala语言是一种()式编程语言。A.指令式B.面向对象C.面向过程D.函数式3.【多选题】(5分)正确答案:ACDScala关于变量定义、赋值,正确的是()A.vala=3B.vala:String=3C.varb="HelloWorld!";b="123"D.varb:Int=3;b=64【单选题】(3分)正确答案:D下面输出与其他不一致的是()A.println("HelloWorld")B.print("HelloWorld\n")C.printf("Hello%s","World\n")D.valw="World";println("Hello$w")5【单选题】(3分)正确答案:DvarstrList=List("BigData","Hadoop","Spark");strList.tail运行的返回结果是()A.SparkB.BigDataC.HadoopD.Hadoop,Spark第三章单元测试1.【多选题】(5分)正确答案:ACD关于元组Tuple说法正确的是?()A.元组可以包含不同类型的元素B.元组最多只有2个元素C.访问元组tuple第一个元素的方式为tuple._1D.元组是不可变的2.【多选题】(5分)正确答案:CDRDD操作包括哪两种类型()A.分组GroupByB.连接joinC.转换TransformationD.行动Action3.【多选题】(5分)正确答案:ABCD以下关于RDD的持久化的描述,正确的是()A.使用cache()方法时,会调用persist(MEMORY_ONLY)B.persist(MEMORY_AND_DISK):表示将RDD作为反序列化的对象存储在JVM中,如果内存不足,超出的分区将会被存放在硬盘上C.persist(MEMORY_ONLY):表示将RDD作为反序列化的对象存储于JVM中,如果内存不足,就要按照LRU原则替换缓存中的内容D.通过持久化(缓存)机制可以避免重复计算的开销4【单选题】(3分)正确答案:D下面哪个操作是窄依赖?()A.groupB.sortC.joinD.filter5【单选题】(3分)正确答案:D有一个pairRDD,包含元素为(“Spark”,1),(“Hadoop”,1),(“Python”,1)。则pairRDD.keys的结果为:()A.Array(Spark,Hadoop,Python)B.(“Spark”,1),(“Hadoop”,1),(“Python”,1)C.1,1,1D.Spark,Hadoop,Python6【单选题】(3分)正确答案:Bvalrdd1=sc.parallelize(List(1,2,3));valrdd2=sc.parallelize(List(1,2,4));valrdd3=rdd1.union(rdd2);上述语句执行以后,rdd3的元素是:()A.Array(3,4)B.Array(1,2,3,1,2,4)C.Array(1,2)D.Array(1,2,3,4)7.【多选题】(5分)正确答案:BDRDD中按照制定列(第2列)的降序排序的是:()A.pairRDD.sortByKey()B.pairRDD.sortBy(x=>x._2,false)C.pairRDD.sortBy(x=>x._2)D.pairRDD.sortBy(_._2,false)8【单选题】(3分)正确答案:A“1718060010870”,race"输出格式为学号、姓名、平均成绩,两个RDD可以采用的合并方法为:()A.joinB.intersectionC.subtractD.union第四章单元测试1【判断题】正确答案:ASparkSQL是一个用来处理结构化数据的Spark组件()。A.对B.错2.【多选题】(5分)正确答案:ABC使用编程方式定义RDD时,主要包括三个步骤()A.把“表头”和“表中的记录”拼装在一起B.制作“表头”C.制作“表中的记录”D.制作映射表3.【多选题】(5分)正确答案:ABCD在Ubuntu中安装MySQL的基本步骤包括()A.安装MySQLB.安装过程中,需要指定root账户的密码C.更新软件源D.启动MySQL服务4【单选题】(3分)正确答案:B利用SparkSQL,查询工资的最小值()A.df.agg("salary"->"avg")B.df.agg("salary"->"min")C.df.agg("salary"->"count")D.df.agg("salary"->"max")5.【多选题】(5分)正确答案:BDMySQL服务启动和关闭的命令分别是()A.servicemysqlbeginB.servicemysqlstopC.servicemysqlendD.servicemysqlstart6【单选题】(3分)正确答案:B把一个DataFrame保存到people.json文件中,下面哪个语句正确:()A.df.json(“people.json”)B.df.write.json(“people.json”)C.df.write.format(“csv”).save(“people.json”)D.df.write.csv(“people.json”)7【单选题】(3分)正确答案:D统计每种商品购买总数的SQL语句()A.selectitem_id,count(*)fromuser_behaviorB.selectbehavior,count(*)fromuser_behaviorwherebehavior='buy'groupbyitem_idC.selectitem_id,count(*)fromuser_behaviorgroupbyitem_idD.selectitem_id,count(*)fromuser_behaviorwherebehavior='buy'groupbyitem_id8.【多选题】(5分)正确答案:ABCD利用SparkSQL,筛选出工资高于4000的记录()A.df.where(df(“salary“)>4000)B.df.filter(df(“salary“)>4000)C.df.filter(“salary>4000”)D.df.where(“salary>4000”)第五章单元测试1【单选题】(3分)正确答案:B下面论述中错误的是()A.机器学习强调三个关键词:算法、经验、性能B.机器学习和人工智能是不存在关联关系的两个独立领域C.推荐系统、金融反欺诈、语音识别、自然语言处理和机器翻译、模式识别、智能控制等领域,都用到了机器学习的知识D.机器学习可以看作是一门人工智能的科学,该领域的主要研究对象是人工智能2.【多选题】(5分)正确答案:AD“词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,以下说法正确的是()A.文件频率DF(t,D):是包含词语t的文档的个数B.文件频率DF(t,D):是包含词语t的文档的个数C.词频TF(t,d):是包含词语t的文档的个数D.词频TF(t,d):是词语t在文档d中出现的次数。3【单选题】(3分)正确答案:CSparkMllib中用卡方选择器进行特征选择,选择最好的几个特征的参数是()A.setFeaturesColB.setOutputColC.setNumTopFeaturesD.setLabelCol4【单选题】(3分)正确答案:BLogistic回归将输出概率限定在[0,1]之间。下列哪个函数起到这样的作用?()A.ReLU函数B.Sigmoid函数C.LeakyReLU函数D.tanh函数5【单选题】(3分)正确答案:B“从有标签的历史数据中来预测下季度的收益会在20-30万还是30-40万”,这是一个什么问题?()A.回归问题B.分类问题C.聚类问题D.规则问题第六章单元测试1.【多选题】正确答案:ABCD推荐算法中相似度度量方法包括()。A.欧式距离B.Jac
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024工程承包资金周转借款合同
- 2024年度商品代销协议书3篇
- 2024年全球艺术品拍卖与交易合同
- 2024年专业护坡工程安装施工承包合同版B版
- 2024公司委托代持股协议
- 2024年大型油田勘探开发与合作合同
- 2024年度人工智能技术研发与许可协议
- 2024国际贸易中合同的内容及格式
- 2024年墓穴风水咨询与规划合同
- 2024年劳务派遣协议修订协议正式版一
- 学校社区合作共建协议书(4篇)
- 苏轼《临江仙》(夜归临皋)课件
- 数字图像处理冈萨雷斯课件
- 家谱Word格式模板
- 《敕勒歌》课件(省一等奖)
- 《研究生英语》(第二版)练习答案及译文
- 二年级上册道德与法治12《我们小点儿声》评课稿二篇
- 统编部编版四年级上册道德与法治第10课第一课时-从“白色污染”说起-课件(18张)
- 《9的乘法口诀》优秀课件
- 新人教必修一Unit 2 Travelling around全单元教学设计4份教案高中英语
- 特种作业人员管理档案参考模板范本
评论
0/150
提交评论