分布式计算框架知到智慧树章节测试课后答案2024年秋大连东软信息学院_第1页
分布式计算框架知到智慧树章节测试课后答案2024年秋大连东软信息学院_第2页
分布式计算框架知到智慧树章节测试课后答案2024年秋大连东软信息学院_第3页
免费预览已结束,剩余4页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分布式计算框架知到智慧树章节测试课后答案2024年秋大连东软信息学院绪论单元测试

UserCF算法符合人们对于“趣味相投”的认知,即兴趣相似的用户往往有相同的物品喜好。()。

A:对B:错

答案:对

第一章单元测试

Spark是一种快速、分布式、可扩展、容错的集群计算框架()。

A:对B:错

答案:对Spark的主要特点()。

A:运行速度快B:运行模式多样C:容易使用,简洁的API设计有助于用户轻松构建并行程序D:通用性,Spark提供了完整而强大的技术栈

答案:运行速度快;运行模式多样;容易使用,简洁的API设计有助于用户轻松构建并行程序;通用性,Spark提供了完整而强大的技术栈Spark任务执行器中有存储模块,当需要多轮迭代计算时,中间结果可以写入()。

A:内存B:U盘C:CPUD:硬盘

答案:内存;硬盘Spark的资源管理器为任务执行器分配资源,包括分配CPU和内存()。

A:错B:对

答案:对Spark应用的计算逻辑会被解析成DAG,这个解析操作由以下哪个功能模块完成()。

A:ExecutorB:DriverC:ClientD:ApplicationMaster

答案:Executor;Driver当Spark运行时,每次执行一个应用程序,第一步应该是()。

A:并向任务执行器发送应用程序代码和文件B:启动任务执行器C:在任务执行器上执行TaskD:DriverProgram即应用程序的“指挥所”会向集群资源管理器申请资源

答案:DriverProgram即应用程序的“指挥所”会向集群资源管理器申请资源Spark图计算的产品是()。

A:FlumeB:GraphXC:PregelD:PowerGraph

答案:GraphX

第二章单元测试

Spark的运行架构包括哪些()。

A:集群资源管理器(Clustermanager)B:任务控制节点DriverProgramC:执行进程(Executor)D:WorkerNode

答案:集群资源管理器(Clustermanager);任务控制节点DriverProgram;执行进程(Executor);WorkerNodescala语言是一种()式编程语言。

A:函数式B:面向过程C:指令式D:面向对象

答案:函数式Scala关于变量定义、赋值,正确的是()

A:vala=3B:vala:String=3C:varb="HelloWorld!";b="123"D:varb:Int=3;b=6

答案:vala=3;varb="HelloWorld!";b="123";varb:Int=3;b=6下面输出与其他不一致的是()

A:print("HelloWorld\n")B:valw="World";println("Hello$w")C:println("HelloWorld")D:printf("Hello%s","World\n")

答案:valw="World";println("Hello$w")varstrList=List("BigData","Hadoop","Spark");strList.tail运行的返回结果是()

A:BigDataB:HadoopC:Hadoop,SparkD:Spark

答案:Hadoop,Spark

第三章单元测试

关于元组Tuple说法正确的是?()

A:访问元组tuple第一个元素的方式为tuple._1B:元组可以包含不同类型的元素C:元组最多只有2个元素D:元组是不可变的

答案:访问元组tuple第一个元素的方式为tuple._1;元组可以包含不同类型的元素;元组是不可变的RDD操作包括哪两种类型()

A:连接joinB:分组GroupByC:转换TransformationD:行动Action

答案:转换Transformation;行动Action以下关于RDD的持久化的描述,正确的是()

A:persist(MEMORY_ONLY):表示将RDD作为反序列化的对象存储于JVM中,如果内存不足,就要按照LRU原则替换缓存中的内容B:使用cache()方法时,会调用persist(MEMORY_ONLY)C:通过持久化(缓存)机制可以避免重复计算的开销D:persist(MEMORY_AND_DISK):表示将RDD作为反序列化的对象存储在JVM中,如果内存不足,超出的分区将会被存放在硬盘上

答案:persist(MEMORY_ONLY):表示将RDD作为反序列化的对象存储于JVM中,如果内存不足,就要按照LRU原则替换缓存中的内容;使用cache()方法时,会调用persist(MEMORY_ONLY);通过持久化(缓存)机制可以避免重复计算的开销;persist(MEMORY_AND_DISK):表示将RDD作为反序列化的对象存储在JVM中,如果内存不足,超出的分区将会被存放在硬盘上下面哪个操作是窄依赖?()

A:filterB:joinC:sortD:group

答案:filter有一个pairRDD,包含元素为(“Spark”,1),(“Hadoop”,1),(“Python”,1)。则pairRDD.keys的结果为:()

A:(“Spark”,1),(“Hadoop”,1),(“Python”,1)B:Spark,Hadoop,PythonC:1,1,1D:Array(Spark,Hadoop,Python)

答案:Spark,Hadoop,Pythonvalrdd1=sc.parallelize(List(1,2,3));

valrdd2=sc.parallelize(List(1,2,4));

valrdd3=rdd1.union(rdd2);

上述语句执行以后,rdd3的元素是:()

A:Array(1,2)B:Array(1,2,3,1,2,4)C:Array(3,4)D:Array(1,2,3,4)

答案:Array(1,2,3,1,2,4)RDD中按照制定列(第2列)的降序排序的是:()

A:pairRDD.sortByKey()B:pairRDD.sortBy(x=>x._2)C:pairRDD.sortBy(_._2,false)D:pairRDD.sortBy(x=>x._2,false)

答案:pairRDD.sortBy(_._2,false);pairRDD.sortBy(x=>x._2,false)“1718060010870”,race"输出格式为学号、姓名、平均成绩,两个RDD可以采用的合并方法为:()

A:intersectionB:joinC:unionD:subtract

答案:join

第四章单元测试

SparkSQL是一个用来处理结构化数据的Spark组件()。

A:对B:错

答案:对使用编程方式定义RDD时,主要包括三个步骤()

A:制作“表中的记录”B:把“表头”和“表中的记录”拼装在一起C:制作“表头”D:制作映射表

答案:制作“表中的记录”;把“表头”和“表中的记录”拼装在一起;制作“表头”在Ubuntu中安装MySQL的基本步骤包括()

A:安装过程中,需要指定root账户的密码B:安装MySQLC:更新软件源D:启动MySQL服务

答案:安装过程中,需要指定root账户的密码;安装MySQL;更新软件源;启动MySQL服务利用SparkSQL,查询工资的最小值()

A:df.agg("salary"->"count")B:df.agg("salary"->"avg")C:df.agg("salary"->"max")D:df.agg("salary"->"min")

答案:df.agg("salary"->"min")MySQL服务启动和关闭的命令分别是()

A:servicemysqlendB:servicemysqlbeginC:servicemysqlstartD:servicemysqlstop

答案:servicemysqlstart;servicemysqlstop把一个DataFrame保存到people.json文件中,下面哪个语句正确:()

A:df.json(“people.json”)B:df.write.csv(“people.json”)C:df.write.json(“people.json”)D:df.write.format(“csv”).save(“people.json”)

答案:df.write.json(“people.json”)统计每种商品购买总数的SQL语句()

A:selectitem_id,count(*)fromuser_behaviorB:selectitem_id,count(*)fromuser_behaviorgroupbyitem_idC:selectitem_id,count(*)fromuser_behaviorwherebehavior='buy'groupbyitem_idD:selectbehavior,count(*)fromuser_behaviorwherebehavior='buy'groupbyitem_id

答案:selectitem_id,count(*)fromuser_behaviorwherebehavior='buy'groupbyitem_id利用SparkSQL,筛选出工资高于4000的记录()

A:df.where(“salary>4000”)B:df.filter(df(“salary“)>4000)C:df.filter(“salary>4000”)D:df.where(df(“salary“)>4000)

答案:df.where(“salary>4000”);df.filter(df(“salary“)>4000);df.filter(“salary>4000”);df.where(df(“salary“)>4000)

第五章单元测试

下面论述中错误的是()

A:机器学习可以看作是一门人工智能的科学,该领域的主要研究对象是人工智能B:机器学习和人工智能是不存在关联关系的两个独立领域C:机器学习强调三个关键词:算法、经验、性能D:推荐系统、金融反欺诈、语音识别、自然语言处理和机器翻译、模式识别、智能控制等领域,都用到了机器学习的知识

答案:机器学习和人工智能是不存在关联关系的两个独立领域“词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,以下说法正确的是()

A:文件频率DF(t,D):是包含词语t的文档的个数B:文件频率DF(t,D):是包含词语t的文档的个数C:词频TF(t,d):是词语t在文档d中出现的次数。D:词频TF(t,d):是包含词语t的文档的个数

答案:文件频率DF(t,D):是包含词语t的文档的个数;词频TF(t,d):是词语t在文档d中出现的次数。SparkMllib中用卡方选择器进行特征选择,选择最好的几个特征的参数是()

A:setFeaturesColB:setNumTopFeaturesC:setOutputColD:setLabelCol

答案:setNumTopFeaturesLogistic回归将输出概率限定在[0,1]之间。下列哪个函数起到这样的作用?()

A:ReLU函数B:tanh函数C:Sigmoid函数D:LeakyReLU函数

答案:Sigmoid函数“从有标签的历史数据中来预测下季度的收益会在20-30万还是30-40万”,这是一个什么问题?()

A:聚类问题B:分类问题C:规则问题D:回归问题

答案:分类问题

第六章单元测试

推荐算法中相似度度量方法包括()。

A:欧式距离B:余弦相似度C:Jacc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论