【MOOC】大数据技术导论-北京理工大学 中国大学慕课MOOC答案_第1页
【MOOC】大数据技术导论-北京理工大学 中国大学慕课MOOC答案_第2页
【MOOC】大数据技术导论-北京理工大学 中国大学慕课MOOC答案_第3页
【MOOC】大数据技术导论-北京理工大学 中国大学慕课MOOC答案_第4页
【MOOC】大数据技术导论-北京理工大学 中国大学慕课MOOC答案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【MOOC】大数据技术导论-北京理工大学中国大学慕课MOOC答案第1章单元测验1、【单选题】大数据是一个什么领域的问题()。本题答案:【多学科综合领域】2、【单选题】科学研究第四范式数据思维采用()。本题答案:【关联分析】3、【多选题】大数据的优势包括()。本题答案:【数据体量大#收集时间短#数据类型丰富】4、【多选题】大数据处理框架之批处理框架()。本题答案:【hadoop#Spark#Flink】5、【多选题】大数据处理框架之流计算框架()。本题答案:【Sparkstreaming#Flink#STORM】6、【填空题】系统的控制方式一般分为模型驱动和_____________。本题答案:【数据驱动】7、【填空题】4V特征:数据规模大、_________、数据处理速度快、价值密度低。本题答案:【数据类型多】8、【填空题】大数据的处理过程:数据获取与管理、数据存储与处理、数据分析与______、结合领域的大数据应用。本题答案:【理解】9、【填空题】科学研究的第三范式计算思维-______。本题答案:【仿真模拟】10、【填空题】大数据领域的职业包括首席数据官、系统架构师、___________、领域科学家。本题答案:【数据分析师】第2章单元测验1、【单选题】本题答案:【M1-M2-M5-M8-M6-M3-S7-S4】2、【单选题】下面科学研究的四个范式顺序正确的是()。本题答案:【经验范式-理论范式-模拟范式-数据密集型范式】3、【单选题】以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式是以下哪个范式()。本题答案:【数据密集型范式】4、【单选题】在大数据生命周期的各个阶段中,工作最多的是哪个阶段()。本题答案:【数据收集和整理】5、【单选题】在增量抽取方法中,需要计算MD5校验码的是哪种增量抽取方法()。本题答案:【全表对比】6、【单选题】在网络爬虫策略中需要根据链接计算网页重要性的是以下哪个算法()。本题答案:【局部PageRank策略】7、【多选题】大数据中的非结构化数据包括()。本题答案:【图像#文本#语音#视频】8、【多选题】大数据中的半结构化数据包括()。本题答案:【电子邮件#XML#HTML】9、【多选题】常见的分布式网络爬虫架构有()。本题答案:【Master-slave#peer-peer#Mixed】10、【多选题】以下哪些内容属于深网内容()。本题答案:【Web上可访问的非网页文件,比如图片文件,Pdf和word文档等#通过填写表单形成对后台在线数据库的查询而得到的动态页面#需要注册或其他限制才能访问的内容】第3章单元测验1、【单选题】HBase依靠()存储底层数据。本题答案:【HDFS】2、【单选题】下列选项中哪些不是NoSQL数据库的特点()。本题答案:【动态的数据迁移】3、【单选题】HDFS中文件块默认保存几份()。本题答案:【3份】4、【单选题】下面与HDFS类似的框架是()。本题答案:【GFS】5、【多选题】分布式文件系统改变了数据存储和管理方式,相对于本地文件系统具有哪些优势()。本题答案:【低成本#易扩展#强可靠#高可用】6、【多选题】下面对HBase的描述哪些是正确的()。本题答案:【是面向列的#是分布式的#是一种NoSQL数据库】7、【多选题】Hadoop的框架最核心的设计是()。本题答案:【HDFS#MapReduce】8、【多选题】HBase的实现包括哪几个主要的功能组件()。本题答案:【库函数#一个Master主服务器#许多个Region服务器】9、【多选题】HDFS专为解决大数据存储问题而产生的,其具备了以下哪些特点()。本题答案:【兼容廉价的硬件设备#流数据读写#大数据集#强大的跨平台兼容性】10、【多选题】NoSQL数据库的明显优势在于()。本题答案:【支持超大规模数据存储#灵活的数据模型可以很好的支持Web2.0应用#具有强大的横向扩展能力】第4章单元测验1、【单选题】大数据可视化分析有效融合计算机的______和人的_____,以获得对于大规模复杂数据集的洞察力。本题答案:【计算能力、认知能力】2、【单选题】下列关于数据可视化的介绍,不正确的是()。本题答案:【雷达图不适用于多维数据。】3、【单选题】以下哪个不是数据可视化方法和技术?本题答案:【混合建模技术】4、【多选题】关于数据挖掘任务,下列说法正确的是()本题答案:【聚类是描述性任务。#分类属于预测性任务#聚类属于无监督范畴。】5、【多选题】下列可以用于多维数据可视化的方法有()本题答案:【平行坐标系#雷达图#散点图矩阵】6、【多选题】设X是非空集合,对于X中任意的两个元素x与y,按某一法则都对应唯一的实数d(x,y),而且满足下述()性质,则称d(x,y)为x与y的距离。本题答案:【非负性d(x,y)≥0#Bd(x,y)=d(y,x)#对于任意的x,y,z∈X,有d(x,y)≤d(x,z)+d(z,y)】7、【多选题】以下哪些是数据可视化的作用()本题答案:【协助思考#探索数据#作为大量工作记忆的外界辅助#理解信息】8、【判断题】预测任务的目标是导出和概括数据中有潜在联系的模式(相关、趋势、聚类、轨迹和异常)本题答案:【错误】9、【判断题】文本是大数据时代结构数据类型的典型代表。本题答案:【错误】10、【判断题】PCA是一种有监督的降维方法。本题答案:【错误】11、【判断题】Textflow用河流的运动表达了文本主题的诞生、发展、合并、分裂、消亡的过程。导致主题演变的原因往往是主题关键词的变化。本题答案:【正确】12、【判断题】聚类是在没有先验知识的情况下进行的。本题答案:【正确】13、【填空题】将收入在范围$12,000至$98,000内的收入规范化到区间[0.0,1.0],$73,600将被规范为:(保留两位小数)本题答案:【0.72】14、【填空题】两个向量的方向差异可以表示为两个向量夹角的。本题答案:【余弦】15、【填空题】图的简化中,技术会将相似形状的边连接线集中在一起构成约束,降低视觉复杂度,使节点间的连接关系更加清楚。本题答案:【边邦定】第5章单元测验1、【单选题】在Spark运行时,()为程序构建基本运行环境Sparkcontext对象(应用管家),向资源管理器进行资源申请,任务分配与监控。本题答案:【Driverprogram】2、【单选题】Spark的组件中,用于做查询分析的是()。本题答案:【SparkSQL】3、【多选题】以下属于Spark的特点的有()。本题答案:【Speed#Concise#In-memoryprocessing#LazyEvaluation】4、【多选题】MapReduce执行的全过程包括以下几个主要阶段()。本题答案:【从分布式文件系统读入数据#执行Map任务输出中间结果#通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务#执行Reduce任务得到最终结果并写入分布式系统文件】5、【多选题】RDD的两种主要操作类型是()。本题答案:【Transform#Action】6、【多选题】关于RDD论述正确的是()。本题答案:【RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集#RDD是只读存储】7、【多选题】Spark支持的开发语言有()。本题答案:【Java#Python#Scala】8、【多选题】Apache软件基金会最重要的三大分布式计算系统开源项目包括()。本题答案:【Hadoop#Spark#Storm】9、【判断题】Shuffle过程分为Map端的操作和Reduce端的操作。()本题答案:【正确】10、【判断题】Hadoop擅长批处理,不适合流计算。()本题答案:【正确】11、【判断题】MapReduce设计的一个理念是“数据向计算靠拢”,并采用“分而治之”的策略。()本题答案:【错误】12、【判断题】Shuffle过程是指对Map输出结果进行分区、排序、合并等处理并交给Reduce的过程。()本题答案:【正确】第六章习题1、【单选题】数据匿名化的原因有哪些本题答案:【实现数据共享发布,而不泄漏用户的隐私】2、【多选题】下列哪些信息可能会侵犯用户的隐私本题答案:【搜索引擎的搜索记录#浏览器的访问痕迹#电商平台的购物记录#地图应用的搜索记录】3、【多选题】下列哪些方法可以实现匿名化本题答案:【元组抑制#属性泛化#属性置换#属性扰乱】4、【多选题】关于隐私保护技术,以下描述正确的包括本题答案:【K-匿名的局限性是容易遭受同质性攻击#L-多样性的局限性是容易遭受相似性攻击#T-相近比K-匿名和L-多样性有更强的隐私保护性能#K-匿名无法保证敏感值缺乏多样性】5、【多选题】计算k-匿名的算法分类包括本题答案:【基于泛化和基于元组抑制的算法#基于全局和基于局部记录的算法#基于层次和基于划分的算法】6、【判断题】K-匿名规则满足子集属性和泛化属性本题答案:【正确】7、【判断题】蒙德里安算法是一种基于划分的算法本题答案:【正确】8、【判断题】极小全域泛化的集合构成一个反链本题答案:【正确】9、【判断题】熵l-多样性满足子集属性和泛化属性本题答案:【正确】10、【判断题】递归(c,l)-多样性不满足泛化属性本题答案:【错误】第6章单元测验1、【单选题】数据匿名化的原因有哪些本题答案:【实现数据共享发布,而不泄漏用户的隐私】2、【多选题】下列哪些信息可能会侵犯用户的隐私本题答案:【搜索引擎的搜索记录#浏览器的访问痕迹#电商平台的购物记录#地图应用的搜索记录】3、【多选题】下列哪些方法可以实现匿名化本题答案:【元组抑制#属性泛化#属性置换#属性扰乱】4、【多选题】关于隐私保护技术,以下描述正确的包括本题答案:【K-匿名的局限性是容易遭受同质性攻击#L-多样性的局限性是容易遭受相似性攻击#T-相近比K-匿名和L-多样性有更强的隐私保护性能#K-匿名无法保证敏感值缺乏多样性】5、【多选题】计算k-匿名的算法分类包括本题答案:【基于泛化和基于元组抑制的算法#基于全局和基于局部记录的算法#基于层次和基于划分的算法】6、【判断题】K-匿名规则满足子集属性和泛化属性本题答案:【正确】7、【判断题】蒙德里安算法是一种基于划分的算法本题答案:【正确】8、【判断题】极小全域泛化的集合构成一个反链本题答案:【正确】9、【判断题】熵l-多样性满足子集属性和泛化属性本题答案:【正确】10、【判断题】递归(c,l)-多样性不满足泛化属性本题答案:【错误】第7章单元测验1、【单选题】在“看不见的动机中”由于数据使用者和数据生成机构都是()的生产大数据,忽略了人们行为背后趋利避害的动机的大数据统计分析。本题答案:【无意识】2、【多选题】小数据强调采样,精确以及因果关系,大数据强调()。本题答案:【全样#非精确#相关关系】3、【多选题】大数据面临的挑战包括()。本题答案:【大数据自大#算法演化#看不见的动机】4、【填空题】数据收集过程的性质发生了变化,大数据不再只是被动记录使用者的决策,而是通过______,积极参与到使用者的行为决策中。本题答案:【算法演化】5、【填空题】夜光遥感挖掘是通过在遥感图像中提取________数据进行绘制和分析。本题答案:【灯光】6、【填空题】“大数据自大(bigdatahubris)”的倾向,即认为_______,这里的关键是,企业或者机构拥有的这个称为总体的数据和研究问题关心的总体是否相同.本题答案:【自己拥有的数据是总体】7、【填空题】在大数据分析中只关心________而不关注因果关系。本题答案:【相关关系】8、【填空题】热力图是通过__________数据进行绘制和分析。本题答案:【位置】9、【填空题】谷歌通过__________来预测流感发病率。本题答案:【搜索关键词】10、【填空题】_______未卜先知的故事,常被看做大数据分析优势的明证。本题答案:【谷歌流感预测】大数据技术导论期末试题1、【单选题】大数据是一个什么领域的问题?本题答案:【多学科综合领域】2、【单选题】以下哪种技术对大数据技术的发展起了最重要基础支撑作用?本题答案:【云计算技术】3、【单选题】科学研究的第三范式是计算思维-()本题答案:【仿真模拟】4、【单选题】与大数据直接相关的职业不包括本题答案:【首席执行官】5、【单选题】下面科学研究的四个范式顺序正确的是()本题答案:【经验范式-理论范式-模拟范式-数据密集型范式】6、【单选题】在大数据生命周期的各个阶段中,工作最多的是哪个阶段()本题答案:【数据收集和整理】7、【单选题】在网络爬虫策略中需要根据链接计算网页重要性的是以下哪个算法()本题答案:【局部PageRank策略】8、【单选题】常见的分布式网络爬虫架构不包含()本题答案:【Master-worker】9、【单选题】以下哪项不是传统关系型数据库的弱点?本题答案:【无法满足数据一致性和完整性的需求】10、【单选题】下列对HBase数据模型的描述错误的是本题答案:【HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本】11、【单选题】HBase是一种()数据库本题答案:【列式数据库】12、【单选题】访问HBase表中的行,不可以用以下哪种方式本题答案:【通过某列的值区间】13、【单选题】分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫(),另一类存储具体数据叫()本题答案:【名称节点,数据节点】14、【单选题】HDFS中文件块默认保存几份()本题答案:【3份】15、【单选题】下面与HDFS类似的框架是()本题答案:【GFS】16、【单选题】下列关于NoSQL数据库和关系型数据库的比较,不正确的是本题答案:【NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性】17、【单选题】下列数据库属于文档数据库的是本题答案:【MongoDB】18、【单选题】NoSQL数据库的CAP不包含()本题答案:【持久性】19、【单选题】NoSQL数据库的BASE不包含()本题答案:【持续性】20、【单选题】关于NoSQL数据库和关系数据库,下列说法不正确的是:本题答案:【NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库】21、【单选题】NoSQL数据库的明显优势不包含()本题答案:【实现数据完整性】22、【单选题】下列关于数据可视化的介绍,不正确的是()本题答案:【雷达图不适用于多维数据】23、【单选题】关于数据挖掘任务,下列说法不正确的是()本题答案:【回归分析属于描述性任务】24、【单选题】下列不可以用于多维数据可视化的方法有()本题答案:【GMap】25、【单选题】数据度量的常用方法不包括:本题答案:【聚类系数】26、【单选题】Spark的组件中,用于做查询分析的是()本题答案:【SparkSQL】27、【单选题】关于MapReduce,下列说法错误的是本题答案:【Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写】28、【单选题】传统并行计算框架(比如MPI)和MapReduce并行计算框架相比较的特点不包含本题答案:【前者相比后者学习起来更容易】29、【单选题】关于RDD论述正确的是()本题答案:【RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集】30、【单选题】Apache软件基金会最重要的三大分布式计算系统开源项目不包括()本题答案:【MapReduce】31、【单选题】利用大数据特性进行隐私保护的方式不包含:本题答案:【数据加密传输技术】32、【单选题】以下哪项对数据隐私问题的影响相对最小本题答案:【政府和企业成立安全联盟】33、【单选题】大数据分析的挑战不包括()本题答案:【无处不在的数据】34、【判断题】科学研究的第一到第四范式数据思维依次分别采用:仿真模拟、模型推演、关联分析、科学归纳本题答案:【错误】35、【判断题】大数据的优势包含:数据体量大,数据类型丰富,价值密度高,收集时间短本题答案:【错误】36、【判断题】大数据处理中的批处理框架包含Flink、hadoop、jvm、Spark本题答案:【错误】37、【判断题】大数据处理中的流计算框架包含Flink、Sparkstreaming、STORM本题答案:【正确】38、【判断题】大数据处理中批流融合计算很难,目前业界关于此类研究处于空白状态本题答案:【错误】39、【判断题】系统的控制方式一般分为模型驱动和数据驱动本题答案:【正确】40、【判断题】4V特征包含:数据规模大、数据密度低、数据处理速度快、价值密度低本题答案:【错误】41、【判断题】大数据的处理过程包含,数据获取与管理、数据存储与处理、数据分析与理解、结合领域的大数据应用本题答案:【正确】42、【判断题】模拟范式是以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式本题答案:【错误】43、【判断题】全表对比是一种需要计算MD5校验码的非增量抽取方法本题答案:【错误】44、【判断题】大数据中的非结构化数据包括视频、图像、语音、文本本题答案:【正确】45、【判断题】电子表格Excel、网页HTML均属于结构化数据本题答案:【错误】46、【判断题】通过使用词组查询搜索引擎搜索得到的结果、通过填写表单形成对后台在线数据库的查询而得到的动态页面、需要注册或其他限制才能访问的内容都属于深网内容本题答案:【错误】47、【判断题】HBase依靠Hadoop存储底层数据本题答案:【错误】48、【判断题】NoSQL的数据特点包含与云计算紧密融合,灵活的可扩展性,动态的数据迁移、灵活的数据模型本题答案:【错误】49、【判断题】HDFS只设置唯一一个名称节点带来的局限性主要包括集群的可用性、命名空间的限制、隔离问题以及性能的瓶颈本题答案:【正确】50、【判断题】在分布式文件系统中,采用采用多副本冗余存储可以节约存储空间、保证数据可靠性、更容易检查数据错误并加快数据传输速度本题答案:【错误】51、【判断题】分布式文件系统改变了数据存储和管理方式,相对于本地文件系统具有易扩展、低成本、强可靠、高可用的优势本题答案:【正确】52、【判断题】HBase是一种开源的,是面向行的、分布式的NoSQL数据库本题答案:【错误】53、【判断题】Hadoop的框架最核心的设计是HDFS和MapReduce本题答案:【正确】54、【判断题】HBase的实现主要包含许多个Master主服务器、Region服务器及库函数本题答案:【错误】55、【判断题】HDFS专为解决大数据存储问题而产生的,其具备了强大的跨平台兼容性,支持批和流数据读写,实现了低延时数据访问,并兼容廉价的硬件设备本题答案:【错误】56、【判断题】NoSQL数据库的三大理论基石包括BASE、CAP和最终一致性本题答案:【正确】57、【判断题】目前,NoSQL的含义是“NotonlySQL”,而不是“NoSQL”。本题答案:【正确】58、【判断题】一个数据库事务具有ACID是指:原子性,一致性,持久性,隔离性。本题答案:【正确】59、【判断题】数据可视化方法和技术包含多维数据可视化技术、图可视化技术、时空数据可视化技术以及混合建模技术本题答案:【错误】60、【判断题】数据可视化可以理解信息、探索数据、协助思考,并作为大量工作记忆的外界辅助本题答案:【正确】61、【判断题】预测任务的目标是导出和概括数据中有潜在联系的模式(相关、趋势、聚类、轨迹和异常)本题答案:【错误】62、【判断题】PCA是一种无监督的降维方法本题答案:【正确】63、【判断题】Textflow用河流的运动表达了文本主题的诞生、发展、合并、分裂、消亡的过程导致主题演变的原因往往是主题关键词的变化本题答案:【正确】64、【判断题】聚类是在没有先验知识的情况下进行的本题答案:【正确】65、【判断题】Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS本题答案:【正确】66、【判断题】在Spark运行时,TaskSchedul

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论