版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MOOC大数据技术导论-北京理工大学中国大学慕课答案第1章单元测验1、问题:大数据是一个什么领域的问题()。选项:A、计算机领域B、数学统计领域C、业务领域D、多学科综合领域正确答案:【多学科综合领域】2、问题:科学研究第四范式数据思维采用()。选项:A、科学归纳B、模型推演C、仿真模拟D、关联分析正确答案:【关联分析】3、问题:大数据的优势包括()。选项:A、数据体量大B、收集时间短C、数据类型丰富D、价值密度高正确答案:【数据体量大#收集时间短#数据类型丰富】4、问题:大数据处理框架之批处理框架()。选项:A、hadoopB、SparkC、FlinkD、jvm正确答案:【hadoop#Spark#Flink】5、问题:大数据处理框架之流计算框架()。选项:A、hadoopB、SparkstreamingC、FlinkD、STORM正确答案:【Sparkstreaming#Flink#STORM】6、填空题:系统的控制方式一般分为模型驱动和_____________。正确答案:【数据驱动】7、填空题:4V特征:数据规模大、_________、数据处理速度快、价值密度低。正确答案:【数据类型多】8、填空题:大数据的处理过程:数据获取与管理、数据存储与处理、数据分析与______、结合领域的大数据应用。正确答案:【理解】9、填空题:科学研究的第三范式计算思维-______。正确答案:【仿真模拟】10、填空题:大数据领域的职业包括首席数据官、系统架构师、___________、领域科学家。正确答案:【数据分析师】第2章单元测验1、问题:选项:A、M1-M2-M3-S4-M5-M6-M8-S7B、M1-M2-M5-M8-M6-M3-S7-S4C、M1-M2-M3-S4-M5-M6-S7-M8D、M1-M2-M5-M8-M6-M3-S4-S7正确答案:【M1-M2-M5-M8-M6-M3-S7-S4】2、问题:下面科学研究的四个范式顺序正确的是()。选项:A、经验范式-理论范式-模拟范式-数据密集型范式B、理论范式-模拟范式-经验范式-数据密集型范式C、理论范式-模拟范式-数据密集型范式-经验范式D、理论范式-经验范式-数据密集型范式-模拟范式正确答案:【经验范式-理论范式-模拟范式-数据密集型范式】3、问题:以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式是以下哪个范式()。选项:A、经验范式B、理论范式C、模拟范式D、数据密集型范式正确答案:【数据密集型范式】4、问题:在大数据生命周期的各个阶段中,工作最多的是哪个阶段()。选项:A、数据存储B、数据收集和整理C、数据分析D、数据治理正确答案:【数据收集和整理】5、问题:在增量抽取方法中,需要计算MD5校验码的是哪种增量抽取方法()。选项:A、日志对比B、时间戳C、触发器D、全表对比正确答案:【全表对比】6、问题:在网络爬虫策略中需要根据链接计算网页重要性的是以下哪个算法()。选项:A、深度优先B、广度优先C、局部PageRank策略D、OPIC正确答案:【局部PageRank策略】7、问题:大数据中的非结构化数据包括()。选项:A、图像B、文本C、语音D、视频正确答案:【图像#文本#语音#视频】8、问题:大数据中的半结构化数据包括()。选项:A、办公文档B、电子邮件C、XMLD、HTML正确答案:【电子邮件#XML#HTML】9、问题:常见的分布式网络爬虫架构有()。选项:A、Master-workerB、Master-slaveC、peer-peerD、Mixed正确答案:【Master-slave#peer-peer#Mixed】10、问题:以下哪些内容属于深网内容()。选项:A、通过搜索引擎搜索得到的结果B、Web上可访问的非网页文件,比如图片文件,Pdf和word文档等C、通过填写表单形成对后台在线数据库的查询而得到的动态页面D、需要注册或其他限制才能访问的内容正确答案:【Web上可访问的非网页文件,比如图片文件,Pdf和word文档等#通过填写表单形成对后台在线数据库的查询而得到的动态页面#需要注册或其他限制才能访问的内容】第3章单元测验1、问题:HBase依靠()存储底层数据。选项:A、HDFSB、HadoopC、MemoryD、MapReduce正确答案:【HDFS】2、问题:下列选项中哪些不是NoSQL数据库的特点()。选项:A、灵活的可扩展性B、动态的数据迁移C、与云计算紧密融合D、灵活的数据模型正确答案:【动态的数据迁移】3、问题:HDFS中文件块默认保存几份()。选项:A、1份B、2份C、3份D、4份正确答案:【3份】4、问题:下面与HDFS类似的框架是()。选项:A、NTFSB、FAT32C、GFSD、EXT3正确答案:【GFS】5、问题:分布式文件系统改变了数据存储和管理方式,相对于本地文件系统具有哪些优势()。选项:A、低成本B、易扩展C、强可靠D、高可用正确答案:【低成本#易扩展#强可靠#高可用】6、问题:下面对HBase的描述哪些是正确的()。选项:A、不是开源的B、是面向列的C、是分布式的D、是一种NoSQL数据库正确答案:【是面向列的#是分布式的#是一种NoSQL数据库】7、问题:Hadoop的框架最核心的设计是()。选项:A、HDFSB、MapReduceC、NamenodeD、Datanode正确答案:【HDFS#MapReduce】8、问题:HBase的实现包括哪几个主要的功能组件()。选项:A、库函数B、一个Master主服务器C、许多个Region服务器D、一个Region服务器正确答案:【库函数#一个Master主服务器#许多个Region服务器】9、问题:HDFS专为解决大数据存储问题而产生的,其具备了以下哪些特点()。选项:A、兼容廉价的硬件设备B、流数据读写C、大数据集D、复杂的文件模型E、强大的跨平台兼容性正确答案:【兼容廉价的硬件设备#流数据读写#大数据集#强大的跨平台兼容性】10、问题:NoSQL数据库的明显优势在于()。选项:A、实现数据完整性B、支持超大规模数据存储C、灵活的数据模型可以很好的支持Web2.0应用D、具有强大的横向扩展能力正确答案:【支持超大规模数据存储#灵活的数据模型可以很好的支持Web2.0应用#具有强大的横向扩展能力】第4章单元测验1、问题:大数据可视化分析有效融合计算机的______和人的_____,以获得对于大规模复杂数据集的洞察力。选项:A、计算能力、认知能力B、计算能力、分析能力C、分析能力、观察能力D、认知能力、计算能力正确答案:【计算能力、认知能力】2、问题:下列关于数据可视化的介绍,不正确的是()。选项:A、可视化技术被大量应用于统计学领域、地理信息系统、数据挖掘分析、商务智能工具等。B、统计图表有饼图、时间序列图、散点图、等高线图等多种形式C、可视化分析用到了支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术。D、雷达图不适用于多维数据。正确答案:【雷达图不适用于多维数据。】3、问题:以下哪个不是数据可视化方法和技术?选项:A、图可视化技术B、多维数据可视化技术C、时空数据可视化技术D、混合建模技术正确答案:【混合建模技术】4、问题:关于数据挖掘任务,下列说法正确的是()选项:A、聚类是描述性任务。B、分类属于预测性任务C、聚类属于无监督范畴。D、回归分析属于描述性任务正确答案:【聚类是描述性任务。#分类属于预测性任务#聚类属于无监督范畴。】5、问题:下列可以用于多维数据可视化的方法有()选项:A、GMapB、平行坐标系C、雷达图D、散点图矩阵正确答案:【平行坐标系#雷达图#散点图矩阵】6、问题:设X是非空集合,对于X中任意的两个元素x与y,按某一法则都对应唯一的实数d(x,y),而且满足下述()性质,则称d(x,y)为x与y的距离。选项:A、非负性d(x,y)≥0B、Bd(x,y)=d(y,x)C、对于任意的x,y,z∈X,有d(x,y)≤d(x,z)+d(z,y)D、传递性正确答案:【非负性d(x,y)≥0#Bd(x,y)=d(y,x)#对于任意的x,y,z∈X,有d(x,y)≤d(x,z)+d(z,y)】7、问题:以下哪些是数据可视化的作用()选项:A、协助思考B、探索数据C、作为大量工作记忆的外界辅助D、理解信息正确答案:【协助思考#探索数据#作为大量工作记忆的外界辅助#理解信息】8、问题:预测任务的目标是导出和概括数据中有潜在联系的模式(相关、趋势、聚类、轨迹和异常)选项:A、正确B、错误正确答案:【错误】9、问题:文本是大数据时代结构数据类型的典型代表。选项:A、正确B、错误正确答案:【错误】10、问题:PCA是一种有监督的降维方法。选项:A、正确B、错误正确答案:【错误】11、问题:Textflow用河流的运动表达了文本主题的诞生、发展、合并、分裂、消亡的过程。导致主题演变的原因往往是主题关键词的变化。选项:A、正确B、错误正确答案:【正确】12、问题:聚类是在没有先验知识的情况下进行的。选项:A、正确B、错误正确答案:【正确】13、填空题:将收入在范围$12,000至$98,000内的收入规范化到区间[0.0,1.0],$73,600将被规范为:(保留两位小数)正确答案:【0.72】14、填空题:两个向量的方向差异可以表示为两个向量夹角的。正确答案:【余弦】15、填空题:图的简化中,技术会将相似形状的边连接线集中在一起构成约束,降低视觉复杂度,使节点间的连接关系更加清楚。正确答案:【边邦定】第5章单元测验1、问题:在Spark运行时,()为程序构建基本运行环境Sparkcontext对象(应用管家),向资源管理器进行资源申请,任务分配与监控。选项:A、DriverprogramB、SparkEnvironmentC、DAGSchedulerD、TaskScheduler正确答案:【Driverprogram】2、问题:Spark的组件中,用于做查询分析的是()。选项:A、SparkSQLB、SparkStreamingC、SparkMLibD、SparkCore正确答案:【SparkSQL】3、问题:以下属于Spark的特点的有()。选项:A、SpeedB、ConciseC、In-memoryprocessingD、LazyEvaluation正确答案:【Speed#Concise#In-memoryprocessing#LazyEvaluation】4、问题:MapReduce执行的全过程包括以下几个主要阶段()。选项:A、从分布式文件系统读入数据B、执行Map任务输出中间结果C、通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务D、执行Reduce任务得到最终结果并写入分布式系统文件正确答案:【从分布式文件系统读入数据#执行Map任务输出中间结果#通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务#执行Reduce任务得到最终结果并写入分布式系统文件】5、问题:RDD的两种主要操作类型是()。选项:A、TransformB、ActionC、MapD、Reduce正确答案:【Transform#Action】6、问题:关于RDD论述正确的是()。选项:A、RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集B、RDD读取的数据都存储在一台机器上C、RDD是只读存储D、RDD支持各种粗粒度和细粒度的操作正确答案:【RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集#RDD是只读存储】7、问题:Spark支持的开发语言有()。选项:A、JavaB、C语言C、PythonD、Scala正确答案:【Java#Python#Scala】8、问题:Apache软件基金会最重要的三大分布式计算系统开源项目包括()。选项:A、HadoopB、SparkC、StormD、HDFS正确答案:【Hadoop#Spark#Storm】9、问题:Shuffle过程分为Map端的操作和Reduce端的操作。()选项:A、正确B、错误正确答案:【正确】10、问题:Hadoop擅长批处理,不适合流计算。()选项:A、正确B、错误正确答案:【正确】11、问题:MapReduce设计的一个理念是“数据向计算靠拢”,并采用“分而治之”的策略。()选项:A、正确B、错误正确答案:【错误】12、问题:Shuffle过程是指对Map输出结果进行分区、排序、合并等处理并交给Reduce的过程。()选项:A、正确B、错误正确答案:【正确】第六章习题1、问题:数据匿名化的原因有哪些选项:A、实现数据共享发布,而不泄漏用户的隐私B、防止数据被篡改C、压缩数据的存储空间D、实现数据清洗正确答案:【实现数据共享发布,而不泄漏用户的隐私】2、问题:下列哪些信息可能会侵犯用户的隐私选项:A、搜索引擎的搜索记录B、浏览器的访问痕迹C、电商平台的购物记录D、地图应用的搜索记录正确答案:【搜索引擎的搜索记录#浏览器的访问痕迹#电商平台的购物记录#地图应用的搜索记录】3、问题:下列哪些方法可以实现匿名化选项:A、元组抑制B、属性泛化C、属性置换D、属性扰乱正确答案:【元组抑制#属性泛化#属性置换#属性扰乱】4、问题:关于隐私保护技术,以下描述正确的包括选项:A、K-匿名的局限性是容易遭受同质性攻击B、L-多样性的局限性是容易遭受相似性攻击C、T-相近比K-匿名和L-多样性有更强的隐私保护性能D、K-匿名无法保证敏感值缺乏多样性正确答案:【K-匿名的局限性是容易遭受同质性攻击#L-多样性的局限性是容易遭受相似性攻击#T-相近比K-匿名和L-多样性有更强的隐私保护性能#K-匿名无法保证敏感值缺乏多样性】5、问题:计算k-匿名的算法分类包括选项:A、基于泛化和基于元组抑制的算法B、基于全局和基于局部记录的算法C、基于层次和基于划分的算法D、基于集合枚举和基于格搜索的算法正确答案:【基于泛化和基于元组抑制的算法#基于全局和基于局部记录的算法#基于层次和基于划分的算法】6、问题:K-匿名规则满足子集属性和泛化属性选项:A、正确B、错误正确答案:【正确】7、问题:蒙德里安算法是一种基于划分的算法选项:A、正确B、错误正确答案:【正确】8、问题:极小全域泛化的集合构成一个反链选项:A、正确B、错误正确答案:【正确】9、问题:熵l-多样性满足子集属性和泛化属性选项:A、正确B、错误正确答案:【正确】10、问题:递归(c,l)-多样性不满足泛化属性选项:A、正确B、错误正确答案:【错误】第6章单元测验1、问题:数据匿名化的原因有哪些选项:A、实现数据共享发布,而不泄漏用户的隐私B、防止数据被篡改C、压缩数据的存储空间D、实现数据清洗正确答案:【实现数据共享发布,而不泄漏用户的隐私】2、问题:下列哪些信息可能会侵犯用户的隐私选项:A、搜索引擎的搜索记录B、浏览器的访问痕迹C、电商平台的购物记录D、地图应用的搜索记录正确答案:【搜索引擎的搜索记录#浏览器的访问痕迹#电商平台的购物记录#地图应用的搜索记录】3、问题:下列哪些方法可以实现匿名化选项:A、元组抑制B、属性泛化C、属性置换D、属性扰乱正确答案:【元组抑制#属性泛化#属性置换#属性扰乱】4、问题:关于隐私保护技术,以下描述正确的包括选项:A、K-匿名的局限性是容易遭受同质性攻击B、L-多样性的局限性是容易遭受相似性攻击C、T-相近比K-匿名和L-多样性有更强的隐私保护性能D、K-匿名无法保证敏感值缺乏多样性正确答案:【K-匿名的局限性是容易遭受同质性攻击#L-多样性的局限性是容易遭受相似性攻击#T-相近比K-匿名和L-多样性有更强的隐私保护性能#K-匿名无法保证敏感值缺乏多样性】5、问题:计算k-匿名的算法分类包括选项:A、基于泛化和基于元组抑制的算法B、基于全局和基于局部记录的算法C、基于层次和基于划分的算法D、基于集合枚举和基于格搜索的算法正确答案:【基于泛化和基于元组抑制的算法#基于全局和基于局部记录的算法#基于层次和基于划分的算法】6、问题:K-匿名规则满足子集属性和泛化属性选项:A、正确B、错误正确答案:【正确】7、问题:蒙德里安算法是一种基于划分的算法选项:A、正确B、错误正确答案:【正确】8、问题:极小全域泛化的集合构成一个反链选项:A、正确B、错误正确答案:【正确】9、问题:熵l-多样性满足子集属性和泛化属性选项:A、正确B、错误正确答案:【正确】10、问题:递归(c,l)-多样性不满足泛化属性选项:A、正确B、错误正确答案:【错误】第7章单元测验1、问题:在“看不见的动机中”由于数据使用者和数据生成机构都是()的生产大数据,忽略了人们行为背后趋利避害的动机的大数据统计分析。选项:A、无意识B、有意识C、自主选择D、趋向选择正确答案:【无意识】2、问题:小数据强调采样,精确以及因果关系,大数据强调()。选项:A、全样B、非精确C、相关关系D、因果关系正确答案:【全样#非精确#相关关系】3、问题:大数据面临的挑战包括()。选项:A、大数据自大B、算法演化C、数据来源少D、看不见的动机正确答案:【大数据自大#算法演化#看不见的动机】4、填空题:数据收集过程的性质发生了变化,大数据不再只是被动记录使用者的决策,而是通过______,积极参与到使用者的行为决策中。正确答案:【算法演化】5、填空题:夜光遥感挖掘是通过在遥感图像中提取________数据进行绘制和分析。正确答案:【灯光】6、填空题:“大数据自大(bigdatahubris)”的倾向,即认为_______,ꢀ这里的关键是,企业或者机构拥有的这个称为总体的数据和研究问题关心的总体是否相同.正确答案:【自己拥有的数据是总体】7、填空题:在大数据分析中只关心________而不关注因果关系。正确答案:【相关关系】8、填空题:热力图是通过__________数据进行绘制和分析。正确答案:【位置】9、填空题:谷歌通过__________来预测流感发病率。正确答案:【搜索关键词】10、填空题:_______未卜先知的故事,常被看做大数据分析优势的明证。正确答案:【谷歌流感预测】大数据技术导论期末试题1、问题:大数据是一个什么领域的问题?选项:A、业务领域B、计算机领域C、多学科综合领域D、数学统计领域正确答案:【多学科综合领域】2、问题:以下哪种技术对大数据技术的发展起了最重要基础支撑作用?选项:A、云计算技术B、信息安全技术C、物联网技术D、数据库技术正确答案:【云计算技术】3、问题:科学研究的第三范式是计算思维-()选项:A、仿真模拟B、模型推演C、关联分析D、科学归纳正确答案:【仿真模拟】4、问题:与大数据直接相关的职业不包括选项:A、数据分析师B、系统架构师C、领域科学家D、首席执行官正确答案:【首席执行官】5、问题:下面科学研究的四个范式顺序正确的是()选项:A、理论范式-模拟范式-经验范式-数据密集型范式B、理论范式-模拟范式-数据密集型范式-经验范式C、理论范式-经验范式-数据密集型范式-模拟范式D、经验范式-理论范式-模拟范式-数据密集型范式正确答案:【经验范式-理论范式-模拟范式-数据密集型范式】6、问题:在大数据生命周期的各个阶段中,工作最多的是哪个阶段()选项:A、数据分析B、数据收集和整理C、数据治理D、数据存储正确答案:【数据收集和整理】7、问题:在网络爬虫策略中需要根据链接计算网页重要性的是以下哪个算法()选项:A、局部PageRank策略B、广度优先C、深度优先D、OPIC正确答案:【局部PageRank策略】8、问题:常见的分布式网络爬虫架构不包含()选项:A、Master-slaveB、MixedC、Master-workerD、peer-peer正确答案:【Master-worker】9、问题:以下哪项不是传统关系型数据库的弱点?选项:A、无法满足海量数据的管理要求B、无法满足数据高并发的需求C、无法满足数据一致性和完整性的需求D、无法满足高拓展性和高可用性的需求正确答案:【无法满足数据一致性和完整性的需求】10、问题:下列对HBase数据模型的描述错误的是选项:A、每个HBase表都由若干行组成,每个行由行键(rowkey)来标识B、HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳C、HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本D、HBase列族支持动态扩展,可以很轻松地添加一个列族或列正确答案:【HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本】11、问题:HBase是一种()数据库选项:A、关系数据库B、文档数据库C、列式数据库D、行式数据库正确答案:【列式数据库】12、问题:访问HBase表中的行,不可以用以下哪种方式选项:A、通过一个行健的区间来访问B、全表扫描C、通过某列的值区间D、通过单个行健访问正确答案:【通过某列的值区间】13、问题:分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫(),另一类存储具体数据叫()选项:A、名称节点,数据节点B、名称节点,主节点C、从节点,主节点D、数据节点,名称节点正确答案:【名称节点,数据节点】14、问题:HDFS中文件块默认保存几份()选项:A、2份B、3份C、4份D、5份正确答案:【3份】15、问题:下面与HDFS类似的框架是()选项:A、FAT32B、NTFSC、GFSD、EXT3正确答案:【GFS】16、问题:下列关于NoSQL数据库和关系型数据库的比较,不正确的是选项:A、NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言B、NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性C、NoSQL数据库具有弱一致性,关系型数据库具有强一致性D、NoSQL数据库的可扩展性比传统的关系型数据库更好正确答案:【NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性】17、问题:下列数据库属于文档数据库的是选项:A、HBaseB、RedisC、MongoDBD、MySQL正确答案:【MongoDB】18、问题:NoSQL数据库的CAP不包含()选项:A、一致性B、可用性C、分区容忍性D、持久性正确答案:【持久性】19、问题:NoSQL数据库的BASE不包含()选项:A、持续性B、最终一致性C、基本可用D、软状态正确答案:【持续性】20、问题:关于NoSQL数据库和关系数据库,下列说法不正确的是:选项:A、NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力B、NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库C、大多数NoSQL数据库很难实现数据完整性D、关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础正确答案:【NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库】21、问题:NoSQL数据库的明显优势不包含()选项:A、具有强大的横向扩展能力B、灵活的数据模型可以很好的支持Web2.0应用C、实现数据完整性D、支持超大规模数据存储正确答案:【实现数据完整性】22、问题:下列关于数据可视化的介绍,不正确的是()选项:A、可视化分析用到了支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术B、统计图表有饼图、时间序列图、散点图、等高线图等多种形式C、可视化技术被大量应用于统计学领域、地理信息系统、数据挖掘分析、商务智能工具等D、雷达图不适用于多维数据正确答案:【雷达图不适用于多维数据】23、问题:关于数据挖掘任务,下列说法不正确的是()选项:A、聚类属于无监督范畴B、聚类是描述性任务C、回归分析属于描述性任务D、分类属于预测性任务正确答案:【回归分析属于描述性任务】24、问题:下列不可以用于多维数据可视化的方法有()选项:A、GMapB、散点图矩阵C、平行坐标系D、雷达图正确答案:【GMap】25、问题:数据度量的常用方法不包括:选项:A、相似性函数B、夹角余弦C、相关系数D、聚类系数正确答案:【聚类系数】26、问题:Spark的组件中,用于做查询分析的是()选项:A、SparkMLibB、SparkCoreC、SparkStreamingD、SparkSQL正确答案:【SparkSQL】27、问题:关于MapReduce,下列说法错误的是选项:A、不同的Map任务之间不能互相通信B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个SlaveC、Map函数将输入的元素转换成key,value形式的键值对D、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写正确答案:【Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写】28、问题:传统并行计算框架(比如MPI)和MapReduce并行计算框架相比较的特点不包含选项:A、前者相比后者学习起来更容易B、前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好C、前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好D、前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型正确答案:【前者相比后者学习起来更容易】29、问题:关于RDD论述正确的是()选项:A、RDD读取的数据都存储在一台机器上B、RDD是一种高效的可读写存储C、RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集D、RDD支持各种粗粒度和细粒度的操作,是一个高效的多模态处理系统正确答案:【RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集】30、问题:Apache软件基金会最重要的三大分布式计算系统开源项目不包括()选项:A、MapReduceB、SparkC、StormD、Hadoop正确答案:【MapReduce】31、问题:利用大数据特性进行隐私保护的方式不包含:选项:A、数据匿名化B、属性多样性C、差分隐私保护D、数据加密传输技术正确答案:【数据加密传输技术】32、问题:以下哪项对数据隐私问题的影响相对最小选项:A、证明P=NPB、研制出量子计算机C、政府和企业成立安全联盟D、发现了新的可计算哈希碰撞正确答案:【政府和企业成立安全联盟】33、问题:大数据分析的挑战不包括()选项:A、大数据自大B、算法演化C、看不见的动机D、无处不在的数据正确答案:【无处不在的数据】34、问题:科学研究的第一到第四范式数据思维依次分别采用:仿真模拟、模型推演、关联分析、科学归纳选项:A、正确B、错误正确答案:【错误】35、问题:大数据的优势包含:数据体量大,数据类型丰富,价值密度高,收集时间短选项:A、正确B、错误正确答案:【错误】36、问题:大数据处理中的批处理框架包含Flink、hadoop、jvm、Spark选项:A、正确B、错误正确答案:【错误】37、问题:大数据处理中的流计算框架包含Flink、Sparkstreaming、STORM选项:A、正确B、错误正确答案:【正确】38、问题:大数据处理中批流融合计算很难,目前业界关于此类研究处于空白状态选项:A、正确B、错误正确答案:【错误】39、问题:系统的控制方式一般分为模型驱动和数据驱动选项:A、正确B、错误正确答案:【正确】40、问题:4V特征包含:数据规模大、数据密度低、数据处理速度快、价值密度低选项:A、正确B、错误正确答案:【错误】41、问题:大数据的处理过程包含,数据获取与管理、数据存储与处理、数据分析与理解、结合领域的大数据应用选项:A、正确B、错误正确答案:【正确】42、问题:模拟范式是以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式选项:A、正确B、错误正确答案:【错误】43、问题:全表对比是一种需要计算MD5校验码的非增量抽取方法选项:A、正确B、错误正确答案:【错误】44、问题:大数据中的非结构化数据包括视频、图像、语音、文本选项:A、正确B、错误正确答案:【正确】45、问题:电子表格Excel、网页HTML均属于结构化数据选项:A、正确B、错误正确答案:【错误】46、问题:通过使用词组查询搜索引擎搜索得到的结果、通过填写表单形成对后台在线数据库的查询而得到的动态页面、需要注册或其他限制才能访问的内容都属于深网内容选项:A、正确B、错误正确答案:【错误】47、问题:HBase依靠Hadoop存储底层数据选项:A、正确B、错误正确答案:【错误】48、问题:NoSQL的数据特点包含与云计算紧密融合,灵活的可扩展性,动态的数据迁移、灵活的数据模型选项:A、正确B、错误正确答案:【错误】49、问题:HDFS只设置唯一一个名称节点带来的局限性主要包括集群的可用性、命名空间的限制、隔离问题以及性能的瓶颈选项:A、正确B、错误正确答案:【正确】50、问题:在分布式文件系统中,采用采用多副本冗余存储可以节约存储空间、保证数据可靠性、更容易检查数据错误并加快数据传输速度选项:A、正确B、错误正确答案:【错误】51、问题:分布式文件系统改变了数据存储和管理方式,相对于本地文件系统具有易扩展、低成本、强可靠、高可用的优势选项:A、正确B、错误正确答案:【正确】52、问题:HBase是一种开源的,是面向行的、分布式的NoSQL数据库选项:A、正确B、错误正确答案:【错误】53、问题:Hadoop的框架最核心的设计是HDFS和MapReduce选项:A、正确B、错误正确答案:【正确】54、问题:HBase的实现主要包含许多个Master主服务器、Region服务器及库函数选项:A、正确B、错误正确答案:【错误】55、问题:HDFS专为解决大数据存储问题而产生的,其具备了强大的跨平台兼容性,支持批和流数据读写,实现了低延时数据访问,并兼容廉价的硬件设备选项:A、正确B、错误正确答案:【错误】56、问题:NoSQL数据库的三大理论基石包括BASE、CAP和最终一致性选项:A、正确B、错误正确答案:【正确】57、问题:目前,NoSQL的含义是“NotonlySQL”,而不是“NoSQL”。选项:A、正确B、错误正确答案:【正确】58、问题:一个数据库事务具有ACID是指:原子性,一致性,持久性,隔离性。选项:A、正确B、错误正确答案:【正确】59、问题:数据可视化方法和技术包含多维数据可视化技术、图可视化技术、时空数据可视化技术以及混合建模技术选项:A、正确B、错误正确答案:【错误】60、问题:数据可视化可以理解信息、探索数据、协助思考,并作为大量工作记忆的外界辅助选项:A、正确B、错误正确答案:【正确】61、问题:预测任务的目标是导出和概
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园教学楼光伏发电系统安装合同
- 2025合同审核管理制度
- 2025装修公司合同样本超市特许合同样本
- 贸易信息Internet推广合作合同
- 2025演艺器材租赁合同
- 2025保温合同(久安)-合同协议-表格模板-应用文书
- 仓储库存周转率的优化方法
- 小寒节气生活讲解模板
- 拼多多运营述职报告
- 室内空气治理技术培训
- 工业制造企业战略规划
- 2023年某公司新建标准厂房工程技术标
- 2024年面向社会公开招聘警务辅助人员报名信息表
- 实变函数知到智慧树章节测试课后答案2024年秋华南理工大学
- 脑血管介入治疗进修
- 劳动教育(绍兴文理学院)知到智慧树章节答案
- 《液压与气压传动案例教程》课件项目4
- 驾驶证学法减分(学法免分)试题和答案(50题完整版)1650
- 期末测试卷(试题)-2024-2025学年人教PEP版(2024)英语三年级上册
- 2024年中国气象局气象宣传与科普中心招聘历年高频考题难、易错点模拟试题(共500题)附带答案详解
- 完美着装智慧树知到期末考试答案2024年
评论
0/150
提交评论