大数据测试试卷样题

上传人：w*** IP属地：天津上传时间：2022-05-06 格式：DOCX 页数：28 大小：34.16KB 积分：25 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、大数据试卷单选题，每一题只有一个正确选项，共110题第1题,大数据不是要教机器像人一样思考。相反，它是（A）。A:把数学算法运用到海量的数据上来预测事情发生的可能性B:被视为人工智能的一部分C:被视为一种机器学习D:预测与惩罚第2题,MongoDB是一种NoSQL数据库，具体地说，是（B）存储数据库。A:键值B:文档C:图形D:XML第3题，以下哪种说法是错误的（B）。A:将罪犯的定罪权放在数据手中，借以表达对数据和分析结果的崇尚，这实际上是一种滥用B:随着数据量和种类的增多，大数据促进了数据内容的交叉检验，匿名化的数据不会威胁到任何人的隐私C:采集个人数据的工具就隐藏在我们日常生活所必备的工

2、具当中，比如网页和智能手机应用程序D:预测与惩罚，不是因为所做，而是因为将做第4题，下列关于MapReduce的说法错误的是（D）A:MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数：Map和ReduceB:MapReduce采用分而治之”策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片（split）,这些分片可以被多个Map任务并行处理C:MapReduce设计的一个理念就是计算向数据靠拢”，而不是数据向计算靠拢”，因为，移动数据需要大量的网络传输开销D:MapReduce应用程序必须要用Java来写第5题，下面与Zookeeper类

3、似的框架是（D）A:ProtobufB:JavaC:Kafka第6题,可以对大数据进行深度分析的平台工具是（C)A:传统的机器学习和数据分析工具B:第二代机器学习工具C:第三代机器学习工具D:未来机器学习工具第7题，哪个是HDFS（HadoopDistributedFileSystem）适合做的（B）。A:大量小文件存储B:流式数据访问C:随机写入D:低延迟读取第8题,HBase依赖（D）提供强大的计算能力。A:ZookeeperB:ChubbyC:RPCD:MapReduce第9题，工业大数据的主要应用不包括（D）。A:设备状态分析B:用电分析与预测C:工业原料自动分类D:自然语言处理第10

4、题，建立在相关关系分析法基础上的预测是大数据的（C）。A:基础B:前提C:核心D:条件第11题在大数据时代，我们需要设立一个不一样的隐私彳护模式，这个模式应该更着重于（A）为其行为承担责任A:数据使用者B:数据提供者C:个人许可D:数据分析者第12题，智慧城市的构建，不包含（C）。A:数字城市B:物联网C:联网监控？D:云计算第13题，支撑大数据业务的基础是（B）。A:数据科学B:数据应用C:数据硬件D:数据人才第14题,机器学习的实质在于（B）。A:想B:找C:判断D:理解第15题，下列关于大数据的分析理念的说法中，错误的是（D）A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更

5、注重相关分析而不是因果分析C:在分析效果上更追究效率而不是觉得精准D:在数据规模上强调相对数据而不是绝对数据第16题,Hadoop是由何种语言编写的（C）。A:ScalaB:ErlangC:JavaD:Python第17题,hadoop中datanode的在作用（A）。A:存储数据B:管理集群中的节点C:写入数据D:删除数据第18题，可视化是将大数据分析结构展示出来的主要方式，不属于大数据分析与可视化的特性的是（D）A:迭代性B:容错性C:参数收敛的非均匀性D:扩展性第19题,关于工业大数据与互联网大数据的比较何者为伪（D）。A:互联网大数据是大量样本B:工业大数据尽可能全面使用样本C:互联网

6、大数据对资料品质的要求较低D:工业大数据以统计分析为主通过挖掘样本中各个属性之间的相关性进行预测第20题，关于Hive与Hadoop其他组件的关系，描述错误的是（D）。A:HIVE最终将数据存储在HDFS中B:HiveSQL其本质是执行的MapReduce任务C:Hive是Hadoop平台的数据仓库工具？D:Hive又tHBase有强依赖第21题,下面哪个场景不适合HBase的应用（A）。A:需要完全拥有传统关系型数据库所具备的ACID特性B:需要很好的性能伸缩能力C:需要在海量数据中实现高效的随机读取D:能够同时处理结构化和非结构化的数据第22题，大数据的最显著特征是（A）。A:数据规模大C

7、:数据处理速度快D:数据价值密度高第23题,假设一种基因同时导致两件事情，一是使人喜欢抽烟，二是使这个人和肺癌就是（A）关系，而吸烟和肺癌则是（A）关系。A:因果；相关B:相关；因果C:并列；相关D:因果；并列第24题,下列关于计算机存储容量单位的说法中，错误的是（C）。A:1KB<1MB<1GBB:基本单位是字节（Byte）C:一个汉字需要一个字节的存储空间D:一个字节能够容纳一个英文字符第25题以下说法不正确的是（D）oA:HadoopStreaming使用Unix中的流与程序交互B:HadoopStreaming允许我们使用任何可执行脚本语言处理数据流C:采用脚本语言时必须遵

8、从UNIX的标准输入STDIN,并输出到STDOUTD:Reduce没有设定，上述命令运行会出现问题第26题，有关MapReduce的输入输出，说法错误的是（B）。A:链接多个MapReduce作业时，序列文件是首选格式B:FileInputFormat中实现的getSplits（）可以把输入数据划分为分片，分片数目和大小任意定义C:想完全禁止输出，可以使用NullOutputFormatD:每个reduce需将它的输出写入自己的文件中，输出无需分片第27题，数据挖掘分为（C）数据挖掘和预测型数据挖掘。A:列举型B:交换型C:描述型D:重点型第28题,大数据时代，我们是要让数据自己【发声】，没

9、必要知道为什么，只需要知道（B）A:原因B:是什么C:关联物D:预测的关键第29题,当前大数据技术的基础是由（C）首先提出的。A:微软B:百度C:谷歌D:阿里巴巴第30题在大数据时代，下列说法正确的是（B）。A:收集数据很简单B:数据是最核心的部分C:对数据的分析技术和技能是最重要的D:数据非常重要，一定要很好的保护起来，防止泄露第31题，大数据的发展，使信息技术变革的重点从关注技术转向关注（A）。A:信息B:数字C:文字D:方位第32题,Hadoop的作者是下面哪一位（D）。A:TaskTrackerB:DataNodeC:SecondaryNameNodeD:Jobtracker第33题,

10、HBase会先将数据写入到（D）。A:MemStoreB:HfileD:HLog第34题，大数据的简单算法与小数据的复杂算法相比（A）。A:更有效B:相当C:不具备可比性D:无效第35题，下面不属于Hadoop安装步骤的是（C）。A:安装JDK和配置Java环境变量B:设置免密码登录C:下载Eclipse集成开发环境D:修改Hadoop配置文件并启动Hadoop第36题,下列关于聚类挖掘技术的说法中，错误的是（B）。A:不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别B:要求同类数据的内容相似度尽可能小C:要求不同类数据的内容相似度尽可能小D:与分类挖掘技术相似的是，都是要对数

11、据进行分类处理第37题,HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括（D）A:利用SequenceFile、MapFile、Har等方式归档小文件B:多Master设计C:Block大小适当调小D:调大namenode内存或将文件系统元数据存到硬盘里第38题在数据生命周期管理实践中，（B）是执行方法。A:数据存储和备份规范B:数据管理和维护C:数据价值发觉和利用D:数据应用开发和管理第39题,下列关于网络用户行为的说法中，错误的是（C）。A:网络公司能够捕捉到用户在其网站上的所有行为B:用户离散的交互痕迹能够为企业提升服务质量提供参考C:数字轨迹用完即自动删除

12、D:用户的隐私安全很难得以规范保护第40题，机器学习的经典定义是（C）。A:利用技术进步改善系统自身的性能B:利用技术进步改善人的能力C:利用经验改善系统自身的性能D:利用经验改善人的能力第41题，对线下零售而言，做好大数据分析应用的前提是（C）。A:增加统计种类B:扩大营业面积C:增加数据来源D:开展优惠促销第42题,HDFS中的block默认保存几份（A）。A:3份B:2份C:1份D:不确定第43题，下列关于舍恩伯格对大数据特点的说法中，错误的是（D）A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高第44题，关于数据创新，下列说法正确的是（D）。A:多个数据集的总和价值等

13、于单个数据集价值相加B:由于数据的再利用，数据应该永久保存下去C:相同数据多次用于相同或类似用途，其有效性会降低D:数据只有开放价值才能得到真正释放第45题,数据仓库的最终目的是（D）。A:收集业务需求B:建立数据仓库逻辑模型C:开发数据仓库的应用分析D:为用户和业务部门提供决策支持第46题,Hadoop的标志物是（A）。A:大象B:长颈鹿C:狮子D:鲨鱼第47题,Hadoop1.0默认的调度器策略是哪个（A）。A:先进先出调度器B:计算能力调度器C:公平调度器D:优先级调度器第48题,美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数

14、据分析理念中的（B）。A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据第49题,MAPREDUCE适用于（D）。A:任意应用程序B:任意可在WINDOWSSERVER2008上运行的程序C:可以串行处理的应用程序D:可以并行处理的应用程序D)第50题，下列演示方式中，不属于传统统计图方式的是（A:柱状图B:饼状图C:曲线图D:网络图第51题，一切事物及事物运动的状态，不仅销售数据、价格这些客观标准可以形成大数据，甚至连顾客情绪（如色彩、空间的感知等）都可以测得，这体现了大数

15、据思维维度中的（A）。A:定量思维B:相关思维C:因果思维D:实验思维第52题，关于Hadoop单机模式和伪分布式模式的说法，正确的是（D）。A:两者都起守护进程，且守护进程运行在一台机器上B:单机模式不使用HDFS,但加载守护进程C:两者都不与守护进程交互，避免复杂性D:后者比前者增加了HDFS输入输出以及可检查内存使用情况第53题,大数据不是要教机器像人一样思考。相反，它是（A）。A:把数学算法运用到海量的数据上来预测事情发生的可能性。B:被视为人工智能的一部分。C:被视为一种机器学习。D:预测与惩罚。第54题，促进隐私保护的一种创新途径是（D）:故意将数据模糊处理，促使对大数据库的查询不

16、能显示精确的结果。A:匿名化B:信息模糊化C:个人隐私保护D:差别隐私第55题,HFile数据格式中的KeyValue数据格式中Value部分是（C）。A:拥有复杂结构的字符串B:字符串C:二进制数据D:压缩数据第56题，大数据的核心就是（B）。A:告知与许可B:预测C:匿名化D:规模化第57题,HBase依赖（A）提供消息通信机制。A:ZookeeperB:ChubbyC:RPCD:Socket第58题,HBase是分布式列式存储系统，记录按什么集中存放。（A）A:列族B:列C:行D:不确定第59题,HFile数据格式中的Data字段用于（A）。A:存储实际的KeyValue数据B:存储数据

17、的起点C:指定字段的长度D:存储数据块的起点第60题，采样分析的精确性随着采样随机性的增加而（C）,但与样本数量的增加关系不大。A:降低B:不变C:提高D:无关第61题根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（C）A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师？第62题,storm和sparkstreaming最大的区另1J（C）。A:科学统计支持B:是否具有schemaC:是否是真正的实时计算框架D:不同公司的产品第63题，下列哪项通常是集群的最主要瓶颈（C）oA:CPUB:网络C:磁盘IOD:内存第64题，（D）反映数据的精

18、细化程度，越细化的数据，价值越高。A:规模B:活性C:关联度D:颗粒度第65题以下说法错误的是哪项（D）。A:大数据是一种思维方式B:大数据不仅仅是讲数据的体量大C:大数据会带来机器智能D:大数据的英文名称是largedata?第66题，按照大数据的资源观，大数据研究的关键科学问题有（D）A:大数据的获取方法、加工技术、应用模式B:大数据的产权问题、相关的产业发展问题D:以上都是第67题，大数据元年是指（C）。A:2014年B:2012年C:2013年D:2011年第68题以下（D）选项是目前利用大数据分析技术无法进行有效支持的。A:新型病毒的分析判断B:天气情况预测C:个人消费习惯分析及预测

19、D:精确预测股票价格第69题，关于数据估值，下列说法错误的是（B）。A:随着数据价值被重视，公司所持有和使用的数据也渐渐纳入了无形资产的范畴；B:无论是向公众开放还是将其锁在公司的保险库中，数据都是有价值的C:数据的价值可以通过授权的第三方使用来实现D:目前可以通过数据估值模型来准确的评估数据的价值评估第70题,HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的t写任务是（D）oA:一次写入，少次读B:多次写入，少次读C:多次写入，多次读D:一次写入，多次读第71题,对大数据使用进行正规评测及正确引导，可以为数据使用者带来什么切实

20、的好处（A）。A:他们无须再取得个人的明确同意，就可以对个人数据进行二次利用B:数据使用者不需要为敷衍了事的评测和不达标准的保护措施承担法律责任C:数据使用者的责任不需要强制力规范就能确保履行到位D:所有项目，管理者必须设立规章，规定数据使用者应如何评估风险、如何规避或减轻潜在伤害A）的方法。第72题,大数据是指不用随机分析法这样的捷径，而采用（A:所有数据B:绝大部分数据C:适量数据D:少量数据第73题，大数据的起源是(C)。A:金融B:电信C:互联网D:公共管理第74题，关于HDFS的文件写入，正确的是(C)oA:支持多用户对同一文件的写操作B:用户可以在文件任意位置进行修改C:默认将文件

21、块复制成三份存放D:复制的文件块默认都存在同一机架上第75题,HBase依靠(A)存储底层数据。A:HDFSB:HadoopC:MemoryD:MapReduce第76题，下列选项中属于机器学习的有(A)。A:深度学习B:数据挖掘C:机器翻译D:自然语言处理第77题,LSM是(A)。A:日志结构合并树B:二叉树C:平衡二叉树D:基于日志结构的合并树第78题,Pig相当于一个Hadoop的（D）。A:数据库B:上级C:服务器D:客户端第79题,HDFS默认BlockSize的大小是（B）。A:32MBB:64MBC:128MBD:256M第80题，国务院在哪一年印发了促进大数据发展行动纲要（A）

22、oA:2015年B:2014年C:2016年D:2013年第81题，安装Hbase的压缩包，使用的Linux命令是（A）。A:tar-zxvfB:tar-zxC:tar-sD:tar-nf第82题，随着数据科学家的崛起，（C）的地位将发生动摇。A:国家领导人B:大型企业C:行业专家和技术专家D:职业经理人第83题，数据分析报告是整个数据分析过程的成果。对数据分析报告的要求不包括（A）A:数据分析必须全部基于权威部门公开发布的数据B:数据分析的推理要有很强的逻辑性和严谨性C:每项分析都应有结论，而且结论一定要明确D:分析报告要有很强的可读性，尽量图表化第84题，如何应对大数据（D）。A:分布式计

23、算B:虚拟化C:内存计算D:三个选项都是第85题,大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的（B）。A:新一代技术平台B:新一代信息技术和服务业态C:新一代服务业态D:新一代信息技术第86题，数据清洗的方法不包括（D）。A:缺失值处理B:噪声数据清除C:一致性检查D:重复数据记录处理第87题,下列关于数据交易市场的说法中，错误的是（C）。A:数据交易市场是大数据产业发展到一定程度的产物B:商业化的数据交易活动催生了多方参与的第三方数据交易市场C:数据交易市场通过生产数据、研发和分析数据，为数据交易提供帮助D:数据交易

24、市场是大数据资源化的必然产物第88题，下列说法正确的是（C）oA:有价值的数据是附属于企业经营核心业务的一部分数据；B:数据挖掘它的主要价值后就没有必要再进行分析了C:所有数据都是有价值的D:在大数据时代，收集、存储和分析数据非常简单D）,帮助我们进一步接近事实的真相第89题相比依赖于小数据和精确性的时代，大数据因为更强调数据的（A:安全性B:完整性C:混杂性D:完整性和混杂性第90题第一个提出大数据概念的公司是（D）。A:微软公司B:谷歌公司C:脸谱公司D:麦肯锡公司第91题,LSM更能保证哪种操作的性能（B）oA:读B:写C:随机读D:合并第92题,2011年，（C）发布大数据：创新、竞争和生产力的下一个新领域报告，大数据开始备受关注。A:微软公

人人文库> 全部分类> 应用文书 > 作业报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据测试试卷样题

文档简介

温馨提示

最新文档

评论

大数据测试试卷样题

文档简介

温馨提示

最新文档

评论

相关文档