大数据开发基础(习题卷71)

上传人：w*** IP属地：重庆上传时间：2024-02-03 格式：DOCX 页数：24 大小：35.23KB 积分：3.6 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据开发基础大数据开发基础(习题卷71)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.HBase的物理存储单元是什么?A)RegionB)ColumnfamilC)ColumnD)Row答案:B解析:[单选题]2.在MapReduce中，reduce()函数可以将()值相同的输入进行合并处理。A)inputB)keyC)va1ueD)number答案:B解析:[单选题]3.大数据安全核心技术研发是我国大数据产业自主发展的关键驱动，其中不包括（）。A)数据加密B)数据完整性验证C)网络安全保护D)大数据管理制度答案:D解析:[单选题]4.公共云计算上分析型数据库的用户创建数据库的方式为:（）。A)直接通过CREATEDATABASE的DDL语句创建数据库B)直接通过CREATEDATABASE的DML语句创建数据库C)直接通过CREATETABLE的DDL语句创建数据库D)只能通过DMS控制台界面来创建需要的业务数据库答案:D解析:[单选题]5.下列描述中不属于规整数据（TidyData）三个基本原则的是（）。A)每一类观察单元构成一个关系（表）B)每个观察占且仅占一行C)每个变量占且仅占一列D)每个观察占且仅占一个关系（表）答案:D解析:tidyData原则为每列代表一个单独变量、每行代表单个观察值、每种观察形成一个表格。[单选题]6.基础IT资源的管理部分属于（）A)IAASB)PAASC)SAASD)以上都不是答案:A解析:[单选题]7.对于GaussDB200的数据并行导入策略Normal，下列说法错误的是（）?A)通过GDS服务的方式实现数据并行导入。B)导入的效率和GDS服务器有关，GDS服务器越多，导入效率越快。C)数据导入时，支持单行数据大小小于1GB.D)能够将数据库的数据.表结构都导入。答案:C解析:[单选题]8.HBase只有一个针对行健的索引，如果要访问HBase表中的行，下面哪种方式是不可行的？A)通过单个行健访问B)通过时间戳访问C)通过一个行健的区间来访问D)全表扫描答案:B解析:[单选题]9.在深度学习中，我们经常会遇到收敛到localminimum，下列不属于解决localminimum问题的方法是（）。A)随机梯度下降B)设置MomentumC)设置不同初始值D)增大batchsize答案:D解析:增大batchsize无法解决localminimum问题。[单选题]10.图灵奖获得者JimGray提出的"科学研究第四范式"的全称为()。A)数据密集型科学发现B)以数据为中心的科学发现,C)数据驱动型的科学发现D)大数据科学研究答案:A解析:2007年,图灵奖获得者JimGray提出了科学研究的第四范式--数据密集型科学发现(Data-intensiveScientificDiscovery)。在他看来,人类科学研究活动已经历过三种不同范式的演变过程(原始社会的"实验科学范式"、以模型和归纳为特征的"理论科学范式"和以模拟仿真为特征的"计算科学范式"),目前正在从"计算科学范式"转向"数据密集型科学发现范式"。[单选题]11.企业中台是一种实现公司核心资源共享化、服务化的理念和模式，从管理视角上强调（），从技术视角上强调（）。A)服务化、企业级B)企业级、服务化C)共享化、服务化D)服务化、共享化答案:B解析:[单选题]12.大数据涌现现象的形式有多种，不属于大数据涌现形式的是()。A)价值涌现B)隐私涌现C)物质涌现D)质量涌现答案:C解析:[单选题]13.传统RNN有什么特别大的弊端？A)无法进行长久记忆B)精度太低C)速度太慢D)效果太差答案:A解析:[单选题]14.在Hadoop的分区阶段,默认的Partitioner是()。A)RangePartitionerB)PartitionerC)HashPartitionerD)用户自定义的Partitioner答案:C解析:Hadoop中默认的Partitioner是HashPartitioner。[单选题]15.在用户验证权限时，应当在?服务列表?中选择数据复制服务，进入DRS主界面，单击右上角（），尝试购创建迁移任务。A)修改迁移任务B)创建迁移任务C)查阅权限D)删除迁移任务答案:B解析:[单选题]16.关于?三型两网?，以下（）说法不正确：A)中国坚强智能电网建设已经走在世界前列，泛在电力物联网的建设也走在前列。B)泛在电力物联网从概念上讲，就是围绕电力系统各环节，充分应用移动互联、人工智能等现代信息技术、先进通信技术，实现电力系统各个环节万物互联、人机交互，具有状态全面感知、信息高效处理、应用便捷灵活特征的智慧服务系统。C)泛在电力物联网包含感知层、网络层、平台层、应用层四层结构。D)坚强智能电网和泛在电力物联网，二者相辅相成、融合发展，形成强大的价值创造平台，共同构成能源流、业务流、数据流?三流合一?的能源互联网。答案:A解析:[单选题]17.采用多副本冗余存储的优势不包含（）。A)保证数据可靠性B)容易检查数据错误C)加快数据传输速度D)节约存储空间答案:D解析:[单选题]18.下列选项中，关于HBase特性描述不正确的一项是（）。A)高可靠性B)高性能C)面向行D)可伸缩答案:C解析:[单选题]19.以下哪项不属于大数据在城市管理中的应用：（）A)智能交通B)环保监测C)城市规划D)比赛预测答案:D解析:[单选题]20.()负责MapReduce任务调度。A)NameNodeB)JobtrackerC)TaskTrackerD)SecondaryNameNode答案:B解析:[单选题]21.（）是指理解挖掘项目的目标业务需求。A)业务理解B)数据理解C)数据准备D)数据建模答案:A解析:根据跨行业数据挖掘标准流程（cross-industrystandardprocessfordatamining，CRISP-DM）模型，业务理解是指从业务的角度了解项目的要求和最终目的，并将这些目的与数据挖掘的定义以及结果结合起来。[单选题]22.下面这段代码的作用是什么?A)创建索引B)删除索引C)维护亲引D)更新索引答案:A解析:[单选题]23.当我们需要在一张图表中加上文字标注达到提醒读者的目的时，需要用到（）函数。A)plt.axvspan（）B)plt.axhspan（）C)plt.annotate（）D)plt.text（）答案:D解析:文字标注是text（）函数。[单选题]24.什么是KDD？A)数据挖掘与知识发现B)领域知识发现C)文档知识发现D)动态知识发现答案:A解析:[单选题]25.以下哪些选项属于实时检索的特点?A)处理时间要求不高B)全文检素功能C)高并发D)查询响应要求较高答案:D解析:[单选题]26.卷积神经网络（CNN）中Dropout层的作用是A)加快收敛速度B)防止过拟合C)丰富训练样本D)增强正样本答案:B解析:[单选题]27.对于信息增益,决策树分裂节点,下面说法正确的是（）1纯度高的节点需要更多的信息去区分2信息增益可以用?1比特-熵?获得3如果选择一个属性具有许多归类值,那么这个信息增益是有偏差的A)1B)2C)2和3D)所有以上答案:C解析:[单选题]28.（）算法假设聚类结构能通过样本分布的紧密程度确定。A)原型聚类B)密度聚类C)层次聚类D)模型聚类答案:B解析:[单选题]29.以下关布式文件系统，描述错误的是：（）A)是一种通过网络实现文件在多台主机上进布式存储的文件系统B)所有布式文件系统的设计都是采用?客户机/服务器?（Client/server）模式C)谷歌开发布式文件系统GFSD)Hadoop布式文件系统（HadoopDistributedFileSystem,HDFS）是针对GFS的开源实现答案:B解析:[单选题]30.下列关于数据的说法，不正确的是（）A)数据的类别有多种多样B)数据库中的一列代表一个特征C)一组数据平均值不会受异常值影响D)数据点之间的距离满足d_ij+d_jk≥d_ik答案:C解析:[单选题]31.求以下程序结果正确的是（）L=('Google','Python','Taobao')print（L[-2]）print（L[1:]）A)Python',('Python','Taobao')B)Google',('Python','Taobao')C)Google''Python?D)?Taobao''Python?答案:A解析:[单选题]32.（）算法可以用于特征选择。A)朴素贝叶斯B)感知器C)支持向量机D)决策树答案:D解析:使用决策树也可以计算每个特征的相对重要性。这些重要性能够辅助进行特征选择。[单选题]33.以下哪个是技术性最强的计算机系统攻击手法？（）A)口令猜测B)数据包侦听C)口令破解D)数据包欺骗答案:D解析:[单选题]34.Hadoop框架是用下面（）语言写的。A)PytyonB)JavaC)C++D)Scala答案:B解析:[单选题]35.()用于说明在父RDD上执行何种计算。A)分区B)算子C)日志D)数据块答案:B解析:算子是Spark中定义的函数,用于对RDD中的数据进行操作、转换和计算。[单选题]36.关于MapReduce1.0的体系结构的描述，下列说法错误的是？A)Task分为MapTask和ReduceTask两种，分别由JobTracker和TaskTracker启动B)slot分为Mapslot和Reduceslot两种，分别供MapTask和ReduceTask使用C)TaskTracker使用?slot?等量划分本节点上的资源量（CPU、内存等）D)TaskTracker会周期性接收JobTracker发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）答案:A解析:[单选题]37.下列标识符中，合法的是（）。A)helloWorldB)2ndObjC)hello#worldD)-helloworld答案:A解析:[单选题]38.逻辑回归将输出概率范围限定为[0,1]。()函数能起到这样的作用A)Sigmoid函数B)tanh函数C)ReLU函数D)LeakyReLU函数答案:A解析:Sigmoid函数输出值限定为[0,1]。[单选题]39.HDFS采用块复制的概念，让数据在集群的节点间进行复制，从而实现了一个()的系统。A)云计算B)分布式文件C)流处理D)高度容错性答案:D解析:[单选题]40.有关kmeans算法，正确的说法是？（）A)kmeans算法对异常样本非常敏感，因此在聚类前要把异常样本直接删除。B)kmeans只能处理凸型分布的非数值型样本。C)kmeans聚类的过程与初始的k个假设的聚类中心的选择没关。D)kmeans算法需要在聚类前确定类数k，这个k值需要有助于解释各类的业务含义。答案:D解析:[单选题]41.下列关于Numpy叙述错误的是？A)是一个开源的Python科学计算库B)底层基于C++封装，运行速度快C)常用来处理数组D)支持矩阵，处理数学问题更加形象答案:B解析:[单选题]42.对于运行在MapReduce平台上的应用程序，此应用程序所依赖的jar包会被放到（）。A)HIVEB)HBASEC)HDFSD)DB答案:C解析:[单选题]43.下列不属于导致各类数据泄露的风险大幅提升，公司数据安全防护面临严峻挑战因素的是（）。A)数据量大、分布面广B)数据利用价值高C)数据采集点多，发布渠道多样化D)数据成本高答案:D解析:[单选题]44.下面不属于云计算技术的有(__)。A)HadoopB)SparkC)YARND)集中式计算答案:D解析:[单选题]45.用来插入数据的命令是()，用于更新的命令是()A)INSERT，UPDATEB)CREATE，INSERTINTOC)DELETE，UPDATED)UPDATE,INSERT答案:A解析:[单选题]46.Oracle数据库中，段的集合称为A)区B)段C)表空间D)数据库答案:C解析:[单选题]47.一个简单的Series是由（）的数据组成的A)两个数组B)三个数组C)一个数组D)四个数组答案:C解析:[单选题]48.()算法是决策树学习的基本算法，其他多数决策树学习方法都是它的变体A)Find-SB)KNNC)概念D)ID3答案:D解析:[单选题]49.大数据计算服务MaxCompute是阿里巴巴自主研发的海量数据处理平台，主要服务于批量结构化数据的存化和计。以下（）场景不适合使用大数据计算服务实现。A)订单办理B)数据仓库C)杜交网络分析D)用户画像答案:A解析:[单选题]50.假设你正在训练一个LSτM网络，你有一个10000词的词汇表，并且使用一个激活值维度为100的LSTM块，在每一个时间步中，几的维度是()A)lB)100C)300D)10000答案:B解析:[单选题]51.Hadoop中partition()函数代表的是()。A)分区函数B)特征函数C)算法函数D)排序函数答案:A解析:[单选题]52.一个RDD有多个()组成。A)数据块B)单元C)分区D)表答案:C解析:[单选题]53.()是基于规则的分类器。A)C4.5B)KNNC)NaiveBayesD)ANN答案:A解析:基于规则的分类器有决策树、随机森林、Aprior,C4.5属于决策树算法。[单选题]54.已知一个数据集,n为特征数,m为训练样本数,如果n较小,而且m大小中等(例如n为1~1000,而m为10~10000),则一般选择()。A)逻辑回归模型B)不带核的支持向量机C)高斯核的支持向量机D)多项式核的支持向量机答案:C解析:高斯核函数需要选择合适的sigma²参数,适用于少量特征,大量样本的情况,可以拟合出非常复杂的非线性决策边界。第2部分：多项选择题，共26题，每题至少两个正确答案,多选或少选均不得分。[多选题]55.大数据技术在我们身边应用的越来越广，以下场景中有哪些场景可以应用大数据技术?A)游戏画面实时刷新B)广告精准营销C)道路智能规划D)人物国像答案:ABCD解析:[多选题]56.下列说法正确的是()A)一张数据表一旦建立完成，是不能修改的。B)在MySQL中，用户在单机上操作的数据就存放在单机中。C)在MySQL中，可以建立多个数据库，但也可以通过限定，使用户只能建立一个数据库。D)要建立一张数据表，必须先建数据表的结构。答案:BCD解析:[多选题]57.如果回归模型中存在多重共线性（multicollinearity），应该如何解决这一问题而不丢失太多信息A)剔除所有的共线性变量B)剔除共线性变量中的一个C)通过计算方差膨胀因子（VarianceInflationFactor，VIF）来检查共线性程度，并采取相应措施D)删除相关变量可能会有信息损失，我们可以不删除相关变量，而使用一些正则化方法来解决多重共线性问题，例如Ridge或Lasso回归。答案:BCD解析:[多选题]58.关于?三型两网?，除了泛在电力物联网，还包括（）：A)建设枢纽型企业B)建设平台型企业C)建设共享型企业D)坚强智能电网答案:ABCD解析:[多选题]59.深度学习最常用的算法包含（）A)CNNB)RNNC)ANND)MPP答案:AB解析:[多选题]60.以下选项属于数据控制语言的是()。--A)ALTERB)GRANTC)COMMITD)ROLLBACK答案:BCD解析:[多选题]61.根据《国网数据管理办法》（2019征求意见稿），公司数据质量管理主要包括（）：A)数据质量规则管理B)数据质量评估C)数据问题整改D)数据质量核查答案:ABCD解析:[多选题]62.物联网主要由下列哪些部分组成的？A)应用层B)处理层C)感知层D)网络层答案:ABCD解析:[多选题]63.usionlnsightManager会定时备份哪些数据A)NameNodeB)LDAPC)OMSD)DBService答案:ABCD解析:[多选题]64.在实际应用中，大数据处理主要包括哪几种类型：()A)复杂的批量数据处理：时间跨度通常在数十分钟到数小时之间B)基于历史数据的交互式查询：时间跨度通常在数十秒到数分钟之间C)基于实时数据流的数据处理：时间跨度通常在数百毫秒到数秒之间D)基于历史数据的流查询：时间跨度在数十秒到数分钟之间答案:ABC解析:[多选题]65.(__)是?黑客精神和技能?。A)大胆创新B)喜欢挑战C)追求完美D)不断改进答案:ABCD解析:[多选题]66.关于hbase存储模型的描述正确的是?A)即使是key值相同,qualifier也相同的多个keyvalue.也可能有多个,此时使用时间戳来区分B)同一个key值可以关联多个valueC)keyvalue中期有时间戳,类型等关键信息D)每一个keyvalue都有一个qualifier标识答案:ABCD解析:[多选题]67.利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集，在候选2-项集中需要剪枝的是（）ID项集1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐A)啤酒、尿布B)啤酒、面包C)面包、尿布D)啤酒、牛奶答案:BD解析:[多选题]68.调用函数时可使用的正式参数类型()。A)必备参数B)关键字参数C)默认参数D)不定长参数答案:ABCD解析:[多选题]69.下面属于探索性分析主要关注的四大主题的有(__)。A)耐抗性B)方差C)重新表达D)启示答案:ACD解析:[多选题]70.数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及()等方面。A)关联分析B)分类和预测C)聚类分析D)偏差分析答案:ABCD解析:[多选题]71.大数据平台建设原则为（）A)统一数据入湖：全网数据统一采集到大数据湖，利用大数据分布式计算、存储能力实现跨域数据处理B)统一技术架构：采用全网统一的PaaS架构构建大数据平台，统一组件标准，通过全网统一调度管控两级资源C)统一数据服务：对外提供统一数据服务，通过API、标签、模型、指标、卡片等方式全网开放使用D)统一开发平台：提供基于专区、AI、跨域数据的统一开发平台，打造全网生态化大数据应用敏捷开发生态答案:ABCD解析:[多选题]72.Web内容挖掘实现技术包括（）。A)文本总结B)文本分类C)文本机器学习D)关联规则答案:ABCD解析:[多选题]73.以下()属于数据统计分析工具。A)WekaB)SASC)SPSSD)Matlab答案:ABCD解析:[多选题]74.关于表扫描算子的说法正确的是（?A)对于点查或者范围扫描等过滤本量数据的查询，如果使用SeqScan全表扫描会比较快。B)表的数目比较少的时候，使用Seqscan效率更高。C)SOL的执行计划第一步就是从表扫描算子开始的。D)SeqScan是指顺序扫描表的所有信息。答案:ABC解析:[多选题]75.Python类的特点有（___）。A)根据职责将属性和方法封装到一个抽象的类中B)实现代码的重用，不需要重复编写代码C)子类拥有父类所有的属性和方法。也可以重新父类方法D)不同的对象调用相同的代码，产生不同的效果，提高代码的灵活性答案:ABCD解析:[多选题]76.下列属于原型聚类算法的是（__)。A)k均值算法B)学习向量量化C)高斯混合聚类密度聚类D)密度聚类答案:ABC解析:[多选题]77.数据资产应用管理主要任务包括（）A)归集数据资产应用成果B)评估数据资产应用成效C)促进共享和应用D)促进共享和应用答案:ABCD解析:第3部分：判断题，共16题，请判断题目是否正确。[判断题]78.JSON是一种轻量级的数据交换格式,本质上是一个字符串。--A)正确B)错误答案:对解析:[判断题]79.Series是一个类似于一维数组的对象。()A)正确B)错误答案:对解析:[判断题]80.通过执行指令?serviceiptablesstatus?可以关闭Linux系统的防火墙。A)正确B)错误答案:错解析:[判断题]81.建立数据质量现场检查制度，定期组织实施，每年不低于一次，对重大问题及时上报董事长，并按流程实施整改。A)正确B)错误答案:错解析:[判断题]82.与传统产业相比，互联网产业创业成本较低A)正确B)错误答案:对解析:[判断题]83.零售商之所以要关注Rny即消费者最近一次消费时间，是因为时间越短，对产品和零售商的记忆就越鲜活。A)正确B)错误答案:对解析:[判断题]84.Spark基于内存计算，本身可以直接读写Hadoop上任何格式数据，其应用程序在集群上以独立的进程集合的形式运行。A)正确B)错误答案:对解析:[判断题]85.在循环中continue语句的作用是跳出当前循环，进行下一次循环。。A)正确B)错误答案:对解析:[判断题]86.Flume在多路传输数据过程中，如果下一跳的Flume节点故障或者数据接受异常时，可以自动切换到另外-路上继续传输。A)正确B)错误答案:对解析:[判断题]87.深度学习是端到端学习，系统自动提取不同层次的特征。A)正确B)错误答案:对解析:[判断题]88.语句pass仅起到占位符的作用，并不会做任何操作。A)正确B)错误答案:对解析:[判断题]89.已知x=list(range(20))，那么语句delx[::2]可以正常执行。A)正确B)错误答案:对解析:[判断题]90.每个查询会被Hive转化为多个阶段，当有些阶段关联性较大时，可以并行化执行，诚少整个任务的执行时间。A)正确B)错误答案:错解析:[判断题]91.Flume架构中，一个source可以连接多个Channel。A)正确B)错误答案:对解析:[判断题]92.联接函数LEFTJOIN结果集包括LEFTJOIN子句中指定的左表的所有行,而不仅是联接列所匹配的行。()A)正确B)错误答案:错解析:[判断题]93.集合可以作为字典的键。A)正确B)错误答案:错解析:第4部分：问答题，共4题，请在空白处填写正确答案。[问答题]94.大数据包括结构化、半结构化和非结构化数据，其中()为数据的主要部分。答案:非结构化数据解析:[问答题]95.Zookeeper监听服务器流程()客户端连接Zooke

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础(习题卷71)

文档简介

温馨提示

最新文档

评论

大数据开发基础(习题卷71)

文档简介

温馨提示

最新文档

评论

相关文档