大数据开发基础(习题卷9)_第1页
大数据开发基础(习题卷9)_第2页
大数据开发基础(习题卷9)_第3页
大数据开发基础(习题卷9)_第4页
大数据开发基础(习题卷9)_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷9)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.Python中定义私有属性的方法是()。A)使用private关键字B)使用public关键字C)使用__XX__定义属性名D)使用__XX定义属性名[单选题]2.关于公民的隐私权,下面描述错误的是:()A)修改权是隐私权利人具有的依法了解自身信息资料是否被行政主体利用的权利B)支配权是隐私权利人的基本权利之一,隐私权利人对自己的个人信息的收集、储存、传播、使用、开放等享有支配权C)保障权是指公民有权要求政府在数据开放的过程中保障涉及其个人隐私的信息资料不被开放、不被滥用和不被泄露D)救济权是公民在自身的合法权益受到侵害时,按照法定程序釆取法律手段维护自身权益的权利[单选题]3.某大数据业务人员需针对某些数据创建Hive表结构,其中某个数据为时间类型ywyMMdd,那么可以使用以下哪一项作为字段类型?A)IntB)doubleC)stringDD)varcahr[单选题]4.Gremlin中查询单个点的信息该用什么命令A)g.V0.hasLabel("test")B)g.VOhasLabel("test").values("age")C)9.V0.hasLabel("test).valueMap("String.list","age")D)gV(13464736).valueMap0自[单选题]5.关于文档数据库的说法,下列哪一项是错误的:()A)性能好(高并发)B)缺乏统一的查询语法C)复杂性低D)数据是规则的[单选题]6.以下说法错误的一项是()A)负梯度方向是使函数值下降最快的方向B)当目标函数是凸函数时,梯度下降法的解是全局最优解C)梯度下降法比牛顿法收敛速度快D)拟牛顿法不需要计算Hesse矩阵[单选题]7.TaskScheduler负责将DAGScheduler发过来的TaskSet按照指定的调度策略分发到()上执行。A)StageB)DAGC)ExecutorD)Task[单选题]8.正则化是将样本在向量空间模型上的一个转换,经常被使用在分类与聚类中,正则化在preprocessing模块的实现函数是()。A)preprocessing.MaxAbsScale()B)preprocessing.RobustScaler()C)preprocessing.normalize()D)preprocessing.Binarizer()[单选题]9.大数据环境下的隐私担忧,主要表现为()A)人信息的被识别与暴露B)用户画像的生成C)广告的推送D)病毒入侵[单选题]10.下列关于LSTM的说法,错误的是()A)LSTM中存在sigmoid函数B)LSτM中存在饲血函数C)LSTM又称长短时记忆网络D)RNN是LSTM的变种[单选题]11.使用类间最大距离法进行图像分割时,下列步骤正确的是①计算相对距离度量值。②给定一个初始阈值,将图像分成目标和背景两类。③分别计算出两类的灰度均值。④选择最佳的阈值,使得图像按照该阈值分成两类后,相对距离度量值达到最大。A)①②③④B)②①③④C)②③①④D)①③②④[单选题]12.Flume的高级组件不包含以下哪个?A)SinkProcessorB)ChannelInterceptorC)ChannelSelectorD)SourceInterceptor[单选题]13.执行以下代码段x=5x**=2x%=2*3+1print(x)时,输出为()。A)0B)1C)4D)10[单选题]14.执行下列语句后,变量sum的值是()sum=0i=0while(iA)55B)30C)25D)无答案[单选题]15.在MaxComputeSQL中,对两个double类型的时间进行比较,正确的做法是:()。A)使用关系运算符B)使用关系运算符"!=?C)使用关系运算符?<>?D)使用两个double类型相减,然后取绝对值的方式进行[单选题]16.创建一个3x3的数组,下列代码中错误的是()。A)np.arange(0,9).reshape(3,3)B)np.eye(3)C)np.random.random([3,3,3])D)np.mat("123;456;789")[单选题]17.()是Google提出的用于处理海量数据的并行编程模式和大规模数据集的并行运算的软件架构。A)GFSB)MapReduceC)ChubbyD)BitTable[单选题]18.请选择计算231-1的Python表达式:A)power(2,31)-1B)2^31-1C)231-1D)2(31)-1[单选题]19.L表示模糊分类器的特征关键词,由T推导出模糊集F,以下哪个算法可以计算不同F之间的关联度?()A)SVMB)EWCC)SRD)EM[单选题]20.数据安全技术保护与信息系统"三同步"原则不包括以下哪项()。A)同步规划B)同步建设C)同步使用D)同步运维[单选题]21.数据科学领域常用的工具之一()语言是统计学家发明的语言。A)PythonB)RC)JAVAD)C[单选题]22.嵌入式选择是一种(__)算法。A)聚类B)特征选择C)分类D)回归[单选题]23.执行"abcdef"[-1:]语句时输出是()。A)aB)abcdeC)bcdefD)f[单选题]24.如果使用split分割字符串,返回的数据类型是A)listB)strC)intD)float[单选题]25.(__)试图对多个变量在给定观测值后的条件概率进行建模。A)马尔可夫随机场B)隐马尔可夫模型C)条件随机场D)逆误差传播[单选题]26.在HDFS中,NameNode的主要功能是什么?A)维护了blockid到datanode本地文件的映射关系B)存储文件内容C)文件内存保存在磁盘中D)存储元数据[单选题]27.在条件允许的前提下,()对数据安全进行审计,()进行一次全面审计。A)1年/3年B)1季度/1年C)1年/2年D)半年/1年[单选题]28.Yarn中设置队里queueA的最大使用资源量,需要配置哪个参数A)yarn.scheduler.capacity.root.Queueuser-limit-factorB)yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percentC)yarn.scheduler.capacity.root.QueueA.stateD)yarn.scheduler.capacity.root.QueueA.maxmum-capacity[单选题]29.用户Region和RegionServer之间的路由信息,保存在哪个模块中?A)MasterB)HDFSC)Meta表D)Zookeeper[单选题]30.以下关于大数据分析说法错误的是A)Python和R虽然都能用于数据分析,但它们相互独立,不能互相调用B)云计算为大数据分析提供了便利C)数据分析可以用于销售、营销、客户服务等企业应用中D)数据分析可以用于广告、教育、政府等特定行业应用中[单选题]31.彩色图像增强时,()处理可以采用RGBA)直方图均衡化B)同态滤波C)加权均值滤波D)中值滤波[单选题]32.下列不属于基于图像灰度分布的阈值分割方法的是()。A)类间最大距离法B)最大类间方差法C)Otsu方法D)区域生长法[单选题]33.HBase为什么适用于海量数据存储?A)支持列存表B)集群规模小C)HDFS做底层存储D)多列簇特性[单选题]34.在使用--query参数指定查询语句时,需要注意的是()A)在查询语句中一定要有where条件且在where条件中必须包含$CONDITIONSB)在查询语句中一定要有select语句且在select语句中必须包含$CONDITIONSC)在查询语句中一定要有where条件且在where条件中必须包含CONDITIONSD)在查询语句中一定要有select语句且在select语句中必须包含CONDITIONS[单选题]35.下面这段代码的作用是什么?try{Rsp=restC1ientlest.performRequest("HEAD","1?+indexparams);Lf(HttpStatus.Sc__OK==rsp.getStatusLine0.getStatusCode(){LOG.info("Checkindexsuccessful,indexisexist:"+index);returntrue:}Lf(Httpstatus.SC_NOT_FOUND==Rsp.getStatusLine(.getStatusCode(){LOG.info(indexisnotexist:"+index);returnfalse;)A)判断素引分片是否存在B)判断索引类型C)判断索引是否可用D)判断索引是否存在[单选题]36.下列关于Numpy的简单介绍不正确的是()。A)Numpy(NumericalPython)是Python语言的一个扩展程序库B)支持大量的维度数组与矩阵运算C)针对数组运算提供大量的数学函数库D)Numpy不开放源代码[单选题]37.下列表达式的值为True的是()A)5+4j>2-3jB)3>2==2C)e>5and4==fD)(x-6)>5[单选题]38.阅读下面Python代码,选择正确输出结果:()deffun():print("AA",end="")return"BB"print("CC"+fun(),end="")A)AABBCCB)AACCBBC)BBCCAAD)CCBBAA[单选题]39.HDFS中Namenode的主备仲裁,是由:()组件控制的。A)HDFSClientB)NodeManagerC)ResourceManagerD)ZooKeeperFailoverController[单选题]40.关于SecondaryNameNode的说法错误的是()A)main方法是SecondaryNameNode的入口,它启动线程执行runB)启动前的构造过程主要是创建和NameNode通信的接口和启动HTTP服务器C)run方法每隔一段时间执行doCheckpoint()D)main方法从NameNode上取下FSImage和日志,和本地合并再传回NameNode[单选题]41.词袋模型主要应用于?A)文档分类B)提取文章主题C)提取文章关键词D)统计词频[单选题]42.(__)是指在对数据进行正式计算之前,根据后续数据计算的需求对原始数据进行审计、清洗、变换、集成等一系列处理活动。A)数据加工B)数据预处理C)数据清洗D)数据挖掘[单选题]43.ADS中创建事实表(普通表)时会有一些限制,下列()说法是错误的。A)表的名字不能超过32个字符B)一个事实表最多不能超过1024列C)至少有一级Hash分区D)二级分区只能是Hash或List[单选题]44.HDFS中当前block大小为128M,如果当前要上传到HDFS中的文件大小为300M,那么在存储时会分配()个block进行存储。A)1B)2C)3D)4[单选题]45.下列说法错误的是?A)HadoopMapReduce是MapReduce的开源实现,后者比前者使用门槛低很多B)MapReduce采用非共享式架构,容错性好C)MapReduce主要用于批处理、实时、计算密集型应用D)MapReduce采用?分而治之?策略[单选题]46.()的系数没有封闭形式(closed-form)的解A)Ridge回归B)LassoC)Ridge回归和LassoD)以上答案都不丘确[单选题]47.构建一个最简单的线性回归模型需要()系数(只有一个特征)。A)1个B)2个C)3个D)4个[单选题]48.Spark中引入RDD概念的目的是()。A)数据存储B)数据查重C)提升容错能力D)增强数据一致性[单选题]49.Hive交互Shell指执行$HIVE_HOME/bin/hive之后,交互式命令行的提示符是()A)help>B)hive>C)user>D)cmd>[单选题]50.下面说法错误的是()A)可以利用统计量对缺失值进行填补B)可以利用K近邻值对缺失值进行填补C)只要有缺失值就必须把对应记录删除D)对于缺失值较多的属性可以考虑删除[单选题]51.在数据管理技术的发展过程中,经历了人工管理阶段、文件系统阶段和数据库系统阶段。在这几个阶段,数据独立性最高的是()阶段A)数据库系统B)文件系统C)人工管理D)数据项管理[单选题]52.以下选项对GES概念描述正确的是()。A)Edge:边,用于表示关系度B)EdgeLabel:边的标签,用于表示现实世界中的关系类型C)VertexLabel:节点的标签,用于表示现实世界中的实体类型D)vertex:节点/顶点,用于表示现实世界中的实体对象[单选题]53.某产品由甲乙两个工厂提供,甲工厂提供40%,乙工厂提供60%,甲工厂的次品率是1%,乙公司是2%,现在检测出一个次品,是甲工厂生产的概率是()A)0.1B)0.75C)0.45D)0.25[单选题]54.AUC是衡量()模型优劣的一种评价指标。A)回归B)分类C)二分类D)聚类第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.K-Means优点()A)简单易于理解B)时间复杂度低C)简单易于实现D)以上说法都不对[多选题]56.关于主键下列说法正确的是()A)可以是表中的一个字段,B)是确定数据库中的表的记录的唯一标识字段,C)该字段不可为空也不可以重复D)可以是表中的多个字段组成的。[多选题]57.下列关于交叉验证法描述正确的是(__)。A)交叉验证法先将数据集划分为k个大小相似的互斥子集B)交叉验证法将数据集划分成的k个子集应尽可能保持数据分布的一致性C)通常把交叉验证法称为k折交叉验证D)假定数据集D中包含m个样本,若令交叉验证法中的系数k=m,则得到了交叉验证法的一个特例:自助法[多选题]58.关于Excel数据库应用的描述正确的有()。A)是一个数据清单B)是按一定组织方式存储在一起的相关数据的集合C)是一个数组D)是程序化的电子表格[多选题]59.物联网在物流领域的应用,催生出了许多智能物流方面的应用,以下哪几项属于其在智能物流方面的应用A)智能海关B)智能邮政C)智能配送D)智能交通[多选题]60.传统关系数据库的优点包括A)数据一致性高B)数据冗余度低C)简单处理的效率高D)产品成熟度高[多选题]61.数据科学项目主要涉及的活动包括()。A)模式/模型的应用及维护B)模式/模型的洞见C)结果的可视化与文档化D)模式/模型的验证和优化[多选题]62.MRv1存在()方面的局限性A)扩展性B)可靠性C)资源利用率D)负载均衡[多选题]63.以下视图的定义中()可以使用ALTERVIEW修改。--A)视图名称B)视图算法C)定义视图的用户D)视图中各列的名称[多选题]64.根据《促进大数据发展行动纲要》(国发〔2015〕50号),以下()等信息库被列为大力推进的基础数据资源。A)人口基础信息库B)法人单位信息资源库C)自然资源和空间地理基础信息库D)宏观经济数据库[多选题]65.数据共享管理主要包括数据目录、数据共享需求清单、数据共享负面清单和数据归集管理。其中数据目录管理主要包括()体系。A)公司整体数据目录B)专业数据库表目录C)共享需求目录D)负面清单目录[多选题]66.关于表扫描算子的说法正确的是()?A)表的数目比较少的时候,使用Seqscan效率更高。B)SeqScan是指顺序扫描表的所有信息。C)SQL的执行计划第一步就是从表扫指算子开始的。D)对于点查或者范围扫描等过滤大量数据的查询,如果使用Seqscan全表扫描会比较快。[多选题]67.数据科学以数据尤其是大数据为研究对象,主要研究内容包括()。A)数据加工B)数据管理C)数据计算D)数据产品开发[多选题]68.Spark容错性的方式有哪些()。A)数据检查点B)存储原始数据C)记录数据的更新D)自建数据版本[多选题]69.云管理平台的作用包括()。A)将各种接口,工具和流程进行组合以提供定义的服务B)将软件和硬件进行组合C)自动化各种工作流程D)提供平台的监控,运维,扩展,计费等功能[多选题]70.数据管理包含的管理活动有()。A)识别B)度量C)监控D)预警[多选题]71.半结构化数据包括()。A)Excel表格B)HTMLC)检查身体后得到的体检报告D)银行账户上的消费记录[多选题]72.EDA(探索性数据分析)方法与传统统讨学的验证性分析方法的区别有()。A)EDA需要事先提出假设,而验证性分析不需要B)EDA中采用的方法往往比验证性分析简单C)在一般数据科学项目中,探索性分析在先,验证性分析在后中D)EDA更为简单、易学和易用[多选题]73.泛在电力物联网从结构上看,包括了():A)感知层B)网络层C)平台层D)应用层[多选题]74.CNN相比于全连接的DNN有哪些优势?()A)参数更少B)泛化更好C)训练更快D)更容易搭建[多选题]75.在ROC空间中,以(__)为横轴,以(__)为纵轴。A)TPrateB)FNrateC)FPrateD)TNrate[多选题]76.如何解决mapreduce中的数据倾斜问题()A)利用combiner提前进行reduce,把一个mapper中的相同key进行了聚合,减少shuffle过程中数据量,以及reduce端的计算量B)reducejoinC)增加reduce个数D)局部聚合加全局聚合。即进行两次mapreduce[多选题]77.寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示,这个过程包括了以下哪些步骤?()A)选择一个算法过程使评分函数最优B)决定如何量化和比较不同表示拟合数据的好坏C)决定要使用的表示的特征和结构D)决定用什么样的数据管理原则以高效地实现算法第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.不管输入什么,Python3A)正确B)错误[判断题]79.正则表达式'[^abc]'可以一个匹配任意除'a'、'b'、'c'之外的字符。A)正确B)错误[判断题]80.近24个月,人行?逾期及违约信息概要?存在呆账信息汇总笔数>0且余额>0的客户,一般情况,可通过贷记卡办理审批。A)正确B)错误[判断题]81.假设os模块已导入,那么列表推导式[filenameforfilenameinosA)正确B)错误[判断题]82.在噪声数据中,波动数据比离群点数据偏离整体水平更大。A)正确B)错误[判断题]83.HDFS采用的是?一次写入、多次读取''的文件访问模型。所以推荐一个文件经过创建、写入和关闭之后,就不要再去修改。A)正确B)错误[判断题]84.表达式'C:\\windows\\notepadA)正确B)错误[判断题]85.云计算平台具有创建、运行、迁移和删除运行在云平台上的虚拟机的超级权限,所以平台及管理员的权限控制是安全运行保障的重要内容。A)正确B)错误[判断题]86.文件对象的tell()方法用来返回文件指针的当前位置。A)正确B)错误[判断题]87.Hive默认不支持动态分区功能,需要手动设置动态分区参数开启功能。()A)正确B)错误[判断题]88.商品比价网站可以帮助人们购买决策,告诉消费者什么时候买什么产品最便宜,这利用的是大数据全样而非抽样的思维A)正确B)错误[判断题]89.Series和DataFrame是pandas包中的数据结构,Series像二维数组,DataFrame像表格A)正确B)错误[判断题]90.数据科学家应该学会数据科学的基础理论,尤其是其主要理念、原则、理论和方十法。()A)正确B)错误[判断题]91.机器学习可自动学习有用特征,深度学习需人工选取特征。A)正确B)错误[判断题]92.Hadoop默认调度器策略为FIFO,并支持多个Pool提交Job。()A)正确B)错误[判断题]93.Flume不支持多级联操作。A)正确B)错误第4部分:问答题,共4题,请在空白处填写正确答案。[问答题]94.停止hdfs的shell脚本为()[问答题]95.HDFS联邦机制下,各NameNode间元数据是不共享的A)TRUEB)FALSE[问答题]96.HFS的出现解决了需要在HDFS中存储大量的小文件答案:10MB以下。同时也要存储一些大文件答案:10MB以上的混合的场景A)TRUEB)FALSE[问答题]97.Hadoop-env.sh文件当下的位置?[单选题]98.Spark中Job的划分是依据()A)依赖B)Action算子C)Transformation算子[单选题]99.从已知事实出发,通过规则库求得结论的产生式系统的推理方式是()A)正向推理B)反向推理C)双向推理[单选题]100.下列关于极大似然估计的描述,错误的是()A)极大似然估计先假定其具有某种确定的概率分布形式B)极大似然估计没有确定的概率分布形式巳概率模型的训练过程就是参数估计C)贝叶斯学派认为参数本身也有分布,是未观察的随机变量1.答案:D解析:2.答案:A解析:3.答案:C解析:4.答案:D解析:5.答案:D解析:6.答案:C解析:7.答案:C解析:8.答案:C解析:preprocessing模块中函数normalize()提供了一个快速又简单的在一个单向量上来实现正则化功能的方式。9.答案:A解析:大数据环境下的隐私担忧,主要表现为人信息的被识别与暴露。10.答案:D解析:11.答案:C解析:12.答案:B解析:13.答案:C解析:14.答案:A解析:15.答案:D解析:16.答案:C解析:17.答案:B解析:18.答案:C解析:19.答案:C解析:20.答案:D解析:数据安全技术保护与信息系统包含同步规划、同步建设、同步使用三项原则。21.答案:B解析:22.答案:B解析:23.答案:D解析:24.答案:A解析:25.答案:C解析:26.答案:D解析:27.答案:A解析:28.答案:D解析:29.答案:C解析:30.答案:A解析:31.答案:C解析:32.答案:D解析:区域生长法是基于图像

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论