大数据开发基础(习题卷69)_第1页
大数据开发基础(习题卷69)_第2页
大数据开发基础(习题卷69)_第3页
大数据开发基础(习题卷69)_第4页
大数据开发基础(习题卷69)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷69)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.执行以下代码段alien_1={'color':'green','points':5}alien_2={'color':'blue','points':1}print(alien_1<alien_2)时,输出为()。A)TrueB)FalseC)ErrorD)None答案:C解析:[单选题]2.tensorflow中的tf.nn.max_pool()函数中的padding参数,作用是()。A)池化方法B)是否要在边缘补零C)是否要排序D)该层的名称答案:B解析:[单选题]3.下列有关Hive建表语句写法正确的是()。A)NEWTABLEemployees(empIDINT,nameSTRING);B)CREATETABLEemployees(empIDINT,nameSTRING);C)NEWTABLEemployees(INTempID,STRINGname);D)CREATETABLEemployees(INTempID,STRINGname);答案:B解析:[单选题]4.下列说法中:①R-Squared和AdjustedR-squared都是递增的;②R-Squared是常量的,AdjustedR-squared是递增的;③R-Squared是递减的,AdjustedR-squared也是递减的;④R-Squared是递减的,AdjustedR-squared是递增的。对于线性回归模型,包括附加变量在内,可能正确的是()。A)①②B)①③C)②④D)以上都不是答案:D解析:R-squared不能决定系数估计和预测偏差。每次在模型中加入预测器,R-squared递增或不变。[单选题]5.以下方法中,更适用于处理序列数据的有()。A)卷积神经网络B)全连接神经网络C)BP神经网络D)循环神经网络答案:D解析:[单选题]6.以下不属于OLTP的特点的是()A)实时性要求低B)数据量不是很大C)交易一般是确定的D)支持大量并答案:A解析:[单选题]7.采用模板[-11]主要检测()方向的边缘。A)水平B)45°C)垂直D)135°答案:C解析:[单选题]8.matpltlib中绘制图形,通过更改绘图框的尺寸来设置相等的缩放比例的参数是()。A)scaledB)equalC)autoD)normal答案:A解析:[单选题]9.下列选项中无法通过大数据技术实现的是?A)商业模式发现B)信用评估C)商品推荐D)运营分析答案:A解析:[单选题]10.已知一个数据集,n为特征数,m为训练样本数,如果n较小,而且m大小中等(例如n为1-1000,而m为10-10000),则一般选择()A)逻辑回归模型B)不带桔的支持向量机C)高斯拉的支持向量机D)多项式桔的支持向量机答案:C解析:[单选题]11.大数据基于云计算进行数据的分析,那么云计算按照提供的服务类型进行分类,包括IaaS、PaaS、()A)XenB)SaaSC)KVMD)Docker答案:B解析:[单选题]12.执行以下代码段f=Noneforiinrange(5):withopen("data.txt","w")asf:ifi>2:breakprint(f.closed)时,输出为()。A)TrueB)FalseC)NoneD)Error答案:A解析:[单选题]13.在图像识别中,(__)是重中之重。A)人脸识别B)物品识别C)色彩识别D)轮廓识别答案:D解析:[单选题]14.一般来说,以下哪项不是大数据应用开发必备的能力?A)理解相关业务背景B)熟悉LinuxShell命令C)具备JAVA/Scalla编程能力,熟悉SQLD)掌握机房硬件运维技巧答案:D解析:[单选题]15.以下变量名合法的是?A)_numB)count$C)1_messageD)int答案:A解析:[单选题]16.在情感分析任务中,其目的是将无结构化的情感文本转化成计算机容易识别和处理的结构化文本,进而供情感分析上层的研究和应用服务的是()。A)情感信息检索B)情感信息抽取C)情感信息分类D)情感信息归纳答案:B解析:情感分析上层的研究和应用主要是为情感信息抽取。[单选题]17.Hadoop系统中YARN资源的抽象是用:()表示。A)内存B)CPUC)ContainerD)磁盘空间答案:C解析:[单选题]18.下列()不属于连接种类A)左外连接B)内连接C)中间连接D)交叉连接答案:C解析:[单选题]19.Hive将表中的数据保存到文本,并使用命令插入到employee表中的命令正确是()A)loadlocalinpath'/opt/data/test.txt'overwriteintotableemployee;B)loaddatainpath'/opt/data/test.txt'overwriteintotableemployee;C)loaddatalocalinpath'/opt/data/test.txt'intotableemployee;D)loaddatalocalinpath'/opt/data/test.txt'overwriteintotableemployee;答案:D解析:[单选题]20.关于数据分析,下列说法正确的是()。A)描述性分析和预测性分析是诊断性分析的基础B)诊断性分析是对规范性分析的进一步理解C)预测性分析是规范性分析的基础D)规范性分析是数据分析的最高阶段,可以直接产生产业价值答案:C解析:[单选题]21.以下关于异常处理try语句块的说法,不正确的是。()A)finally语句中的代码段始终要被执行B)一个try块后接一个或多个except块C)一个try语句块后接一个或多个finally块D)try块必须与except或finally块一起用答案:C解析:[单选题]22.以下不属于影响聚类算法结果的主要因素有A)已知类别的样本质量B)分类准则C)特征选取D)模式相似性测度答案:A解析:[单选题]23.令N为数据集的大小[注:设训练样本(xi,yi),N即训练样本个数],d是输入空间的维数(注:d即向量xi的维数)。则硬间隔SVM问题的原始形式[即在不等式约束[y(wTx+b)≥1]下最小化(1/2)wTw]在没有转化为拉格朗日对偶问题之前是()。A)一个含N个变量的二次规划问题B)一个含N+1个变量的二次规划问题C)一个含d个变量的二次规划问题D)一个含d+1个变量的二次规划问题答案:D解析:欲找到具有最大间隔的划分超平面,也就是要找到能满足题中不等式约束的参数W和B,是一个含d+1个变量的二次规划问题。[单选题]24.下列关于MapReduce说法不正确的是()。A)MapReduce是一种计算框架B)MapReduce来源于google的学术论文C)MapReduce程序只能用java语言编写D)MapReduce隐藏了并行计算的细节,方便使用答案:C解析:[单选题]25.数据仓库的最终目的是()。A)收集业务需求B)建立数据仓库逻辑模型C)开发数据仓库的应用分析D)为用户和业务部门提供决策支持答案:D解析:数据仓库的最终目的是为用户和业务部门提供决策支持。[单选题]26.已知两个同类企业职工平均工资的标准差分别为:甲=5元,乙=6元,则两个企业职工平均工工资的代表性是A)甲大于乙B)乙大于甲C)一样大D)无法判断答案:D解析:标准差的比较要在均值相等的情况下才有意义。[单选题]27.np.full_like()的作用是(__)。A)创建形状一样但指定数值的矩阵B)创建全1矩阵C)创建对角矩阵D)复制矩阵答案:A解析:[单选题]28.一切事物及事物运动的状态,不仅包括销售数据、价格数据可以形成大数据,甚至连顾客情绪(如色彩.空间的感知等)都可以测得,这体现了大数据思维维度中的()A)定量思维B)相关思维C)因果思维D)实验思维答案:A解析:[单选题]29.关于MapReduce的描述错误的是()A)MapReduce框架会先排序map任务的输出B)通常,作业的输入输出都会被存储在文件系统中C)通常计算节点和存储节点是同一节点D)一个Task通常会把输入集切分成若干独立的数据块答案:D解析:一个Map/Reduce作业(job)通常会把输入集切分成若干独立的数据块,而不是Task[单选题]30.云主机管理的资源,不包括()A)vCPUB)内存C)显示器D)存储答案:C解析:[单选题]31.Hadoop2.7.1下,以下哪一项是DataNode的职责?()A)管理文件系统命名空间B)根据客户端的请求执行读写操作C)存储元数据D)定期对NameNode中的内存元数据进行更新和备份答案:B解析:[单选题]32.在SELECT字段列表中为会话变量赋值用()符号。--A)+=B)==C):=D)@=答案:C解析:[单选题]33.下列关于存储过程中的变量说法正确的是()?A)声明变量时需要指定变量的初始值。B)变量的作用域是全局。C)变量必须先声明后使用.D)声明变量时需要指定变量的数据类型。答案:C解析:[单选题]34.下列关于大数据的分析理念的说法中,错误的是()。A)在数据基础上倾向于全体数据而不是抽样数据B)在分析方法上更注重相关分析而不是因果分析C)在分析效果上更追求效率而不是绝对精确D)在数据规模上强调相对数据而不是绝对数据答案:D解析:在大数据的分析理念中,数据规模上强调绝对数据而不是相对数据。[单选题]35.下列代码的运行结果是()。print('a'<'b'<'c')A)aB)bC)0D)1答案:D解析:[单选题]36.各业务部门、各单位要按照《国家电网公司保护商业秘密规定》要求,结合本专业大数据应用以及专业领域需要重点保护的数据,认真分析梳理重要数据,其工作内容不包括()。A)明确保护对象B)建立数据资源目录C)考虑和识别海量大数据在挖掘、计算、分析后的重要性和保护要求D)确保足够的存储空间答案:D解析:[单选题]37.Elasticsearch采用的搜索方式是()。A)正排素引B)倒排素引C)慢素引D)快速索引答案:B解析:[单选题]38.HBase的主HMaster是如何选举的?A)由RegionServer进行裁决B)HMaster为双主模式,不需要进行裁决C)通过ZooKeeper进行裁决D)随机选举答案:C解析:[单选题]39.Flink哪种机制可以保证task运行失败时,其状态能够恢复?A)窗口B)事件时间C)检查点D)有状态处理答案:C解析:[单选题]40.假设在庞大的数据集上使用Logistic回归模型,可能遇到一个问题,Logistic回归需要很长时间才能训练,如果对相同的数据进行逻辑回归,则花费更少的时间,并给出比较相似的精度的方法是()。A)降低学习率,减少选代次数B)降低学习率,增加迭代次数C)提高学习率,增加迭代次数D)增加学习率,减少迭代次数答案:D解析:如果在训练时减少选代次数,就能花费更少的时间获得相同的精度,但需要增加学习率。[单选题]41.使用梯度下降算法的步骤是什么?(___)_x000b_1.计算实际值与预测值之间的误差_x000b_2.重申,直到你找到最好的网络权重_x000b_3.通过网络传递输入并从输出层获取值_x000b_4.初始化随机权重和偏差_x000b_5.通过梯度下降loss函数计算方法更新权重和偏差A)4,3,1,5,2B)4,5,3,2,1C)4,2,1,5,3D)4,3,2,5,1答案:A解析:[单选题]42.Hadoop的特性不包括()。A)高可靠性B)高效性C)高可扩展性D)低容错性答案:D解析:[单选题]43.聚合函数COUNT用于()A)计算元组个数B)计算属性的个数C)对一列中的非空值计算个数D)对一列中非空值和空值计算个数答案:C解析:[单选题]44.执行以下代码段list1=[0.5*xforxinrange(0,4)]print(sum(list1))时,输出为()。A)0B)1.5C)2D)3答案:D解析:[单选题]45.围绕()大领域开展泛在电力物联建设任务A)五B)六C)四D)八答案:B解析:[单选题]46.关于GaussDB200的逻辑架构,下列说法正确的是A)DN是实际数据节点,所以只负责存储数据。B)CN是协调节点,协助CM管理整个集群。C)CM是集群的管理模块,那么负责集群的日常管理和运维。D)GTM是全局事务控制器,负责生成和维护全局事务ID等全局唯一信息。答案:D解析:[单选题]47.()不是Scipy库中的模块。A)clusterB)randomC)signalD)misc答案:B解析:cluster、signal、misc都是Scipy库中的模块,random是Numpy中的模块,Python本身也带有random库。[单选题]48.关于?与/或?图表示法的叙述中,正确的是:()。A)?与/或?图就是用?AND?与?OR?连续各个部分的图形,用来描述各部分的因果关系。B)?与/或?图就是用?AND?与?OR?连续各个部分的图形,用来描述各部分之间的不确定关系。C)?与/或?图就是用?与?节点与?或?节点组合起来的树形图,用来描述某类问题的层次关系。D)?与/或?图就是用?与?节点与?或?节点组合起来的树形图,用来描述某类问题的求解过程。答案:D解析:[单选题]49.y=10whiley:y-=1print(y)请问输出的y是多少()A)-1B)1C)0D)while构成无限循环答案:C解析:[单选题]50.大数据最显著的特征是:()。A)数据规模大B)数据类型多样C)数据处理速度快D)数据价值密度高答案:A解析:[单选题]51.下列哪个语句在Python中是非法的?A)x=y=z=1B)x=(y=z+1)C)x,y=y,xD)x+=y答案:B解析:[单选题]52.实现One-Hot编码可以用Pandas中()函数。A)groupby()B)merge()C)get_dummies()D)fillna()答案:C解析:get_dummies()生成哑变量,与One-Hot编码一致。[单选题]53.以下不是NoSQL常用数据模型的是()A)Key-ValueB)Key-ColumC)图存储D)关系数据模型答案:D解析:[单选题]54.有关Hadoop的陈述哪个是错误的()A)它运行在通用硬件上B)它是Apache软件基金会(ASF)下的项目C)它是最好的实时流式数据处理框架D)Hadoop对数据的处理是有延迟的答案:C解析:第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.大数据安全表现出与传统数据安全不同的特征,具体来说包括哪几个方面:A)大数据成为冋络攻击的显著目标B)大数据加大隐私泄露风险C)大数据技术被应用到攻击手段中D)大数据成为高级可持续攻击(APT)的载体答案:ABCD解析:[多选题]56.数据挖掘的预测建模任务主要包括哪几大类问题?:()A)分类B)回归C)模式发现D)模式匹配答案:AB解析:[多选题]57.下列属于文本处理流程的有()。A)normalizationB)tokenizationstopwordsC)part-of-speechtaggingD)namedentityrecognition答案:ABCD解析:文本处理的流程为正则化(normalization)、引入停止词(tokenizationstopwords)、词性标注(part-of-speechtagging)、命名实体识别(namedentityrecognition)。[多选题]58.2019年是泛在电力物联网建设?三年攻坚?战略突破期的开局之年,总体目标是完成2019-2021三年的()A)规划编制B)预层设计C)建设任务D)保障措施答案:ABCD解析:[多选题]59.饼图是用来展示每个分组相对总值的占比大小分布情况。饼图可根据()展示每个分组相对总值的占比大A)横纵轴B)半径C)颜色D)角度答案:ABD解析:[多选题]60.对于MapReduce而言,其处理单位是split。split是一个逻辑概念,它包含哪些元数据信息?A)数据起始位置B)数据长度C)数据所在节点D)数据大小答案:AB解析:[多选题]61.关于GaussDB200的约束,说法正确的是(?A)唯一约束是指字段的值唯一,行列表都支持。B)PCK也是一种约束,行列都支持。C)NULL约束也是一种约束,行列表都支持。D)主键约束是指主键的值是唯一的,只支持行存表。答案:ACD解析:[多选题]62.以下哪些选项是ElasticSearch主节点EsMaster功能?A)参与文档数据变更B)参与文档数据搜索C)参与新建索引D)参与删除素引答案:CD解析:[多选题]63.Spark组件包含哪两个算子()。A)MapB)ActionC)TransformationD)Reduce答案:BC解析:Spark针对RDD提供了多种基础操作,可以大致分为Action和Transformation两种。[多选题]64.在Hive架构中支持对数据的操作有()。A)插入B)查询C)删除D)分析答案:BD解析:Hive提供简单的HiveOL查询功能,可以较好地满足基于数据仓库的统计分析需要。[多选题]65.下列关于聚类法方法描述正确的是(__)。A)k均值算法属于原型聚类B)学习向量化算法试图找到一组原型向量来刻画聚类结构C)高斯混合聚类采用概念模型来表达聚类原型D)学习向量化算法属于层次聚类答案:AB解析:[多选题]66.Maxcompute的某个带有Join的SQL运行效率很低,可以采取以下()措施来检验或者改善。A)检查连接键是否存在数据倾斜B)检查是否有多对多连接C)如小表关联大表,可以考虑使用mapjoin优化D)检查是否有笛卡尔积答案:AC解析:[多选题]67.以下选项对GraphBase概念描述正确的是?A)VertexLabe1:节点的标签,用于表示现实世界中的实体类型B)Edge:边,用于表示关系度C)Vertex:节点/顶点,用于表示现实世界中的实体对象D)EdgeLabel.边的标签,用于表示现实世界中的关系类型答案:ACD解析:[多选题]68.HDFS只设置唯一一个名称节点,这样做虽然大大简化了系统设计,但也带来了哪些明显的局限性?A)命名空间的限制B)性能的瓶颈C)隔离问题D)集群的可用性答案:ABCD解析:[多选题]69.管理非结构化数据常采用()。A)NoSQLB)NewSQLC)关系云技术D)关系数据库技术答案:ABC解析:[多选题]70.Spark比MapReduce计算快的原因有()。A)基于内存的计算B)基于DAG的调度框架C)基于Lineage的容错机制D)基于分布式计算的框架答案:ABC解析:Spark比MapReduce计算快的原因包括基于内存计算、使用基于Lineage的容错机制和基于DAG的调度框架。[多选题]71.Spark应用的计算逻辑会被解析成DAG,这个解析操作由以下哪个功能模块完成()A)ClientB)ApplicationMasterC)ExecutorD)Driver答案:CD解析:[多选题]72.以下关于Flink与其它组件交互说法正确的是?A)Flink任务的运行依赖Yarn来进行资源的调度管理B)Flink的checkpoint的实现依赖于ZookeeperC)Flink可以将接收的组件发送给KafkaD)Flink在HDFS文件系统中读写数据答案:ABCD解析:[多选题]73.业务部门制定跨专业数据资产应用和大数据应用需求,按照(),编制项目说明书和可行性研究报告,经评审后纳入数据资产应月项目储备库。A)应用目的B)应用意义C)预期成果D)所需数据资产范围答案:ABCD解析:[多选题]74.下列关于降维说法正确的有()。A)PA是根据方差这一属性降维的B)降维可以防止模型过拟合C)降维降低了数据集特征的维度D)降维方法有PLA等答案:ACD解析:降维不能用于防止模型过拟合。[多选题]75.所谓大数据技术融合主要指哪些方面?A)计算融合B)数据融合C)批-流融合D)算力融合答案:ABCD解析:[多选题]76.Hadoop的优点包括()。A)可靠的B)高效的C)可伸缩的D)低成本答案:ABCD解析:Hadoop的优点包括可靠性、高效性、可伸缩性和成本低。[多选题]77.基于Python语言的数据分析中常用于数据可视化的第三方包是()。A)NumpyB)MatplotlibC)PandasD)Seaborn答案:BCD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.Combiner组件可以让Map对Key进行分区,从而可以根据不同的key分发到不同的Reduce中去处理。A)正确B)错误答案:错解析:Partitioner组件可以让Map对Key进行分区,从而可以根据不同的key分发到不同的Reduce中去处理,其目的就是将key均匀分布在ReduceTask上[判断题]79.阶跃函数与sigmoid函数均为典型激活函数。()A)正确B)错误答案:对解析:[判断题]80.分区数量是ReduceTask的数量。()A)正确B)错误答案:对解析:[判断题]81.()所有TIMESTAMP列在插入NULL值时,自动填充为当前日期和时间。A)正确B)错误答案:对解析:[判断题]82.正则表达式元字符?\d?用来匹配任意数字字符。A)正确B)错误答案:对解析:[判断题]83.Python元组支持双向索引。A)正确B)错误答案:对解析:[判断题]84.Flume可以在系统中定制各类数据发送方,用于数据收集,同时提供简单的数据处理,并将简单处理的数据写入各种数据接收方,如文本、HDFS、Kafka和HBase。A)正确B)错误答案:对解析:[判断题]85.实时检索部署不仅支持双平面组网,也支持单平面组网。A)正确B)错误答案:对解析:[判断题]86.在LogisticRegression

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论