大数据开发基础(习题卷72)_第1页
大数据开发基础(习题卷72)_第2页
大数据开发基础(习题卷72)_第3页
大数据开发基础(习题卷72)_第4页
大数据开发基础(习题卷72)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷72)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.坚持顶层设计和基层首创相结合,通过()对新兴业务进行初步规划,引导基层单位突出重点A)信息模型B)人工智能C)智慧物联D)顶层设计答案:D解析:[单选题]2.删除数据库表使用的是()A)DROPB)UPDATEC)DELETED)DELETED答案:A解析:[单选题]3.下列关于推荐系统的描述,哪一项是错误的?()A)推荐系统是大数据在互联网领域的典型应用B)推荐系统是自动联系用户和物品的一种工具C)推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售D)推荐系统分为基于物品的协同过滤和基于商家的协同过滤答案:D解析:[单选题]4.Gateway在ElasticSearch中的含义是?A)网关B)素引的存储方式C)rpc请求接D)索引快照的存储方式答案:D解析:[单选题]5.下列不属于决策树常见算法的是()A)ID3B)CARTC)C4.5D)FPGrowth答案:D解析:[单选题]6.@app.route的作用是()。A)程序代码的规范,没什么作用B)flask装饰器,返回本地网络测试地址C)返回127005000D)以上答案都不正确答案:B解析:@app.route是flask装饰器,调用后返回本地网络测试地址。[单选题]7.如果想给变量赋值,则使用()A)=B)C)>>D)==答案:A解析:[单选题]8.下列参数中调整后显示中文的是()。A)lines.linestyleB)lines.linewidthC)font.sans-serifD)axes.unicodeminus答案:C解析:[单选题]9.泛在电力物联网的建设目标,以下说法不正确的是()。A)对内实现?数据一个源、电网一张图、业务一条线?,?一网通办、全程透明?B)对外广泛连接内外部、上下游资源和需求,打造能源互联网生态圈C)适应社会形态、打造行业生态、培育新兴业态,支撑?三型两网?世界一流能源互联网企业建设D)贯彻落实公司?两会?精神答案:D解析:[单选题]10.HDFS的副本放置策略中,同一机架不同的服务器之间的距离是A)3B)2C)1D)4答案:B解析:[单选题]11.Hive适合()环境A)HiveB)提供实时查询功能C)适合应用在大量不可变数据的批处理作业D)Hive答案:C解析:[单选题]12.以下关于关系数据模型的论述正确的是()A)只能表示实体间的1:1联系B)只能表示实体间的1:n联系C)只能表示实体间的m:n联系D)可以表示实体间上述三种联系答案:D解析:[单选题]13.中国自主研发、发布的首个人工智能平台叫做A)九天B)移娃C)大云D)OneNet答案:A解析:[单选题]14.在FusionInsight产品中,关于创建Kafka的Topic,以下哪些描述是正确的?A)在创建Kafka的Topic时,必须设置Partition个数B)在创建Kafka的Topic时,必须设置Partition副本个数C)设置多副本可以增强Kafka服务的容灾能力D)以上全都正确答案:C解析:[单选题]15.Hive适合()环境A)Hive适合用于联机(online)事务处理B)提供实时查询功能C)适合应用在大量不可变数据的批处理作业D)Hive适合关系型数据环境答案:C解析:[单选题]16.()是用来解决海量大数据文件存储问题的,是目前应用最广泛的分布式文件系统。A)HDFSB)HBaseC)HIveD)Kafka答案:A解析:[单选题]17.一个MaxcomputeSQL中最多使用()窗口函数。A)不限制B)1个C)5个D)10个答案:C解析:[单选题]18.将属性缩放到一个指定的最大和最小值之间使用下列哪个函数()A)MeanScalerB)StandardScalerC)MinMaxScalerD)以上方法都不是答案:C解析:[单选题]19.那个选项不属于transformation操作?A)jionB)sortC)reduceByKeyD)reduce答案:D解析:[单选题]20.下面关于词袋模型说法错误的是?A)词袋模型即bagofwords(BOW)B)词袋模型是常用的文本表示方式C)词袋模型的词汇表采用字典顺序排列D)词袋模型可以得到文本的二进制编码表示答案:C解析:[单选题]21.下面()属于风险管理中的强数据。A)征信数据B)社保公积金数据C)税务工商数据D)以上都是答案:D解析:[单选题]22.根据数据管理计划,设计或选择具体方法实行计划中的工作内容,属于数据治理的哪一步()。A)计划B)执行C)检查D)改进答案:B解析:数据治理并不是一次性工作,而是一种循序渐进的过程,主要包含计划、执行、检查和改进等基本活动,即数据治理的PDCA模型,其中;①计划(Plan);数据管理方针和目标的确定,明确组织机构的数据管理的目的、边界和工作内容。②执行(Do);根据数据管理计划,设计或选择具体的方法、技术、工具等解决方案,实现计划中的工作内容。③检查(Check):定期检查执行效果,进行绩效评估,并发现存在问题与潜在风险。④改进(Action):根据检查结果中发现的问题与风险,进一步改进自己的数据管理工作。[单选题]23.以下()组件负责存储业务数据、执行数据查询任务以及向CN返回执行结果。A)GTMB)WLMC)CND)DN答案:D解析:[单选题]24.在集成学习中,对于数据型输出,最常见的结合策略是()A)平均法B)投票法C)学习法D)以上答案都正确答案:A解析:[单选题]25.ythonWeb开发方向的第三方库是A)DjangoB)scipyC)pandasD)requests答案:A解析:[单选题]26.下列代码中绘制散点图的是()。A)plt.scatter(x,y)B)plt.plot(x,y)C)plt.legend('upperleft)D)plt.xlabel(散点图")答案:A解析:[单选题]27.下列哪一种不属于BI工具数据集的数据字段类型?()A)文本B)数值C)日期D)整型答案:D解析:[单选题]28.下面组件哪个是负责日志收集的:()A)AmbariB)ZookeeperC)HDFSD)Flume答案:D解析:[单选题]29.下列表达式的值为True的是A)5+4j>2-3jB)3>2>2C)3>=3D)?abc?>xyz?答案:C解析:[单选题]30.下列语句打开文件的位置应该在()f=open('itheima.txt','w')A)C盘根目录下B)D盘根目录下C)Python安装目录下D)与源文件在相同的目录下答案:D解析:[单选题]31.HDFS是一个()结构。A)端到端B)主从C)分布式D)多对多答案:B解析:[单选题]32.假设我们有由三次多项式回归产生的数据(三次多项式完美契合数据),下列说法哪些是对的?1.简单线性回归有高偏差和低方差2.简单线性回归有低偏差和高方差3.三次多项式有低偏差和高方差4.三次多项式有低偏差和低方差A)1和4B)1和3C)2和3D)2和4答案:A解析:[单选题]33.下面关于自定义视图列的说法错误的是()。--A)自定义列名称的顺序与AS后SELECT字段列表的顺序一致B)自定义列名称的数量必须与SELECT字段列表的数量一致C)自定义列名称的视图在操作数据时只能使用自定义的列名称D)以上说法都不正确答案:D解析:[单选题]34.以下说法不正确的是()A)卷积神经网络主要用于目标识别、国像分割等方面B)循环神经网络主要用于处理序列数据C)长短时记忆神经网络主要用于处理序列数据D)长短时记忆神经网络是和循环神经网络完全不同的一种新型神经网络答案:D解析:[单选题]35.一幅灰度均匀分布的图像,其灰度范围在[0,255],则该图像的信息量为()。A)0B)6C)8D)255答案:C解析:[单选题]36.下列关于基本元数据描述正确的是()。A)基本元数据是与数据源、数据仓库、数据集市和应用程序等结构相关的信息B)基本元数据包括与企业相关的管理方面的数据和信息C)基本元数据包括日志文件和简历执行处理的时序调度信息D)基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息答案:D解析:基本元数据(Metadata)又称中介数据、中继数据,为描述数据的数据(dataaboutdata)。[单选题]37.下列大数据的特点中,()无助于推动网络安全治理模式的改进提升。A)扁平化B)个性化C)交互性D)隔绝性答案:D解析:[单选题]38.()通常与NameNode在一个节点启动。A)SecondaryNameNodeB)DataNodeC)TaskTrackerD)JobTracker答案:D解析:[单选题]39.如果想把一个字符串全部转为小写使用字符串方法A)countB)replaceC)lowerD)upper答案:C解析:[单选题]40.当()时,可以不考虑RDD序列化处理。A)完成成本比较高的操作后B)执行容易失败的操作之前C)RDD被重复使用D)实时性要求高答案:D解析:RDD的序列化处理主要在完成成本比较高的操作之后、执行容易失败的操作之前、当RDD被重复使用或者计算其代价很高时进行。[单选题]41.人工智能研究的一项基本内容是机器感知。以下列举中的()不属于机器感知的领域。A)使机器具有视觉、听觉、触觉、味觉、嗅觉等感知能力。B)让机器具有理解文字的能力。C)使机器具有能够获取新知识、学习新技巧的能力。D)使机器具有听懂人类语言的能力答案:C解析:[单选题]42.以下聚合函数中求数据总和的是()A)MAXB)SUMC)COUNTD)AVG答案:B解析:[单选题]43.如果对相同的数据进行逻辑回归,将花费更少的时间,并给出比较相似的精度(也可能不一样),怎么办?A)降低学习率,减少迭代次数B)降低学习率,增加迭代次数C)提高学习率,增加迭代次数D)增加学习率,减少迭代次数答案:D解析:[单选题]44.(__)试图学得一个线性模型以尽可能准确地预测实值输出标记。A)决策树B)线性回归C)贝叶斯分类器D)神经网络答案:B解析:[单选题]45.有N个样本,一般用于训练,一般用于测试若N增大,则训练误差和测试误差之间的差距会()A)增大B)减小C)无法确定D)无明显变化答案:B解析:[单选题]46.Spark的大数据处理平台是建立在同一抽象的()之上。A)HDFSB)HBaseC)RDDD)MR答案:C解析:[单选题]47.在Zookeeper维护的树形结构中,树中的节点被称为()。A)nodeB)blockC)cellD)znode答案:D解析:[单选题]48.例如数据库中有A表,包括学生,学科,成绩,序号四个字段,数据库结构为学生学科成绩序号张三语文601张三数学1002李四语文703李四数学804李四英语805上述哪一列可作为主键列()A)序号B)成绩C)学科D)学生答案:A解析:[单选题]49.()算法是分类算法。A)DBSCANB)C4.5C)K-meansD)EM答案:B解析:C4.5是分类算法;DBSCAN、K-means、EM是聚类算法。[单选题]50.HBase内部的.META.表包含所有用户()的列表。A)地址B)时间C)类别D)空间区域答案:D解析:[单选题]51.执行以下代码段时a=set('apple')b=set('orange')print(a&b)时,输出为()。A){'l','e','a','p'}B){'r','a','g','e','n','o'}C){'l','p','g','o','e','n','a','r'}D){'e','a'}答案:D解析:[单选题]52.查找表结构用以下哪一项()A)FINDB)SELETEC)ALTERD)DESC答案:D解析:[单选题]53.TF-IDF中的TF是指()。A)某个词在文档中出现的次数B)文章的总次数C)某个词在文档中出现的次数/文章的总次数D)以上都不对答案:C解析:词频(TermFrequency,TF)表示某个词出现的频率,也就是某个词在文档中出现的次数/文章的总次数。[单选题]54.情感分析技术可以应用于()A)股票市场分析B)互联网舆情分析与监控C)商品服务质量评估D)以上都是答案:D解析:第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.Kafka的架构包括哪些组件:()A)话题(Topic)B)生产者(Producer)C)服务代理(Broker)D)消费者(Consumer)答案:ABCD解析:[多选题]56.Flink中的计算时间包含以下哪几种?(A)DelayTimeB)ProcessingTimeC)EventTimeD)IngestionTime答案:BC解析:[多选题]57.以下()是MaxcomputeSQL的优点。A)相对于使用API或者SDK编程,MaxcomputeSQL的学习成本较低B)可将其他数据库中的SQL语句迁移到Maxcompute上来,无需修改或者重新开发C)提供了丰富的内置函数D)用户不需要了解分布式概念答案:ACD解析:[多选题]58.大数据在餐饮行业的应用主要包括:()A)大数据驱动的团购模式B)利用大数据为用户推荐消费内容C)利用大数据调整线下门店布局D)利用大数据控制店内人流量答案:ABCD解析:[多选题]59.视图一般不用于下列哪些语句()A)DELETEB)SELECTC)INSERTD)UPDATE答案:ACD解析:[多选题]60.重点开展?物理分布,逻辑统一?的新一代调度自动化系统试点建设,完成()等软件开发、功能测试A)支撑平台B)人机云终端C)核心应用功能D)核心场景答案:ABCD解析:[多选题]61.下列中属于MapReduce特征的有()。A)以主从结构的形式运行B)容错机制的复杂性C)任务备份机制的必要性D)数据存储位置固定答案:ABC解析:数据存储位置具有多样性,并非固定,所以D错。[多选题]62.对某个数据库进行筛选后,()。A)可以选出符合某些条件组合的记录B)不能选择出符合条件组合的记录C)可以选出符合某些条件的记录D)只能选择出符合某一条件的记录答案:AC解析:[多选题]63.Flink的兼容性体现在以下哪些方面?A)YARN能够作为F1ink集群的资源调度管理器B)能够与Hadoop原有的Mappers和Reducers混合使用C)能够使用Hadoop的格式化输入和输出口D)能够从本地获取数据答案:ABCD解析:[多选题]64.智能物流具有哪儿个方面的重要作用:()A)提高物流的信息化和智能化水平B)降低物流成本和提高物流效率C)提高物流活动的一体化D)提高了物流的复杂性答案:ABC解析:[多选题]65.与全连接的DNN,CNN的优势有()。A)参数更少B)泛化更好C)训练更快D)更容易搭建答案:ABC解析:DNN直接对数据做加权线性连接,CNN则是移动卷积核,并对图像中的各区域做卷积操作。因此,DNN更容易搭建,D错误。[多选题]66.某开发小组可以利用ElasticSearch实现下列哪些功能?A)开发交易系统B)查询咬易凭证C)查询客户信用记录D)自动化评估贷款额度答案:BC解析:[多选题]67.基于核的机器学习算法有()。A)最大期望算法B)径向基核函数C)线性判别分析法D)支持向量机答案:BCD解析:[多选题]68.自定义计数器有三部分组成分别是()。A)分组名B)时间C)计数器名D)计数器的值答案:ACD解析:[多选题]69.某大数据运维人员需要将部分数据导入Hive数据表中,以下哪些做法是可取的?A)将数据导入到FTP服务器中,通过创建外表的方式导入到Hive表中。B)将数据导入到集群服务器上,通过loaddatalocal命令导入到Hive表中。C)将数据导入到HDFS文件系统中,通过loaddata命令导入到Hive表中。D)将数据导入到本地电脑中,然后使用loaddatalocal命令导入到Hive表中。答案:AC解析:[多选题]70.词袋模型的局限性表现在()。A)需要仔细考虑词汇表的构建B)信息检索C)向量的稀疏问题D)没有考虑到语序答案:ACD解析:[多选题]71.智蕙医疗具有哪些优点:()A)促进优质医疗资源的共享B)避免患者重复检査C)促进医疗智能化D)有助于实现全民免费医疗答案:ABCD解析:[多选题]72.-般在什么时候会采用数据分区?A)需要执行大量的热点数据查询作的时候B)需要执行大量的数据删除撰作的时候C)当表中数据量比较多(千万级别以上)的时候D)需要执行大量的数据更新提作的时候答案:ABCD解析:[多选题]73.某集团公司总经理在向全体员工总结公司本年度业绩、来年工作展望时,希望以一个图表清晰地展示出公司本年度五个业绩指标的结果,这五个业绩指标是:市场占有率、净利润增长率、营业额增长率、产品不良率、人才流失率,他可以选择的图表有()A)柱形图B)地图C)仪表图D)雷达图答案:AD解析:[多选题]74.()这些数据特性都是对聚类分析具有很强影响的A)高维性B)规模C)稀疏性D)噪声和离群点答案:ABCD解析:[多选题]75.特征向量的缺失值处理:缺失值较多,直接将该特征舍弃掉,否则可能反倒会带入较大的noise,对结果造成不良影响;缺失值较少,其余的特征缺失值都在10%以内,我们可以采取的处理方式有()。A)把NaN直接作为一个特征,假设用0表示B)用均值填充C)用随机森林等算法预测填充D)以上答案都不正确答案:ABC解析:缺失值较少的处理方法;①把NAN直接作为一个特征,假设用0表示;②用均值填充;③用随机森林等算法预测填充;④用插值法填充。[多选题]76.关于HBase组件的描述,下列哪几项是正确的?A)是一种NoSQL数据B)存储数据是以K-V的开形式C)是分布式的D)是面向列的答案:ABCD解析:[多选题]77.获取当前登录服务器的主机地址及用户名使用()函数。--A)USER()B)SYSTEM_USER()C)SESSION_USER()D)CURRENT_USER()答案:ABCD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.Redis默认支持14个数据库。A)正确B)错误答案:错解析:[判断题]79.如果被审计单位的内部控制不健全,审计人员则应扩大抽取的样本量。A)正确B)错误答案:对解析:[判断题]80.rjust()方法用于将字符串的字符以右对齐方式进行显示。()A)正确B)错误答案:对解析:[判断题]81.Sqoop是一款开源的工具,主要用于在Hadoop与传统的数据库间进行数据的传递,例如可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。A)正确B)错误答案:对解析:[判断题]82.预剪枝决策树其训练时间开销比后剪枝决策树要大得多。()A)正确B)错误答案:错解析:[判断题]83.奥巴马认为,对大数据的占有与控制,反映的是一个国家的核心能力之大小。因此,他已经将大数据上升到国家战略高度。A)正确B)错误答案:对解析:[判断题]84.Python中,元组是一个不可变的列表。A)正确B)错误答案:对解析:[判断题]85.删除列表中重复元素最简单的方法是将其转换为集合后再重新转换为列表。A)正确B)错误答案:对解析:[判断题]86.CSV文件数据库的转存文件就是CSV格式的,文件中的各个字段对应于数据库表中的行。A)正确B)错误答案:错解析:[判断题]87.drop_duplicated()方法可以删除重复值。()A)正确B)错误答案:对解析:[判断题]88.云计算是信息技术发展和集成应用到新阶段产生的新技术。A)正确B)错误答案:对解析:[判断题]89.在智慧医疗方面,通过大数据,可以提高医疗质量,做好医疗监控。A)正确B)错误答案:对解析:[判断题]90.Hive在load时不检索数据是否符合schema的,hive遵循的是schemaonread,只有在读时模式的时候才会检查hive的数据字段。A)正确B)错误答案:对解析:[判断题]91.HLog日志保证了用户写入的数据不丢失。A)正确B)错误答案:对解析:[判断题]92.建立自动增长的字段必须是主键。--A)正确B)错误答案:错解析:[判断题]93.Linux云主机仅支持通过用户名、密码方式登录

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论