版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据开发基础大数据开发基础(习题卷54)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.大数据计算服务(MaxCompute,原ODPS)的tunnel命令行工具对上传的数据有格式上的要求,它支持()格式的数据。A)JSON文件B)xml文件C)xls文件D)csv文件答案:D解析:[单选题]2.DIKW金字塔模型中,顶层与底层的名称分别为()。A)智慧与数据B)知识与数据C)智慧与数值D)知识与数值答案:A解析:DIKW金字塔(DIKWPyramid)模型揭示了数据(Data)与信息(Information)、知识(Knowledge)、智慧(Wisdom)之间的区别与联系,自底向上分别为数据、信息、知识、智慧。[单选题]3.下列选项中,使用名称为cursor_student的游标,将查询出的信息存入s_name和s_gender,写法正确的是()。--A)FETCHcursor_studentTOs_name,s_gender;B)SETcursor_studentINTOs_name,s_gender;C)FETCHcursor_studentINTOs_name,s_gender;D)SETcursor_studentTOs_name,s_gender;答案:C解析:[单选题]4.下列哪一个不属于Hadoop的大数据层的功能?A)数据挖掘B)离线分析C)实时计算D)BI分析答案:C解析:[单选题]5.下列哪一项不属于大数据的应用?()A)电信行业:客户离网分析B)智能机器人C)零售行业:发现关联购买行为、进行客户群体细分D)推荐系统答案:B解析:[单选题]6.()试图学得一个属性的线性组合来进行预测的函数。A)决策树B)贝叶斯分类器C)神经网络D)线性模型答案:D解析:[单选题]7.下列哪条语句可以成功创建分桶表()A)createtablestudent_buck(idint,namestring,ageint)clusterby(id)sortby(id)into3buckets;B)createtablestudent_buck(idint,namestring,ageint)clusteredby(id)sortedby(id)into3buckets;C)createtablestudent_buck(idint,namestring,ageint)distributedby(id)sortedby(id)into3buckets;D)createtablestudent_buck(idint,namestring,ageint)distributeby(isortby(iinto3buckets;答案:B解析:[单选题]8.在一个基本的Hadoop集群中,SecondaryNameNode主要负责什么?A)帮助NameNode收集文件系统运行的状态信息B)负责执行由JobTracker指派的任务C)协调数据计算任务D)负责协调集群中的数据存储答案:A解析:[单选题]9.hadoop能可靠地存储和处理()字节数据。A)TBB)PBC)YBD)ZB答案:B解析:[单选题]10.通过(),激发和调动省、市、县和直属单位积极性,大胆探索、主动创新,不断累积叠加新业务、新业态、新模式。A)组织机构B)基层首创C)顶层设计D)信息模型答案:B解析:[单选题]11.在Hadoop生态系统的组件中()是可扩展可伸缩的工作流协调管理器。A)OozieB)FlumeC)SqoopD)Hue答案:A解析:[单选题]12.()可以为远程客户端提供执行Hive查询服务。A)MetastoreServerB)HiveServer2C)BeelineCLID)MySQL答案:B解析:[单选题]13.完全分布式,不需要修改的配置文件为()。A)core-site.xmlB)hdfs-site.xmlC)hadoop-env.shD)mapred-site.xml答案:C解析:[单选题]14.信息增益(),意味着使用属性进行划分所获得的纯度提升。A)越大B)越小C)不变D)无法确定答案:A解析:[单选题]15.()会发生权重共享A)卷积神经网络B)循环神经网络C)全连接神经网络D)选项A和B答案:D解析:[单选题]16.属于卷积神经网络应用方向的是()A)图像分类B)目标检测C)图像语义分割D)以上答案都正确答案:D解析:[单选题]17.下面不属于客户服务的有(__)。A)ravelB)medalliaC)gainsightD)frame.ai答案:A解析:[单选题]18.基本元数据是指()。A)基本元数据是与数据源、数据仓库、数据集市和应用程序等结构相关的信息B)基本元数据包括与企业相关的管理方面的数据和信息C)基本元数据包括日志文件和简历执行处理的时序调度信息D)基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息答案:D解析:基本元数据(Metadata)又称中介数据、中继数据,为描述数据的数据(dataaboutdata)。[单选题]19.关于FusionInsightHDStreaming客户端的Supervisor描述正确的是?A)Supervisor负责资源分配和资源调度B)Supervisor负责接管Nimbus分配的任务,启动和停止属于自己管理的worker进程C)Supervisor是运行具体处理逻辑的进程D)Supervisor是一个Topology中接收数据然后执行处理的组件答案:B解析:[单选题]20.假正率是指(__)。A)正样本预测结果数/正样本实际数B)被预测为负的正样本结果数/正样本实际数C)被预测为正的负样本结果数/负样本实际数D)负样本预测结果数/负样本实际数答案:C解析:[单选题]21.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A)统计方法B)邻近度C)密度D)机器学习技术答案:A解析:略。[单选题]22.下列哪一项关于极大似然估计(MLE)的说法是正确的?1.MLE并不总是存在2.MLE一直存在3.如果MLE存在,它可能不特异4.如果MLE存在,它一定是特异的A)1和4B)2和3C)1和3D)2和4答案:C解析:[单选题]23.使用SELECT语句随机地从表中挑出指定数量的行,可以使用的方法是()A)在LIMIT子句中使用RAND()函数指定行数,并用ORDERBY子句定义一个排序规则B)只要使用LIMIT子句定义指定的行数即可,不使用ORDERBY子句C)只要在ORDERBY子句中使用RAND()函数,不使用LIMIT子句D)在ORDERBY子句中使用RAND()函数,并用LIMIT子句定义行数答案:D解析:[单选题]24.关于图像放大处理,下列说法不正确的是A)从物理意义上讲,图像的放大是图像缩小的逆操作B)当放大的倍数比较大时,使用基于像素放大原理的图像放大方法会导致马赛克现象。C)对于因放大后的图像子块与子块之间的过渡因不平缓而导致画面效果不自然的问题,可以采用双线性插值方法可以用来解决。D)图像的放大不会引起图像的畸变。答案:D解析:[单选题]25.据资产应用()以为前提,按照?谁经手,谁使用,谁负责?的原则,落实安全与保密责任。A)来源明确B)冗余率低C)分类清晰D)安全可控答案:D解析:[单选题]26.探索性分析与验证性分析的不同点是()。A)探索性分析需要事先假设B)探索性分析比验证性分析复杂C)探索性分析在前D)验证性分析在前答案:C解析:验证性分析需要事先假设,因数据不同复杂程度也不同,探索性分析一般在前,为验证性分析提供参考。[单选题]27.关于MaxCompute用户和权限,说法正确的是:()。A)每一个项目空间在创建后,需要手工创建一个admin的角色,并且为该角色授予了确定的权限B)admin角色可以将admin权限指派给用户C)Admin可以设定项目空间的安全配置,但是不能修改项目空间的鉴权模型D)MaxCompute目前不支持在项目空间中彻底移除一个用户及其所有权限数据。答案:D解析:[单选题]28.HBase底层依赖于Hadoop环境,它们是基于()系统开发的A)windows7B)Unix/LinuxC)XPD)windows10答案:B解析:[单选题]29.随机森林中的随机是指(A)随便构建树模B)随机选择一个树模型C)随机选择多个树模型D)在构建每个树模型时随机选择样本和特征答案:D解析:[单选题]30.最小最大正规化也称为()A)非标准化B)标准化C)离差标准化D)以上说法都不对答案:C解析:[单选题]31.下面哪个工具可以从RDBMS将数据导入到HDFS()A)SqoopB)FlumeC)HDFSD)Hive答案:A解析:[单选题]32.ResultScanner把扫描操作转换为类似get的操作,它将每一行数据封装成一个()实例,并将所有实例放入一个迭代器中A)ColumnB)RowC)ResultD)Table答案:C解析:[单选题]33.以下关于数据仓库的叙述中,正确的是()A)数据仓库主要用于支持决策管理B)数据仓库的数据源相对比较单一C)存放在数据仓库中的数据一般是实时更新的D)数据仓库为企业的特定应用服务、强调处理的响应时间,数据的安全性和完整性等答案:A解析:[单选题]34.下列选项中优先级级别最高的是()。--A)~(按位取反)B)^C)&&D)&答案:A解析:[单选题]35.下列处理方法能获得像素级标注的是()。A)图像分类B)物体检测C)图像去噪D)语义分割答案:D解析:语义分割通过对每个像素进行密集的预测、推断标签来实现细粒度的推理,从而使每个像素都被标记为其封闭对象矿石区域的类别,因此能够获得像素级标注。[单选题]36.当在卷积神经网络中加人池化层(pool恒.glay,町)时,变换的不变性会被保留该说十法()正确A)不知道B)看情况C)是D)否答案:B解析:[单选题]37.若学习如何种瓜,在种瓜过程中不断摸索,从而总结出好的种瓜策略。这个过程抽象出来,就是(__)。A)机器学习B)深度学习C)强化学习D)有监督学习答案:C解析:[单选题]38.HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是A)一次写入,少次读写B)多次写入,少次读写C)一次写入,多次读写D)多次写入,多次读写答案:C解析:HDFS特性HDFS中存储的数据一次写入,多次读取(离线,统计分析),并且写入后不允许修改,所以Hadoop适用于处理离线数据,不适合处理实时数据[单选题]39.距离超平面最近的几个训练样本称为支持向量,两个异类支持向量到超平面的距离之和为()。A)间隔B)误差C)距离D)偏差答案:A解析:[单选题]40.()是Hadoop系统核心组件之一,主要解决海量数据的计算。A)HDFSB)MapReduceC)SparkD)HBase答案:B解析:[单选题]41.下列关于HBase数据模型叙述不正确的一项是()。A)表有单元格组成B)一个表可以包含若干个列族C)一个列族内可用列限定符来标志不同的列D)存于表中单元的数据尚需打上时间戳答案:A解析:[单选题]42.使用Pig语句实现内连接,下列语句正确的是()。A)SELECT*FROMtmp_tableAJOINtmp_table_2BONA.age=B.age;B)DUMPtmp_tableBYageJOINtmp_table_2BYage;C)tmp_table_join=JOINtmp_tableBYage,tmp_table_2BYage;DUMPtmp_table_join;D)JOINtmp_tableBYage,tmp_table_2BYage;答案:C解析:[单选题]43.阅读下面Python代码,选择正确输出结果:()foriinrange(5):ifi==3:continueprint(i,end="")continueprint(i,end="")A)012345B)01234C)200012D)0124答案:D解析:[单选题]44.某公司计划上线新系统,数据库工程师使用Hive数据仓库进行数据分析,现在界面提示:"o:jdbc:hive2://86:2181/>"信息,现已完成数据库的创建工作,那么他将如何继续开始数据库的使用?A)usedatabaseB)startdatabaseC)restartdatabaseD)continuedatabase答案:A解析:[单选题]45.在数据科学中,R的包通常从()下载。A)PIPB)CRANC)RstudioD)PyPI答案:B解析:[单选题]46.以下关于HDFS的特点描述不正确的是()。A)大数据量吞吐B)低延迟读取C)流式数据读取D)大文件存储与访问答案:B解析:[单选题]47.Hive可以将结构化的数据文件映射成(),并提供完整的SQL查询功能。A)数据库表B)表单C)视图D)二维表答案:A解析:[单选题]48.()不是Spark服务层的功能。A)SQL查询B)实时处理C)机器学习D)内存计算答案:D解析:Spark服务层主要提供面向特定类型的计算服务,如SQL查询、实时处理、机器学习以及图计算。[单选题]49.Combiner不适合哪一种操作?()A)最大值B)求和C)平均值D)计数答案:C解析:[单选题]50.执行以下代码段requested_toppings=['mushrooms','greenpeppers','extracheese']forrequested_toppinginrequested_toppings:ifrequested_topping=='greenpeppers':print("Sorry,weareoutofgreenpeppersrightnow.")else:print("Adding"+requested_topping+".")时,输出为()。A)Addingmushrooms.Addinggreenpeppers.Addingextracheese.B)Addingmushrooms.Sorry,weareoutofgreenpeppersrightnow.Addingextracheese.C)Addingmushrooms.Addingextracheese.Sorry,weareoutofgreenpeppersrightnow.D)Sorry,weareoutofgreenpeppersrightnow.Sorry,weareoutofgreenpeppersrightnow.Sorry,weareoutofgreenpeppersrightnow.答案:B解析:[单选题]51.以下()不是NoSQL数据库。A)MongoDBB)BigTableC)HBaseD)Access答案:D解析:[单选题]52.用二维表结构表达实体集的模型是()。A)层次模型B)网状模型C)关系模型D)概念模型答案:C解析:[单选题]53.下面描述错误的是:()A)数据分析可以分为广义的数据分析和狭义的数据分析B)广义的数据分析就包括狭义的数据分析和数据挖掘。C)数据挖掘就是指狭义的数据分析D)数据挖掘是指从大量的数据中挖掘出未知的、且有价值的信息和知识的过程答案:C解析:[单选题]54.以下关于ElasticSearch介绍错误的是?(A)Document文档,被素引的基本单位B)EsMaster主节点C)Index亲引,与关系型数据库中的索引概念一样D)EsNode:Elasticsearch节点,一个节点就是一个Elasticsearch实例答案:C解析:第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.利用大数据技术,贷后检查的方法包括()A)跟踪检查B)定期检查C)不定期检查D)上门检查答案:ABC解析:[多选题]56.非频繁模式()A)其支持皮小于闽值B)都是不让人感兴趣的C)包含负模式和负相关模式D)对异常数据项敏感答案:AD解析:[多选题]57.以下关于神经网络模型描述正确的是()A)神经网络模型是许多逻辑单元按照不同层级组织起来的网络,每一层的输出变量都是下一层的输入变量B)神经网络模型建立在多神经元,之上C)神经网络模型中,无中间层的神经元模型的计算可用来表示逻辑运算D)神经网络模型一定可以解决所有分类问题答案:ABC解析:[多选题]58.可以创建一个ndarray的是(__)。A)np.zeros(10)B)np.eye(10)C)np.ones(10)D)array(10)答案:ABC解析:[多选题]59.下列关于ROC曲线描述正确的是(__)。A)ROC曲线又叫等感受曲线B)ROC曲线离纯机遇线越远,表明被试的辨别力越强C)辨别力不同的被试的ROC曲线也不同。D)辨别力不同的被试的ROC曲线相同。答案:ABC解析:[多选题]60.FusionInsightManager可以对哪些项目进行健康检查A)主机B)服务C)角色D)实例答案:AB解析:[多选题]61.数据科学的(__)往往来自于统计学。A)理论B)方法C)技术D)工具答案:ABCD解析:[多选题]62.交易产品的类型主要包括哪几种:()A)APIB)数据包C)云服务D)解决方案答案:ABCD解析:[多选题]63.数据存储环节主要内容包括()。A)明确重要数据的安全存储与使用级别,对重要数据进行必要强度的加密存储B)强化重要数据备份措施C)加强重要数据存储审批D)禁止与互联网或其他公用网络相连的计算机、智能手机、平板电脑等终端设备存储、处理公司涉密数据答案:ABD解析:[多选题]64.Spark的技术架构可以分为哪几层?A)资源管理层B)Spark核心层C)应用层D)服务层答案:ABD解析:[多选题]65.下列关于MapReduce的体系结构的描述,说法正确的有?A)用户编写的MapReduce程序通过Client提交到JobTracker端B)JobTracker负责资源监控和作业调度C)TaskTracker监控所有TaskTracker与Job的健康状况D)TaskTracker使用?slot?等量划分本节点上的资源量(CPU、内存等)答案:ABD解析:[多选题]66.Hive支持的文件存储格式有()【选三项】A)ISO文件B)SEQUENCEFILEC)RCFILED)ORCFILE答案:BCD解析:[多选题]67.下列哪个属于大数据的应用领域?()A)智能医疗研发B)监控身体情况C)实时掌握交通状况D)金融交易答案:ABCD解析:[多选题]68.以下能力中,数据工程师需要具备的能力或素质是()。A)数据洞见B)数据的ETL操作C)数据的备份与恢复D)主数据管理及数据集成答案:BCD解析:[多选题]69.字符串的格式化可以使用A)%B)formatC)inputD)+答案:AB解析:[多选题]70.下列数据库管理系统中属于RDBMS的是()。A)OracleB)MySQLC)HbaseD)MongodDB答案:AB解析:[多选题]71.Flink计算时间不包含以下哪几种时间语义?A)DelayTime(延迟时间)B)StartTime(开始时间)C)ProcessingTime(处理)D)EventTime(事件时间)答案:AB解析:[多选题]72.下面关于单样本t检验的说法,错误的是()。A)当单样本t检验的自由度越来越大时,正态分布越来越趋向于t分布B)单样本t检验适用于样本量比较多(n>30)的情况C)t分布的不确定性比正态分布小,其原因是样本数量比较小D)单样本t检验通常也被叫作学生t检验答案:ABC解析:t检验,亦称studentt检验(Student'sttest),主要用于样本含量较小(例如n<30)。总体标准差σ未知的正态分布。1检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。[多选题]73.MapReduce分布式计算的主要特点有哪些A)每节点计算规模缩小B)各节点间计算能力相互依赖C)采用就近计算原则D)各节点分布进行并行计算答案:ACD解析:[多选题]74.下列关于聚集算子的说法正确的是()A)Hashagg性能最佳,一般聚集算子尽量都用HashaggB)通过设置enable-sort-off,可以关闭sort+GroupAggC)聚集算子需要所有聚集列都支持排序。D)当聚集缩减率较大时使用Hashagg答案:BD解析:[多选题]75.下面关于单样本Z检验的说法,正确的是()。A)在Python中,单样本Z检验可以使用scipy.statsttest_1samp()实现B)单样本Z检验适用于样本量较大的情况C)单样本Z检验假设要检验的统计量(近似)满足正态分布D)单样本Z检验常用于检验总体平均值是否等于某个常量答案:BCD解析:在Python中,单样本Z检验可以使用statsmodels.stats.weightstats.ztest实现。[多选题]76.HBase适用于下列哪些应用场景?A)图片数据存储B)银行交易系統C)消息中间件D)商品数据存储答案:ABD解析:[多选题]77.数据可视化是数据科学中重要的研究内容,以下说法正确的是()A)数据可视化处理结果的解读对用户知识水平要求较高B)数据可视化可以洞察统计分析无法发现的结构与细节C)Tableau起源于一种改变数据使用方式的新技术NewSQL语言D)可视分析学是以实现人机协同完成可视化任务为主要目的分析推理性学科答案:BD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.Formatdate转换器使用时可以不区分日期形式()A)正确B)错误答案:错解析:[判断题]79.大数据数据源只是单-的。A)正确B)错误答案:错解析:[判断题]80.已知ord('A')的值为65并且hex(65)的值为'0x41',那么表达式'\x41b'的值为'Ab'。A)正确B)错误答案:对解析:[判断题]81.文件对象的tell()方法用来返回文件指针的当前位置A)正确B)错误答案:对解析:[判断题]82.部署在客户的数据中心内,基于客户个性化而设计的云是混合云A)正确B)错误答案:错解析:[判断题]83.回归问题和分类问题都有可能发生过拟合。()A)正确B)错误答案:对解析:[判断题]84.函数内部定义的局部变量当函数调用结束后被自动删除。A)正确B)错误答案:对解析:[判断题]
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年农业合作社劳务合作合同模板4篇
- 2025年度船舶改装设计服务合同范本3篇
- 2025年度母婴护理与家居安全月嫂服务合同4篇
- 二零二五年度新能源材料名义合伙人合同4篇
- 2025年储煤场租赁与智能化仓储解决方案合同4篇
- 二零二五年度农药产品市场拓展销售合同4篇
- 二零二五年度木屑生物质复合材料承包协议4篇
- 二零二五美容院美容院美容院美容院美容产品售后服务合同2篇
- 二零二五年度医疗健康行业借款合同协议2篇
- 23-24年项目部安全管理人员安全培训考试题及答案审定
- 2021年全国高考物理真题试卷及解析(全国已卷)
- 拆迁评估机构选定方案
- 趣味知识问答100道
- 钢管竖向承载力表
- 2024年新北师大版八年级上册物理全册教学课件(新版教材)
- 人教版数学四年级下册核心素养目标全册教学设计
- JJG 692-2010无创自动测量血压计
- 三年级下册口算天天100题(A4打印版)
- 徐州市2023-2024学年八年级上学期期末地理试卷(含答案解析)
- CSSD职业暴露与防护
- 饮料对人体的危害1
评论
0/150
提交评论