大数据开发基础(习题卷55)_第1页
大数据开发基础(习题卷55)_第2页
大数据开发基础(习题卷55)_第3页
大数据开发基础(习题卷55)_第4页
大数据开发基础(习题卷55)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷55)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.网站个性化推荐的背后,可以使用哪些类型的数据实现?A)无结构化B)非结构化C)结构化D)半结构化答案:C解析:[单选题]2.HDFS上block默认保存几份?A)1B)2C)3D)4答案:C解析:[单选题]3.Hive在处理数据时,默认的行分隔符是()A)\tB)\nC)\bD)\a答案:B解析:[单选题]4.在HBase的附加过滤器中,全匹配过滤器是()A)SkipFilterB)WhileMatchFilterC)ColumnPrefixFilterD)RandomRowFilter答案:B解析:[单选题]5.英文如何分词?A)利用空格对句子分词B)利用逗号分词C)根据英文短语分词D)根据词性分词答案:A解析:[单选题]6.利用JavaAPI往HDFS中上传文件,使用的方法为()A)copyFromLocalB)copyToLocalC)copyFromLocalFileD)copyToLocalFile答案:C解析:[单选题]7.在图集合中发现一组公共子结构,这样的任务称为()A)频繁子集挖掘B)频繁于圈挖掘C)频繁数据项挖掘D)频繁模式挖掘答案:B解析:[单选题]8.下列关于Spark的描述,错误的是哪一项?A)使用DAG执行引擎以支持循环数据流与内存计算析B)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于AmazonEC2等云环境中C)支持使用Scala、Java、Python和R语言进行编程,但是不可以通过SparkShell进行交互式编程D)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于AmazonEC2等云环境中答案:C解析:[单选题]9.给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离,这说的是()算法A)PCAB)SVMC)K-meansD)LDA答案:D解析:[单选题]10.SELECTINSERT('welcome',-4,3,'HA')的执行结果为()。--A)HAcomeB)welHAeC)welHAcomeD)welcome答案:D解析:[单选题]11.下面说法正确的是A)基于像素的图像增强方法是一种线性灰度变换B)基于像素的图像增强方法是基于空间域的图像增强方法的一种C)基于频域的图像增强方法由于常用到傅里叶变换和傅里叶反变换,所以总比基于图像域的方法计算复杂较高D)基于频域的图像增强方法比基于空域的图像增强方法的增强效果好答案:B解析:[单选题]12.下面不属于数据科学家的主要职责有(__)。A)制定?数据战略?B)研发?数据产品?C)模拟?数据学习?D)构建?数据生态系统?答案:C解析:[单选题]13.对分类任务来说,学习器从类别标记集合中预测出一个标记,最常见的结合策略是()A)投票法B)乎均法C)学习法D)排序法答案:A解析:[单选题]14.下列关于代码规范的描述错误的是()。A)类总是使用驼峰格式命名,即所有单词首字母大写其余字母小写B)除特殊模块init之外,模块名称都使用不带下划线的小写字母C)不要滥用*args和**kwargsD)建议把所有方法都放在一个类中答案:D解析:以上关于代码规范的描述中,把所有方法都放在一个类中是错误的。[单选题]15.一般,k-NN最近邻方法在()的情况下效果较好A)样本较多但典型性不好B)样本较少但典型性好C)样本呈团状分布D)样本呈链状分布答案:B解析:[单选题]16.HDFS中的主备仲裁,是由哪个组件控制的?A)ZooleeperFailoverControllerB)NodeManagerC)ResourceManagerD)HDFSClient答案:A解析:[单选题]17.数据库利用()进行死锁检测。A)DAGB)RPCC)WFGD)DLC答案:C解析:[单选题]18.Python机器学习方向的第三方库是A)PILB)PyQt5C)TensorFlowD)random答案:C解析:[单选题]19.我们在使用pandas时需要导入什么东西?A)importpandasaspdB)importsysC)importmatplotlibD)importos答案:A解析:[单选题]20.推动优势资源商业化运营,重点是发挥公司()企业优势,挖掘公司资产商业化潜力A)共享型B)经济型C)计划性D)多用型答案:A解析:[单选题]21.创建数据库使用以下哪项()A)createmytestB)createtablemytestC)databasemytestD)createdatabasemytest答案:D解析:[单选题]22.()表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。A)偏差B)方差C)噪声D)泛化误差答案:C解析:泛化误差可分解为偏差、方差与噪声之和。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的F界,即刻画了学习问题本身的难度。[单选题]23.下面不属于后台自动化的有(__)。A)hyperscienceB)datafoxC)aptricityD)appzen答案:B解析:[单选题]24.()是窄依赖操作。A)joinB)filterC)groupD)sort答案:B解析:[单选题]25.在IBM提出的企业管理范畴中,企业数据不包含(__)。A)元数据B)主数据C)关系数据D)业务数据答案:D解析:[单选题]26.聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过()来利用监督信息以获得更好的聚类效果。A)监督聚类B)半监督聚类C)聚类D)直推聚类答案:B解析:[单选题]27.hadoop()中第一阶段的输出可以作为下一阶段的输入。A)应用场景B)分布式计算C)分阶段计算D)高效处理答案:C解析:[单选题]28.以下代码段当你键入21时的输出为()。age=int(input("Howoldareyou?"))print(age>=18)A)TrueB)FalseC)NoneD)Error答案:A解析:[单选题]29.(__)是在不影响数据完整性和数据分析结果准确性的前提下,通过减少数据规模的方式减少数据量,进而提升数据分析的效果与效率。A)数据缩减B)数据加工C)数据清洗D)数据归约答案:D解析:[单选题]30.Centos中修改文件或目录的访问权限()命令A)chownB)passwdC)chmodD)clear答案:C解析:[单选题]31.有N个样本,一般用于训练,一般用于测试。若N增大,则训练误差和测试误差之间的差距会()。A)增大B)减小C)无法确定D)无明显变化答案:B解析:增加数据,能够有效减小过拟合,减小训练样本误差和测试样本误差之间的差距。[单选题]32.数据转换器中数值类型的使用用途正确的是()A)Calculation对应用途为四则运算B)Abs对应用途为定义一个常量,可以是不同类型C)Constant对应用途为返回大于或等于指定数值表达式的最小整数D)Ceiling对应用途为绝对值答案:A解析:[单选题]33.有三个表,它们的记录行数分别是10行、2行和6行,三个表进行交叉连接后,结果集中共有()行数据A)18B)26C)不确定D)120答案:D解析:[单选题]34.编写Scala代码时,通过以下哪个算子可以实现数据过滤?A)flatmapB)collectC)FilterD)map答案:C解析:[单选题]35.大数据是指不用随机分析法这样的捷径,而采用()的方法。A)所有数据B)部分数据C)少量数据D)抽样数据答案:A解析:大数据的一种表现形式为接近其总体的"所有数据"。[单选题]36.下列程序执行后输出的结果为()X=?abc?Y=XY=100Print(X)A)?abc?B)100C)97,98,99D)以上三项均错误答案:A解析:[单选题]37.RNN的全称是()。A)卷积神经网络B)长短时记忆C)区域神经网络D)循环神经网络答案:D解析:[单选题]38.交叉表的横纵轴区域中,除了行维度、列维度外,另外一个是()A)形状B)风格C)背景D)指标答案:D解析:[单选题]39.下列说法中,错误的是()A)可视化结果不应复杂,应遵循简单直接明了的原则,少说描述性语言,直奔主题B)对于绝大多数企业而言,可视化在财务管理中的地位越来越重要,因为绝大多数的管理者仅愿意接受PPT及图表形式汇报工作,即:WORD<EXCEL<PPT(文不如表,表不如图)C)在世界五百强中,越来越多的弱化财务基础管理职能,更加注重财务价值创造、关键指标预警、监督等职能的实现,因此实务中要求财务的业务能力由?账房先生?向CFO职能转变,无法转变思路和技能的财务工作者终将在近几年被淘汰D)数据可视化在企业中主要由财务部负责使用,其他业务部门如营销部、人事行政部、成本管理部门等使用极少答案:D解析:[单选题]40.一般地,在新样本上的误差称为(__)。A)泛化误差B)训练误差C)经验误差D)精度答案:A解析:[单选题]41.在聚类分析任务中,簇内相似度()且簇间相似度()时,聚类效果比较好。A)低,低B)低,高C)高,低D)高,高答案:C解析:[单选题]42.仅个体变元被量化的谓词称为()A)一阶谓词B)原子公式C)二阶谓词D)全称量词答案:A解析:[单选题]43.(__)可以理解为对数据管理的管理。A)数据治理B)数据统治C)数据宰相D)数据战略答案:A解析:[单选题]44.某用户需要搭建一个350个节点的FusionlnsightHD集群,哪种规划方案最佳?A)管理节点、控制节点、数据节点合一部署,二层组网B)管理节点、控制节点合一部署,数据节点独立部署,二层组网C)管理节点、控制节点、数据节点都独立部署,三层组网三层组网D)管理节点、数据节点合一部署,控制节点独立部署,二层组网答案:C解析:[单选题]45.下面关于协同过滤算法的描述错误的是:()A)基于用户的协同过滤算法(简称UserCF算法)是推荐系统中最古老的算法,可以说,UserCF的诞生标志着推荐系统的诞生B)基于物品的协同过滤算法(简称ItemCF算法)是目前业界应用最多的算法C)基于模型的协同过滤算法(ModelC是通过已经观察到的所有用户给产品的打分,来推断每个用户的喜好并向用户推荐适合的产品D)UserCF算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品。答案:D解析:[单选题]46.如果想把一个字符串全部转为大写使用字符串方法A)countB)replaceC)lowerD)upper答案:D解析:[单选题]47.下面生成中间键值对的是()A)ReducerB)MapperC)CombinerD)Partitioner答案:B解析:[单选题]48.数据中台方面,以()为导向,基于统一数据模型,有针对性地按需开展数据接入与整合A)数据B)信息C)需求D)技术答案:C解析:[单选题]49.以P(w)表示词条w的概率,假设已知P(南京)=0.8,P(市长)=0.6,P(江大桥)=0.4;P(南京市)=0.3,P(长江大桥)=0.5。如果假设前后两个词的出现是独立的,那么分词结果就是()。A)南京市*长江*大桥B)南京*市长*江大桥C)南京市长*江大桥D)南京市*长江大桥答案:B解析:最大概率分词基本思想:一句话有多种切割方法,我们选择联合概率最大的结果。P(A)=0;P(B)=0.8×0.6×0.4=0.192;P(C)=0;P(D)=0.3×0.5=0.15。所以这道题选择B。[单选题]50.在python中,变量的取名要遵循一定的规则,下列规则不正确的是()。A)变量名要以字母、数字、下划线命名,且不能以数字开头;B)变量名不区分大小写C)变量名不能有空格;D)变量名能与python中的内置命令重复,如if、while、for等不可以作为变量名;答案:B解析:[单选题]51.在python3中代码为my_input=input('enteranumber:'),则type(my_input)为()。A)class'int'B)class'float'C)class'str'D)class'bool'答案:C解析:[单选题]52.执行数据块复制的任务时,是什么和什么在进行通信()A)clientandnamenodeB)clientanddatanodeC)namenodeanddatanodeD)datanodeanddatanode答案:D解析:数据块复制:数据和数据之间的复制(我瞎说的)[单选题]53.若k为整形,下述while循环执行的次数为:()k=1000whilek>1:print(k)k=k/2A)9B)10C)11D)100答案:B解析:[单选题]54.下面哪个文件包含NodeManager和ResourceManager的配置()A)yarn-site.xmlB)hdfs-site.xmlC)mapred-site.xmlD)core-site.xml答案:A解析:第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.下列既可以用于分类,又可以用于回归的机器学习算法有()。A)k近邻B)逻辑回归C)决策树D)线性回归答案:AC解析:逻辑回归只用于分类,线性回归只用于回归。[多选题]56.常用的代价函数有()。A)均方误差B)均方根误差C)平均绝对误差D)交叉熵答案:ABCD解析:[多选题]57.数据清理中,处理缺失值的方法是?A)估算B)整例删除C)变量删除D)成对删除答案:ABCD解析:[多选题]58.对GaussDB200集群管理模块(CM)描述不正确的是?A)负责接收来自应用的访问请求B)负责存储数据C)全局事务管理D)由CMAgent.OMMonito和主备CMServer组成答案:ABC解析:[多选题]59.关于读取网页表格数据的说法中,下列描述正确的是()A)使用read_html()函数可以读取网页表格数据B)使用read_html()函数可以读取网页表格数据C)read_html()函数返回一个DataFrame列表对象D)read_html()函数只能对网页中的table标签进行读取答案:ABCD解析:[多选题]60.与传统的分布式程序设计相比,Mapreduce封装了()等细节,还提供了一个简单而强大的接口A)并行处理B)容错处理C)本地化计算D)负载均衡答案:ABCD解析:[多选题]61.关于GBDT算法,下列说法正确的是()?A)增加用于分割的最小样本数量,有助于避免过拟合B)增加用于分割的最小样本数量,容易造成过拟合C)减小每个基本树的样本比例,有助于减小方差D)减小每个基本树的样本比例,有助于减小偏差答案:AC解析:[多选题]62.下列场景适合使用Python的有()。A)可作为脚本语言,快速编写小型程序、脚本等B)可应用在数据科学、交互式计算及可视化领域C)可作为胶水语言,整合如C++等语言代码D)Python适用于低延时、高利用率的应用场景答案:ABC解析:Python作为脚本语言,以解释方式逐条执行语句,相比C++等语言运行速度较慢,不适用于低延时场景。[多选题]63.假设目标遍历的类别非常不平衡,即主要类别占据了训练数据的99%,现在你的模型在训练集上表现为99%的准确度,那么下面说法正确的是()A)准确度并不适合衡量不平衡类别问题B)准确度适合衡量不平衡类别问题C)精确度和召回率适合于衡量不平衡类别问题D)精确度和召回率不适合衡量不平衡类别问题答案:AC解析:[多选题]64.关于HDFS的文件写入,正确的是()。A)不支持多用户对同一文件的写操作B)用户不可以在文件任意位置进行修改C)默认将文件复制成三份存放D)复制的文件块默认不存在同一机架上答案:ABCD解析:根据HDFS定义,以上答案都为正确选项。[多选题]65.Nimbus在Streaming架构中的功能包括?A)监控任务执行状态B)任务调度C)启动/关闭工作进程D)资源分配答案:ABD解析:[多选题]66.在统计模式分类问题中,当先验概率未知时,可以使用()A)最小损失准则B)最小最大损失准则C)最小误判概率准则D)N-P判决答案:BD解析:[多选题]67.对于通过纸质、磁介质、光介质及半导体介质等各类物品形式提供给社会第三方的重要数据,说法正确的是()A)须经省级单位业务主管部门以及分管领导审核,并通过总部业务主管部门审批,B)严格限制数据知悉范围C)与社会第三方签署数据安全保密协议D)不得私自复制、保存、打印相关数据答案:ABCD解析:[多选题]68.为落实数据安全全过程管控,在数据使用环节应(),防范数据违规使用。A)落实数据使用方的安全主体责任B)明确数据使用权限和范围C)依法依规处理和存储重要数据D)并做好账号权限管理,杜绝共享账号和默认账号答案:ABCD解析:[多选题]69.在MapReduce1.0版本中,JobTracker功能有()。A)资源管理B)作业控制C)作业存储D)作业审核答案:AB解析:在MapReduce1.0中,JobTracker同时兼备了资源管理和作业控制两个功能。[多选题]70.以下()属于数据模型。--A)层次模型B)网状模型C)关系模型D)以上答案都不正确答案:ABC解析:[多选题]71.StructuredStreaming不能提供以下哪几种类型的保证?A)MorethanonceB)AtmostonceC)ExactlyonceD)Atleastonce答案:AB解析:[多选题]72.当大数据计算服务的内置函数无法满足业务需求时,可以使用Java开发自定义函数,对于普通的自定义标量函数的描述正确的有:()。A)可以实现多个参数类型不同的evaluate方法,系统调用函数时会根据参数的类型自动匹配到正确的方法B)在函数类中,函数的逻辑通过evaluate方法实现C)每个用户只能使用自己创建的UDFD)在UDF中可以使用MaxCompute的资源(Resource),比如通过addfile上传的文件资源答案:BCD解析:[多选题]73.层次聚类的缺点()A)计算复杂度太高B)奇异值也能产生很大影响C)算法很可能聚类成链状D)不需要预先制定聚类数答案:ABC解析:[多选题]74.FusionlnsighlHD产品在部署Kerberos和LDAP服务时,以下描述正确的是?A)部署Kerberos服务之前,必须先部署LDAP服务B)LDAP服务必须和Kerberos服务部署在同一个节点C)Kerberos服务和LDAP务部署到同-个节点利于数据访问,有助干性能提升D)LDAP服务司以多个集群共享答案:AC解析:[多选题]75.以下(__)函数是累积函数。A)cumsumB)argminC)cumprodD)argmax答案:AC解析:[多选题]76.以下哪些函数属于Python的内置函数?A)int()B)print()C)S()D)input()答案:ABD解析:[多选题]77.HDFS的NameNode节点主备状态管理以及元数据文件合并分别由哪两个模块负责?A)Zkfc和备NameNodeB)主namenode和备namenodeC)Zkfc和主namenodeD)主namenode和journalnode答案:AD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.Spark是以RDD概念为中心运行的。A)正确B)错误答案:对解析:[判断题]79.GES创建索引必须在创建schema之后,创建点边之前,否则数据查询不到。A)正确B)错误答案:错解析:[判断题]80.使用del命令或者列表对象的remove()方法删除列表中元素时会影响列表中部分元素的索引。A)正确B)错误答案:对解析:[判断题]81.数据中台对外提供可复用的数据处理服务。A)正确B)错误答案:对解析:[判断题]82.聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。A)正确B)错误答案:错解析:[判断题]83.假设x为列表对象,那么xA)正确B)错误答案:对解析:[判断题]84.在设计派生类时,基类的私有成员默认是不会继承的。A)正确B)错误答案:对解析:[判断题]85.Hive定义了一种类似SQL的查询语言(HQL),将HQL转化为MapReduce任务在Hadoop上执行,通常用于在线分析。A)正确B)错误答案:错解析:[判断题]86.Flume不提供数据存储功能而是侧重于数据采集和传输。()A)正确B)错误答案:对解析:[判断题]87.在定义函数时,某个参数名字前面带有两个*符号表示可变长度参数,可以接收任意多个关键参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论