大数据开发基础(习题卷51)_第1页
大数据开发基础(习题卷51)_第2页
大数据开发基础(习题卷51)_第3页
大数据开发基础(习题卷51)_第4页
大数据开发基础(习题卷51)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷51)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.下列关于地图的说法中,错误的是()A)地图是指使用地理地图作为背景,通过图形的位置来表现数据的地理位置,将数据在不同地理位置上的分布通过颜色或者气泡等映射在地图上的一种图表B)地图适合带有地理位置信息的数据的展现,可以非常直观地展示出不同地理位置的数据信息,给人以空间感C)气泡地图中,即使相邻气泡所示数值很大,气泡间也不容易叠加D)地图可以分为气泡地图、颜色地图等答案:C解析:[单选题]2.Matplotlib中调用堆积折线图的函数是()。A)step()B)stackplot()C)plusplot()D)hist()答案:B解析:stackplot()函数用于绘制堆积折线图。[单选题]3.在Hive中,如果只需要结构集的部分数据,可以通过()子句来限定返回的行数A)limitB)sortC)fromD)order答案:A解析:[单选题]4.下列选项中,不是常用于解决无约束凸优化问题的优化算法是?A)随机梯度下降方法B)复合形法C)共轭方法D)Newton方法答案:B解析:[单选题]5.()反映数据的精细化程度,越细化的数据,价值越高。A)规模B)活性C)关联度D)颗粒度答案:D解析:[单选题]6.以下可以回收代理权限的是()。--A)REVOKEALLFROM账户B)REVOKEPROXYFROM账户C)REVOKEPROXYON账户1FROM账户2D)以上语法都不正确答案:C解析:[单选题]7.下列关于模块的描述不正确的是()。A)模块是包含函数和变量的Python文件B)模块可以被导入C)可以使用"."操作符访问模块中的函数和变量D)模块使得代码更复杂,可读性变差答案:D解析:模块化编程使得Python程序可读性变高。[单选题]8.关于Hadoop中MapReduce说法正确的是()。A)可以没有Reduce任务B)Reducer输入为随机输入C)Shuffie主要实现数据可视化功能D)一个Reducer只能从一个Map复制所需要的partition答案:A解析:[单选题]9.()的主要目的是提升数据质量,将数据形态更加符合某一算法需求,进而提升数据计算的效果和降低其复杂度。A)数据加工B)数据分析C)数据挖掘D)数据处理答案:A解析:[单选题]10.()数据库使用哈希表来存储数据。A)列存储B)文档型C)图形D)key-value答案:D解析:[单选题]11.()在划分属性时是在当前结点的属性集合中选择一个最优属性。A)AdaBoostB)RFC)BaggingD)传统决策树答案:D解析:[单选题]12.下列不属于MaxCompute项目空间的对象类型为:()。A)表B)Jar包C)实例D)资源答案:B解析:[单选题]13.下列关于hadoop系统架构叙述不正确的一项为()。A)由一台Intelx86处理器的服务器或PC机组成。B)部署在低成本Intel/linux硬件平台上。C)通过高速局域网构成一个计算集群。D)各个节点上运行Linux操作系统。答案:A解析:[单选题]14.(__)是分类正确的样本数占样本总数的比例。A)精度B)错误率C)偏差D)误差答案:A解析:[单选题]15.Numpy数组输出的原则是()。A)从左到右,从下到上B)从左到右,从上到下C)从右到左,从下到上D)从右到左,从上到下答案:B解析:Numpy数组输出时遵循以下原则:从左到右,从上到下。[单选题]16.Insert事务使用的锁模式是:()。A)AccessShareLockB)RowExclusiveLockC)ShareUpdateExclusiveLockD)ExclusiveLock答案:B解析:[单选题]17.HBase架构的四大组件中,()分布式协调服务器。A)ZookeeperB)MasterC)RegionServerD)Client答案:A解析:[单选题]18.HBase的一个典型应用是webtable,它是一个以网页()为主键的表。A)标题B)URLC)内容D)类别答案:B解析:webtable中,以网页URL为主键。[单选题]19.下列关于HDFS的副本机制的说法哪一个是不正确的?A)第一个副本放置在上传文件的NameNode上;B)第二个副本放置在与第一个副本不同的机架的节点上;C)第三个副本放置在第二副本相同机架的不同节点上;D)默认配置保存三个副本答案:A解析:[单选题]20.当try语句中没有任何错误信息时,一定不会执行()语句。A)tryB)elseC)finallyD)except答案:D解析:[单选题]21.运行下列代码,输出结果是()。L=[iifi%2==0elsei*10foriinrange(5)]print(l)A)[0,10,2,30,4]B)[10,2,30,4]C)[0,10,2,30,4,50]D)[0,1,20,3,40]答案:A解析:该列表推导式意为在0~4中偶数不变,奇数乘10,因此A正确。[单选题]22.SQL语句中聚合函数求数据总和的是A)MAXB)SUMC)COUNTD)AVG答案:B解析:[单选题]23.()是指过滤器在图像上滑动的距离。A)卷积核大小B)卷积步长C)过滤器大小D)图像大小答案:B解析:[单选题]24.type(1e6)的结果为()。A)class'int'B)class'float'C)class'complex'D)class'bool'答案:B解析:[单选题]25.更新数据表中的记录用以下哪一项()A)DELETEB)ALTREC)UPDATED)SELECT答案:C解析:[单选题]26.一个MapReduce程序中的MapTask的个数由()决定。A)输入的总文件数B)客户端程序设置的mapTask的个数C)Fi1eInputFormat.getSplits(JobContexjob)计算出的逻辑切片的数量D)输入的总文件大小/数据块大小答案:C解析:[单选题]27.使用MaxcomputeSQL:createtablet1liket2;建表时,表t1不会具有表t2的()属性。A)分区B)生命周期C)二级分区D)字段的注释答案:B解析:[单选题]28.OTS是构建在阿里飞天系统之上的产品,它提供的是()服务。A)在线高并发事务服务B)海量数据的非结构化读写服务C)在线NoSQL数据库服务D)在线关系型数据库服务答案:C解析:[单选题]29.关于Spark中SparkSQL描述不准确的是?A)SQL语句通过SparkSQL模块解析为DAG,交给SparkCore执行。B)SparksSQL使用场景包括毫秒级实时查询。C)通过SparkSession提交SQL语句。任务像普通Spark应用一样提交到集群中分布式运行D)SparksQL是Spark用来处理结构化数据的一个模块,可以在Spark应用中直接使用SQL语句对数据进行操作。答案:B解析:[单选题]30.无条件共享:是指可对()提供的数据。A)公司外部所有人员B)公司内部所有人员C)所有人员D)公司内部特定人员答案:B解析:[单选题]31.下列关于HBase的BloomFilter特性理解正确的是:()。A)用来过滤数据B)用来优化随机读取的性能C)会增加存储的消耗D)可以准确判断某条数据不存在答案:C解析:[单选题]32.在视图上不能完成的操作是()A)更新视图数据B)在视图上定义新的基本表C)在视图上定义新的视图D)查询答案:B解析:[单选题]33.在卷积神经网络计算中,已知输入特征层大小为32x32x64,使用标准卷积计算,带偏置项,卷积核大小为3*3,输出特征层数目为64,请问卷积层的参数个数为A)576B)36928C)640D)36864答案:B解析:[单选题]34.Hadoop平台中HBase的Region是由哪个服务进程来管理?A)HMasterB)DataNodeC)RegionSever.D)Zookeeper答案:C解析:[单选题]35.大数据对影视行业的影响不包括下列哪项?()A)利用大数据对海量用户数据进行分析,帮助投资方做出明智的选择B)了解用户当前关注的题材,以便觉得拍什么作品C)业内人士根据多年的市场经验分析观众认可的作品类型D)了解观众追棒的明星,邀请合适的演员答案:C解析:[单选题]36.np.arraysplit()函数的作用是(__)。A)沿着它的水平轴分割B)沿着纵向的轴分割C)允许指定沿哪个轴分割D)按深度方向分割答案:C解析:[单选题]37.kafka-clustermirroring工具可以实现()功能。A)kafka集群数据同步方案B)kafka单集群内数据备份C)kafka单集群内数据恢复D)以全部不对答案:A解析:[单选题]38.下列描述中,哪项不属于Sqoop的缺点()A)无法控制任务的并发度B)格式紧耦合C)安全机制不够完善D)connector必须符合JDBC模型答案:A解析:[单选题]39.下面哪个端口不是spark自带服务的端口()A)8080B)4040C)8090D)18080答案:C解析:[单选题]40.非关系型数据库不包括A)HbaseB)MapreduceC)Neo4jD)MongoDB答案:B解析:[单选题]41.关于fusioninsightmanager界面hive日志收集的描述中,哪个不对?A)可指定实例进行日志收集,比如指定收集metaStore的日志B)可指定节点ip进行日志收集,例如仅下载某个ip的日志C)可指定特定用户进行日志收集,例如仅下载user用户的日志D)可指定时间端进行日志收集,不如只收集2016-1-1到2016-1-10的日志答案:C解析:[单选题]42.A为ADS中的普通表,a为A的分区列,类型为bigint,b为A中的普通列,类型为bigint,请判断以下相关SQL中()语法是错误的。A)SELECTaFROMAORDERBYaLIMIT100B)SELECTa+b,count(a)FROMAgroupbya+bORDERBYaC)SELECTa,bFROMAORDERBYa+bLIMIT100D)SELECTa,count(a)FROMAgroupbyaORDERBYa答案:B解析:[单选题]43.下面与Zookeeper类似的框架是?A)ProtobufB)JavaC)KafkaD)Chubby答案:D解析:Zookeeper和Chubby的内存数据模型都类似于传统文件系统,由树形的层级目录结构构成,其中的节点称为Znode,其可以是文件或是目录。[单选题]44.考察一个由三个卷积层组成的αN:kernel=3川,如de=2,padding=SAMEc最低层输出100个特征映射(featuremap),中间层200个特征映射,最高层400个特征映射输入是200x300的RGB图片,则总参数的数量是()A)903400B)2800C)180200D)720400答案:A解析:[单选题]45.HBase作为数据存储组件封装于大数据平台,用于()存储。A)关系型数据库B)分布式文件C)非关系型数据库D)列式存储答案:C解析:[单选题]46.在配置Linux网络参数时,固定IP地址是将路由协议配置为()。A)staticB)dynamicC)immutableD)variable答案:A解析:[单选题]47.()选择成为支持向量机的最大变数A)核函数B)样本空间C)模型D)算法答案:A解析:[单选题]48.序列的主要特征是A)无序B)复杂C)有序D)难理解答案:C解析:[单选题]49.matplotlib中的axvspan函数作用是什么()A)在x轴标示不同图形的文本标签图例B)绘制垂直于x的参考区域C)添加x轴内容细节的指向性注释文本D)添加x轴标题答案:B解析:[单选题]50.在机器学习中,不属于常用的冲突消解策略是()。A)投票法B)排序法C)元规则法D)加权法答案:D解析:常用的冲突消解策略有投票法、排序法、元规则法等。[单选题]51.关于Pandas层次化索引,下列说法错误的是()。A)层次化索引是指Pandas对象在一个轴方向上具有多层索引B)层次化索引至多只能有两层索引C)可以使用swaplevel()方法对层次化索引的位置交换顺序D)使用sort_index()可以对索引进行排序答案:B解析:[单选题]52.Hadoop生态系统中,HBase是一种()。A)分布式文件系统B)数据仓库C)实时分布式数据库D)分布式计算系统答案:C解析:HBase是一个面向列的实时分布式数据库。[单选题]53.在Fusionlnsight集群拔划部署时,建议管理节点最好部署()个,控制节点最少需要部署()数据节点最少需要部署A)1,2,2B)1,3,2C)2,3,1D)2,3,3答案:D解析:[单选题]54.HBase来源于哪一项?A)TheGoogleFileSystemB)MapReduceC)BigTableD)Chubby答案:C解析:HBASE起源于GoogleBigTable,几乎遵从了BigTable论文的大多数架构设计第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.关于相关与线性关系,下列说法正确的是()A)相关不一定是线性关系,可能是非线性关系B)相关一定是线性关系,不可能是非线性关系C)相关时若有相关系数r为0,说明两个变量之间不存在线性关系,仍可能存在非线性关系D)相关系数为0是两个变量独立的必要不充分条件答案:ACD解析:相关不一定是线性关系,可能是非线性关系。[多选题]56.GraphBase可以提供下列哪些服务?A)查询B)存储C)遍历D)分析答案:ABCD解析:[多选题]57.下列关于python的说法中正确的为()。A)Python提供了一个?内置函数?:type()用来观察数据的类型B)Python支持常用的算术运算:加、减、乘、除和括号()C)Python中,在使用前不需要明确数据的使用类型D)Python中,可以使用加号(+)来合并字符串答案:ABCD解析:[多选题]58.根据《大数据风控平台项目操作手册》,担保圈链模块,用户可在页面右侧的关联筛选选项卡中,基于()、()、()3种筛选条件,对圈链客户进行筛选。A)全景风险视图B)快速定位C)层级选择D)客户筛选答案:BCD解析:[多选题]59.下列Hive的分区表描述正确的是()A)Hive中的每个表都可以拥有一个或者多个分区,每个分区以文件的形式单独存在表文件夹的目录下。B)分区是以字段的形式在表结构中存在,通过desctable命令可以查看到字段存在。C)分区字段不存放实际的数据内容,仅仅是分区的表示。D)分区字段不能出现在表定义的列中答案:BCD解析:[多选题]60.Python函数包括()。A)函数名称B)参数C)执行语句D)返回值答案:ABCD解析:Python函数包括函数名称、参数、执行语句、返回值。[多选题]61.交叉验证可用于(__)、(__)和(__)。A)分类B)参数选择C)模型选择D)特征选择答案:BCD解析:[多选题]62.若a=np.array([0,1,2,3]),b=a.copy(),且a[0]=9,则发生改变的值有(__)。A)aB)bC)a[0]D)b[0]答案:AC解析:[多选题]63.以下语句错误的是();SELECTrank,AVG(salary)FROMpeopleHAVINGAVG(salary)>1000GROUPBYrank;A)SELECTrank,AVG(salary)FROMpeopleGROUPBYrankHAVINGAVG(salary)>1000B)SELECTrank,AVG(salary)FROMpeopleHAVINGAVG(salary)>1000GROUPBYrank;C)SELECTAVG(salary)FROMpeopleGROUPBYrankHAVINGAVG(salary)>1000;D)SELECTrank,AVG(salary)FROMpeopleGROUPBYrankWHEREAVG(salary)>1000;答案:BD解析:[多选题]64.Spark支持哪三种不同类型的部署方式?A)Standalone(类似于MapReduce1.0,slot为资源分配单位)B)SparkonMesos(和Spark有血缘关系,更好支持Mesos)C)SparkonYARND)SparkonHDFS答案:ABC解析:[多选题]65.属于数据集的一般特性的有()。A)维度B)稀疏性C)分辨率D)存储量答案:ABC解析:[多选题]66.Reduce阶段就是对多个map任务的输出进行()。A)规约B)排序C)存储D)筛选答案:AB解析:[多选题]67.HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时inputsplit大小为(),占用()个BlockA)1B)75MBC)一个map读取64MB,另外一个map读取11MBD)2答案:BD解析:[多选题]68.下列属于Hive所支持的基本数据类型的有()【选三项】A)TimestampB)BinaryC)TinyintD)Char答案:ABC解析:[多选题]69.以下关于性能度量,说法正确的是(__)A)聚类结果的?簇内相似度?低且?簇间相似度?高。B)性能度量内部指标包含JC、FM指数、Rand指数等C)外部指标度量结果均在0-1之间,且值越大越好。D)内部指数DBI值越小越好,而DI则相反,值越大越好。答案:CD解析:[多选题]70.ZKFC进程部署在hdfs中的以下那个节点上?A)activenamenodeB)standbynamenodeC)datanodeD)以上全部不对答案:AB解析:[多选题]71.支持向量机常用核函数包括:()A)多项式核函数B)线性核函数C)径向基核函数D)Sigmoid核函数答案:ABCD解析:[多选题]72.下列哪种数据结构可以传递给下一个数组(__)。A)冒号B)数组C)标量D)代码答案:BC解析:[多选题]73.更新numpy可使用使用的指令是()。A)pipinstall--upgradenumpyB)pipuninstall--upgradenumpyC)pipinstall--upgrade-i/simplenumpyD)pipinstall--updatenumpy答案:AC解析:[多选题]74.Excel中有关数据库内容,描述正确的有()。A)每一个Excel数据库对应一个工作簿文件B)一列为一个字段,描述实体对象的属性C)Excel数据库属于?关系数据模型?,又称为关系型数据库D)一行为一个记录,描述某个实体对象答案:BCD解析:[多选题]75.SparkSQL使用场景丰富,可以处理的数据源包括?A)JsonB)HiveC)文本文件D)RDD答案:ABCD解析:[多选题]76.关于大数据计算服务中的Policy授权,说法正确的有:()。A)授权或撤销授权时,对Subject(如User)没有要求,即授权的User存在或者不存在都可以B)删除一个对象时,与该对象关联的Policy授权不会被删除C)支持带限制条件的授权D)授权或撤销授权时,要求Object(如Table)必须已经存在答案:BCD解析:[多选题]77.下列哪些列类型是数值型的数据()。A)DOUBLEB)INTC)SETD)FLOAT答案:ABD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.向HBase集群中增加RegionServer主机时,必须先停止原集群,原因是HBase不支持动态扩容。A)正确B)错误答案:错解析:[判断题]79.任何函数内部都可以直接访问和修改全局变量。()A)正确B)错误答案:错解析:[判断题]80.数据库架构设计SharedEverying是指服务器的所有资源(包括磁盘、CPU、显卡、网络)都共享。A)正确B)错误答案:对解析:[判断题]81.放在一对三引号之间的任何内容将被认为是注释。A)正确B)错误答案:对解析:[判断题]82.在Spark2.X版中,SparkSQL适合进行离线数据查询,在某些场景下也可以适用于实时工作流任务。A)正确B)错误答案:错解析:[判断题]83.在外模式与概念模式、概念模式与内模式之间存在的映像是二级映像。--A)正确B)错误答案:对解析:[判断题]84.Flume传输数据的过程中,Sink取走数据并写入目的地后,会将events从channel中删除。A)正确B)错误答案:对解析:[判断题]85.离线批量的作业形式:可以通过例如HOL和SparkSQL的命令,也可以通过API编写代码,打包提交运行。A)正确B)错误答案:对解析:[判断题]86.Ganglia不仅可以进行监控,也可以进行告警。A)正确B)错误答案:对解析:此题的目的是考Ganglia的了解。严格意义上来讲是正确。ganglia作为一款最常用的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论