版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据开发基础大数据开发基础(习题卷30)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.Hadoop配置文件中,hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中,hadoop-site.xml被分离成三个XML文件,不包括A)conf-site.xmlB)mapred-site.xmlC)core-site.xmlD)hdfs-site.xml答案:A解析:hadoop配置Conf没见过,就不选[单选题]2.Hive中的解释器(complier),优化器(optimizer),执行器(executor)组件用于HQL语句从词法分析,语法分析,编译,优化以及查询计划的生成,生成的查询计划存储在()中,并在随后由()调用执行。A)HDFS,MapReduceB)HBase,YarmC)内存,MapReduceD)HDFS,Yarn答案:A解析:[单选题]3.关于GaussDB200的发展史,下列说法错误的是(?A)GaussDB200已经在华为云发布了云化产品。B)GaussDB200专注国内业务,不涉及海外。C)GaussDB200从一开始就支持ARM架构的部署。D)GaussDB200前身叫GaussDB,是GaussDB的子项目。答案:B解析:[单选题]4.使用()符号对浮点类型的数据进行格式化。A)%cB)%fC)%dD)%s答案:B解析:[单选题]5.HDFS将一个文件分割成一个或多个块,这些块被存储在一组()中。A)索引节点B)根节点C)名字节点D)数据节点答案:D解析:[单选题]6.在机器学习算法中,选择具有最大间隔的分割线进行预测的算法是哪一个()A)、线性回归B)、支持向量机C)、决策树D)、K-MeA、ns答案:B解析:[单选题]7.下列去噪方法中能较好地保持图像边缘的是()。A)中值滤波B)双边滤波C)均值滤波D)高斯滤波答案:A解析:中值滤波法是一种非线性平滑技术,它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值。中值滤波对脉冲噪声有良好的滤除作用,特别是在滤除噪声的同时,能够保护信号的边缘,使之不被模糊。[单选题]8.关于数据产品,以下说法错误的是()。A)数据产品的存在形式是数据集B)与传统物质产品不同的是,数据产品的消费者不仅限于人类用户.还可以是计算机以及其他软硬件系统C)数据产品不仅包括数据科学项目的最终产品,也包括其中间产品以及副产品D)数据产品开发涉及数据科学项目流程的全部活动答案:A解析:数据产品的存在形式不仅限于数据集,还包括文档、知识库、应用系统、硬件系统、服务、洞见、决策或它们的组合。[单选题]9.某篮运动员在三分线投球的命中率是2(1),他投球10次,恰好投进3个球的概率为()。A)128(15)B)16(3)C)8(5)D)16(7)答案:A解析:投篮只有两种结果;进或者不进,符合二项分布,二项分布概率的概率可以用公式P(X=k)=pk(1-p)n-k求得,其中n=10代表试验次数,k=3代表事件连续发生的次数,p=1/2代表事件发生的概率。[单选题]10.(__)算法要求基学习器能对特定的数据分布进行学习,在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。A)BoostingB)支持向量机C)贝叶斯分类器D)神经网络答案:A解析:[单选题]11.ADS的普通表最多包含()个列。A)2048个B)1024个C)4096个D)512个答案:B解析:[单选题]12.你正在使用带有L1正则化的logistic回归做二分类,其中C是正则化参数,w1和w2是x1和x2的系数。当你把C值从0增加至非常大的值时,下面哪个选项是正确的?A)第一个w2成了0,接着w1也成了0B)第一个w1成了0,接着w2也成了0C)w1和w2同时成了0D)即使在C成为大值之后,w1和w2都不能成0答案:C解析:[单选题]13.关于TF-IDF模型,以下描述错误的是()。A)TF意思是词频B)IDF是逆文本频率C)该模型是一种统计方法D)该模型基于聚类方法答案:D解析:[单选题]14.在大数据的计算模式中,流计算解决的是什么问题?A)针对大规模数据的批量处理B)针对大规模图结构数据的处理C)大规模数据的存储管理和查询分析D)针对流数据的实时计算答案:D解析:[单选题]15.后剪枝过程(___)地对树中的所有非叶节点进行逐一考察,其训练时间开销比未剪枝决策树和预剪枝决策树要(___)得多。A)自顶向下,小B)自顶向下,大C)自底向上,大D)自底向上,小答案:C解析:[单选题]16.(__)是一种著名的密度聚类算法,它基于一组?邻域?参数来刻画样本的紧密程度。A)DBSCANB)原型聚类C)密度聚类D)层次聚类答案:A解析:[单选题]17.HAVING子句的位置放在GROUPBY子句之()A)前后都可以B)前C)后D)以上都不对答案:C解析:[单选题]18.HIVE是由哪家公司发明并贡献到开源社区的A)GoogleB)FacebookC)twitterD)Amazon答案:B解析:[单选题]19.为保证流应用的快照存储的可靠性,快照主要存储在:()。A)本地文件系统中B)JobManager的内存中C)HDFS中D)可靠性高的单击数据库中答案:C解析:[单选题]20.以下关于云计算、大数据和物联网之间的关系,论述错误的是()。A)云计算、大数据和物联网三者紧密相关,相辅相成B)云计算侧重于数据分析C)物联网可以借助于大数据实现海量数据的分析D)物联网可以借助于云计算实现海量数据的存储答案:B解析:[单选题]21.若1.数据加工、2.数据化、3.数据整齐化、4.数据分析,则在数据科学的基本流程顺序是(__)。A)1234B)2134C)2314D)3214答案:B解析:[单选题]22.HBASE中使用的压缩算法是()A)gzipB)LZOC)SnappyD)ZAPPY答案:C解析:[单选题]23.隐马尔可夫模型是一种著名的(__)模型。A)无向图B)有向图C)树形图D)环形图答案:B解析:[单选题]24.下面代码实现的功能描述的是deffact(n):ifn==0:return1else:returnnfact(n-1)num=eval(input("请输入一个整数:"))print(fact(abs(int(num))))A)接受用户输入的整数n,判断n是否是素数并输出结论B)接受用户输入的整数n,判断n是否是完数并输出结论C)接受用户输入的整数n,判断n是否是水仙花数D)接受用户输入的整数n,输出n的阶乘值答案:D解析:[单选题]25.输出门的作用是()。A)保留重要信息B)去除不重要信息C)信息增加D)决定要输出的部分答案:D解析:[单选题]26.HBase提供的比较过滤器中,不属于比较运算符的有()A)LESS_OR_EQUALB)EQUALSC)NOT_EQUALD)GREATER_OR_EQUAL答案:B解析:[单选题]27.大数据和算法关系以下描述正确的是:A)数据跟算法没有关系B)算法比数据更重要C)数据比算法更重要D)没有数据的算法没有意义,失去了算法的数据无法应用答案:D解析:[单选题]28.把图像分割问题与图的最小割(mincut)问题相关联的方法是()。A)基于图论的分割方法B)分水岭算法C)SLIC算法D)基于阈值的方法答案:A解析:基于图论的分割方法把图像分割问题与图的最小割(mincut)问题相关联。首先将图像映射为带权无向图,图中每个节点对应于图像中的每个像素,每条边的权值表示了相邻像素之间在灰度、颜色或纹理方面的非负相似度。[单选题]29.下面哪个是一种编程模型,它将大规模的数据处理工作拆分成互相独立的任务然后并行处理()A)MapReduceB)HDFSC)PigD)Hive答案:A解析:[单选题]30.对长度为n的线性表作快速排序,在最坏情况下,比较次数为___________。A)n(n-1)/2B)n(n-1)C)n-1D)n答案:A解析:[单选题]31.HadoopMapReduce2.0中,()负责资源的管理和调度。A)JobTrackerB)YARNC)TaskTrackerD)ApplicationMaster答案:B解析:[单选题]32.下列不属于数据脱敏要求的是()。A)双向性B)单向性C)无残留D)易于实现答案:A解析:数据脱敏操作不能停留在简单地将敏感信息屏蔽掉或匿名处理。数据脱敏操作必须满足以下3个要求:单向性、无残留、易于实现。[单选题]33.高频增强滤波器由于相对消弱了低频成分,因而滤波所得的图像往往偏暗,对比度差,所以常需要在滤波后进行(__)。A)中值滤波B)低频加强C)直方图均衡化D)图像均匀加强答案:C解析:[单选题]34.当Mapper输出的相同partition的kv数据到达一个Reducer后,会有一个聚合的过程,即将?相同?key的kv聚合到一起,其实质是利用来对key进行比较。A)GroupingComparatorB)ComparatorC)PartitionerD)GroupingPartitioner答案:A解析:[单选题]35.通过数据、()和对数据的约束三者组成的数据模型来存放和管理数据A)关系B)数据行C)数据列D)数据表答案:A解析:[单选题]36.HDFS的设计目标不包括哪个?A)硬件错误B)大规模数据集C)移动计算D)移动数据答案:D解析:[单选题]37.以下哪个不是外部客户()A)能源供应商B)政府部门C)能源服务商D)生产客户答案:D解析:[单选题]38.下列哪些不适合用来对高维数据进行降维A)LASSOB)主成分分析法C)聚类分析D)小波分析法答案:C解析:[单选题]39.机械思维强调的是()A)世界是确定的B)世界是不确定的C)世界是机械的D)世界是智能的答案:A解析:[单选题]40.在神经网络中引人了非线性的是()A)随机耕度下降B)修正线性单元(ReLU)C)卷积函数D)以上答案都不正确答案:B解析:[单选题]41.HBase作为数据存储组件封装于大数据平台,用于()存储。A)关系型数据库B)分布式文件C)非关系型数据库D)列式存储答案:C解析:HBase是列式存储,以流的方式在列中存储所有的数据。对于任何记录,索引都可以快速地获取列上的数据。列式存储主要用于非关系型数据库存储。[单选题]42.直方图均衡化适用于增强直方图呈()分布的图像。A)尖峰B)波形C)随机D)高斯答案:A解析:[单选题]43.什么类型的数据转换器可以连接多个数据转换器()A)文本B)数值C)聚合D)都可以答案:D解析:[单选题]44.CDSW是基于Hadoop的企业级数据科学平台,以下哪些不是他支持主流的开源深度学习算法库?()A)TensorFlowB)CoffeC)TorchD)Theano答案:B解析:[单选题]45.为了应对大数据时代的信息安全问题,下列措施中不恰当的做法是()。A)遵循历史经验B)事前主动预防C)事中即时应对D)事后总结改进答案:A解析:[单选题]46.大数据的分布式计算使用下面哪项技术?()A)HDFSB)MapReduceC)NutchD)Hive答案:B解析:[单选题]47.大数据审计的发展过程中的灵魂所在是()A)技术创新B)审计人员培养C)法制健全D)审计方法转变答案:B解析:[单选题]48.HBase依赖_____提供消息通信机制A)ZookeeperB)ChubbyC)RPCD)Socket答案:A解析:记住即可[单选题]49.数据挖掘中()是最常用的聚类算法A)RNN算法B)CNN算法C)K-means算法D)FP-growth算法答案:C解析:[单选题]50.pynlpir是一种常用的自然语言理解工具包,其中进行分词处理的函数是()。A)open()B)segment()C)AddUserWord()D)generate()答案:B解析:[单选题]51.Hbase的底层以()形式存在。A)keyvalueB)列存储C)行存储D)实时存储答案:A解析:[单选题]52.在阿里云MaxCompute中,用于判断X和Y两个整型不相等,可以使用的操作符是:()。A)X==YB)X!=YC)X<>YD)XlikeB答案:C解析:[单选题]53.FusionInsight产品中,关于Kafka说法不正确的是?A)Kafka强依赖于ZooKeeperB)Kafka的服务端可以产生消息C)Kafka部署的实例个数不得小于2D)Consumer作为kafka的客户端角色专门进行消息的消费。答案:C解析:[单选题]54.Matplotlib中的legend()函数的作用是()。A)设置标签文本B)绘制网格线C)标示不同图形的文本标签图例D)设置x轴的数值显示范围答案:C解析:legend()函数用于添加图例。第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.下列选项中,关于Metadata元数据说法正确的是()。A)元数据维护HDFS文件系统中文件和目录的信息B)元数据记录与文件内容存储相关的信息C)元数据用来记录HDFS中所有DataNode的信息D)元数据用于维护文件系统名称并管理客户端对文件的访问答案:ABC解析:NameNode用于维护文件系统名称并管理客户端对文件的访问。[多选题]56.项目管理涉及(__)和整体、质量、人力资源、沟通、风险、采购的管理。A)时间B)空间C)成本D)范围答案:ACD解析:[多选题]57.下列关于Hadoop的描述,哪些是正确的?A)为用户提供了系统底层细节透明的分布式基础架构B)具有很好的跨平台特性C)可以部署在廉价的计算机集群中D)曾经被公认为行业大数据标准开源软件答案:ABCD解析:[多选题]58.Hive数据存储规模包括哪些成分?A)分区B)表C)数据库D)桶答案:ABCD解析:[多选题]59.下列属于数据统计分析工具的有()。A)WekaB)SASC)SPSSD)Matlab答案:ABCD解析:常用统计软件的种类包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。[多选题]60.在正则化公式中,λ为正则化参数,关于λ的描述正确的是()A)若正则化参数A过大,可能会导致出现欠拟合现象B)若λ的值太大,则梯度下降可能不收敛C)取一个合理的λ值,可以更好地应用正则化D)如果令λ的值很大的话,为了使CostFunction尽可能的小,所有0的值(不包括()o)都会在一定程度上减小答案:ABCD解析:[多选题]61.传统数据处理的性能瓶颈有?A)数据存储成本高B)流式数据处理性能不足C)扩展能力有限D)批量数据处理缺失答案:AC解析:[多选题]62.数据仓库在技术上的工作过程是:()A)数据的抽取B)存储和管理C)数据的表现D)数据仓库设计答案:ABCD解析:[多选题]63.可以应用Python的场合有()。A)Web开发B)网络爬虫C)计算与数据分析D)人工智能答案:ABCD解析:[多选题]64.图像数字化应该包括哪些过程A)采样B)模糊C)量化D)统计答案:AC解析:[多选题]65.规范的数据中心机房一般划分为:A)核心区B)生产区C)辅助区D)涉密区答案:ABCD解析:[多选题]66.某大数据运维人员需要将部分数据导入Hive数据表中,以下哪些做法是可取的?A)回将数据导入到HDFS文件系统中,通过loaddata命令导入到Hive表中。B)将数据导入到FTP服务器中,通过创建外表的方式导入到Hiv表中。C)将数据导入到集群服务器上,通过loaddatalocali命令导入到Hive表中。D)将数据导入到本地电脑中,然后使用loaddatalocali命令导入到Hive表中。答案:AB解析:[多选题]67.大数据?涌现?现象有()。A)价值涌现B)质量涌现C)隐私涌现D)数量涌现答案:ABC解析:[多选题]68.风险分值评估产品包含以下哪几类子模型;()A)身份特征B)行为偏好C)消费能力D)人脉关系、高危行为答案:ABCD解析:[多选题]69.下列哪些情况下SOL自诊断可以识别,并上报告警信息?A)数据值斜。B)SQL语句不下推。C)大表Broadcast.D)HashJoin中大表做内表。答案:ABCD解析:[多选题]70.(__)可以传递给下一个数组。A)冒号B)数组C)标量D)代码答案:BC解析:[多选题]71.对于决策树的优点描述,正确的是()。A)可读性强B)分类速度快C)只用于回归问题D)是无监督学习答案:AB解析:决策树也可用于回归,属于有监督的机器学习算法。[多选题]72.SparkMLlib主要提供了哪几个方面的工具:()A)算法工具B)特征化工具C)流水线D)实用工具答案:ABCD解析:[多选题]73.以下属于数据转换的方法的是()。A)中心化变换B)标准化变换C)对数变换D)极差标准化变换答案:ABCD解析:[多选题]74.线性模型的基本形式有()。A)线性回归B)对数几率回归(二分类问题)C)线性判别分析(Fisher判别分析)D)多分类学习答案:ABCD解析:[多选题]75.下列可用于处理由于光照不均带来的影响的图像处理方法有()。A)同态滤波B)顶帽变换C)基于移动平均的局部阈值处理D)拉普拉斯算子答案:ABC解析:拉普拉斯算子属于锐化滤波器,并不能处理光照不均匀带来的影响。232[多选题]76.在使用Maxcomputetunnel命令upload数据的时候,关于一些常见参数,说法正确的包括:()。A)-c本地数据文件编码,缺省为utf8B)-dfpDateTime类型数据格式,缺省为yyyyMMddHHmmssC)-cp指定是否在本地压缩后再上传,减少网络流量,缺省为trueD)-fd本地数据文件的列分隔符,缺省为逗号答案:ACD解析:[多选题]77.下列属于无监督学习任务的还有(__)。A)密度估计B)异常检测C)聚类D)分类答案:ABC解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.x=[1,2,3],那么执行xA)正确B)错误答案:错解析:[判断题]79.已知x是一个列表,那么x=x[3:]+x[:3]可以实现把列表x中的所有元素循环左移3位。A)正确B)错误答案:对解析:[判断题]80.字符串属于Python有序序列,和列表、元组一样都支持双向索引A)正确B)错误答案:对解析:[判断题]81.数据筛选的目的是为了提高之前收集存储的相关数据的可用性,更利于后期数据分析。A)正确B)错误答案:对解析:[判断题]82.对于数字n,如果表达式0notin[n%dfordinrange(2,n)]的值为True则说明n是素数。A)正确B)错误答案:对解析:[判断题]83.已知x={'a':'b','c':'d'},那么表达式'a'inx的值为True。A)正确B)错误答案:对解析:[判断题]84.Shuffle处理:为了确保每个reduce()函数的输入都按键排序。A)正确B)错误答案:对解析:[判断题]85.啤酒与尿布的经典案例,充分体现了实验思维在大数据分析理念中的重要性。A)正确B)错误答案:对解析:[判断题]86.已知x是个列表对象,那么执行语句y=x[:]之后,对y所做的任何操作都会同样作用到x上。A)正确B)错误答案:错解析:[判断题]87.Pandas创建对象时,可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引。A)正确B)错误答案:对解析:[判断题]88.Python的主程序文件pythonA)正确B)错误答案:对解析:[判断题]89.有监督学习可分为学习过程和预测过程。A)正确B)错误答案:对解析:[判断题]90.HDFS中的DataNode用于存储实际的数据,将自己管理的数据块上报给C1ient,运行多个实例。A)正确B)错误答案:对解析:[判断题]91.对字符串信息进行编码以后,必须使用同样的或者兼容的编码格式进行解码才能还原本来的信息。A)正确B)错误答案:对解析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论