大数据理论考试(习题卷4)

上传人：w*** IP属地：重庆上传时间：2023-11-15 格式：DOCX 页数：79 大小：118.88KB 积分：3.6 举报 版权申诉

已阅读5页，还剩74页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据理论考试大数据理论考试(习题卷4)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据理论考试第1部分：单项选择题，共195题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.第一数字定律中使用概率最大的数字是（）。A)0B)1C)2[单选题]2.如果一个SVM模型出现欠拟合，那么下列哪种方法能解决这一问题（）A)增大惩罚参数C的值B)减小惩罚参数C的值C)减小核系数（gamma参数[单选题]3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？()A)频繁模式挖掘B)分类和预测C)数据预处理D)数据流挖掘[单选题]4.进行主成分分析的前提条件是，各变量间（）。A)高度相关B)低度相关C)相互独立D)完全相[单选题]5.DWS集群要求最少几个数据节点A)1个B)3个C)5个D)9[单选题]6.下列关于线性回归分析中的残差说法正确的是（）。A)残差均值总是为零B)残差均值总是约等于零C)残差均值总是大于零D)以上答案都不正确[单选题]7.数据科学中，人们开始注意到传统数据处理方式中普遍存在的?信息丢失?现象，进而数据处理范式从（）转向（）。A)产品在先，数据在后范式；数据在先，产品在后范式或无模式B)模式在先，产品在后范式；产品在先，模式在后范式或无模式C)数据在先，模式在后范式或无模式；模式在先，数据在后范式D)模式在先，数据在后范式；数据在先，模式在后范式或无模式[单选题]8.傅里叶变换得到的频谱中，低频系数对应于（）。A)物体边缘B)噪声C)变化平缓部分D)变化剧烈部[单选题]9.声明变量的关键字是A)dimB)decimalC)declareD)dealcr[单选题]10.以下（）是对DMM（数据管理成熟度模型）中?已管理级?基本特点的正确表述。A)组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革进行不断优化。B)组织机构已用定量化的方式管理其关键过程的执行过程。C)组织机构只有在项目管理过程中执行了D)M给出的关键过程，而缺乏机构层次的统筹与管理组织机构的数据管理工作超出了项目管理的范畴，由组织机构统一管理了其数据管理关键过程[单选题]11.下列关于LSTM说法错误的是(__)。A)LSTM中存在sigmoid函数B)LSTM中存在tanh函数C)LSTM又称长短时记忆网络D)RNN是LSTM的变[单选题]12.大数据参考架构的水平轴和垂直轴分别为（）。A)信息（活动）价值链和信息技术价值链B)信息技术价值链和信息（活动）价值链C)信息交互价值链和信息技术价值链D)信息（活动）价值链和信息交互价值链[单选题]13.SLIC算法的主要目的是（）。A)目标识别B)前景和背景分离C)超像素提取D)语义分[单选题]14.随机试验所有可能出现的结果，称为（）A)基本事件B)样本C)全部事件D)样本空间[单选题]15.以下关于情感分析说法错误的是（）。A)情感分类是一个领域相关的问题B)情感分类往往牵涉样本的正负类别分布不平衡的问题C)情感分析属于nlp范围D)以上答案都不正[单选题]16.关于python类说法错误的是（）。A)类的实例方法必须创建对象后才可以调用B)类的实例方法必须创建对象前才可以调用C)类的类方法可以用对象和类名来调用D)类的静态属性可以用类名和对象来调用[单选题]17.以下聚合函数求和的是()A)AVGB)SUMC)MAXD)COUN[单选题]18.Mapreduce适用于（）A)任意应用程序B)任意可在windowsservet2008上运行的程序C)可以串行处理的应用程序D)可以并行处理的应用程序[单选题]19.多分类LDA将样本投影到N-1维空间，N-1通常远小于数据原有的属性数，可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的（）技术。A)无监督特征选择B)无监督降维C)监督特征选择D)监督降维[单选题]20.以下分割方法中不属于区域算法的是（）。A)分裂合并B)阈值分割C)区域生长D)边缘检[单选题]21.Google三驾马车是Hadoop等分布式系统的基石，其中论文()不属于三驾马车之一A)GFSB)MapReduceC)OpenTSDBD)BigTabl[单选题]22.在逻辑回归输出与目标对比的情况下，以下评估指标中哪一项不适用（）。A)C-ROCB)准确度C)LoglossD)均方误[单选题]23.以下哪个分类方法可以较好地避免样本的不平衡问题（）。A)KNNB)SVMC)BayesD)神经网络[单选题]24.设计为8层的卷积神经网络AlexNet网络成功使用(__)函数，其效果远远地超过了Sigmoid函数。A)ReLU函数B)sigmoid函数C)tanh函数D)sin函数[单选题]25.下面关于Hive内外表描述正确的是（）A)内部表数据由HDFS自身管理，外部表数据由Hive管理；B)内部表数据存储的位置是hive.metastore.warehouse.dir设置配置（默认：/user/hive/warehouse）C)外表存储必须指定LOCATIOND)内外表删除时，都会删除元数据和存[单选题]26.下列函数中，用于使用函数对指定序列进行过滤的是()。A)map函数B)select函数C)filter函数D)reduce函数[单选题]27.如果规则集R中不存在两条规则被同一条记录触发，则称规则集R中的规则为（）。A)无序规则B)穷举规则C)互斥规则D)有序规[单选题]28.决策树模型的规模应当是（）。A)越复杂越好B)越简单越好C)适当限制其复杂程度D)尽可能利用所有特[单选题]29.以下属于考虑词语位置关系的模型有（）。A)词向量模型B)词袋模型C)词的分布式表示D)TF-ID[单选题]30.如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的（）A)增加树的深度B)增加学习率C)减小树的深度D)减少树的数量[单选题]31.以下关于图像的平滑处理错误的说法是（）。A)图像的平滑处理是指在尽量保留原有信息的情况下，过滤掉图像内部的噪音B)图像平滑处理会对图像中与周围像素点的像素值差异较大的像素点进行处理，将其值调整为周围像素点像素值的近似值C)讲过平滑处理后图像质量会下降D)以上答案都正[单选题]32.绝对多数投票法的基本思想是（）。A)对于若干和弱学习器的输出进行平均得到最终的预测输出B)少数服从多数，数量最多的类别为最终的分类类别C)不光要求获得最高票，还要求票过半数D)将训练集弱学习器的学习结果作为输入，将训练集的输出作为输出，重新训练一个学习器来得到最终结果[单选题]33.下面python循环体执行的次数与其他不同的是（）。A)i=0while(i<=10):print(i)i=i+1B)i=10while(i>0):print(i)i=i-1C)forIinrange(10):Print(i)D)forIinrange(10,0,-1):print(i)[单选题]34.聚类算法的性能度量可称为（）。A)密度估计B)异常检测C)有效性指标D)分布结[单选题]35.下面哪项不属于循环神经网络的输出模式。(__)A)单输出B)多输出C)同步多输出D)异步多输[单选题]36.关于Python注释，以下选项中描述错误的是（）。A)Python注释语句不被解释器过滤掉，也不被执行B)注释可以辅助程序调试C)注释可用于标明作者和版权信息D)注释用于解释代码原理或者用途[单选题]37.以下使用其本身可以达成数据透视功能的函数是（）。A)groupbyB)transformC)crosstabD)pivot_table[单选题]38.下列哪项具体任务不属于情感分析（）。A)情感分类B)观点抽取C)观点问答D)段落匹[单选题]39.下列关于HDFS的描述正确的是（）A)如果NameNode宕机，SecondaryNameNode会接替它使集群继续工作B)HDFS集群支持数据的随机读写C)NameNode磁盘元数据不保存Block的位置信息D)taNode通过长连接与NameNode保持通信[单选题]40.HBase作为数据存储组件封装于大数据平台，用于（）存储A)关系型数据库B)分布式文件C)非关系型数据库D)列式存储[单选题]41.下列属于卷积网络类型分类的是(__)。A)普通卷积B)扩张卷积C)转置卷积D)以上答案都正[单选题]42.对于随机森林和GBDT,下面说法正确的是（）。A)在随机森林的单个树中,树和树之间是有依赖的,而GBDT中的单个树之间是没有依赖的B)这两个模型都使用随机特征子集,来生成许多单个的树C)我们可以并行地生成GBDT单个树,因为它们之间是没有依赖的D)GB训练模型的表现总是比随机森林[单选题]43.关于Python布尔值，下列选项描述正确的是（）。A)整型的0不可以表示FalseB)浮点型的0不可以表示FalseC)0+0j可以表示FalseD)布尔值不可以进行算术运算[单选题]44.当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质，这样会导致泛化性能下降，这种现象称之为（）。A)欠拟合B)过拟合C)拟合D)以上答案都不正[单选题]45.以下哪种情况LDA会失败（）。A)如果有辨识性的信息不是平均值，而是数据的方差B)如果有辨识性的信息是平均值，而不是数据方差C)如果有辨识性的信息是数据的均值和方差D)以上答案都不正[单选题]46.SQL语言又称A)结构化定义语言B)结构化控制语言C)结构化查询语言D)结构化操纵语[单选题]47.常用的图像去噪方法有（）。A)高斯滤波B)中值滤波C)P-M方程去噪D)以上答案都正[单选题]48.（）对应于决策树结果，其他节点对应于（）。A)叶节点，属性测试B)根结点，学习测试C)内部节点，学习测试D)叶节点，分类测[单选题]49.Hadoop环境下HDFS系统中NameNode实现（）功能。A)管理文件系统的命名空间B)管理存储空间C)分配算力D)调控算法[单选题]50.下面if语句统计?成绩(score)优秀的男生以及不及格的男生?的人数,正确的语句为（）。A)If(gender==?男?andscore<60orscore>=90):n+=1B)If(gender==?男?andscore<60andscore>=90):n+=1C)If(gender==?男?and(score<60orscore>=90)):n+=1D)If(gender==?男?orscore<60orscore>=90):n+=1[单选题]51.关于函数的可变参数，可变参数*args传入函数时存储的类型是（）。A)dictB)tupleC)listD)set[单选题]52.下列哪些项目是在图像识别任务中使用的数据扩增技术(dataaugmentationtechnique)（）。1水平翻转(Horizontalflipping)2随机裁剪(Randomcropping)3随机放缩(Randomscaling)4颜色抖动(Colorjittering)5随机平移(Randomtranslation)6随机剪切(Randomshearing)A)1，3，5，6B)1，2，4C)2，3，4，5，6D)所有项[单选题]53.以下（）不属于广义上的数据可视化技术。A)类别可视化B)科学可视化C)信息可视化D)可视分析学[单选题]54.以下统计量中表示数据分布是否为对称性的是（）。A)方差B)中位数C)偏态D)峰[单选题]55.以下关于Hive说法正确的是（）。A)一种数据仓库B)一种数据处理工具C)一种可视化工具D)一种分析算法[单选题]56.模型构建完毕需要对模型进行评估量化，需要用到哪个模块（）。A)utilsB)mixtureC)metricsD)manifold[单选题]57.下列算法中属于局部处理的是：（）A)灰度线性变换B)二值化C)傅立叶变换D)中值滤波[单选题]58.数据分析的第一步是（）。A)探索性分析B)描述性分析C)诊断性分析D)规范性分[单选题]59.以下（）不是NoSQL数据库。A)MongoDBB)BigTableC)HBaseD)Access[单选题]60.SQL语句中修改表结构的命令是A)modifytableB)modifystructureC)altertableD)alterstructure[单选题]61.下列关于关键词提取的说法错误的是（）A)关键词提取是指借用自然语言处理方法提取文章关键词B)TF-IDF模型是关键词提取的经典方法C)文本中出现次数最多的词最能代表文本的主题D)这个问题设计数据挖掘，文本处理，信息检索等领域[单选题]62.关于OLAP和OLTP的区别描述,不正确的是（）。A)OL主要是关于如何理解聚集的大量不同的数据.它与OT应用程序不同。B)与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务。C)OLAP的特点在于事务量大,但事务内容比较简单且重复率高。D)OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的[单选题]63.AGNES是一种采用（）策略的层次聚类算法。A)自顶向下B)自底向上C)自左至右D)自右至[单选题]64.以下关于图像识别任务的叙述，错误的是（）。A)目标在于检测出图像中的对象是什么B)在识别前往往需要对图像进行预处理C)N是一种常用的图像识别网络D)图像的采集和传输方式对于图像识别结果没有影[单选题]65.假设我们使用原始的非线性可分版本的Soft-SVM优化目标函数。我们需要做什么来保证得到的模型是线性可分离的（）A)C=0B)C=1C)C正无穷大D)C负无穷大[单选题]66.（）计算框架源自一种分布式计算模型，其输入和输出值均为?键-值对?结构。A)MahoutB)MapReduceC)SparkD)Sqoop[单选题]67.如果我使用数据集的全部特征并且能够达到100%的准确率，但在测试集上仅能达到70%左右，这说明：（）。A)欠拟合B)模型很棒C)过拟合D)以上答案都不正确[单选题]68.在Hadoop生态系统中，（）可以将结构化的数据文件映射成一张数据库表，并提供简单的查询语言。A)PigB)HbaseC)HiveD)MapReduce[单选题]69.（）是指对于数据局部不良行为的非敏感性,它是探索性分析追求的主要目标之一。A)鲁棒性B)稳定性C)可靠性D)耐抗性[单选题]70.在HadoopMapReduce中，（）是客户端需要执行的一个工作单元。A)InputB)JobC)ientD)Task[单选题]71.二值图像中的分支点的连接数为（）。A)0B)1C)2D)3[单选题]72.解决Master故障的方法是设置检查点，当Master失效时，从（）检查点开始启动另一个Master进程。A)第一个B)中间一个C)最后一个D)随机选择一个[单选题]73.以下代码的输出结果为（）。ImportnumpyasnpA=np.array([[30,65,70],[80,95,10],[50,90,60]])Print(np.median(a,axis=1))A)[[306570][809510][509060]]B)65.0C)[50.90.60.]D)[65.80.60.][单选题]74.词袋模型中的文本向量每个元素表示该词的（）。A)频率B)顺序C)含义D)语义关[单选题]75.CART决策树通常采用（）剪枝方法。A)REP(错误率降低)B)CCP(代价复杂度)C)PEP(悲观剪枝)D)预剪枝[单选题]76.下面关于HiveSQL创建表时描述正确的是（）A)LIKE允许复制表结构和表数据B)COMMENT可以为表与字段增加描述，必须有，不加会报错C)ROWFORMAT设置行数据压缩格式D)如果相同名字的表已经存在，则建表抛出异[单选题]77.以下聚合函数求个数的是()A)AVGB)SUMC)MAXD)COUN[单选题]78.大数据应用需依托的新技术有（）。A)大规模存储与计算B)数据分析处理C)智能化D)三个选项都是[单选题]79.下列关于bootstrap说法正确的是（）。A)从总的M个特征中，有放回地抽取m个特征（m<M）B)从总的M个特征中，无放回地抽取m个特征（m<M）C)从总的N个样本中，有放回地抽取n个样本（n<N）D)从总的N个样本中，无放回地抽取n个样本（n<N[单选题]80.下列哪种业务场景中，不能直接使用Reducer充当Combiner使用（）A)sum求和B)max求最大值C)count求计数D)avg求平均[单选题]81.以下关于图像中的噪声的特性说法错误的是（）。A)具有随机性B)具有规律性C)具有叠加性D)具有叠加[单选题]82.下列在python3中合法的语句为（）。A)printHello,World!B)print'Hello,World!'C)print('Hello,World!')D)print"Hello,World!"[单选题]83.代码selectceil(2.34)的结果是哪一个：A)2.3B)2C)3D)2.[单选题]84.下面说法错误的是（）。A)可以利用统计量对缺失值进行填补B)可以利用K近邻值对缺失值进行填补C)只要有缺失值就必须把对应记录删除D)对于缺失值较多的属性可以考虑删除[单选题]85.某企业的数据仓库运行在大数据计算服务上，开发人员在加工数据时发现用户表user中的用户标识字段user_id有部分脏数据，正确的格式应该是8位的字符串。可以使用SQL语句（）将脏数据过滤出来。A)select*B)select*C)select*D)select*fromuserwherelength(userid)<>8oruseridisnull[单选题]86.下面关于Hive架构描述不正确的是（）A)Hive中QL是HiveSQL，方便用户完成数据读写B)HiveSerDe是Serializer和Deserializer的缩写，用于序列化和反序列化数据，即读写数据C)HiveMetaStore用户管理Hive的元数据D)HiveMetaStore对外暴露ThriftAPI，用于元数据的修[单选题]87.从复杂度及价值高低两个维度，可以将数据分析分为（）。A)描述性分析、诊断性分析、预测性分析、探索性分析B)探索性分析、诊断性分析、预测性分析、规范性分析C)探索性分析、描述性分析、预测性分析、规范性分析D)描述性分析、诊断性分析、预测性分析、规范性分析[单选题]88.一个分布式应用程序协调服务，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等的工具是（）。A)FlumeB)ZookeeperC)StormD)Sparkstreaming[单选题]89.在情感分析中，下面哪个词不属于影响词（）。A)识别B)开心C)难过D)无[单选题]90.反转二维数组arr的行arr=np.arange(9).reshape(3,3)A)arr[::-1]B)arr[::-2]C)arr[::1]D)arr[::0][单选题]91.（）和假设检验又可归结为统计推断的范畴，即对总体的数量特征做出具有一定可靠程度的估计和判断.A)参数估计B)逻辑分析C)方差分析D)回归分[单选题]92.在集成学习中，对于数据型输出，最常见的结合策略是（）。A)平均法B)投票法C)学习法D)以上答案都正确[单选题]93.下列关于Hive特性归纳正确的选项是（）(1)为了数据仓库而设计(2)迭代式算法无法表达(3)数据挖掘方面不擅长(4)分布式拓展能力强，适合高吞吐量、批量、海量数据处理(5)不属于MapReduce框架(6)低容错性A)(1)(2)(3)(4)B)(1)(2)(3)(6)C)(2)(3)(5)(6)D)(1)(2)(3)(4)(6[单选题]94.Base原则的含义不包括（）A)基本可用B)柔性状态C)最终一致D)基础条[单选题]95.在linux下预装了Python2，Python3且默认Python版本为Python3，下列描述可以正确启动Python有（）。A)在linux应用程序Terminal，打开一个终端窗口。输入whichPythonB)在linux应用程序Terminal，打开一个终端窗口。输入Python2或Python3C)在linux应用程序Terminal，打开一个终端窗口。输入whichPython3D)在linux应用程序Terminal，打开一个终端窗口。输入输入whichPython2[单选题]96.下列场景中最有可能应用人工智能的是（）。A)刷脸办电B)舆情分析C)信通巡检机器人D)以上答案都正[单选题]97.以下关于新旧MapReduceAPI的描述错误的是（）A)新I放在org.apache.hadoop.mapreduce包中，而旧I则是放在org.apache.hadoop.mapred中B)新API倾向于使用接口方式，而旧API倾向于使用抽象类C)新API使用nfiguration，而旧API使用Jobnf来传递配置信息D)新API可以使用Job对象来提交作业[单选题]98.数据安全不只是技术问题，还涉及到（）。A)人员问题B)管理问题C)行政问题D)领导问题[单选题]99.SPARK默认的存储级别A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_AND_DISKD)MEMORY_AND_DISK_SE[单选题]100.下面算法中属于图像锐化处理的是（）。A)低通滤波B)加权平均法C)高通滤波D)中值滤[单选题]101.info='abc'info[2]='d'输出结果是（）。A)TypeError:'str'objectdoesnotsupportitemassignmentB)bC)cD)d[单选题]102.假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分（）。A)设C=1B)设C=0C)设无穷大D)以上答案都不正[单选题]103.MapReduce编程模型，键值对<key,value>的key必须实现哪个接口（）A)WritableComparable；B)Comparable；C)Writable；D)LongWritable；[单选题]104.（）是从（多条）信息中发现的共性规律、模式、模型、理论、方法。A)信息B)数据C)知识D)智慧[单选题]105.视觉通道表现力评价指标不包括（）。A)精确性B)可辨认性C)可分离性D)可转换性[单选题]106.随机森林与Bagging中基学习器多样性的区别是（）。A)都来自样本扰动B)都来自属性扰动C)来自样本扰动和自属性扰动D)多样本集结[单选题]107.以下哪个参数可以使数组计算沿指定轴进行应用操作（）。A)axisB)inplaceC)dataD)dtype[单选题]108.Redis中String数据类型不含以下哪种操作?A)mgetB)sizeC)strlenD)appen[单选题]109.任一随机事件出现的概率为（）A)在-1与1之间B)小于0C)不小于1D)在0与1之间[单选题]110.以下不属于大数据在社会活动中的典型应用的是（）。A)美团实现了快速精准的送餐服务B)享单车、滴滴打车方便了人们的日常出行C)快递实现了订单的实时跟踪D)供电公司提供电费账单查询[单选题]111.下列关于描述性分析与探索性分析描述正确的是（）。A)描述性分析是相对于验证性分析的一种提法B)探索性分析是探索性性分析的基础C)探索性分析是相对于验证性分析的一种提法D)探索性分析是数据分析的第一步[单选题]112.在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题（）。A)增加训练集量B)减少神经网络隐藏层节点数C)删除稀疏的特征D)SVM算法中使用高斯核/RBF核代替线性[单选题]113.美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（）。A)在数据基础上倾向于全体数据而不是抽样数据B)在分析方法上更注重相关分析而不是因果分析C)在分析效果上更追究效率而不是绝对精确D)在数据规模上强调相对数据而不是绝对数据[单选题]114.ElasticSearch存放所有关键词的地方是A)字典B)关键词C)词典D)索[单选题]115.在k近邻学习算法中，随着k的增加，上界将逐渐降低，当k区域无穷大时，上界和下界碰到一起，k近邻法就达到了（）。A)贝叶斯错误率B)渐进错误率C)最优值D)上[单选题]116.讨论变量之间的关系，主要有三个方法：（）、方差分析和回归分析A)参数分析B)逻辑分析C)假设分析D)相关分析[单选题]117.?数据的故事化描述?是指为了提升数据的（）和（），将数据还原成关联至特定的情景的过程。A)可理解性可记忆性可体验性B)可接受性可记忆性可体验性C)可接受性可记忆性可呈现性D)可理解性可记忆性可呈线性[单选题]118.在Hadoop中，下面哪个是默认的InputFormat类型，它将每行内容作为新值，而将字节偏移量作为key（）。A)FileInputFormatB)TextInputFormatC)KeyValueTextInputFormatD)CombineTextInputForma[单选题]119.下列关于支持向量的说法正确的是（）。A)到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量B)训练集中的所有样本点都是支持向量C)每一类样本集中都分别只有一个支持向量D)支持向量的个数越多越[单选题]120.假负率是指（）。A)正样本预测结果数/正样本实际数B)被预测为负的正样本结果数/正样本实际数C)被预测为正的负样本结果数/负样本实际数D)负样本预测结果数/负样本实际[单选题]121.假设你在卷积神经网络的第一层中有5个卷积核，每个卷积核尺寸为7×7，具有零填充且步幅为1。该层的输入图片的维度是224×224×3。那么该层输出的维度是多少（）A)217x217x3B)217x217x8C)218x218x5D)220x220x[单选题]122.在著名管理学家ThomasH.Davernport在《哈佛商业论坛》上发表的题为《第三代分析学(Analytics3.0)》的经典论文中，Analytics3.0时代是指（）。A)商务智能时代B)大数据时代C)数据富足供给时代D)数据智能时代[单选题]123.一幅数字图像是：()A)一个观测系统B)一个有许多像素排列而成的实体C)一个2-D数组中的元素D)一个3-D空间的场景[单选题]124.可用信息增益来进行决策树的（）。A)树高B)叶子结点数C)总结点数D)划分属性选[单选题]125.Kafka对于某一topic中指定数据默认保存时间为（）A)12小时B)24小时C)48小时D)168小[单选题]126.阅读下面的程序：deffunc():print(x)x=100func()执行上述语句后，输出的结果为()。A)0B)100C)程序出现异常D)程序编译失败[单选题]127.假设有4个数据节点，每个节点上有2个主DN实例，那么每个节点上有几个DN实例：A)4个B)6个C)8个D)12[单选题]128.geoplotlib是一个用于制作（）相关数据的工具箱。A)物理B)地图和地理C)生物D)化学[单选题]129.支持向量回归与传统回归模型的差别（）。A)模型输出与真实值相同B)模型输出与真实值存在ε偏差C)模型输出大于真实值D)模型输出小于真实[单选题]130.关于情感分析描述正确的是（）。A)情感分析的难点是语句太长导致精度降低B)为了降低复杂度,循环神经网络无需添加LSTM结构C)对文本进行停用词处理不可以提高情感分析的计算精度D)对文本进行无关词处理不可以提高情感分析的计算精[单选题]131.执行一个job，如果这个job的输出路径已经存在，那么程序会（）A)覆盖这个输出路径B)抛出警告，但是能够继续执行C)抛出一个异常，然后退出D)创建一个新的输出路径[单选题]132.数据预处理方法不包括（）。A)数据清洗：去噪声和无关数据B)数据集成：将多个数据源中的数据结合起来存在一个一致的数据存储中C)数据变换：把原始数据转换成为适合数据挖掘的形式D)数据转化：把连续数据转换为离散数据[单选题]133.请把下划处的代码补充完整：______intostudent(s_name)______(?王大军?);A)update,valuesB)insert,valueC)insert,valuesD)delete,lik[单选题]134.在抽样估计中，随着样本容量的增大，样本统计量接近总体参数的概率就越大，这一性质称为（）A)无偏性B)有效性C)及时性D)一致[单选题]135.建立在相关关系分析法基础上的预测是大数据的（）。A)基础B)前提C)核心D)条件[单选题]136.Python中的os模块常见方法描述错误的是（）。A)os.remove()删除文件B)os.rename()重命名文件C)os.walk()读取所有的目录名D)os.chdir()改变目录[单选题]137.Task运行在下来哪里个选项中Executor上的工作单元A)DriverprogramB)sparkmasterC)workernodeD)Clustermanage[单选题]138.（）模块是python标准库中最常用的模块之一。通过它可以获取命令行参数，从而实现从程序外部向程序内部传递参数的功能，也可以获取程序路径和当前系统平台等信息。A)sysB)platformC)mathD)time[单选题]139.点击率问题是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集.假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是:（）。A)模型预测准确率已经很高了,我们不需要做什么了B)模型预测准确率不高,我们需要做点什么改进模型C)无法下结论D)以上答案都不正确[单选题]140.在数据科学中，通常可以采用（）方法有效避免数据加工和数据备份的偏见。A)B测试B)训练集和测试集的划分C)测试集和验证集的划分D)图灵测[单选题]141.在神经网络学习中，感知机输出层中的M-P神经元通常被称为（）。A)阈值逻辑单元B)激活函数C)挤压函数D)连接函[单选题]142.下列关于数据转换，正确的是（）。A)json内的取值只能有统一格式B)pdf文件在不同平台上打开显示不同C)可以通过python将csv文件转换成Excel格式D)excel存储数据的量无限制[单选题]143.如果python程序中包括零运算，解释器将在运行时抛出()错误信息（）。A)NameErrorB)FileNotFoundErrorC)SyntaxErrorDZeroD)ivisionError[单选题]144.a=[[1.，2.，1.],[1.，2.，1.]]，a+3的值为（）。A)[[1，2，1],[4，5，4]]B)[[4，5，4],[4，5，4]]C)[[4，5，4],[1，2，1]]D)以上答案都不正确[单选题]145.对一幅100*100像素的图像，若像元用8bit表示灰度值，霍夫曼编码压缩后的图像数据量为40000bit，则图像压缩比例为（）。A)2:1B)3:1C)4:1D)1:2[单选题]146.（）是人们从（多条）信息中发现的共性规律、模式、模型、理论和方法等。A)信息B)知识C)理解D)智慧[单选题]147.stats()函数不能求以下哪个值（）。A)均值B)方差C)峰度D)众数[单选题]148.下列极大似然估计描述错误的是(__)。A)极大似然估计先假定其具有某种确定的概率分布形式；B)极大似然估计没有确定的概率分布形式；C)概率模型的训练过程就是参数估计；D)贝叶斯学派认为参数本身也有分布，是未观察的随机变量[单选题]149.对参数进行L2正则，是机器学习常用的防止过拟合的方法。请问对参数做L2正则，下列（）是对参数本身做先验分布假设。A)高斯分布B)拉普拉斯分布C)泊松分布D)均匀分[单选题]150.关于Python的全局变量和局部变量，以下选项中描述错误的是（）。A)局部变量指在函数内部使用的变量，当函数退出时，变量依然存在，下次函数调用可以继续使用B)使用global保留字声明简单数据类型变量后，该变量作为全局变量使用C)简单数据类型变量无论是否与全局变量重名，仅在函数内部创建和使用，函数退出后变量被释放D)全局变量指在函数之外定义的变量，一般没有缩进，在程序执行全过程有效[单选题]151.在数据科学项目的活动流程中，（）主要回答的是?我们用什么方式记录和展现数据结果?。A)数据的获得与管理B)模式/模型的验证和优化C)结果的可视化与文档化D)模式/模型的应用及维护[单选题]152.以下代码的输出结果为（）。A=np.array([[5,3,2],[2,4,0]])N=np.sort(a，axis=None)Print(n)A)[022345]B)[543220]C)[[230][542]]D)[[235][024]][单选题]153.在Python中，下列不是int整型数据的是（）。A)160B)010C)-78D)0x234[单选题]154.下列语句中，哪个在Python中是非法的?A)x=y=z=1B)x=(y=z+1)C)x,y=y,xD)x+=y[单选题]155.下列哪个算法可以用于特征选择：（）。A)朴素贝叶斯B)感知器C)支持向量机D)决策树[单选题]156.当Kafka中日志片段大小达到（）时，当前日志片段会被关闭。A)1MB)100MC)1GBD)10G[单选题]157.Hbase依靠（）存储底层数据。A)HDFSB)HadoopC)MemoryD)MapReduce[单选题]158.下面哪个操作肯定是宽依赖A)mapB)flatMapC)reduceByKeyD)sampl[单选题]159.下面哪个操作是窄依赖A)joinB)filterC)groupD)sor[单选题]160.数据产品开发工作之中需要特别注意的基本活动不包括（）。A)创造性设计B)数据洞见C)虚拟化D)个性化描述[单选题]161.将一副图像进行分割后，分割出的区域彼此之间(__)重叠。A)可以B)不可以C)根据任务需要确定是否可以D)根据分割方法确定是否可[单选题]162.关于Hadoop命令，下列描述错误的是（）A)hadoopfs，不仅可用于Hadoop文件系统也可以用于其他文件系统B)hadoopdfs，专门针对hdfs分布式文件系统C)相比于hdfsdfs，更推荐使用hadoopdfsD)当使用hadoopdfs时内部会被转为hdfsdfs命[单选题]163.ApacheSqoop主要设计目的是（）。A)数据清洗B)数据转化C)数据ETLD)数据可视化[单选题]164.下面哪一个命令是spark运行pi的命令A)run-exampleSparkPi2B)Spark-shellSparkPi2C)hadoop-daemonjarSparkPi2D)yarnjarSpark[单选题]165.有两个样本点，第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是（）。A)2x+y=4B)x+2y=5C)x+2y=3D)2x-y=[单选题]166.一幅512*512的图像，若灰度级数为16，则该图像大小为（）。A)32KBB)128KBC)1MBD)2M[单选题]167.Numpy中对数组进行转置的函数是哪个（）。A)transpose()B)rollaxis()C)swapaxes()D)tan()[单选题]168.下列哪种去噪方法能较好的保持图像边缘（）。A)中值滤波B)双边滤波C)均值滤波D)高斯滤[单选题]169.关于表述数据可视化在数据科学中重要地位说法中，下列不正确的是（）。A)视觉是人类获得信息的最主要途径B)数据可视化处理可以洞察统计分析无法发现的结构和细节C)数据可视化处理结果的解读对用户知识水平的要求较高D)可视化能够帮助人们提高理解与处理数据的效率[单选题]170.以下说法正确的是（）。A)关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。B)寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式C)数据挖掘的主要任务是从数据中发现潜在的规律，从而能更好的完成描述数据、预测数据等任务。D)在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差[单选题]171.在k-均值算法中，以下哪个选项可用于获得全局最小（）A)尝试为不同的质心（centroid）初始化运行算法B)调整迭代的次数C)找到集群的最佳数量D)以上答案都正[单选题]172.机器学习算法在学习过程中对某种类型假设的偏好，称为（）。A)训练偏好B)归纳偏好C)分析偏好D)假设偏[单选题]173.（）用于将非线性引入神经网络。它会将值缩小到较小的范围内。A)损失函数B)优化函数C)激活函数D)目标函[单选题]174.np.floor([-1.7,1.5,-0.2,0.6,10])的输出结果是（）。A)[-1,1,0,0,10]B)[-2.,1.,-1.,0.,10.]C)[-1.,1.,-1.,0.,10.]D)[-2.,1.,0.,0.,10.][单选题]175.（）算法是一种最有影响的挖掘关联规则频繁项目集的算法。A)FP-growthB)EClatC)聚类D)Apdor[单选题]176.HDFS集群中的namenode职责不包括（）A)维护HDFS集群的目录树结构B)维护HDFS集群的所有数据块的分布、副本数和负载均衡C)负责保存客户端上传的数据D)响应客户端的所有读写数据请求[单选题]177.数据仓库仅仅是提供存储的，提供一种()的服务，不面向最终分析用户，而数据集市是()的，面向最终用户。A)面向分析应用.面向数据管理B)面向事务交互.面向数据管理C)面向数据管理.面向分析应用D)面向分析应用.面向事务交[单选题]178.（）是指通过训练而得到一种识别规则，通过此识别规则可以得到一种特征分类，使图像识别技术能够得到高识别率。A)预处理B)特征抽取和选择C)分类器设计D)分类决[单选题]179.目前，多数NoSQL数据库是针对特定应用场景研发出来的，其设计遵循（）原则，更加强调读写效率、数据容量以及系统可扩展性。A)EY原则B)READ原则C)BASE原则D)BASIC原则[单选题]180.数据集成的基本类型。A)内容集成结构集成B)内容集成规约集成C)规约集成结构集成D)模式集成结构集成参[单选题]181.神经网络感知机只有(__)神经元进行激活函数处理，即只拥有一层功能神经元。A)输出层B)输入层C)感知层D)网络[单选题]182.以下哪个不属于数据治理的内容。A)理解自己的数据B)行为规范的制定C)岗位职责的定义D)获得更多的数据[单选题]183.对文本数据处理，通常采用（）核函数。A)多项式核B)sigmoid核C)线性核D)拉普拉斯[单选题]184.关于神经网络结构的权重共享现象，下面哪个选项是正确的（）A)只有全连接神经网络会出现B)只有卷积神经网络(CNN)会出现C)只有循环神经网络(RNN)会出现D)卷积神经网络和循环神经网络都会出[单选题]185.图像的形态学处理方法包括（）。A)图像增强B)图像锐化C)图像分割D)腐蚀[单选题]186.词袋模型、TF-IDF、word2vec等模型都有着同样的作用是（）。A)文本情感分析B)文本特征向量化C)文本特征离散化D)文本特征分布式[单选题]187.卷积神经网络能通过卷积以及池化等操作将不同种类的鸟归为一类。关于卷积神经网络能达到该效果的原因，下列说法不正确的是（）。A)同样模式的内容（如鸟嘴）在图像不同位置可能出现B)池化之后的图像主体内容基本不变C)不同种类鸟的相同部位（如鸟嘴）形状相似D)池化作用能使不同种类鸟变得相[单选题]188.数据管理成熟度模型中成熟度等级最高是哪一级（）。A)已优化级B)已测量级C)已定义级D)已管理级[单选题]189.下列关于分词的说法正确的是（）A)中文句子字之间没有空格，无法分词B)一个句子的分词结果是唯一的C)中文分词是将一系列无空格间隔字符串分割成一系列单词的过程D)分词没有实际应用价[单选题]190.数据可视化技术可以将所有数据的特性通过（）的方式展现出来A)文字B)图C)表格D)树[单选题]191.数据的原始内容及其备份数据，是数据产品的研发的哪个阶段（）。A)零次数据B)一次数据C)二次数据D)采集数据[单选题]192.信息增益对可取值数目（）的属性有所偏好，增益率对可取值数目（）的属性有所偏好。A)较高，较高B)较高，较低C)较低，较高D)较低，较[单选题]193.下列关于RBM说法错误的是(__)。A)学习过程很快B)R训练可以看作对一个深层网络的网络权值参数的初始化C)RBM不用人工选择特征D)RBM有标签样本[单选题]194.线性判别分析（LDA）从贝叶斯决策理论阐释，当两类数据同先验且满足（）时，LDA达到最优分类。A)满足高斯分布B)协方差相等C)满足高斯分布且协方差相等D)协方差不[单选题]195.二维图像可用二维函数表示，下列说法正确地是（）。A)表示点的灰度值B)对于模拟图像来讲，是离散函数C)x，y不是平面的二维坐标D)以上答案都不正第2部分：多项选择题，共65题，每题至少两个正确答案,多选或少选均不得分。[多选题]196.我们想要训练一个ML模型，样本数量有100万个，特征维度是5000，面对如此大数据，如何有效地训练模型（）A)对训练集随机采样，在随机采样的数据上建立模型B)尝试使用在线机器学习算法C)使用PCA算法减少特征维度[多选题]197.下面有关HTML叙述正确的是（）。A)一个HTML文件可以用记事本来编辑B)HTML的意思是超文本标记语言C)一个HTML文件必须是一个以htm或html为扩展名的文件D)HTML区分大小写,如写成<B>是错误的[多选题]198.集成学习中多样性的增强有哪些（）A)数据样本扰动B)输入属性扰动C)输出表示扰动D)算法参数扰[多选题]199.以下选项对GraphBase概念描述正确的是?A)Edge:边，用于表示关系度B)VertexLabel:节点的标签，用于表示现实世界中的实体类型C)Vertex:节点/顶点，用于表示现实世界中的实体对象D)EdgeLabel:边的标签，用于表示现实世界中的关系类[多选题]200.GTM负责生成和维护下列哪些信息：A)全局事务IDB)事务快照C)时间戳D)执行计[多选题]201.DWS提供的用于数仓迁移的工具包括以下哪些：A)DBSB)GDSC)MigrationToolD)TransferToo[多选题]202.客户端使用get方式读取HBase用户数据时，需要查询meta表哪些数据?A)Region分裂时间B)Region大小C)RegionServer地址D)Region起始rowkey[多选题]203.变量名可以包含（）。A)字母B)数字C)下划线D)空格[多选题]204.?以数据为中心?是数据产品区别于其他类型产品的本质特征，表现在（）方面。A)数据驱动B)数据密集型C)数据范式D)数据可视化[多选题]205.下面关于Hive中join优化的描述正确的是（）A)大表JOIN小表时，谁先谁后无所谓，执行计划、效率都是一样的B)大表JOIN小表时，使用mapjoin会极大地提升性能，因为它会将小表存储在磁盘里面供大表读取C)大表JOIN大表时，不妨可以先尝试将一个表进行表剪裁、列剪裁，将大表JOIN大表的问题转换为大表JOIN小表D)WITHAS语法可以将查询写入内存中，供其他SQL使用，WITHAS本身支持嵌套子查询[多选题]206.下面属于词袋模型的缺点的是（）。A)词汇表的词汇需要经过精心设计B)表示具有稀疏性C)丢失词序忽略了上下文D)模型复杂，不利于实施[多选题]207.下列属于文本处理流程的是（）。A)NormalizationB)TokenizationStopwordsC)Part-of-speechTaggingD)NamedEntityRecognitio[多选题]208.常用的冲突消解策略有包括（）。A)投票法B)排序法C)元规则法D)调研[多选题]209.下列关于极大似然估计（MaximumLikelihoodEstimate，MLE），说法正确的是(__)。A)MLE可能并不存在B)MLE总是存在C)如果MLE存在，那么它的解可能不是唯一的D)如果MLE存在，那么它的解一定是唯一[多选题]210.以下属于HCS8.0.2版本DAYU数据开发功能的是：A)开发并定期运行SQL脚本B)依据业务逻辑，编辑作业，监控作业运行情况C)整合数据源数据，开发API并对外发布D)进行数据批量及实时迁[多选题]211.长短时记忆神经网络三个门是哪些（）A)进化门B)输出门C)输入门D)遗忘门[多选题]212.做一个二分类预测问题，先设定阈值为0.5，概率大于等于0.5的样本归入正例类（即1），小于0.5的样本归入反例类（即0）。然后，用阈值n（n>0.5）重新划分样本到正例类和反例类，下面哪一种说法正确（）。A)增加阈值不会提高召回率B)增加阈值会提高召回率C)增加阈值不会降低查准率D)增加阈值会降低查准率[多选题]213.在Hive架构中支持对数据的操作有（）。A)插入B)查询C)删除D)分析；[多选题]214.Spark容错性的方式有哪些（）。A)数据检查点；B)存储原始数据；C)记录数据的更新；D)自建数据版本；[多选题]215.若b=np.array([True,False,False])，以下能输出[FalseTrueTrue]的是（）。A)print(b-1)B)print(~b)C)print(np.logical_not(b))D)print(>>b)[多选题]216.以下方法中可用于图像分割的有（）。A)霍夫曼编码B)分水岭算法C)K-meansD)区域增长[多选题]217.在词袋模型中使用单个的单词来构建词向量这样的序列被称为（）。A)1元组(1-gram))B)单元组(unigram)模型C)列表D)字[多选题]218.如将A、B、C三个分类器的PR曲线画在一个图中，其中A、B的PR曲线可以完全包含住C的PR曲线，A与B的PR曲线有交点，A、B、C的平衡点分别为0.79、0.66、0.58，以下说法中正确的是（）。A)学习器性能优于学习器CB)学习器A的性能优于学习器BC)学习器B的性能优于学习器CD)学习器C的性能优于学习器[多选题]219.以下属于图像平滑算法的是（）。A)中值滤波B)均值滤波C)邻域平均法D)高斯滤[多选题]220.下列关于spark中的RDD描述正确的有（）。A)RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是spark中最基本的数据抽象；B)Resilient:表示弹性的；C)Destributed:分布式，可以并行在集群计算；D)Dataset:就是一个集合，用于存放数据的；[多选题]221.以下关于L1和L2范数的描述，正确的是：（）。A)L1范数:为x向量各个元素绝对值之和。B)L2范数:为x向量各个元素平方和的1/2次方，L2范数又称Euclidean范数或Frobenius范数C)L1范数可以使权值稀疏，方便特征提取D)L2范数可以防止过拟合，提升模型的泛化能力。[多选题]222.在Python中，执行importdatetimeasdt语句后，如下时间或日期定义方式正确的是（）。A)dt.datetime(2019,12,12,23,23,23)B)dt.datetime(2019,0,0,23,23,23)C)dt.datetime(2019,12,12,0)D)dt.time(23,23,23)[多选题]223.特征选择的目的：（）。A)减少特征数量、降维B)使模型泛化能力更强C)增强模型拟合能力D)减少过拟合[多选题]224.下列对字符串函数或方法说法正确的有（）。A)istitle()如果字符串是标题化的(见title())则返回True，否则返回FalseB)max(str)返回字符串str中最大的字母。C)replace(old,new,max)把将字符串中的str1替换成str2,如果max指定，则替换不超过max次D)upper()转换字符串中所有大写字符为小写[多选题]225.下面属于范数规则化的作用的是（）和（）。A)保证模型尽可能的简单，避免过拟合B)约束模型特征C)最小化问题D)最大化问[多选题]226.关于数据产品研发，下列说法错误的是（）。A)从加工程度看，可以将数据分为一次数据、二次数据和三次数据B)一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题C)二次数据是对一次数据进行深度处理或分析后得到的?增值数据?D)三次数据是对二次数据进行洞察与分析后得到的、可以直接用于决策支持的?洞见数据?[多选题]227.关于数据组织的维度，以下选项中描述正确的是（）。A)数据组织存在维度，字典类型用于表示一维和二维数据B)高维数据有键值对类型的数据构成，采用对象方式组织C)二维数据采用表格方式组织，对应于数学中的矩阵D)一维数据采用线性方式组织，对应于数学中的数组和集合等概念[多选题]228.下列关于PCA说法正确的是（）。A)在使用PC之前，我们必须标准化数据B)应该选择具有最大方差的主成分C)应该选择具有最小方差的主成分D)可以使用PCA在低维空间中可视化数[多选题]229.决策树（）情况下会导致递归返回。A)当前节点包含的样本全属于同一类B)当前属性集为空C)当前节点包含的样本集合为空D)所有样本在所有属性上取值相[多选题]230.MaxComputeSQL采用的是类似于SQL的语法，适用于海量数据，实时性要求不高的场合。关于MaxComputeSQL，以下说法正确的包括:（）。A)MaxCompute可以等价成一个数据库，可以完成事务及回滚的功能B)MaxCompute的每个作业准备以及提交都需要花费较长时间，因此不适用对于要求响应时间较短的准实时查询C)MaxComputeSQL支持多种操作，如含join,where,orderby,groupby等D)MaxComputeSQL包括的数据类型有Bigint,Float,Double,String,DateTime,Boolean[多选题]231.请问下面哪些是离散型变量（）。A)示波器B)心电图及脑动电图扫描器对脑电波的测量C)过去数月的总销售额D)公司每年的红利[多选题]232.以下属于自然语言处理范畴的是（）。A)情感倾向分析B)评论观点抽取C)文章分类D)新闻摘要抽[多选题]233.循环神经网络主要被应用于哪些场景(__)。A)语音识别B)语音建模C)机器翻译D)图像识[多选题]234.数据管理指对数据生命周期的每个阶段里可能引发的各类数据质量问题，进行（）等一系列管理活动，并通过改善和提高组织的管理水平是的数据质量获得进一步提高。A)识别B)度量C)监控D)预警[多选题]235.Spark的部署模式包括（）。A)本地模式B)standalone模式C)SparkonyarnD)mesos模式[多选题]236.下列哪些是传统RDBMS的缺点（）A)表结构schema扩展不方便B)全文搜索功能较弱C)大数据场景下I/O较高D)存储和处理复杂关系型数据功能较弱[多选题]237.HIS表色系的三属性包含：（）。A)色调B)色饱和度C)亮度D)色[多选题]238.数据来源和目标用户已定的情况下，不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括（）。A)精确性B)可辨认性C)可分离性D)视觉突出性[多选题]239.随机森林的随机性主要体现在（）。A)决策树选择的随机性B)数据集的随机性C)待选特征的随机性D)参数选择的随机性[多选题]240.线性模型的基本形式有（）。A)线性回归B)对数几率回归（二分类问题）C)线性判别分析（Fisher判别分析）D)多分类学[多选题]241.以下关于HTML标签嵌套规则的说法，正确的是（）。A)块元素可以包含内联元素或某些块元素，但内联元素也可以包含块元素B)HTML标签包括块级元素和内嵌元素C)内嵌元素一般用在网站内容之中的某些细节或部位，用以?强调区分样式上标下标锚点?等，通常包括：aabbrbbrfontiimginputkbdlabelqsselectsmallspansubttuvar等D)其中块级元素一般用来搭建网络架构布局承载内容，通常包括的标签有：addressdirdivdldtddformh1~h6hrisindexmenunoframesnoscriptolppretableul等[多选题]242.Hadoop中map输出结果说法正确的是（）。A)键值对B)输出中间临时结果C)输出最终计算结果D)输出结果永久保[多选题]243.以下描述中正确的是（）。A)统计学是数据科学的理论基础之一B)Python语言是统计学家发明的语言C)机器学习是数据科学的理论基础之一D)数据科学是统计学的一个分支领域（子学科）[多选题]244.在BP网络中，常用于缓解其过拟合的策略有（）。A)早停策略B)正则化策略C)全局最小策略D)局部最小策[多选题]245.大数据平台的计算组件主要有哪几个（）。A)StormB)SparkC)MapreduceD)Sqoop[多选题]246.在正则化公式中，λ为正则化参数，关于λ描述正确的是（）。A)若正则化参数λ过大，可能会导致出现欠拟合现象B)若λ的值太大，则梯度下降可能不收敛C)取一个合理的λ值，可以更好的应用正则化D)如果令λ的值很大的话，为了使CostFunction尽可能的小，所有θ的值（不包括θ0）都会在一定程度上减小[多选题]247.以下说法正确的是（）。A)条件独立性假设不成立时，朴素贝叶斯分类器仍有可能产生最优贝叶斯分类器B)在估计概率值时使用的拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题C)由于马尔可夫链通常很快就能趋于平稳分布，因此吉布斯采样算法的收敛速度很快D)二分类任务中两类数据满足高斯分布且方差相同时，线性判别分析产生贝叶斯最优分类器[多选题]248.Hadoop的HDFS是一种分布式文件系统，适合以下哪种场景的数据存储和管理（）。A)大量小文件存储B)高容错、高吞吐量C)低延迟读取D)流式数据访[多选题]249.下面关于中心极限定理的说法，正确的是：A)中心极限定理说明，对于大量相互独立的随机变量，其均值的分布以正态分布为极限B)中心极限定理说明，对于大量相互独立的随机变量，其均值的分布以t分布为极限C)中心极限定理为Z检验提供了理论支持D)中心极限定理是数理统计学和误差分析的基础[多选题]250.下列哪个是Hadoop运行的模式（）。A)单机版B)伪分布式C)分布式D)全分布式[多选题]251.关于梯度消失和梯度消失，以下说法正确的是：(__)。A)根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话，那么即使这个结果是0.99，在经过足够多层传播之后，误差对输入层的偏导会趋于0B)可以采用ReLU激活函数有效的解决梯度消失的情况C)根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话，在经过足够多层传播之后，误差对输入层的偏导会趋于无穷大D)可以通过减小初始权重矩阵的值来缓解梯度爆[多选题]252.Flume特点包括（）。A)分布式B)高可靠C)高容错D)易于定制和扩展[多选题]253.下列哪些情况下SOL自诊断可以识别，并上报告警信息?A)数据倾斜。B)SQL语句不下推。C)大表Broadcast.D)HashJoin中大表做内表[多选题]254.DGI定义的数据治理任务包括（）。A)数据质量的评估B)主动定义或序化规则C)为数据利益相关者提供持续跨职能的保护与服务D)应对并解决因不遵守规则而产生的问题[多选题]255.MaxcomputeSQL支持的Join操作类型包括:（）。A)INNERB)LEFTC)FULLD)RIGHT[多选题]256.Spark的技术架构可以分为哪几层（）。A)资源管理层；B)Spark核心层；C)应用层；D)服务层；[多选题]257.一个监督观测值集合会被划分为（）。A)训练集B)验证集C)测试集D)预处理[多选题]258.特征工程一般需要做哪些工作（）。A)正则化B)标准化C)特征处理D)特征选择[多选题]259.Yarn的调度机制有哪几种是__。A)FIFOB)CapacityC)FairD)Line[多选题]260.下列方法中，可以用于特征降维的方法包括（）。A)主成分分析PCAB)线性判别分析LDAC)深度学习SparseAutoEncoderD)矩阵奇异值分解SVD1.答案:B解析:第一数字定律表示，数字?1?的使用最多接近三分之一，?2?为17.6%，?3?为12.5%，依次递减，?9?的频率是4.6%。2.答案:A解析:SVM模型出现欠拟合，表明模型过于简单，需要提高模型复杂度。C值越大，相应的模型越复杂。3.答案:C解析:4.答案:B解析:进行主成分分析的前提条件是，各变量间低度相关。5.答案:B解析:6.答案:A解析:线性回归分析中，目标是残差最小化。残差平方和是关于参数的函数，为了求残差极小值，令残差关于参数的偏导数为零，会得到残差和为零，即残差均值为零。7.答案:D解析:传统关系数据库中，先定义模式，然后严格按照模式要求存储数据；当需要调整模式时，不仅需要数据结构，而且还需要修改上层应用程序。然而，NoSQL技术则采用了非常简单的Key-Value等模式在后（SchemaLater）和无模式（Schemaless）的方式提升了数据管理系统的自适应能力。当然，模式在后（SchemaLater）和无模式（Schemaless）也会带来新问题，如降低了数据管理系统的数据处理能力。8.答案:C解析:图像的主要成分是低频信息，它形成了图像的基本灰度等级，对图像结构的决定作用较小；中频信息决定了图像的基本结构，形成了图像的主要边缘结构；高频信息形成了图像的边缘和细节，是在中频信息上对图像内容的进一步强化。9.答案:C解析:10.答案:D解析:DMM（数据管理成熟度模型）中?已管理级?基本特点的正确表述是组织机构的数据管理工作超出了项目管理的范畴，由组织机构统一管理了其数据管理关键过程。11.答案:D解析:LSTM在RNN基础上进行了改进，能够学习到长期依赖关系，因此是RNN的一个变种。12.答案:A解析:大数据参考架构围绕代表大数据价值链的信息价值链（水平轴）和IT价值链（垂直轴）两个维度组织展开13.答案:C解析:SLIC是基于K-means算法的生成超像素新方法，SLIC是超像素中心周围的区域2S×2S中进行类似像素的搜索14.答案:D解析:随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点。全体样本点组成的集合，即随机试验的所有可能出现的结果称为这个试验的样本空间。15.答案:D解析:情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，情感分类不属于邻域相关的问题，不涉及样本的正负类别分布不平衡的问题，不属于nlp范围。16.答案:B解析:类的实例方法必须创建对象后才可以调用。17.答案:B解析:18.答案:D解析:Mapreduce适用于并行处理的应用程序19.答案:D解析:多分类LDA将样本投影到N-1维空间，N-1通常远小于数据原有的属性数，可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。20.答案:D解析:边缘检测算法是标识数字图像中亮度变化明显的点，不属于区域算法发范畴。21.答案:C解析:22.答案:D解析:LogisticRegression是一个分类算法，所以它的输出不能是实时值，所以均方误差不能用于评估它。23.答案:A解析:KNN只是取了最近的几个样本点做平均，离预测数据较远的训练数据对预测结果不会造成影响，但是svm、Bayes和NN每一个训练样本果都会对预测结果产生影响。24.答案:A解析:AlexNet网络用ReLU代替sigmoid，效果得到大幅提升。25.答案:B解析:26.答案:C解析:27.答案:C解析:如果规则集R中不存在两条规则被同一条记录触发，则称规则集R中的规则为互斥规则。28.答案:C解析:决策树模型的规模复杂可能产生过拟合，因此并非越复杂做好，应适当限制其复杂程度。29.答案:A解析:词向量模型考虑通过中间词预测邻近词，需要考虑词语顺序位置。30.答案:C解析:决策树深度越深，在训练集上误差会越小，准确率越高。但是容易造成过拟合，而且增加模型的训练时间。对决策树进行修剪，减小树的深度，能够提高模型的训练速度，有效避免过拟合。31.答案:C解析:图像的平滑处理不会损坏图像的轮廓及边缘等重要信息，使得图像清晰视觉效果好。32.答案:C解析:绝对多数投票法若某标记得票过半数，则预测为该标记;否则拒绝预测。33.答案:A解析:A循环次数为11次；B循环次数为10次；C循环次数为10次；D循环次数为10次。34.答案:C解析:聚类算法的性能度量可称为有效性指标。35.答案:C解析:深度学习基础知识。36.答案:A解析:Python注释语句会被解释器过滤掉，不被执行。37.答案:D解析:pivot_table用于创建数据透视表。38.答案:D解析:情感分析又称意见挖掘、倾向性分析等，是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，包括情感分类、观点抽取、观点问答等，没有段落匹配39.答案:C解析:SecondaryNameNode并不是namenode节点的备份。所以A错。;存储在HDFS集群上的数据是不支持随机修改和删除的，只支持追加，所以B错；namenode和datanode之间的通信是基于一种心跳机制。该机制不是长连接。是短连接形式。每次发送一个数据包（自身状态信息+数据块信息）即可，所以D错。40.答案:C解析:HBase是列式存储，以流的方式在列中存储所有的数据。对于任何记录，索引都可以快速地获取列上的数据。列式存储主要用于非关系型数据库存储。41.答案:D解析:卷积神经网络四种卷积类型：普通卷积，扩张卷积，转置卷积，可分离卷积。42.答案:B解析:组成随机森林的树可以并行生成；而GBDT只能是串行生成43.答案:C解析:整型、浮点型0均可表示False，布尔值可参加运算。44.答案:B解析:当学习器把训练样本学得太好了的时候，很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降这种现象在机器学习中称为过拟合。45.答案:A解析:LDA的思想是投影后类内方差最小，类间方差最大。46.答案:C解析:47.答案:D解析:图像去噪方法有很多，如高斯滤波，属于线性滤波，中值滤波是非线性滤波，还有P-M方程去噪。48.答案:A解析:决策树包含一个根节点、若干内部节点和若干叶节点。叶节点对应于决策结果，其他每个节点则对应于一个属性测试。49.答案:A解析:NameNode负责管理文件系统的命名空间50.答案:C解析:注意布尔运算优先级and>or。51.答案:B解析:*args用来将参数打包成tuple给函数体调用；**kwargs打包关键字参数成dict给函数体调用。52.答案:D解析:水平翻转、随机

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据理论考试(习题卷4)

文档简介

温馨提示

最新文档

评论

相关文档