版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第页大数据题库-综合练习试题1.下列关于循环神经网络设计的叙述错误的是()A、能处理可变长度的序列B、基于图展开思想C、基于参数共享思想D、循环神经网络不可应用于图像数据【正确答案】:D2.标准BP算法的目标是使训练集上的()最小A、累积方差B、累积误差C、累积协方差D、累积偏差【正确答案】:B3.特征工程的目的是()。A、找到最合适的算法B、得到最好的输入数据C、减低模型复杂度D、加快计算速度【正确答案】:B解析:
特征工程的目的是筛选出更好的特征,获取更好的训练数据。4.在MapReduce中,为了发现Worker故障,Master周期性进行的操作是()。A、JoinB、PingCheckD、Connect【正确答案】:B解析:
为了发现Worker故障,Master周期性进行Ping操作。5.变量的不确定性越大,相对应信息熵的变化是()。A、熵变小B、熵变大C、不变D、以上答案都不正确【正确答案】:B解析:
信息熵(informationentropy)是度量样本集合纯度最常用的一种指标,信息熵越大,变量的不确定性越大。6.在著名管理学家Thomas·H.Davernport在《哈佛商业论坛》上发表的题为《第三代分析学(Analytics3.0)》的经典论文中,Analytics3.0时代是指()。A、商务智能时代B、大数据时代C、数据富足供给时代D、数据智能时代【正确答案】:C解析:
Analytics3.0的名称为数据富足供给时代(Data-enrichedOfferings)。与Analytics2.0不同的是,Analytics3.0中数据分析更为专业化,从技术实现和常用工具角度看,Analytics3.0将采用更为专业的分析工具,而不再直接采用Hadoop、Spark、NoSQL等大数据分析技术。同时,数据分析工作也由专业从事数据分析的数据科学家-首席分析师完成,数据科学家的类型将得到进一步细化。7.下列关于词袋模型的说法错误的是()A、词袋模型使用一个多重集对文本中出现的单词进行编码B、词袋模型不考虑词语原本在句子中的顺序C、词袋模型可以应用于文档分类和检索,同时受到编码信息的限制D、词袋模型产生的灵感来源于包含类似单词的文档经常有相似的含义【正确答案】:C8.下列不属于可视化视觉下的数据类型的是()。A、定类数据B、定序数据C、定宽数据D、定比数据【正确答案】:C解析:
从可视化处理视角看,可以将数据分为定类数据、定序数据、定距数据和定比数据4个类型,并采用不同的视觉映射方法。在可视化领域,对数据进行分类分析是由于不同类型的数据可支持的操作类型不同。9.通常落伍者是影响MapReduce总执行时间的主要影响因素之一,为此MapReduce采用()机制来解决。A、分布式计算B、惰性计算C、推测性执行的任务备份D、先进先出【正确答案】:C解析:
MapReduce采用推测性执行的任务备份机制,当作业中大多数的任务都已经完成时,系统在几个空闲的节点上调度执行剩余任务的备份,并在多个Worker上同时进行相同的剩余任务。10.下列项目中:①水平翻转(Horizontalflipping);②随机裁剪(Randomcropping);③随机放缩(Randomscaling);④颜色抖动(Colorjittering);⑤随机平移(Randomtranslation);⑥随机剪切(Randomshearing),在图像识别任务中使用的数据扩增技术(dataaugmentationtechnique)有()A、①③⑤⑥B、①②④C、②③④⑤⑥D、所有项目【正确答案】:D解析:
水平翻转、随机裁剪、随机放缩、颜色抖动、随机平移和随机剪切都是在图像识别任务中使用的数据扩增技术。11.下列关于Sigmoid函数的说法错误的是()A、存在梯度爆炸的问题B、不是关于原点对称C、计算exp比较耗时D、存在梯度消失的问题【正确答案】:A解析:
解析:对于Sigmoid函数,S型函数图像向两边的斜率逼近0,因此随着网络层增加,梯度消失比梯度爆炸更容易发生得多。12.当训练集特征非常多,而实例非常少的时候,可以采用()。A、sigmoid核的支持向量机B、不带核的支持向量机C、高斯核的支持向量机D、多项式核的支持向量机【正确答案】:B解析:
当不采用非常复杂的函数,或者当我们的训练集特征非常多但是实例非常少的时候,可以采用不带核函数的支持向量机。13.著名的C4.5决策树算法使用()来选择最优划分属性。A、信息增益B、增益率C、基尼指数D、均值【正确答案】:B14.()不属于聚类性能度量外部指标。A、Jaccard系数B、FM系数C、Rand指数DB指数【正确答案】:D解析:
聚类常用的外部指标包括Jaccard系数、FM指数、Rand指数;聚类常用的内部指标包括DB指数、Dunn指数。15.考虑某个具体问题时可能只有少量数据,但如果有一个类似问题已经预先训练好的神经网络,则可以有很靠谱的先验。可以利用这个预先训练好的网络的方法是()A、把除了最后一层外所有的层都冻住,重新训练最后一层B、对新数据重新训练整个模型C、只对最后几层进行训练调参(finetune)D、对每一层模型进行评估,选择其中的少数来用【正确答案】:C解析:
解析:如果有个预先训练好的神经网络,就相当于网络各参数有个很靠谱的先验代替随机初始化。若新的少量数据来自先前训练数据(或者先前训练数据量很好地描述了数据分布,而新数据采样自完全相同的分布),则冻结前面所有层而重新训练最后一层即可。但一般情况下,新数据分布跟先前训练集分布有所偏差,所以先验网络不足以完全拟合新数据时,可以冻结大部分前层网络,只对最后几层进行训练调参(finetune)。16.与其他观测值的差别较大,以至于怀疑它是由不同的机制产生的观测值是()。A、边界点B、质心C、离群点D、核心点【正确答案】:C解析:
离群点(outlier)是指数值中远离数值的一般水平的极端大值和极端小值。17.图像中虚假轮廓的出现就其本质而言是()A、图像的灰度级数不够多而造成的B、图像的空间分辨率不够高而造成的C、图像的灰度级数过多而造成的D、图像的空间分辨率过高而造成的【正确答案】:A解析:
图像中的虚假轮廓最易在平滑区域内产生。平滑区域内灰度应缓慢变化,但当图像的灰度级数不够多时会产生阶跃。所以图像中虚假轮廓的出现就其本质而言是图像的灰度级数不够多而造成的,选A。18.概率模型的训练过程就是()过程。A、分类B、聚类C、参数估计D、参数选择【正确答案】:C19.数据科学中,人们开始注意到传统数据处理方式中普遍存在的信息丢失现象,进而数据处理范式变为()。A、从产品在先,数据在后范式转向数据在先,产品在后范式或无模式B、从模式在先,产品在后范式转向产品在先,模式在后范式或无模式C、从数据在先,模式在后范式或无模式转向模式在先,数据在后范式D、从模式在先,数据在后范式转向数据在先,模式在后范式或无模式【正确答案】:D解析:
传统关系数据库中,先定义模式,然后严格按照模式要求存储数据;当需要调整模式时,不仅需要数据结构,而且还需要修改上层应用程序。然而,NoSQL技术则采用了非常简单的Key-Value等模式在后(SchemaLater)和无模式(Schemaless)的方式提升了数据管理系统的自适应能力。当然,模式在后(SchemaLater)和无模式(Schemaless)也会带来新问题,如降低了数据管理系统的数据处理能力。20.留出法直接将数据集划分为()个互斥的集合。A、一B、二C、三D、四【正确答案】:B解析:
留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集T。21.有反馈连接的架构是()A、循环神经网络B、卷积神经网络C、受限玻尔兹曼机D、以上都不是【正确答案】:A解析:
解析:循环神经网络(RNN)的本质特征是在处理单元之间既有内部的反馈连接又有前馈连接。从系统观点看,它是一个反馈动力系统,在计算过程中体现过程动态特性,比前馈神经网络具有更强的动态行为和计算能力。22.2003年,Tableau在斯坦福大学诞生,它起源于一种改变数据使用方式的新技术,即()A、VizQL语言B、SQL语言C、XSQL语言D、NewSQL语言【正确答案】:A解析:
VizQL是一种可视化查询语言,可将拖放动作转化为数据查询,然后以可视化的形式表达数据,是Tableau的起源。23.下列业务场景中,不能直接使用Reducer充当Combiner的是()。A、sum求和B、max求最大值C、count求计数D、avg求平均【正确答案】:D解析:
求平均需要对全部数据进行计算而非部分数据,在不更改业务逻辑的情况,使用Reducer充当Combiner,最终会造成业务结果不正确。24.在线性回归问题中,用R2来衡量拟合的好坏。关于在线性回归模型中增加特征值并再训练同一模型,下列说法正确的是()。A、如果R2上升,则该变量是显著的B、如果R2下降,则该变量不显著C、R2不能完全反映变量重要性,不能就此得出正确结论D、以上答案都不正确【正确答案】:C解析:
R2不能完全表示变量显著性,因为每次加入一个特征值,R2都会上升或维持不变。但在调整R2的情况下这也有误(如果特征值显著的话,调整R2会上升)。25.AGNES是一种采用()策略的层次聚类算法。A、自顶向下B、自底向上C、自左至右D、自右至左【正确答案】:B26.SparkJob默认的调度模式是()。A、FIFOB、FAIRC、无D、运行时指定【正确答案】:A解析:
默认情况下Spark的调度模式是FIFO(先进先出)。27.下列关于数据仓库随时间变化的描述不正确的是()。A、数据仓库随时间的变化不断增加新的数据内容B、捕捉到的新数据会覆盖原来的快照C、数据仓库随时间变化不断删去旧的数据内容D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合【正确答案】:C解析:
一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。28.()用于对RDD中的数据进行计算。A、分区B、算子C、日志D、数据块【正确答案】:B解析:
算子是Spark中定义的函数,用于对RDD中的数据进行操作、转换和计算。29.一篇文章中某些名词的TF-IDF值比较大,则说明()A、这些名词对这篇文章的区分度比较高B、这些名词对这篇文章的区分度比较低C、不能说明什么D、以上答案都不正确【正确答案】:A解析:
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。名词的TF-IDF值越大说明这些名词对这篇文章的区分度越高。30.建立在相关关系分析法基础上的预测是大数据的()。A、基础B、前提C、核心D、条件【正确答案】:C解析:
略。31.随机森林中的随机是指()。A、随便构建树模B、随机选择一个树模型C、随机选择多个树模型D、在构建每个树模型时随机选择样本和特征【正确答案】:D解析:
随机森林里的随机包含的意思是样本随机、特征随机、参数随机、模型随机(ID3,C4.5)。32.线性模型中的权重w可以看做各个属性x的()。A、正则化系数B、对最终决策结果的贡献度C、高维映射D、取值【正确答案】:B33.在Spark中,()是指RDD的每个分区都只被子RDD的一个分区所依赖。A、子分区B、父分区C、宽依赖D、窄依赖【正确答案】:D解析:
窄依赖定义。34.下列具体任务中不属于情感分析的具体任务是哪项()A、情感分类B、观点抽取C、观点问答D、段落匹配【正确答案】:D解析:
情感分析又称意见挖掘、倾向性分析等,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,包括情感分类、观点抽取、观点问答等,没有段落匹配。35.下列不属于数据科学与统计学区别的是(A、数据科学中的数据不仅仅是数值B、数据科学关注的不仅仅是“单一学科”问题,超出了数学、统计学、计算机科学等单一学科的范畴C、数据科学不仅仅是理论研究,也不是纯领域实务知识,它关注和强调的是二者的结合D、数据科学和统计学中的计算一样,仅仅是加减乘除【正确答案】:D解析:
数据科学中的计算并不仅仅是加/减/乘/除等数学计算,而是包括数据的查询、挖掘、洞见、分析、可视化等更多类型的计算。36.基于词的N元文法模型,其最后的粗分结果集合大小()NA、大于B、大于等于C、小于D、小于等于【正确答案】:B解析:
基于N-最短路径分词算法,其基本思想是根据词典,找出字串中所有可能的词,构造词语切分有向无环图。每个词对应图中的一条有向边,并赋给相应的边长(权值)。然后针对该切分图,在起点到终点的所有路径中,求出长度并按严格升序排列(任何两个不同位置上的值一定不等,下同)依次为第1,第2,…,第i,…,第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等,那么他们的长度并列第i,都要列入粗分结果集,而且不影响其他路径的排列序号,最后的粗分结果集合大小大于等于N。37.将观测值分为相同数目的两部分,当统计结果为非对称分布时经常使用的是()。A、众数B、标准差C、中位数D、均值【正确答案】:C解析:
中位数是指一组数据排序后处于中间位置的变量值。38.下列关于新旧MapReduccAPI的描述错误的是()。A、新API放在org.apachB、hadoop.mapreduce包中,而旧API则是放在org.apachC、hadoop.mapred中D、新AP1倾向于使用接口方式,而旧API倾向于使用抽象类E、新API使用Configuration,而旧API使用JobConf来传递配置信息F、新API可以使用Job对象来提交作业【正确答案】:B解析:
在新API中,原来的大量接口都被改成了抽象类。所以使用新API编写MapReduce程序时,都是由实现接口变成抽象类,因此B错。39.下列不属于Transformation操作的是()。A、mapB、filterC、sampleD、count【正确答案】:D解析:
Transformation常用函数为map、filter、flatMap、sample、union、join等。40.()表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。A、偏差B、方差C、噪声D、泛化误差【正确答案】:C解析:
泛化误差可分解为偏差、方差与噪声之和。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的F界,即刻画了学习问题本身的难度。41.因子分析把每个原始变量分解为()两部分因素。A、公共因子和特殊因子B、特殊因子和相关因子C、相关因子和独立因子D、独立因子和公共因子【正确答案】:A解析:
因子分析把每个原始变量分解为公共因子和特殊因子两部分因素。42.下列不属于大数据重要意义的是()。A、大数据成为推动经济转型发展的新动力B、大数据成为重塑国家竞争优势的新机遇C、大数据成为提升政府治理能力的新途径D、大数据会增加经济发展的成本【正确答案】:D解析:
大数据可以促进经济的发展,催生新的业态,在辅助商业决策、降低运营成本、精准市场的营销方面都能发挥作用,进一步提升企业竞争力。43.()算法是一种最有影响的挖掘关联规则频繁项目集的算法。A、FP-growthB、EClatC、聚类D、Apdori【正确答案】:D解析:
Apdori算法是一种最有影响的挖掘关联规则频繁项目集的算法。44.过滤式特征选择、包裹式特征选择与学习器的关系分别是()。A、相关,相关B、相关,不相关C、不相关,相关D、不相关,不相关【正确答案】:C解析:
过滤式特征选择先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。包裹式特征选择把最终将要使用的学习器的性能作为特征子集的评价准则。45.下列关于文本分类的说法不正确的是()。A、文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别B、文本分类系统大致可分为基于知识工程的分类系统和基于机器学习的分类系统C、文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤【正确答案】:C解析:
词袋模型没有考虑文本词语的原本行文顺序。46.随机森林是在()上的一个扩展变体。A、BoostingB、AdasBoostC、RFD、Bagging【正确答案】:D47.()不是专门用于可视化时间空间数据的技术A、等高线图B、饼图C、曲面图D、矢量场图【正确答案】:B解析:
解析:饼图可用于可视化多维度数据,如电网财务开支,并不是专门用于可视化时间空间数据的技术。48.决策树中的叶结点对应于()。A、属性B、样本C、决策结果D、标签值【正确答案】:C49.Spark的特点不包括()。A、速度快B、通用性C、易用性D、单一操作性【正确答案】:D解析:
Spark是一个快速、通用和易于使用的计算平台。50.语音识别的应用场景包括()A、语音转文本B、语音合成C、人机交互D、以上答案都正确【正确答案】:D解析:
语音识别应用包含语音转文本,音合成和人机交互等。51.在神经网络中引入了非线性的是()A、随机梯度下降B、修正线性单元(ReLU)C、卷积函数D、以上答案都不正确【正确答案】:B解析:
解析:ReLU是目前最常用的激励函数,增加了神经网络模型的非线性。52.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的(不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A、暂时隔离B、暂时删除C、永久删除D、不做处理【正确答案】:C解析:
数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的永删除、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。53.Sigmoid函数作为神经元激活函数的特点是()A、连续但不光滑B、不连续但光滑C、连续且光滑D、不连续且不光滑【正确答案】:C54.输入图像为37x37,经过第一层卷积(thenumberoffilteters=25,kemelsizesize=5x5,,paddingvalid,strid)与池化层maxpooling(kemelsimelsize=3x3,,padding=valid),输出特征图rde=l大小为()A、10x10B、11x11C、12x12D、13x13【正确答案】:B解析:
解析:(37-5+1)/3=11。55.为了降低MapRcduce两个阶段之间的数据传递量,一般采用()函数对map阶段的输出进行处理。A、sort()B、combiner()C、join()D、gather()【正确答案】:B解析:
为了降低数据传递量,采用combiner()函数对map()函数的数据结果进行合并处理。56.下列关于描述性分析与探索性分析的描述正确的是()。A、描述性分析是相对于验证性分析的一种提法B、探索性分析是验证性分析的基础C、探索性分析是相对于验证性分析的一种提法D、探索性分析是数据分析的第一步【正确答案】:C解析:
描述性分析与探索性分析两者的区别:
(1)描述性分析(DescriptiveAnalytics)是相对于诊断性分析、预测性分析和规范性分析的一种提法,主要指的是对一组数据的各种统计特征(如平均数、标准差、中位数、频数分布、正态或偏态程度等)进行分析,以便描述测量样本的各种特征及其所对应总体的特征。
(2)探索性数据分析(ExploratoryDataAnalysis,EDA)是相对于验证性分析的一种提法,主要指的是指在尽量少的先验假定下,对已有的数据(特别是调查或观察得来的原始数据)进行探索,并通过作图、制表、方程拟合、计算特征量等较为简单的方法,探索数据的结构和规律的一种数据分析方法。57.在支持向量机中,()允许支持向量机在一些样本上出错。A、硬间隔B、软间隔C、核函数D、拉格朗日乘子法【正确答案】:B解析:
在支持向量机中,软间隔允许支持向量机在一些样本上出错。58.如果自变量X和因变量Y之间存在高度的非线性和复杂关系,那么树模型很可能优于经典回归方法。则以上说法()。A、正确B、错误C、无法确定D、模型效果差别不大【正确答案】:A解析:
当数据非线性时,经典回归模型泛化能力不强,而基于树的模型通常表现更好。59.诊断性分析主要采取的分析方法是()。A、关联分析法和因果分析法B、关联分析法和分类分析法C、关联分析法和运筹学D、因果分析法和分类分析法【正确答案】:A解析:
诊断性分析主要关注过去,回答为什么发生,主要采用关联分析法和因果分析60.图像平滑会造成()A、图像边缘模糊化B、图像边缘清晰化C、无影响D、以上答案都不正确【正确答案】:A解析:
为了抑制噪声,使图像亮度趋于平缓的处理方法就是图像平滑。图像平滑实际上是低通滤波,平滑过程会导致图像边缘模糊化。61.下列关于KNN算法的过程:①计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离、马氏距离等);②对上面所有的距离进行排序;③选前k个最小距离的样本;④根据这k个样本的标签进行投票,得到最后的分类类别。正确的排序为()。A、①③②④B、②④①③C、①②③④D、①②④③【正确答案】:C62.二值图像中的分支点的连接数为()A、0B、1C、2D、3【正确答案】:D解析:
二值图像中连接数为0的像素为孤立点或内点。连接数为1的像素为端点或边界点。连接数为2的像素为连接点。连接数为3的像素为分支点。63.通常来说,()能够用来预测连续因变量。A、线性回归B、逻辑回归C、线性回归和逻辑回归D、以上答案都不正确【正确答案】:A解析:
逻辑回归被用来处理分类问题。64..卷积神经网络(convolutionalneuralnetwork,CNN)是一种专门用来处理具有类似()的数据的神经网络。A、网格结构B、数组结构C、序列结构D、表格结构【正确答案】:A65.当训练样本近似线性可分时,()。A、通过硬间隔最大化,学习一个非线性支持向量机B、通过软间隔最大化,学习一个线性支持向量机C、通过硬间隔最大化,学习一个线性支持向量机D、通过软间隔最大化,学习一个非线性支持向量机【正确答案】:B66.下列关于TF-IDF说法正确的是()A、该值与特征项在文档中出现的频率成反比B、该值与特征项在文档中出现的频率成正比C、该值与在整个语料库中出现该特征项的文档库成正比D、该值与特征项在文档中出现的频率无关【正确答案】:B解析:
TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency)意思,IDF是逆文本频率指数(InverseDocumentFrequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度意思。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。A中应是成正比,C中应是成反比,B正确。67.下列描述中不属于数据治理内容的是()。A、理解自己的数据B、行为规范的制定C、岗位职责的定义D、获得更多的数据【正确答案】:D解析:
获得更多的数据不属于数据治理。68.()情况下,LDA会失败。A、如果有辨识性的信息不是平均值,而是数据的方差B、如果有辨识性的信息是平均值,而不是数据方差C、如果有辨识性的信息是数据的均值和方差D、以上答案都不正确【正确答案】:A解析:
LDA的思想是投影后类内方差最小、类间方差最大。69.令N为数据集的大小[注:设训练样本((x1,yi),N即训练样本个数],d是输入空间的维数(注:d即向量x,的维数)。则硬间隔SVM问题的原始形式[即在不等式约束最小化(1/2)ww]在没有转化为拉格朗日对偶问题之前是()。A、一个含N个变量的二次规划问题B、一个含N+1个变量的二次规划问题C、一个含d个变量的二次规划问题D、一个含d+1个变量的二次规划问题【正确答案】:D解析:
欲找到具有最大间隔的划分超平面,也就是要找到能满足题中不等式约束的参数w和b,是一个含d+1个变量的二次规划问题。70.下面色彩空间中,最接近人的视觉系统的特点的是哪个()A、RGB空间B、CMY空间CMYK空间D、HSI空间【正确答案】:D解析:
HSI反映了人的视觉系统感知彩色的方式,以色调、饱和度和亮度三种基本特征量来感知颜色,最接近人的视觉系统特征。71.线性判别分析在二分类问题上也称为()。A、线性回归B、对数几率回归C、Fisher判别分析D、主成分分析【正确答案】:C解析:
线性判别分析在二分类问题上也称为Fisher判别分析。72.下列关于RBM的说法错误的是()A、学习过程很快B、RBM训练可以看作对一个深层BP网络的网络权值参数的初始化C、RBM不用人工选择特征D、RBM有标签样本集【正确答案】:A解析:
解析:RBM学习率更新相比DBN速度较慢。73.()是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记。A、支持向量机B、间隔最大化C、线性分类器D、贝叶斯判定准则【正确答案】:D74.下列关于Boosting的说法错误的是()。A、Boosting方法的主要思想是迭代式学习B、训练基分类器时采用并行的方式C、测试时,根据各层分类器的结果的加权得到最终结果D、基分类器层层叠加,每一层在训练时,对前一层基分类器分错的样本给予更高的权值【正确答案】:B解析:
Boosing训练基分类器时只能采用顺序的方式,Bagging训练基分类器时采用并行的方式。75.采样分析的精确性随着采样随机性的增加而(),但与样本数量的增加关系不大。A、降低B、不变C、提高D、无关【正确答案】:C解析:
采样分析的精确性随着采样随机性的增加而提高,但与样本数量的增加关系不大。当样本数量达到某个值后,我们从新个体上得到的信息会越来越少。76.()计算框架源自--种分布式计算模型,其输入和输出值均为键值对结构。A、MahoutB、MapReduceC、SparkD、Sqoop【正确答案】:B解析:
MapReduce定义。77.机器学习训练时,Mini-Batch的大小优选为2的幂,如256或512。它背后的原因是()。A、Mini-Batch为偶数的时候,梯度下降算法训练的更快B、Mini-Batch设为2的幂,是为了符合CPU、GPU的内存要求,利于并行化处理C、不使用偶数时,损失函数是不稳定的D、以上答案都不正确【正确答案】:B78.假负率是指()。A、正样本预测结果数/正样本实际数B、被预测为负的正样本结果数/正样本实际数C、被预测为正的负样本结果数/负样本实际数D、负样本预测结果数/负样本实际数【正确答案】:B79.关系云的一个重要功能是提供()。A、数据库即服务B、虚拟服务C、弹性计算D、按需服务【正确答案】:A解析:
关系云的一个重要功能是提供数据库即服务(DatabaseasaService),用户无须在本机安装数据库管理软件,也不需要搭建自己的数据管理集群,而只需要使用服务提供商提供的数据库服务。80.()算法是分类算法。A、DBSCANB、C4.5C、K-meansD、EM【正确答案】:B解析:
C4.5是分类算法;DBSCAN、K-means、EM是聚类算法。81.()不是长短时记忆神经网络三个门中的一个门A、输入门B、输出门C、遗忘门D、进化门【正确答案】:D解析:
解析:长短时记忆神经网络(LSTM)增加了三个门用来控制信息传递和最后的结果计算,三个门分别为遗忘门、输入门、输出门。82.下列说法错误的是()。A、当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解B、进行PCA降维时,需要计算协方差矩阵C、沿负梯度的方向一定是最优的方向D、利用拉格朗日函数能解带约束的优化问题【正确答案】:C解析:
沿负梯度的方向是函数值减少最快的方向但不一定就是最优方向。83.随机森林与Bagging中基学习器多样性的区别是()。A、都来自样本扰动B、都来自属性扰动C、来自样本扰动和属性扰动D、多样本集结合【正确答案】:C解析:
Bagging中基学习器的多样性仅来自样本扰动(自助采样),随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动。84.数据的原始内容及其备份数据是数据产品研发的()。A、零次数据B、一次数据C、二次数据D、采集数据【正确答案】:A解析:
零次数据是数据的原始内容及其备份数据,如各种感知仪器设备中直接生成的数据。零次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题。85.假设一个线性回归模型完美适合训练数据(训练误差为0),则下列说法正确的是()。A、测试集误差一直为0B、测试集误差可能为0C、测试集误差不会为0D、以上都不对【正确答案】:B解析:
假如测试数据里面没有噪声数据,则测试误差有可能为0。或者说,如果测试数据能够完美表征训练数据集,则测试误差即可为0,但测试数据不会总这样。86.下列关于可视化方法体系的说法不正确的是()。A、通常采用视觉图形元素和视觉通道两个维度进行视觉编码B、常用的共性方法有统计图表、图论方法、视觉隐喻和图形符号学等C、领域方法在所属领域内其可视化的信度和效果往往低于基础方法的直接应用D、视觉编码为其他数据可视化方法提供了方法学基础【正确答案】:C解析:
领域方法在所属领域内其可视化的信度和效果高于基础方法的直接应用。87.下列能够直观显示出学习器在样本总体上的查全率、查准率的是()。A、ROC曲线B、误差曲线C、方差曲线D、P-R曲线【正确答案】:D88.为了允许支持向量机在一些样本上出错,引入()的概念。A、软间隔B、硬间隔C、间隔D、误差【正确答案】:A89.下列不属于Action操作的是()。A、collectB、filterC、reduceD、count【正确答案】:B解析:
Action常用的函数为reduce、collect、count、take、first、foreach等。90.Spark核心层主要关注的问题是().A、存储B、计算C、传输D、连接【正确答案】:B解析:
Spark核心层定义,Spark核心层主要关注计算问题。91.RDD中的数据被()在集群中,使得任务可以并行执行。A、顺序存储B、连续存储C、分块存储D、分区存储【正确答案】:D解析:
RDD为分区存储。92.以下现象不能直接通过低通滤波器解决的是()A、低分辨率文本图像中出现的字符断裂问题B、指纹图像中的去污染问题C、人脸图像中需要美容的去皱纹问题D、遥感图像中的扫描线滤除问题【正确答案】:B93.进行主成分分析的前提条件是各变量间()。A、高度相关B、低度相关C、相互独立D、完全相关【正确答案】:B94.下列说法中:①一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的;②如果增加模型复杂度,那么模型的测试错误率总是会降低;③如果增加模型复杂度,那么模型的训练错误率总是会降低。正确的是()。)A、①B、②C、③D、①③【正确答案】:B解析:
如果增加模型复杂度,那么模型的测试错误率总是会降低,训练错误率可能降低,也可能增高。95.MapReduce计算框架的输入数据结构是()。A、kcy-valucB、input-outputC、map-reduceD、key-column【正确答案】:A解析:
MapReduce计算框架的输入是键值对,即key-value。96.下列不属于数据预处理方法的是()。A、数据清洗B、数据集成C、数据变换D、数据统计【正确答案】:D解析:
数据统计并非为数据预处理的常见内容。97.()的主要目标是提供可扩展的机器学习算法及其实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。A、MahoutB、FlumeC、SqoopD、HBase【正确答案】:A解析:
Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,如聚类、分类、推荐过滤、频繁子项挖掘等。98.下列基本活动中不属于数据产品开发工作之中需要特别注意的是()。A、创造性设计B、数据洞见C、虚拟化D、个性化描述【正确答案】:D解析:
数据产品开发工作之中需要注意有创造性设计、数据洞见、虚拟化等基本活动。99.下列关于PCA的说法中:①我们须在使用PCA前标准化数据;②我们应该选择使得模型有最大variance的主成分;③我们应该选择使得模型有最小variance的主成分;④我们可以使用PCA在低维度上做数据可视化。正确的是()。A、①②④B、②④C、③④D、①③【正确答案】:A解析:
须在使用PCA前标准化数据,应选择使得模型有最大variance的主成分,PCA在低维度上做数据可视化。100.二维图像可用二维函数表示,下列说法正确地是()A、二维函数值表示点的灰度值B、对于模拟图像来讲,是离散函数C、x,y不是平面的二维坐标D、以上答案都不正确【正确答案】:A解析:
二维函数值表示像素点的灰度值。模拟图像的二维函数是连续的,数字图像的是离散的。(x,y)是平面二维坐标,表示的是图像的横纵方向。1.下列关于深度学习的实质及其与浅层学习区别的说法正确的有()A、深度学习强调模型深度B、深度学习突出特征学习的重要性:特征变换+非人工C、没有区别D、以上答案都不正确【正确答案】:AB解析:
解析:深度模型是手段,特征学习是目的。2.Spark的技术架构可以分为()。A、资源管理层B、Spark核心层C、应用层D、服务层【正确答案】:ABD解析:
Spark的技术架构可以分为资源管理层、Spark核心层和服务层三层。3.下列关于L1和L2范数的描述正确的有()。)A、L1范数为x向量各个元素绝对值之和B、L2范数为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数C、L1范数可以使权值稀疏,方便特征提取D、L2范数可以防止过拟合,提升模型的泛化能力【正确答案】:ABCD解析:
LO是指向量中非0的元素的个数,L1范数是指向量中各个元素绝对值之和,L2范数向量元素绝对值的平方和再开平方。L1范数可以使权值稀疏,方便特征提取。L2范数可以防止过拟合,提升模型的泛化能力。4.下列属于大数据的资产属性体现的方面有()。A、具有劳动增值B、涉及法律权属C、具有财务价值D、涉及道德与伦理【正确答案】:ABCD解析:
大数据的资产属性体现在具有劳动增值、涉及法律权属、具有财务价值、涉及道德与伦理。5.在假设检验中,当原假设为伪,但数据分析人员没有拒绝它时犯的错误叫()。A、a错误B、β错误C、取伪错误D、弃真错误【正确答案】:BC解析:
a错误(弃真错误):当原假设为真时,但我们错误地认为“原偶的”,进而导致拒绝这个正确假设;β错误(取伪错误):当原假设为假时,但我们错误地认为“原假设是成立的”,进而导致接受此错误假设。6.Spark组件包含()两个算子。A、MapB、ActionC、TransformationD、Reduce【正确答案】:BC解析:
Spark针对RDD提供了多种基础操作,可以大致分为Action和Transformation两种。7.下列关于数据流转和应用的说法正确的有()。A、数据流转和应用过程中应确保可追溯、可复查B、前序环节应保证数据的真实、完整C、前序环节应及时传递到后序环节D、前后环节数据应保持衔接一致【正确答案】:ABCD解析:
数据流转和应用主要包括可追溯、可复查,数据真实、完整,环节衔接完整,环节衔接数据一致。8.可视分析学的特点包含()。A、强调数据到知识的转换过程B、强调可视化分析与自动化建模之间的相互作用C、强调数据映射和数据挖掘的重要性D、强调数据加工(DataWrangling或DataMunging)工作的必要性E、强调人机交互的重要性【正确答案】:ABCDE解析:
从可视分析学模型可以看出,可视分析学的流程具有如下特点:①强调数据到知识的转换过程。可视化分析学中对数据可视化工作的理解发生了根本性变化-数据可视化的本质是将数据转换为知识,而不能仅仅停留在数据的可视化呈现层次之上。从数据到知识的转换途径有可视化分析和自动化建模两种。②强调可视化分析与自动化建模之间的相互作用。二者的相互作用主要体现在:一方面,可视化技术可用于数据建模中的参数改进的依据;另一方面,数据建模也可以支持数据可视化活动,为更好地实现用户交互提供参考。③强调数据映射和数据挖掘的重要性。从数据到知识转换的两种途径-可视化分析与自动化建模分别通过数据映射和数据挖掘两种不同方法实现。因此,数据映射和数据挖掘技术是数据可视化的两个重要支撑技术。用户可以通过两种方法的配合使用实现模型参数调整和可视化映射方式的改变,尽早发现中间步骤中的错误,进而提升可视化操作的信度与效度。④强调数据加工工作的必要性。数据可视化处理之前一般需要对数据进行预处理(转换)工作,且预处理活动的质量将影响数据可视化效果。⑤强调人机交互的重要性。可视化过程往往涉及人机交互操作,需要重视人与计算机在数据可视化工作中的互补性优势。因此,人机交互以及人机协同工作也将成为未来数据可视化研究与实践的重要手段。9.下列描述属于传统循环神经网络的性质有()。A、上一时刻的网络状态信息将会作用于下一时刻的网络状态B、并行处理序列中的所有信息C、容易梯度爆炸/消失D、易于搭建【正确答案】:AC解析:
解析:循环神经网络(recurrentneuralnetwork,RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursiveneuralnetwork)。循环神经网络在误差梯度在经过多个时间步的反向传播后容易导致极端的非线性行为,包括梯度消失(gradientvanishing)和梯度爆炸(gradientexplosion)。实践中,梯度爆炸虽然对学习有明显的影响,但较少出现,使用梯度截断可以解决。梯度消失是更常见的问题且不易察觉,发生梯度消失时,循环神经网络在多个时间步后的输出几乎不与序列的初始值有关,因此无法模拟序列的长距离依赖(long-termdependency)。在数值试验中,SRN对时间步跨度超过20的长距离依赖进行成功学习的概率接近于0。恰当的权重初始化(weightinitialization)或使用非监督学习策略,例如神经历史压缩器(NHC)可提升循环神经网络学习长距离依赖的能力,但对更一般的情形,循环神经网络发展了一系列优化策略,其中有很多涉及网络结构的改变和算法的改进。10.Spark中的Scheduler模块可以分为()。A、DAGSchcdulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正确答案】:AC解析:
Scheduler模块分为DAGScheduler和TaskScheduler两个部分。11.在Hive架构中,支持的数据操作有()。A、插入B、查询C、删除D、分析【正确答案】:BD解析:
Hive提供简单的HiveQL查询、分析功能,可以较好地满足基于数据仓库的统计分析需要。12.Web内容挖掘实现技术包括()A、文本总结B、文本分类C、文本机器学习D、关联规则【正确答案】:ABCD13.以下网络结构中可以应用于图像识别任务的是()A、LeNet-5B、AlexNetCNND、VGG-net【正确答案】:ABCD解析:
四者均为经典的卷积神经网络。14.下列说法正确的有()。A、条件独立性假设不成立时,朴素贝叶斯分类器仍有可能产生最优贝叶斯分类器B、在估计概率值时使用的拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题C、由于马尔可夫链通常很快就能趋于平稳分布,因此吉布斯采样算法的收敛速度很快D、二分类任务中两类数据满足高斯分布且方差相同时,线性判别分析产生贝叶斯最优分类器【正确答案】:ABD解析:
由于马尔可夫链通常需要很长时间才能趋于平稳分布,因此吉布斯采样算法的收敛速度较慢。15.假设检验中,首先需要提出零假设和备择假设,下列关于零假设和备择假设的描述正确的有()。A、零假设是只有出现的概率大于阈值才会被拒绝的;备择假设是只有零假设出现的概率大于阈值才会被承认的B、零假设是希望推翻的结论;备择假设是希望证明的结论C、零假设是只有出现的概率小于阈值才会被拒绝的;备择假设是只有零假设出现的概率小于阈值才会被承认的D、零假设是希望证明的结论;备择假设是希望推翻的结论【正确答案】:BC解析:
略16.如果将A、B、C三个分类器的P-R曲线画在一个图中,其中A、B的P-R曲线可以完全包含住C的P-R曲线,A、B的P-R曲线有交点,A、B、C的平衡点分别为0.79、0.66、0.58,则下列说法中正确的有()。A、学习器A的性能优于学习器CB、学习器A的性能优于学习器BC、学习器B的性能优于学习器CD、学习器C的性能优于学习器B【正确答案】:ABC解析:
若一个学习器的P-R曲线被另一个学习器的曲线完全包住,则可断官后者的性能优于前者,如果两个学习器的P-R曲线发生了交叉,则可用平衡点度量。17.下列描述中正确的有()。A、统计学是数据科学的理论基础之一B、Python语言是统计学家发明的语言C、机器学习是数据科学的理论基础之一D、数据科学是统计学的一个分支领域(子学科)【正确答案】:AC解析:
Python发明者是GuidoVanRossum,并非为统计学家;数据科学是一门独立学科,已经超出了统计学一个学科的研究范畴,并非为统计学的一个分支。18.长短时记忆神经网络三个门是()A、进化门B、输出门C、输入门D、遗忘门【正确答案】:BCD解析:
解析:LSTM拥有三个门(输入门、遗忘门、输出门)用来保护和控制细胞状态。
20019.下列跟人工智能场景相关的是()A、图像识别B、人脸识别C、语音识别D、语义分析【正确答案】:ABCD解析:
人工智能的概念很广义,图像识别、人脸识别、语音识别、语义分析都属于人工智能的应用场景。20.下列关于探索型数据分析常用图表的说法正确的有()。A、绝大部分情况下使用饼图代替条形图能更加直观地展示数据之间的特征和对比B、探索型数据分析常用的图表包括条形图、直方图、饼图、折线图、散点图、箱型图等C、在探索型数据分析时应该尽量避免使用饼图,然而在数据报告中可以使用饼图达到更加美观的效果D、直方图和箱型图都可以用来展示数据的分布情况【正确答案】:BCD解析:
数据之间的特征和对比使用条形图可更加直观地展示数据。21.对于主成分分析方法,确定降维后低维空间的维数d的方法有()。A、由用户事先指定B、通过在d不同的低维空间中对开销较小的学习器进行交叉验证来选取C、可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值D、随机设置【正确答案】:ABC解析:
降维后低维空间的维数通常是由用户事先指定,或通过在d不同的低维空间中对k近邻分类器(或其他开销较小的学习器)进行交叉验证来选取较好的d。还可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值。22.Spark的关键技术包括()。A、RDDB、SchedulerC、StorageD、Shuffle【正确答案】:ABCD解析:
Spark的关键技术包括RDD、Schedulcr、Storagc、Shuffc。23.影响Apriori算法的计算复杂度的有()。A、支持度阈值B、项数(维度)C、事务数D、事务平均宽度【正确答案】:ABCD24.下列关于非频繁模式的说法正确的有()。A、其支持度小于阈值B、都是不让人感兴趣的C、包含负模式和负相关模式D、对异常数据项敏感【正确答案】:AD解析:
非频繁模式是一个项集或规则,其支持度小于阈值。绝大部分的频繁模式不是令人感兴趣的,但其中有些分析是有用的,特别是涉及数据中的负相关时。非频繁模式对异常数据项敏感。25.下列属于字符串匹配的分词方法的是()A、正向最大匹配法(由左到右的方向)B、逆向最大匹配法(由右到左的方向)C、最少切分(使每一句中切出的词数最小)D、双向最大匹配法(进行由左到右、由右到左两次扫描)【正确答案】:ABCD解析:
正向最大匹配、逆向最大匹配、最少切分、双向最大匹配都属于字符串匹配的常用方法。26.决策树在()情况下会导致递归返回。A、当前节点包含的样本全属于同一类B、当前属性集为空C、当前节点包含的样本集合为空D、所有样本在所有属性上取值相同【正确答案】:ABCD解析:
决策树的生成是一个递归过程。在决策树基本算法中,有三种情形会导致递归返回:①当前节点包含的样本全属于同一类别,无须划分;②当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;③当前节点包含的样本集合为空,不能划分。27.下列关于特征的稀疏性的说法正确的有()。A、稀疏性指的是矩阵中有许多列与当前学习任务无关B、稀疏样本可减少学习任务的计算开销C、学习任务难度可能有所降低D、稀疏矩阵没有高效的存储方法【正确答案】:ABC解析:
在一个矩阵中,若非零元素的个数远远小于零元素的个数,且非零元素的分布没有规律,则称之为稀疏矩阵。为了节省存储空间并且加快并行程序处理速度,可对稀疏矩阵进行压缩存储。28.假设一个随机变量服从正态分布,则与随机变量的概率分布有关的有()。A、众数B、频数C、平均值D、方差【正确答案】:CD解析:
正态分布一般用均值和方差来刻画。29.数据故事化描述应遵循的基本原则有()。A、忠于原始数据原则B、设定共同场景原则C、有效性利用原则D、3C精神原则【正确答案】:ABCD解析:
数据的故事化描述应遵循的基本原则包括忠于原始数据原则、设定共同情景原则、体验式讲述原则、个性化定制原则、有效性利用原则、3C精神原则。30.特征选择在子集生成与搜索方面引入了人工智能搜索技术和子集评价方法。其中人工智能搜索技术有()。A、分支界限法B、浮动搜索法C、信息熵D、AIC【正确答案】:ABCD解析:
特征选择在子集生成与搜索方面引入了很多人工智能搜索技术,如分支界限法、浮动搜索法等;在子集评价方法则采用了很多源于信息论的准则,如信息熵、AIC等。31.下列关于MapReduce1.0版本的说法正确的有()。A、扩展性差B、可靠性差C、资源利用率低D、无法支持多种计算框架【正确答案】:ABCD解析:
MapReducel.0存在的局限性包括扩展性差、可靠性差、资源利用率低、无法支持多种计算框架。32.下列关于Pig的说法正确的有()。A、弥补MapReduce编程复杂性B、封装MapReduce处理过程C、PigLatin是一种数据分析语言D、适用于并行处理【正确答案】:ABCD解析:
Pig建立在MapRcduce之上,主要目的是弥补MapRcduce编程的复杂性;Pig较好地封装了MapReduce的处理过程;PigLatin是数据分析的描述语言;Pig的结构适用于并行处理。33.下列关于连续型随机变量以及连续型概率密度函数的说法正确的有()。A、一个客服一天可能接听到多少个电话是一个连续型随机变量B、正态分布是一种连续型随机变量的概率分布C、可以使用概率密度函数来描述连续型随机变量的概率分布D、连续型概率密度函数曲线下方的面积之和为1【正确答案】:BCD解析:
一个客服一天可能接听到多少个电话是一个离散型随机变量。34.Spark的基本流程主要涉及()等角色。A、DriverProgramB、ClusterManagerC、WorkerNodeD、Executor【正确答案】:ABCD解析:
Spark的基本流程主要涉及DriverProgram(驱动程序)、Spark-Context、ClusterManage(集群管理器)、WorkerNode(工作节点)、Executor(执行器)和Cache(缓存)等角色。
-.35.大数据参考架构的三个层次包含()。A、角色B、活动C、逻辑构件D、功能组件【正确答案】:ABD解析:
GB/T35589-2017《信息技术大数据技术参考模型》描述了大数据的参考架构,包括角色、活动的功能组件以及它们之间的关系。36.算法“歧视”现象可能出现的过程有()。A、算法设计B、算法实现C、算法投入使用D、算法验证【正确答案】:ABC解析:
算法歧视是指算法设计、实现和投入使用过程中出现的各种“歧视”现象。37.空间域滤波是直接以图像中的像素操作为基础的滤波,空间滤波器有时也可称为()A、空间掩模B、核C、模板D、窗口【正确答案】:ABCD38.下列关于Pig的说法正确的有()。A、Pig的主要目的是弥补MapReduce编程的复杂性B、Pig的核心是一种数据分析语言C、Pig程序的结构适合串行处理D、Pig主要包含PigLatin和Pig执行环境两部分【正确答案】:ABD解析:
Pig程序的结构适合并行处理。39.NoSQL数据库常用的数据模型包括()。A、Key-ValueB、Key-DocumentC、Key-ColumnD、图存储【正确答案】:ABCD解析:
NoSQL数据库常用的数据模型包括Key-Value、Key-Document、Key-Column、存储。40.数据科学以数据尤其是大数据为研究对象,主要研究内容包括()。A、数据加工B、数据管理C、数据计算D、数据产品开发【正确答案】:ABCD解析:
数据科学是一门以数据,尤其是大数据为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据加工、数据管理、数据计算、数据产品开发等活动的交叉性学科。41.使用极大似然估计的前提条件有()。A、数据服从某种已知的特定数据分布型B、已经得到了一部分数据集C、提前已知某先验概率D、数据集各个属性相对独立【正确答案】:AB解析:
极大似然估计(MLE)要求样本独立同分布,否则无法用概率密度函数乘积的形式。假设的分布与真实的分布要一致,否则会南辕北辙。如果对总体分布一无所知是无法使用MLE的。42.下列描述中属于特征选择的优点有()。A、解决模型自身的缺陷B、减少过拟合C、提升模型的性能D、增强模型的泛化能力【正确答案】:BCD解析:
特征选择无法克服模型自身的缺陷,二者是独立的。43.语音识别的方法包括()A、声道模型方法B、模板匹配的方法C、利用人工神经网络的方法D、语音知识方法【正确答案】:ABCD解析:
一般来说,语音识别的方法有基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。44.下列为RDBMS中事务遵循原则的有()。A、原子性(Atomicity)B、一致性(Consistency)C、隔离性(Isolation)D、持久性(Durability)【正确答案】:ABCD解析:
关系数据库中的事务需要具备一定的规则-ACID特征。ACID是指数据库事务正确执行的4个基本要素的缩写:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。45.相对于HadoopMapReduce,Spark的特点有()。A、通用性B、易用性C、速度快D、容错性【正确答案】:ABC解析:
相对于HadoopMapReduce,Spark的特点包括速度快、通用性和易用性。46.下列关于HBase的说法正确的有()。A、面向列的数据库B、非结构化的数据库C、支持大规模的随机、实时读写D、采用松散数据模型【正确答案】:ABCD解析:
HBase是非结构化的、多版本的、面向列和开源的数据库;HBase提供了对大模数据的随机、实时读写访问;从存储模型看,HBase采用的是松散数据模型。47.情感分析的应用场景有()A、数据挖掘B、信息检索C、文本分词D、市场营销【正确答案】:ABD解析:
情感分析常用于数据挖掘、信息检索、市场营销等,而文本分词属于文本处理的应用场景。48.以下属于关键词提取算法的有()A、TF-IDF算法B、TextRank算法C、LSA(潜在语义分析)D、LDA【正确答案】:ABCD解析:
关键词提取算法包括TF-IDF算法、TextRank算法、LSA(潜在语义分析)orLSI(潜在语义索引)、LDA等。49.下面属于可视化高维数据技术的是哪些()A、矩阵B、平行坐标系C、星形坐标系D、散布图【正确答案】:ABC解析:
矩阵、平行坐标系和星形坐标系都属于可视化高维数据的常用技术,而散布图又叫相关图,只能处理二维数据。50.下列不属于聚类性能度量内部指标的有()。A、DB指数B、Dunn指数C、Jaccard系数D、FM系数【正确答案】:CD解析:
聚类常用的外部指标包括Jaccard系数、FM系数、Rand指数;聚类常用的内部指标包括DB指数、Dunn指数。51.与全连接的DNN,CNN的优势有()A、参数更少B、泛化更好C、训练更快D、更容易搭建【正确答案】:ABC解析:
解析:DNN直接对数据做加权线性连接,CNN则是移动卷积核,并对图像中的各区域做卷积操作。因此,DNN更容易搭建,D错误。52.卷积神经网络中常用的池化函数包括()。A、最大池化函数B、L2范数C、相邻矩形区域内的平均值D、基于据中心像素距离的加权平均函数【正确答案】:ABCD解析:
解析:卷积神经网络中常用的池化函数有最大池化函数、L2范数、相邻矩形区域内的平均值、基于据中心像素距离的加权平均函数、重叠池化、空金字塔池化。53.常见的图像降噪方式包括()A、中值滤波B、均值滤波C、平均滤波D、加权平均滤波【正确答案】:ABCD54.在MapReducel.0版本中,JobTracker功能有()。A、资源管理B、作业控制C、作业存储D、作业审核【正确答案】:AB解析:
在MapReducel.0中,JobTracker同时兼备了资源管理和作业控制两个功能。55.Hadoop运行的模式包括()。A、单机版B、伪分布式C、分布式D、全分布式【正确答案】:ABC解析:
Hadoop运行模式包括单机版、伪分布式和分布式。56.下列关于HadoopMapReduce的描述正确的有()。A、reduce()函数的输入是value集B、reduce()函数将最终结果写到HDFS系统中C、用户可以自己定义reduce()函数D、reduce()函数的输入数据是经过map()函数处理之后的数据【正确答案】:BCD解析:
reduce()函数的输入是key-value集。57.下列关于数据产品研发的说法错误的有()。A、从加工程度看,可以将数据分为一次数据、二次数据和三次数据B、一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题C、二次数据是对一次数据进行深度处理或分析后得到的增值数据D、三次数据是对二次数据进行洞察与分析后得到的、可以直接用于决策支持的洞见数据【正确答案】:ABD解析:
二次数据是一种按照信息的生产过程和加工深度进行对信息进行分类的,是指根据特定的需求,对一次信息进行加工、分析、改编、重组、综合概括生成的信息。58.图像识别的一般步骤包括()A、预处理B、特征提取C、超像素生成D、识别分类【正确答案】:ABD解析:
图像识别中的一般步骤包括预处理、特征提取和识别分类。超像素生成并非必要步骤。59.影响聚类算法效果的主要原因有()。A、特征选取B、模式相似性测度C、分类准则D、已知类别的样本质量【正确答案】:ABC解析:
聚类算法是无监督的学习算法,训练样本的标记信息是未知的。60.噪声数据的产生原因主要有()。A、数据采集设备有问题B、在数据录入过程中发生了人为或计算机错误C、数据传输过程中发生错误D、由于命名规则或数据代码不同而引起的不一致【正确答案】:ABCD解析:
噪声数据的产生原因主要有数据采集设备有问题、在数据录入过程中发生了人为或计算机错误、数据传输过程中发生错误、由于命名规则或数据代码不同而引起的不一致。61.下列可以用来构造神经网络的算法有()。A、KNNB、线性回归C、逻辑回归【正确答案】:BC解析:
解析:KNN是一种基于实例的学习算法,不具有任何训练参数。因此不能用来构造神经网络,线性回归和逻辑回归都可以用来构造神经网络模型,其实二者就是单神经元的神经网络。62.情感分析的途径下列哪些是()A、关键词识别B、数据增强C、统计方法D、概念级技术【正确答案】:ABCD解析:
现有的文本情感分析的途径大致可以集合成关键词识别、词汇关联、统计方法和概念级技术四类。63.文本分类过程包括()A、选择训练文本B、选择文本特征C、建立文本表示模型D、选择分类方法【正确答案】:ABCD解析:
文本分类过程包括:(1)选择训练文本;(2)选择文本特征;(3)建立文本表示模型;(4)选择分类方法;(5)分类结果的评估。64.数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括()。A、精确性B、可辨认性C、可分离性D、视觉突出性【正确答案】:ABCD解析:
在数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括精确性、可辨认性、可分离性和视觉突出性。评价指标描述如下:①精确性代表的是人类感知系统对于可视化编码结果和原始数据之间的吻合程度。斯坦福大学Mackinlay曾于1986年提出了不同视觉通道所表示信息的精确性。②可辨认性是指视觉通道的可辨认度。③可分离性是指同一个视觉图形元素的不同视觉通道的表现力之间应具备一定的独立性。④视觉突出性是指视觉编码结果能否在很短的时间内(如毫秒级)能够迅速准确表达出可视化编码的主要意图。65.下列关于密度聚类的说法错误的有()。A、DBSCAN是一种著名的密度聚类算法B、密度聚类从样本数量的角度来考察样本之间的可连接性C、密度聚类基于不可连接样本不断扩展聚类簇,以获得最终的聚类结果D、密度直达关系通常满足对称性【正确答案】:BCD解析:
密度聚类从样本密度的角度来考察样本之间的可连接性;密度聚类基于可连接样本不断扩展聚类簇,以获得最终的聚类结果;密度直达关系通常不满足对称性;密度可达关系满足直递性,但不满足对称性;密度相连关系满足对称性。66.下列属于机器学习生成式模型的有()。A、朴素贝叶斯B、隐马尔科夫模型C、线性回归模型D、深度信念网络【正确答案】:ABD解析:
机器学习生成式模型包括朴素贝叶斯、隐马尔科夫模型和深度信念网络等。线性回归属于判别式模型。67.在正则化公式中,入为正则化参数。下列关于入的描述正确的有()。A、若正则化参数入过大,可能会导致出现欠拟合现象B、若入太大,则梯度下降可能不收敛C、取一个合理的λ,可以更好地应用正则化D、如果令λ很大的话,为了使CostFunction尽可能的小,所有0(不包括0。)都会在一定程度上减小【正确答案】:ABCD解析:
正则化参数太小容易产生过拟合,太大容易产生欠拟合。68.下列关于特征数据归一化的说法正确的有()。A、特征数据归一化加速梯度下降优化的速度B、特征数据归一化有可能提高模型的精度C、线性归一化适用于特征数值分化比较大的情况D、概率模型不需要做归一化处理【正确答案】:ABD解析:
归一化方法比较适用于数值比较集中的情况,这种方法的缺陷是如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。非线性归一化经常用在数据分化比较大的场景,有些数值很大,有些很小。69.可以帮助解决训练集在特征空间中线性不可分的问题的方法有()。A、硬间隔B、软间隔C、核函数D、拉格朗日乘子法【正确答案】:BC解析:
核函数解决线性不可分的本质思想就是把原始的样本通过核函数映射到高维空间中,让样本在高维特征空间中是线性可分的。软间隔允许某些样本不满足约束,使得样本在特征空间中不是线性可分。70.下列关于情感分析的说法正确的是()A、简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程B、情感分析的发展得益于社交媒体的兴起C、按照处理文本的粒度不同,情感分析大致可分为词语级,句子级,篇章级三个D、情感分析可以应用于文本挖掘【正确答案】:ABCD解析:
情感分析的定义即对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程,它得益于社交媒体的兴起,从而能收集大量信息进行分析。其分析力度包括词语级、句子级和篇章级。情感分析可用于文本挖掘。71.下列中属于MapReduce特征的有()。A、以主从结构的形式运行B、容错机制的复杂性C、任务备份机制的必要性D、数据存储位置固定【正确答案】:ABC解析:
数据存储位置具有多样性,并非固定,所以D错。72.在统计模式分类问题中,当先验概率未知时,可以使用()。A、最小最大损失准则B、最小误判概率准则C、最小损失准则D、N-P判决【正确答案】:AD73.异常值的检测方法有()。A、直接通过数据可视化进行观察B、通过统计分布进行判断C、通过相对距离进行度量D、通过相对密度进行度量【正确答案】:ABCD解析:
异常值的检测方法有直接通过数据可视化进行观察、通过统计分布进行判断、通过相对距离进行度量、通过相对密度进行度量。74.与相同步长的卷积层相比,使用池化层的优势不包含()A、参数更少B、可以获得更大下采样C、速度更快D、有助于提升精度【正确答案】:BCD解析:
解析:池化层公式与卷积一样,只是不需要参数。75.下列关于现阶段大数据技术体系的说法正确的有()。A、基础设施提供数据计算、数据存储、数据加工(DataWrangling或DataMunging)等服务B、数据流处理、统计工具、日志分析都属于常用的开源工具C、数据资源代表的是生成数据的机构D、数据源与App为数据科学和大数据产业生态系统提供数据内容【正确答案】:ABCD解析:
Speechpad的联合创始人DaveFeinleib于2012年发布大数据产业全景图(BigDataLandscape),首次较为全面地刻画了当时快速发展中的大数据技术体系。后来,该图及其画法成为大数据和数据科学的重要分析工具,得到了广泛应用和不断更新。MattTurck等组织绘制了2017大数据产业全景图(BigDataLandscape2017)。从2017大数据产业全景图看,现阶段的大数据技术体系主要类型包括数据资源、数据源与App、开源工具、跨平台基础设施和分析工具、行业应用、企业应用、基础设施和分析工具。76.Spark2.0提供的应用库包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正确答案】:ABCD解析:
Spark2.0提供的应用库包括SparkSQL、SparkStreaming、MLib、GraphX。77.循环神经网络主要被应用的场景有()。A、语音识别B、语音建模C、机器翻译D、图像识别【正确答案】:ABC解析:
解析:图像识别用CNN。78.下列服务中可以用于存储数据的有()。A、MapReduceB、YARNC、HBaseD、HDFS【正确答案】:CD解析:
MapReduce是计算模型;YARN是通用资源管理系统;HBase是动态模式数据库;HDFS是Hadoop分布式文件系统,是数据存储的基础。79.下列属于数据挖掘与分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正确答案】:ABCD解析:
常用的数据挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的数据分析工具有Tableau、Alteyx、R&Python语言、FineReport、PowerBI。三、(共33题)80.列式数据库(如BigTable和HBase)以表的形式存储数据,表结构包含的元素有()。A、关键字B、时间戳C、列簇D、数据类型【正确答案】:ABC解析:
BigTable和HBase的索引由行关键字、列簇和时间戳组成。81.神经网络模型(neuralnetwork)因受人类大脑的启发而得名。神经网络由许多神经元(neuron)组成,每个神经元接受一个输人,对输人进行处理后给出一个输出。下列关于神经元的描述正确的有()。A、每个神经元有一个输入和一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年人教版PEP必修3生物上册阶段测试试卷含答案
- 2025年沪科版七年级物理下册阶段测试试卷含答案
- 2025年度生态农业化肥补贴项目合作合同4篇
- 2025年度物流园区配套服务合同4篇
- 2025年度派遣金融分析师劳务合同4篇
- 二零二五年度高标准农田水利设施建设与维护合同4篇
- 二零二五年度生鲜牛奶直供社区配送服务合同3篇
- 2024鞋类库存管理及清仓销售合作合同范本3篇
- 二零二五年度新能源汽车牌照租赁及运营管理合同4篇
- 2025版苗木种植与森林生态系统恢复合同3篇
- 非ST段抬高型急性冠脉综合征诊断和治疗指南(2024)解读
- 煤矿反三违培训课件
- 向流程设计要效率
- 安全文明施工的管理要点
- 2024年中国航空发动机集团招聘笔试参考题库含答案解析
- 当代中外公司治理典型案例剖析(中科院研究生课件)
- 动力管道设计手册-第2版
- 2022年重庆市中考物理试卷A卷(附答案)
- Python绘图库Turtle详解(含丰富示例)
- 煤矿机电设备检修技术规范完整版
- 榆林200MWp并网光伏发电项目可行性研究报告
评论
0/150
提交评论