版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第页大数据题库-综合复习试题附答案1.在一个神经网络中,可以用来处理过拟合的方法是()A、DropoutB、分批归一化(BatchNormalization)C、正则化(regularization)D、都可以【正确答案】:D2.Hadoop中,Reducer的三个步骤是()。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort--Shuffle-Reduce【正确答案】:A解析:
Reducer主要分为Shuffle洗牌、Sort排序和Reduce三个步骤。3.对数值型输出,最常见的结合策略是()。A、投票法B、平均法C、学习法D、排序法【正确答案】:B4.103.在情感分析任务中,其目的是将无结构化的情感文本转化成计算机容易识别和处理的结构化文本,进而供情感分析上层的研究和应用服务的是()。A、情感信息检索B、情感信息抽取C、情感信息分类D、情感信息归纳【正确答案】:B解析:
情感分析上层的研究和应用主要是为情感信息抽取。5.数据探索是指针对目标可变、持续、多角度的搜索或分析任务,下列不是其搜索过程特点的是()。A、有选择B、有策略C、有目标D、反复进行的【正确答案】:C解析:
数据探索是指针对目标可变、持续、多角度的搜索或分析任务,其搜索过程是有选择、有策略和反复进行的。6.通过聚集多个分类器的预测来提高分类准确率的技术称为()。A、组合B、聚集C、合并D、投票【正确答案】:A7.下列哪个方法,不属于情感分析的评测的方法是()A、COAE评测B、cifar10数据集评测CCFTCCI评测D、TAC评测【正确答案】:B解析:
cifar10数据集Cifar-10由60000张32*32的RGB彩色图片构成,这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类,不属于情感分析的测评。8.下列基本活动中不属于数据产品开发工作之中需要特别注意的是()。A、创造性设计B、数据洞见C、虚拟化D、个性化描述【正确答案】:D解析:
数据产品开发工作之中需要注意有创造性设计、数据洞见、虚拟化等基本活动。9.在数据科学中,通常下载R的包的服务器是()。A、PIPB、CRANC、RstudioD、PyP1【正确答案】:B解析:
CRAN的全称为TheComprehensiveRArchivcNetwork,在R编程中通常从该服务器下载所需包。10.在HDFS中,()是文件系统的工作节点。A、DataNodeB、ClientC、NameNodeD、Flume【正确答案】:A解析:
数据节点(DataNode)是分布式文件系统HDFS的工作节点,负责数据的存储读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定发送自己所存储的块的列表,每个数据节点中的数据会被保存在各自节点本地Linux文件统中。11.探索性分析与验证性分析的不同点是()。A、探索性分析需要事先假设B、探索性分析比验证性分析复杂C、探索性分析在前D、验证性分析在前【正确答案】:C解析:
验证性分析需要事先假设,因数据不同复杂程度也不同,探索性分析一般在前,为验证性分析提供参考。12.在Hadoop生态系统中,()的主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作。A、HDFSB、FlumeC、HiveD、Sqoop【正确答案】:D解析:
Sqoop主要用于在Hadoop与传统的数据库问进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。13.不属于Mayer-SchönbergerV和CukierK.在其著名论著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大数据时代统计的思维变革的是()。A、不是随机样本,而是全体数据B、不是精确性,而是混杂性C、不是描述性分析,而是预测性分析D、不是因果关系,而是相关关系【正确答案】:C解析:
Mayer-SchönbergerV和CukierK.在其著名论著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大数据时代统计的思维变革:①不是随机样本,而是全体数据:大数据时代应遵循“样本=总体”的理念,需要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。②不是精确性,而是混杂性;大数据时代应承认数据的复杂性,数据分析目的不应追求精确性,数据分析的主要瓶颈是如何提升效率而不是保证分析结果的精确度。③不是因果关系,而是相关关系:大数据时代的思想方式应转变--不再探求难以捉摸的因果关系,转而关注事物的相关关系。14.点击率的预测是一个数据比例不平衡问题(如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果用这种数据建立模型并使得训练集的准确率高达99%。则可以得出结论是()。A、模型的准确率非常高,我们不需要进一步探索B、模型不好,我们应建一个更好的模型C、无法评价模型D、以上答案都不正确【正确答案】:C解析:
对于失衡数据,模型的准确率不能作为衡量模型效果的标准。因为我们需要探索的是少数1%的数据,为更好地评估模型效果,可以用灵敏度、特异度、Fmeasure来判断。15.下列关于组织机构的数据管理成熟度等级划分中的已执行级的描述错误的是()。A、在具体项目中,DMM关键过程域(KPA)中给出的关键过程已被执行,但随意性和临时性较大B、DMM关键过程的执行不仅仅局限于特定业务范畴,存在跨越不同业务领域的关键过程C、缺少针对DMM关键过程的反馈与优化D、虽然有可能在特定业务过程中进行了基础性改进,但没有进行持续跟进,也未拓展到整个组织机构【正确答案】:B解析:
DMM的执行级(PerformedLevel):组织机构只在个别项目的范围之内执行了DMM给出的关键过程,但缺乏机构层次的统筹与管理。主要特点如下:①在具体项目中,DMM关键过程域(KPA)中给出的关键过程(KcyProcess)已被执行,但随意性和临时性较大。②DMM关键过程(KeyProcess)的执行往往仅限于特定业务范畴,很少存在跨越不同业务领域的关键过程。③缺少针对DMM关键过程(KeyProcess)的反馈与优化。以DMM关键过程(KeyProcess)中的数据质量为例,其数据管理工作可能过于集中在一个特定业务,如数据修复活动,并没有扩散到整个的业务范围或并没有开展对数据修复活动本身的反馈与优化工作;④虽然有可能在特定业务过程中已进行了基础性改进,但没有进行持续跟进,也未拓展到整个组织机构;⑤组织机构没有统筹其数据管理工作,而数据管理活动局限在具体项目中,主要按照其具体项目的实施需求进行,如果一个具体项目中需要进行数据管理,可能会执行DMM中给出的相关过程,反之亦然。16.假定训练了一个线性SVM并推断出这个模型出现了欠拟合现象,在下--次训练时,应该采取的措施是()。A、增加数据点B、减少数据点C、增加特征D、减少特征【正确答案】:C解析:
欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。可通过增加特征解决。17.下列描述中能反映出X和Y之间的强相关性的是()。A、相关系数为0.9B、对于无效假设,β=0的为0.0001C、对于无效假设,β=0的t为30D、以上说法都不对【正确答案】:A解析:
相关系数反映了不同变量之间线性相关程度,取值范围为[-1,1],值越大表示相关程度越高。因此,A选项中r=0.9,表示X和Y之间有较强的相关性。p和t的数值大小没有统计意义,只是将其与某一个阈值进行比对,以得到二选一的结论。18.最早被提出的循环神经网络门控算法是()A、长短期记忆网络B、门控循环单元网络C、堆叠循环神经网络D、双向循环神经网络【正确答案】:A解析:
解析:长短期记忆网络是最早被提出的循环神经网络门控算法。长短期记忆网络(long-shorttermmemory,LSTM)论文首次发表于1997年11月15日。门控循环单元网络(GRU)论文发表于2014年。堆叠循环神经网络(SRNN)论文发表于2017年。双向循环神经网络(bidirectionalrecurrentneuralnetworks,BRNN)发表于1997年11月。19.大数据平台核心分布式存储与计算组件采用Hadoop技术体系中的分布式存储、分布式计算框架及Spark等开源产品和技术,实现对数据的安全控制和管理功能,其中分布式存储不包括()。A、HDFSB、PostgresqC、HiveD、HBase【正确答案】:B解析:
Postgresql并非分布式存储。20.二项分布的数学期望为()。A、n(1-n)pB、np(1-p)C、npD、n(1-p)【正确答案】:C解析:
q=1-p二项分布即重复n次的伯努利试验。如果事件发生的概率是p,则不发生的概率p,期望为np,方差为npq。21.()表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。A、偏差B、方差C、噪声D、泛化误差【正确答案】:C解析:
泛化误差可分解为偏差、方差与噪声之和。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的F界,即刻画了学习问题本身的难度。22.下列关于选择Logistic回归中的One-Vs-All方法的描述正确的是()。A、我们需要在n类分类问题中适合n个模型B、我们需要适合n-1个模型来分类为n个类C、我们需要只适合1个模型来分类为n个类D、以上答案都不正确【正确答案】:A解析:
如果存在n个类,那么n个单独的逻辑回归必须与之相适应,其中每个类的概率由剩余类的概率之和确定。23.异常检测过程查找基于()组标准值偏差的异常个案。A、单体B、分类C、聚类D、回归【正确答案】:C解析:
异常检测过程查找基于聚类组标准值偏差的异常个案。该过程设计为在探索性数据分析步骤中,快速检测到用于数据审核的异常个案,并优先于任何推论性数据分析。24.以下内容符合物体识别任务的是()A、不能对图像进行压缩或剪裁B、遵守误差最小准则和最佳近似准则C、可以不指定分类的类别数量D、事先给定样本的分布特征【正确答案】:B解析:
遵守误差最小准则和最佳近似准则为实现物体识别任务的最优化准则。25.下列关于数据仓库最终目的的描述正确的是()。A、收集业务需求B、建立数据仓库逻辑模型C、开发数据仓库的应用分析D、为用户和业务部门提供决策支持【正确答案】:D解析:
数据仓库的最终目的是为用户和业务部门提供决策支持。26.下列关于RBM的说法错误的是()A、学习过程很快B、RBM训练可以看作对一个深层BP网络的网络权值参数的初始化C、RBM不用人工选择特征D、RBM有标签样本集【正确答案】:A解析:
解析:RBM学习率更新相比DBN速度较慢。27.解决Master故障的方法是设置检查点,当Master失效时,从()检查点开)动另一个Master进程。A、第一个B、中间一个C、最后一个D、随机选择一个【正确答案】:C解析:
从最后一个检查点开始启动另-Master进程使得因故障产生的影响更小。28.大数据是指不用随机分析法这样的捷径,而采用()。A、所有数据B、部分数据C、少量数据D、抽样数据【正确答案】:A解析:
大数据的一种表现形式为接近其总体的所有数据。29.下列关于分类算法的准确率、召回率、F1值的描述错误的是()。A、准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率B、召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率C、正确率、召回率和F1值取值都在0和l之间,数值越接近0,查准率或查全率就越高D、为了解决准确率和召回率冲突问题,引入了F1分数【正确答案】:C解析:
正确率、召回率、F,值取值都在0和1之间,数值越接近1,查准率或查全率就越高。30.常见的图像预处理方法不包括()A、图像降噪B、图像增强C、图像尺寸归一化D、图像标注【正确答案】:D解析:
图像预处理的主要目的是消除图像中无关的信息,恢复有用的真实信息,主要包括去噪、对比度增强。图像尺寸归一化也是为了增强对比度。图像标注是图像处理方法。31.()不属于聚类性能度量外部指标。A、Jaccard系数B、FM系数C、Rand指数DB指数【正确答案】:D解析:
聚类常用的外部指标包括Jaccard系数、FM指数、Rand指数;聚类常用的内部指标包括DB指数、Dunn指数。32.以下属于图像处理的常用方法有()A、图像变换B、图像编码压缩C、图像增强和复原D、以上答案都正确【正确答案】:D解析:
图像处理的常用方法包括图像变换、图像解码和压缩和图像增强和复原。33.假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置,则应采取的方法是()A、除去神经网络中的最后一层,冻结所有层然后重新训练B、对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层C、使用新的数据集重新训练模型D、所有答案均不对【正确答案】:B解析:
由于神经网络浅层网络主要提取图像的低维特征,对于相近领域进行迁移学习时,这些低维特征相同,因此只需要对最后几层进行微调,而检测位置相当于回归任务。34.下列关于数据产品的说法错误的是()。A、数据产品的存在形式是数据集B、与传统物质产品不同的是,数据产品的消费者不仅限于人类用户,还可以是计算机以及其他软硬件系统C、数据产品不仅包括数据科学项目的最终产品,也包括其中间产品以及副产品D、数据产品开发涉及数据科学项目流程的全部活动【正确答案】:A解析:
数据产品的存在形式不仅限于数据集,还包括文档、知识库、应用系统、硬件系统、服务、洞见、决策或它们的组合。
35.在方差分析中,()反映的是样本数据与其组平均值的差异。A、总离差B、组间误差C、抽样误差D、组内误差【正确答案】:D解析:
组内误差是来自样本内部数据之间的随机误差,它反映了样本数据自身的差异程度;组间误差由因子的不同处理造成的处理误差和抽样的随机误差组成,反映了不同样本之间数据的差异程度。P(AB)=P(A)·P(B)36.新兴数据管理技术主要包括NoSQL技术、NewSQL技术和()。A、数据仓库B、关系云C、数据库系统D、文件系统【正确答案】:B解析:
关系云是在云计算环境中部署和虚拟化的关系数据库,进而使传统关系数据库具备云计算的弹性计算、虚拟化、按需服务和高经济性等特征。关系云代表了数据管理的一个重要发展方向。37.数据集成的基本类型是()。A、内容集成、结构集成B、内容集成、规约集成C、规约集成、结构集成D、模式集成、结构集成【正确答案】:A解析:
数据集成是指通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题,其前提是被集成应用必须公开数据结构,即必须公开表间结构、表间关系、编码的含义等。38.MapReduce任务Map输出结果将被写入()。A、HDFS文件系统B、新的记录文件C、磁盘(Linux文件系统)D、主数据库【正确答案】:C解析:
MapReduce中的Map输出结果会被写入对应的磁盘中。39.词袋模型、TF-IDF、word2vec等模型都有着同样的作用,该作用是()A、文本情感分析B、文本特征向量化C、文本特征离散化D、文本特征分布式【正确答案】:B解析:
词袋模型是把每篇文章表示成一个向量。向量中每一维代表一个单词,其值代表重要程度,重要程度就是用TF-IDF计算的。Word2vec就是词嵌入模型之一,词嵌入时将词向量化的模型的通称,其核心思想是将每个词映射成低维——K维空间(通常K=50~300)的一个稠密向量。所以三者都将文本特征向量化。40.下列进程中不是HDFS的守护进程的是()。A、SecondaryNameNodeB、DataNodeC、MRAppMaster/YamChildD、NameNode【正确答案】:C解析:
NameNode是HDFS集群的主节点,DataNode是HDFS集群的从节点,SecondaryNameNode是HDFS集群启动的用来给NameNode节点分担压力的角色,这个三个服务进程会一直启动着。MRAppMaster/YarnChild进程是只有在YARN集群运行了MapReduce程序之后才会启动的程序。41.下列关于数据转换的说法正确的是()。A、Json内的取值只能有统一格式B、PDF文件在不同平台上打开显示不同C、可以通过Python将CSV文件转换成Excel格式D、Excel存储数据的量无限制【正确答案】:C解析:
Json内的取值可以有多种格式,PDF文件在不同平台上打开显示相同,Excel存储数据的量在Excel2007及以后版本,一个工作表最多可有1048576行、16384列。42.()会发生权重共享。A、卷积神经网络B、循环神经网络C、全连接神经网络D、A、B【正确答案】:D43.在一个简单的线性回归模型中(只有一个变量),如果将输入变量改变一个单位(增加或减少),那么输出将改变()。A、一个单位B、不变C、截距D、回归模型的尺度因子【正确答案】:D解析:
假设线性回归模型是,若x改变一个单位,如x+1,则y改变b个单位,b是回归模型的尺度因子。44.()与HDFS类似,均为分布式文件系统。A、NTFSB、FAT32C、GFSD、EXT3【正确答案】:C解析:
GFS也是分布式文件系统。45.数据科学项目应遵循一般项目管理的原则和方法,涉及()。A、整体、范围、时间、成本、质量、沟通、风险、宣传、消费B、整体、范围、时间、成本、质量、人力资源、沟通、风险、采购C、整体、范围、时间、成本、质量、人力资源、运维、采购、宣传D、整体、范围、时间、成本、质量、人力资源、采购、宣传、运维【正确答案】:B解析:
数据科学项目应遵循一般项目管理的原则和方法,涉及整体、范围、时间、成本、质量、人力资源、沟通、风险、采购。46.()不是神经网络的代表A、卷积神经网络B、递归神经网络C、残差网络D、xgboost算法【正确答案】:D解析:
解析:xgboost是boosting算法的代表。47.LSTM中,()的作用是确定哪些新的信息留在细胞状态中,并更新细胞状态。A、输入门B、遗忘门C、输出门D、更新门【正确答案】:A解析:
解析:LSTM中,输入门的作用是确定哪些新的信息留在细胞状态中,并更新细胞状态;遗忘门决定我们会从细胞状态中丢弃什么信息;输出门确定输出。48.在Hadoop生态系统中,()可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言。A、PigB、HBascC、HiveD、MapReduce【正确答案】:C解析:
在Hadoop生态系统中,Hive可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言。49.属于卷积神经网络应用方向的是()A、图像分类B、目标检测C、图像语义分割D、以上答案都正确【正确答案】:D解析:
解析:卷积神经网络应用于图像分类、目标检测及图像语义分割。50.下列问题与RNN相关的是()A、梯度消失B、时间步C、梯度爆炸D、以上都正确【正确答案】:D51.核矩阵是()的。A、没有规律B、半正定C、正定D、样本矩阵【正确答案】:B解析:
只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。52.机器学习中发生过拟合的主要原因不包括()。A、使用过于复杂的模型B、数据噪声较大C、训练数据少D、训练数据充足【正确答案】:D解析:
训练数据充足可以降低过拟合。53.下列描述中属于DMM(数据管理成熟度模型)中的关键过程域数据战略的是()。A、数据战略制定B、业务术语表C、数据质量评估D、过程质量保障【正确答案】:A解析:
数据战略制定属于DMM(数据管理成熟度模型)中的关键过程域“数据战略”。54.对连续图像的离散化采样决定了图像的()A、空间分辨率B、时间分辨率C、地面分辨率D、灰度值【正确答案】:A解析:
连续图像变为离散图像需要每隔一定距离取一次样,这里的一定距离就是采样距离,采样距离越大,而像素点越少,图像越模糊,反之亦然。55.在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了一个()。A、偏置项B、系数C、松弛变量D、两种情况的目标函数相同【正确答案】:C56.下列关于L1、L2正则化的说法正确的是()。A、L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B、L2正则化技术又称为LassoRegularizationC、L1正则化得到的解更加稀疏D、L2正则化得到的解更加稀疏【正确答案】:C解析:
L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;L2正则化可以防止模型过拟合,一定程度上L1也可以防止过拟合,L1正则化又称LassoRegression。57.文档是待处理的数据对象,它由一组词组成,这些词在文档中不计顺序,如一篇论文、一个网页都可以看做一个文档。这样的表示方式称为()A、语句B、词袋C、词海D、词塘【正确答案】:B解析:
词袋模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。58.基于词的N元文法模型,其最后的粗分结果集合大小()NA、大于B、大于等于C、小于D、小于等于【正确答案】:B解析:
基于N-最短路径分词算法,其基本思想是根据词典,找出字串中所有可能的词,构造词语切分有向无环图。每个词对应图中的一条有向边,并赋给相应的边长(权值)。然后针对该切分图,在起点到终点的所有路径中,求出长度并按严格升序排列(任何两个不同位置上的值一定不等,下同)依次为第1,第2,…,第i,…,第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等,那么他们的长度并列第i,都要列入粗分结果集,而且不影响其他路径的排列序号,最后的粗分结果集合大小大于等于N。59.输人图像已被转换为大小为28x28的矩阵和大小为7x7的步幅为1的核心/滤波器,则卷积矩阵的大小是()A、22x22B、21x21C、28x28D、7x7【正确答案】:A解析:
解析:28-7+1=22。60.下列属于无监督学习的是()。A、K-meansB、SVMC、最大熵D、CRF【正确答案】:A解析:
K-means是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,这是一个典型聚类算法,聚类就是一种发现这种内在结构的技术,该类算法被称为无监督学习。61.当()时,可以不考虑RDD序列化处理。A、完成成本比较高的操作后B、执行容易失败的操作之前C、RDD被重复使用D、实时性要求高【正确答案】:D解析:
RDD的序列化处理主要在完成成本比较高的操作之后、执行容易失败的操作之前、当RDD被重复使用或者计算其代价很高时进行。62.平滑图像处理可以采用RGB彩色()。A、直方图均衡化模型B、直方图均衡化模型C、加权均值滤波模型D、中值滤波模型【正确答案】:C解析:
平滑图像处理可以采用RGB彩色加权均值滤波模型。63.()是一种著名的密度聚类算法,它基于一组邻域参数来刻画样本的紧密程度。A、DBSCANB、原型聚类C、密度聚类D、层次聚类【正确答案】:A64.泛化误差可分解为偏差、方差与噪声之和,当学习器拟合程度不够强时,()主导了泛化错误率。A、偏差B、方差C、噪声D、差与方差共同【正确答案】:A解析:
学习器拟合程度不够强时即欠拟合时,偏差主导了泛化错误率。65.MapReduce使用()来记录不同事件的发生次数。A、日志B、事件触发器C、状态列表D、计数器【正确答案】:D解析:
MapReduce使用计数器来记录不同事件的发生次数。66.下列关于HDFS特征的说法错误的是()。A、支持超大文件B、基于商用硬件C、流式数据访问D、低吞吐量【正确答案】:D解析:
HDFS设计中重视数据的高吞吐量,因此其数据吞吐量高,但也造成了其数据延迟访问的特征。67.下列关于集成学习模型中弱学习者的描述错误的是()。A、经常不会过拟合B、通常带有高偏差,所以其并不能解决复杂学习问题C、通常会过拟合D、通常拥有低方差【正确答案】:C解析:
弱学习者是问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。68.下列不属于数据科学跨平台基础设施和分析工具的是()。A、微软AzureB、Google云平台C、阿里云D、Adobephotoshop【正确答案】:D解析:
Adobephotoshop软件一般不作为数据分析工具。69.RDD的特点不包括()。A、RDD之间有依赖关系,可溯源B、RDD由很多partition构成C、对RDD的每个split或partition做计算D、RDD可以增量更新【正确答案】:D解析:
RDD具有以下五大特点:①RDD由很多partition构成;②对RDD做计算,相当于对RDD的每个split或partition做计算;③RDD之间有依赖关系,可溯源;④如果RDD里面存的数据是key-value形式,则可以传递一个自定义的partitioner进行重新分区比如可以按key的hash值分区;⑤最优的位置去计算,即数据的本地性。70.大数据参考架构的水平轴和垂直轴分别为()。A、信息(活动)价值链和信息技术价值链B、信息技术价值链和信息(活动)价值链C、信息交互价值链和信息技术价值链D、信息(活动)价值链和信息交互价值链【正确答案】:A解析:
大数据参考架构围绕代表大数据价值链的信息价值链(水平轴)和信息技术价值链(垂直轴)两个维度组织展开。71.在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在()。A、异方差B、序列相关C、多重共线性D、高拟合优度【正确答案】:C72.直方图均衡化适用于增强直方图呈()分布的图像A、尖峰B、波形C、随机D、高斯【正确答案】:A73.下列关于支持向量的说法正确的是()。A、到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量B、训练集中的所有样本点都是支持向量C、每一类样本集中都分别只有一个支持向量D、支持向量的个数越多越好【正确答案】:A解析:
在支持向量机中,距离超平面最近的且满足一定条件的几个训练样本点被称为支持向量。一般情况下,支持向量的个数等于训练样本数目,并不是越多越好。74.图像噪声一般可分为以下哪几类()A、加性噪声B、乘性噪声C、量化噪声D、以上答案都正确【正确答案】:D解析:
噪声是图像干扰的重要原因。一幅图像在实际应用中可能存在各种各样的噪声,这些噪声可能在传输中产生,也可能在量化等处理中产生。
噪声是图像干扰的重要原因。一幅图像在实际应用中可能存在各种各样的噪声,这些噪声可能在传输中产生,也可能在量化等处理中产生。
根据噪声和信号的关系(f(x,y)表示给定原始图像,g(x,y)表示图像信号,n(x,y)表示噪声)可将其分为三种形式:①加性噪声,此类噪声与输入图像信号无关,含噪图像可表示为f(x,y)=g(x,y)+n(x,y),信道噪声及光导摄像管的摄像机扫描图像时产生的噪声就属这类噪声。②乘性噪声,此类噪声与图像信号有关,含噪图像可表示为f(x,y)=g(x,y)+n(x,y)g(x,y),飞点扫描器扫描图像时的噪声、电视图像中的相干噪声、胶片中的颗粒噪声就属于此类噪声。③量化噪声,此类噪声与输入图像信号无关,是量化过程存在量化误差,再反映到接收端而产生。75.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统能识别狱警、小偷、送餐员、其他人员4种不同人员。下列学习方法最适合此种应用需求的是()。A、二分类问题B、层次聚类问题C、多分类问题D、回归问题【正确答案】:C解析:
涉及4种人员类别属于多分类问题。76.下列关于Hive说法正确的是()。A、一种数据仓库工具B、一种数据处理工具C、一种可视化工具D、一种分析算法【正确答案】:A解析:
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。77.数据变换的策略包括()。A、平滑处理、特征构造、聚集、标准化、离散化B、平滑处理、特征构造、聚集、审计、离散化C、平滑处理、聚集、标准化、审计、离散化D、特征构造、聚集、标准化、审计、离散化【正确答案】:A解析:
数据变换的策略不包括审计。78.数据安全不只是技术问题,还涉及()。A、人员问题B、管理问题C、行政问题D、领导问题【正确答案】:B解析:
数据安全不只是技术问题,还涉及管理问题。79.傅里叶变换得到的频谱中,低频系数对应于()A、物体边缘B、噪声C、变化平缓部分D、变化剧烈部分【正确答案】:C解析:
图像的主要成分是低频信息,它形成了图像的基本灰度等级,对图像结构的决定作用较小;中频信息决定了图像的基本结构,形成了图像的主要边缘结构;高频信息形成了图像的边缘和细节,是在中频信息上对图像内容的进一步强化。80.Spark核心层主要关注的问题是().A、存储B、计算C、传输D、连接【正确答案】:B解析:
Spark核心层定义,Spark核心层主要关注计算问题。81.建立在相关关系分析法基础上的预测是大数据的()。A、基础B、前提C、核心D、条件【正确答案】:C解析:
略。82.下列关于线性模型的描述错误的是()。A、支持向量机的判别函数一定属于线性函数B、在样本为某些分布情况时,线性判别函数可以成为最小错误率或最小风险意义下的最优分类器C、在一般情况下,线性分类器只能是次优分类器D、线性分类器简单而且在很多情况下效果接近最优,所以应用比较广泛【正确答案】:A解析:
支持向量机的判别函数不一定是线性函数。83.在集成学习中,对于数据型输出,最常见的结合策略是()。A、平均法B、投票法C、学习法D、以上答案都正确【正确答案】:A84.下列不属于数据科学开源工具的是()。A、MapReduceB、ERPC、HadoopD、Spark【正确答案】:B解析:
ERP系统是企业资源计划(EnterpriseResourcePlanning)的简称,是指建立在信息技术基础上,集信息技术与先进管理思想于一身,以系统化的管理思想,为企业员工及决策层提供决策手段的管理平台。85.BP神经网络经常遭退(),其训练误差持续降低,但测试误差却可能上升。A、欠拟合B、误差过大C、误差过小D、过拟合【正确答案】:D解析:
解析:正是由于其强大的表示能力,BP神经网络经常遭遇过拟合,其训练误差持续降低,但测试误差却可能上升。86.以P(w)表示词条w的概率,假设已知P(南京)=0.8,P(市长)=0.6,P(江大桥)=0.4;P(南京市)=0.3,P(长江大桥)=0.5。如果假设前后两个词的出现是独立的,那么分词结果就是()A、南京市*长江*大桥B、南京*市长*江大桥C、南京市长*江大桥D、南京市*长江大桥【正确答案】:B解析:
最大概率分词基本思想:一句话有多种切割方法,我们选择联合概率最大的结果。P(A)=0;P(B)=0.8*0.6*0.4=0.192;P(C)=0;P(D)=0.3*0.5=0.15。所以这道题选择B。87.著名的C4.5决策树算法使用()来选择最优划分属性。A、信息增益B、增益率C、基尼指数D、均值【正确答案】:B88.为了提高系统性能,Spark采取惰性计算模式。下列关于惰性计算模式的描述正确的是()。A、执行Transformation操作时不会提交,只有执行Action操作时才会被提交到集群中开始被执行B、执行Action操作时不会提交,只有执行Transformation操作时才会被提交到集群中开始被执行C、只有执行完Action操作和Transformation操作时,所有操作才会被提交到集群中开始被执行D、执行完Action操作或Transformation操作时都不会提交到集群【正确答案】:A解析:
Spark惰性计算模式定义。89.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程J=7.19x+73.93,据此可以预测这个孩子10岁时的身高,则下列叙述正确的是(A、身高一定是145.83cmB、身高一定超过146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正确答案】:D解析:
回归直线方程预测时,出现的误差方向不能确定。90.当合适的样本容量很难确定时,可以使用的抽样方法是()。A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样【正确答案】:D91.下列描述中不属于数据治理内容的是()。A、理解自己的数据B、行为规范的制定C、岗位职责的定义D、获得更多的数据【正确答案】:D解析:
获得更多的数据不属于数据治理。92.评估完模型之后,发现模型存在高偏差(highbias),应采取的解决方法是()。A、减少模型的特征数量B、增加模型的特征数量C、增加样本数量D、以上答案都正确【正确答案】:B解析:
如果模型存在高偏差,意味着模型过于简单,为了使模型更加健壮,可以在特征空间中添加更多的特征。而增加样本数量将减少方差。93.AGNES是一种采用()策略的层次聚类算法。A、自顶向下B、自底向上C、自左至右D、自右至左【正确答案】:B94.2003年,Tableau在斯坦福大学诞生,它起源于一种改变数据使用方式的新技术,即()A、VizQL语言B、SQL语言C、XSQL语言D、NewSQL语言【正确答案】:A解析:
VizQL是一种可视化查询语言,可将拖放动作转化为数据查询,然后以可视化的形式表达数据,是Tableau的起源。95.()负责MapReduce任务调度。A、NameNodeB、JobtrackerC、TaskTrackerD、SecondaryNameNode【正确答案】:B解析:
Jobtracker负责MapRcduce任务调度,TaskTracker负责任务执行。96.下列不属于视觉通道表现力评价指标的是()。A、精确性B、可辨认性C、可分离性D、可转换性【正确答案】:D解析:
在数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道表现力的评价指标包括精确性、可辨认性、可分离性和视觉突出性。97.数据科学家可能会同时使用多个算法(模型)进行预测,并且把这些算法的结果集成起来进行最后的预测(集成学习),下列关于集成学习的说法正确的是()。A、单个模型之间具有高相关性B、单个模型之间具有低相关性C、在集成学习中使用平均权重而不是投票会比较好D、单个模型都用同一个算法【正确答案】:B解析:
集成学习就是组合这里的多个弱监督模型以期得到一个更好、更全面的强监督模型,集成学习潜在的思想是即便某一个弱模型得到了错误的预测,其他的弱模型也可以将错误
纠正回来。某一个弱模型要有一定的准确性,即学习器不能太坏,并且要有多样性,即个体学习器间具有差异。集成中既可包含同种类型的弱模型,也可包含不同类型的弱模型。98.()是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记。A、支持向量机B、间隔最大化C、线性分类器D、贝叶斯判定准则【正确答案】:D99.()是窄依赖操作。A、joinB、filterC、groupD、sort【正确答案】:B解析:
spark中常见的窄依赖操作包括map、filer、union、sample等,宽依赖的操作包括reduceByKey、groupByKey、join等。100.在抽样估计中,随着样本容量的增大,样本统计量接近总体参数的概率就越大。这一性质称为()。A、无偏性B、有效性C、及时性D、一致性【正确答案】:D解析:
一致性是指随着样本容量的增大,样本统计量接近总体参数的概率就越大。1.在网络爬虫的爬行策略中,应用最为常见的有()。A、深度优先遇历策略B、广度优先遍历策略C、高度优先遍历策略D、反向链接策略E、大站优先策略【正确答案】:AB解析:
在网络爬虫的爬行策略中,应用最为常见的是深度优先遍历策略、广度优先遍历策略。2.完整性约束通常包括()。.A、实体完整性B、域完整性C、参照完整性D、用户定义完整性【正确答案】:ABCD解析:
在关系数据库中,完整性约束通常包括:①实体完整性:规定表的每一行在关系表中是唯一的实体。②域完整性:指关系表中的列必须满足某种特定的数据类型约束,其中约束又包括取值范围、精度等规定。③参照完整性:指两个关系表的主关键字和外关键字的数据应一致,保证了表之间的数据的一致性,防止了数据丢失或无意义的数据在数据库中扩散。④用户定义的完整性:不同的关系数据库系统根据其应用环境的不同,往往还需要一些特殊的约束条件。用户定义的完整性即针对某个特定关系数据库的约束条件,它反映某一具体应用必须满足的语义要求。3.传统关系数据库的优点包括()。A、数据一致性高B、数据冗余度低C、简单处理的效率高D、产品成熟度高【正确答案】:ABD解析:
略。4.下列属于数据挖掘与分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正确答案】:ABCD解析:
常用的数据挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的数据分析工具有Tableau、Alteyx、R&Python语言、FineReport、PowerBI。三、(共33题)5.下列关于情感分析的说法正确的是()A、简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程B、情感分析的发展得益于社交媒体的兴起C、按照处理文本的粒度不同,情感分析大致可分为词语级,句子级,篇章级三个D、情感分析可以应用于文本挖掘【正确答案】:ABCD解析:
情感分析的定义即对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程,它得益于社交媒体的兴起,从而能收集大量信息进行分析。其分析力度包括词语级、句子级和篇章级。情感分析可用于文本挖掘。6.以下属于图像平滑算法的是()A、中值滤波B、均值滤波C、邻域平均法D、高斯滤波【正确答案】:ABCD7.最常见的分词算法可以分为哪三大类()A、基于字符串匹配的分词方法B、基于理解的分词方法C、基于统计的分词方法D、基于阅读的分词方法【正确答案】:ABC解析:
无基于阅读的分词方法。8.Spark提交工作的方式有()。A、ClientB、ClusterC、StandaloneD、YARN【正确答案】:AB解析:
Spark提交作业的方式是Client和Clustero9.特征向量的归一化方法有()。A、线性函数转换B、对数函数转换C、反余切函数转换D、减去均值,除以方差【正确答案】:ABCD10.在数据缺失严重时,会对分析结果造成较大的影响,因此对于剔除的异常值和缺失值,要采用合理的方法进行填补。常用的填补方法有()。A、平均值填充B、K最近邻距离法C、回归法D、极大似然估计E、多重插补法【正确答案】:ABCDE解析:
在数据缺失严重时,会对分析结果造成较大的影响,因此对于剔除的异常值和缺失值,要采用合理的方法进行填补。常用的填补方法有平均值填充、K最近邻距离法、回归法、极大似然估计、多重插补法。11.下列关于中心极限定理的说法正确的有()。A、中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限B、中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以t分布为极限C、中心极限定理为Z检验提供了理论支持D、中心极限定理是数理统计学和误差分析的基础【正确答案】:ACD解析:
中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限。12.常用来缓解BP网络的过拟合的两种策略是()。A、晚停B、早停C、正则化D、加入损失函数【正确答案】:BC解析:
解析:通常有两种策略来缓解BP网络的过拟合。第一种策略是早停(earlystopping)、即将数据分成训练集合验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值。第二种策略是正则化(regularization),其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权和阈值的平方和。13.主要用来实现实时计算类应用的组件有()。A、流计算组件B、内存计算组件C、MPP数据库D、Hadoop的后台定时分析计算任务【正确答案】:AB解析:
实时计算类应用主要通过流计算组件、内存计算组件来实现。14.相对于HadoopMapReduce,Spark的特点有()。A、通用性B、易用性C、速度快D、容错性【正确答案】:ABC解析:
相对于HadoopMapReduce,Spark的特点包括速度快、通用性和易用性。15.下列关于Hive的说法正确的有()。A、Hive是基于Hadoop的数据仓库工具B、Hive可以将结构化的数据文件映射为一张数据库表C、最初,Hive由Google开源,用于解决海量结构化日志数据统计问题D、Hive的主要应用场景是离线分析【正确答案】:ABD解析:
Hive不是由谷歌提出和开源的,谷歌提出的三大核心技术是GFS、BigTable、MapReduce。16.情感分析的应用场景有()A、数据挖掘B、信息检索C、文本分词D、市场营销【正确答案】:ABD解析:
情感分析常用于数据挖掘、信息检索、市场营销等,而文本分词属于文本处理的应用场景。17.如果将A、B、C三个分类器的P-R曲线画在一个图中,其中A、B的P-R曲线可以完全包含住C的P-R曲线,A、B的P-R曲线有交点,A、B、C的平衡点分别为0.79、0.66、0.58,则下列说法中正确的有()。A、学习器A的性能优于学习器CB、学习器A的性能优于学习器BC、学习器B的性能优于学习器CD、学习器C的性能优于学习器B【正确答案】:ABC解析:
若一个学习器的P-R曲线被另一个学习器的曲线完全包住,则可断官后者的性能优于前者,如果两个学习器的P-R曲线发生了交叉,则可用平衡点度量。18.数据挖掘算法的组件包括()。A、模型或模型结构B、评分函数C、优化和搜索方法D、数据管理策略【正确答案】:ABCD解析:
数据挖掘算法的组件包括模型或模型结构、评分函数、优化和搜索方法、数据管理策略。19.下列关于Pig的说法正确的有()。A、Pig的主要目的是弥补MapReduce编程的复杂性B、Pig的核心是一种数据分析语言C、Pig程序的结构适合串行处理D、Pig主要包含PigLatin和Pig执行环境两部分【正确答案】:ABD解析:
Pig程序的结构适合并行处理。20.下列关于学习器结合的描述正确的有()。A、避免单学习器可能因误选而导致泛化性能不佳B、降低陷入局部极小点的风险C、假设空间扩大有可能学得更好的近似D、多学习器结合有可能冲突【正确答案】:ABC解析:
学习器结合可能会从三个方面带来好处。从统计方面来看,由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等性能,此时若使用单学习器可能因误选而导致泛化性能不佳,结合多个学习器则会减小这一风险;从计算方面来看,学习算法往往会陷入局部极小,有的局部极小点所对应的泛化性能可能很糟糕。而通过多次运行之后进行结合,可降低陷入糟糕局部极小点的风险;从表示方面来看,某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中,此时若使用单学习器则肯定无效,而通过结合多个学习器,由于相应的假设空间有所扩大,有可能学得更好的近似。21.下面属于可视化高维数据技术的是哪些()A、矩阵B、平行坐标系C、星形坐标系D、散布图【正确答案】:ABC解析:
矩阵、平行坐标系和星形坐标系都属于可视化高维数据的常用技术,而散布图又叫相关图,只能处理二维数据。22.数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括()。A、精确性B、可辨认性C、可分离性D、视觉突出性【正确答案】:ABCD解析:
在数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括精确性、可辨认性、可分离性和视觉突出性。评价指标描述如下:①精确性代表的是人类感知系统对于可视化编码结果和原始数据之间的吻合程度。斯坦福大学Mackinlay曾于1986年提出了不同视觉通道所表示信息的精确性。②可辨认性是指视觉通道的可辨认度。③可分离性是指同一个视觉图形元素的不同视觉通道的表现力之间应具备一定的独立性。④视觉突出性是指视觉编码结果能否在很短的时间内(如毫秒级)能够迅速准确表达出可视化编码的主要意图。23.鉴别多元共线特征后,下一步可能的操作有()。A、移除两个共线变量B、不移除两个变量,而是移除一个C、移除相关变量可能会导致信息损失,可以使用惩罚线性回归模型(如ridge或lassoregression)【正确答案】:BC解析:
移除两个变量会损失一切信息,所以只能移除一个特征,或者也可以使用正则化算法。24.下列关于神经网络模型描述正确的有()A、神经网络模型是许多逻辑单元按照不同层级组织起来的网络,每一层的输出变量都是下一层的输入变量B、神经网络模型建立在多神经元之上C、神经网络模型中,无中间层的神经元模型的计算可用来表示逻辑运算D、神经网络模型一定可以解决所有分类问题【正确答案】:ABC解析:
解析:现在很多分类问题的准确率都很低尤其是医学图像方面,而且容易受环境,如光照影响。25.HIS表色系的三属性包含()A、色调B、饱和度C、亮度D、色度【正确答案】:ABC26.Hadoop运行的模式包括()。A、单机版B、伪分布式C、分布式D、全分布式【正确答案】:ABC解析:
Hadoop运行模式包括单机版、伪分布式和分布式。27.决策树的划分选择有()。A、增益系数B、信息增益C、增益率D、基尼系数【正确答案】:BCD28.下列关于数据科学中常用统计学知识的说法错误的有()。A、从行为目的与思维方式看,数据统计方法可以分为基本分析方法和元分析方法B、从方法论角度看,基于统计的数据分析方法又可分为描述统计和推断统计C、描述统计可分为集中趋势分析、离散趋势分析、参数估计和假设检验D、推断统计包括采样分布和相关分析【正确答案】:ABCD解析:
从行为目的与思维方式看,数据统计方法包括描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析等;从方法论角度看,描述统计可分为集中趋势分析和离散趋势分析;推断统计包括总体参数估计和假设检验两方面内容。29.常用的数据审计方法可以分为()。A、预定义审计B、自定义审计C、可视化审计D、结构化审计【正确答案】:ABC解析:
常用的数据审计方法有预定义审计、自定义审计和可视化审计三种。30.下列关于随机变量及其概率分布的说法正确的有()。A、随机变量可以分为离散型随机变量和连续型随机变量B、随机变量的概率分布指的是一个随机变量所有取值的可能性C、扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为0与正面朝上次数为5的概率是一样的D、扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为5的概率是最大的【正确答案】:ABC解析:
扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为5的概率不是最大的。31.下列关于现阶段大数据技术体系的说法正确的有()。A、基础设施提供数据计算、数据存储、数据加工(DataWrangling或DataMunging)等服务B、数据流处理、统计工具、日志分析都属于常用的开源工具C、数据资源代表的是生成数据的机构D、数据源与App为数据科学和大数据产业生态系统提供数据内容【正确答案】:ABCD解析:
Speechpad的联合创始人DaveFeinleib于2012年发布大数据产业全景图(BigDataLandscape),首次较为全面地刻画了当时快速发展中的大数据技术体系。后来,该图及其画法成为大数据和数据科学的重要分析工具,得到了广泛应用和不断更新。MattTurck等组织绘制了2017大数据产业全景图(BigDataLandscape2017)。从2017大数据产业全景图看,现阶段的大数据技术体系主要类型包括数据资源、数据源与App、开源工具、跨平台基础设施和分析工具、行业应用、企业应用、基础设施和分析工具。32.下列属于数据挖掘方法的有()。A、聚类B、回归分析C、神经网络D、决策树算法【正确答案】:ABCD解析:
利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联则、特征、变化和偏差分析、Web页挖掘等。分类方法有决策树算法、KNN算法(k-nearestneighbor)、SVM算法、VSM算*Bayes算法、神经网络等。聚类算法有基于密度、基于层次、基于模型、基于网格等。关联规则算法有Apriori算法、FP-Growth算法。33.下列关于连续型随机变量以及连续型概率密度函数的说法正确的有()。A、一个客服一天可能接听到多少个电话是一个连续型随机变量B、正态分布是一种连续型随机变量的概率分布C、可以使用概率密度函数来描述连续型随机变量的概率分布D、连续型概率密度函数曲线下方的面积之和为1【正确答案】:BCD解析:
一个客服一天可能接听到多少个电话是一个离散型随机变量。34.列式数据库(如BigTable和HBase)以表的形式存储数据,表结构包含的元素有()。A、关键字B、时间戳C、列簇D、数据类型【正确答案】:ABC解析:
BigTable和HBase的索引由行关键字、列簇和时间戳组成。35.HBase中KeyValue数据的存储格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正确答案】:A解析:
HBase中KeyValue数据的存储格式是HFile。36.MapReduce对map()函数的返回值处理后才传给reduce()函数,其中涉及的操作有()。A、合并B、排序C、分区D、抽样【正确答案】:ABC解析:
分别涉及Shuffle(排序)、Combiner(合并)和Partition(分区)操作。37.图像处理中的去噪算法有()A、中值滤波B、均值滤波C、峰值滤波D、高值滤波【正确答案】:AB解析:
图像处理中噪声可用中值滤波或均值滤波将其与周围图像像素融合,达到降噪目的。38.机器学习的三个关键组成要素包含()。A、任务TB、性能指标PC、目标函数VD、经验来源E【正确答案】:ABD39.下列关于词袋模型说法正确的是()A、词袋模型可以忽略每个词出现的顺序B、词袋模型不可以忽略每个词出现的顺序C、TensorFlow支持词袋模型D、词袋模型可以表出单词之间的前后关系【正确答案】:AC解析:
词袋模型的缺点之一就是不考虑词语的顺序关系,因此BD错误。40.按照涉及自变量的多少,可以将回归分析分为()。A、线性回归分析B、非线性回归分析C、一元回归分析D、多元回归分析【正确答案】:CD解析:
按照涉及自变量的多少,可以将回归分析分为一元回归分析和多元回归分析。41.以下跟图像处理相关的是()A、图像识别B、人脸识别C、视频分析D、自然语言处理【正确答案】:ABC42.图像识别的一般步骤包括()A、预处理B、特征提取C、超像素生成D、识别分类【正确答案】:ABD解析:
图像识别中的一般步骤包括预处理、特征提取和识别分类。超像素生成并非必要步骤。43.下列可以用来构造神经网络的算法有()。A、KNNB、线性回归C、逻辑回归【正确答案】:BC解析:
解析:KNN是一种基于实例的学习算法,不具有任何训练参数。因此不能用来构造神经网络,线性回归和逻辑回归都可以用来构造神经网络模型,其实二者就是单神经元的神经网络。44.在监督式学习中使用聚类算法的方法有()。A、首先可以创建聚类,然后分别在不同的集群上应用监督式学习算法B、在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征C、在应用监督式学习之前,不能创建聚类D、在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征【正确答案】:AB解析:
我们可以为不同的集群构建独立的机器学习模型,并且可以提高预测精度。将每个类别的ID作为特征空间中的一个额外的特征可能会提高的精度结果。45.特征工程一般需要做的工作包含()。A、正则化B、标准化C、特征处理D、特征选择【正确答案】:CD解析:
特征工程包括特征选择、特征处理、特征变换、特征衍生等。46.Spark容错性的方式有()。A、数据检查点B、存储原始数据C、记录数据的更新D、自建数据版本【正确答案】:AC解析:
Spark容错性有数据检查点和记录数据的更新两种方式。47.处理图像平滑处理的滤波有()A、盒式滤波B、均值滤波C、高斯滤波D、中值滤波【正确答案】:ABCD48.以下属于图像分割的算法的是:()A、阈值分割方法(thresholdsegmentationmethod)B、区域增长细分(regionalgrowthsegmentation)C、边缘检测分割方法(edgedetectionsegmentationmethod)D、基于聚类的分割(segmentationbasedonclustering)E、基于CNN中弱监督学习的分割【正确答案】:ABCDE49.下列既可以用于分类,又可以用于回归的机器学习算法有()。A、k近邻B、逻辑回归C、决策树D、线性回归【正确答案】:AC解析:
逻辑回归只用于分类,线性回归只用于回归。50.算法“歧视”现象可能出现的过程有()。A、算法设计B、算法实现C、算法投入使用D、算法验证【正确答案】:ABC解析:
算法歧视是指算法设计、实现和投入使用过程中出现的各种“歧视”现象。51.文本分类过程包括()A、选择训练文本B、选择文本特征C、建立文本表示模型D、选择分类方法【正确答案】:ABCD解析:
文本分类过程包括:(1)选择训练文本;(2)选择文本特征;(3)建立文本表示模型;(4)选择分类方法;(5)分类结果的评估。52.数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析、()等方面。A、关联分析B、分类和预测分析C、聚类分析D、偏差分析【正确答案】:ABCD53.使用极大似然估计的前提条件有()。A、数据服从某种已知的特定数据分布型B、已经得到了一部分数据集C、提前已知某先验概率D、数据集各个属性相对独立【正确答案】:AB解析:
极大似然估计(MLE)要求样本独立同分布,否则无法用概率密度函数乘积的形式。假设的分布与真实的分布要一致,否则会南辕北辙。如果对总体分布一无所知是无法使用MLE的。54.下列属于HBasc性能优化的有()。A、读优化B、写优化C、配置优化D、JVM优化【正确答案】:ABCD解析:
HHBase性能优化包含读优化、写优化、配置优化、JVM优化。55.下列说法中正确的有()。A、云计算的主要特点是非常昂贵B、大数据是多源、异构、动态的复杂数据,即具有4V特征的数据C、大数据是数据科学的研究对象之一D、MapReduce是采用云计算这种新的计算模式研发出的具体工具软件(或算法)【正确答案】:BCD解析:
云计算的一个重要优势在于其经济性。与其他计算模式不同的是,云计算的出发点是如何使用成本低的商用机(而不是成本很高的高性能服务器)实现强大的计算能力。56.以下网络结构中可以应用于图像识别任务的是()A、LeNet-5B、AlexNetCNND、VGG-net【正确答案】:ABCD解析:
四者均为经典的卷积神经网络。57.()是通过对无标记训练样本的学习来进行分类的。A、密度估计B、异常检测C、线性回归D、聚类分析【正确答案】:ABD58.下列关于机器学习的理解正确的有()。A、非监督学习的样本数据是要求带标签的B、监督学习和非监督学习的区别在于是否要求样本数据带标签C、强化学习以输入数据作为对模型的反馈D、卷积神经网络一般用于图像处理等局部特征相关的数据【正确答案】:BCD解析:
非监督学习的样本数据是不要求带标签的,监督学习的样本数据是要求带标签的。59.常用的代价函数有()。A、均方误差B、均方根误差C、平均绝对误差D、交叉熵【正确答案】:ABCD60.Hadoop组件Zookeeper的设计目标和主要特点包括()。A、简单性B、自我复制C、顺序访问D、高速读取【正确答案】:ABCD解析:
ZooKeeper的设计目标和特点包括简单性、自我复制、顺序访问和高速读取。61.深度学习方法不适用的数据集有()。A、数据样本充足B、数据样本不足C、数据集具有局部相关特性D、数据集没有局部相关特性【正确答案】:BD解析:
以下数据集不适用于深度学习:①数据集太小,数据样本不足时,深度学习相对其他机器学习算法没有明显优势;②数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像、语音、自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体,语音信号中音位组合成单词,文本数据中单词组合成句子,这些特征元素的组合一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集,不适用于使用深度学习算法进行处理。62.常见的回归分析的种类有()。A、线性回归B、系数回归C、逻辑回归D、曲线回归【正确答案】:ACD63.下列关于MapReduce1.0版本的说法正确的有()。A、扩展性差B、可靠性差C、资源利用率低D、无法支持多种计算框架【正确答案】:ABCD解析:
MapReducel.0存在的局限性包括扩展性差、可靠性差、资源利用率低、无法支持多种计算框架。64.对于不同场景内容,一般数字图像可以分为()A、二值图像B、灰度图像C、彩色图像D、深度图像【正确答案】:ABC解析:
深度图像中深度通道为描述距离,一般对其进行采样或数值离散化。65.预剪枝使得决策树的很多分子都没有展开,则会导致的结果有()。A、显著减少训练时间开销B、显著减少测试时间开销C、降低过拟合风险D、提高欠拟合风险【正确答案】:ABCD解析:
预剪枝使得决策树的很多分支都没有展开,这不仅降低了过拟合的风险,还显著减少了决策树的训练时间开销和测试时间开销。但另一方面,有些分支的当前划分虽不能提升泛化性能,甚至可能导致泛化性能暂时下降,但在其基础上进行的后续划分却有可能导致性能显著提高;预剪枝基于贪心原则,禁止这些分支展开,提高了欠拟合的风险。66.下列关于Spark中RDD的描述正确的有()。A、RDD(ResilientDistributedDataset)叫作弹性分布式数据集,是Spark中最基本的数据抽象B、Resilient:表示弹性的C、Destributed:分布式,可以并行在集群计算Dataset:就是一个集合,用于存放数据【正确答案】:ABCD解析:
A、B、C、D全部正确。67.集成学习中增强多样性的常见做法有()。A、数据样本扰动B、输入属性扰动C、输出表示扰动D、算法参数扰动【正确答案】:ABCD解析:
集成学习中增强多样性的常见做法主要有对数据样本、输入属性、输出表示、算法参数进行扰动。68.RDD的特征有()。A、可容错性B、简洁性C、并行数据结构D、结构化【正确答案】:AC解析:
RDD是一个容错的、并行的数据结构。69.下列描述中属于Analytics2.0主要特点的有()。A、侧重嵌入式分析B、重视非结构化数据的分析C、以决策支持为主要目的D、注重解释性分析和预测性分析【正确答案】:BCD解析:
著名管理学家Thomas·H·Davernport于2013年在《哈佛商业论坛(HarvardBusinessReview)》上发表一篇题为《第三代分析学(Analytics3.0)》的论文,将数据分析的方法、技术和工具-分析学(Analytics)分为三个不同时代-商务智能时代、大数据时代和数据富足供给时代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics2.0的主要特点有分析活动与数据的生成几乎同步,强调数据分析的实时性;重视非结构化数据的分析;以决策支持为主要目的;注重解释性分析和预测性分析。70.Spark中的Scheduler模块可以分为()。A、DAGSchcdulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正确答案】:AC解析:
Scheduler模块分为DAGScheduler和TaskScheduler两个部分。71.大数据处理流程可以概括为()。A、数据分析与挖掘B、数据采集C、数据储存D、结果展示【正确答案】:ABCD解析:
算法歧视是指算法设计、实现和投入使用过程中出现的各种“歧视”现象。
6.数据增值存在的过程有()。
A.数据对象的封装
B.数据系统的研发
C.数据的集成应用
D.基于数据的创新
参考【正确答案】:ABCD
解析:数据对象的封装、数据系统的研发、数据的集成应用、基于数据的创新均需要进行数据增值。
7.大数据参考架构的三个层次包含()。
A.角色
B.活动
C.逻辑构件
D.功能组件
参考【正确答案】:ABD
解析:GB/T35589-2017《信息技术大数据技术参考模型》描述了大数据的参考架构,包括角色、活动的功能组件以及它们之间的关系。
8.分布式列式存储的功能有()。
A.支持在线快速读写
B.支持线性扩展
C.具备节点监控管理
D.数据同源不压缩
参考【正确答案】:ABC
解析:分布式列式存储的功能包括数据压缩。
9.下列关于现阶段大数据72.Spark的关键技术包括()。A、RDDB、SchedulerC、StorageD、Shuffle【正确答案】:ABCD解析:
Spark的关键技术包括RDD、Schedulcr、Storagc、Shuffc。73.以下可用于处理由于光照不均带来的影响的图像处理方法有()A、同态滤波B、顶帽变换C、基于移动平均的局部阈值处理D、拉普拉斯算子【正确答案】:ABC解析:
拉普拉斯算子属于锐化滤波器,并不能处理光照不均匀带来的影响。74.下列关于深度学习的实质及其与浅层学习区别的说法正确的有()A、深度学习强调模型深度B、深度学习突出特征学习的重要性:特征变换+非人工C、没有区别D、以上答案都不正确【正确答案】:AB解析:
解析:深度模型是手段,特征学习是目的。75.Spark比MapReduce计算快的原因有()。A、基于内存的计算B、基于DAG的调度框架C、基于Lineage的容错机制D、基于分布式计算的框架【正确答案】:ABC解析:
Spark比MapReduce计算快的原因包括基于内存计算、使用基于Lineage的容错机制和基于DAG的调度框架。76.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力,如下感于分布式存储组件的有()。A、MapReduceB、SparkC、HDFSD、HBasc【正确答案】:CD解析:
MapRcduce和Spark的核心功能是分布式计算。77.聚类性能度量外部指标包括()。A、Jaccard系数B、FM指数C、Dunn指数D、Rand指数【正确答案】:ABD解析:
常用的聚类性能度量外部指标包括Jaccard系数、FM指数、Rand指数。78.下列关于密度聚类的说法错误的有()。A、DBSCAN是一种著名的密度聚类算法B、密度聚类从样本数量的角度来考察样本之间的可连接性C、密度聚类基于不可连接样本不断扩展聚类簇,以获得最终的聚类结果D、密度直达关系通常满足对称性【正确答案】:BCD解析:
密度聚类从样本密度的角度来考察样本之间的可连接性;密度聚类基于可连接样本不断扩展聚类簇,以获得最终的聚类结果;密度直达关系通常不满足对称性;密度可达关系满足直递性,但不满足对称性;密度相连关系满足对称性。7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江省五校镇海中学2025届高考考前模拟数学试题含解析
- 河北省沧州市六校联盟2025届高考仿真卷数学试题含解析
- 肥皂膏产业深度调研及未来发展现状趋势
- 灭火器产品入市调查研究报告
- 草地曲棍球运动用球产业深度调研及未来发展现状趋势
- 2025届四川省泸州市高三最后一模数学试题含解析
- 2024年橡胶充气、减震制品项目立项申请报告范文
- 2024年金融打印设备项目申请报告
- 2024年逆变式电焊机项目提案报告范文
- 2024年度人工智能助手技术许可合同
- 国有资产交易法律实务与疑难问题
- 2023年福建省莆田市初中毕业班质量检查语文试卷【含答案】
- 浙江省高校师资培训练习系统20套试题-高等教
- 吉林省省直中小学“强师计划”招聘考试真题及答案2022
- 执行力提升训练提高执行力执行力落地
- 《首饰 贵金属纯度的规定及命名方法》深入解读-足金标签怎么标注
- 实验文昌鱼专题培训
- 余华《活着》读书分享PPT
- 硬核赢创新智慧树知到答案章节测试2023年山东大学
- 燃气锅炉安装施工方案完整版
- 2023年人民法院聘用书记员考试试题及答案
评论
0/150
提交评论