版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第页数据挖掘竞赛复习测试题1.()是指理解挖掘项目的目标业务需求。A、业务理解B、数据理解C、数据准备D、数据建模【正确答案】:A解析:
根据CRISP-DM(cross-industrystandardprocessfordatamining,跨行业数据挖掘标准流程)模型,业务理解是指从业务的角度了解项目的要求和最终目的,并将这些目的与数据挖掘的定义以及结果结合起来。2.下列程序打印结果为()。A、PythonB、PythC、thon’sD、Python‘sfeatures【正确答案】:B3.Python安装扩展库常用的是()工具。A、pyinstallB、pipC、popD、post【正确答案】:B解析:
略。4.考察一个由三个卷积层组成的CNN:kernel=3×3,stride=2,padding=SAME。最低层输出100个特征映射(featuremap),中间层200个特征映射,最高层400个特征映射。输入是200×300的RGB图片,则总参数的数量是()。A、903400B、2800C、180200D、720400【正确答案】:A解析:
第一层中由于第一个卷积kernel=3×3,输入有3个通道(channel),因此每个特征映射有3×3×3个weight,加上bias,每个特征映射对应28个参数。由于第一层有100个特征映射,因此有2800个参数;第二层中kernel=3×3,输入是前一层的100个特征映射,因此每个特征映射有3×3×100=900个weight,加上一个bias。由于共有200个特征映射,因此需要901×200=180200个参数;第三层中kernel=3×3,输入是前一层的200个特征映射,因此(第三层的)每个特征映射有3×3×200=1800个weight,加上bias。由于第三层有400个特征映射。因此这一层共有1801×400=720400个参数。以上求和共有2800+180200+720400=903400个参数。5.()分类方法可以较好地避免样本的不平衡问题。A、KNNB、SVMC、BayesD、神经网络【正确答案】:A解析:
KNN只是取了最近的几个样本点做平均,离预测数据较远的训练数据对预测结果不会造成影响,但是SVM、Bayes和KNN的每一个训练样本结果都会对预测结果产生影响。6.以下描述中错误的是()。A、数据科学中的“数据”不仅仅是“数值”,也不等同于“数值”B、数据科学中的“计算”包括数据的查询、挖掘、洞见等C、数据科学强调的是跨学科视角D、数据科学不包括“理论知识”,只包括“领域实务经验”【正确答案】:D解析:
数据科学既包括“理论知识”,又包括“领域实务经验”。7.在pandas中,以下使用其本身可以达成数据透视功能的函数是()。A、groupbyB、transformC、crosstabD、pivot_table【正确答案】:D解析:
pivot_table用于创建数据透视表。8.以下说法正确的是()。A、一个机器学习模型如果有较高准确率,总是说明这个分类器是好的B、如果增加模型复杂度,那么模型的测试错误率不一定会降低C、如果增加模型复杂度,那么模型的训练错误率总是会降低D、-【正确答案】:C解析:
对于不平衡的数据集进行预测时,正确率不能反映模型的性能。模型越复杂,在训练集上越容易表现好,在测试集上越容易表现不好。9.卷积神经网络中每层卷积层(Convolutionallayer)由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到,其作用是()。A、增强图像B、简化图像C、特征提取D、图像处理【正确答案】:C解析:
卷积神经网络中每层卷积层(Convolutionallayer)由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网路能从低级特征中迭代提取更复杂的特征。10.文档是待处理的数据对象,它由一组词组成,这些词在文档中不计顺序,如一篇论文、一个网页都可以看作一个文档。这样的表示方式称为()。A、语句B、词袋C、词海D、词塘【正确答案】:B解析:
词袋模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。11.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正确答案】:B解析:
Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三种。12.当我们需要在一张图表中特意指出某个特殊点,并加上标注达到醒目的目的时,需要用到()函数。A、plt.axvspan)B、plt.axhspan)C、plt.annotate)D、plt.text)【正确答案】:C解析:
annotate为图的某个位置添加注解。13.不属于模型集成方法的是()。A、直接集成法B、增强法C、堆叠法D、递归法【正确答案】:D解析:
模型集成方法包括直接集成法、自助法、随机森林、增强法和堆叠法等。14.DAGScheduler的作用是()。A、负责分配任务B、负责调度Worker的运行C、负责创建执行计划D、负责清理执行完毕的任务【正确答案】:C解析:
Scheduler模块分为DAGScheduler和TaskScheduler两个部分。DAGScheduler负责创建执行计划;TaskScheduler负责分配任务并调度Worker的运行。15.在数据科学中,通常可以采用()有效避免数据加工和数据备份的偏见。A、A/B测试B、训练集和测试集的划分C、测试集和验证集的划分D、图灵测试【正确答案】:A解析:A/B测试是一种对比试验,准确说是一种分离式组间试验,在试验过程中,我们从总体中随机抽取一些样本进行数据统计,进而得出对总体参数的多个评估。A/B测试有效避免数据加工和数据备份的偏见,对算法/模型选择偏见具有重要借鉴意义。16.以等可能性为基础的概率是()。A、古典概率B、经验概率C、试验概率D、主观概率【正确答案】:A解析:
古典概率是以这样的假设为基础的,即随机现象所能发生的事件是有限的、互不相容的,而且每个基本事件发生的可能性相等。根据大量的、重复的统计试验结果计算随机事件中各种可能发生结果的概率,称为试验概率或频率概率。主观概率,是指建立在过去的经验与判断的基础上,根据对未来事态发展的预测和历史统计资料的研究确定的概率,反映的只是一种主观可能性。17.进行主成分分析的前提条件是各变量间()。A、高度相关B、低度相关C、相互独立D、完全相关【正确答案】:B解析:
--18.np.linalg.svd)函数可以实现()功能。A、计算协方差矩阵B、实现奇异值分解C、计算方差D、计算均值;【正确答案】:B解析:
svd实现奇异值分解。19.egrate模块的主要作用是()。A、里面有各种特殊的数学函数,可以直接调用,如贝塞尔函数B、可以求多重积分,高斯积分,解常微分方程C、包括样条插值,卷积,差分等滤波函数D、提供各种线性代数中的常规操作【正确答案】:B解析:
egrate模块是积分模块,可以求多重积分,、高斯积分,解常微分方程等。20.对于PCA处理后的特征,其朴素贝叶斯特征相互独立的假设一定成立,因为所有主成分都是正交的,所以不相关。这句话()。A、正确B、错误C、-D、-【正确答案】:B解析:
这句话有两处错误:一是PCA转换之后的特征不一定不相关;二是不相关并不等价于相互独立。正交和不相关没有必然关系,只有当一个随机变量的统计平均等于零时,正交和不相关等价。独立则必定不相关,而不相关却不一定互相独立,只有是高斯时独立和不相关才等价。21.Scikit-Learn中,()可以实现整数分类值转化为独热向量。A、OridinalEncoderB、OneHotEncoderC、LableEncoderD、AutoEncoder【正确答案】:B解析:
onehot编码是将整数分类值转化为独热向量。22.()算法是决策树学习的基本算法,其他多数决策树学习方法都是它的变体。A、Find-SB、KNNC、概念D、ID3【正确答案】:D解析:
--23.在Python中,调用open)时需要将内容附加到文件末尾,而不是覆盖文件原来内容,则第二个实参应该使用()。A、’a'B、'g'C、'm'D、'w'【正确答案】:A解析:
'r'读模式、'w'写模式、'a'追加模式、'b'二进制模式、'+'读/写模式。24.np.diag)函数的作用是()。A、根据参数创建矩阵B、根据一个向量创建斜对角线方阵C、根据参数切割矩阵D、根据一个向量创建三角矩阵【正确答案】:B解析:
np.diag)的作用是根据一个向量建立斜对角线方阵,对角线为向量值,与eye的区别是对角线可以不全为1。25.Hadoop中partition()函数代表的是()。A、分区函数B、特征函数C、算法函数D、排序函数【正确答案】:A解析:
partition()代表分区函数。26.数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是()。A、单个模型之间具有高相关性B、单个模型之间具有低相关性C、在集成学习中使用“平均权重”而不是“投票”会比较好D、单个模型都用同一个算法【正确答案】:B解析:
集成学习就是组合这里的多个弱监督模型以期得到一个更好、更全面的强监督模型,集成学习潜在的思想是即便某一个弱模型得到了错误的预测,其他的弱模型也可以将错误纠正回来。某一个弱模型要有一定的“准确性”,即学习器不能太坏,并且要有多样性,即个体学习器间具有差异。集成中即可包含同种类型的弱模型,也可包含不同类型的弱模型。27.以下分割方法中不属于区域算法的是()。A、分裂合并B、阈值分割C、区域生长D、边缘检测【正确答案】:D解析:
边缘检测算法是标识数字图像中亮度变化明显的点,不属于区域算法发范畴。28.对模型进行超参数优化,详尽搜索指定参数的估计值使用以下哪种()方法()。A、ParameterGrid)B、ParameterSampler)C、GridSearchCV)D、RandomizedSearchCV)【正确答案】:C解析:
ParameterGrid网格搜索,ParameterSampler参数生成器,GridSearchCV详尽搜索指定参数的估计值,RandomizedSearchCV随机搜索超参数。29.PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就()。A、相关性越高B、越不重要C、相关性越低D、越重要【正确答案】:D解析:
PageRank认为,如果A页面有一个链接指向B页面,那就可以看作是A页面对B页面的一种信任或推荐。所以,如果一个页面的反向链接越多,根据这些链接的价值加权越高,那搜索引擎就会判断这样的页面更为重要。30.客户端从HDFS上读取数据时会()。A、从NameNode上获取数据B、从DataNode上获取Block位置C、从NameNode上获取Block位置D、从NameNode上获取数据和Block位置【正确答案】:C解析:
NameNode保存数据Block的位置,DataNode保存数据。31.过滤式特征选择与学习器(),包裹式特征选择与学习器()。A、相关,相关B、相关,不相关C、不相关,相关D、不相关,不相关【正确答案】:C解析:
过滤式特征选择先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。包裹式特征选择把最终将要使用的学习器的性能作为特征子集的评价准则。32.概率模型的训练过程就是()过程。A、分类B、聚类C、参数估计D、参数选择【正确答案】:C解析:
--33.正则化是将样本在向量空间模型上的一个转换,经常被使用在分类与聚类中,正则化在preprocessing模块中如何的实现方法是()。A、preprocessing.maxabs_scale)方法B、preprocessing.RobustScaler)方法C、preprocessing.normalize)方法D、preprocessing.Binarizer)方法【正确答案】:C解析:
preprocessing模块中函数normalize提供了一个快速有又简单的方式在一个单向量上来实现正则化的功能的方式。34.在其他条件不变的前提下,()容易引起机器学习中的过拟合问题。A、增加训练集量B、减少神经网络隐藏层节点数C、删除稀疏的特征D、SVM算法中使用高斯核/RBF核代替线性核【正确答案】:D解析:
神经网络减少隐藏层节点,就是在减少参数,只会将训练误差变高,不会导致过拟合。D选项中SVM高斯核函数比线性核函数模型更复杂,容易过拟合。35.下列关于RBM的说法,错误的是()。A、学习过程很快B、RBM训练可以看作对一个深层BP网络的网络权值参数的初始化C、RBM不用人工选择特征D、RBM有标签样本集【正确答案】:A解析:
RBM学习率更新相比DBN速度较慢。36.任一随机事件出现的概率为()。A、在–1与1之间B、小于0C、不小于1D、在0与1之间【正确答案】:D解析:
如果没有其他的附加条件的话,一般概率P的取值范围是0≤P≤1。0代表不可能发生,1代表一定会发生。37.关于Python程序中与“缩进”有关的说法中,以下选项中正确的是()。A、缩进统一为4个空格B、缩进是非强制性的,仅为了提高代码可读性C、缩进在程序中长度统一且强制使用D、缩进可以用在任何语句之后,表示语句间的包含关系【正确答案】:C解析:
本题考查缩进。38.列表是Python语言中基本数据类型之一。我们可以通过“list[i]”获取列表中第i个元素的值,那么“list[i:j]”有什么的作用是()。A、将列表中第i个元素的值设置为jB、返回一个列表切片——由原列表第i个到第j-1个元素组成的新列表C、返回一个拥有第i和j个元素的新列表D、返回一个拥有第j和i个元素的新列表【正确答案】:B解析:
切片得到索引从i到末尾。39.在一个神经网络中,可以用来处理过拟合的方法是()。A、DropoutB、分批归一化(BatchNormalization)C、正则化(regularization)D、都可以【正确答案】:D解析:
--40.()的主要目标是提供可扩展的机器学习算法及其实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。A、MahoutB、FlumeC、SqoopD、HBase【正确答案】:A解析:
Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,如聚类、分类、推荐过滤、频繁子项挖掘等。41.AUC是衡量()模型优劣的一种评价指标。A、回归B、分类C、二分类D、聚类【正确答案】:C解析:
--42.关于Python内存管理,下列说法错误的是哪项()。A、变量不必事先声明B、变量无须先创建和赋值而直接使用C、变量无须指定类型D、可以使用del释放资源【正确答案】:B解析:
Python变量需要事先声明并赋值才能使用。43.a=[[1.,2.,1.],[1.,2.,1.]],a+3的值为()。A、[[1,2,1],[4,5,4]]B、[[4,5,4],[4,5,4]]C、[[4,5,4],[1,2,1]]D、以上答案都不正确【正确答案】:D解析:
列表不能和数字相加,因此会报错。44.对于一个图像识别问题(在一张照片里找出一只猫),()可以更好地解决这个问题。A、循环神经网络B、感知机C、多层感知机D、卷积神经网络【正确答案】:D解析:
卷积神经网络可以提取图像特征,且具有平移不变性。循环神经网络适合语言类数据。45.多分类学习中,最经典的三种拆分策略不包括()。A、一对一B、一对其余C、一对多D、多对多【正确答案】:A解析:
多分类学习中,最经典的三种拆分策略包括一对多、多对多、一对其余。46.Numpy.linspace(0,3,3)的结果为()。A、[0,1,2]B、[1,2,3]C、[0,1.5,3]D、[0,3,6]【正确答案】:C解析:
np.linspace)指定开始值、结束值和值的个数,默认包含结束值,注意与arange的区别。47.下列方法中,能够返回某个子串在字符串中出现次数的是()。A、lengthB、indexC、countD、find【正确答案】:C解析:
count能够返回某个子串在字符串中出现次数。48.()不适合使用机器学习方法解决。A、判断电子邮件是否是垃圾邮件B、判断给定的图中是否有环C、判断是否给指定用户办理信用卡D、对滴滴拼车乘客分簇【正确答案】:B解析:
判断给定的图中是否有环采用深度学习。49.执行以下代码段时,输出为()。A、['honda','yamaha','suzuki']B、['yamaha','suzuki','ducati']C、['honda','yamaha','suzuki','ducati']D、['honda','suzuki','ducati']【正确答案】:D解析:
pop出第一位置的元素50.scipy库中用于物理和数学常量计算的模块是()。A、scipy.clusterB、scipy.ioC、scipy.constantsD、scipy.linalg【正确答案】:C解析:
scipy中,constants是常量计算模块。51.在MapReduce中,为了发现Worker故障,Master周期性进行()操作。A、JoinB、PingCheckD、Connect【正确答案】:B解析:
为了发现Worker故障,Master周期性进行Ping操作。52.使用似然函数的目的是()。A、求解目标函数B、得到最优数据样本C、找到最适合数据的参数D、改变目标函数分布【正确答案】:C解析:
似然估计是一种确定模型参数值的方法。确定参数值的过程,是找到能最大化模型产生真实观察数据可能性的那一组参数。53.BASE原则的含义不包括()A、基本可用B、柔性状态C、最终一致D、基础条件【正确答案】:D解析:
BASE原则是BasicallyAvailable(基本可用)、SoftState(柔性状态)和EventuallyConsistent(最终一致)的缩写。BasicallyAvailable是指可以容忍系统的短期不可用,并不追求全天候服务;SoftState是指不要求一直保持强一致状态;EventuallyConsistent是指最终数据一致,而不是严格的实时一致,系统在某一个时刻后达到一致性要求即可。54.探索性分析与验证性分析的不同点是()。A、探索性分析需要事先假设B、探索性分析比验证性分析复杂C、探索性分析在前D、验证性分析在前【正确答案】:C解析:
验证性分析需要事先假设,因数据不同复杂程度也不同,探索性分析一般在前,为验证性分析提供参考。55.scipy.stats.moment函数的作用是()。A、随机变量的概率密度函数B、随机变量的累积分布函数C、随机变量的生存函数D、计算分布的非中心矩【正确答案】:D解析:
--56.下列关于支持向量机优化性问题的形式,说法正确的是()。A、它是一个凸二次规划问题B、它是一个凸一次规划问题C、它是一个凹二次规划问题D、它是一个凹一次规划问题【正确答案】:A解析:
支持向量机优化性问题的一个凸二次规划问题。57.一组数据相加后除以数据个数得到的值叫作做()。A、最大值B、平均值C、中位数D、众数【正确答案】:B解析:
平均值有算术平均值,、几何平均值,、平方平均值(均方根平均值),)、调和平均值,、加权平均值等。算术平均值是指一组数据相加后除以数据个数的平均值。58.scipyScipy中的图像处理模块是哪个()。A、imageB、ndimageC、photoD、optimize【正确答案】:B解析:
ndimage模块是Scipy库中的多维图像处理模块,提供一些多维图像处理上的常用算法。59.pynlpir是一种常用的自然语言理解工具包,其中进行分词处理的函数是()。A、open()B、segment()C、AddUserWord()D、generate()【正确答案】:B解析:
--60.解决Master故障的方法是设置检查点,当Master失效时,从()检查点开始启动另一个Master进程。A、第一个B、中间一个C、最后一个D、随机选择一个【正确答案】:C解析:
从最后一个检查点开始启动另一Master进程使得因故障产生的影响更小。61.()和假设检验又可归结为统计推断的范畴,即对总体的数量特征做出具有一定可靠程度的估计和判断。A、参数估计B、逻辑分析C、方差分析D、回归分析【正确答案】:A解析:
推断统计包括参数估计和假设检验两方面的内容。62.当需要在字符串中使用特殊字符时,python使用()作为转义字符。A、\B、/C、#D、%【正确答案】:A解析:
转义字符为反斜线\。63.以下不属于数据科学与统计学区别的是()。A、数据科学中的数据不仅仅是数值B、数据科学关注的不仅仅是“单一学科”问题,超出了数学、统计学、计算机科学等单一学科的范畴C、数据科学不仅仅是理论研究,也不是纯领域实务知识,它关注和强调的是二者的结合D、数据科学和统计学中的计算一样,仅仅是加减乘除【正确答案】:D解析:
数据科学中的“计算”并不仅仅是加/减/乘/除等数学计算,而是包括数据的查询、挖掘、洞见、分析、可视化等更多类型的“计算”。64.下列方法中,不可以使用类名访问的是()。A、实例方法B、类方法C、静态方法D、以上答案都不正确【正确答案】:A解析:
实例方法不可以使用类名访问。65.下面选项不正确的是()。A、[[12][34]]B、[[-2.1.][1.5-0.5]]C、[[1.0.][2.1.]]D、以上答案均不正确【正确答案】:B解析:
linalg.inv)是矩阵求逆,输入与结果相乘为单位矩阵。66.()选择是直接把最终将要使用的学习器的性能作为特征子集的评价准则。A、嵌入式B、过滤式C、包裹式D、一体式【正确答案】:C解析:
包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。67.有关异常说法正确的是()。A、程序中抛出异常终止程序B、程序中抛出异常不一定终止程序C、拼写错误会导致程序终止D、缩进错误会导致程序终止【正确答案】:B解析:
抛出异常指停止运行这个函数中的代码,将程序执行转到except语句。68.下面方法中,属于映射数据到新的空间的方法是()。A、傅里叶变换B、特征加权C、渐进抽样D、维归约【正确答案】:A解析:
傅里叶变换是将时间域映射到频率域。69.以下代码的输出结果为()。A、[[1,2],[3,4],[1,2],[3,4]]B、[[1,2,3,4],[1,2,3,4]]C、[[1,2],[3,4]]D、[1,2,3,4,1,2,3,4]【正确答案】:A解析:
vstack)为数组垂直拼接。70.下列方法中,能够让所有单词的首字母变成大写的方法是()。A、capitalizeB、titleC、upperD、Ijust【正确答案】:B解析:
capitalize)将字符串的第一个字母变成大写,其他字母变小写;upper)方法将字符串中的小写字母转为大写字母;Iljust左对齐。71.文本信息往往包含客观事实和主观情感,对于文本的情感分析主要是识别文章中的主观类词语,其中()不适用于情感分析。A、表达观点的关键词B、表达程度的关键词C、表达情绪的关键词D、表达客观事实的关键词【正确答案】:D解析:
D中表达客观事实的关键词是对事物的客观性描述,不带有感情色彩和情感倾向,即为客观性文本,不适用于情感分析。而主观性文本则是作者对各种事物的看法或想法,带有作者的喜好厌恶等情感倾向,如ABC中表观点、程度和情绪的关键词都是带有情感倾向的主观性文本,适用于情感分析。72.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是()。A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样【正确答案】:D解析:
略。73.HBase的一个典型应用是webtable,它是一个以网页()为主键的表。A、标题B、URLC、内容D、类别【正确答案】:B解析:
webtable中,以网页URL为主键。74.K折交叉验证器是以下哪个()方法()。A、model_selection.GroupKFold)B、model_selection.GroupShuffleSplit)C、model_selection.KFold)D、model_selection.RepeatedKFold)【正确答案】:C解析:
model_selection.KFold)实现了K折交叉验证功能。75.以下可以作为文本分类准则的是()。A、预测准确率B、鲁棒性C、可扩展性D、以上答案都正确【正确答案】:D解析:
文本分类准则包含预测准确性,鲁棒性和可扩展性。76.下列关于数据科学流程与方法的描述中,错误的是()。A、数据科学的基本流程包括数据化、数据加工(DataWrangling或DataMunging)、数据规整化、探索性分析、数据分析与洞见、结果展现以及数据产品的提供B、对于数据形态不符合要求的乱数据,要通过清洗成为规整数据C、数据分析包括描述性分析、诊断性分析、预测性分析和规范性分析D、数据可视化会遇到视觉假象问题,人眼对亮度和颜色的相对判断容易造成视觉假象【正确答案】:B解析:
对于数据形态不符合要求的乱数据,要通过规整化处理(DataTyding)成为规整数据77.关于Hive说法正确的是()。A、一种数据仓库B、一种数据处理工具C、一种可视化工具D、一种分析算法【正确答案】:A解析:
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。78.留出法直接将数据集划分为()个互斥的集合。A、一B、二C、三D、四【正确答案】:B解析:
留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集T。79.关于模块下列说法不正确的是()。A、Python模块(Module),是一个Python文件,以.py结尾,包含了Python对象定义和Python语句。B、模块让你能够有逻辑地组织你的Python代码段。C、把相关的代码分配到一个模块里能让你的代码更好用,更易懂。D、模块不能定义类【正确答案】:D解析:
模块中可以定义类。80.在Hadoop生态系统中,()建立在MapReduce之上,主要用来弥补MapReduce编程的复杂性。A、HbaseB、FlumeC、PigD、Sqoop【正确答案】:C解析:
Pig是对MapReduce编程复杂性的抽象,Pig平台包含用于分析Hadoop数据集的执行环境和脚本语言(PigLatin)。81.数据使用环节的安全技术措施除防火墙、()、防病毒、防DDOS、漏洞检测等网络安全防护技术措施外,还需实现以下安全技术能力:账号权限管理、数据安全域、数据脱敏、日志管理和审计、异常行为实时监控和终端数据防泄漏。A、入侵检测B、病毒检测C、程序检测D、进程检测【正确答案】:A解析:
数据使用环节的安全技术措施除防火墙、入侵检测、防病毒、防DDOS、漏洞检测等网络安全防护技术措施外,还需实现以下安全技术能力:账号权限管理、数据安全域、数据脱敏、日志管理和审计、异常行为实时监控和终端数据防泄漏。82.下列属于小波去噪步骤的是()。A、对图像信号进行小波分解B、对经过层次分解后的高频系数进行阈值量化C、利用二维小波重构图像信号D、以上答案都正确【正确答案】:D解析:
小波去噪是通过短波实现噪声消除,与高斯去噪的基本原理一致。小波去噪方法包括三个基本的步骤:对含噪声信号进行小波变换;对变换得到的小波系数进行某种处理,以去除其中包含的噪声;对处理后的小波系数进行小波逆变换,得到去噪后的信号。83.@app.route的作用为()。A、程序代码的规范,没什么作用B、类似装饰器,返回本地网络测试地址C、返回127005000D、以上答案都不正确【正确答案】:B解析:
@app.route是flask装饰器,调用后返回返回本地网络测试地址。84.()计算框架源自一种分布式计算模型,其输入和输出值均为“键值对”结构。A、MahoutB、MapReduceC、SparkD、Sqoop【正确答案】:B解析:
MapReduce定义。85.下列语句在Python中是不合法的有()。A、i="A"+2B、i=True+2C、x,y=y,xD、x=y=z=1【正确答案】:A解析:
Python语言不能对字符串和数字进行“+”运算。86.对于随机森林和GBDT,下面说法正确的是()。A、在随机森林的单个树中,树和树之间是有依赖的,而GBDT中的单个树之间是没有依赖的B、这两个模型都使用随机特征子集,来生成许多单个的树C、我们可以并行地生成GBDT单个树,因为它们之间是没有依赖的D、GBDT训练模型的表现总是比随机森林好【正确答案】:B解析:
组成随机森林的树可以并行生成;而GBDT只能是串行生成。87.下列关于可视化方法体系说法不正确的是()。A、通常采用视觉图形元素和视觉通道两个维度进行视觉编码B、常用的共性方法有统计图表、图论方法、视觉隐喻和图形符号学等C、领域方法在所属领域内其可视化的信度和效果往往低于基础方法的直接应用D、视觉编码为其他数据可视化方法提供了方法学基础【正确答案】:C解析:
领域方法在所属领域内其可视化的信度和效果高于基础方法的直接应用。88.sklearn中对模型进行选择主要是依靠()模块。A、decompositionB、model_selectionC、linear_modelD、mixture【正确答案】:B解析:
sklearn.model_selection主要提供一些功能帮助进行模型选择和调优,包括训练测试集划分、交叉验证、学习曲线、网格搜索等。89.假设有n组数据集,每组数据集中,x的平均值都是9,x的方差都是11,y的平均值都是7.50,x与y的相关系数都是0.816,拟合的线性回归方程都是y=3.00+0.500x。那么这n组数据集()。A、一样B、不一样C、无法确定是否一样D、-【正确答案】:C解析:
只比较平均值、方差、相关系数和回归方程,无法确定数据集是否相同,还需比较Anscombe'squartet。90.以下代码的输出结果为()。A、[[1,2],[3,4],[1,2],[3,4]]B、[[1,2,3,4],[1,2,3,4]]C、[[1,2],[3,4]]D、[1,2,3,4,1,2,3,4]【正确答案】:A解析:
vstack)为数组垂直拼接。91.使用pip工具查看当前已安装的Python扩展库的完整命令是()。A、pipupdateB、piplistC、pipinstallD、pipshowall【正确答案】:B解析:
使用pip工具查看当前已安装的Python扩展库的完整命令piplist。92.诊断性分析主要采取的分析方法是()。A、关联分析法和因果分析法B、关联分析法和分类分析法C、关联分析法和运筹学D、因果分析法和分类分析法【正确答案】:A解析:
诊断性分析主要关注过去,回答为什么发生,主要采用关联分析法和因果分析法。93.图像与灰度直方图的对应关系为()。A、一一对应B、一对多C、多对一D、以上答案都正确【正确答案】:C解析:
灰度直方图是灰度级的函数,它表示图像中具有每种灰度级的像素的个数,反映图像中每种灰度出现的频率。灰度直方图的横坐标是灰度级,纵坐标是该灰度级出现的频率,是图像的最基本的统计特征。与图像之间的关系是多对一的映射关系。一幅图像唯一确定出与之对应的直方图,但不同图像可能有相同的直方图,选C。94.Python使用()符号标示注释。A、&B、*C、#D、//【正确答案】:C解析:
单行注释使用#号。95.关于数据创新,下列说法正确的是()。A、个数据集的总和价值等于单个数据集价值相加B、于数据的再利用,数据应该永久保存下去C、同数据多次用于相同或类似用途,其有效性会降低D、数据开放价值可以得到真正释放【正确答案】:D解析:
略。96.()的系数没有封闭形式(closed-form)的解。A、Ridge回归B、LassoC、Ridge回归和LassoD、以上答案都不正确【正确答案】:B解析:
Ridge回归是一般的线性回归再加上L2正则项,它具有封闭形式的解,可以基于最小二乘法求解。97.关于L1、L2正则化,下列说法正确的是()。A、L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B、L2正则化技术又称为LassoRegularizationC、L1正则化得到的解更加稀疏D、L2正则化得到的解更加稀疏【正确答案】:C解析:
L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;L2正则化可以防止模型过拟合,一定程度上L1也可以防止过拟合,L1正则化又称LassoRegression。98.下列语句中,在python3中合法的语句为()。A、printHello,World!B、print'Hello,World!'C、print('Hello,World!')D、print"Hello,World!"【正确答案】:C解析:
A选项存在语法错误,B、D选项为Python2打印语句。99.RDD中的数据被()在集群中,使得任务可以并行执行。A、顺序存储B、连续存储C、分块存储D、分区存储【正确答案】:D解析:
RDD为分区存储。100.语句np.random.randn(5,4)的运算结果是()。A、生成一个5行4列的随机矩阵B、将矩阵的第5行第4列改成一个随机值C、将矩阵的第4行第3列改成一个随机值D、将矩阵的第5列和第4列都用随机值代替【正确答案】:A解析:
rand)和randn)是简化的随机函数,传递形状参数不需要元组,传入的所有参数构成数组的形状元组,此题中就用(5,4)作为数组的形状参数。1.Spark支持的计算模型有()。A、批处理B、实时计算C、机器学习模型D、交互式查询【正确答案】:ABCD解析:
Spark支持的计算模型有批处理、实时计算、机器学习模型、交互式查询。2.下列属于文本处理流程的是()。A、NormalizationB、TokenizationStopwordsC、Part-of-speechTaggingD、NamedEntityRecognition【正确答案】:ABCD解析:
文本处理的流程为正则化(Normalization)、引入停止词(TokenizationStopwords)、词性标注(Part-of-speechTagging)、命名实体识别(NamedEntityRecognition)。3.以下属于图像分割的算法的是()。A、阈值分割方法(thresholdsegmentationmethod)B、区域增长细分(regionalgrowthsegmentation)C、边缘检测分割方法(edgedetectionsegmentationmethod)D、基于聚类的分割(segmentationbasedonclustering)E、基于能量的分割【正确答案】:ABCDE解析:
--4.大数据的资产属性体现在()。A、具有劳动增值B、涉及法律权属C、具有财务价值D、涉及道德与伦理【正确答案】:ABCD解析:
大数据的资产属性体现在具有劳动增值、涉及法律权属、具有财务价值、涉及道德与伦理。5.与自然语言处理相关的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的区别是()。A、Jieba专注于中文分词操作B、NLTK主要用于一般自然语言处理任务(标记化,POS标记,解析等)C、Gensim主要用于题和向量空间建模、文档集合相似性等D、Scikit-learn为机器学习提供了一个大型库,其中包含了用于文本预处理的工具,例如词频-逆文档频率特征提取(TfidfVectorizer)等。【正确答案】:ABCD解析:
题中列出了自然语言处理工具包的特点和区别,四个选项均正确。6.训练CNN时,GPU显存溢出,此时可以采取的办法有()。A、减少mini_batch大小B、移除一些卷积层C、减少图片输入大小D、增加激活函数【正确答案】:ABC解析:
增加激活函数反而会加重负担,D选项错误。7.以下属于规则的分词方法的是()。A、正向最大匹配法B、逆向最大匹配法C、双向最大匹配法D、条件随机场【正确答案】:ABC解析:
条件随机场是一种鉴别式机率模型,常用于标注或分析序列资料。8.线性模型的基本形式有()。A、线性回归B、对数几率回归(二分类问题)C、线性判别分析(Fisher判别分析)D、多分类学习【正确答案】:ABCD解析:
--9.与自然语言处理相关的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的区别是()。A、Jieba专注于中文分词操作B、NLTK主要用于一般自然语言处理任务(标记化,POS标记,解析等)C、Gensim主要用于题和向量空间建模、文档集合相似性等D、Scikit-learn为机器学习提供了一个大型库,其中包含了用于文本预处理的工具,例如词频-逆文档频率特征提取(TfidfVectorizer)等。【正确答案】:ABCD解析:
题中列出了自然语言处理工具包的特点和区别,四个选项均正确。10.已定义级(DefinedLevel)的主要特点包括()。A、组织机构已明确给出了关键过程的“标准定义”,并定期对其进行改进B、已提供了关键过程的测量与预测方法C、关键过程的执行过程并不是简单或死板地执行组织机构给出的“标准定义”,而是根据具体业务进行了一定的“裁剪”工作D、数据的重要性已成为组织机构层次的共识,将数据当作成功实现组织机构使命的关键因素之一【正确答案】:ABCD解析:
DMM的已定义级(DefinedLevel):组织机构已经定义了自己的“标准关键过程”。其主要特点如下:①组织机构已明确给出了关键过程的“标准定义”,并定期对其进行改进;②已提供了关键过程的测量与预测方法;③关键过程的执行过程并不是简单或死板地执行组织机构给出的“标准定义”,而是根据具体业务进行了一定的“裁剪”工作;④数据的重要性已成为组织机构层次的共识,将数据当作成功实现组织机构使命的关键因素之一。11.我们想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,有效地训练模型可以采取的措施是()A、对训练集随机采样,在随机采样的数据上建立模型B、尝试使用在线机器学习算法C、使用PCA算法减少特征维度D、-【正确答案】:ABC解析:
大数据可以采用对训练集随机采样,在随机采样的数据上建立模型,尝试使用在线机器学习算法,使用PCA算法减少特征维度。12.请问下面哪些是离散型变量()。A、示波器B、心电图及脑动电图扫描器对脑电波的测量C、过去数月的总销售额D、公司每年的红利【正确答案】:CD解析:
在统计学中,变量按其数值表现是否连续,分为连续变量和离散变量。离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量,如职工人数、工厂数、机器台数等。有些性质上属于连续变量的现象也按整数取值,即可以把它们当做离散变量来看待。例如年龄、评定成绩等虽属连续变量,但一般按整数计算,按离散变量来处理。离散变量的数值用计数的方法取得。13.NoSQL数据库常用的数据模型包括()。A、Key-ValueB、Key-DocumentC、Key-ColumnD、图存储【正确答案】:ABCD解析:
NoSQL数据库常用的数据模型包括Key-Value、Key-Document、Key-Column、图存储。14.下列关于RNN、LSTM、GRU说法正确的是()。A、RNN引入了循环的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的变体D、RNN、LSTM、GRU是同一神经网络的不同说法,没有区别【正确答案】:ABC解析:RNN:循环神经网络,是非线性动态系统,将序列映射到序列。LSTM通过刻意的设计来避免长期依赖问题,记住长期的信息在实践中是LSTM的默认行为,而非需要付出很大代价才能获得的能力。GRU:LSTM有很多变体,其中较大改动的是GatedRecurrentUnit(GRU),它将忘记门和输入门合成了一个单一的更新门,同样还混合了细胞状态和隐藏状态,和其他一些改动。最终的模型比标准的LSTM模型要简单。效果和LSTM差不多,但是参数少了1/3,不容易过拟合。15.K均值聚类和层次聚类在一些方面有重大差异。以下说法正确的是()。A、在K均值聚类中,必须在运行算法前选定想要的簇的个数B、在K均值聚类中,可以在运行算法后选定想要的簇的个数C、在层次聚类中,可以在运行算法后选定想要的簇的个数D、K均值聚类算法所需的计算量比层次聚类算法小得多【正确答案】:ACD解析:
在K均值聚类中,需要在运行算法前确定想要的簇的个数K。16.()是通过对无标记训练样本的学习来进行分类的。A、密度估计B、异常检测C、线性回归D、聚类分析【正确答案】:ABD解析:
--17.在假设检验中,当原假设为“伪”,但数据分析人员没有拒绝它时犯的错误叫()。A、α错误B、β错误C、取伪错误D、弃真错误【正确答案】:BC解析:
α错误(弃真错误):当原假设为真时,但我们错误地认为“原假设是不成立的”,进而导致拒绝这个正确假设;β错误(取伪错误):当原假设为假时,但我们错误地认为“原假设是成立的”,进而导致接受此错误假设18.关于相关与线性关系,下列说法正确的是()A、相关不一定是线性关系,可能是非线性关系B、相关一定是线性关系,不可能是非线性关系C、相关时若有相关系数r为0,说明两个变量之间不存在线性关系,仍可能存在非线性关系D、相关系数为0是两个变量独立的必要不充分条件【正确答案】:ACD解析:
相关不一定是线性关系,可能是非线性关系。19.假设目标遍历的类别非常不平衡,即主要类别占据了训练数据的99%,现在你的模型在训练集上表现为99%的准确度,那么下面说法正确的是()。A、准确度并不适合衡量不平衡类别问题B、准确度适合衡量不平衡类别问题C、精确度和召回率适合于衡量不平衡类别问题D、精确度和召回率不适合衡量不平衡类别问题【正确答案】:AC解析:
精确度和召回率适合于衡量不平衡类别问题,准确度并不适合衡量不平衡类别问题。20.Spark的技术架构可以分为哪几层()。A、资源管理层B、Spark核心层C、应用层D、服务层【正确答案】:ABD解析:
Spark的技术架构可以分为资源管理层、Spark核心层和服务层三层。21.大数据的资产属性体现在()。A、具有劳动增值B、涉及法律权属C、具有财务价值D、涉及道德与伦理【正确答案】:ABCD解析:
大数据的资产属性体现在具有劳动增值、涉及法律权属、具有财务价值、涉及道德与伦理。22.下列有关MapReduce计算框架的描述正确的是()。A、MapReduce可以计算任务的划分和调度B、MapReduce可完成数据的分布存储和划分C、MapReduce可以实现处理系统节点出错检测和失效恢复D、MapReduce可实现处理数据与计算任务的同步【正确答案】:ABCD解析:
根据MapReduce定义可得,A、B、C、D都可以实现。23.特征工程一般需要做哪些工作()。A、正则化B、标准化C、特征处理D、特征选择【正确答案】:CD解析:
特征工程包括特征选择、特征处理、特征变换、特征衍生等。24.以下说法正确的是()。A、负梯度方向是使函数值下降最快的方向B、当目标函数是凸函数时,梯度下降法的解是全局最优解C、梯度下降法比牛顿法收敛速度快D、牛顿法不需要计算Hesse矩阵【正确答案】:ABD解析:
牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。25.在建立模型时,需要用到()。A、训练数据B、测试数据C、原始数据D、验证数据【正确答案】:ABD解析:
在机器学习中,通常将数据分为训练集、测试集和验证集。26.下面关于中心极限定理的说法,正确的是()。A、中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限B、中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以t分布为极限C、中心极限定理为Z检验提供了理论支持D、中心极限定理是数理统计学和误差分析的基础【正确答案】:ACD解析:
中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限。27.关于数据产品研发,下列说法错误的是()。A、从加工程度看,可以将数据分为一次数据、二次数据和三次数据B、一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题C、二次数据是对一次数据进行深度处理或分析后得到的“增值数据”D、三次数据是对二次数据进行洞察与分析后得到的、可以直接用于决策支持的“洞见数据”【正确答案】:ABD解析:
二次数据是一种按照信息的生产过程和加工深度进行对信息进行分类的,是指根据特定的需求,对一次信息进行加工、分析、改编、重组、综合概括生成的信息。28.下面属于范数规则化的作用的是()。A、保证模型尽可能的简单,避免过拟合B、约束模型特征C、最小化问题D、最大化问题【正确答案】:AB解析:
--29.下列属于CNN关键层的是()。A、输入层B、卷积层C、激活层D、池化层【正确答案】:ABCD解析:
CNN关键层有:①输入层,对数据去均值,做dataaugmentation等工作;②卷积层,局部关联抽取feature;③激活层,非线性变化;④池化层,下采样;⑤全连接层,增加模型非线性;⑥高速通道,快速连接;⑦BN层,缓解梯度弥散。30.决策树在()情况下会导致递归返回。A、当前节点包含的样本全属于同一类B、当前属性集为空C、当前节点包含的样本集合为空D、所有样本在所有属性上取值相同【正确答案】:ABCD解析:
决策树的生成是一个递归过程.在决策树基本算法中,有三种情形会导致递归返回:①当前结点包含的样本全属于同一类别,无须划分;②当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;③当前结点包含的样本集合为空,不能划分。31.以下关于L1和L2范数的描述,正确的是()。A、L1范数为x向量各个元素绝对值之和。B、L2范数为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数C、L1范数可以使权值稀疏,方便特征提取D、L2范数可以防止过拟合,提升模型的泛化能力。【正确答案】:ABCD解析:
L0是指向量中非0的元素的个数,L1范数是指向量中各个元素绝对值之和,L2范数向量元素绝对值的平方和再开平方。L1范数可以使权值稀疏,方便特征提取。L2范数可以防止过拟合,提升模型的泛化能力。32.以下选项中是正确的字符串有()。A、‘abc”ab”B、‘abc”ab’C、“abc”ab”D、“abc\”ab”【正确答案】:BD解析:
需要两端引号符号相同。33.假设检验中,首先需要提出零假设和备择假设,零假设是(),备择假设是()。A、只有出现的概率大于阈值才会被拒绝的,只有零假设出现的概率大于阈值才会被承认的B、希望推翻的结论,希望证明的结论C、只有出现的概率小于阈值才会被拒绝的,只有零假设出现的概率小于阈值才会被承认的D、希望证明的结论,希望推翻的结论【正确答案】:BC34.ETL包含下列哪些过程()。A、数据抽取B、数据转换C、数据加载D、数据展现【正确答案】:ABC解析:
ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。35.以下对模型性能提高有帮助的是()。A、数据预处理B、特征工程C、机器学习算法D、模型集成【正确答案】:ABCD解析:
数据预处理、特征工程、机器学习算法、模型集成均可提高模型性能。36.以下方法是tf-idf的变种的有()。A、TFCB、EWCC、ITCD、IG【正确答案】:AC解析:
TFC:对文本长度进行归一化处理后的TF-IDF。ITC:在TFC基础上,用tf的对数值取代tf。37.以下图像技术中属于图像处理技术的是()。A、图像编码B、图像合成C、图像增强D、图像分类【正确答案】:AC解析:
图像合成输入是数据,图像分类输出是类别数据。38.下列选项中属于传统循环神经网络的性质有()。A、上一时刻的网络状态信息将会作用于下一时刻的网络状态B、并行处理序列中所有信息C、容易梯度爆炸/消失D、易于搭建【正确答案】:AC解析:
循环神经网络(RecurrentNeuralNetwork,RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursiveneuralnetwork)。循环神经网络在误差梯度在经过多个时间步的反向传播后容易导致极端的非线性行为,包括梯度消失(gradientvanishing)和梯度爆炸(gradientexplosion)。实践中,梯度爆炸虽然对学习有明显的影响,但较少出现,使用梯度截断可以解决。梯度消失是更常见的问题且不易察觉,发生梯度消失时,循环神经网络在多个时间步后的输出几乎不与序列的初始值有关,因此无法模拟序列的长距离依赖(long-termdependency)。在数值试验中,SRN对时间步跨度超过20的长距离依赖进行成功学习的概率接近于0。恰当的权重初始化(weightinitialization)或使用非监督学习策略,例如神经历史压缩器(NHC)可提升循环神经网络学习长距离依赖的能力,但对更一般的情形,循环神经网络发展了一系列优化策略,其中有很多涉及网络结构的改变和算法的改进。39.数据科学基本原则中,三世界原则指的是()A、精神世界B、数据世界C、物理世界D、数字世界【正确答案】:ABC解析:
大数据时代的到来,在我们的“精神世界”和“物理世界”之间出现了一种新的世界——“数据世界”。因此,在数据科学中,通常需要研究如何运用“数据世界”中已存在的“痕迹数据”的方式解决“物理世界”中的具体问题,而不是直接到“物理世界”,采用问卷和访谈等方法亲自收集“采访数据”。相对于“采访数据”,“痕迹数据”更具有客观性。图灵奖获得者JimGray提出的科学研究第四范式——数据密集型科学发现(Data-intensiveScientificDiscovery)是“三世界原则”的代表性理论之一。40.在词袋模型中使用单个的单词来构建词向量这样的序列被称为()。A、1元组(1-gram)B、单元组(unigram)模型C、列表D、字典【正确答案】:AB解析:
列表和字典一般包含多个单词41.()可以帮助解决训练集在特征空间中线性不可分的问题。A、硬间隔B、软间隔C、核函数D、拉格朗日乘子法【正确答案】:BC解析:
核函数解决线性不可分的本质思想就是把原始的样本通过核函数映射到高维空间中,让样本在高维特征空间中是线性可分的。软间隔允许某些样本不满足约束,使得样本在特征空间中不是线性可分。42.图像压缩是建立在图像存在()几种冗余之上。A、编程冗余B、像素间冗余C、心理视觉冗余D、计算资源冗余【正确答案】:ABC解析:
图像压缩是通过算法的改进,对重复像素用压缩算法减少储存空间和并行算法达到的。43.卷积神经网络中常用的池化函数包括()。A、最大池化函数B、L2范数C、相邻矩形区域内的平均值D、基于据中心像素距离的加权平均函数【正确答案】:ABCD解析:
卷积神经网络中常用的池化函数有最大池化函数、L2范数、相邻矩形区域内的平均值、基于据中心像素距离的加权平均函数、重叠池化、空金字塔池化。44.Python中,复合赋值运算符包括()。A、简单的赋值运算符B、乘法赋值运算符C、取模赋值运算符D、取整除赋值运算符【正确答案】:ABCD解析:
Python中,复合赋值运算符包括简单的赋值运算符、乘法赋值运算符、取模赋值运算符、取整除赋值运算符。45.以下()是scipy.stats可实现的连续随机变量方法。A、rvsB、pdfC、ppfD、cdf【正确答案】:ABCD解析:
scipy基础知识。46.在假设检验中,当原假设为“伪”,但数据分析人员没有拒绝它时犯的错误叫()。A、α错误B、β错误C、取伪错误D、弃真错误【正确答案】:BC解析:
α错误(弃真错误):当原假设为真时,但我们错误地认为“原假设是不成立的”,进而导致拒绝这个正确假设;β错误(取伪错误):当原假设为假时,但我们错误地认为“原假设是成立的”,进而导致接受此错误假设47.列式数据库(如BigTable和HBase)以表的形式存储数据,表结构包括()等元素。A、关键字B、时间戳C、列簇D、数据类型【正确答案】:ABC解析:
BigTable和HBase的索引由行关键字、列簇和时间戳组成。48.鉴别了多元共线特征,下一步可能的操作是()。A、移除两个共线变量B、不移除两个变量,而是移除一个C、移除相关变量可能会导致信息损失,可以使用惩罚线性回归模型(如ridge或lassoregression)D、-【正确答案】:BC解析:
移除两个变量会损失一切信息,所以只能移除一个特征,或者也可以使用正则化算法。49.下列关于密度聚类说法,错误的是()。A、DBSCAN是一种著名的密度聚类算法B、密度聚类从样本数量的角度来考察样本之间的可连接性C、密度聚类基于不可连接样本不断扩展聚类簇,以获得最终的聚类结果D、密度直达关系通常满足对称性【正确答案】:BCD解析:
密度聚类从样本密度的角度来考察样本之间的可连接性;密度聚类基于可连接样本不断扩展聚类簇,以获得最终的聚类结果;密度直达关系通常不满足对称性;密度可达关系满足直递性,但不满足对称性;密度相连关系满足对称性。50.以下算法中可以应用于图像分割的是()。A、边缘检测技术B、阈值分割技术C、基于区域的分割技术D、区域生长方法【正确答案】:ABCD解析:
边缘检测技术、阈值分割技术、基于区域的分割技术、区域生长方法均是图像分割技术。51.以下属于关键词提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潜在语义分析)D、LDA【正确答案】:ABCD解析:
关键词提取算法包括TF-IDF算法、TextRank算法、LSA(潜在语义分析)orLSI(潜在语义索引)、LDA等。52.以下描述中正确的是()。A、统计学是数据科学的理论基础之一B、Python语言是统计学家发明的语言C、机器学习是数据科学的理论基础之一D、数据科学是统计学的一个分支领域(子学科)【正确答案】:AC解析:
Python发明者是GuidoVanRossum,并非为统计学家;数据科学是一门独立学科,已经超出了统计学一个学科的研究范畴,并非为统计学的一个分支。53.Analytics1.0的主要特点有()。A、分析活动滞后于数据的生成B、重视结构化数据的分析C、以对历史数据的理解为主要目的D、注重描述性分析【正确答案】:ABCD解析:
著名管理学家Thomas·H·Davernport于2013年在《哈佛商业论坛(HarvardBusinessReview)》上发表一篇题为《第三代分析学(Analytics3.0)》的论文,将数据分析的方法、技术和工具——分析学(Analytics)分为三个不同时代——商务智能时代、大数据时代和数据富足供给时代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics1.0是商务智能时代(1950~2000年),Analytics1.0中常用的工具软件为数据仓库及商务智能类软件,一般由数据分析师或商务智能分析师负责完成。Analytics1.0的主要特点有分析活动滞后于数据的生成、重视结构化数据的分析、以对历史数据的理解为主要目的、注重描述性分析。54.下列关于Ridge回归的说法,正确的是()。A、若λ=0,则等价于一般的线性回归B、若λ=0,则不等价于一般的线性回归C、若λ=+∞,则得到的权重系数很小,接近于零D、若λ=+∞,则得到的权重系数很大,接近与无穷大【正确答案】:AC解析:
Ridge回归中,若λ=0,则等价于一般的线性回归;若λ=+∞,则得到的权重系数很小,接近于零。55.DGI定义的数据治理任务包括()。A、数据质量的评估B、主动定义或序化规则C、为数据利益相关者提供持续跨职能的保护与服务D、应对并解决因不遵守规则而产生的问题【正确答案】:BCD解析:
DGI(TheDataGovermanceInstitute)认为数据治理是对数据相关的决策及数据使用权限控制的活动。它是一个信息处理过程中根据模型来执行的决策权和承担责任的系统,规定了谁可以在什么情况下对哪些信息做怎样的处理。56.下列属于描述gensim库的特性的是()。A、训练语料的预处理B、主题向量的变换C、文档相似度的计算D、文章切分词语统计计算【正确答案】:ABC解析:
gensim不用于分词。57.下列关于深度学习的实质及其与浅层学习的说法,正确的是()。A、深度学习强调模型深度B、深度学习突出特征学习的重要性:特征变换+非人工C、没有区别D、以上答案都不正确【正确答案】:AB解析:
深度模型是手段,特征学习是目的。58.下列关于特征的稀疏性说法,正确的是()。A、稀疏性指的是矩阵中有许多列与当前学习任务无关B、稀疏样本可减少学习任务的计算开销C、学习任务难度可能有所降低D、稀疏矩阵没有高效的存储方法【正确答案】:ABC解析:
在一个矩阵中,若非零元素的个数远远小于零元素的个数,且非零元素的分布没有规律,则称之为稀疏矩阵。为了节省存储空间并且加快并行程序处理速度,可对稀疏矩阵进行压缩存储。59.深度学习方法不适用于的场景有()。A、数据样本充足B、数据样本不足C、数据集具有局部相关特性D、数据集没有局部相关特性【正确答案】:BD解析:
以下数据集不适合用深度学习:①数据集太小,数据样本不足时,深度学习相对其他机器学习算法没有明显优势。②数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像/语音/自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体,语音信号中音位组合成单词,文本数据中单词组合成句子,这些特征元素的组合一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集,不适于使用深度学习算法进行处理。60.关于Python组合数据类型,以下选项中描述正确的是()。A、Python的str、tuple和list类型都属于序列类型B、Python组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序更容易C、组合数据类型可以分为3类:序列类型、集合类型和映射类型3类D、序列类型是二维元素向量,元素之间存在先后关系,通过序号访问【正确答案】:ABC解析:
序列类型是一维元素向量。61.不属于使用池化层相比于相同步长的卷积层的优势有()。A、参数更少B、可以获得更大下采样C、速度更快D、有助于提升精度【正确答案】:BCD解析:
池化层公式与卷积一样,只是不需要参数。62.数据增值存在于哪些过程中()。A、数据对象的封装B、数据系统的研发C、数据的集成应用D、基于数据的创新【正确答案】:ABCD解析:
数据对象的封装、数据系统的研发、数据的集成应用、基于数据的创新均需要进行数据增值。63.以下关于HBase说法正确的是()。A、面向列的数据库B、非结构化的数据库C、支持大规模的随机、实时读写D、采用松散数据模型【正确答案】:ABCD解析:
HBase是非结构化的、多版本的、面向列和开源的数据库;HBase提供了对大规模数据的随机、实时读写访问;从存储模型看,HBase采用的是松散数据模型。64.文本分类过程包括()。A、选择训练文本B、选择文本特征C、建立文本表示模型D、选择分类方法【正确答案】:ABCD解析:
文本分类过程包括:①选择训练文本;②选择文本特征;③建立文本表示模型;④选择分类方法;⑤分类结果的评估。65.TF-IDF的缺点包含()。A、字词的重要性随它在文件中出现的次数成正比B、将一些生僻字误当作文档关键词C、只考虑特征词和文本之间的关系,忽略了一个特征项在不同类别间的分布情况D、没有考虑特征词的位置因素对文本的区分度【正确答案】:BCD解析:
低频词汇的重要性和出现次数成正比。66.长短时记忆神经网络三个门是()。A、进化门B、输出门C、输入门D、遗忘门【正确答案】:BCD解析:
LSTM拥有三个门(输入门、遗忘门、输出门),用来保护和控制细胞状态。67.常用来缓解BP网络的过拟合的两种策略是()。A、晚停B、早停C、正则化D、加入损失函数【正确答案】:BC解析:
通常有两种策略来缓解BP网络的过拟合。第一种策略是早停(earlystopping),即将数据分成训练集合验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值。第二种策略是正则化(regularization),其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权和阈值的平方和。68.下列模型属于机器学习生成式模型的是()。A、朴素贝叶斯B、隐马尔科夫模型C、线性回归模型D、深度信念网络【正确答案】:ABD解析:
机器学习生成式模型包括朴素贝叶斯、隐马尔科夫模型和深度信念网络等。线性回归属于判别式模型。69.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正确答案】:ABCD解析:
Spark支持上述四种运行模式,在实验中为了充分利用资源,一般配置Standalone模式运行。70.关于总体和样本的说法,正确的是()。A、总体也就是研究对象的全体B、如果总体是某一条生产线上生产的全部产品,那么样本可以是每间隔10s抽取的产品C、样本是从总体的随机抽样D、如果总体是某一小学的1000名学生,那么样本可以是一年级的100名学生【正确答案】:ABC解析:
小学包括多个年级,样本没有代表性。71.下面关于单样本Z检验的说法,正确的是()。A、在Python中,单样本Z检验可以使用scipy.stats.ttest_1samp()实现B、单样本Z检验适用于样本量较大的情况C、单样本Z检验假设要检验的统计量(近似)满足正态分布D、单样本Z检验常用于检验总体平均值是否等于某个常量【正确答案】:BCD解析:
在Python中,单样本Z检验可以使用statsmodels.stats.weightstats.ztest实现。72.下列哪些是传统RDBMS的缺点()。A、表结构schema扩展不方便B、全文搜索功能较弱C、大数据场景下I/O较高D、存储和处理复杂关系型数据功能较弱【正确答案】:ABCD解析:
传统RDBMS的缺点包括表结构schema扩展不方便、全文搜索功能较弱、大数据场景下I/O较高、存储和处理复杂关系型数据功能较弱。73.下列跟人工智能场景相关的是()。A、图像识别B、人脸识别C、语音识别D、语义分析【正确答案】:ABCD解析:
人工智能的概念很广义,图像识别、人脸识别、语音识别、语义分析都属于人工智能的应用场景。74.下列模型属于机器学习生成式模型的是()。A、朴素贝叶斯B、隐马尔科夫模型C、线性回归模型D、深度信念网络【正确答案】:ABD解析:
机器学习生成式模型包括朴素贝叶斯、隐马尔科夫模型和深度信念网络等。线性回归属于判别式模型。75.以下关于MapReduce1.0版本说法正确的是()。A、扩展性差B、可靠性差C、资源利用率低D、无法支持多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 无锡护肤课程设计公司
- 2024-2030年全球及中国安防电缆行业供需现状及投资前景预测报告
- 2024-2030年全球及中国可调恒温混水阀行业需求现状及销售动态分析报告
- 2024-2030年全球及中国二维码和条形码扫描仪行业供需现状及需求趋势预测报告
- 2024-2030年全球及中国ETFE建筑膜行业应用动态及营销前景预测报告
- 2024-2030年全球与中国粉末金属齿轮市场需求前景及发展趋势预测报告
- 2024-2030年中国鲜肉肠市场运行现状及投资发展前景预测报告
- 孵化动漫ip课程设计
- 文创贴纸插画课程设计
- 2024年汽车抵押贷款合同样本与合同终止条件3篇
- 北师大版五年级上册数学期末测试卷及答案共5套
- 儿童社区获得性肺炎管理指南(2024修订)解读
- 《人体解剖与组织胚胎学》学习通超星期末考试答案章节答案2024年
- 2024-2025学年人教版生物八年级上册期末综合测试卷
- 北师大版六年级上册数学《总复习》课件
- 2023-2024学年四川省成都市高一上英语期末考试题(含答案和音频)
- 国开人类与社会形考任务1试题及答案
- 铁总建设201857号 中国铁路总公司 关于做好高速铁路开通达标评定工作的通知
- 工作人员应对突发地震灾害应急处置卡
- 铀矿物资源库所有的铀矿总结
- 小学数学答题卡模板(共4页)
评论
0/150
提交评论