工匠杯练习试题及答案_第1页
工匠杯练习试题及答案_第2页
工匠杯练习试题及答案_第3页
工匠杯练习试题及答案_第4页
工匠杯练习试题及答案_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页工匠杯练习试题及答案1.文档是待处理的数据对象,它由一组词组成,这些词在文档中不计顺序的额,例如一篇论文、一个网页都可以看做一个文档;这样的表示方式称为()。A、语句B、词袋C、词海D、词塘【正确答案】:B解析:

词袋模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。2.Numpy默认产生的数据类型是()。A、int16B、float32C、charD、float64【正确答案】:D解析:

根据形状创建数组时,默认的数据类型是float64。3.运行下面的代码,输出结果是()。d={-2,-1,0,1,2,3}n=d.pop()print(n)A、-2B、2C、不确定D、3【正确答案】:C解析:

集合中元素是无序的。4.下列哪个方法不属于情感分析的评测()。A、COAE评测B、cifar10数据集评测CCFTCCI评测D、TAC评测【正确答案】:B解析:

cifar10数据集Cifar-10由60000张32*32的RGB彩色图片构成,这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类,不属于情感分析的测评。5.()是一个观测值,它与其它观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A、边界点B、质心C、离群点D、核心点【正确答案】:C解析:

离群点(outlier)是指数值中,远离数值的一般水平的极端大值和极端小值。6.下面代码的输出结果是x=3.1415926print(round(x,2),round(x))A、3.143B、33.14C、22D、6.283【正确答案】:A7.有关Hadoop的陈述哪个是错误的()。A、它运行在通用硬件上;B、它是Apache软件基金会(ASF)下的项目;C、它是最好的实时流式数据处理框架;D、Hadoop对数据的处理是有延迟的;【正确答案】:C解析:

Hadoop不善于处理除批处理计算模式之外的其他计算模式,如流计算等,故C错。8.Numpy中对数组进行转置的函数是哪个()。A、transpose()B、rollaxis()C、swapaxes()D、tan()【正确答案】:A解析:

transpose()对矩阵进行矩阵转置,rollaxis()向后滚动指定的轴,swapaxes()对换数组的两个轴,tan()求三角函数,9.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,下列说法正确的是()。A、需要将这些样本全部强制转换为支持向量B、需要将这些样本中可以转化的样本转换为支持向量,不能转换的直接删除C、移去或者减少这些样本对分类结果没有影响D、以上都不对【正确答案】:C解析:

支持向量机的一个重要性质:训练完成后,大部分的训练样本都不需保留,最终模型仅与支持向量有关。10.在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大()A、多项式阶数B、更新权重w时,使用的是矩阵求逆C、使用常数项D、使用梯度下降法【正确答案】:A解析:

选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。11.以下选项中Python用于异常处理结构中用来捕获特定类型的异常的保留字是()。A、exceptB、doC、passD、while【正确答案】:A解析:

except是Python用于异常处理结构中用来捕获特定类型的异常的保留字。12.核矩阵是()的。A、没有规律B、半正定C、正定D、样本矩阵【正确答案】:B解析:

只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。13.下面哪个功能不是大数据平台安全管理组件提供的功能()。A、接口代理B、接口认证C、接口授权D、路由代理【正确答案】:D解析:

接口可以对用户的身份和请求的参数进行验证,以保证接口的安全。通过添加身份验证和数字签名的方法提高接口安全性,防止数据被篡改和信息泄露。14.以下代码的输出结果为()。importnumpyasnpa=np.arange(12).reshape(3,4)print(np.delete(5))A、[[0123][4567][891011]]B、[0123467891011]C、[[023][467][81011]]D、[246810]【正确答案】:B解析:

delete()默认展平后删除。15.国家保护公民、法人和其他组织依法使用网络的权利,促进网络接入普及,(),为社会提供安全、便利的网络服务,保障网络信息依法有序自由流动A、服务水平B、网络服务C、业务水平D、提升网络服务水平【正确答案】:D解析:

《中华人民共和国网络安全法》16.Logistic回归是在商业领域上使用最广泛的预测模型,常用于(___)分类变量预测和概率预测。A、四值B、三值C、二值D、一值【正确答案】:C解析:

CDPA考试题库17.pytorch中,自定义模型需要继承自哪个父类(____)。A、DatasetB、ModuleC、LinearD、Parameter【正确答案】:B18.在MapReduce中,reduce()函数可以将()值相同的输入进行合并处理。A、inputB、keyC、valueD、number【正确答案】:B解析:

reduce()函数根据key值合并value值。19.下列关于卷积神经网络说法正确的是()。A、卷积层的参数共享是指:一个模型的多个函数中使用的不同参数B、每个卷积块中的基本单元是一个卷积层、一个激活函数和池化层C、为了构造高性能的卷积神经网络,通常会对卷积层进行排列,逐渐增大其表示的空间分辨率,同时降低通道数D、在图像处理中,卷积层通常比全连接层需要更多的参数,但依旧获得高效用的模型【正确答案】:B解析:

《动手学深度学习》李沐第6章卷积神经网络20.关于基本输入输出函数的描述,错误的选项是:A、当print()函数输出多个变量的时候,可以用逗号分隔多个变量名B、eval()函数的参数是“3*4”的时候,返回的值是整数“12”C、print()函数的参数可以是一个函数,执行结果是显示函数返回的值D、当用户输入一个整数“6”的时候,input()函数返回的也是整数“6”【正确答案】:D21.关于Python内存管理,下列说法错误的是哪项()。A、变量不必事先声明B、变量无须先创建和赋值而直接使用C、变量无须指定类型D、可以使用del释放资源【正确答案】:B解析:

Python变量需要事先声明并赋值才能使用。22.以下关于pandas中groupby方法说法正确的是()。A、groupby能够实现分组聚合B、groupby方法的结果能够直接查看C、groupby是pandas提供的一个用来分组的方法D、groupby方法是pandas提供的一个用来聚合的方法【正确答案】:C解析:

groupby是分组函数,分组的结果是一个group对象,结果需要进行聚合或迭代操作才能查看。23.a=[1,2,3.4,5],切片时如果要取[2,3.4],正确的选项是()。A、a[1:4]B、a[-2:]C、a[1:-1]D、a[::2]【正确答案】:C解析:

此题应注意是'4'而不是'3,4',有以下取法:a[1:3]、a[1:-1]24.IDLE环境的退出命令是()。A、exit()B、回车键C、close()D、esc()【正确答案】:A解析:

IDLE使用exit()退出环境。25.神经网络模型(NeuralNetwork)因受⼈类大脑的启发而得名。神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出,请问下列关于神经元的描述中,哪一项是正确的?A、每个神经元可以有一个输入和一个输出B、每个神经元可以有多个输入和一个输出C、每个神经元可以有一个输入和多个输出D、上述都正确【正确答案】:D26.下列说法错误的是()A、当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解B、进行PCA降维时,需要计算协方差矩C、沿负梯度的方向一定是最优的方向D、利用拉格朗日函数能解带约束的优化问题【正确答案】:C解析:

沿负梯度的方向是函数值减少最快的方向但不一定就是最优方向。27.ordinalencoder将属性转化为()。A、独热编码B、附带特性的数字C、二进制编码D、ASCII码【正确答案】:B解析:

ordinalencoder的作用是数值化,但是不增加列数。28.Adaboost的核心思想是()。A、给定一个弱学习算法和一个训练集,将该学习算法使用多次,得出预测函数序列,进行投票B、针对同一个训练集训练不同的弱分类器集合起来,构成一个强分类器C、利用多棵树对样本进行训练并预测的一种分类器D、基于前向策略的加法模型,每阶段使用一个基模型去拟合上一阶段基模型的残差【正确答案】:B解析:

Adaboost的核心思想是针对同一个训练集训练不同的弱分类器集合起来,构成一个强分类器。29.SparkJob默认的调度模式是()。A、FIFOB、FAIRC、无D、运行时指定【正确答案】:A解析:

Spark中的调度模式主要有两种FIFO和FAIR。默认情况下Spark的调度模式是FIFO(先进先出)。30.下列常用模块功能描述错误的是()。A、datetime:datetime对象不可将日期对象格式化为可读字符串的方法B、json:JSON(JavaScriptObjectNotation,JS对象标记)是一种轻量级的数据交换格式C、sys:这个模块可供访问由解释器使用或维护的变量和与解释器进行交互的函数D、scipy:应用广泛的科学计算包【正确答案】:A解析:

strftime()是datetime库将日期对象格式化为可读字符串的方法。31.有一个44x44x16的输入,并使用大小为5x5的32个卷积核进行卷积,步长为1,无填充(nopadding),输出是多少?()A、39*39*32B、40*40*32C、44*44*16D、29*29*32【正确答案】:B解析:

《从小数据到大数据》32.关于HDFS的特征,下列说法错误的是()。A、支持超大文件B、基于商用硬件C、流式数据访问D、低吞吐量【正确答案】:D解析:

HDFS设计中重视“数据的高吞吐量”,因此,其数据吞吐量高,但也造成了其数据延迟访问的特征。33.以下哪个参数可以使数组计算沿指定轴进行应用操作()。A、axisB、inplaceC、dataD、dtype【正确答案】:A解析:

通过指定axis参数,可以沿数组的指定轴应用操作。34.语音识别的应用场景包括()。A、语音转文本B、语音合成C、人机交互D、以上答案都正确【正确答案】:D解析:

语音识别应用包含语音转文本,语音合成和人机交互等。35.在图集合中发现一组公共子结构,这样的任务称为()。A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘【正确答案】:B解析:

频繁子图挖掘是指在图集合中挖掘公共子结构。36.以下不属于基于区域的图像分割方法的是()。A、区域生长法B、分水岭算法C、大津算法D、基于图论的分割算法【正确答案】:C解析:

大津算法是基于图像灰度分布的图像分割方法。37.一篇文章中某些名词的TF-IDF值比较大,则说明()。A、这些名词对这篇文章的区分度比较高B、这些名词对这篇文章的区分度比较低C、不能说明什么D、以上答案都不正确【正确答案】:A解析:

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。名词的TF-IDF值越大说明这些名词对这篇文章的区分度越高。38.常用的数据归约方法可以分为()。A、维归约、数据压缩B、维归约、参数归约C、维归约、值归约D、数据压缩、值归约【正确答案】:C解析:

常用的数据归约方法有两种:维归约和值归约。39.关于脏数据和乱数据的区分,以下哪种不属于脏数据()。A、含有缺失数据B、冗余数据C、噪声数据D、不规则形态数据【正确答案】:D解析:

在数据库技术中,脏数据在临时更新(脏读)中产生。事务A更新了某个数据项X,但是由于某种原因,事务A出现了问题,于是要把A回滚。但是在回滚之前,另一个事务B读取了数据项X的值(A更新后),A回滚了事务,数据项恢复了原值。事务B读取的就是数据项X的就是一个“临时”的值,就是脏数据。40.sklearn库中对数据进行预处理和规范化主要依靠()模块。A、neighbors模块B、preprocessing模块C、pipeline模块D、datasets模块【正确答案】:B解析:

sklearn.preprocessing模块包括缩放,居中,归一化,二值化和插补方法,主要是对数据进行预处理和规范化。41.以下关于字典的描述,错误的是:A、字典中的键可以对应多个值信息B、字典中元素以键信息为索引访问C、字典长度是可变的D、字典是键值对的集合【正确答案】:A42.相关关系是一种与函数关系区别的非确定性关系,而相关分析就是研究事物或现象之间是否存在这种非确定性关系的统计方法,以下不属于相关性分析方法的是()。A、Pearson相关系数B、Spearman秩相关系数C、Kendall相关系数D、傅里叶系数【正确答案】:D解析:

傅里叶系数由Fouriercoefficient翻译而来,有多个中文译名。它是数学分析中的一个概念,常常被应用在信号处理领域中。对于任意的周期信号,如果满足一定条件,都可以展开三角函数的线性组合,每个展开项的系数称为傅里叶系数,不能用于解释相关性。43.当训练数据很多时,可以通过另一个学习器来进行结合,该结合策略为()A、平均法B、投票法C、学习法D、加权法【正确答案】:C解析:

机器学习44.关联规则是反映事物之间的依赖关系,典型例子是购物篮分析,常见算法有Apriori关联算法和()算法。A、贝叶斯算法B、线性回归C、FP-growth关联算法D、聚类算法【正确答案】:C解析:

CDPA考试题库45.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是()。A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样【正确答案】:D解析:

Value(价值密度低或价值发现难度大)、Velocity(速度快)。46.下列哪一项属于特征学习算法(representationlearningalgorithm)A、K近邻算法B、随机森林C、神经网络D、都不属于【正确答案】:C47.以下代码的输出结果为()。importnumpyasnpa=np.array([[1,2,3],[4,5,6]])print(np.append([7,8,9]))A、[[123][456]]B、[123456789]C、[[123][456][789]]D、[[123555][456789]]【正确答案】:B解析:

append()函数在没有指定轴进行操作时,默认展平数组。48.如何在pyplot中设置x轴、y轴的刻度位置()。A、xlabel()、ylabel()B、xlim()、ylim()C、xscale()、yscale()D、xticks()、yticks()【正确答案】:D解析:

xticks()、yticks()用来获取或设置x轴y轴的当前刻度位置和标签。49.在抽样调查中,样本量是指:()。A、样本的个数B、样本所包含的单位数C、抽样框的大小D、样本的可能数目【正确答案】:B解析:

数据科学实战50.下列关于大数据的分析理念的说法中,错误的是()。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追求效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据【正确答案】:D解析:

在大数据的分析理念中,数据规模上强调绝对数据而不是相对数据。51.Atlas加速AI推理使用的是什么处理器?A、异腾910处理器B、异腾310处理器C、GPUD、FPGA【正确答案】:B52.假设您已在数据集上拟合了一个复杂的回归模型。现在,您正在使用Ridge回归,并调整参数λ以减少其复杂性。选择下面的描述,哪个表达了偏差和方差与λ的关系()。A、在λ非常小的情况下,偏差低,方差低B、在λ非常小的情况下,偏差低,方差高C、在λ非常小的情况下,偏差高,方差低D、在λ非常小的情况下,偏差低,方差低【正确答案】:B解析:

λ很小,则意味着模型比较复杂,在这种情况下,会产生偏差低且方差高的结果,模型会对数据过拟合。53.MapReduce的Shuffle过程中哪个操作是最后做的()A、溢写B、分区C、排序D、合并【正确答案】:D解析:

MapReduce编程模型分为Mapper和Reducer阶段,在mapper和reducer的中间还有一个shuffle阶段。shuflle中的执行顺序是先分区,然后在溢写之前进行排序,最后溢出的多个磁盘文件会进行合并成一个大文件。54.以下关于代码规范描述,哪些是错误的()。A、类总是使用驼峰格式命名,即所有单词首字母大写其余字母小写。B、除特殊模块__init__之外,模块名称都使用不带下划线的小写字母。C、不要滥用*args和**kwargsD、建议把所有方法都放在一个类中【正确答案】:D解析:

以下关于代码规范描述,把所有方法都放在一个类中是错误的。55.下列算法在sklearn中未提及的是()A、K-means聚类算法B、LogisticRegressionC、KNN算法D、Apriori关联规则算法【正确答案】:D56.当不知道数据所带标签时,可以使用()技术促使带同类标签的数据与带其他标签的数据相分离。A、分类B、聚类C、关联分析D、隐马尔可夫链【正确答案】:B解析:

《机器学习》周志华第2章模型评估与选择57.关于数据相关性,以下说法错误的是()。A、相关性体现了大数据的灵魂B、相关性思维实现了从“为什么”到“是什么”的思维转变C、相关性关注事物的因果关系D、相关性关注事物的相关关系【正确答案】:C解析:

相关性,是指两个变量的关联程度,可以有正相关、负相关、不相关。58.有关深度神经网络的训练(Training)和推断(Inference),以下说法中不正确的是:A、将数据分组部署在不同GPU上进行训练能提高深度神经网络的训练速度。B、TensorFlow使用GPU训练好的模型,在执行推断任务时,也必须在GPU上运行。C、将模型中的浮点数精度降低,例如使用float16代替float32,可以压缩训练好的模型的大小。D、GPU所配置的显存的大小,对于在该GPU上训练的深度神经网络的复杂度、训练数据的批次规模等,都是一个无法忽视的影响因素。【正确答案】:B59.一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的()。A、定量思维B、相关思维C、因果思维D、检验思维【正确答案】:B解析:

《我们的大数据时代》一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的相关思维。60.下列方法中,能够返回某个子串在字符串中出现次数的是()。A、lengthB、indexC、countD、find【正确答案】:C解析:

count能够返回某个子串在字符串中出现次数。61.下列核函数特性描述错误的是()。A、只要一个对称函数所对应的核矩阵半正定,就能称为核函数;B、核函数选择作为支持向量机的最大变数;C、核函数将影响支持向量机的性能;D、核函数是一种降维模型;【正确答案】:D解析:

以RBF的核函数为例,它是通过径向基核函数可以把原始数据投影到更高维的空间里去,从而增加数据可分的概率,是从低维到高维,并不是降维。62.K-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。那么算法流程为()。1.从输入的数据点集合中随机选择一个点作为第一个聚类中心。2.对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)。3.选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大。4.重复2和3直到k个聚类中心被选出来。5.利用这k个初始的聚类中心来运行标准的k-means算法A、.1B、.3C、.5D、.5【正确答案】:C解析:

k-means++算法基本流程为:从输入的数据点集合中随机选择一个点作为第一个聚类中心2.对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)3.选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大4.重复2和3直到k个聚类中心被选出来5.利用这k个初始的聚类中心来运行标准的k-means算法63.数据管理成熟度模型中成熟度等级最高是哪一级()。A、已优化级B、已测量级C、已定义级D、已管理级【正确答案】:A解析:

已优化是数据管理成熟度模型中成熟度的最高等级。64.预测性分析是()的基础。A、诊断性分析B、描述性分析C、规范性分析D、归纳性分析【正确答案】:C解析:

《数据分析基础》65.在空间维度上刻画数据连续性是数据的()特点。A、可关联性B、可溯源性C、可理解性D、可复制性【正确答案】:A解析:

数据连续性理论是指由数据的可关联性、可溯源性、可理解性及其内在联系组成的一整套数据保护措施,其目的是保障数据的可用性、可信性和可控性,降低数据的失用、失信和失控的风险:1)可关联性是在空间维度上刻画数据连续性,代表的是不同数据对象之间的连续性。它是保障数据可用性的重要前提,代表了数据是否具备支持开放关联和跨域存取的能力,进而避免数据资源的碎片化。因此,研究数据可关联性的意义在于降低数据的“失用”风险。2)可溯源性是在时间维度上刻画数据连续性,代表的是同一个数据对象的历史版本之间的连续性。它是保障数据可信性的重要前提,代表了数据是否具备支持证据链管理、可信度评估以及预测分析的能力。因此,研究数据可溯源性的意义在于降低数据的“失信”风险;3)可理解性是在内容维度上刻画数据连续性,代表的是数据与其产生、管理和维护的主体(包括人与计算机)之间的连续性。它是降低数据的可控性的重要前提,代表了数据是否具备自描述和自包含信息。因此,研究数据可理解性的意义在于降低数据的“失控”风险。66.Spark可以处理的数据任务包括()A、数据批处理任务;B、交互式处理任务;C、图数据处理任务;D、B和C;【正确答案】:D解析:

Spark可以很好地支持流计算、交互式处理、图计算等多种计算模式。67.以等可能性为基础的概率是()A、古典概率B、经验概率C、试验概率D、主观概率【正确答案】:A解析:

关于古典概率是以这样的假设为基础的,即随机现象所能发生的事件是有限的、互不相容的,而且每个基本事件发生的可能性相等。根据大量的、重复的统计试验结果计算随机事件中各种可能发生结果的概率,称为试验概率或频率概率。主观概率,是指建立在过去的经验与判断的基础上,根据对未来事态发展的预测和历史统计资料的研究确定的概率。反映的只是一种主观可能性。68.​若神经元的误差对某输入的权重的偏导大于零说明:()A、该权重应增加B、该权重应减少C、应增加神经网络层数D、应调整激活函数【正确答案】:B解析:

机器学习69.在回归分析中,说法正确的是()。A、解释变量和被解释变量都是随机变量B、解释变量为非随机变量,被解释变量为随机变量C、解释变量和被解释变量都为非随机变量D、解释变量为随机变量,被解释变量为非随机变量【正确答案】:B解析:

在回归分析中,解释变量可以理解为自变量,被解释变量可以理解为因变量。70.当闵可夫斯基距离公式中的系数p值为2时,可得到(__)的公式。A、欧氏距离B、曼哈顿距离C、街区距离D、切比雪夫距离【正确答案】:A解析:

机器学习71.关于Python注释,以下选项中描述错误的是()。A、Python注释语句不被解释器过滤掉,也不被执行B、注释可以辅助程序调试C、注释可用于标明作者和版权信息D、注释用于解释代码原理或者用途【正确答案】:A解析:

Python注释语句会被解释器过滤掉,不被执行。72.数组拼接的函数不包括一下哪种()。A、append()B、insert()C、vstack()D、where()【正确答案】:D解析:

append()函数可向数组横纵坐标添加数组,insert()函数可向一维数组后添加数据,vstack()函数可以进行数组拼接,where()函数是对数据进行条件筛选。73.假设你在卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7×7,具有零填充且步幅为1。该层的输入图片的维度是224×224×3。那么该层输出的维度是多少()A、217x217x3B、217x217x8C、218x218x5D、220x220x7【正确答案】:C解析:

如果原始图片尺寸为nxn,filter尺寸为fxf,则卷积后的图片尺寸为(n-f+1)x(n-f+1),注意f一般为奇数。若考虑存在填充和步幅,用s表示stride长度,p表示padding长度,如果原始图片尺寸为nxn,filter尺寸为fxf,则卷积后的图片尺寸为:[(n+2p-f)/s+1]x[(n+2p-f)/s+1](中括号内向下取整).此例中,n=224,p=0,f=7,s=1,因此,该层输出的尺寸为218x输出的第三个维度由滤波器的个数决定,即为5。74.感知机中,(____)是M-P神经元,也称为阈值逻辑单元。A、输入层B、输出层C、第一层D、第二层【正确答案】:B75.scikit-learn中的k-means类,哪个参数是用来调节k值的()。A、n_clustersB、max_iterC、n_initD、init【正确答案】:A解析:

n_clusters参数设定了k-means算法的聚类个数。76.以下关于Python程序的基本语法元素,错误的描述是:A、变量是由用户定义的用来保存和表示数据的一种语法元素B、Python语言只能用4个空格的缩进来实现程序的强制可读性C、变量的命名规则之一是名字的首位不能是数字D、变量标识符是一个字符串,长度是没有限制的【正确答案】:B77.哪种聚类方法采用概率模型来表达聚类()。A、K-meansB、LVQC、DBSCAND、高斯混合聚类【正确答案】:D解析:

高斯混合聚类(MixtureofGaussian)采用概率模型来表达聚类。78.Python安装扩展库常用的是()工具。A、pyinstallB、pipC、popD、post【正确答案】:B79.运行下面的代码,输出结果是()。l=[iifi%2==0elsei*10foriinrange(5)]print(l)A、[0,10,2,30,4]B、[10,2,30,4]C、[0,10,2,30,4,50]D、[0,1,20,3,40]【正确答案】:A解析:

该列表推导式意为在0-4中偶数不变,奇数乘10,因此A正确80.下面算法中属于图像锐化处理的是()。A、低通滤波B、加权平均法C、高通滤波D、中值滤波【正确答案】:C解析:

高通滤波(high-passfilter)是一种过滤方式,规则为高频信号能正常通过,而低于设定临界值的低频信号则被阻隔、减弱。通滤波属于频率域滤波,它保留高频,抑制低频,是图像锐化的一种方式。81.下列哪个模块可以计算逆矩阵、求特征值、解线性方程组以及求解行列式()。A、randomB、linalgC、NdarrayD、unicode【正确答案】:B解析:

random函数为随机模块,linalg模块为线性计算库,Ndarray为array数组简称,无unicode模块。82.机器学习和深度学习的关系是(__)。A、深度学习包含机器学习B、机器学习包含深度学习C、二者是独立的D、二者相互促进【正确答案】:B解析:

机器学习包含深度学习。83.scipy库中用于物理和数学常量计算的模块是()。A、scipy.clusterB、scipy.ioC、scipy.constantsD、scipy.linalg【正确答案】:C解析:

scipy中,constants是常量计算模块。84.Scipy中的图像处理模块是哪个()。A、imageB、ndimageC、photoD、optimize【正确答案】:B解析:

ndimage模块是Scipy库中的多维图像处理模块,提供一些多维图像处理上的常用算法。85.kNN最近邻算法在什么情况下效果较好()。A、样本较多但典型性不好B、样本较少但典型性好C、样本呈团状分布D、样本呈链状分布【正确答案】:B解析:

K近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。86.为了观察测试Y与X之间的线性关系,X是连续变量,使用下列()比较适合。A、散点图B、柱形图C、直方图D、以上答案都不正确【正确答案】:A解析:

散点图反映了两个变量之间的相互关系,在测试Y与X之间的线性关系时,使用散点图最为直观。87.能够直观显示出学习器在样本总体上的查全率、查准率的图是()。A、ROC曲线B、误差曲线C、方差曲线D、P-R曲线【正确答案】:D解析:

能够直观显示出学习器在样本总体上的查全率、查准率的图是P-R曲线。88.数据对外提供应遵守国家有关政策法规和公司管理规定要求,除国家机关依法调取数据外,原则上公司明细业务数据____。A、不对内提供B、不对外提供C、限制提供【正确答案】:B89.采用模板[-11]主要检测()方向的边缘。A、水平B、45°C、垂直D、135°【正确答案】:C解析:

[-11]是用右边的像素减去左边的像素,当左右像素差别大也就是存在垂直方向边缘时,模板作用在图像上的值会较大。90.以下有关计算机编程语言说法错误的是()。A、编程语言是用于书写计算机程序的语言;B、计算机语言可分为机器语言、汇编语言、高级语言;C、计算机能识别和执行所有编程语言写的程序;D、C/C++、pascal、javpython都属于高级编程语言;【正确答案】:C解析:

只有机器语言才能被计算机直接识别,Python等高级语言源程序,不能直接运行,必须翻译成机器语言才能执行。91.新兴数据管理技术主要包括NoSQL技术、NewSQL技术和()。A、数据仓库B、关系云C、数据库系统D、文件系统【正确答案】:B解析:

关系云是在云计算环境中部署和虚拟化的关系数据库,进而使传统关系数据库具备云计算的弹性计算、虚拟化、按需服务和高经济性等特征。关系云代表了数据管理的一个重要发展方向。92.大数据平台核心分布式存储与计算组件采用Hadoop技术体系中分布式存储、分布式计算框架,及Spark等开源产品和技术,实现对数据的安全控制和管理功能,其中分布式存储不包括()。A、HDFSB、PostgresqlC、HiveD、HBase【正确答案】:B解析:

Postgresql并非分布式存储。93.列表对象的sort()方法用来对列表元素进行原地排序,该函数返回值为()。A、FalseB、NoneC、TrueD、报错【正确答案】:B解析:

列表对象的sort()方法用来对列表元素进行原地排序,该函数返回值为None。94.随机森林中的随机是什么意思?A、随便构建树模B、随机选择一个树模型C、随机选择多个树模型D、在构建每个树模型时随机选择样本和特征【正确答案】:D95.在情感分析任务中,其目的是将无结构化的情感文本转化成计算机容易识别和处理的结构化文本,进而供情感分析上层的研究和应用服务的是()。A、情感信息检索B、情感信息抽取C、情感信息分类D、情感信息归纳【正确答案】:B解析:

情感分析上层的研究和应用主要是为情感信息抽取。96.不属于Mayer-SchönbergerV和CukierK.在其著名论著《Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink》中提出了大数据时代统计的思维变革的是()。A、不是随机样本,而是全体数据B、不是精确性,而是混杂性C、不是描述性分析,而是预测性分析D、不是因果关系,而是相关关系【正确答案】:C解析:

Mayer-SchönbergerV和CukierK.在其著名论著《Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink》中提出了大数据时代统计的思维变革:1)不是随机样本,而是全体数据:大数据时代应遵循“样本=总体”的理念,需要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。2)不是精确性,而是混杂性:大数据时代应承认数据的复杂性,数据分析目的不应追求精确性,数据分析的主要瓶颈是如何提升效率而不是保证分析结果的精确度。3)不是因果关系,而是相关关系:大数据时代的思想方式应转变——不再探求难以捉摸的因果关系,转而关注事物的相关关系。97.下面python循环体执行的次数与其他不同的是()。A、i=0while(i<=10):print(i)i=i+1B、i=10while(i>0):print(i)i=i-1C、forIinrange(10):Print(i)D、forIinrange(10,0,-1):print(i)【正确答案】:A解析:

A循环次数为11次;B循环次数为10次;C循环次数为10次;D循环次数为10次。98.在逻辑回归输出与目标对比的情况下,以下评估指标中哪一项不适用()。AUC-ROCB、准确度C、LoglossD、均方误差【正确答案】:D解析:

LogisticRegression是一个分类算法,所以它的输出不能是实时值,所以均方误差不能用于评估它。99.下面哪个是满足期望输出的代码()。arr=np.array([0,1,2,3,4,5,6,7,8,9])期望输出:array([1,3,5,7,9])A、arr%2==1B、arr[arr%2==1]C、arr[arr/2==1]D、arr[arr//2==1]【正确答案】:B解析:

题中的结果是选取了原数组的奇数,先使用数组进行逻辑判断得到一个逻辑数组,然后以其作为索引选取数据。100.以下关于图像中的噪声的特性说法错误的是()。A、具有随机性B、具有规律性C、具有叠加性D、不具有规律性【正确答案】:B解析:

噪声是干扰和妨碍人类认知和理解信息的重要因素,而图像噪声则是图像中干扰和妨碍人类认识和理解图像信息的重要因素。由于噪声本身具有不可预测性,可以将它当做一种随机误差(这种误差只有通过概率统计的方法来识别)。因此,图像噪声可以视为一种多维随机过程,可以选择随机过程的概率分布函数和概率密度函数来作为对图像噪声进行描述的方法。101.我们在使用pandas时需要怎样导入A、ImportpandasaspdB、ImportsysC、ImportmatplotlibD、以上都不正确【正确答案】:A解析:

《Python数据分析基础》,人民邮电出版社102.若a=np.array([[1,2,3],[4,5,6]]),则print(np.mean(a))的输出结果是(__)。A、([2.][5.])B、3.5C、([3.5])D、[2.5.]【正确答案】:B解析:

利用python进行数据分析103.在反向传播的过程中,首先被计算的是变量()的梯度,之后将其反向传播。A、连接权重B、损失函数C、激活函数D、特征映射【正确答案】:C104.下面哪个激活函数可以实现max(0,x)的功能()。A、sigmoidB、reluC、softmaxD、tanh【正确答案】:B105.BP神经网络经常遭遇(____),其训练误差持续降低,但测试误差却可能上升。A、欠拟合B、误差过大C、误差过小D、过拟合【正确答案】:D106.在一个线性回归问题中,我们使用R平方(R-Squared)来判断拟合度。此时,如果增加一个特征,模型不变,则下面说法正确的是()。A、如果R-Squared增加,则这个特征有意义B、如果R-Squared减小,则这个特征没有意义C、仅看R-Squared单一变量,无法确定这个特征是否有意义。D、以上说法都不对【正确答案】:C解析:

单独看R-Squared,并不能推断出增加的特征是否有意义。通常来说,增加一个特征,R-Squared可能变大也可能保持不变,两者不一定呈正相关。107.以下统计量中表示数据分布是否为对称性的是()。A、方差B、中位数C、偏态D、峰态【正确答案】:C解析:

偏态(Skewness)描述数据分布的对称性。当“偏态系数”等于0时,对应数据的分布为对称,否则分布为非对称;峰态(Kurtosis)描述数据分布的平峰或尖峰程度。当“峰态系数”等于0时,数据分布为标准正态分布,否则比正态分布更平或更尖。108.在plt中通常的lw参数代表的作用是()。A、线条的风格B、文字的颜色C、线条的宽度D、线条的透明度【正确答案】:C解析:

linewidth,线条宽度。109.层次聚类试图在不同层次上对数据集进行划分,从而形成(__)形结构。A、图B、环C、网D、树【正确答案】:D解析:

机器学习P214110.数据定义语言中的创建,修改,删除这三个英文单词下列哪项才是完全正确的(____)。A、创建(CREATE)、修改(ALTER)、删除(update)B、创建(ALTER)、修改(MODIFY)、删除(DROP)C、创建(CREATE)、修改(ALTER)、删除(DROP)D、创建(ALTER)、修改(CREATE)、删除(DROP)【正确答案】:C解析:

《SQL入门经典》111.数据可视化的本质是()。A、将数据转换为知识B、将知识转换为数据C、将数据转换为信息D、将信息转换为智慧【正确答案】:A解析:

可视化分析学模型认为,数据可视化的本质是将数据转换为知识,而不能仅仅停留在数据的可视化呈现层次之上,并提出从数据到知识的转换途径有两个:一是可视化分析,另一个是自动化建模。112.以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。A、Precision,RecallB、Recall,PrecisionC、Precision,ROCD、Recall,ROC【正确答案】:A解析:

机器学习113.在k-均值算法中,以下哪个选项可用于获得全局最小()A、尝试为不同的质心(centroid)初始化运行算法B、调整迭代的次数C、找到集群的最佳数量D、以上答案都正确【正确答案】:D解析:

所有都可以用来调试以找到全局最小。114.下列关于线性回归分析中的残差说法正确的是()。A、残差均值总是为零B、残差均值总是约等于零C、残差均值总是大于零D、以上答案都不正确【正确答案】:A解析:

线性回归分析中,目标是残差最小化。残差平方和是关于参数的函数,为了求残差极小值,令残差关于参数的偏导数为零,会得到残差和为零,即残差均值为零。115.DIKW金字塔模型中,顶层与底层的名称分别为()。A、智慧与数据B、知识与数据C、智慧与数值D、知识与数值【正确答案】:A解析:

DIKW金字塔(DIKWPyramid)模型揭示了数据(Data)与信息(Information)、知识(Knowledge)、智慧(Wisdom)之间的区别与联系,自底向上分别为数据、信息、知识、智慧。116.Hadoop默认对3个副本的存放策略是()A、第一个副本存放在client所在的datanode中——》第二个副本存放在与第一个副本不同机架的随机datanode中——》第三个副本存放在与第二个副本同机架的不同datanode中;B、第一个副本存放在client所在的datanode中——》第二个副本存放在与第一个副本同机架的不同datanode中——》第三个副本存放在与第一个副本不同机架的随机datanode中;C、第一个副本存放在随机datanode中——》第二个副本存放在与第一个副本同机架的不同datanode中——》第三个副本存放在与第一个副本不同机架的随机datanode中;D、第一个副本存放在随机datanode中——》第二个副本存放在与第一个副本不同机架的随机datanode中——》第三个副本存放在与第一个副本同机架的不同datanode中;【正确答案】:A解析:

根据存放策略定义,A正确。117.下列场景中最有可能应用人工智能的是()。A、刷脸办电B、舆情分析C、信通巡检机器人D、以上答案都正确【正确答案】:D解析:

人工智能应用的范围很广,包括:计算机科学,金融贸易,医药,诊断,重工业,运输,远程通讯,在线和电话服务,法律,科学发现,玩具和游戏,音乐等诸多方面,刷脸办电、舆情分析、信通巡检机器人当然都能很好的应用到人工智能,选D。118.数据仓库是随着时间变化的,下面的描述不正确的是()。A、数据仓库随时间的变化不断增加新的数据内容B、捕捉到的新数据会覆盖原来的快照C、数据仓库随事件变化不断删去旧的数据内容D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合【正确答案】:C解析:

一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。119.图像与灰度直方图的对应关系为()。A、一一对应B、一对多C、多对一D、以上答案都正确【正确答案】:C解析:

灰度直方图是灰度级的函数,它表示图象中具有每种灰度级的象素的个数,反映图象中每种灰度出现的频率。灰度直方图的横坐标是灰度级,纵坐标是该灰度级出现的频率,是图象的最基本的统计特征。与图像之间的关系是多对一的映射关系。一幅图像唯一确定出与之对应的直方图,但不同图像可能有相同的直方图,选C。120.以下字符串表示plot线条颜色、点的形状和类型为红色五角星点短虚线的是()。A、'bs-'B、'go-.'C、'r+-.'D、'r*-.'【正确答案】:D解析:

'r'代表红色,'*'代表五角星。'-.'代表点短虚线。121.点击率问题是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集.假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是:()。A、模型预测准确率已经很高了,我们不需要做什么了B、模型预测准确率不高,我们需要做点什么改进模型C、无法下结论D、以上答案都不正确【正确答案】:C解析:

类别不均衡的情况下,不能用准确率做分类评估指标,因为全判断为不会点,准确率也是99%,此时分类器一点用都没有。122.基于统计的异常点检测算法不包括A、基于正态分布的异常点检测算法B、基于距离的异常点检测算法C、3δ原则D、简单统计分析【正确答案】:B123.下列代码中,表示删除空目录的是()A、os.removeB、os.rmdirC、os.removedirD、os.rename【正确答案】:B解析:

《大数据应用知识读本》124.以下关于集成学习的说法错误的是()。A、随机森林中的基分类器通常是CART决策树Bagging方法得到的分类器对于噪声数据和过拟合问题更具健壮性C、Boosting可将弱学习器提升为强学习器D、Stacking的结果由最初的学习器决定【正确答案】:D解析:

《机器学习》125.sklearn.naive_bayes模块实现了朴素贝叶斯算法,基于贝叶斯定理和特征独立性假设的监督学习方法,下列哪个模型不是朴素贝叶斯分类器的模型()。A、BernoulliNB()B、GaussianNB()C、NeighborsNB()D、MultinomialNB()【正确答案】:C解析:

sklearn的朴素贝叶斯算法,根据输入特征的不同类型分为BernoulliNB,GaussianNB,MultinomialNB三种。126.对于PCA(主成分分析)转化过的特征,朴素贝叶斯的不依赖假设总是成立,因为所有主要成分是正交的,这个说法是:().A、正确的B、错误的【正确答案】:B解析:

说法错误,首先,不依赖和不相关是两回事,其次,转化过的特征,也可能是相关的。127.下列描述中不属于数据治理内容的是()A、理解自己的数据B、行为规范的制定C、岗位职责的定义D、获得更多的数据【正确答案】:D解析:

基础知识参考【正确答案】:D解析:获得更多的数据不属于数据治理。128.关于数据分析,下列说法正确的是()。A、描述性分析和预测性分析是对诊断性分析的基础B、断性分析分析是对规范性分析的进一步理解C、预测性分析是规范性分析的基础D、规范性分析是数据分析的最高阶段,可以直接产生产业价值【正确答案】:C解析:

在数据分析中,流程分为以下方式:描述性分析、诊断性分析、预测性分析、规范性分析。129.二项分布的数学期望为()。A、n(1-n)pB、np(1-p)C、npD、n(1-p)【正确答案】:C解析:

二项分布,即重复n次的伯努利试验。如果事件发生的概率是p,则不发生的概率q=1-p.则期望为np,方差为npq。130.sigmoid导数为A、f(z)B、f(1-z)C、f(1+z)f(1-z)D、f(z)(1-f(z))【正确答案】:D131.Hadoop环境下MapReduce中,()实现中间结果中的重复key做合并A、OutputKeyClassB、OutputValueClassCombinerClassD、ReducerClass【正确答案】:C解析:

CombinerClass实现输出结果的合并。132.gensim库中()是指一组电子文档的集合,这个集合是gensim的输入。A、结构B、主题C、文档流D、语料【正确答案】:D解析:

语料是文档的集合,也是gensim进行自然语言处理的输入。133.下列不受视觉合成模型Nüwa(女娲)支持的跨模态合成模式是?A、文本转图像B、图像转涂鸦C、图像补全D、视频预测【正确答案】:B解析:

《机器学习》,清华大学出版社134.多层前馈神经网络描述错误的是:(__)。A、输出层与输入层之间包含隐含层,且隐含层和输出层都拥有激活函数的神经元B、神经元之间存在同层连接以及跨层连接C、输入层仅仅是接收输入,不进行函数处理D、每层神经元上一层与下一层全互连【正确答案】:B解析:

多层前馈神经网络的特点:1.每层神经元与下一层神经元之间完全互连2.神经元之间不存在同层连接3.神经元之间不存在跨层连接135.为了允许支持向量机在一些样本上出错,引入()的概念。A、软间隔B、硬间隔C、间隔D、误差【正确答案】:A解析:

为了允许支持向量机在一些样本上出错,引入软间隔的概念。136.下列哪一种方法的系数没有封闭形式(closed-form)的解()。A、Ridge回归B、LassoC、Ridge回归和LassoD、以上答案都不正确【正确答案】:B解析:

Ridge回归是一般的线性回归再加上L2正则项,它具有封闭形式的解,可以基于最小二乘法求解。137.能使图像亮度得到平缓渐变,减小突变梯度,改善图像质量的是()。A、图像平滑B、图像分类C、图像识别D、图像分割【正确答案】:A解析:

图像平滑是指用于突出图像的宽大区域、低频成分、主干部分或抑制图像噪声和干扰高频成分的图像处理方法,目的是使图像亮度平缓渐变,减小突变梯度,改善图像质量。138.下列关于Python中的函数的说法,正确的是()。A、函数用关键字function定义B、函数定义时,函数的主体内容应与定义语句开头对齐C、polynomial(x=1,2,z=3)的传递参数的方法是正确的D、默认参数值可以在传递参数时修改【正确答案】:D解析:

A中函数关键词由def定义;B中函数定义时主体语句应缩进4个空格;C中关键字和位置混用要注意位置参数要出现在关键字前面。139.模块的定义与导入方法错误的是()。A、将写好的python模块保存为.py模式的文件。拷贝到sys.path对应的文件目录下,就可以在shell中通过指令导入B、importmodule1[,module2[,...moduleN]]C、frommodnameimportname1[,name2[,...nameN]]D、from*importmodname【正确答案】:D解析:

导入库的正确方式是frommodnameimportname。140.下列哪个算法可以用于特征选择:()。A、朴素贝叶斯B、感知器C、支持向量机D、决策树【正确答案】:D解析:

使用决策树也可以计算每个特征的相对重要性。这些重要性能够辅助进行特征选择。141.一个规范化的关系至少应该满足()的要求A、一范式B、二范式C、三范式D、四范式【正确答案】:C解析:

《SQL入门经典》142.()不是Spark服务层的功能。A、SQL查询B、实时处理C、机器学习D、内存计算【正确答案】:D解析:

Spark服务层主要提供面向特定类型的计算服务,如SQL查询、实时处理、机器学习以及图计算。143.()是表现数据分布对称性的指标。A、斜率B、偏斜度C、偏度D、偏离度【正确答案】:B解析:

偏斜度是对统计数据分布偏斜方向及程度的度量。在偏态分布中,当偏斜度为正值时,分布正偏,即众数位于算术平均数的左侧;当偏斜度为负值时,分布负偏,即众数位于算术平均数的右侧。144.()用于将非线性引入神经网络。它会将值缩小到较小的范围内。A、损失函数B、优化函数C、激活函数D、目标函数【正确答案】:C解析:

激活函数用于将非线性引入神经网络,它会将值缩小到较小的范围内。145.下列哪种去噪方法能较好的保持图像边缘()。A、中值滤波B、双边滤波C、均值滤波D、高斯滤波【正确答案】:A解析:

中值滤波法是一种非线性平滑技术,它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值。中值滤波对脉冲噪声有良好的滤除作用,特别是在滤除噪声的同时,能够保护信号的边缘,使之不被模糊。146.以下关于人工神经网络(ANN)的描述错误的有()。A、神经网络对训练数据中的噪声非常鲁棒B、可以处理冗余特征C、训练ANN是一个很耗时的过程D、至少含有一个隐藏层的多层神经网络【正确答案】:A解析:

未经正则化的神经网络对可能对噪声很敏感。147.高通滤波后的图像通常较暗,为改善这种情况,将高通滤波器的转移函数加上一常数量以便于引入一些低频分量。这样滤波器叫()。A、巴特沃斯高通滤波器B、高频提升滤波器C、高频加强滤波器D、理想高通滤波器【正确答案】:B解析:

高频增强滤波器由于相对削弱了低频成分,因而滤波所得的图像往往偏暗。148.在Hadoop的分区阶段,默认的Partitioner是()。A、RangePartitionerB、PartitionerC、HashPartitionerD、用户自定义的Partitioner【正确答案】:C解析:

Hadoop中默认的Partitioner是HashPartitioner。149.Numpy不支持以下哪种数据类型()。A、float32B、uint64C、boolD、byte【正确答案】:D解析:

Numpy支持的数据类型包括bool、int(8,16,32,64)、unit(16,32,64)、float(16,32,64)、complex(64,128)等类型,不支持byte、short等类型。150.根据数据管理计划,设计或选择具体方法实行计划中的工作内容,属于数据治理的哪一步()。A、计划B、执行C、检查D、改进【正确答案】:B解析:

数据治理并不是一次性工作,而是一种循序渐进的过程,主要包含计划、执行、检查和改进等基本活动,即数据治理的PDCA模型,其中:1)计划(Plan):数据管理方针和目标的确定,明确组织机构的数据管理的目的、边界和工作内容。2)执行(Do):根据数据管理计划,设计或选择具体的方法、技术、工具等解决方案,实现计划中的工作内容。3)检查(Check):定期检查执行效果,进行绩效评估,并发现存在问题与潜在风险。4)改进(Action):根据检查结果中发现的问题与风险,进一步改进自己的数据管理工作。1.属于特征选择的优点有()。A、解决模型自身的缺陷B、减少过拟合C、提升模型的性能D、增强模型的泛化能力【正确答案】:BCD解析:

特征选择无法克服模型自身的缺陷,二者是独立的。2.()等都是Scikit-Learn中包含的算法。A、SVMB、随机森林C、Lasso回归D、密度聚类【正确答案】:ABCD解析:

这些均可在sklearn中实现。3.神经网络模型(NeuralNetwork)因受人类大脑的启发而得名。神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出。请问下列关于神经元的描述中,哪一项是正确的(__)。A、每个神经元有一个输入和一个输出B、每个神经元有多个输入和一个输出C、每个神经元有一个输入和多个输出D、每个神经元有多个输入和多个输出【正确答案】:ABCD解析:

每个神经元可以有一个或多个输入,和一个或多个输出。4.关于数据产品研发,下列说法错误的是()。A、从加工程度看,可以将数据分为一次数据、二次数据和三次数据B、一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题C、二次数据是对一次数据进行深度处理或分析后得到的“增值数据”D、三次数据是对二次数据进行洞察与分析后得到的、可以直接用于决策支持的“洞见数据”【正确答案】:ABD解析:

二次数据是一种按照信息的生产过程和加工深度进行对信息进行分类的,是指根据特定的需求,对一次信息进行加工、分析、改编、重组、综合概括生成的信息。5.我们想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,如何有效地训练模型()A、对训练集随机采样,在随机采样的数据上建立模型B、尝试使用在线机器学习算法C、使用PCA算法减少特征维度【正确答案】:ABC解析:

大数据可以采用对训练集随机采样,在随机采样的数据上建立模型,尝试使用在线机器学习算法,使用PCA算法减少特征维度。6.下列哪些是传统RDBMS的缺点()A、表结构schema扩展不方便B、全文搜索功能较弱C、大数据场景下I/O较高D、存储和处理复杂关系型数据功能较弱【正确答案】:ABCD解析:

传统RDBMS的缺点包括表结构schema扩展不方便、全文搜索功能较弱、大数据场景下I/O较高、存储和处理复杂关系型数据功能较弱。7.关于Hbase存储模型的描述正确的是:()。A、即使是:key值相同,qualifier也相同的多个KeyValue也可能有:多个,此时使用时间戳来区分B、同一个key值可以关联多个valueC、keyvalue中期有:时间戳,类型等关键信息D、每一个keyvalue都有:一个qualifier标识【正确答案】:ABCD8.RDD具有()和()特征。A、可容错性;B、简洁性;C、并行数据结构;D、结构化;【正确答案】:AC解析:

RDD是一个容错的、并行的数据结构。9.数据挖掘算法的组件包括()。A、模型或模型结构B、评分函数C、优化和搜索方法D、数据管理策略【正确答案】:ABCD解析:

数据挖掘算法的组件包括模型或模型结构、评分函数、优化和搜索方法、数据管理策略。10.请问下面哪些是离散型变量()。A、示波器B、心电图及脑动电图扫描器对脑电波的测量C、过去数月的总销售额D、公司每年的红利【正确答案】:CD解析:

在统计学中,变量按其数值表现是否连续,分为连续变量和离散变量。离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。如职工人数、工厂数、机器台数等。有些性质上属于连续变量的现象也按整数取值,即可以把它们当做离散变量来看待。例如年龄、评定成绩等虽属连续变量,但一般按整数计算,按离散变量来处理。离散变量的数值用计数的方法取得。11.EDA(探索性数据分析)方法与传统统计学的验证性分析方法的区别有()。A、EDA需要事先提出假设,而验证性分析不需要B、EDA中采用的方法往往比验证性分析简单C、在一般数据科学项目中,探索性分析在先,验证性分析在后D、EDA更为简单、易学和易用【正确答案】:BCD解析:

在一般数据科学项目中,探索性分析在先,验证性分析在后,EDA中采用的方法往往比验证性分析简单。12.以下哪些神经网络适合处理序列数据?A、LSTMB、双向LSTMC、一维CNND、二维CNN【正确答案】:ABC13.处理图像平滑处理的滤波有()。A、盒式滤波B、均值滤波C、高斯滤波D、中值滤波【正确答案】:ABCD解析:

处理图像平滑处理的滤波包含盒式滤波,均值滤波,高斯滤波和中值滤波等。14.在Windows系统中通过Geany编写Python程序,运行Python程序的常用步骤是()。A、菜单Build>ExecuteB、菜单Execute>BuildC、按F5D、按F10【正确答案】:AC解析:

在Windows系统中通过Geany编写Python程序,运行Python程序的常用步骤是菜单Build>Execute或按F5。15.以下关于API爬虫哪些说法是错误的()。A、基于API返回的结果通常会比较干净B、基于API的爬虫任务中,速度一般较慢C、基于API的爬虫爬取的好处是没有次数的限制D、基于API的爬取能够覆盖网站所有信息【正确答案】:BCD解析:

基于API返回的结果同样需要解析。16.以下关于降维方法,叙述正确的是()。A、主成分分析是一种常用的非线性降维方法B、核化线性降维是一种常用的线性降维方法C、流形学习是一种借鉴拓扑流形概念的降维方法D、度量学习绕过降维的过程,将学习目标转化为对距离度量计算的权重矩阵的学习【正确答案】:CD解析:

本质上讲,主成分分析是一种线性降维方法,在处理非线性问题时,效果不太理想。核化线性降维是一种非的线性降维方法。17.Python中jieba库支持哪几种模式()。A、精准模式B、匹配模式C、全模式D、搜索引擎模式【正确答案】:ACD解析:

jieba分词的三种模式。18.pandas中主要的数据结构是()。A、DataB、DataFrameC、FrameD、Series【正确答案】:BD解析:

pandas的两种主要数据结构为Series和DataFrame。19.下面关于机器学习的理解正确的是()。A、非监督学习的样本数据是要求带标签的B、监督学习和非监督学习的区别在于是否要求样本数据带标签C、强化学习以输入数据作为对模型的反馈D、卷积神经网络一般用于图像处理等局部特征相关的数据【正确答案】:BCD解析:

非监督学习的样本数据是不要求带标签的,监督学习的样本数据是要求带标签的。20.在处理序列数据时,不容易出现梯度消失现象的深度学习模型的是A、CNNB、LSTMC、GRUD、RNN【正确答案】:ABC21.下列有关Flume的描述正确的是()。A、Flume具有一定的容错性;B、Flume使用Java编写;C、Flume不支持failover;D、Flume是一个分布式的轻量级工具,适应各种方式的数据收集;【正确答案】:ABD解析:

Flume本身提供了failover机制,可以自动切换和恢复22.当图像分类的准确率不高时,可以考虑以下哪种方法提高准确率。A、数据增强B、调整超参数C、使用预训练网络参数D、减少数据集【正确答案】:ABC23.下列方法中,可以用于特征降维的方法包括()。A、主成分分析PCAB、线性判别分析LDAC、深度学习SparseAutoEncoderD、矩阵奇异值分解SVD【正确答案】:ABD解析:

主成分分析PCA、线性判别分析LDA、矩阵奇异值分解SVD均可用于特征降维。24.下列关于Ridge回归,说法正确的是()A、若

λ=0,则等价于一般的线性回归B、若

λ=0,则不等价于一般的线性回归C、若

λ=+∞,则得到的权重系数很小,接近于零D、若

λ=+∞,则得到的权重系数很大,接近与无穷大【正确答案】:AC解析:

Ridge回归中,若λ=0,则等价于一般的线性回归,若λ=+∞,则得到的权重系数很小,接近于零。25.以下哪些选项可以用于实现爬虫功能()。A、BeautifulSoup库B、re模块C、Scrapy框架D、urllib.request库【正确答案】:ACD解析:

re是正则模块不含网络功能,但可以用它将爬下来的数据进行处理。26.Python的优点有()。A、变量不用预定义类型B、数据结构功能强大C、语言可解释性强D、变量类型固定【正确答案】:ABC解析:

Python变量在使用前不必定义变量类型。27.Python中,复合赋值运算符包括()。A、简单的赋值运算符B、乘法赋值运算符C、取模赋值运算符D、取整除赋值运算符【正确答案】:ABCD解析:

Python中,复合赋值运算符包括简单的赋值运算符、乘法赋值运算符、取模赋值运算符、取整除赋值运算符。28.以下关于数据维度的描述,正确的是()。A、采用列表表示一维数据,不同数据类型的元素是可以的B、JSON格式可以表示比二维数据还复杂的高维数据C、二维数据可以看成是一维数据的组合形式D、字典不可以表示二维以上的高维数据【正确答案】:ABC解析:

字典可以表示二维以上的高维数据。29.在Spark中,弹性分布式数据集的特点包括()。A、可分区B、可序列化C、可直接修改D、可持久化【正确答案】:ABD解析:

RDD不可修改。30.关于HadoopMapReduce,以下描述中正确的是()。A、reduce()函数的输入是value集B、reduce()函数将最终结果写到HDFS系统中C、用户可以自己定义reduce()函数D、reduce()函数的输入数据是经过map()函数处理之后的数据【正确答案】:BCD解析:

reduce()函数的输入是key-value集。31.Caffe框架支持哪些语言。A、C++B、PythonC、MATLABD、R【正确答案】:ABC32.对于不同场景内容,一般数字图像可以分为()。A、二值图像B、灰度图像C、彩色图像D、深度图像【正确答案】:ABC解析:

深度图像中深度通道为描述距离,一般对其进行采样或数值离散化。33.为什么RNN网络的激活函数要选用双曲正切而不是sigmod呢()A、使用sigmod函数容易出现梯度消失B、sigmod的导数形式较为复杂C、双曲正切更简单D、sigmoid函数实现较为复杂【正确答案】:AB解析:

第一,采用sigmoid等函数,反向传播求误差梯度时,求导计算量很大,而Relu求导非常容易。第二,对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失的情况(在sigmoid接近饱和区时,变换太缓慢,导数趋于0),从而无法完成深层网络的训练。34.关于TF-IDF模型描述正确的有()。A、TF意思是词频B、IDF是逆文本频率C、该模型基于统计方法D、在信息检索中应用较少【正确答案】:ABC解析:

TF-IDF算法应用较为广泛,在信息检索中也常用。35.下面是文件基本操作的函数()。A、closeB、readC、renameD、remove【正确答案】:ABCD解析:

下面是文件基本操作的函数close、read、rename、remove。36.下列哪个是Hadoop运行的模式()。A、单机版B、伪分布式C、分布式D、全分布式【正确答案】:ABC解析:

Hadoop运行模式包括单机版、伪分布式和分布式。37.图像分割中常使用的领域有()。A、0邻域B、4邻域C、8邻域D、24邻域【正确答案】:BC解析:

图像分割中常见的邻域为4邻域与8邻域,即某像素的上下左右、某像素周围的一圈像素。38.以下()是scipy中的模块。A、clusterB、constantsC、integrateD、io【正确答案】:ABCD解析:

四种都是scipy的模块。39.python中,字符串格式化的方式()。A、%B、formatC、inD、input【正确答案】:AB解析:

input输入in判断。40.ETL技术主要涉及()操作。A、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论