工匠杯练习试题附答案

上传人：喝*** IP属地：广西上传时间：2023-11-06 格式：DOC 页数：75 大小：111.06KB 积分：25 举报 版权申诉

已阅读5页，还剩70页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第页工匠杯练习试题附答案1.以下代码的输出结果为（）。a=np.array([[1,2],[3,4]])b=np.array([[1,2],[3,4]])np.vstack((b))A、[[1,2],[3,4],[1,2],[3,4]]B、[[1,2,3,4],[1,2,3,4]]C、[[1,2],[3,4]]D、[1,2,3,4,1,2,3,4]【正确答案】：A解析：

vstack()为数组垂直拼接。2.在空间维度上刻画数据连续性是数据的（）特点。A、可关联性B、可溯源性C、可理解性D、可复制性【正确答案】：A解析：

数据连续性理论是指由数据的可关联性、可溯源性、可理解性及其内在联系组成的一整套数据保护措施，其目的是保障数据的可用性、可信性和可控性，降低数据的失用、失信和失控的风险：1）可关联性是在空间维度上刻画数据连续性，代表的是不同数据对象之间的连续性。它是保障数据可用性的重要前提，代表了数据是否具备支持开放关联和跨域存取的能力，进而避免数据资源的碎片化。因此，研究数据可关联性的意义在于降低数据的“失用”风险。2）可溯源性是在时间维度上刻画数据连续性，代表的是同一个数据对象的历史版本之间的连续性。它是保障数据可信性的重要前提，代表了数据是否具备支持证据链管理、可信度评估以及预测分析的能力。因此，研究数据可溯源性的意义在于降低数据的“失信”风险；3）可理解性是在内容维度上刻画数据连续性，代表的是数据与其产生、管理和维护的主体（包括人与计算机）之间的连续性。它是降低数据的可控性的重要前提，代表了数据是否具备自描述和自包含信息。因此，研究数据可理解性的意义在于降低数据的“失控”风险。3.结构化数组不能使用以下哪种数据类型创建（）。A、元组列表B、字符串C、字典D、整数【正确答案】：D解析：

结构化数组类型创建有四种不同的规范形式：元组列表、逗号分割的数据类型规范字符串、字段参数组字典、字段名称字典，不包含整数。4.把图像分割问题与图的最小割(mincut)问题相关联的方法是（）。A、基于图论的分割方法B、分水岭算法C、SLIC算法D、基于阈值的方法【正确答案】：A解析：

基于图论的分割方法把图像分割问题与图的最小割（mincut）问题相关联。首先将图像映射为带权无向图，图中每个节点对应于图像中的每个像素，每条边的权值表示了相邻像素之间在灰度、颜色或纹理方面的非负相似度。5.以下选项中，不是PythonIDE的是（）。A、PyCharmB、JupyterNotebookC、SpyderD、Rstudio【正确答案】：D解析：

Rstudio为R语言编程环境。6.下列不属于深度学习内容的是(__)。A、深度置信网络B、受限玻尔兹曼机C、卷积神经网络D、贝叶斯学习【正确答案】：D解析：

贝叶斯学习属于传统的机器学习算法。7.下列哪个不是专门用于可视化时间空间数据的技术：（）。A、等高线图B、饼图C、曲面图D、矢量场图【正确答案】：B解析：

数据科学实战8.减少神经网络过拟合的说法，以下哪些是正确的？(____)A、在神经网络训练过程中类似dropout减少神经元或相关链接权的数量B、通过正则化可以减少网络参数的取值或个数，一定程度可能减少过拟合C、利用L1或L2正则化可以使权重衰减，从而一定程度上减少过拟合D、以上都对【正确答案】：D9.对参数进行L2正则，是机器学习常用的防止过拟合的方法。请问对参数做L2正则，下列（）是对参数本身做先验分布假设。A、高斯分布B、拉普拉斯分布C、泊松分布D、均匀分布【正确答案】：A解析：

L2正则假设参数的先验分布是Gaussian分布，可以保证模型的稳定性，也就是参数的值不会太大或太小。10.下列贝叶斯描述错误的是（）A、贝叶斯是概率框架下实施决策的基本方法B、贝叶斯基于概率和误判损失来选择最优的类别标记C、贝叶斯判定准则为最大化总体风险D、贝叶斯中期望损失定义为风险【正确答案】：C11.“ab”+”c”*2结果是（）。A、abc2B、abcabcC、abccD、ababcc【正确答案】：C12.关于时间相关类,下列说法错误的是()。A、Timestamp是存放某个时间点的类B、Period是存放某个时间段的类C、Timestamp数据可以使用标准的时间str转换得来D、两个数值上相同的Period和Timestamp所代表的意义相同【正确答案】：D解析：

《机器学习》，清华大学出版社13.关于基本数据的元数据是指（）。A、基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息B、基本元数据包括与企业相关的管理方面的数据和信息C、基本元数据包括日志文件和简历执行处理的时序调度信息D、基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息【正确答案】：D解析：

元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(dataaboutdata)。14.scipy中（）是空间数据结构和算法模块。A、clusterB、constantsC、integrateD、spatial【正确答案】：D解析：

spatial模块是Scipy中的空间结构模块，提供了一些空间相关的数据结构和算法，如Delaunay三角剖分，共面点，凸包，维诺图，Kd树等。15.当try子句中没有任何错误时，一定不会执行（）语句。A、tryB、slseC、exceptD、finally【正确答案】：C解析：

except是当try语句错误才运行。16.以下哪个不属于数据治理的内容。A、理解自己的数据B、行为规范的制定C、岗位职责的定义D、获得更多的数据【正确答案】：D解析：

获得更多的数据不属于数据治理。17.下列关于线性回归和逻辑回归，说法不正确的是（）A、线性回归主要对连续性数值进行预测B、逻辑回归不属于分类算法C、逻辑回归的本质是概率性回归，是广义线性模型的一种D、线性回归中，“最小二乘法”是基于均方误差最小化来进行模型求解的方法【正确答案】：B18.一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是：（）。A、一年级B、二年级C、三年级D、四年级【正确答案】：A解析：

数据科学实战19.下列哪个语句在Python中是非法的（）。A、x=y=z=1B、x=(y=z+1)C、x，y=y，xD、x+=y【正确答案】：B解析：

赋值语句不能用于赋值。20.对MapReduce计算框架中生成的键值对的说法正确的是（__)。A、可以有相同的键，值必须唯一；B、可以有相同的值，键必须唯一；C、可以有相同的键，也可以有相同的值；D、键和值都必须唯一；【正确答案】：C解析：

键值对中的“键”和“值”并没有必然的联系，两者可以相同。21.关系数据库中存储、计算和管理的数据是（）A、结构化数据B、海量数据C、半结构化数据D、非结构化数据【正确答案】：A22.a=np.array([[0,0,0],[10,10,10],[20,20,20],[30,30,30]])b=np.array([1,2,3])，a+b的输出结果为（）。A、[[123][101010][202020][303030]]B、[[123][000][101010][202020][303030]]C、[[123][111213][212223][313233]]D、无法计算【正确答案】：C解析：

在Numpy中两个维度不同的数组进行计算时会自动触发Numpy的广播机制，原公式会转换为[[1,2,3],[1,2,3],[1,2,3],[1,2,3]]+[[0,0,0],[10,10,10],[20,20,20],[30,30,30]]。23.以下选项中，不是Python语言基本控制结构的是A、顺序结构B、程序异常C、循环结构D、跳转结构【正确答案】：D24.数据科学处于哪三大领域的重叠之处（）。A、数学与统计知识、黑客精神与技能、领域实务知识B、数据挖掘、黑客精神与技能、领域实务知识C、数学与统计知识、数据挖掘、领域实务知识D、数学与统计知识、黑客精神与技能、数据挖掘【正确答案】：A解析：

根据DrewConway的数据科学韦恩图（DataScienceVennDiagram），数据科学处于数学与统计知识、黑客精神与技能和领域实务知识等三大领域的交叉之处。25.a=[[1.,2.,1.],[1.,2.,1.]]，a+3的值为（）。A、[[1.,2.,1.],[4.,5.,4.]]B、[[4.,5.,4.],[4.,5.,4.]]C、以上都不对D、[[4.,5.,4.],[1.,2.,1.]]【正确答案】：C26.平滑图像（）处理可以采用RGB彩色模型。A、直方图均衡化B、直方图均衡化C、加权均值滤波D、中值滤波【正确答案】：C解析：

平滑图像处理可以采用RGB彩色加权均值滤波模型。27.Hadoop默认对3个副本的存放策略是（）A、第一个副本存放在client所在的datanode中——》第二个副本存放在与第一个副本不同机架的随机datanode中——》第三个副本存放在与第二个副本同机架的不同datanode中；B、第一个副本存放在client所在的datanode中——》第二个副本存放在与第一个副本同机架的不同datanode中——》第三个副本存放在与第一个副本不同机架的随机datanode中；C、第一个副本存放在随机datanode中——》第二个副本存放在与第一个副本同机架的不同datanode中——》第三个副本存放在与第一个副本不同机架的随机datanode中；D、第一个副本存放在随机datanode中——》第二个副本存放在与第一个副本不同机架的随机datanode中——》第三个副本存放在与第一个副本同机架的不同datanode中；【正确答案】：A解析：

根据存放策略定义，A正确。28.一元线性回归方程y=0.7+0.82x，判定系数等于0.64，则x与y的相关系数为（）。A、0.82B、0.64C、0.8D、0.7【正确答案】：C解析：

一元回归分析中，自变量和因变量的相关系数的平方等于回归模型的判定系数。所以，相关系数=sqrt(64)=0.8。29.Python运算符中用来计算集合并集的是（）。A、|B、&C、||D、+【正确答案】：A解析：

Python运算符中用来计算集合并集的是|。30.googlenet提出的Inception结构优势有（）。A、保证每一层的感受野不变，网络深度加深，使得网络的精度更高B、使得每一层的感受野增大，学习小特征的能力变大C、有效提取高层语义信息，且对高层语义进行加工，有效提高网络准确度D、利用该结构有效减轻网络的权重【正确答案】：D31.以下代码的运行结果为（）x=(1,2,3,4);x[-1::-2];A、(4,3)B、(4,3,2)C、(3,2)D、(4,2)【正确答案】：D解析：

《数据科学》32.关于循环神经网络设计的叙述中，错误的是（）。A、能处理可变长度的序列B、基于图展开思想C、基于参数共享思想D、循环神经网络不可应用于图像数据【正确答案】：D解析：

深度学习基础知识。33.大数据中的小数据可能缺失、冗余、存在垃圾数据不影响大数据的可信数据，体现大数据“涌现”的（）表现形式。A、价值涌现B、隐私涌现C、质量涌现D、安全涌现【正确答案】：C解析：

大数据的“质量涌现”是指大数据中的成员小数据可能有质量问题（不可信的数据），如缺失、冗余、垃圾数据的存在，但不影响大数据的质量（可信的数据）。34.设计为8层的卷积神经网络AlexNet网络成功使用(__)函数，其效果远远地超过了Sigmoid函数。A、ReLU函数B、sigmoid函数C、tanh函数D、sin函数【正确答案】：A解析：

AlexNet网络用ReLU代替sigmoid，效果得到大幅提升。35.以下选项中，输出结果是False的是（）。A、>>>5isnot4B、>>>5!=4C、>>>False!=0D、>>>5is5【正确答案】：C解析：

False在内置表达式中为0。36.采用模板[-11]主要检测（）方向的边缘。A、水平B、45°C、垂直D、135°【正确答案】：C解析：

[-11]是用右边的像素减去左边的像素，当左右像素差别大也就是存在垂直方向边缘时，模板作用在图像上的值会较大。37.以下关于break,continue说法正确的是（）。A、continue语句被用来告诉Python跳过当前循环块中的剩余语句，然后继续进行下一轮循环在循环中break的作用是终止当前循环结构的后续操作，一旦程序运行了break，循环也就终止了！B、break语句被用来告诉Python跳过当前循环块中的剩余语句，然后继续进行下一轮循环，在循环中continue的作用是终止当前循环结构的后续操作，一旦程序运行了continue，循环也就终止了！C、break,continue语句被用来告诉Python跳过当前循环块中的剩余语句，然后继续进行下一轮循环D、在循环中break,continue的作用是终止当前循环结构的后续操作，一旦程序运行了break循环也就终止了！【正确答案】：A解析：

continue语句可以跳过循环的当前一步。38.下列策略（）可在保证训练精度的情况下降低模型的复杂度。A、正则化系数无穷大B、正则化系数几乎为0C、选择合适的正则化参数D、以上答案都不正确【正确答案】：C解析：

选择合适的正则化参数可在保证训练精度的情况下降低模型的复杂度。39.KNN算法更适合于（）的分类问题。A、重复时间B、稀有事件C、规则事件D、相近事件【正确答案】：B解析：

算法模型类题型—KNN算法40.在Windows系统中，关闭Python终端会话常用快捷键是（）。A、Ctrl+CB、Ctrl+DCtrl+ED、Ctrl+Z【正确答案】：D解析：

在Windows系统中，关闭Python终端会话常用快捷键是Ctrl+Z。41.当图像通过信道传输时，噪声一般与（）无关。A、信道传输的质量B、出现的图像信号C、是否有中转信道的过程D、图像在信道前后的处理【正确答案】：B解析：

当图像通过信道传输时,噪声一般与出现的图像信号无关,这种独立于信号的退化被称为加性噪声。信道传输质量、中转信道都会影响图像质量，而图像在信道前后的预处理和后处理也会产生噪声。42.关于岭回归,下列说法错误的是()。A、属于线性回归B、使用L2正规项C、使用L1正规项D、基于最小二乘法【正确答案】：C解析：

《机器学习》，清华大学出版社43.以下（）属于DMM（数据管理成熟度模型）中的关键过程域“数据战略”。A、数据战略制定B、业务术语表C、数据质量评估D、过程质量保障【正确答案】：A解析：

数据战略制定属于DMM（数据管理成熟度模型）中的关键过程域“数据战略”。44.多分类LDA将样本投影到N-1维空间，N-1通常远小于数据原有的属性数，可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的（）技术。A、无监督特征选择B、无监督降维C、监督特征选择D、监督降维【正确答案】：D解析：

多分类LDA将样本投影到N-1维空间，N-1通常远小于数据原有的属性数，可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。45.以下代码的输出结果为（）。importnumpyasnpa=np.array([[30,65,70],[80,95,10],[50,90,60]])print(np.median(axis=1))A、[[306570][809510][509060]]B、65.0C、[50.90.60.]D、[65.80.60.]【正确答案】：D解析：

每行求中位数。46.图像灰度方差说明了图像的哪一个属性（）。A、平均灰度B、图像对比度C、图像整体亮度D、图像细节【正确答案】：B解析：

方差反应图像的高频部分的大小；如果图片对比度小，那方差就小；如果图片对比度很大，那方差就大；方差=每个像素点的灰度值减去图像平均灰度值的平方和除以总的像素个数47.pyplot.pie()所画的图像是（）。A、箱线图B、折线图C、直方图D、饼图【正确答案】：D解析：

pyplot.pie()的作用是绘制饼图。48.在Python中，调用open()时需要将内容附加到文件末尾，而不是覆盖文件原来内容，则第二个实参应该使用（）。A、a'B、'g'C、'm'D、'w'【正确答案】：A解析：

'r'读模式、'w'写模式、'a'追加模式、'b'二进制模式、'+'读/写模式。49.有关深度学习加速芯片，以下的说法中不正确的是：（）。A、GPU既可以做游戏图形加速，也可以做深度学习加速B、用于玩游戏的高配置显卡，也可以用于深度学习计算。C、GoogleTPU已经发展了三代，它们只能用于推断（Inference）计算，不能用于训练（Training）计算D、FPGA最早是作为CPLD的竞争技术而出现的【正确答案】：C50.下面不属于创建新属性的相关方法的是：()A、特征提取B、特征修改C、映射数据到新的空间D、特征构造【正确答案】：B解析：

机器学习51.下列方法中，能够让所有单词的首字母变成大写的方法是（）。A、capitalizeB、titleC、upperD、Ijust【正确答案】：B解析：

capitalize()将字符串的第一个字母变成大写,其他字母变小写；upper()方法将字符串中的小写字母转为大写字母；ljust左对齐。52.ApacheSqoop主要设计目的是（）。A、数据清洗B、数据转化C、数据ETLD、数据可视化【正确答案】：C解析：

在Hadoop与传统的数据库之间进行数据的ETL操作。53.假设有5个大⼩为7x7、边界值为0的卷积核，同时卷积神经网络第一层的深度为1。此时如果向这一层传入一个维度为224x224x3的数据，那么神经网络下一层所接收到的数据维度是多少？A、218x218x5B、217x217x8C、217x217x3D、220x220x5【正确答案】：A54.下列常用模块功能描述错误的是（）。A、datetime：datetime对象不可将日期对象格式化为可读字符串的方法B、json：JSON(JavaScriptObjectNotation,JS对象标记)是一种轻量级的数据交换格式C、sys：这个模块可供访问由解释器使用或维护的变量和与解释器进行交互的函数D、scipy：应用广泛的科学计算包【正确答案】：A解析：

strftime()是datetime库将日期对象格式化为可读字符串的方法。55.TF-IDF中的TF是指（）。A、某个词在文档中出现的次数B、文章的总次数C、某个词在文档中出现的次数/文章的总次数D、以上答案都不正确【正确答案】：C解析：

TF意思是词频(TermFrequency)，表示某个词出现频率，也就是某个词在文档中出现的次数/文章的总次数56.神经网络训练过程中，一般会遇到停滞期，即神经网络在进入全局最小值之前陷入局部最小值。以下哪个策略可以避免上述情况？A、增加参数数量B、减少参数数量C、在开始时将学习率降低10倍D、改变几个时期的学习率【正确答案】：D57.将Python中的.py文件转换为.pyc文件的组件为（）。A、编辑器B、编译器C、虚拟机D、解释器【正确答案】：B解析：

将Python中的.py文件转换为.pyc文件的组件为编译器。58.（）算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。AprioriB、EMC、PCAD、PAC【正确答案】：A解析：

《大数据应用知识读本》，中国电力出版社59.树立数据是公司核心资产的理念，建立统一管理、分级负责的（）管理机制。A、数据B、安全C、资产D、统一【正确答案】：A解析：

阿里专有云用户指南及产品手册V_3_1460.如果需要训练的特征维度成千上万，在高维情形下出现的数据样本稀疏、距离计算困难。我们通过什么方法可以缓解这个问题（）。A、K均值算法B、支持向量机C、降维D、以上答案都不正确【正确答案】：C解析：

如果需要训练的特征维度成千上万，在高维情形下出现的数据样本稀疏、距离计算困难，可懂过降维降低特征维度。61.Spark比mapreduce快的原因不包括（）A、Spark基于内存迭代，而MapReduce基于磁盘迭代B、DAG计算模型相比MapReduce更有效率C、Spark是粗粒度的资源调度，而MR是细粒度的资源调度。D、Spark支持交互式处理，MapReduce善于处理流计算。【正确答案】：D解析：

A、B、C是Spark比mapreduce快的原因。MapReduce不善于处理除批处理计算模式之外的其他计算模式，如流计算、交互式计算和图计算等。62.执行如下代码：importtimeprint(time.time())以下选项中描述错误的是（）。A、time库是Python的标准库；B、可使用time.ctime()，显示为更可读的形式；C、time.sleep(5)推迟调用线程的运行，单位为毫秒；D、输出自1970年1月1日00:00:00AM以来的秒数；【正确答案】：C解析：

time模块的sleep()函数推迟调用线程的运行，单位为秒。63.下列代码中，表示删除空目录的是（）A、os.removeB、os.rmdirC、os.removedirD、os.rename【正确答案】：B解析：

《大数据应用知识读本》64.RNN不同于其他神经网络的地方在于(____)。A、实现了记忆功能B、速度快C、精度高D、易于搭建【正确答案】：A65.已知一个数据集，n为特征数，m为训练样本数，如果n较小，而且m大小中等（例如n在1-1000之间，而m在10-10000之间），则一般选择什么核函数的支持向量机（）。A、逻辑回归模型B、不带核的支持向量机C、高斯核的支持向量机D、多项式核的支持向量机【正确答案】：C解析：

高斯核函数需要选择合适的sigma^2参数，适用于少量特征，大量样本的情况，可以拟合出非常复杂的非线性决策边界。66.下列哪一种方法的系数没有封闭形式（closed-form）的解（）。A、Ridge回归B、LassoC、Ridge回归和LassoD、以上答案都不正确【正确答案】：B解析：

Ridge回归是一般的线性回归再加上L2正则项，它具有封闭形式的解，可以基于最小二乘法求解。67.关于K均值和DBSCAN的比较,以下说法不正确的是（）。A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇【正确答案】：A解析：

DBSCAN和K均值都是将每个对象指派到单个簇的划分聚类算法，但K均值一般聚类所有对象，而DBSCAN丢弃被它识别为噪声的对象。68.Spark可以处理的数据任务包括（）A、数据批处理任务；B、交互式处理任务；C、图数据处理任务；D、B和C；【正确答案】：D解析：

Spark可以很好地支持流计算、交互式处理、图计算等多种计算模式。69.DBSCAN算法的MinPts参数的意义是（）。A、数据点的邻域半径B、密度阈值C、高密度点距离阈值D、低密度点距离阈值【正确答案】：B解析：

DBSCAN算法的MinPts参数的意义是密度阈值。70.在MapReduce计算架构中，（）组件运行在DataNode上，具体管理本节点计算任务的执行。A、Client；B、JobTracker；C、TaskTracker；D、Task；【正确答案】：C解析：

TaskTracker组件运行在DataNode上，具体管理本节点计算任务的执行。71.（）是交叉验证法的一种特例。A、自助法B、留一法C、交叉验证法D、错误率分析【正确答案】：B解析：

留一法是交叉验证法的一种特例。72.下列关于AUC面积描述不正确的是_____。AUC被定义为ROC曲线下与坐标轴围成的面积B、AUC面积的值大于1C、AUC等于0.5时，则真实性最低，无应用价值D、AUC越接近1.0，检测方法真实性越高【正确答案】：B解析：

《数据挖掘_概念与技术》73.(____)应当为公安机关，国家安全机关依法爱护国家安全和侦查犯罪的活动提供技术支持和帮助。A、网络建设者B、网络建设者C、网络运营者D、网络使用者【正确答案】：C解析：

《中华人民共和国网络安全法》第28条74.如果要将读写位置移动到文件开头，需要使用的命令是（）。A、closeB、seek(0)C、truncateD、write('stuff')【正确答案】：B解析：

seek(0)指移动指针到0位置即开头。75.gensim库中（）是指一组电子文档的集合，这个集合是gensim的输入。A、结构B、主题C、文档流D、语料【正确答案】：D解析：

语料是文档的集合，也是gensim进行自然语言处理的输入。76.（）用于将非线性引入神经网络。它会将值缩小到较小的范围内。A、损失函数B、优化函数C、激活函数D、目标函数【正确答案】：C解析：

激活函数用于将非线性引入神经网络，它会将值缩小到较小的范围内。77.stats.describe()函数的作用是（）。A、计算变异系数B、计算数据集的样本偏度C、计算所传递数组的几个描述性统计信息D、计算关于样本平均值的第n个矩【正确答案】：C解析：

stats.describe用来计算所传递数组的几个描述性统计信息。78.以下不属于基于区域的图像分割方法的是（）。A、区域生长法B、分水岭算法C、大津算法D、基于图论的分割算法【正确答案】：C解析：

大津算法是基于图像灰度分布的图像分割方法。79.Scikit-Learn中（）可以实现评估回归模型。A、accuracy_scoreB、mean_squared_errorC、f1_scoreD、auc【正确答案】：B解析：

mean_squared_error均方误差是用来评估回归模型的指标，其他三个都是评估分类模型的指标。80.下列哪项关于模型能力（指神经网络模型能拟合复杂函数的能力）的描述是正确的A、隐藏层层数增加，模型能力增加B、Dropout的比例增加，模型能力增加C、学习率增加，模型能力增加D、都不正确【正确答案】：A81.open函数中，参数'wb'的含义是（）。A、创建并二进制只读B、创建并只写方式C、创建并二进制写入D、创建并追加方式【正确答案】：C解析：

open函数中，参数'wb'的含义创建并二进制写入。82.关于OLAP和OLTP的区别描述,不正确的是（）。A、OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同。B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务。C、OLAP的特点在于事务量大,但事务内容比较简单且重复率高。D、OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的【正确答案】：C解析：

OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，记录即时的增、删、改、查，比如在银行存取一笔款，就是一个事务交易。OLAP即联机分析处理，是数据仓库的核心部心，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。83.关于混合模型聚类算法的优缺点，下面说法正确的是（）。A、当簇只包含少量数据点，或者数据点近似协线性时，混合模型也能很好地处理B、混合模型很难发现不同大小和椭球形状的簇C、混合模型比K均值或模糊c均值更一般，因为它可以使用各种类型的分布D、混合模型在有噪声和离群点时不会存在问题【正确答案】：C解析：

K均值与模糊C均值，这两个方法都是迭代求取最终的聚类划分，即聚类中心与隶属度值。两者都不能保证找到问题的最优解，都有可能收敛到局部极值。模糊C均值是K均值方法的改进，算法的目标函数与K均值一致，区别在于目标函数中增加了模糊权重指数；GMM高斯混合模型聚类采用了新的判断依据--概率，即通过属于某一类的概率大小来判断最终的归属类别。84.信息熵是度量（）最常用的一种指标。A、样本的个数B、样本的维度C、样本的纯度D、样本的冗余度【正确答案】：C解析：

信息熵是度量样本纯度最常用的一种指标。85.数组允许批量计算而无须任何for循环，这种特性叫（）。A、矩阵化；B、便捷化；C、批量化；D、失量化；【正确答案】：D解析：

矢量化指Numpy可以直接面向数组进行批量计算，不需要对每个元素进行循环计算。86.在一个神经网络中，确定每一个神经元的权重和偏差是模型拟合训练样本的目标，比较有效的办法是()。A、根据人工经验随机赋值B、搜索所有权重和偏差的组合，直到得到最佳值C、赋予一个初始值，然后迭代更新权重，直至损失函数取得极小D、下一层神经元继承上一层神经元的权重和偏差【正确答案】：C87.国家保护公民、法人和其他组织依法使用网络的权利，促进网络接入普及，（），为社会提供安全、便利的网络服务，保障网络信息依法有序自由流动A、服务水平B、网络服务C、业务水平D、提升网络服务水平【正确答案】：D解析：

《中华人民共和国网络安全法》88.对于一组数据，我们应该如何将每个要素缩放到[-1，1]范围，而不会破坏稀疏性（）。A、使用preprocessing.MaxAbsScaler()方法B、使用preprocessing.LabelEncoder()方法C、使用preprocessing.maxabs_scale()方法D、使用preprocessing.MinMaxScaler()方法【正确答案】：C解析：

preprocessing.maxabs_scale()函数会将将每个要素缩放到[-1，1]范围，而不会破坏稀疏性。89.‏所谓高维数据，指的是A、数据对象很多B、数据属性很多C、以上都正确D、以上都错误【正确答案】：B解析：

数据挖掘:概念与技术90.在plt中通常的lw参数代表的作用是（）。A、线条的风格B、文字的颜色C、线条的宽度D、线条的透明度【正确答案】：C解析：

linewidth，线条宽度。91.下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素（）。A、多项式的阶数B、是否通过矩阵求逆或梯度下降学习权重C、使用常数项D、使用正则化【正确答案】：A解析：

选取合适的多项式阶数对于回归的拟合程度会产生重要的影响。多项式阶数越高，越容易产生过拟合现象。92.与传统机器学习方法相比，深度学习的优势在于（）。A、深度学习可以自动学习特征B、深度学习完全不需要做数据预处理C、深度学习完全不提取底层特征，如图像边缘、纹理等D、深度学习不需要调参【正确答案】：A93.下列（）算法更适合做时间序列建模。A、CNNB、决策树C、LSTMD、贝叶斯算法【正确答案】：C解析：

LSTM算法更适合做时间序列建模。94.a=np.arange(24).reshape(2,3,4)的输出结果为（）数据。A、一维B、二维C、三维D、四维【正确答案】：C解析：

在进行reshape操作后，数组维度为reshape参数个数，此处输出结果为三维数据。95.‏考虑两队之间的足球比赛：队0和队1。假设65%的比赛队0胜出，剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场，而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为A、0.75B、0.35C、0.4678D、0.5738【正确答案】：D解析：

数据挖掘:概念与技术96.在一些算法中，为了进行属性之间的比较或运算，需要把不同属性的不同变量取值范围变换成同一范围，以免使得结果发生扭曲，偏向取值范围大的变量。这一过程称为（）。A、合并B、数据聚合C、归一化D、数据处理【正确答案】：C解析：

归一化是一种无量纲处理手段，使物理系统数值的绝对值变成某种相对值关系。简化计算，缩小量值的有效办法。97.一幅灰度均匀分布的图像，其灰度范围在[0,255]，则该图像的信息量为（）。A、0B、6C、8D、255【正确答案】：C解析：

把255拆成二进制以后是11111111所以是8。98.BP神经网络具有很的表示能力，它经常遭遇（），其训练误差持续降低，但测试误差却可能上升。A、欠拟合B、误差过大C、误差过小D、过拟合【正确答案】：D解析：

由于其强大的表示能力,BP神经网络经常遭遇过拟合,其训练误差持续降低,但测试误差却可能上升。99.如何使用pyplot创建一个新图（）。A、pyplot.figimage()B、pyplot.figure()C、pyplot.figtext()D、pyplot.figlegend()【正确答案】：B解析：

figure()函数创建一个新图。100.关于数据产品，以下说法错误的是（）。A、数据产品的存在形式是数据集B、与传统物质产品不同的是，数据产品的消费者不仅限于人类用户.还可以是计算机以及其他软硬件系统C、数据产品不仅包括数据科学项目的最终产品，也包括其中间产品以及副产品D、数据产品开发涉及数据科学项目流程的全部活动【正确答案】：A解析：

数据产品的存在形式不仅限于数据集，还包括文档、知识库、应用系统、硬件系统、服务、洞见、决策或它们的组合。101.下列哪项关于模型能力（modelcapacity指神经网络模型能拟合复杂函数的能力）的描述是正确的（）A、隐藏层层数增加，模型能力增加B、Dropout的比例增加，模型能力增加C、学习率增加，模型能力增加D、都不正确【正确答案】：A解析：

Dropout比例增加，可能会丢失过多参数影响模型能力；学习率过大，梯度下降可能会越过最低点，无法收敛。102.ordinalencoder将属性转化为（）。A、独热编码B、附带特性的数字C、二进制编码D、ASCII码【正确答案】：B解析：

ordinalencoder的作用是数值化，但是不增加列数。103.有一个44x44x16的输入，并使用大小为5x5的32个卷积核进行卷积，步长为1，无填充（nopadding），输出是多少？（）A、39*39*32B、40*40*32C、44*44*16D、29*29*32【正确答案】：B解析：

《从小数据到大数据》104.Spark的集群管理模式不包含（）。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正确答案】：B解析：

Spark的集群管理主要有三种，分别为Standalone模式、YARN模式和Mesos模式。105.测一元正态分布中的离群点，属于异常检测中的基于（）的离群点检测。A、统计方法B、邻近度C、密度D、聚类技术【正确答案】：A解析：

数据科学实战106.[i**iforiinrange(3)]运行结果是（）。A、[1,1,4]B、[0,1,4]C、[1,2,3]D、(0,1,4)【正确答案】：A解析：

**表示乘方运算，该列表表达式指为[0**0,1**1,2**2]即为[1,1,4]107.缓解过拟合的一个办法是允许支持向量机在一些样本上出错，以下哪种形式适合这种方法（）。A、硬间隔支持向量机B、软间隔支持向量机C、线性核函数支持向量机D、多项式核函数支持向量机【正确答案】：B解析：

软间隔允许某些样本不满足约束，可缓解过拟合。108.（）是一种著名的密度聚类算法，它基于一组邻域参数来刻画样本的紧密程度。A、DBSCANB、原型聚类C、密度聚类D、层次聚类【正确答案】：A解析：

DBSCAN是一种著名的密度聚类算法，它基于一组邻域参数来刻画样本的紧密程度。109.若A与B是任意的两个事件，且P（AB）＝P（A）·P（B），则可称事件A与B（）。A、等价B、互不相容C、相互独立D、相互对立【正确答案】：C解析：

若A与B为互斥事件，则有概率加法公式P(A+B)=P(A)+P(B)，若A与B不为互斥事件，则有公式P(A+B)=P(A)+P(B)-P(AB)；若A与B为相互独立事件，则有概率乘法公式P(AB)=p(A)P(B)110.以下内容符合物体识别任务的是（）。A、不能对图像进行压缩或剪裁B、遵守误差最小准则和最佳近似准则C、可以不指定分类的类别数量D、事先给定样本的分布特征【正确答案】：B解析：

遵守误差最小准则和最佳近似准则为实现物体识别任务的最优化准则。111.任一随机事件出现的概率为（）A、在–1与1之间B、小于0C、不小于1D、在0与1之间【正确答案】：D解析：

如果没有其他的附加条件的话,一般概率p的取值范围是：0≤P≤1。0代表不可能发生,1代表一定会发生。112.对于列表ls的操作，以下选项中描述错误的是A、ls.append(x)：在ls最后增加一个元素B、ls.clear()：删除ls的最后一个元素C、ls.copy()：生成一个新列表，复制ls的所有元素D、ls.reverse()：列表ls的所有元素反转【正确答案】：B113.在支持向量机中，核函数的主要作用是(____)。A、将低维空间中线性不可分的数据映射到高维空间，使其线性可分B、将高维空间中线性不可分的数据映射到低维空间，使其线性可分C、将高维空间中线性可分的数据映射到低维空间，使其线性不可分D、将低维空间中线性可分的数据映射到高维空间，使其线性不可分【正确答案】：A114.关于Python内存管理，下列说法错误的是哪项（）。A、变量不必事先声明B、变量无须先创建和赋值而直接使用C、变量无须指定类型D、可以使用del释放资源【正确答案】：B解析：

Python变量需要事先声明并赋值才能使用。115.任何一个核函数都隐式地定义了一个（）空间。A、希尔伯特空间B、再生希尔伯特空间C、再生核希尔伯特空间D、欧式空间【正确答案】：C解析：

任何一个核函数都隐式地定义了一个再生核希尔伯特空间空间。116.Hbase的一个典型应用是webtable，它是一个以网页（）为主键的表。A、标题；B、URL；C、内容；D、类别；【正确答案】：B解析：

webtable中，以网页URL为主键。117.以下属于图像处理的常用方法有（）。A、图像变换B、图像编码压缩C、图像增强和复原D、以上答案都正确【正确答案】：D解析：

图像处理的常用方法包括图像变换，图像解码和压缩和图像增强和复原。118.以下不属于数据科学与统计学区别的是（）。A、数据科学中的数据不仅仅是数值B、数据科学关注的不仅仅是“单一学科”问题，超出了数学、统计学、计算机科学等单一学科的范畴C、数据科学不仅仅是理论研究，也不是纯领域实务知识，它关注和强调的是二者的结合D、数据科学和统计学中的计算一样，仅仅是加减乘除【正确答案】：D解析：

数据科学中的“计算”并不仅仅是加/减/乘/除等“数学计算”，而包括数据的查询、挖掘、洞见、分析、可视化等更多类型。119.随机森林中的随机是什么意思？A、随便构建树模B、随机选择一个树模型C、随机选择多个树模型D、在构建每个树模型时随机选择样本和特征【正确答案】：D120.下列论据中，能够支撑“大数据无所不能”的观点的是（）。A、互联网金融打破了传统的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧【正确答案】：A解析：

《大数据平台基础架构指南》121.Spark的Stage的Task的数量由什么决定__。A、PartitionB、JobC、StageD、TaskScheduler【正确答案】：A解析：

task是stage下的一个任务执行单元，一般来说，一个rdd中有多少个partition就有多少个task。122.DataFrame和RDD最大的区别是（）。A、科学统计支持B、多了schemaC、存储方式不一样D、外部数据源支持【正确答案】：B解析：

相比于RDD，DataFrame多了数据的结构信息，即schema123.请以下代码的输出结果为（）。importnumpyasnpx=np.array([3,1,2])y=np.argsort(x)print(y)A、[312]B、[120]C、[123]D、123【正确答案】：B解析：

np.argsort()返回从小到大排序的数组在原数组中对应的下标。124.下面哪个是SVM在实际生活中的应用？A、文本分类B、图片分类C、新闻聚类D、以上都对【正确答案】：D125.下面与HDFS类似的框架是（）A、NTFSB、FAT32C、GFSD、EXT3【正确答案】：C解析：

GFS也是分布式文件系统，谷歌自己的分布式文件系统.126.plt.scatter()函数中的参数c表示的含义是（）。A、x轴上的数值B、y轴上的数值C、散点图中的标记颜色D、标记图形内容的标签文件【正确答案】：C解析：

c是color关键字，指颜色。127.一位母亲记录了儿子3～9岁的身高，由此建立的身高与年龄的回归直线方程为y=7.19x+73.93，据此可以预测这个孩子10岁时的身高，则正确的叙述是（）。A、身高一定是145.83cmB、身高一定超过146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正确答案】：D解析：

回归直线方程预测时，出现的误差方向不能确定。128.（）选择成为支持向量机的最大变数。A、核函数B、样本空间C、模型D、算法【正确答案】：A解析：

在不知道特征映射的形式时，我们并不知道什么样的核函数是合适的，而核函数也仅是隐式地定义了这个特征空间.于是，核函数选择成为支持向量机的最大变数。129.CLOG日志缓冲区使用（）算法。A、FIFOB、LRUC、SLRUD、RANDOM【正确答案】：C130.下列说法错误的是（）。A、Map函数将输入的元素转换成<key,value>形式的键值对B、Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写C、不同的Map任务之间不能互相通信D、MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave【正确答案】：B解析：

大数据应用知识读本131.数组输出的原则是（）。A、从左到右，从下到上B、从左到右，从上到下C、从右到左，从下到上D、从右到左，从上到下【正确答案】：B解析：

数组输出时遵循以下原则：从左到右，从上到下，132.以下代码的输出结果为（）。np.concatenate([[[123][234]],[[345]]],axis=0)A、[[123][234][345]]B、[[123345][234]]C、[[123][234345]]D、[[123][234]]【正确答案】：A解析：

concatenate函数指定第0轴，即按行拼接。133.（）是人们从（多条）信息中发现的共性规律、模式、模型、理论和方法等。A、信息B、知识C、理解D、智慧【正确答案】：B解析：

知识上人们从数据、信息中发现的，在数据/信息中存在的共性规律、认识、经验与常识。通常根据能否清晰地表述和有效的转移，将知识分为两种：显性知识(ExplicitKnowledge)和隐性知识(TacitKnowledge)。134.下面哪行代码最适合接受系统输入的一个整数（）。A、num=input()B、num=input(“6”)C、num=int(input())D、num=float(input())【正确答案】：C解析：

AB输入后是字符串；C输入后是整数；D输入后是浮点数。135.plt.plot()函数的功能是（）。A、展现变量的趋势变化B、寻找变量之间的关系C、设置x轴的数值显示范围D、设置x轴的标签文本【正确答案】：A解析：

plot是折线图，用于展现变量的趋势变化。136.spark的master和worker通过什么方式进行通信的？A、httpB、nioC、nettyD、Akka【正确答案】：D137.在Spark中，（）是指RDD的每个分区都只被子RDD的一个分区所依赖。A、子分区B、父分区C、宽依赖D、窄依赖【正确答案】：D解析：

窄依赖定义。138.下面哪个程序负责HDFS数据存储（）A、NameNodeB、JobtrackerC、DatanodeD、secondaryNameNode【正确答案】：C解析：

Hadoop中namenode节点作为master节点，对集群进行管理；secondaryNameNode节点在于分担namenode的压力而设置；Jobtracker是为了跟踪作业运行的情况而设置的节点。139.Python中对变量描述错误的选项是：A、Python不需要显式声明变量类型，在第一次变量赋值时由值决定变量的类型B、变量通过变量名访问C、变量必须在创建和赋值后使用D、变量PI与变量Pi被看作相同的变量【正确答案】：D解析：

Python程序设计140.下列关于RNN说法正确的是(__)。A、RNN可以应用在NLP领域B、LSTM是RNN的一个变种C、在RNN中一个序列当前的输出与前面的输出也有关D、以上答案都正确【正确答案】：D解析：

RNN是一种人造神经网络，它通过赋予网络图附加权重来创建循环机制，以维持内部的状态。在拥有状态以后，便能在序列预测中明确地学习并利用上下文信息，如顺序或时间成分，因此RNN适用于自然语言处理。RNN中一个序列当前的输出与前面的输出有关。LSTM在RNN基础上进行了改进，能够学习到长期依赖关系，因此是RNN的一个变种。141.RNN不同于其它神经网络的地方在于(__)。A、实现了记忆功能B、速度快C、精度高D、易于搭建【正确答案】：A解析：

RNN不同于其它神经网络的地方在于实现了记忆功能。142.企业要建立预测模型，需要准备建模数据集，以下四条描述建模数据集正确的是（）。A、数据越多越好B、尽可能多的合适的数据C、训练集数据是建模集数据的一部分D、以上三条都正确【正确答案】：D解析：

《统计分析：从小数据到大数据》143.CRF（条件随机场）和HMM（隐马尔可夫模型）之间的主要区别是什么？A、CRF是生成式的，而HMM是判别式模型B、CRF是判别式模型，HMM是生成式模型。CRF和HMM都是生成式模型D、CRF和HMM都是判别式模型。【正确答案】：B144.能够直观显示出学习器在样本总体上的查全率、查准率的图是（）。A、ROC曲线B、误差曲线C、方差曲线D、P-R曲线【正确答案】：D解析：

能够直观显示出学习器在样本总体上的查全率、查准率的图是P-R曲线。145.从网络的原理上来看，结构最复杂的神经网络是（）。A、卷积神经网络B、长短时记忆神经网络C、GRUD、BP神经网络【正确答案】：B解析：

从网络的原理上来看，结构最复杂的神经网络是LSTM。146.MapReduce对map（）函数的返回值进行处理后再返回给reduce（）函数的目的是（）。A、减少map（）函数和reduce（）函数之间的数据传输B、优化map（）函数C、优化reduce（）函数D、这一步骤并无必要【正确答案】：A解析：

为了降低map（）函数与reduce（）函数之间的数据传输量，一般先对map（）函数的输出结果进行处理。147.可视化视觉下的数据类型不包括（）。A、定类数据B、定序数据C、定宽数据D、定比数据【正确答案】：C解析：

从可视化处理视角看，可以将数据分为4个类型：定类数据、定序数据、定距数据和定比数据，并采用不同的视觉映射方法。在可视化领域，对数据进行分类分析的目的在于不同类型的数据可支持的操作类型不同。148.可用作数据挖掘分析中的关联规则算法有（）。A、机器学习、对数回归、关联模式B、K均值法、SOM机器学习C、Apriori算法、FP-Tree算法D、RBF机器学习、K均值法、机器学习【正确答案】：C解析：

关联规则包括Apriori、FP-Tree等算法。149.回归问题和分类问题的区别是什么?A、回归问题与分类问题在输入属性值上要求不同B、回归问题有标签,分类问题没有C、回归问题输出值是连续的,分类问题输出值是离散的D、回归问题输出值是离散的,分类问题输出值是连续的【正确答案】：C解析：

机器学习150.下面选项正确的是（）。importnumpyasnpx=np.array([[1,2],[3,4]])y=np.linalg.inv(x)print(y)A、[[12][34]]B、[[-2.1.][1.5-0.5]]C、[[1.0.][2.1.]]D、以上答案均不正确【正确答案】：B解析：

linalg.inv()是矩阵求逆，输入与结果相乘为单位矩阵。1.常用的冲突消解策略有包括（）。A、投票法B、排序法C、元规则法D、调研法【正确答案】：ABC解析：

常用的冲突消解策略有包括：投票法，排序法，元规则法。2.HBase性能优化包含下面的哪些选项（）。A、读优化B、写优化C、配置优化D、JVM优化【正确答案】：ABCD解析：

HBase性能优化包含读优化、写优化、配置优化、JVM优化。3.下列的哪种方法可以用来降低深度学习模型的过拟合问题?A、增加更多的数据B、使用数据扩增技术(dataaugmentation)C、使用归纳性更好的架构D、正则化数据【正确答案】：ABCD4.HIS表色系的三属性包含：（）。A、色调B、色饱和度C、亮度D、色度【正确答案】：ABC解析：

HIS表色系包含色调，色饱和度和亮度。5.下列哪种服务可以用于存储数据（）。A、MapReduceB、YARNC、HBaseD、HDFS【正确答案】：CD解析：

MapReduce是计算模型；YARN是通用资源管理系统；HBase是动态模式数据库；HDFS是Hadoop分布式文件系统，是数据存储的基础。6.影响聚类算法效果的主要原因有：（）A、特征选取B、模式相似性测度C、分类准则D、已知类别的样本质量【正确答案】：ABC解析：

聚类算法是无监督的学习算法，训练样本的标记信息是未知的。7.假设目标遍历的类别非常不平衡，即主要类别占据了训练数据的99%，现在你的模型在训练集上表现为99%的准确度，那么下面说法正确的是：（）。A、准确度并不适合衡量不平衡类别问题B、准确度适合衡量不平衡类别问题C、精确度和召回率适合于衡量不平衡类别问题D、精确度和召回率不适合衡量不平衡类别问题【正确答案】：AC解析：

精确度和召回率适合于衡量不平衡类别问题，准确度并不适合衡量不平衡类别问题。8.下面属于范数规则化的作用的是（）和（）。A、保证模型尽可能的简单，避免过拟合B、约束模型特征C、最小化问题D、最大化问题【正确答案】：AB解析：

范数规则化的作用的是：保证模型尽可能的简单，避免过拟合、约束模型特征。9.可视分析学的几个特点包含（）A、强调数据到知识的转换过程B、强调可视化分析与自动化建模之间的相互作用C、强调数据映射和数据挖掘的重要性D、强调数据加工（DataWrangling或DataMunging）工作的必要性E、强调人机交互的重要性【正确答案】：ABCDE解析：

从可是分析学模型可以看出，可视分析学的流程具有如下特点：1）强调数据到知识的转换过程。可视化分析学中对数据可视化工作的理解发生了根本性变化——数据可视化的本质是将数据转换为知识，而不能仅仅停留在数据的可视化呈现层次之上。两种从数据到知识的转换途径：一是可视化分析，另一个是自动化建模。2）强调可视化分析与自动化建模之间的相互作用。二者的相互作用主要体现在：一方面，可视化技术可用于数据建模中的参数改进的依据；另一方面，数据建模也可以支持数据可视化活动，为更好地实现用户交互提供参考。3）强调数据映射和数据挖掘的重要性。从数据到知识转换的两种途径——可视化分析与自动化建模分别通过数据映射和数据挖掘两种不同方法实现。因此，数据映射和数据挖掘技术是数据可视化的两个重要支撑技术。用户可以通过两种方法的配合使用实现模型参数调整和可视化映射方式的改变，尽早发现中间步骤中的错误，进而提升可视化操作的信度与效度。4）强调数据加工工作的必要性。数据可视化处理之前一般需要对数据进行预处理（转换）工作，且预处理活动的质量将影响数据可视化效果。5）强调人机交互的重要性。可视化过程往往涉及人机交互操作，需要重视人与计算机在数据可视化工作中的互补性优势。因此，人机交互以及人机协同工作也将成为未来数据可视化研究与实践的重要手段。10.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体，包括（）。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正确答案】：ABCD解析：

可以将MapReduce的工作流程概括为4个独立的实体①客户端，用来提交MapReduce的作业。编写MapReduce程序，配置作业，提交作业，程序员完成的工作。②JobTracker，用来协调作业的运行。与TaskTracker通信，协调整个作业的执行③TaskTracker，用来处理作业划分后的任务。保持与JobTracker的通信，在分配的数据片段上执行Map或Reduce任务，TaskTracker和JobTracker的不同有个很重要方面，就是在执行任务时候TaskTracker可以有n多个，JobTracker则只会有一个④HDFS，用来在其他实体间共享作业文件。保存作业的数据、配置信息等等，最后的结果也是保存在hdfs上面。11.回归分析有很多种类，常见的有（）。A、线性回归B、系数回归C、逻辑回归D、曲线回归【正确答案】：ACD解析：

常见的回归分析有线性回归，逻辑回归和曲线回归。12.下列不属于聚类性能度量内部指标的是（）。A、DB指数B、Dunn指数C、Jaccard系数D、FM系数【正确答案】：CD解析：

聚类常用的外部指标包括：Jaccard系数、FM指数、Rand指数；聚类常用的内部指标包括：DB指数、Dunn指数。13.下面是文件基本操作的函数（）。A、closeB、readC、renameD、remove【正确答案】：ABCD解析：

下面是文件基本操作的函数close、read、rename、remove。14.下面哪些是基于核的机器学习算法(__)。A、最大期望算法B、径向基核函数C、线性判别分析法D、支持向量机【正确答案】：BCD解析：

SVM（可支持向量机），KFD（基于核的Fisher判别分析），KPCA（核成分分析）。径向基函数核（RadialBasisFunction,RBFkernel），也被称为高斯核（Gaussiankernel）或平方指数核（SquaredExponential.,SEkernel）[1]，是常见的核函数（kernelfunction）。RBF核被应用各类核学习（kernellearning）算法中，包括支持向量机（SupportVectorMachine,SVM）、高斯过程回归（GaussianProcessRegression,GPR）等。15.长短时记忆神经网络三个门是(____)。A、进化门B、输出门C、输入门D、遗忘门【正确答案】：BCD16.常见的核函数主要包括（）。A、多项式核B、高斯核C、线性核D、拉普拉斯核E、Sigmoid核【正确答案】：ABCDE解析：

上述都是常见的核函数。17.下面哪些情况可能导致神经网络训练失败。A、梯度消失B、梯度爆炸C、激活单元死亡D、鞍点【正确答案】：ABCD18.Python变量命名规则（）。A、变量名只能包含字母、数字和下划线。变量名可以字母或下划线开头，但不能以数字开头，例如，可将变量命名为message_1，但不能将其命名为1_message。B、变量名不能包含空格，但可使用下划线来分隔其中的单词。例如，变量名greeting_message可行，但变量名greetingmessage会引发错误。C、不要将Python关键字和函数名用作变量名，即不要使用Python保留用于特殊用途的单词，如print。D、变量名应既简短又具有描述性。例如，name比n好，student_name比s_n好，name_length比length_of_persons_name好。【正确答案】：ABCD解析：

Python变量名只能包含字母、数字和下划线，但不能以数字开头，避免使用关键字，变量名应既简短又具有描述性。19.下列哪些指标可以用来评估线性回归模型（多选）（）A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正确答案】：ABCD解析：

R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指标均可以评估线性回归模型。20.以下（）属于数据统计分析工具。A、WekaB、SASC、SPSSD、Matlab【正确答案】：ABCD解析：

常用统计软件的种类，包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Statistica、Eviews。（共36题）21.ETL包含下列哪些过程（）A、数据抽取B、数据转换C、数据加载D、数据展现【正确答案】：ABC解析：

ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。22.ETL技术主要涉及（）操作。A、抽取B、转换C、加载D、分析【正确答案】：ABC解析：

抽取（extract）、转换（transform）、加载（load）23.关于降维说法正确的是（）。A、PCA是根据方差这一属性降维的B、降维可以防止模型过拟合C、降维降低了数据集特征的维度D、降维方法有PCA等【正确答案】：ACD解析：

降维不能用于防止模型过拟合。24.以下关于数据维度的描述，正确的是（）。A、采用列表表示一维数据，不同数据类型的元素是可以的B、JSON格式可以表示比二维数据还复杂的高维数据C、二维数据可以看成是一维数据的组合形式D、字典不可以表示二维以上的高维数据【正确答案】：ABC解析：

字典可以表示二维以上的高维数据。25.长短时记忆神经网络三个门是哪些（）A、进化门B、输出门C、输入门D、遗忘门【正确答案】：BCD解析：

LSTM拥有三个门(输入门,遗忘门,输出门),来保护和控制细胞状态。（共4题）26.数据科学项目主要涉及的活动包括（）。A、模式/模型的应用及维护B、模式/模型的洞见C、结果的可视化与文档化D、模式/模型的验证和优化【正确答案】：ABCD解析：

数据科学项目是由从“项目目标的定义”到“模式/模型的应用及维护”的一系列双向互联的互动链条组成的循序渐进的过程，主要涉及的活动包括：项目目标的定义、数据的获得与管理、模式/模型的洞见、模式/模型的验证和优化和模式/模型的应用及维护27.以下现象属于过拟合的是A、训练集Loss下降，验证集loss不变B、训练集Loss下降，验证集loss上升C、训练集Loss上升，验证集loss.上升D、训练集Loss下降，验证集loss下降【正确答案】：AB28.若b=np.array([True,False,False])，以下能输出[FalseTrueTrue]的是（）。A、print(b-1)B、print(~b)C、print(np.logical_not(b))D、print(>>b)【正确答案】：BC解析：

数组分别逻辑取反的两种方式，可以使用np.logical_not()函数或者直接用取反符号~。29.关于Pig的说法正确的是（）。A、Pig的主要目的是弥补MapReduce编程的复杂性B、Pig的核心是一种数据分析语言C、Pig程序的结构适合于串行处理D、Pig主要包含PigLatin和Pig执行环境两部分【正确答案】：ABD解析：

Pig程序的结构适合于并行处理。30.下列既可以用于分类，又可以用于回归的机器学习算法有：A、k近邻B、逻辑回归C、决策树D、线性回归【正确答案】：AC解析：

逻辑回归只用于分类，线性回归只用于回归。31.RNN在NLP领域的应用包括(__)。A、语言模型与文本生成B、机器翻译C、语音识别D、图像描述生成【正确答案】：ABCD解析：

语言模型与文本生成;机器翻译;语音识别;图像描述生成;情感分析；对话系统等。32.特征选择在子集生成与搜索方面引入了（）人工智能搜索和评价方法。A、分支界限法B、浮动搜索法C、信息熵D、AIC【正确答案】：ABCD解析：

特征选择在子集生成与搜索方面引入了很多人工智能搜索技术，如分支界限法，浮动搜索法等；在子集评价方法则采用了很多源于信息论的准则，如信息熵、AIC等。33.下面是Numpy支持的统计函数有（）。A、minB、maxC、medianD、mean【正确答案】：ABCD解析：

这些都是Numpy支持的统计函数。34.训练CNN时，GPU显存溢出，此时可以采取什么办法（）A、减少mini_batch大小B、移除一些卷积层C、减少图片输入大小D、增加激活函数【正确答案】：ABC解析：

D:反而会加重负担。35.LSTM应用场景应用场景有哪些（）A、翻译语言B、语音识别C、图像识别D、股票预测【正确答案】：ABD解析：

C:CNN应用于图像识别。36.下面有关HTML叙述正确的是（）。A、一个HTML文件可以用记事本来编辑B、HTML的意思是超文本标记语言C、一个HTML文件必须是一个以htm或html为扩展名的文件D、HTML区分大小写,如<b>写成<B>是错误的【正确答案】：ABC解析：

在HTML文件是不区分大小写的。37.相对于HadoopMapReduce，Spark有什么好处（）。A、通用性；B、易用性；C、速度快；D、容错性；【正确答案】：ABC解析：

相对于HadoopMapReduce，Spark的特点包括速度快、通用性和易用性。38.为什么RNN网络的激活函数要选用双曲正切而不是sigmod呢（）A、使用sigmod函数容易出现梯度消失B、sigmod的导数形式较为复杂C、双曲正切更简单D、sigmoid函数实现较为复杂【正确答案】：AB解析：

第一，采用sigmoid等函数，反向传播求误差梯度时，求导计算量很大，而Relu求导非常容易。第二，对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0），从而无法完成深层网络的训练。39.决策树的划分选择有（）。A、增益系数B、信息增益C、增益率D、基尼系数【正确答案】：BCD解析：

决策树的划分选择有信息增益，增益率，基尼系数。40.线性模型的基本形式有（）。A、线性回归B、对数几率回归（二分类问题）C、线性判别分析（Fisher判别分析）D、多分类学习【正确答案】：ABCD解析：

线性模型的经典模型有：线性回归，对数几率回归（二分类问题），线性判别分析（Fisher判别分析），多分类学习。41.下列关于探索型数据分析常用图表的说法，正确的有：A、绝大部分情况下使用饼图代替条形图能更加直观地展示数据之间的特征和对比B、探索型数据分析常用的图表包括条形图、直方图、饼图、折线图、散点图、箱型图等C、在探索型数据分析时应该尽量避免使用饼图，然而在数据报告中可以使用饼图达到更加美观的效果D、直方图和箱型图都可以用来展示数据的分布情况【正确答案】：BCD解析：

数据之间的特征和对比使用条形图可更加直观的展示数据。42.下列关于RNN、LSTM、GRU说法正确的是(__)。A、RNN引入了循环的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的变体D、RNN、LSTM、GRU是同一神经网络的不同说法，没有区别【正确答案】：ABC解析：

RNN:循环神经网络，是非线性动态系统，将序列映射到序列;LSTM：LSTM通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是LSTM的默认行为，而非需要付出很大代价才能获得的能力

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

工匠杯练习试题附答案

文档简介

温馨提示

最新文档

评论

工匠杯练习试题附答案

文档简介

温馨提示

最新文档

评论

相关文档