2024年数据价值挖掘技能竞赛考试题库大全-上（单选题）

上传人：浪*** IP属地：河北上传时间：2024-10-04 格式：PDF 页数：195 大小：34.22MB 积分：12 举报 版权申诉

已阅读5页，还剩190页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2024年数据价值挖掘技能竞赛考试题库大全-上(单选题汇

总)

一、单选题

1.平滑图像处理可以采用RGB彩色()模型。

A、直方图均衡化

B、直方图均衡化

C、加权均值滤波

D、中值滤波

答案：C

2.()是指对于数据局部不良行为的非敏感性，它是探索性分析追求的主要目标

之一。

A、鲁棒性

B、稳定性

C、可靠性

D、耐抗性

答案：D

3.对Python的sys模块常用方法的描述,错误的是()。

A、sys.argv命令行参数List,第一个元素是程序本身路径

B、sys.moduIes.keys)返回所有字典中的keys

C、sys.exc_info)获取当前正在处理的异常类

D\sys.exit(n)退出程序

答案：B

4.对于PCA处理后的特征，其朴素贝叶斯特征相互独立的假设一定成立，因为所

有主成分都是正交的，所以不相关。这句话()。

A、正确

B、错误

C、-

D、-

答案：B

5.pynlpir是一种常用的自然语言理解工具包，其中进行分词处理的函数是()。

A、open()

B\segment()

C、AddllserWord()

D\generate()

答案：B

6.在matplotlib中，以下关于绘图标准流程说法错误的是()。

A、绘制最简单的图形可以不用创建画布

B、添加图例可以在绘制图形之前

C、添加x轴、y轴的标签可以在绘制图形之前

D、修改x轴标签、y轴标签和绘制图形没有先后

答案：B

7.使用似然函数的目的是()。

A、求解目标函数

B、得到最优数据样本

C、找到最适合数据的参数

D、改变目标函数分布

答案：C

8.假设我们使用原始的非线性可分版本的Soft-SVM优化目标函数。我们可通过

（）来保证得到的模型是线性可分离的。

A、C=0

B、C=1

C、正无穷大

D\C负无穷大

答案：C

9.线性回归的基本假设不包括（）。

A、随机误差项是一个期望值为0的随机变量

B、对于解释变量的所有观测值，随机误差项有相同的方差

C、随机误差项彼此相关

D、解释变量是确定性变量不是随机变量，与随机误差项之间相互独立

答案：C

10.随机森林与Bagging中基学习器多样性的区别是（）。

A、都来自样本扰动

B、都来自属性扰动

C、来自样本扰动和自属性扰动

D、多样本集结合

答案：c

11.过滤式特征选择与学习器()，包裹式特征选择与学习器()。

A、相关，相关

B、相关，不相关

C、不相关，相关

D、不相关，不相关

答案：C

12.以下代码的输出结果为()。

A、[012345678]

B、[array([0,1,2]),array([3,4,5]),array([6,7,8])]

C\[array([0,1,2,3]),array([4,5,6]),array([7,8])]

D、没有正确答案

答案：B

13.在MapReduce计算架构中，()组件运行在DataNode上，具体管理本节点计

算任务的执行。

A、Client

B\JobTracker

C、TaskTracker

D\Task

答案：C

14.假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模

型，训练所用的数据集由汽车和卡车的照片构成，而训练目标是检测出每种车辆

的名称（车辆共有10种类型）。现在想要使用这个模型来解决另外一个问题，

问题数据集中仅包含一种车（福特野马）而目标变为定位车辆在照片中的位置,

则应采取的方法是（）。

A、除去神经网络中的最后一层，冻结所有层然后重新训练

B、对神经网络中的最后几层进行微调，同时将最后一层（分类层）更改为回归

层

C、使用新的数据集重新训练模型

D、所有答案均不对

答案：B

15.scipy库中用于物理和数学常量计算的模块是（）。

A、scipy.cIuster

B、scipy.io

C、scipy.constants

D、scipy.IinaIg

答案：c

16.下列关于文本分类的说法不正确的是（）。

A、文本分类是指按照预先定义的主题类别，由计算机自动地为文档集合中的每

个文档确定一个类别

B、文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统

C、文本的向量形式一般基于词袋模型构建，该模型考虑了文本词语的行文顺序

D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤

答案：C

17.图像平滑会造成（）。

A、图像边缘模糊化

B、图像边缘清晰化

C、无影响

D、以上答案都不正确

答案：A

18.数据产品开发工作之中需要特别注意的基本活动不包括（）。

A、创造性设计

B、数据洞见

C、虚拟化

D、个性化描述

答案：D

19.数据仓库是随着时间变化的，下面的描述不正确的是（）。

A、数据仓库随时间的变化不断增加新的数据内容

B、捕捉到的新数据会覆盖原来的快照

C、数据仓库随事件变化不断删去旧的数据内容

D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行

重新综合

答案：C

20.（）与HDFS类似。

A、NTFS

B、FAT32

C\GFS

D、EXT3

答案：C

21.设计为8层的卷积神经网络AlexNet网络成功使用（）函数，其效果远远地

超过了Sigmoid函数。

A、ReLU函数

B、sigmoid函数

Gtanh函数

Dvsin函数

答案：A

22.选择神经网络的深度时，对于下面参数：①神经网络的类型（如MLP,CNN）；

②输入数据；③计算能力（硬件和软件能力决定）；④学习速率；⑤映射的输出

函数，需要考虑的是（）。

A、①②③④

B、②③④⑤

C、都需要考虑

D、①③④⑤

答案：C

23.（）属于SVM应用。

A、文本和超文本分类

B、图像分类

C、新文章聚类

D、以上均是

答案：D

24.有数组n=np.arange(24).reshape(2,-1,2,2),np.shape的返回结果是

()。

A、(2,3,2,2)

B、(2,2,2,2)

C、(2,4,2,2)

D、(2,6,2,2)

答案：A

25.下列关于分词的说法正确的是()。

A、中文中句'字之间没有空格，无法分词

B、一个句子的分词结果是唯一的

C、中文分词是将一系列无空格间隔字符串分割成一系列单词的过程

D、分词没有实际应用价值

答案：C

26.运行下面的代码，输出结果是()。

A、-2

B、2

C\不确定

D、3

答案：C

27.HBase使用一个。节点协调管理一个或多个RegionServer从属机。

A、NameNode

B、DataNode

CvJobTracker

DvMaster

答案：D

28.对于数据3,3,2,3,6,3,10,3,6,3,2.,得出以下结论：①这组数

据的众数是3；②这组数据的众数与中位数的数值不相等；③这组数据的中位数

与平均数的数值不相等；④这组数据的平均数与众数的数值相等.。其中正确结

论的个数为（）。

A、1

B、2

C、3

D、4

答案：B

29.geoplot是（）库和（）库的扩展。

A、cartopy和seaborn

B\seaborn和matpIotIib

C\artopymatplotiib

D、matpIotIib和ggpIot2

答案：C

30.pyplot.pie）所画的图像是O。

A、箱线图

B、折线图

C、直方图

D、饼图

答案：D

31.下面哪个是针对下列程序，满足期望输出的代码是（）。

A、rr%2==1

B\arr[arr%2==1]

C、arr[arr/2==1]

D\arr[arr//2==1]

答案：B

32.随着集成中个体分类器（相互独立）数目T的增大，集成的错误率将呈（）

下降，最终趋向于零。

A、指数级

B、对数级

C、线性级

D、平方级

答案：A

33.以下处理能获得像素级标注的是（）。

A、图像分类

B、物体检测

C、图像去噪

D、语义分割

答案：D

34.对分类任务来说，学习器从类别标记集合中预测出一个标记，最常见的结合

策略是（）。

A、投票法

B、平均法

C、学习法

D、排序法

答案：A

35.假设你在卷积神经网络的第一层中有5个卷积核，每个卷积核尺寸为7X7,

具有零填充且步幅为1。该层的输入图片的维度是224X224X3。那么该层输出

的维度是（）。

A、217x217x3

B、217x217x8

C、218x218x5

D、220x220x7

答案：C

36.以下属于图像处理的常用方法有（）。

A、图像变换

B、图像编码压缩

C、图像增强和复原

D、以上答案都正确

答案：D

37.下列关于TF-IDF说法正确的是()。

A、该值与特征项在文档中出现的频率成反比

B、该值与特征项在文档中出现的频率成正比

C、该值与在整个语料库中出现该特征项的文档库成正比

D、该值与特征项在文档中出现的频率无关

答案：B

38.在matplotlib中，在当前图形上添加一个子图需要用到哪个的方法是()。

A、pIt.stackpIot)

B\p11.supti11e)

C\p11.subpIot)

D\p11.imshow)

答案：C

39.()的本质是将低层次数据转换为高层次数据的过程。

A、数据处理

B、数据计算

C、数据加工

D、整齐数据

答案：C

40.()是指为最小化总体风险，只需在每个样本上选择能使特定条件风险最小

的类别标记。

A、支持向量机

B、间隔最大化

C、线性分类器

D、贝叶斯判定准则

答案：D

41.Numpy.array数组的简称是（）。

A、rray

B、nparray

C、Ndarray

Dvpyarray

答案：c

42.以下代码的输出结果为（）。

A、[101001000]

B、[100100001000000]

G[123]

D、[10100001000000000]

答案：B

43.（）是基于规则的分类器。

A、C4.5

B、KNN

C\NaiveBayes

D、ANN

答案：A

44.一切皆可连，任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维

度中的（）。

A、定量思维

B、相关思维

C、因果思维

D、检验思维

答案：B

45.属于深度学习框架的是（）。

A、TensorfIow

B、Caffe

C、PyTorch

D、以上答案都正确

答案：D

46.下面代码print（0.1+0.2==0.3）的输出结果是（）。

A、TRUE

B、FALSE

GTRUE

D、FALSE

答案：B

47.列表中可以放多少（）个字符串（）。

A、1

B、255

C、无限个

D、由用户自己定义

答案：C

48.关于Hive说法正确的是（）。

A、一种数据仓库

B、一种数据处理工具

C、一种可视化工具

D、一种分析算法

答案：A

49.Numpy中确定随机数生成种子使用以下哪个的函数是。。

A、np.random）

B、np.random,seed）

C\np.uniform）

D\np.eig）

答案：B

50.随机森林中的随机是指（）。

A、随便构建树模

B、随机选择一^树模型

C、随机选择多个树模型

D、在构建每个树模型时随机选择样本和特征

答案：D

51.客户端从HDFS上读取数据时会（）。

A\从NameNode上获取数据

B、从DataNode上获取BIock位置

C\从NameNode上获取BIock位置

D、从NameNode上获取数据和Block位置

答案：C

52.（）是表示数据分布是否为对称性的统计量。

A、方差

B、中位数

C、偏态

D、峰态

答案：C

53.下列关于Python全局变量和局部变量的描述，不正确的是（）。

Avlocal关键字用于定义局部变量，global关键字用于定义全局变量

B、关键字local定义的变量仅在该函数内可见

C、关键字global定义全局变量时必须自成一行

D、nonlocal变量不可以在内嵌函数中使用

答案：D

54.以下关于Python模块理解错误的有（）。

A、模块是包含函数和变量的Python文件

B、不可以使用.操作符访问模块中的函数和变量

C、可以导入模块中的所有类

D、可以在一个模块中导入另一个模块

答案：B

55.MapReduce默认的分区函数是（）。

A、hash

B、disk

C、reduce

D、map

答案：A

56.下面算法中属于图像锐化处理的是（）。

A、低通滤波

B、加权平均法

C、局通滤波

D、中值滤波

答案：C

57.在Hadoop生态系统中，（）可以将结构化的数据文件映射成一张数据库表,

并提供简单的查询语言。

A、Pig

B、HBase

C、Hive

D、MapReduce

答案：c

58.在Iinux下预装了Python2,、Python3且默认Python版本为Python3,下

列描述可以正确启动Python有的是（）o

Ax在Iinux应用程序TerminaI，打开一个终端窗口。输入whichPython

B、在Iinux应用程序TerminaI,打开—个终端窗口。输入Python2或Python3

G在Iinux应用程序TerminaI,打开—个终端窗口。输入whichPython3

D、在Iinux应用程序Terminal,打开一^个终端窗口。输入输入whichPython2

答案：B

59.关于Hive说法正确的是()。

A、一种数据仓库

B、一种数据处理工具

C、一种可视化工具

D、一种分析算法

答案：A

60.MapReduce编程模型，键值对Vkey,vaIue＞的key必须实现哪个接口()。

A、WritabIeComparabIe

B、ComparabIe

C、WritabIe

DvLongWritabIe

答案：A

61.a=np.array([1,0,0,3,4,5,0,8]),b=np.nonzero(a),则

A、[0,3,4,5,7]

B、[1,3,4,5,81

G[03457]

D、[13458]

答案：A

62.数据集成的基本类型是（）。

A、内容集成,结构集成

B、内容集成、规约集成

C、规约集成、结构集成

D、模式集成、结构集成

答案：A

63.下列（）不属于StatsmodeIs模块的主要特点的是（）。

A、线性模型

B、方差分析

C、时间序列

D、插值运算

答案：D

64.对模型进行交叉验证可以使用以下哪种（）方法（）。

A、Iearning_curve）

B、cross_val_score）

C\permutation_test_score

D、vaIidation）

答案：B

65.matplotIib中的step函数绘制的是什么图（）。

A、阶梯图

B\直方图

C、间断条形图

D、堆积折线图

答案：A

66.事务对数据对象加锁后拥有何种控制权是由封锁的（）决定的。

A、状态

B、类型

C、数量

D、属性

答案：B

67.下列不属于Action操作的是（）□

A、colIect

B、fiIter

C\reduce

D、count

答案：B

68.Spark核心层主要关注（）问题。

A、存储

B、计算

C、传输

D、连接

答案：B

69.下列关于表述数据可视化在数据科学中重要地位说法中，下列不正确的是（）。

A、视觉是人类获得信息的最主要途径

B、数据可视化处理可以洞察统计分析无法发现的结构和细节

C、数据可视化处理结果的解读对用户知识水平的要求较高

D、可视化能够帮助人们提高理解与处理数据的效率

答案：C

70.K折交叉验证器是以下哪个（）方法（）。

A、model_seIection.GroupKFoId）

B、model_seIection.GroupShuffIeSpIit）

C、model_seIection.KFoId）

D、model_seIection.RepeatedKFoId）

答案：C

71.数据仓库的最终目的是（）。

A、收集业务需求

B、建立数据仓库逻辑模型

C、开发数据仓库的应用分析

D、为用户和业务部门提供决策支持

答案：D

72.设置图的标题的命令是（）。

A、pit.textA标题,）

B、pit.legend（'标题,）

C\p11.xticks（'标题’）

D、pit.titIe（‘标题’）

答案：D

73.一位母亲记录了儿子3~9岁的身高，由此建立的身高与年龄的回归直线方程

为y=7.19x+73.93,据此可以预测这个孩子10岁时的身高，则正确的叙述是（）。

A、身高一定是145.83cm

B、身高一定超过146.00cm

C\身高一定高于145.00cm

D\身高在145.83cm左右

答案：D

74.以下选项中哪个不属于数据预处理的方法（）。

A、数据清洗

B、数据集成

C、数据变换

D、数据统计

答案：D

75.如果只写open（filename）,那就是用（）模式打开。

A、r

B、w

C\a

D、b

答案：A

76.以下选项中，正确地描述了浮点数0.0和整数0相同性的是（）。

A、它们使用相同的硬件执行单元

B、它们具有相同的数据类型

C、它们具有相同的值

D、它们使用相同的计算机指令处理方法

答案：C

77.以下关于模块说法错误的是()。

A、—个xx.py就是一个模块；

B、任何一个普通的xx.py文件可以作为模块导入；

C、模块文件的扩展名不一定是.py；

D、运行时会从指定的目录搜索导入的模块，如果没有，会报错异常

答案：C

78.np.setdiff1d(Ndarrayl,Ndarray2)函数的作用是()。

A、返回二者的交集并排序

B、返回二者的并集并排序

C、返回二者的差集

D、返回二者的对称差

答案：C

79.关于eval函数，以下选项中描述错误的是()。

A、eval函数的作用是将输入的字符串转为Python语句，并执行该语句

B、如果用户希望输入一个数字，并用程序对这个数字进行计算，可以采用eval

(input(〈输入提示字符串》)组合

G执行eval("Hello")和执行evaI("'HeIIo'")得到相同的结果

D、evaI函数的定义为：evaI(source,gIobaIs=None,IocaIs=None,/)

答案：c

80.以下代码的输出结果为（）。

A、[[0,2,3],[4,6,7],[8,10,11],[12,14,15]]

B、[[0,1,2,31,[8,9,10,11],[12,13,14,15]]

G[[0,1,2,31,[4,5,6,7],[8,9,10,11],[12,13,14,15]]

D、[[1,2,3],[5,6,7],[9,10,11],[13,14,15]]

答案：C

81.Matplotlib的核心是面向（）。

A、过程

B、对象

C、结果

D、服务

答案：B

82.在Python中，函数（）。

A、不可以嵌套定义

B、不可以嵌套调用

C、不可以递归调用

D、以上答案都不正确

答案：D

83.在Iinux下预装了Python2,、Python3且默认Python版本为Python3,下

列描述可以正确启动Python有的是（）。

A、在Iinux应用程序TerminaI,打开—个终端窗口。输入whichPython

B\在Iinux应用程序TerminaI,打开—终端窗口。输入Python2或Python3

C、在Iinux应用程序TerminaI,打开—个终端窗口。输入whichPython3

D,在Iinux应用程序TerminaI,打开—终端窗口。输入输入whichPython2

答案：B

84.HadoopMapReduce2.0中，（）负责资源的管理和调度。

A、JobTracker

B、YARN

C、TaskTracker

D\AppIicationMaster

答案：B

85.AGNES是一种采用（）策略的层次聚类算法。

A、自顶向下

B、自底向上

C、自左至右

D、自右至左

答案：B

86.标准BP算法的目标是使训练集上的（）最小。

A、累积方差

B、累积误差

C、累积协方差

D、累积偏差

答案：B

87.大数据涌现现象的形式有多种，不属于大数据涌现形式的是()。

A、价值涌现

B、隐私涌现

C、物质涌现

D、质量涌现

答案：C

88.下列算法中，()更适合做时间序列建模。

A、CNN

B、决策树

C、LSTM

D、贝叶斯算法

答案：C

89.Hadoop中partition()函数代表的是()。

A、分区函数

B、特征函数

C、算法函数

D、排序函数

答案：A

90.针对以下数组，下面哪个选项可以获取两个PythonNumpy数组之间的公共项

的是()。

A、intersectld(a,b)

B、np.intersectld(a,b)

C\np.interset(a,b)

D、np.intersectld(a)

答案：B

91.美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标

明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。

A、在数据基础上倾向于全体数据而不是抽样数据

B、在分析方法上更注重相关分析而不是因果分析

C、在分析效果上更追究效率而不是绝对精确

D、在数据规模上强调相对数据而不是绝对数据

答案：B

92.在scipyScipy中，想要生成20个服从正态分布的随机数使用以下哪个函数

()。

A、stats,uniform,rvs(size=20)

B、stats,norm,rvs(size=20)

C\stats,beta,rvs(size=20)

D、stats,poisson.rvs(size=20)

答案：B

93.数据的原始内容及其备份数据，是数据产品的研发的哪个阶段()。

A、零次数据

B、一次数据

C、二次数据

D、采集数据

答案：A

94.多分类LDA将样本投影到N-1维空间，N-1通常远小于数据原有的属性数，

可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA

也常被视为一种经典的（）技术。

A、无监督特征选择

B、无监督降维

C、监督特征选择

D、监督降维

答案：D

95.0算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生

成和检测两个阶段来挖掘频繁项集。

Avpriori

B、EM

C、PCA

D、PAC

答案：A

96.以下代码的输出结果为（）。

A、[[1074][321]]

B、3.5

G[6.54.52.5]

D、[7.2.]

答案：B

97.scipyScipy通常与下列哪个库（）同时使用（）。

A、pandas

B、scikit-learn

C、Numpy

D、jieba

答案：c

98.数据使用环节的安全技术措施除防火墙、（）、防病毒、防DDOS、漏洞检测

等网络安全防护技术措施外，还需实现以下安全技术能力：账号权限管理、数据

安全域、数据脱敏、日志管理和审计、异常行为实时监控和终端数据防泄漏。

A、入侵检）则

B、病毒检测

C、程序检测

D、进程检测

答案：A

99.协同过滤分析用户兴趣，在用户群中找到指定用户的相似（兴趣）用户，综合

这些用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度（）,

并将这些用户喜欢的项推荐给有相似兴趣的用户。

A、相似

B、相同

C、推荐

D、预测

答案：D

100.下列哪些不是目前机器学习所面临的问题是（）。

A、测试集的规模

B、维度灾难

C、特征工程

D、过拟合

答案：A

101.下列程序打印结果为（）O

A、Python

B、Pyth

C、thon,s

DvPython^features

答案：B

102.关于文件的打开方式，以下选项中描述正确的是（）。

A、文件只能选择二进制或文本方式打开

B、文本文件只能以文本方式打开

C、所有文件都可能以文本方式打开

D、所有文件都可能以二进制方式打开

答案：D

103.利用到每个聚类中心和的远近判断离群值的方法，可以基于的算法为（）。

AvK-means

B、KNN

C、SVM

D、LinearRegression

答案：A

104.如果使用线性回归模型，下列说法正确的是（）。

A、检查异常值是很重要的，因为线性回归对离群效应很敏感

B、线性回归分析要求所有变量特征都必须具有正态分布

C、线性回归假设数据中基本没有多重共线性

D、以上说法都不对

答案：A

105.Seaborn要求原始数据的输入类型不能是（）

A、Dataframe

B、Series

C、Numpy

D、-

答案：B

106.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是（）。

A、主分量分析的最佳准则是对一组数据进行按一组正交基分解,在只取相同数量

分量的条件下，以均方误差计算截尾误差最小

B、在经主分量分解后，协方差矩阵成为对角矩阵

C、主分量分析就是K-L变换

D、主分量是通过求协方差矩阵的特征值得到

答案：C

107.下列不能作为数据科学数据源的是（）。

A、医院里的病历、检查、诊断等与健康相关的数据

B、物联网中涉及设备运行情况的日志数据

C、金融领域客户的借款记录以及信用情况

D、个人电脑中用于备忘的日记

答案：D

108.对于SVM分类算法，待分样本集中的大部分样本不是支持向量，下列说法正

确的是()。

A、需要将这些样本全部强制转换为支持向量

B、需要将这些样本中可以转化的样本转换为支持向量，不能转换的直接删除

C、移去或者减少这些样本对分类结果没有影响

D、以上都不对

答案：C

109.ndarry是一个通用的()数据容器。

A、单维同类；

B、单维多类；

C、多维同类；

D、多维多类；

答案：C

110.下列哪个()不是scipy.stats模块中的功能()。

A、连续性分布

B、线性方程求解

C、离散型分布

D、核密度估计

答案：B

111.scipy中，线性模块是以下哪个（）模块（）。

Avfftpack

B、signaI

C、IinaIg

Dvndimage

答案：c

112.Numpy中，利用函数自动创建数组不包括以下哪个的函数是（）。

A、range）

B\ones）

C、Iinspace）

D\type）

答案：D

113.在matplotIib中,以下说法正确的是O。

A、散点图不能在子图中绘制

B、散点图的x轴刻度必须为数值

C、折线图可以用作查看特征间的趋势关系

D、箱线图可以用来查看特征间的相关关系

答案：C

114.如何通过代理服务器进行爬虫的方法是（）。

A、个人发送访问请求到代理服务器，代理服务器转发到网站，网站反馈给个人

B、个人发送访问请求到网站，网站反馈给个人，并备份访问记录到代理服务器

C、个人发送访问请求到代理服务器，代理服务器转发到网站，网站反馈给代理

服务器，代理服务器再发送给个人

D、个人发送访问请求到网站，网站反馈给代理服务器，个人再访问代理服务器

获取网页信息

答案：C

115.多分类学习中，最经典的三种拆分策略不包括（）。

A、一对一

B、一对其余

C、一对多

D\多对多

答案：A

116.已知数组@=也.array（[[0,0,0],[10,10,10],[20,20,20],[30,30,30]]）

A、[[1,2,3],[10,10,10],[20,20,20],[30,30,30]]

B、[[1,2,3],[0,0,0],[10,10,10],[20,20,20],[30,30,30]]

G[[1,2,3],[11,12,13],[21,22,23],[31,32,33]]

D、无法计算

答案：C

117.使用pyplot.plot画图时,x,、y的参数的值的数据类型是（）。

Avchar

B、fIoat

C、array

D、ataFrame

答案：c

118.运行下面的代码，输出结果是（）。

A、2

B、6

C、（2,3）

D、（3,2）

答案：B

119.关于数据相关性，以下说法错误的是（）。

A、相关性体现了大数据的灵魂

B、相关性思维实现了从“为什么”到“是什么”的思维转变

C、相关性关注事物的因果关系

D、相关性关注事物的相关关系

答案：C

120.关于Logistic回归和SVM的描述，不正确的是O。

A、Logistic回归本质上是一种根据样本对权值进行极大似然估计的方法，用先

验概率的乘积代替后验概率

BxLogistic回归的输出就是样本属于正类别的概率

C、SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，属于

结构风险最小化

D、SVM可以通过正则化系数控制模型的复杂度，避免过拟合

答案：A

121.下列不属于数据科学开源工具的是（）。

A、MapReduce

B、ERP

C、Hadoop

D、Spark

答案：B

122.关于python的类，说法错误的是（）。

A、类的实例方法必须创建对象后才可以调用

B、类的实例方法必须创建对象前才可以调用

C、类的类方法可以用对象和类名来调用

D、类的静态属性可以用类名和对象来调用

答案：B

123.长短时记忆网络属于一种（）。

A、全连接神经网络

B、门控RNN

GBP神经网络

D、双向RNN

答案：B

124.以下代码的输出结果为（）。

A、[[306570][809510][509060]]

B、65

C、[50,90.60.]

D、[65,80.60.]

答案：D

125.读代码，请写出程序正确的答案()。

A、结果：1到100之和为：5000

B、结果：1到100乙和为：0

G结果：1到100之和为：2050

D、结果：1到100之和为：5020

答案：B

126.Numpy中对数组进行转置的函数是哪个()。

A、transpose)

B\roIIaxis)

C、swapaxes)

D\tan)

答案：A

127.()不属于CRF模型对于HMM和MEMM模型的优势。

A、特征灵活

B、速度快

C、可容纳较多上下文信息

D、全局最优

答案：B

128.我们建立一个5000个特征,100万数据的机器学习模型.我们怎么有效地应

对这样的大数据训练()。

A、我们随机抽取一些样本,在这些少量样本之上训练

B、我们可以试用在线机器学习算法

C、我们应用PCA算法降维，减少特征数

D、以上答案都正确

答案：D

129.Scikit-Learn中StandardScaler是将特征数据的分布调整成(),也就是

使得数据的均值为0,方差为1。

A、正态分布

B、泊松分布

C、均匀分布

D、二项分布

答案：A

130.skiearn中对模型进行选择主要是依靠()模块。

A、decomposition

B、modeI_seIection

C、Iinear_modeI

D、mixture

答案：B

131.如果x=5.5,则表达式x>0andx=int(x)的运算结果为;表达式x>0or

x=int(x)的运算结果为0o

A、TrueFaIse

B、FaIseTrue

C、TrueTrue

D、FaIseFaIse

答案：B

132.为了降低MapReduce两个阶段之间的数据传递量，一般采用()函数对map

阶段的输出进行处理。

A、sort()

B\combiner()

C、join()

D\gather()

答案：B

133.决策树中，同一路径上的所有属性之间是()关系。

A、因果

B、相关

C\逻辑或

D、逻辑与

答案：D

134.数据可视化是利用计算机图形学和()，将数据转换成图形或图像在屏幕上

显示出来，并进行交互处理的理论、方法和技术。

A、视觉处理技术

B、视频处理技术

C、图像处理技术

D、图片处理技术

答案：c

135.以下关于情感分析说法错误的是（）。

A、情感分类是一个领域相关的问题

B、情感分类往往荤涉样本的正负类别分布不平衡的问题

C、情感分析属于nip范围

D、以上答案都不正确

答案：D

136.（）不适合使用机器学习方法解决。

A、判断电子邮件是否是垃圾邮件

B、判断给定的图中是否有环

C、判断是否给指定用户办理信用卡

D、对滴滴拼车乘客分簇

答案：B

137.以下不属于Python内置模块的是（）。

A、sys

B、json

C、os

D、image

答案：D

138.线性判别分析在二分类问题上也称为（）。

A、线性回归

B、对数几率回归

GFisher判别分析

D、主成分分析

答案：C

139.下列方法中，能够返回某个子串在字符串中出现次数的是（）。

A、Iength

B、index

Cvount

Dvfind

答案：c

140.关于Python内存管理,下列说法错误的是哪项（）。

A、变量不必事先声明

B、变量无须先创建和赋值而直接使用

C、变量无须指定类型

D、可以使用del释放资源

答案：B

141.有研究发现“页面的显示速度每延迟1s,网站访问量就会降低11%,从而导致

营业额或者注册量减少7%,顾客满意度下降16%”。该项研究表明了（）在数据

产品开发中的重要性。

A、查全率

B、用户体验

C、数据可视化

D、查准率

答案：B

142.当（）时，可以不考虑RDD序列化处理。

A、完成成本比较高的操作后

B、执行容易失败的操作之前

C、RDD被重复使用

D、实时性要求高

答案：D

143.卷积神经网络中每层卷积层（Convolutionallayer）由若干卷积单元组成,

每个卷积单元的参数都是通过反向传播算法最佳化得到，其作用是（）。

A、增强图像

B、简化图像

C、特征提取

D、图像处理

答案：C

144.下列语句中,在python3中合法的语句为（）。

A、printHeIIo,WorId!

B、print'HeIIo,WorId!'

C、print（'HeiIo,WorId!!）

D\print"HeIIo,WorId!"

答案：c

145.以下内容符合物体识别任务的是（）。

A、不能对图像进行压缩或剪裁

B、遵守误差最小准则和最佳近似准则

C、可以不指定分类的类别数量

D、事先给定样本的分布特征

答案：B

146.()会发生权重共享。

A、卷积神经网络

B、循环神经网络

C、全连接神经网络

D、选项A和B

答案：D

147.概率模型的训练过程就是()过程。

A、分类

B、聚类

C、参数估计

D、参数选择

答案：C

148.在一个线性回归问题中，我们使用R平方(R-Squared)来判断拟合度。此

时，如果增加一个特征，模型不变，则下面说法正确的是()。

A、如果R-Squared增加，则这个特征有意义

B、如果R-Squared减小，则这个特征没有意义

C、仅看R-Squared单一变量，无法确定这个特征是否有意义

D、以上说法都不对

答案：c

149.一元线性回归方程y=0.7+0.82x,判定系数等于0.64,则x与y的相关系数

为（）。

A、0.82

B、0.64

C、0.8

D、0.7

答案：C

150.以下算法中不属于基于深度学习的图像分割算法是（）。

A、FCN

B\DeepIab

C、Mask-RCNN

D、KNN

答案：D

151.检测一元正态分布中的离群点，属于异常检测中的基于（）的离群点检测。

A、统计方法

B、邻近度

C、密度

D、聚类技术

答案：A

152.假设有n组数据集，每组数据集中，x的平均值都是9,x的方差都是11,v

的平均值都是7.50,x与y的相关系数都是0.816,拟合的线性回归方程都是y

=3.00+0.500xo那么这n组数据集()。

A、一样

B、不一样

C、无法确定是否一样

D、-

答案：C

153.MapReduce里面的query、sort和Iimit等都是针对()的操作。

A、map()之前

B\reduce()之前

C、reduce()之后

D\finalize()之后

答案：A

154.建立一个词典[AIex,wants,to,go,pIay,footbaII,shopping],下面的句子：

AIexwantstogotopIayfootbaII可以用向量表示为()。

A、[1,1,2,1,1,1,0]

B、[1,121,1,1]

C、11,1,1,1,1,1,0]

D、11,1,1,1,1,1,1]

答案：A

155.执行如下代码:

A、time库是Python的标准库；

B\可使用time,ctime）,显示为更可读的形式；

Cvtime.sleep（5）推迟调用线程的运行，单位为毫秒；

D、输出自1970年1月1日00:00:00AM以来的秒数；

答案：C

156.假设函数中不包括global保留字，对于改变参数值的方法，以下选项中错

误的是（）。

A、参数是列表类型时，改变原参数的值

B、参数的值是否改变与函数中对变量的操作有关，与参数类型无关

C、参数是整数类型时，不改变原参数的值

D、参数是组合类型（可变对象）时，改变原参数的值

答案：B

157.下列关于文本分类的说法不正确的是（）。

A、文本分类是指按照预先定义的主题类别，由计算机自动地为文档集合中的每

个文档确定一个类别

B、文本分类系统大致可分为基于知识工程的分类系统和基于机器学习的分类系

统

C、文本的向量形式一般基于词袋模型构建，该模型考虑了文本词语的行文顺序

D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤

答案：C

158.可用信息增益来进行决策树的（）。

A、树身

B、叶子结点数

C、总结点数

D、划分属性选择

答案：D

159.下列算法中，不属于外推法的是（）。

A、移动平均法

B、回归分析法

C、指数平滑法

D、季节指数法

答案：B

160.以下关于深度学习框架的描述，正确的是（）。

A、Tensorflow是一款使用C++语言开发的开源数学计算软件

B、Caffe对于卷积网络的支持特别好，同时提供的C++接口，也提供了matlab

接口和python接口

C\PyTorch的前身便是Torch,其底层和Torch框架一样，但是使用Python重

新写了很多内容

D、以上答案都正确

答案：D

161.在机器学习中，不属于常用的冲突消解策略是（）。

A、投票法

B、排序法

G元规则法

D、加权法

答案：D

162.如果要将读写位置移动到文件开头，需要使用的命令是()。

AvcIose

B、seek(0)

C、truncate

D、write('stuff')

答案：B

163.将一副图像进行分割后，分割出的区域彼此之间()重叠。

A、可以

B、不可以

C、根据任务需要确定是否可以

D、根据分割方法确定是否可以

答案：B

164.在深度学习中，下列对于sigmoid函数的说法，错误的是()。

A、存在梯度爆炸的问题

B、不是关于原点对称

G计算exp比较耗时

D、存在梯度消失的问题

答案：A

165.Spark的劣势是()□

A、运算速度快

B、业务实现需要较少代码

C、提供很多现成函数

D、需要更多机器内存

答案：D

166.矩阵相减使用以下哪种的函数是（）。

A、np.add）

B\np.subtract）

C、np.multiply）

D\np.divide）

答案：B

167.（）算法要求基学习器能对特定的数据分布进行学习，在训练过程的每一轮

中，根据样本分布为每个训练样本重新赋予一个权重。

A、Boosting

B、支持向量机

C、贝叶斯分类器

D、神经网络

答案：A

168.以P（w）表示词条w的概率，假设已知P（南京）=0.8,P（市长）=0.6,P

（江大桥）=0.4；P（南京市）=0.3,P（长江大桥）=0.5。如果假设前后两个词

的出现是独立的，那么分词结果就是（）。

A、南京市X长江X大桥

B、南京*市长*江大桥

C、南京市长*江大桥

D、南京市*长江大桥

答案：B

169.与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据

不同，基于分歧的方法（disagreement-basedmethods）使用多学习器，而学习

器之间的分歧（disagreement）对未标记数据的利用至关重要。（）是此类方法

的重要代表。

A、协同训练

B、组合训练

C、配合训练

D、陪同训练

答案：A

170.在深度学习中，我们经常会遇到收敛到localminimum,下面不属于解决loc

alminimum问题的方法是（）。

A、随机梯度下降

B、设置Momentum

C\设直不同初始值

D、增大batchsize

答案：D

171.参数估计又可分为（）和区间估计。

A、线型估计

B、点估计

G回归估计

D、二维分析

答案：B

172.关于脏数据和乱数据的区分，以下哪种不属于脏数据（）。

A、含有缺失数据

B、冗余数据

C、噪声数据

D、不规则形态数据

答案：D

173.从数据到智慧的转换依次递进过程是（）。

A、数据、知识、信息、理解'智慧

B、数据、信息、理解、知识'智慧

C、数据、信息、知识、理解、智慧

D、数据、理解、信息、知识,智慧

答案：C

174.关于数据分析，下列说法正确的是（）。

A、描述性分析和预测性分析是诊断性分析的基础

B、诊断性分析是对规范性分析的进一步理解

C、预测性分析是规范性分析的基础

D、规范性分析是数据分析的最高阶段，可以直接产生产业价值

答案：C

175.（）不是Spark服务层的功能。

A、SQL查询

B、实时处理

C、机器学习

D、内存计算

答案：D

176.可分解为偏差、方差与噪声之和的是()。

A、训练误差(trainingerror)

B、经验误差(empiricaIerror)

C\均方误差(meansquarederror)

D、泛化误差(generalizationerror)

答案：D

177.下列哪种业务场景中，不能直接使用Reducer充当Combiner使用()

A、sum求和

B、max求最大值

C\ount求计数

D、avg求平均

答案：D

178.一个分布式应用程序协调服务，分布式应用程序可以基于它实现同步服务,

配置维护和命名服务等的工具是()。

A、FIume

B、Zookeeper

C、Storm

D、SparkStreaming

答案：B

179.循环神经网络适合处理的数据是（）。

A、节点数据

B、序列数据

C、结构化数据

D、图像数据

答案：B

180.当不知道数据所带标签时，可以使用（）促使带同类标签的数据与带其他标

签的数据相分离。

A、分类

B、聚类

C、关联分析

D、隐马尔可夫链

答案：B

181.下列关于神经网络的说法中：①增加神经网络层数,可能会增加测试数据集

的分类错误率；②减少神经网络层数，总是能减小测试数据集的分类错误率；③

增加神经网络层数，总是能减小训练数据集的分类错误率，正确的是（）。

A、①

B、①③

C、①②

D、②

答案：A

182.所有预测模型在广义上都可称为一个或一组（）。

A、公式

B、逻辑

C、命题

D、规则

答案：D

183.假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模

型线性可分（）。

A、设C=1

B、设C=0

C、设C为无穷大

D、以上答案都不正确

答案：C

184.传统目标检测流程包括（）。

A、区域选择

B、特征提取

C、分类器分类

D、以上答案都正确

答案：D

185.Python中statsmodeI库和（）库关系密切。

A、Numpy

B、Scipy

C、jieba

DvPandaspandas

答案：D

186.中文同义词替换时，常用到Word2Vec,以下说法错误的是（）。

A、Word2Vec基于概率统计

B、Word2Vec结果符合当前预料环境

C、Word2Vec得到的都是语义上的同义词

D\Word2Vec受限于训练语料的数量和质量

答案：C

187.执行以下代码段时，输出为（）。

A、['honda','yamaha','suzuki']

B\['yamaha','suzuki','ducati']

C、['honda1,yamaha',suzuki','ducati']

D\['honda','suzuki','ducati']

答案：D

188.大数据的4V特性不包括（）。

A、VoIume（大量）

B、VeIocity（高速）

C、Visual（可视）

D\Variety（多样）

答案：C

189.()操作属于预剪枝。

A、信息增益

B、计算最好的特征切分点

C、限制树模型的深度

D、可视化树模型

答案：C

190.HBase作为数据存储组件封装于大数据平台，用于。存储。

A、关系型数据库

B、分布式文件

C、非关系型数据库

D、列式存储

答案：C

191.构造方法的作用是()。

A、一般成员方法

B、类的初始化

C、对象的初始化

D、对象的建立

答案：C

192.()在训练的每一轮都要检查当前生成的基学习器是否满足基本条件。

A、支持向量机

B、oosting算法

C、贝叶斯分类器

D\Bagging算法

答案：B

193.以下不属于基于区域的图像分割方法的是（）。

A、区域生长法

B、分水岭算法

C、大津算法

D、基于图论的分割算法

答案：C

194.下列关于RNN的说法，正确的是（）。

A、RNN可以应用在NLP领域

B、LSTM是RNN的一个变种

C、在RNN中一个序列当前的输出与前面的输出也有关

D、以上答案都正确

答案：D

195.以下分割方法中不属于区域算法的是（）。

A、分裂合并

B、阈值分割

C、区域生长

D、边缘检测

答案：D

196.有数组arr=Numpy.array（[1,,2,,3,,4]），执行arr.dtype后输出结果

为（）。

A、int32

B、int64

C、fIoat32

DvfIoat64

答案：A

197.一监狱人脸识别准入系统用来识别待进入人员的身份，此系统识别狱警、小

偷、送餐员、其他人员4种不同人员。下列学习方法最适合此种应用需求的是（）。

A、二分类问题

B、层次聚类问题

C、多分类问题

D、回归问题

答案：C

198.在比较模型的拟合效果时，甲、乙、丙三个模型的相关指数R2的值分别约

为0.71、0.85、0.90,则拟合效果较好的模型是（）。

A、甲

B、乙

C、丙

D、效果一样

答案：C

199.常用的数据归约方法可以分为（）。

A、维归约'数据压缩

B、维归约、参数归约

C、维归约、值归约

D、数据压缩'值归约

答案：C

200.对a=np.array([[1,2,3],[4,5,6]])，以下操作会改变数组本身形状的是

。。

A、T

B\a.reshape(2,3)

C、a.raveI)

D\a.resize)

答案：D

201.()不是长短时记忆神经网络三个门中的一个门。

A、输入门

B、输出门

C、遗忘门

D、进化门

答案：D

202.以下代码的输出结果为()。

A、[[1,2],[3,4].[1,2],[3,4]]

B、[[1,2,3,4],[1,2,3,4]]

Cx[[1,2],[3,4]]

D、[1,2,3,4,1,2,3,4]

答案：A

203.以下关于DNN说法不正确的是（）。

A、层数多

B、抽象能力强

C、模拟更复杂模型

D、广义上包含CNN、DBN、SVM等

答案：D

204.下列判断错误的是（）o

A、XML数据属于半结构化数据

B、JS0N文件属于非结构化数据

C、PPT文件属于非结构化数据

D、音视频文件属于非结构化数据

答案：B

205.神经网络感知机只有（）神经元进行激活函数处理，即只拥有一层功能神经

yco

A\输出层

B、输入层

C、感知层

D、网络层

答案：A

206.以下（）不属于广义上的数据可视化技术。

A、类别可视化

B、科学可视化

C\信息可视化

D、可视分析学

答案：A

207.下列选项中会输出1,2,3三个数字的是()o

A、foriinrange(3):print(i)

B、foriinrange(2):print(i+1)

Ga_list=[0,1,2]foriina_list:print(i+1)

D、i=1whilei<3:prirt(i)i=i+1

答案：C

208.标准正态分布的均数与标准差是()。

A、0,1

B、1,0

C、0,0

D、1,1

答案：A

209.输入图片大小为37X37,经过第一层卷积(thenumberoffilters=25,kerne

Isize=5X5,padding=valid,stride=1)与池化层maxpooIing(kerneIsize=3

X3,padding=vaIid),输出特征图大小为()。

A、10X10

B、11X11

G12X12

D、13X13

答案：B

210.对于随机森林和GBDT,下面说法正确的是（）。

A、在随机森林的单个树中,树和树之间是有依赖的,而GBDT中的单个树之间是没

有依赖的

B、这两个模型都使用随机特征子集,来生成许多单个的树

C、我们可以并行地生成GBDT单个树,因为它们之间是没有依赖的

D、GBDT训练模型的表现总是比随机森林好

答案：B

211.0不属于聚类性能度量外部指标。

A、Jaccard系数

B、FM系数

C、Rand指数

D、B指数

答案：D

212.绘图是如何通过（）为项目设置matplotIib参数（）。

A、rc）

B、sci）

C、axes）

Dvsea）

答案：A

213.以下选项中，不是Python对文件的打开模式的是（）。

A、'w

B、'+'

C、'c'

Dv'r'

答案：C

214.（）是交叉验证法的一种特例。

A、自助法

B、留一法

C、交叉验证法

D、错误率分析

答案：B

215.图像与灰度直方图的对应关系为（）。

A、---对应

B、一对多

C\多对一

D、以上答案都正确

答案：C

216.关于函数的参数，以下选项中描述错误的是（）。

A、可选参数可以定义在非可选参数的前面

B、一个元组可以传递给带有星号的可变参数

C、在定义函数时，可以设计可变数量参数，通过在参数前增加星号（*）实现

D、在定义函数时，如果有些参数存在默认值，可以在定义函数时直接为这些参

数指定默认值

答案：A

217.如果字符串中有*需要匹配，需要输入的正则表达式为（）。

A、\*

B、W*

C、*

D、（*）

答案：A

218.单独使用多层索弓|时,（）。

A、最外层和最里层的索引都可以单独使用

B、只有最外层的索引可以单独使用

C、不能单独使用多层索引

D、只有最里层的索引可以单独使用

答案：B

219.一组数据中出现最多的变量值叫作做（）。

A、最大值

B、平均值

C、中位数

D、众数

答案：D

220.关于Spark的说法中，（）是错误的。

A、采用内存计算模式

B、可利用多种语言编程

C\主要用于批处理

D、可进行map()操作

答案：C

221.在TF-IDF算法中，在计算完词频与逆文档频率后，将二者()后得到最终

的结果。

A、相加

B、相减

C、相乘

D、相除

答案：C

222.深度学习是当前很热门的机器学习算法，深度学习涉及大量的矩阵相乘，现

在需要计算三个稠密矩阵A、B、C的乘积ABC,假设三个矩阵的尺寸分别为mXn,

nXp,pXq,且m<n

A、(AB)C

B、AC(B)

C、A(BC)

D、所有效率都相同

答案：A

223.对文本数据处理，通常采用()核函数。

A、多项式

B、Sigmoid

G线性

D、拉普拉斯

答案：C

224.Hive的数据最终存储在()。

A、HDFS

B\HBase

GRDBMS

D\MetaStore

答案：A

225.matplotlib中的调用堆积折线图的函数是什么()。

Axstep)

BvstackpIot)

C、pIuspIot)

D、hist)

答案：B

226.若X的值为广〜11(包含1、11),要用scipy输出标准正态分布的概率密

度函数在X=5处的值，下面哪个是正确的是()。

A、scipy.stats.norm(Ioc=0,seaIe=1).pmf(5)

B、scipy.stats,binorm(Ioc=0,seaIe=1).pdf(5)

Cvscipy.stats,binorm(Ioc=0,seaIe=1).pmf(5)

Dvscipy.stats,norm(Ioc=0,seaIe=1).pdf(5)

答案：D

227.（）是以样本统计量作为未知总体参数的估计量，并通过对样本单位的实际

观察取得样本数据，计算样本统计量的取值作为被估计参数的估计值。

A、参数估计

B、逻辑分析

C、方差分析

D、回归分析

答案：A

228.数组允许批量计算而无须任何for循环，这种特性叫（）。

A、矩阵化

B、便捷化

C、批量化

D、矢失量化

答案：D

229.关于多层前馈神经网络的描述，错误的是（）。

A、输出层与输入层之间包含隐含层，且隐含层和输出层都拥有激活函数的神经

元

B、神经元之间存在同层连接以及跨层连接

C、输入层仅仅是接收输入，不进行函数处理

D、每层神经元上一层与下一层全互连

答案：B

230.建立一个词典[AIex,wants,to,go,pIay,footbaII,shopping],下面的句子：

AIexwantstogotopIayfootbaII可以用向量表示为（）。

A、[1,1,2,1,1,1,0]

B、[1,121,1,1]

C、11,1,1,1,1,1,0]

D、11,1,1,1,1,1,1]

答案：A

231.考察一个由三个卷积层组成的CNN：kerneI=3X3,stride=2,padding=SAM

Eo最低层输出100个特征映射(featuremap),中间层200个特征映射，最高

层400个特征映射。输入是200X300的RGB图片，则总参数的数量是()。

A、903400

B、2800

C、180200

D、720400

答案：A

232.若A与B是任意的两个事件，且P(AB)=P(A)-P(B),则可称事件A

与B()o

A、等价

B、互不相容

G相互独立

D、相互对立

答案：C

233.相关关系是一种与函数关系区别的非确定性关系，而相关分析就是研究事物

或现象之间是否存在这种非确定性关系的统计方法，以下不属于相关性分析方法

的是（）。

A、Pearson相关系数

B\Spearman秩相关系数

C\KendaII相关系数

D、傅里叶系数

答案：D

234.不属于判别式模型的是（）。

A、决策树

B、P神经网络

C、支持向量机

D、贝叶斯

答案：D

235.在大规模的语料中，挖掘词的相关性是一个重要的问题。以下不能用于确定

两个词的相关性的是（）。

A、互信息

B、最大烯

C、卡方检验

D、最大似然比

答案：B

236.Python中用（）快捷键表示运行当前程序。

A、CtrI+F10

B、Ctrl+Alt+F10

GShift+F10

D、Ctrl+Shift+F10

答案：D

237.对模型进行超参数优化，详尽搜索指定参数的估计值使用以下哪种（）方法

AvParameterGrid）

B、ParametersIer）

C、GridSearchCV）

D、RandomizedSearchCV）

答案：C

238.scipy.stats中，（）表示二项分布。

A、gamma

B、inom

C、uniform

D、rayIeigh

答案：B

239.对于一个图像识别问题（在一张照片里找出一只猫），（）可以更好地解决

这个问题。

A、循环神经网络

B、感知机

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2024年数据价值挖掘技能竞赛考试题库大全-上（单选题）

文档简介

温馨提示

最新文档

评论

2024年数据价值挖掘技能竞赛考试题库大全-上（单选题）

文档简介

温馨提示

最新文档

评论

相关文档