2024年数据价值挖掘技能竞赛决赛试题库500题

上传人：唯*** IP属地：河北上传时间：2025-01-29 格式：PDF 页数：145 大小：19.41MB 积分：12 举报 版权申诉

已阅读5页，还剩140页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2024年数据价值挖掘技能竞赛决赛试题库500题(供参考)

一、单选题

1.中文同义词替换时，常用到Word2Vec,以下说法错误的是()。

A、Word2Vec基丁概率统计

B、Word2Vec结果符合当前预料环境

C、Word2Vec得到的都是语义上的同义词

D、Word2Vec受限于训练语料的数量和质量

答案：C

2.()是以样本统计量作为未知总体参数的估计量，并通过对样本单位的实际观

察取得样本数据，计算样本统计量的取值作为被估计参数的估计值。

A、参数估计

B、逻辑分析

C、方差分析

D、回归分析

答案：A

3.图像平滑会造成()o

A、图像边缘模糊化

B、图像边缘清晰化

C、无影响

D、以上答案都不正确

答案：A

4.以下代码的输出结果为（）o

A、[[1,2],[3,4],[1,2].[3,4]]

B、[[1,2,3,4],[1,2,3,4]]

C、[[1,2].[3,4]]

D、[1,2,3,4,1,2,3,4]

答案：A

5.scipy.stats,moment函数的作用是（）。

A、随机变量的概率密度函数

B、随机变量的累积分布函数

C、随机变量的生存函数

D、计算分布的非中心矩

答案：D

6.已知一个数据集，n为特征数，m为训练样本数，如果n较小，而且m大小中

等（例如n为1~1000,而m为10〜10000）,则一般选择（）。

A、逻辑回归模型

B、不带核的支持向量机

C、高斯核的支持向量机

D、多项式核的支持向量机

答案：C

7.以下代码的输出结果为（）。

A、[[01][23][45]]

B、[0.6252.6254.625]

G(array([0.625,2.625,4.625]),array([8.,8.,8.])

D、以上答案都不正确

答案：B

8.Python语句print(OxA+OxB)的输出结果是()。

A、OxA+OxB

B、A+B

GOxAOxB

D、21

答案:D

9.K折交叉验证器是以下哪个()方法()o

Axmodel_seIection.GroupKFold)

B、model_seIection.GroupShuffIeSpIit)

C、model_seIection.KFoId)

D、modeI_seIection.RepeatedKFoId)

答案：C

10.随机森林与Bagging中基学习器多样性的区别是()。

A、都来自样本扰动

B、都来自属性扰动

C、来自样本扰动和自属性扰动

D、多样本集结合

答案：C

11.常见的图像预处理方法不包括()。

A、图像降噪

B、图像增强

C、图像尺寸归一化

D、图像标注

答案：D

12.逻辑回归将输出概率范围限定为［0,1］。()函数能起到这样的作用。

A、Sigmoid函数

B、tanh函数

C\ReLU函数

D、LeakyReLU函数

答案：A

13.在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于

1,则表明模型中存在()o

A、异方差

B、序列相关

C、多重共线性

D、高拟合优度

答案：C

14.一幅灰度均匀分布的图像，其灰度范围为［0,255］,则该图像的信息量为()。

A、0

B、6

C、8

D、255

答案：C

15.在抽样估计中，随着样本容量的增大，样本统计量接近总体参数的概率就越

大，这一性质称为()O

A、无偏性

B、有效性

C、及时性

D、一致性

答案：D

16.在数据科学中，通常可以采用()有效避免数据加工和数据备份的偏见。

A、/B测试

B、训练集和测试集的划分

C、测试集和验证集的划分D.图灵测试

D、-

答案：A

17.使用pip工具查看当前已安装的Python扩展库的完整命令是()o

A、pipupdate

B、pipIist

C、pipinstaII

D、pipshowaII

答案:B

18.将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务()。

A、频繁模式挖掘

B、分类和预测

C、数据预处理

D、数据流挖掘

答案:C

19.如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下

列哪种做法是正确的0

A、增加树的深度

B、增加学习率

C、减小树的深度

D、减少树的数量

答案：C

20.下列方法中，不可以使用类名访问的是（）。

A、实例方法

B、类方法

C、静态方法

D、以上答案都不正确

答案：A

21.下列关于IPython的说法，错误的是（）。

AxIPython集成了交互式Python的很多优点；

IPython的性能远远优于标准的Python的shelI；

C、IPython支持变量自动补全，自动收缩;

D、与标准的Python相比，IPython缺少内置的功能和函数；

答案：D

22.下列关于数据转换，正确的是()。

A、Json内的取值只能有统一格式

B、PDF文件在不同平台上打开显示不同

C、可以通过Python将CSV文件转换成Excel格式

D、Excel存储数据的量无限制

答案:C

23.下面哪行代码中最适合接受系统输入的一个整数是()o

Axnum二input)

B、num=input("6")

C、num=int(input)

D、num=float(input)

答案：C

24.机器学习中，基于洋本分布的距离是()。

A、马氏距离

B、欧式距离

C、曼哈顿距离

D、闵可夫斯基距离

答案:A

25.对于线性回归模型，包括附加变量在内，以下可能正确的是()。

A、1和2

B、1和3

C、2和4

D、以上都不是

答案：D

26.下列方法中，不属于情感分析的评测的方法是（）。

A、COAE评测

B、cifarlO数据集评测

C、CFTCCI评测

D、TAC评测

答案：B

27.以下关于pandas数据读写说法错误的是（）。

Axread_csv能够读取数据库的数据

B、read_sql能够读取数据库的数据

C、to_csv函数能够将结构化数据写入csv文件

D、to_exceI函数能够将结构化数据写入ExceI文件

答案：A

28.k近邻算法在（）的情况下效果较好。

A、样本较多但典型性不好

B、样本较少但典型性好

C、样本呈团状分布

D、样本呈链状分布

答案:B

29.txt=open(filenane)返回的是()。

A、变量

B、常数

C、文件内容

D、文件对象

答案：D

30.下列说法错误的是()o

A、当目标函数是凸函数时，梯度下降算法的解一般就是全局最优解

B、进行PCA降维时，需要计算协方差矩

C、沿负梯度的方向一定是最优的方向

D、利用拉格朗日函数能解带约束的优化问题

答案：C

31.在回归模型中，0在权衡欠拟合(under-fitting)和过拟合(over-fitt

ing)中影响最大。

A、多项式阶数

B、更新权重w时，使用的是矩阵求逆

C、使用常数项

D、使用梯度下降法

答案：A

32.在pit中通常的lw参数代表的作用是()。

A、线条的风格

B、文字的颜色

C、线条的宽度

D、线条的透明度

答案：C

33.评估完模型之后，发现模型存在高偏差(highbias),应采取的解决方法是

()O

A、减少模型的特征数量

B、增加模型的特征数量

C、增加样本数量

D、以上答案都正确

答案：B

34.HadoopMapReduce2.0中，()负责资源的管理和调度。

AxJobTracker

B、YARN

C、TaskTracker

D、AppIicationMaster

答案:B

35.Python安装扩展库常用的是。工具。

A、pyinstaII

B、pip

C、pop

D、post

答案：B

36.关于Python程序中与“缩进”有关的说法中，以下选项中正确的是（）。

A、缩进统一为4个空格

B、缩进是非强制性的，仅为了提高代码可读性

C、缩进在程序中长度统一且强制使用

D、缩进可以用在任何语句之后，表示语句间的包含关系

答案：C

37.以下代码的输出结果为（）。

A、[[0,2,3],[4,6,7],[8,10,11],[12,14,15]]

B、[[0,1,2,3],[8,9,10,11],[12,13,14,15]]

C、[[0,1,2,3],[4,5,6,7],[8,9,10,11],[12,13,14,15]]

D、[[1,2,3],[5,6,7],[9,10,11],[13,14,15]]

答案：C

38.数据的原始内容及其备份数据，是数据产品的研发的哪个阶段（）o

A、零次数据

B、一次数据

C、二次数据

D、采集数据

答案：A

39.以下描述中不属于“规整数据（TidyData）”三个基本原则的是（）。

A、每一类观察单元构成一个关系（表）

B、每个观察占且仅占一行

C、每个变量占且仅占一列

D、每个观察占且仅占一个关系（表）

答案:D

40.Windows系统下安装MatplotIib的命令是（）。

A、pythonpipinstaIInatplotiib

B、python-mpipinstaIImatplotIib

C、sudoapt-getinstaIIpython-matplotiib

D、sudopython-mpipinstaIImatpIotIib

答案:B

41.LSTM中，（）的作用是确定哪些新的信息留在细胞状态中，并更新细胞状态。

A、输入门

B、遗忘门

C、输出门

D、更新门

答案：A

42.以下关于pandas中groupby方法说法正确的是（）。

A、groupby能够实现分组聚合

B、groupby方法的结吴能够直接查看

C、groupby是pandas提供的一个用来分组的方法

D、groupby方法是pandas提供的一个用来聚合的方法

答案：C

43.（）是指为最小化总体风险，只需在每个样本上选择能使特定条件风险最小

的类别标记。

A、支持向量机

B、间隔最大化

C、线性分类器

D、贝叶斯判定准则

答案：D

44.图像噪声一般可分为以下哪几类()。

A、加性噪声

B、乘性噪声

C、量化噪声

D、以上答案都正确

答案：D

45.下面哪个是针对下列程序，满足期望输出的代码是()o

A、rr%2—1

B、arr[arr%2-1]

C、arr[arr/2==1]

D、arr[arr//2==1]

答案：B

46.使用Numpy读取csv文件应使用以下哪个的函数是。。

A、save)

B、read_csv)

C、Ioadtxt)

Dxopen)

答案：C

47.()是Spark的核心数据结构。

A、弹性分布式数据集

B、列表

C、元组

D、字典

答案：A

48.大数据应用需依托的新技术有()o

A、大规模并行处理

B、数据分析处理

C、智能化

D、三个选项都是

答案：D

49.关于模块下列说法不正确的是()o

A、Python模块(Module),是一个Python文件，以.py结尾，包含了Python

对象定义和Python语句。

B、模块让你能够有逻辑地组织你的Python代码段。

C、把相关的代码分配到一个模块里能让你的代码更好用，更易懂。

D、模块不能定义类

答案：D

50.以下选项中，输出结果是False的是()。

A、»>5isnot4

B、»>5!=4

G»>False!=O

D、»>5is5

答案:C

51.留出法直接将数据集划分为（）个互斥的集合。

A、—

B、二

C、三

D、四

答案：B

52.关于数据清洗，不正确的说法是0o

A、对单数据源，主键取值不能重复

B、多数据源会存在数据重复、单位不一致的问题

C、连续型数据不存在冗余问题

D、缺失值可以采用删除和填补等方法处理

答案:C

53.有数组arr=Numpy.array（［1,,2,,3,,4］），执行arr.dtype后输出结果

为（）。

A、int32

B、int64

C、fIoat32

D、fIoat64

答案：A

54.对Numpy的数组Ndarray对象属性的描述,错误的是0。

A、Ndarray.dtypeNdarray对象中每个元素的大以字节为单位

B、Ndarray.flagsNdarray对象的内存信息

C、Ndarray.reaINdarray元素的实部

D、Ndarray.imagNdarray元素的虚部

答案：A

55.执行一个job,如具这个job的输出路径已经存在，那么程序会()o

A、覆盖这个输出路径

B、抛出警告，但是能够继续执行

C、抛出一个异常，然后退出

D、创建一个新的输出路径

答案：C

56.关于python的类，说法错误的是()。

A、类的实例方法必须创建对象后才可以调用

B、类的实例方法必须创建对象前才可以调用

C、类的类方法可以用对象和类名来调用

D、类的静态属性可以用类名和对象来调用

答案：B

57.bootstrap是指()。

A、有放回地从总共M个特征中抽样m个特征

B、无放回地从总共M个特征中抽样m个特征

C、有放回地从总共N个样本中抽样n个样本

D、无放回地从总共N个样本中抽样n个样本

答案：C

58.HadoopMapReduce2.0中，。负责资源的管理和调度。

A、JobTracker

B、YARN

CxTaskTracker

D、AppIicationMaster

答案：B

59.要弥补缺失值，可以使用均值，、中位数，、众数等等，preprocessing模

块中那个方法。可以实现()。

Axpreprocessing.Imputer)

B、preprocessing.PoynomiaIFeatures)

C、preprocessing.FunctionTransformer)

D、preprocessing.Binarizer)

答案：A

60.下列关于核函数特性的描述，错误的是()。

A、只要一个对称函数所对应的核矩阵半正定，就能称为核函数

B、核函数选择作为支持向量机的最大变数

C、核函数将影响支持向量机的性能

D、核函数是一种降维模型

答案：D

61.输入图片大小为37X37,经过第一层卷积(thenumberoffilters=25,kernel

size=5X5,padding=valid,stride=1)与池化层maxpooIing(kerneIsize=3

X3,padding=valid),输出特征图大小为()。

A、10X10

B、11X11

C、12X12

D、13X13

答案:B

62.大数据涌现现象的形式有多种，不属于大数据涌现形式的是。。

A、价值涌现

B、隐私涌现

C、物质涌现

D、质量涌现

答案：C

63.当训练集特征非常多，而实例非常少的时候，可以采用()o

A、sigmoid核的支持向量机

B、不带核的支持向量机

C、高斯核的支持向量机

D、多项式核的支持向量机

答案：B

64.概率模型的训练过程就是()过程。

A、分类

B、聚类

C、参数估计

D、参数选择

答案:C

65.假如使用逻辑回归对样本进行分类，得到训练样本的准确率和测试样本的准

确率。现在，在数据中增加一个新的特征，其他特征保持不变。然后重新训练测

试。则下列说法正确的是0o

A、训练样本准确率一定会降低

B、训练样本准确率一定增加或保持不变

C、测试样本准确率一定会降低

D、测试样本准确率一定增加或保持不变

答案：B

66.基于词的N元文法模型，其最后的粗分结果集合大小（）No

A、大于

B、大于等于

C、小于

D、小于等于

答案：B

67.下列关于LSTM的说法，错误的是。。

A、LSTM中存在sigmoid函数

B、LSTM中存在tanh函数

C、LSTM又称长短时记忆网络

D、RNN是LSTM的变种

答案：D

68.在python中可以通过调用random库来产生随机数。a=random.randint

99）,并赋值给变量a。以下描述正确的是（）。

A、随机产生一个1~~99的小数；

B、随机产生一个1~~99的整数；

C、产生一个值为99的整数；

D、随机产生一个1~~99的无理数；

答案：B

69.MapReduce计算框架的输入是（）数据结构。

A、key-vaIue

Bxinput-output

C、map-reduce

D、key-column

答案：A

70.下列关于RBM的说法，错误的是0o

A、学习过程很快

B、RBM训练可以看作对一个深层BP网络的网络权值参数的初始化

C、RBM不用人工选择特征

D、RBM有标签样本集

答案:A

71.matplotIib中的legend函数作用是什么（）。

A、设置标签文本

B、绘制网格线

C、标示不同图形的文本标签图例

D、设置x轴的数值显示范围

答案:C

72.以下不属于基于图像灰度分布的阈值分割方法的是()°

A、类间最大距离法

B、最大类间方差法

C、Otsu方法

D、区域生长法

答案：D

73.针对以下数组，如何从一个数组中移除那些存在于另一个数组中的项时可进

行的操作是()。

A、np.setdiff1d(a,b)

B、setdiff1d(a)

C、setdiff1d(b)

D、以上答案都不正确

答案：A

74.数据可视化的基本类型是()。

A、科学可视化、信息可视化、可视分析学

B、物理可视化、数字可视化、化学可视化

C、科学可视化、数字可视化、可视分析学

D、科学可视化、信息可视化、文本可视化

答案：A

75.()不属于聚类性能度量外部指标。

AxJaccard系数

B、FM系数

C、Rand指数

D、B指数

答案:D

76.在MapReduce中，哪个组件是用户不指定也不会有默认的()。

AxCombiner

B、OutputFormat

C、Partitioner

D、InputFormat

答案：A

77.下列方法中，不属于图像分割方法的是()o

A、边缘检测法

B、阈值分割法

C、区域分割法

D、特征提取法

答案：D

78.在Iinux下预装了Python2,、Python3且默认Python版本为Python3,下

列描述可以正确启动Python有的是0o

A、在Iinux应用程序TerminaI,打开一个终端窗口。输入whichPython

B、在Iinux应用程序Terminal,打开一个终端窗口。输入Python2或Python3

C、在Iinux应用程序Terminal,打开一个终端窗口。输入whichPython3

D、在Iinux应用程序Terminal,打开一个终端窗口。输入输入whichPython2

答案：B

79.事务对数据对象加锁后拥有何种控制权是由封锁的()决定的。

A、状态

B、类型

C、数量

D、属性

答案：B

80.关于层次聚类算法：①不断重复直到达到预设的聚类簇数；②不断合并距离

最近的聚类簇；③对初始聚类簇和相应的距离矩阵初始化；④对合并得到的聚类

簇进行更新。正确的执行顺序为()o

A、①②③④

B、①③②④

C、③②④①

D、③④①②

答案：C

81.()是指理解挖掘项目的目标业务需求。

A、业务理解

B、数据理解

C、数据准备

D、数据建模

答案：A

82.你正在训练一个RNN网络，你发现你的权重与激活值都是NaN,下列选项中

导致这个问题的最有可能的原因是()。

A、梯度消失

B、梯度爆炸

C、ReLU函数作为激活函数g(.),在计算g(z)时，z的数值过大了

D、Sigmoid函数作为激活函数g(.),在计算g(z)时，z的数值过大了

答案：B

83.下面对集成学习模型中的弱学习者描述错误的是00

A、他们经常不会过拟合

B、他们通常带有高偏差，所以其并不能解决复杂学习问题

C、他们通常会过拟合

D、-

答案:C

84.以下()不属于广义上的数据可视化技术。

A、类别可视化

B、科学可视化

C、信息可视化

D、可视分析学

答案：A

85.假设我们已经在ImageNet数据集（物体识别）上训练好了一个卷积神经网络。

然后给这张卷积神经网络输入一张全白的图片。对于这个输入的输出结果为任何

种类的物体的可能性都是一样的，对吗（）。

A、对的

B、不知道

C、看情况

D、不对

答案:D

86.常用的图像去噪方法有。。

A、高斯滤波

B、中值滤波

C、P-M方程去噪

D、以上答案都正确

答案：D

87.scipy.stats,describe）函数的作用是（）。

A、计算变异系数

B、计算数据集的样本偏度

C、计算所传递数组的几个描述性统计信息

D、计算关于样本平均值的第n个矩

答案：C

88.以下属于图像处理的常用方法有0o

A、图像变换

B、图像编码压缩

C、图像增强和复原

D、以上答案都正确

答案:D

89.random库中用于生成随机小数的函数是（）。

A、random）

B、randint）

C、getrandbits）

D、randrange）

答案：A

90.在留出法、交叉验证法和自助法三种评估方法中，（）更适用于数据集较小、

难以划分训练集和测试集的情况。

A、留出法

B、交叉验证法

C、自助法

D、留一法

答案：C

91.scipy.integrate模块的主要作用是（）。

A、里面有各种特殊的数学函数，可以直接调用，如贝塞尔函数

B、可以求多重积分，高斯积分，解常微分方程

C、包括样条插值，卷积，差分等滤波函数

D、提供各种线性代数中的常规操作

答案：B

92.下列表达式中[print(x,y,10O-x-y)forxinrange(21)foryinrange(3

4)if(100-x-y)%3==0and5*x+3*y+(100-x-y),//3==100],第三次输出的结果

是()。

A、41878

B、42175

C、81478

D、81181

答案:D

93.geoplot是()库和。库的扩展。

Axcartopy和seaborn

B、seaborn和matpIotIib

C、artopyWmatplotIib

DvmatplotiibJUggpIot2

答案：C

94.()不属于CRF模型对于HMM和MEMM模型的优势。

Ax特征灵活

B、速度快

C、可容纳较多上下文信息

D、全局最优

答案:B

95.以下描述中错误的是（）。

A、数据化与数字化是两个不同概念

B、数据与数值是一个概念

C、大数据与海量数据是两个不同的概念

D、数据和信息是两个不同的概念

答案：B

96.下列关于支持向量回归说法，错误的是。。

A、支持向量回归是将支持向量的方法应用到回归问题中

B、支持向量回归同样可以应用核函数求解线性不可分的问题

C、同分类算法不同的是，支持向量回归要最小化一个凹函数

D、支持向量回归的解是稀疏的

答案：C

97.Spark的劣势是()。

A、运算速度快

B、业务实现需要较少代码

C、提供很多现成函数

D、需要更多机器内存

答案:D

98.下列关于大数据的分析理念的说法中，错误的是。。

A、在数据基础上倾向于全体数据而不是抽样数据

B、在分析方法上更注重相关分析而不是因果分析

C、在分析效果上更追求效率而不是绝对精确

D、在数据规模上强调相对数据而不是绝对数据

答案：D

99.读代码，请写出程序正确的答案0o

A、结果：1到100之和为:5000

B、结果：1到100之和为：0

G结果：1到100之和为：2050

D、结果：1到100之和为：5020

答案：B

100.数据清洗的方法不包括()o

A、缺失值处理

B、噪声数据清除

C、一致性检查

D、重复数据记录处理

答案：D

101.当()时，可以不考虑RDD序列化处理。

A、完成成本比较高的操作后

B、执行容易失败的操作之前

C、RDD被重复使用

D、实时性要求高

答案:D

102.在matplotIib中，如何创建一个新图可以用函数O。

Avfigimage)

B、figure)

C、figtext)

D、figlegend)

答案：B

103.下面代码print(0.1+0.2==0.3)的输出结果是()。

A、TRUE

B、FALSE

C、TRUE

D、FALSE

答案：B

104.以下选项中，不是Python对文件的打开模式的是()。

A、'w'

B、'+'

C、'c'

Dx'r'

答案：C

105.当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质，这样

会导致泛化性能下降，这种现象称为。。

A、欠拟合

B、过拟合

C、拟合

D、以上答案都不正确

答案:B

106.Numpy数组输出的原则是()0

A、从左到右，从下到上

B、从左到右，从上到下

C、从右到左，从下到上

D、从右到左，从上到下

答案：B

107.()与HDFS类似。

A、NTFS

B、FAT32

C、GFS

D、EXT3

答案：C

108.0是指具有体量大、来源多样、生成极快和多变等特征并且难以用传统数

据体系机构有效处理的包含大量数据集的数据。

A、海量数据

B、大数据

C、厚数据

D、异构数据

答案：B

109.数据预处理方法不包括()。

A、数据清洗：去噪声和无关数据

B、数据集成：将多个数据源中的数据结合起来存在一个一致的数据存储中

C、数据变换：把原始数据转换成为适合数据挖掘的形式

D、数据转化：把连续数据转换为离散数据

答案：D

110.以下字符串表示plot线条颜色、点的形状和类型为红色五角星点短虚线的

是（）。

A、'bs-'

Bx,go-'

C、'r+-.'

D、'r*-.,

答案：D

111.视觉编码的前提是分析并了解目标用户的。，尽量降低目标用户的0o

A、视觉感知特征；感知障碍

B、视觉感知特征；感知时间

C、视觉感知习惯；感知障碍

D、视觉感知习惯；感知时间

答案：A

112.下列关于线性模型的描述错误的是（）。

A、支持向量机的判别函数一定属于线性函数

B、在样本为某些分布情况时，线性判别函数可以成为最小错误率或最小风险意

义下的最优分类器

C、在一般情况下，线性分类器只能是次优分类器

D、线性分类器简单而且在很多期情况下效果接近最优，所以应用比较广泛

答案：A

113.对于随机森林和GBDT,下面说法正确的是()。

A、在随机森林的单个树中，树和树之间是有依赖的,而GBDT中的单个树之间是没

有依赖的

B、这两个模型都使用随机特征子集,来生成许多单个的树

C、我们可以并行地生成GBDT单个树,因为它们之间是没有依赖的

D、GBDT训练模型的表现总是比随机森林好

答案:B

114.下面算法属于局部处理的是()o

A、灰度线性变换

B、二值化

C、傅里叶变换

D、中值滤波

答案：D

115.正则化是将样本在向量空间模型上的一个转换，经常被使用在分类与聚类中,

正则化在preprocessing模块中如何的实现方法是()o

Axpreprocessing.maxabs_scaIe)方法

B、preprocessing.RobustScaIer)方法

C、preprocessing.normaIize)方法

D、preprocessing.Binarizer)方法

答案：C

116.Adaboost的核心思想是()。

A、给定一个弱学习算法和一个训练集，将该学习算法使用多次，得出预测函数序

列,进行投票

B、针对同一个训练集训练不同的弱分类器集合起来，构成一个强分类器

C、利用多棵树对样本进行训练并预测的一种分类器

D、基于前向策略的加法模型,每阶段使用一个基模型去拟合上一阶段基模型的残

差

答案：B

117.()试图学得一个属性的线性组合来进行预测的函数。

A、决策树

B、贝叶斯分类器

C、神经网络

D、线性模型

答案：D

118.如果两个变量相关，它们()线性关系。

A、一定是

B、不一定是

C、-

D、-

答案：B

119.在MapReduce中，以下描述错误的有()。

A、Worker故障和Master故障的处理方法不相同

B、Map和Reduce的处理结果都存储在本地文件系统

C、一个Worker发生故障时，该节点上执行完的Map任务需要再次执行

D、MapReduce具有很强的容错机制

答案：B

120.随机森林等树状算法通过哪个()模块进行调用。。

Axdummy

B、ensemble

C、tree

D、experimentaI

答案：B

121.关于抛出异常的说法中，描述错误的是()。

A、当raise指定异常的类名时，会隐式地创建异常类的实例

B、显式地创建异常类实例，可以使用raise直接引发

C、不带参数的raise语句，只能引发刚刚发生过的异常

D、使用raise抛出异常时，无法指定描述信息

答案：D

122.以下()是对DMM(数据管理成熟度模型)中“已管理级”基本特点的正确

表述。

A、组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革

进行不断优化

B、组织机构已用定量化的方式管理其关键过程的执行过程

C、组织机构只有在项目管理过程中执行了D.M给出的关键过程，而缺乏机陶层

次的统筹与管理

D、组织机构的数据管理工作超出了项目管理的范畴，由组织机构统一管理其数

据管理关键过程

答案：D

123.假设你需要调整参数来最小化代价函数(costfunction),会使用()技术。

A、穷举搜索

B、随机搜索

C、Bayesian优化

D、以上全是

答案：D

124.采用模板［71］主要检测()方向的边缘。

A、水平

B、45°

C、垂直

D、135°

答案：C

125.DAGScheduIer的作用是()°

A、负责分配任务

B、负责调度Worker的运行

C、负责创建执行计划

D、负责清理执行完毕的任务

答案：C

126.scipy库中用于物理和数学常量计算的模块是()o

A、scipy.cIuster

Bxscipy.io

C、scipy.constants

D、scipy.IinaIg

答案：C

127.属于深度学习框架的是()o

AxTensorfIow

B、Caffe

C、PyTorch

D、以上答案都正确

答案：D

128.在页面中看不见的表单元素是那种()。

A、<\nputtype="password"X/input>

Bv<inputtype="radio"></input>

C、<inputtype="hidden"></input>

D、<inputtype="reset"></input>

答案：C

129.matplotIib中的调用堆积折线图的函数是什么()。

A、step)

B、stackplot)

C、plusplot)

D、hist)

答案：B

130.下列选项中，不属于python特点的是()。

A、面向对象；

B、运行效率高；

C、可移植性；

D、免费和开源；

答案：B

131.针对以下数组，如何从一个数组中移除那些存在于另一个数组中的项时可进

行的操作是()。

Axnp.setdiff1d(a,b)

B、setdiff1d(a)

C、setdiffld(b)

D、以上答案都不正确

答案：A

132.scipy.io模块不可以读取以下哪种文件()o

A、matIab文件

B、IDL文件

C、wav文件

D、csv文件

答案：D

133.若X的值为广〜11(包含1、11),要用scipy输出标准正态分布的概率密

度函数在X=5处的值，下面哪个是正确的是()。

A、scipy.stats,norm(Ioc=0,seaIe=1).pmf(5)

B、scipy.stats.binorm(loc=0,seale=1).pdf(5)

C、scipy.stats.binorm(Ioc=0,seaIe=1).pmf(5)

D、scipy.stats,norm(Ioc=0,seaIe=1).pdf(5)

答案：D

134.对于一个图像识别问题(在一张照片里找出一只猫)，()可以更好地解决

这个问题。

A、循环神经网络

B、感知机

C、多层感知机

D、卷积神经网络

答案：D

135.可用信息增益来进行决策树的()。

A\树同j

B、叶子结点数

C、总结点数

D、划分属性选择

答案：D

136.对Python的sys模块常用方法的描述，错误的是()。

A、sys.argv命令行参数List,第一个元素是程序本身路径

B、sys.modules,keys)返回所有字典中的keys

C、sys.exc_info)获取当前正在处理的异常类

D、sys.exit（n）退出程序

答案：B

137.下列属于小波去噪步骤的是（）。

A、对图像信号进行小波分解

B、对经过层次分解后的高频系数进行阈值量化

C、利用二维小波重构图像信号

D、以上答案都正确

答案:D

138.在HDFS中（）是文件系统的工作节点。

AxDataNode

B、CIient

CxNameNode

D、Flume

答案：A

139.下列关于TF-IDF说法正确的是（）o

A、该值与特征项在文档中出现的频率成反比

B、该值与特征项在文档中出现的频率成正比

C、该值与在整个语料库中出现该特征项的文档库成正比

D、该值与特征项在文档中出现的频率无关

答案：B

140.HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、

高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是（）。

A、一次写入，少次读取

B、多次写入，少次读取

C、多次写入，多次读取

D、一次写入，多次读取

答案：D

141.关于Ndarray.itemsize的描述，错误的是()。

A、以字节的形式返回数组中每一个元素的大小

B、一个元素类型为fIoat64的数组itemsize属性值为8

C、一个元素类型为complex32的数组itemsize属性为4

D、一个元素类型为complex64的数组itemsize属性为4

答案：D

142.MapReduce里面的query、sort和Iimit等都是针对()的操作。

A、map()之前

B、reduce()之前

C、reduce()之后

D、finalize()之后

答案：A

143.以下关于代码规范描述，哪些是错误的是()。

A、类总是使用驼峰格式命名，即所有单词首字母大写其余字母小写。

B、除特殊模块_init_之外，模块名称都使用不带下划线的小写字母。

C、不要滥用*args和**kwargs

D、建议把所有方法都放在一个类中

答案：D

144.Python中用()快捷键表示运行当前程序。

A、Ctrl+F10

B、Ctrl+Alt+F10

C、Shift+F10

D、Ctrl+Shift+F10

答案：D

145.以下代码的输出结果为()o

A、[012345678]

Bx[array([0,1,2"),array([3,4,5]),array([6,7,8])]

Cx[array([0,1,2,3]),array([4,5,6'),array([7,8])]

D、没有正确答案

答案：B

146.()不是HDFS的守护进程。

AxSecondaryNameNode

B、DataNode

C、MRAppMaster/YarnChiId

D、NameNode

答案：C

147.下列关于Python全局变量和局部变量的描述，不正确的是()。

A、local关键字用于定义局部变量，global关键字用于定义全局变量

B、关键字local定义的变量仅在该函数内可见

C、关键字global定义全局变量时必须自成一行

D、nonlocal变量不可以在内嵌函数中使用

答案：D

148.当特征值大致相等时。会发生的情况是（）。

A、PCA将表现出色

B、PCA将表现不佳

C、不知道

D、以上都没有

答案：B

149.以下说法正确的是（）o

A、一个机器学习模型如果有较高准确率，总是说明这个分类器是好的

B、如果增加模型复杂度，那么模型的测试错误率不一定会降低

C、如果增加模型复杂度，那么模型的训练错误率总是会降低

D、-

答案：C

150.下列关于HDFS的描述正确的是（）。

A、如果NameNode宕机，SecondaryNameNode会接替它使集群继续工作

B、HDFS集群支持数据的随机读写

CxNameNode磁盘元数据不保存Block的位置信息

D、ataNode通过长连接与NameNode保持通信

答案：C

151.以下关于异常处理的描述，正确的是（）。

A、try语句中有except子句就不能有finally子句

B、Python中，可以用异常处理捕获程序中的所有错误

C、引发一个不存在索引的列表元素会引发NameError错误

DxPython中允许利用raise语句由程序主动引发异常

答案：D

152.()不是Spark服务层的功能。

A、SQL查询

B、实时处理

C、机器学习

D、内存计算

答案：D

153.标准正态分布的均数与标准差是()。

A、0,1

B、1,0

C、0,0

D、1,1

答案：A

154.Numpy中确定随机数生成种子使用以下哪个的函数是。。

A、np.random)

B、np.random,seed)

C\np.uniform)

D、np.eig)

答案：B

155.以下跟RNN相关的是()o

A、梯度消失

B\时间步

C、梯度爆炸

D、以上答案都正确

答案：D

156.图像中虚假轮廓的出现就其本质而言是()o

A、图像的灰度级数不够多而造成的

B、图像的空间分辨率不够高而造成的

C、图像的灰度级数过多而造成的

D、图像的空间分辨率过高而造成的

答案：A

157.下列去噪方法中，能较好地保持图像边缘的去噪方法是()o

A、中值滤波

B、双边滤波

C、均值滤波

D、高斯滤波

答案：A

158.以下关于break,continue的说法，正确的是()。

A、continue语句被用来告诉Python跳过当前循环块中的剩余语句，然后继续

进行下一轮循环；在循环中break的作用是终止当前循环结构的后续操作，一旦

程序运行了break,循环也就终止了

B、reak语句被用来告诉Python跳过当前循环块中的剩余语句，然后继续进行

下一轮循环，；在循环中continue的作用是终止当前循环结构的后续操作，一

旦程序运行了continue,循环也就终止了

C、break,continue语句被用来告诉Python跳过当前循环块中的剩余语句，然

后继续进行下一轮循环

D、在循环中break,continue的作用是终止当前循环结构的后续操作，一旦程序

运行了break循环也就终止了

答案：A

159.ZooKeeper的特点描述错误的是0。

A、复杂性

B、自我复制

C、顺序访问

D、高速读取

答案：A

16O.scipy中，线性模块是以下哪个()模块()。

A、fftpack

B、signaI

C、IinaIg

D、ndimage

答案：C

161.一组数据的最大值与最小值之差叫作做()。

A、标准差

B、极差

C、方差

D、极小值

答案：B

162.下列数据类型中，Numpy不支持以下哪种数据类型的是()。

A、fIoat32

B、uint64

Cxbool

D、byte

答案：D

163.对模型进行超参数优化，详尽搜索指定参数的估计值使用以下哪种()方法

()O

A、ParameterGrid)

B、ParametersIer)

C、GridSearchCV)

D、RandomizedSearchCV)

答案：C

164.常用的数据归约方法可以分为。。

A、维归约、数据压缩

B、维归约、参数归约

C、维归约、值归约

D、数据压缩、值归约

答案:C

165.()的基本想法是适当考虑一部分属性间的相互依赖信息，从而既不需要进

行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。

A、贝叶斯判定准则

B、贝叶斯决策论

C、朴素贝叶斯分类器

D、半朴素贝叶斯分类器

答案：D

166.Relief是为()问题设计的。

A、二分类

B、多分类

C、回归

D、降维

答案：A

167.现阶段的大数据技术体系主要类型不包括()。

A、数据源与App

B、基础设施

C、Hadoop

D、数据资源

答案：C

168.scipy中模块io的作用是0o

A、差值计算

B、程序输入输出

C、稀疏矩阵

D、优化

答案：B

169.关于Python赋值语句，以下选项中不合法的是()。

A、x=1;y=1

B、x=y=1

C\x—(y—1)

D、x,y=y,x

答案：C

170.选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入

()O

A、线性回归

B、线性判别分析

C、正则化项

D、偏置项

答案：C

171.请以下代码的输出结果为()。

A、[312]

B、[120]

C、[123]

D、123

答案：B

172.Numpy默认产生的数据类型是（）。

Axint16

B、fIoat32

C、har

D、fIoat64

答案：D

173.客户端从HDFS上读取数据时会（）o

A、从NameNode上获取数据

B、从DataNode上获取Block位置

C、从NameNode上获取Block位置

D、从NameNode上获取数据和Block位置

答案:C

174.jieba分词包含的分词模式有（）。

A、精确模式

B、全模式

C、搜索引擎模式

D、以上答案都正确

答案：D

175.如果字符串中有*需要匹配，需要输入的正则表达式为（）。

A、\*

B、W*

C、*

D、（*）

答案：A

176.np.where（[[True,False].[True,True]],[[1,2].[3,4]],[[9,8].[7,6]]）,

最终的输出结果是（）O

A、[[1,4],[9,7]]

B、[[1,3].[9,7]]

C、[[1,8].[3,4]]

D、[[2,9].[3,6]]

答案：C

177.数据科学中，人们开始注意到传统数据处理方式中普遍存在的“信息丢失”

现象，进而数据处理范式从（）转向（）。

A、产品在先，数据在后范式；数据在先，产品在后范式或无模式

B、模式在先，产品在后范式；产品在先，模式在后范式或无模式

C、数据在先，模式在后范式或无模式；模式在先，数据在后范式

D、模式在先，数据在后范式；数据在先，模式在后范式或无模式

答案：D

178.数据安全技术保护与信息系统“三同步”原则不包括以下哪项（）。

A、同步规划

B、同步建设

C、同步使用

D、同步运维

答案:D

179.下列关于Nimipy的简单介绍，不正确的是。。

AxNumpy（NumericaIPython）是Python语言的一个扩展程序库

B、支持大量的维度数组与矩阵运算

C、针对数组运算提供大量的数学函数库

D、Numpy不开放源代码

答案：D

180.讨论变量之间的关系，主要有三个方法：（）、方差分析和回归分析三个方

法。

A、参数分析

B、逻辑分析

C、假设分析

D、相关分析

答案：D

181.Hadoop中，（）执行文件系统命名空间操作。

A、DataNode

B、NameNode

C、JobTracker

D、TaskTracker

答案：B

182.数据科学基本原则中，”基于数据的智能”的主要特点是0o

A、数据简单、但算法简单

B、数据复杂、但算法简单

C、数据简单、但算法复杂

D、数据复杂、但算法复杂

答案：B

183.[i**iforiinrange(3)]的运行结果是()。

A、[1,1,4]

B、[0,1,4]

C、[1,2,3]

D、(0,1,4)

答案：A

184.考察一个由三个卷积层组成的CNN：kerne1=3X3,stride=2,padding二SAM

Eo最低层输出100个特征映射(featuremap),中间层200个特征映射，最高

层400个特征映射。输入是200X300的RGB图片，则总参数的数量是()。

A、903400

B、2800

C、180200

D、720400

答案:A

185.在MapReduce中，以下描述错误的有()。

A、Worker故障和Master故障的处理方法不相同

BxMap和Reduce的处理结果都存储在本地文件系统

C、一个Worker发生故障时，该节点上执行完的Map任务需要再次执行

D、MapReduce具有很强的容错机制

答案：B

186.sklearn中对模型进行选择主要是依靠()模块。

A、decomposition

B、model_seIection

C、Iinear_modeI

D、mixture

答案：B

187.下列不属于数据科学跨平台基础设施和分析工具的是()o

A、微软Azure

B、Google云平台

C、阿里云

D、Adobephotoshop

答案：D

188.数据产品开发工作之中需要特别注意的基本活动不包括()。

A、创造性设计

B、数据洞见

C、虚拟化

D、个性化描述

答案：D

189.假设有n组数据集，每组数据集中，x的平均值都是9,x的方差都是11,v

的平均值都是7.50,x与y的相关系数都是0.816,拟合的线性回归方程都是y

=3.00+0.500xo那么这n组数据集()。

A、一样

B、不一样

C、无法确定是否一样

D、-

答案：C

190.一组数据相加后除以数据个数得到的值叫作做()o

A、最大值

B、平均值

C、中位数

D、众数

答案：B

191.下面关于词袋模型的说法，错误的是()o

A、词袋模型使用一个多重集对文本中出现的单词进行编码

B、词袋模型不考虑词语原本在句子中的顺序

C、词袋模型可以应用于文档分类和检索，同时受到编码信息的限制

D、词袋模型产生的灵感来源于包含类似单词的文档经常有相似的含义

答案：C

192.任一随机事件出现的概率为()o

A、在-1与1之间

B、小于0

C、不小于1

D、在0与1之间

答案：D

193.（）模块是python标准库中最常用的模块之一。通过它可以获取命令行参

数，从而实现从程序外部向程序内部传递参数的功能，也可以获取程序路径和当

前系统平台等信息。

A、sys

B、pIatform

C、math

D、time

答案：A

194.假设你正在训练一个LSTM网络，你有一个10000词的词汇表，并且使用一

个激活值维度为100的LSTM块，在每一个时间步中，「u的维度是（）。

A、1

B、100

C、300

D、10000

答案：B

195.使用pyplot.plot画图时，x,、y的参数的值的数据类型是（）。

A、char

B、float

C、array

D、ataFrame

答案：C

196.随机森林是在()上的一个扩展变体。

A、Boosting

B、AdaBoost

C、RF

D、Bagging

答案：D

197.机器学习和深度学习的关系是。。

A、深度学习包含机器学习

B、机器学习包含深度学习

C、二者是独立的

D、二者相互促进

答案:B

198.以下程序的输出的结果正确的是。。

A、[[16171819][24252627][28293031][4567]]

B、[[16171819][891011][4567][28293031]

C、[[891011][4567]]

D、error

答案:A

199.对于PCA（主成分分析）转化过的特征,朴素贝叶斯的不依赖假设总是成立,

因为所有主要成分是正交的，这个说法是（）。

A、正确的

B、错误的

C、一

D、一

答案：B

200.（）负责HDFS数据存储。

AxNameNode

B、Jobtracker

C、DataNode

D、SecondsryNameNode

答案：C

201.pit.show）函数的作用是（）o

Av展示图像

B、画直方图

C\保存图像

D、画散点图

答案：A

202.以下关于DNN说法不正确的是（）。

A、层数多

B、抽象能力强

C、模拟更复杂模型

D、广义上包含CNN、DBN、SVM等

答案：D

203.DNN常用的激活函数有（）。

A、sigmoid

B、tanh

C、ReLU

D、以上答案都正确

答案：D

204.下列关于支持向量机优化性问题的形式，说法正确的是（）。

A、它是一个凸二次规划问题

B、它是一个凸一次规划问题

C、它是一个凹二次规划问题

D、它是一个凹一次规划问题

答案：A

205.基本元数据是指0o

A、基本元数据是与数据源、数据仓库、数据集市和应用程序等结构相关的信息

B、基本元数据包括与企业相关的管理方面的数据和信息

C、基本元数据包括日志文件和简历执行处理的时序调度信息

D、基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息

答案：D

206.在一些算法中，为了进行属性之间的比较或运算，需要把不同属性的不同变

量取值范围变换成同一范围，以免使得结果发生出曲，偏向取值范围大的变量。

这一过程称为()。

A、合并

B、数据聚合

C、归一化

D、数据处理

答案:C

207.列表中可以放多少()个字符串。。

A、1

B、255

C、无限个

D、由用户自己定义

答案：C

208.对于两次调用文件的write方法，以下选项中描述正确的是()。

A、连续写入的数据之间无分隔符

B、连续写入的数据之间默认采用换行分隔

C、连续写入的数据之间默认采用空格分隔

D、连续写入的数据之间默认采用逗号分隔

答案:A

209.scipyScipy中的图像处理模块是哪个()。

A、image

B、ndimage

C、photo

D、optimize

答案：B

210.数据产品开发的关键环节是（）

A、数据收集

B、数据预处理

C、数据学习

D、数据加工

答案：D

211.下列语句在Python中是不合法的有（）。

A、i="A"+2

B、i=True+2

C、x,y=y,x

D、x=y=z=1

答案：A

212.关于Python的全局变量和局部变量，以下选项中描述错误的是（）。

A、局部变量指在函数内部使用的变量，当函数退出时，变量依然存在，下次函

数调用可以继续使用

B、使用global保留字声明简单数据类型变量后，该变量作为全局变量使用

C、简单数据类型变量无论是否与全局变量重名，仅在函数内部创建和使用，函

数退出后变量被释放

D、全局变量指在函数之外定义的变量，一般没有缩进，在程序执行全过程有效

答案：A

213.在matplotIib中，调用直方图的函数是()。

A、plot)

B、scatter)

C、bar)

D、hist)

答案:D

214.卷积的过程是让过滤器在图像上进行()。

A、缩放

B、剪切

C、窗口滑动

D、镜像对称

答案：C

215.关于Python内存管理，下列说法错误的是哪项()。

A、变量不必事先声明

B、变量无须先创建和赋值而直接使用

C、变量无须指定类型

D、可以使用del释放资源

答案：B

216.()选择是直接把最终将要使用的学习器的性能作为特征子集的评价准则。

A、嵌入式

B、过滤式

C、包裹式

D、一体式

答案：C

217.matplotlib中的调用堆积折线图的函数是什么（）。

Axstep）

B、stackpIot）

C、pIuspIot）

D、hist）

答案：B

218.下列关于HDFS的描述正确的是（）。

A、如果NameNode宕机，SecondaryNameNode会接替它使集群继续工作

B、HDFS集群支持数据的随机读写

CvNameNode磁盘元数据不保存Block的位置信息

D、ataNode通过长连接与NameNode保持通信

答案:C

219.以下分割方法中不属于区域算法的是（）。

A、分裂合并

B、阈值分割

C、区域生长

D、边缘检测

答案：D

220.在pandas中，使用pivot_table函数制作透视表用以下那个参数（）设置

行分组键（）。

Axindex

B、raw

C、vaIues

D、ata

答案：A

221.平滑图像处理可以采用RGB彩色（）模型。

A、直方图均衡化

B、直方图均衡化

C、加权均值滤波

D、中值滤波

答案：C

222.（）不是长短时记忆神经网络三个门中的一个门。

A、输入门

B、输出门

C、遗忘门

D、进化门

答案：D

223.以下有关计算机编程语言说法错误的是（）。

A、编程语言是用于书写计算机程序的语言；

B、计算机语言可分为机器语言、汇编语言、高级语言;

C、计算机能识别和执行所有编程语言写的程序

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2024年数据价值挖掘技能竞赛决赛试题库500题

文档简介

温馨提示

最新文档

评论

2024年数据价值挖掘技能竞赛决赛试题库500题

文档简介

温馨提示

最新文档

评论

相关文档