2024年数据价值挖掘技能竞赛考试题库大全-下（多选题）

上传人：唯*** IP属地：河北上传时间：2024-09-09 格式：PDF 页数：95 大小：18.09MB 积分：12 举报 版权申诉

已阅读5页，还剩90页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2024年数据价值挖掘技能竞赛考试题库大全一下（多选题汇

总）

多选题

1.与自然语言处理相关的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的区

别是（）。

A、Jieba专注于中文分词操作

B、NLTK主要用于一般自然语言处理任务（标记化，P0S标记，解析等）

C、Gensim主要用于题和向量空间建模、文档集合相似性等

D、ScikiLlearn为机器学习提供了一个大型库，其中包含了用于文本预处理的

工具，例如词频-逆文档频率特征提取（TfidfVectorizer）等。

答案：ABCD

2.下面哪些函数中，是有效的类构造函数有（）。

A、def_lnit_（self）:

B、definit_（self,var=0）:

Gdefinit_）:

D、ef_init_（seIf,a,b,c）:

答案：ABD

3.以下图像技术中属于图像处理技术的是（）。

A、图像编码

B、图像合成

C、图像增强

D、图像分类

答案：AC

4.可视化高维展示技术在展示数据之间的关系以及数据分析结果方面（）。

A、能够直观反映成对数据之间的空间关系

B、能够直观反映多维数据之间的空间关系

C、能够静态演化事物的变化及变化的规律

D、能够动态演化事物的变化及变化的规律

答案：BD

5.Python函数包括下述哪些内容（）。

A、函数名称

B、参数

C、执行语句

D、返回值

答案：ABCD

6.情感分析的应用场景有（）。

A、数据挖掘

B、信息检索

C、文本分词

D、市场营销

答案：ABD

7.如果希望减少数据集中的特征数量，则可以采取的措施是（）。

A、使用正向选择法（ForwardSeIection）

B\使用反向消除法（BackwardEIimination）

G逐步选择消除法（Stepwise）

D、计算不同特征之间的相关系数，删去相关系数高的特征之一

答案：ABCD

8.参数估计可以分为（）。

A、点估计

B、一致估计

C、区间估计

D、无偏估计

答案：AC

9.在正则化公式中，人为正则化参数，关于人的描述正确的是（）。

A、若正则化参数人过大，可能会导致出现欠拟合现象

B、若入的值太大，则梯度下降可能不收敛

C、取一个合理的人值，可以更好地应用正则化

D、如果令人的值很大的话，为了使CostFunction尽可能的小,所有0的值（不

包括eo）都会在一定程度上减小

答案：ABCD

10.直方图修正法包括（）。

A、直方图统计

B、直方图均衡

C、直方图过滤

D、直方图规定化

答案：BD

11.实时计算类应用主要通过（）来实现。

A、流计算组件

B、内存计算组件

GMPP数据库

D、Hadoop的后台定时分析计算任务

答案：AB

12.神经网络的拓扑结构可以分为（）和随机型网络等。

A、前向型

B、后向型

C、反馈型

D、自组织竞争型

答案：ACD

13.下面关于连续型随机变量以及连续型概率密度函数的说法，正确的是（）。

A、“一个客服一天可能接听到多少个电话”是一个连续型随机变量

B、正态分布是一种连续型随机变量的概率分布

C、可以使用概率密度函数来描述连续型随机变量的概率分布

D、连续型概率密度函数曲线下方的面积之和为1

答案：BCD

14.ETL技术主要涉及（）操作。

A、抽取

B、转换

C\加载

D\分析

答案：ABC

15.关于Python分隔代码块,描述错误的是（）o

A、内嵌代码的每一行，都比外面的if语句的缩进更多

B、代码以“begin”开头，“end”结尾

C、每行代码的缩进都一致

D、代码块被封装在花括号中

答案：BCD

16.下面对范数规则化描述，正确的是（）。

A\L0是指向量中0的元素的个数

B、L1范数是指向量中各个元素绝对值之和

C、L2范数向量元素绝对值的平方和再开平方

D、L0是指向量中非0的元素的个数

答案：BCD

17.常用的代价函数有（）。

A、均方误差

B、均方根误差

C、平均绝对误差

D、交叉炳

答案：ABCD

18.常见的图像降噪方式包括（）。

A、中值滤波

B、均值滤波

C、平均滤波

D、加权平均滤波

答案：ABCD

19.以下选项中,属于MapReduce特征的有（）。

A、以主从结构的形式运行

B、容错机制的复杂性

C、任务备份机制的必要性

D、数据存储位置固定

答案：ABC

20.以下关于L1和L2范数的描述，正确的是（）。

A、L1范数为x向量各个元素绝对值之和。

B\L2范数为x向量各个元素平方和的1/2次方，L2范数又称Euclidean范数或

Frobenius范数

C、L1范数可以使权值稀疏，方便特征提取

D、L2范数可以防止过拟合，提升模型的泛化能力。

答案：ABCD

21.图像数字化应该包括哪些过程（）。

A、采样

B、模糊

C、量化

D、统计

答案：AC

22.以下关于数据维度的描述，正确的是（）。

A、采用列表表示一维数据，不同数据类型的元素是可以的

B、JSON格式可以表示比二维数据还复杂的高维数据

C、二维数据可以看成是一维数据的组合形式

D、字典不可以表示二维以上的高维数据

答案：ABC

23.最常见的分词算法可以分为（）。

A、基于字符串匹配的分词方法

B、基于理解的分词方法

C、基于统计的分词方法

D、基于阅读的分词方法

答案：ABC

24.在Spark中,弹性分布式数据集的特点包括（）。

A、可分区

B、可序列化

C、可直接修改

D、可持久化

答案：ABD

25.下列关于Ridge回归的说法，正确的是（）。

A、若入=0,则等价于一般的线性回归

B、若入=0,则不等价于一般的线性回归

C、若入二+8,则得到的权重系数很小，接近于零

D、若入二+8,则得到的权重系数很大，接近与无穷大

答案：AC

26.以下有关特征数据归一化的说法，正确的是（）。

A、特征数据归一化加速梯度下降优化的速度

B、特征数据归一化有可能提高模型的精度

C、线性归一化适用于特征数值分化比较大的情况

D、概率模型不需要做归一化处理

答案：ABD

27.下列哪些是面向对象技术的特征包含（）。

A、封装

B、继承

C、多态

D、分布性

答案：ABC

28.一个监督观测值集合会被划分为（）。

A、训练集

B、验证集

C、测试集

D、预处理集

答案：ABC

29.()是Spark比MapReduce计算快的原因。

A、基于内存的计算

B、基于DAG的调度框架

C、基于Lineage的容错机制

D、基于分布式计算的框架

答案：ABC

30.ETL包含下列哪些过程()o

A、数据抽取

B、数据转换

C、数据加载

D、数据展现

答案：ABC

31.下列选项中属于传统循环神经网络的性质有()。

A、上一时刻的网络状态信息将会作用于下一时刻的网络状态

B、并行处理序列中所有信息

C、容易梯度爆炸/消失

D、易于搭建

答案：AC

32.pit.axhIine(y=0.0,c="r",Is="--",lw=2),对这句代码说法正确的是()。

A、在0.0处添加竖直参考线

B、添加水平参考线

C、参考线是虚线形式

D、网格线是红色的

答案：BC

33.卷积神经网络中常用的池化函数包括（）。

A、最大池化函数

B、L2范数

C、相邻矩形区域内的平均值

D、基于据中心像素距离的加权平均函数

答案：ABCD

34.Spark的技术架构可以分为哪几层（）。

A、资源管理层

B、Spark核心层

C、应用层

D、服务层

答案：ABD

35.RNN在NLP领域的应用包括（）。

A、语言模型与文本生成

B、机器翻译

C、语音识别

D、图像描述生成

答案：ABCD

36.下列关于EM算法描述正确的是（）。

A、EM算法是常用的估计参数隐变量的利器

B、EM算法即是期望最大化算法

C、EM算法常被用来学习高斯混合模型的参数

D、EM算法是一种迭代式的方法

答案：ABCD

37.循环神经网络的输出模式包含（）。

A、多输出

B、单输出

C、同步多输出

D、异步多输出

答案：ABD

38.下列不属于聚类性能度量内部指标的是（）。

A、DB指数

B、Dunn指数

C、Jaccard系数

D、FM系数

答案：CD

39.下面关于随机变量及其概率分布的说法，正确的是（）。

A、随机变量可以分为离散型随机变量和连续型随机变量

B、随机变量的概率分布指的是一个随机变量所有取值的可能性

C、扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上

次数为0与正面朝上次数为5的概率是一样的

D、扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上

次数为5的概率是最大的

答案：ABC

40.关于现阶段大数据技术体系，说法正确的是（）。

A、基础设施提供数据计算'数据存储'数据加工（DataWrangling或DataMung

ing）等服务

B、数据流处理、统计工具、日志分析都属于常用的开源工具

C、数据资源代表的是生成数据的机构

D、数据源与App为数据科学和大数据产业生态系统提供数据内容

答案：ABCD

41.数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及（）等方面。

A、关联分析

B、分类和预测

C、聚类分析

D、偏差分析

答案：ABCD

42.以下属于数据挖掘与分析工具的有（）。

A、TabIeau

B、Python

C、SPSS

D、Alteyx

答案：ABCD

43.许多功能更为强大的非线性模型可在线性模型基础上通过引入（）而得。

A、层级结构

B、高维映射

C、降维

D、分类

答案：AB

44.ETL技术主要涉及（）操作。

A、抽取

B、转换

C、加载

D、分析

答案：ABC

45.以下属于频率域图像滤波的方法有（）。

A、中值滤波

B、均值滤波

C、布特沃斯滤波

D、图斯滤波

答案：CD

46.以下方法中可用于图像分割的有（）。

A、霍夫曼编码

B、分水岭算法

C、K-means

D、区域增长法

答案：BCD

47.以下对模型性能提高有帮助的是（）。

A、数据预处理

B、特征工程

C、机器学习算法

D、模型集成

答案：ABCD

48.大数据的资产属性体现在（）。

A、具有劳动增值

B、涉及法律权属

C、具有财务价值

D、涉及道德与伦理

答案：ABCD

49.对于决策树的优点描述，正确的是（）。

A、可读性强

B、分类速度快

C、只用于回归问题

D、是无监督学习

答案：AB

50.HadoopMapReduce是MapReduce的具体实现之一oHadoopMapReduce数据处理

过程涉及四个独立的实体，包括（）。

AvClient

B、JobTracker

CvTaskTracker

D、HDFS

答案：ABCD

51.在数据科学中，计算模式发生了根本性的变化—从集中式计算、分布式计

算、网格计算等传统计算过渡至云计算，有一定的代表性的是Google云计算三

大技术，这三大技术包括（）。

A、HadoopYARN资源管理器

B、GFS分布式存储系统

C\MapReduce分布式处理技术

D、BigTable分布式数据库

答案：BCD

52.下面属于可视化高维数据技术的是（）。

A、矩阵

B、平行坐标系

C、星形坐标系

D、散布图

答案：ABC

53.随机森林在做数据处理方面的优势是（）。

A、不需要做缺失值处理

B、不需要处理噪音

C、不需要做特征选择

D、不需要平衡数据集

答案：ACD

54.回归分析有很多种类，常见的有（）。

A、线性回归

B、系数回归

G逻辑回归

D、曲线回归

答案：ACD

55.使用极大似然估计的前提条件有（）。

A、数据服从某种已知的特定数据分布型

B、已经得到了一部分数据集

C、提前已知某先验概率

D、数据集各个属性相对独立

答案：AB

56.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力，如

下属于分布式存储组件的有（）。

A、MapReduce

B、Spark

GHDFS

D、HBase

答案：CD

57.TF-IDF的缺点包含()o

A、字词的重要性随它在文件中出现的次数成正比

B、将一些生僻字误当作文档关键词

C、只考虑特征词和文本之间的关系，忽略了一个特征项在不同类别间的分布情

况

D、没有考虑特征词的位置因素对文本的区分度

答案：BCD

58.下面对范数规则化描述，正确的是()。

A、L0是指向量中0的元素的个数

B、L1范数是指向量中各个元素绝对值之和

C、L2范数向量元素绝对值的平方和再开平方

D、L0是指向量中非0的元素的个数

答案：BCD

59.Pandas中主要的数据结构是()。

A、Data

B、DataFrame

C、Frame

D、Series

答案：BD

60,若b=np.array([True,FaIse,FaIse]),以下能输出[FaIseTrueTrue]的是

A、print(b-1)

B、print(~b)

C、print(np.Iogical_not(b)

D、print(»b)

答案：BC

61.下面关于reduce函数功能描述正确的是()。

A、合并value值，形成较小集合

B、采用迭代器将中间值提供给reduce函数

C、map)函数处理后结果才会传输给reduce)

D、内存中不会存储大量的vaIue值

答案：ABCD

62.字符串的格式化可以使用()。

A、%

B、format

C、input

D、+

答案：AB

63.异常值的检测方法有()。

A、直接通过数据可视化进行观察

B、通过统计分布进行判断

C、通过相对距离进行度量

D、通过相对密度进行度量

答案：ABCD

64.下列属于描述gensim库的特性的是（）。

A、训练语料的预处理

B、主题向量的变换

C、文档相似度的计算

D、文章切分词语统计计算

答案：ABC

65.以下（）是scipy.stats可实现的连续随机变量方法。

A、rvs

B、pdf

C、ppf

D、cdf

答案：ABCD

66.特征选择方法有（）。

A、IC赤池信息准则

B、LARS嵌入式特征选择方法

C、LVW包裹式特征选择方法

D\Relief过滤式特征选择方法

答案：BCD

67.下列关于集合操作结果正确的有（）。

A、name={'d','s'}nameadd（'sd'）,name值为：{‘sd','d','s'}

B\name={'sd',d','s'}nameremove（'s'）,name值为：{‘sd','d'}

C、name={'sd',d','s'}namecIear),name值为：{}

D\name={'sd',d','s'}nameupdate（'dF）,name值为：{‘sd','d',

s'j'）

答案：ABC

68.Python中jieba库的基本实现原理是什么（）。

A、分析汉字与汉字之间的关联几率概率

B、分析汉字词组的关联几率概率

C、根据用户自定义的词组进行分析

D、还可以分析汉字与英文之间关联几率概率

答案：ABC

69.数据科学以数据尤其是大数据为研究对象，主要研究内容包括（）。

A、数据加工

B、数据管理

C、数据计算

D、数据产品开发

答案：ABCD

70.在python中查看关键字，需要在Python解释器中执行（）和（）。这两条

命令。

A、Iistkeyword

B\importkeyword

C、keyword

D\import.kwlist

答案：BC

71.大数据的资产属性体现在（）。

A、具有劳动增值

B、涉及法律权属

C、具有财务价值

D、涉及道德与伦理

答案：ABCD

72.以下说法正确的是（）。

A、条件独立性假设不成立时，朴素贝叶斯分类器仍有可能产生最优贝叶斯分类

器

B、在估计概率值时使用的拉普拉斯修正避免了因训练集样本不充分而导致概率

估值为零的问题

C、由于马尔可夫链通常很快就能趋于平稳分布，因此吉布斯采样算法的收敛速

度很快

D、二分类任务中两类数据满足高斯分布且方差相同时，线性判别分析产生贝叶

斯最优分类器

答案：ABD

73.我们想要训练一个ML模型，样本数量有100万个，特征维度是5000,面对

如此大数据，有效地训练模型可以采取的措施是（）

A、对训练集随机采样，在随机采样的数据上建立模型

B、尝试使用在线机器学习算法

C、使用PCA算法减少特征维度

D、-

答案：ABC

74.Spark中的ScheduIer模块可以分为（）。

A、DAGScheduIer

B、ResourceScheduIer

C、TaskScheduIer

D、JobScheduIer

答案：AC

75.下列哪些是传统RDBMS的缺点（）o

A、表结构schema扩展不方便

B、全文搜索功能较弱

C、大数据场景下I/O较高

D、存储和处理复杂关系型数据功能较弱

答案：ABCD

76.ApacheFIume主要解决的是日志数据的收集和处理问题，Flume的主要设计目

的和特征是（）。

A、高可靠性

B、可扩展性

C、管理复杂

D、不支持用户自定义

答案：AB

77.循环神经网络主要被应用的场景有（）。

A、语音识别

B、语音建模

C、机器翻译

D、图像识别

答案：ABC

78.RNN网络的激活函数要选用双曲正切而不是Sigmod的原因有（）。

A、使用Sigmod函数容易出现梯度消失

B、Sigmod的导数形式较为复杂

C、双曲正切更简单

D、Sigmoid函数实现较为复杂

答案：AB

79.完整性约束通常包括（）

A、实体完整性

B、域完整性

C、参照完整性

D、用户定义完整性

答案：ABCD

80.数据安全不仅包括数据保密性，还包括（）。

A、完整性

B、可用性

C、不可否认性

D、可审计性

答案：ABCD

81.Python的优点有（）o

A、变量不用预定义类型

B、数据结构功能强大

C、语言可解释性强

D、变量类型固定

答案：ABC

82.鉴别了多元共线特征，下一步可能的操作是（）。

A、移除两个共线变量

B、不移除两个变量，而是移除一个

C、移除相关变量可能会导致信息损失，可以使用惩罚线性回归模型（如ridge

或Iassoregression）

D、-

答案：BC

83.模块可以分为以下的通用类别包含（）。

A、使用python编写的.py文件

B、已被编译为共享库或DLL的C或C++扩展

C、把一系列模块组织到一起的文件夹

D、使用C编写并链接到python解释器的内置模块

答案：ABCD

84.关于梯度消失和梯度爆炸，以下说法正确的是：（_）。

A、根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都小

于1的话，那么即使这个结果是0.99,在经过足够多层传播之后，误差对输入

层的偏导会趋于0

B、可以采用ReLU激活函数有效地解决梯度消失的情况

C、根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都大

于1的话，在经过足够多层传播之后，误差对输入层的偏导会趋于无穷大

D、可以通过减小初始权重矩阵的值来缓解梯度爆炸

答案：ABCD

85.数据来源和目标用户已定的情况下，不同视觉通道的表现力不同。视觉通道

的表现力的评价指标包括（）。

A、精确性

B、可辨认性

G可分离性

D、视觉突出性

答案：ABCD

86.以下（）函数是累积函数。

A、cumsum

B、argmin

Cvumprod

Dvargmax

答案：AC

87.以下关于集成学习的说法，正确的是（）。

A\随机森林是减少模型的方差，而GBDT是减少模型的偏差

B、组成随机森林的树可以并行生成，而GBDT是串行生成

C、随机森林的结果是多数表决表决的，而GBDT则是多棵树累加之和

D、-

答案：ABC

88.在数据安全领域常用的P2DR模型中，P、D和R代表的是（）。

A、策略

B、防护

C、检）则

D、响应

答案：ABCD

89.LSTM应用场景有（）。

A、翻译语言

B、语音识别

C、图像识别

D、股票预测

答案：ABD

90.相对于HadoopMapReduce,Spark的特点有（）。

A、通用性

B、易用性

C、速度快

D、容错性

答案：ABC

91.对以下代码说法正确的是（）。

A、该图表是一个蓝绿色的散点图

B、图表中有红色实线的网格线

C、图表中有图例

D、该图画的是sin曲线

答案：CD

92.数据增值存在于哪些过程中（）。

A、数据对象的封装

B、数据系统的研发

C、数据的集成应用

D、基于数据的创新

答案：ABCD

93.可能导致交叉检验模型评估较差可能是由于（）的原因导致的有（）。

A、模型过拟合

B、模型欠拟合

C、模型过度复杂

D、模型过度简单

答案：ABCD

94.在选择高斯函数作为核函数的支持向量机中，参数的选取会影响拟合的结果,

如果出现过拟合的现象，则导致该结果的原因有可能是（）。

A、其他参数保持不变，C值过大

B、其他参数保持不变，C值较小

C、其他参数保持不变，。较大

D、其他参数保持不变，。较小

答案：AD

95.下面是Python注释语句的是（）。

A、'heIIo'

B、"'helIo'''

C、"helIo"

D、#

答案：BD

96.下面关于随机变量及其概率分布的说法，正确的是（）。

A、随机变量可以分为离散型随机变量和连续型随机变量

B、随机变量的概率分布指的是一个随机变量所有取值的可能性

C、扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上

次数为0与正面朝上次数为5的概率是一样的

D、扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上

次数为5的概率是最大的

答案：ABC

97.以下方法是tf-idf的变种的有（）o

A、TFC

B、EWC

C、ITC

D、IG

答案：AC

98.常见的聚类性能度量外部指标有（）。

A、Jaccard系数

B、DB指数

C、FM指数

D、以上答案都正确

答案：AC

99.聚类性能度量的指标主要分为外部指标和内部指标，其中属于内部指标的是

。。

A、Jaccard指数

B、FM指数

GDB指数

D、unn指数

答案：CD

100.影响聚类算法效果的主要原因有（）。

A、特征选取

B、模式相似性测度

C、分类准则

D、已知类别的样本质量

答案：ABC

101.下面哪些是Spark的组件（）o

A、SparkStreaming

B、MLib

C、GraphX

D\SparkR

答案：ABC

102.下列关于AUC面积的描述，正确的是()。

A、UC被定义为ROC曲线下与坐标轴围成的面积

B、AUG面积的值大于1

C、AUC等于0.5时，则真实性最低，无应用价值

D、AUC越接近1.0,检测方法真实性越高

答案：ACD

103.MapReduce对map()函数的返回值处理后才传给reduce()函数，其中涉

及哪些操作()。

A、合并

B、排序

C、分区

D、抽样

答案：ABC

104.特征选择的目的是()o

A、减少特征数量、降维

B、使模型泛化能力更强

C、增强模型拟合能力

D、减少过拟合。

答案：ABD

105.下面对LDA判别分析的思想描述，正确的是（）。

A、同类样例的投影点尽可能近

B、异类样例的投影点尽可能远

C、同类样例的投影点尽可能远

D、异类样例的投影点尽可能近

答案：AB

106.列式数据库（如BigTable和HBase）以表的形式存储数据，表结构包括（）

等元素。

A、关键字

B、时间戳

G列簇

D、数据类型

答案：ABC

107.Numpy数组中将一个数组分割成多个小数组数组的分割函数包括（）。

A、hspIitB

B、vspIitC

C、spIitD

Dvsplit

答案：ABCD

108.下列跟人工智能场景相关的是（）。

A\图像识别

B\人脸识别

C、语音识别

D、语义分析

答案：ABCD

109.以下选项中是正确的字符串有（）。

A、'abc"ab"

B、‘abc"ab'

C、“abc”ab”

D、“abc\"ab”

答案：BD

110.DGI定义的数据治理任务包括（）。

A、数据质量的评估

B、主动定义或序化规则

C、为数据利益相关者提供持续跨职能的保护与服务

D、应对并解决因不遵守规则而产生的问题

答案：BCD

111.大数据偏见包括（）。

A、数据源的选择偏见

B、算法与模型偏见

C、结果解读方法的偏见

D、数据呈现方式的偏见

答案：ABCD

112.关于Dropout说法，正确的是（）。

A、Dropout背后的思想其实就是把DNN当作一个集成模型来训练，之后取所有

值的平均值，而不只是训练单个DNN

B、DNN网络将Dropout率设置为p,也就是说，一个神经元被保留的概率是1-p。

当一个神经元被丢弃时，无论输入或者相关的参数是什么，它的输出值就会被设

置为0

C、丢弃的神经元在训练阶段，对BP算法的前向和后向阶段都没有贡献。由于这

个原因，每一次训练它都像是在训练一个新的网络

D\ropout方法通常和L2正则化或者其他参数约束技术（比如MaxNorm）一起使

用，来防止神经网络的过拟合

答案：ABCD

113.下列场景适合使用Python的是（）。

A、可作为脚本语言，快速编写小型程序、脚本等

B、可应用在数据科学、交互式计算及可视化领域

C、可作为胶水语言，整合如C++等语言代码

D\Python适用于低延时'高利用率的应用场景

答案：ABC

114.关于Hive的说法正确的是（）。

A、Hive是基于Hadoop的数据仓库工具

B、Hive可以将结构化的数据文件映射为一张数据库表

C、最初，Hive由Google开源，用于解决海量结构化日志数据统计问题

D、Hive的主要应用场景是离线分析

答案：ABD

115.下列关于词袋模型说法正确的是（）。

A、词袋模型可以忽略每个词出现的顺序

B、词袋模型不可以忽略每个词出现的顺序

C\TensorFIow支持词袋模型

D、词袋模型可以表出单词之间的前后关系

答案：AC

116.下列关于密度聚类说法，错误的是（）。

A、DBSCAN是一种著名的密度聚类算法

B、密度聚类从样本数量的角度来考察样本之间的可连接性

C、密度聚类基于不可连接样本不断扩展聚类簇，以获得最终的聚类结果

D、密度直达关系通常满足对称性

答案：BCD

117.数据挖掘算法的组件包括（）。

A、模型或模型结构

B、评分函数

C、优化和搜索方法

D、数据管理策略

答案：ABCD

118.Python中jieba库支持哪几种模式为（）。

A、精准模式

B、匹配模式

C、全模式

D、搜索引擎模式

答案：ACD

119.下列关于特征的稀疏性说法，正确的是（）。

A、稀疏性指的是矩阵中有许多列与当前学习任务无关

B、稀疏样本可减少学习任务的计算开销

C、学习任务难度可能有所降低

D、稀疏矩阵没有高效的存储方法

答案：ABC

120.以下属于规则的分词方法的是（）。

A、正向最大匹配法

B、逆向最大匹配法

C、双向最大匹配法

D、条件随机场

答案：ABC

121.以下（）是一元通用函数。

A、np.add）

B\np.maximum）

C、np.exp）

D\np.sqrt）

答案：CD

122.我们想要减少数据集中的特征数即降维，以下方案合适的是（）。

A、使用前向特征选择方法

B、使用后向特征排除方法

C、我们先把所有特征都使用，去训练一个模型，得到测试集上的表现。然后我

们去掉一个特征，再去训练，用交叉验证看看测试集上的表现。如果表现比原来

还要好，我们可以去除这个特征

D、查看相关性表，去除相关性最高的一些特征

答案：ABCD

123.在Spark的基本流程中，主要涉及（）。

A、DriverProgram

B、CIusterManager

C、WorkerNode

D\Executor

答案：ABCD

124.以下关于HBase说法正确的是（）。

A、面向列的数据库

B、非结构化的数据库

C、支持大规模的随机、实时读写

D、采用松散数据模型

答案：ABCD

125.下列说法中正确的是（）o

A、云计算的主要特点是非常昂贵

B、大数据是多源、异构'动态的复杂数据，即具有4V特征的数据

C、大数据是数据科学的研究对象之一

D、MapReduce是采用云计算这种新的计算模式研发出的具体工具软件(或算法)

答案：BCD

126.()是Spark比MapReduce计算快的原因。

A、基于内存的计算

B、基于DAG的调度框架

C、基于Lineage的容错机制

D、基于分布式计算的框架

答案：ABC

127.下面关于单样本Z检验的说法，正确的是()。

A、在Python中,单样本Z检验可以使用scipy.stats.s()实现

B、单样本Z检验适用于样本量较大的情况

C、单样本Z检验假设要检验的统计量(近似)满足正态分布

D、单样本Z检验常用于检验总体平均值是否等于某个常量

答案：BCD

128.下列属于CNN关键层的是()o

A、输入层

B、卷积层

C、激活层

D、池化层

答案：ABCD

129.在正则化公式中，入为正则化参数，关于人的描述正确的是（）。

A、若正则化参数人过大，可能会导致出现欠拟合现象

B、若入的值太大，则梯度下降可能不收敛

C、取一个合理的人值，可以更好地应用正则化

D、如果令人的值很大的话，为了使CostFunction尽可能的小,所有6的值（不

包括eo）都会在一定程度上减小

答案：ABCD

130.下列有关MapReduce计算框架的描述正确的是（）。

A、MapReduce可以计算任务的划分和调度

B、MapReduce可完成数据的分布存储和划分

CvMapReduce可以实现处理系统节点出错检测和失效恢复

DvMapReduce可实现处理数据与计算任务的同步

答案：ABCD

131.以下关于MapReducel.0版本说法正确的是（）。

A、扩展性差

B、可靠性差

C、资源利用率低

D、无法支持多种计算框架

答案：ABCD

132.HighBias（高偏差）的解决方案有（）。

A、Boosting

B、复杂模型（非线性模型、增加神经网络中的层）

G更多特征

D、-

答案：ABC

133.常用的数据审计方法可以分为（）。

A、预定义审计

B、自定义审计

C、可视化审计

D、结构化审计

答案：ABC

134.以下关于HTML标签嵌套规则的说法，正确的是（）。

A、块元素可以包含内联元素或某些块元素，但内联元素也可以包含块元素

B、HTML标签包括块级元素和内嵌元素

C、内嵌元素一般用在网站内容之中的某些细节或部位，用以“强调区分样式上

标下标锚点”等，通常包括：aabbrbbrfontiimginputkbdIabeIqsseIectsmaIIs

pansubttuvar等

D、其中块级元素一般用来搭建网络架构布局承载内容，通常包括的标签有：ad

dressdirdivdIdtddformhl~h6hrisindexmenunoframesnoscriptoIppretabIeuI

等

答案：BCD

135.在数据科学中，计算模式发生了根本性的变化—从集中式计算、分布式计

算、网格计算等传统计算过渡至云计算，有一定的代表性的是Google云计算三

大技术，这三大技术包括（）。

A、HadoopYRN资源管理器

B、GFS分布式存储系统

C\MapRedue分布式处理技术

D、BigTable分布式数据库

答案：BCD

136.在Python中，以下导入模块方式正确的是()。

A、import模块名

B、import模块名as模块的别名

C\from模块名import函数名

D\from模块名import函数名A,函数名B

答案：ABCD

137.下面定义函数正确的是()。

A、defcaIc(*numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

B、defcaIc(**numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

C\defcaIc(**numbers,n):sum=0forninnumbers:sum=sum+n*nreturnsum

D、efcaIc(**numbers,n=0):sum=0forninnumbers:sum=sum+n*nreturnsum

答案：AB

138.字典的遍历正确的有()o

A、forin变量i,字典：使用i遍历所有的键，有键就可以通过变量访问其值

B、for变量iin字典：使用i遍历所有的键，有键就可以通过变量访问其值

C\for变量i,变量jin字典items):使用变量i遍历所有键，通过变量j遍

历所有值

D、forin变量i,变量j字典items）:使用变量i遍历所有键，通过变量j遍历

所有值

答案：BC

139.与自然语言处理相关的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的

区别是（）。

A、Jieba专注于中文分词操作

B、NLTK主要用于一般自然语言处理任务（标记化，P0S标记，解析等）

C、Gensim主要用于题和向量空间建模、文档集合相似性等

D、Scikit-learn为机器学习提供了一个大型库，其中包含了用于文本预处理的

工具，例如词频-逆文档频率特征提取（TfidfVectorizer）等。

答案：ABCD

140.下面属于范数规则化的作用的是（）。

A、保证模型尽可能的简单，避免过拟合

B、约束模型特征

C、最小化问题

D、最大化问题

答案：AB

141.以下关于L1和L2范数的描述，正确的是（）。

A、L1范数为x向量各个元素绝对值之和。

B、L2范数为x向量各个元素平方和的1/2次方，L2范数又称Euclidean范数或

Frobenius范数

C、L1范数可以使权值稀疏，方便特征提取

D、L2范数可以防止过拟合，提升模型的泛化能力。

答案：ABCD

142.某单位运用随机森林算法思想建立抢修热点模型。该模型主要预测下期台区

工单数量，构建抢修热点。以下模型算法构建步骤中合理的顺序是（）。

A、将历史数据进行随机自助法重抽样，生成N个训练样本集

B、将N个训练样本集分别做决策树，生成N棵决策树

C、将N棵决策树随机构成随机森林

D、未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票，

得出针对该预测样本最优的决策树进行运算，并计算出最终结果。

答案：ABCD

143.预剪枝使得决策树的很多分子都没有展开，会导致（）。

A、显著减少训练时间开销

B、显著减少测试时间开销

C、降低过拟合风险

D、提高欠拟合风险

答案：ABCD

144.数据可视化是利用计算机图形学和图像处理技术，将数据转换成（）或（）

在屏幕上显示出来，并进行交互处理的理论、方法和技术。

A、文字

B、图形

C、图像

D、视频

答案：BC

145.下列属于TF-IDF的应用有（）o

A、搜索引擎

B、关键词提取

C、文本相似性

D、数据降维

答案：ABC

146.集成学习中增强多样性的常见做法有（）。

A、数据样本扰动

B、输入属性扰动

C、输出表示扰动

D、算法参数扰动

答案：ABCD

147.以下哪层是卷积神经网络的组成部分（）。

A、卷积层

B、中间层

C、池化层

D、全连接层

答案：ACD

148.可作为决策树选择划分属性的参数是（）。

A、信息增益

B、增益率

C、基尼指数

D\密度函数

答案：ABC

149.假设目标遍历的类别非常不平衡，即主要类别占据了训练数据的99%,现在

你的模型在训练集上表现为99%的准确度，那么下面说法正确的是（）。

A、准确度并不适合衡量不平衡类别问题

B、准确度适合衡量不平衡类别问题

C、精确度和召回率适合于衡量不平衡类别问题

D、精确度和召回率不适合衡量不平衡类别问题

答案：AC

150.DGI定义的数据治理任务包括（）。

A、数据质量的评估

B、主动定义或序化规则

C、为数据利益相关者提供持续跨职能的保护与服务

D、应对并解决因不遵守规则而产生的问题

答案：BCD

151.在数据科学中，计算模式发生了根本性的变化—从集中式计算,分布式计

算、网格计算等传统计算过渡至云计算，有一定的代表性的是Google云计算三

大技术，这三大技术包括（）。

A、HadoopYRN资源管理器

B、GFS分布式存储系统

C\MapRedue分布式处理技术

D、BigTable分布式数据库

答案：BCD

152.（）是通过对无标记训练样本的学习来进行分类的。

A、密度估计

B、异常检测

G线性回归

D、聚类分析

答案：ABD

153.以下（）属于数据统计分析工具。

A、Weka

B、SAS

C、SPSS

D\MatIab

答案：ABCD

154.决策树的划分选择有（）。

A、增益系数

B、信息增益

C、增益率

D、基尼系数

答案：BCD

155.下面是Python的特点和优点是（）。

A、解释性强

B、使用动态特性

C、面向对象

D、语法简洁

答案：ABCD

156.以下属于汉语未登录词的类型的有（）。

A、存在于词典但出现频率较少的词

B、新出现的普通词汇

C、专有名词

D、专业名词和研究领域名称

答案：BCD

157.假设检验中，首先需要提出零假设和备择假设，零假设是（），备择假设是

（）。

A、只有出现的概率大于阈值才会被拒绝的，只有零假设出现的概率大于阈值才

会被承认的

B、希望推翻的结论，希望证明的结论

C、只有出现的概率小于阈值才会被拒绝的，只有零假设出现的概率小于阈值才

会被承认的

D、希望证明的结论，希望推翻的结论

答案：BC

158.聚类性能度量外部指标包括（）。

A、Jaccard系数

B、FM指数

C\Dunn指数

D、Rand指数

答案：ABD

159.以下可用于处理由于光照不均带来的影响的图像处理方法有（）。

A、同态滤波

B、顶帽变换

C、基于移动平均的局部阈值处理

D、拉普拉斯算子

答案：ABC

160.图像识别的一般步骤包括（）。

A、预处理

B、特征提取

C、超像素生成

D、识别分类

答案：ABD

161.关于降维说法正确的是（）。

A、PA是根据方差这一属性降维的

B、降维可以防止模型过拟合

C、降维降低了数据集特征的维度

D、降维方法有PLA等

答案：ACD

162.按照涉及自变量的多少，可以将回归分析分为（）。

A、线性回归分析

B、非线性回归分析

C、一元回归分析

D、多元回归分析

答案：CD

163.特征向量的缺失值处理：缺失值较多，直接将该特征舍弃掉，否则可能反倒

会带入较大的noise,对结果造成不良影响；缺失值较少,其余的特征缺失值都

在10%以内，我们可以采取的处理方式有（）。

A、把NaN直接作为一个特征，假设用0表示

B、用均值填充

C、用随机森林等算法预测填充

D、以上答案都不正确

答案：ABC

164.关于分析学习和归纳学习的比较，说法正确的是（）。

A、归纳学习拟合数据假设，分析学习拟合领域理论的假设

B、归纳学习论证方式为统计推理，分析学习为演绎推理

C、归纳学习不需要先验知识

D、训练数据不足时归纳学习可能会失败

答案：ABCD

165.在假设检验中，当原假设为“伪”，但数据分析人员没有拒绝它时犯的错误

叫（）。

A、a错误

B、B错误

c、取伪错误

D、弃真错误

答案：BC

166.如将A、B、C三个分类器的PR曲线画在一个图中，其中A、B的PR曲线可

以完全包含住C的PR曲线，A与B的PR曲线有交点，A、B、C的平衡点分别为

0.79、0.66、0.58,以下说法中正确的是（）。

A、学习器A的性能优于学习器C

B、学习器A的性能优于学习器B

C、学习器B的性能优于学习器C

D、学习器C的性能优于学习器B

答案：ABC

167.以下属于数据挖掘与分析工具的有（）。

A、TabIeau

B、Python

C、SPSS

D、Alteyx

答案：ABCD

168.数据挖掘的挖掘方法包括（）。

A、聚类

B\回归分析

C、神经网络

D、决策树算法

答案：ABCD

169.Pandas中删除列的方式是（）□

A、df.drop（［"列名,axis=1）

B\df.drop（coIumns=［"列名"］）

C\df.drop（［0,1］）

D\f.drop（［0］）

答案：AB

170.常用的数据审计方法可以分为（）。

A、预定义审计

B、自定义审计

C、可视化审计

D、结构化审计

答案：ABC

171.“以数据为中心”是数据产品区别于其他类型产品的本质特征，表现在（）

方面。

A、数据驱动

B、数据密集型

C、数据范式

D、数据可视化

答案：ABC

172.主要面向或关注“过去”的数据分析过程为（）。

A、描述性分析

B、诊断性分析

C、预测性分析

D、规范性分析

答案：AB

173.下列模型属于机器学习生成式模型的是（）。

A、朴素贝叶斯

B、隐马尔科夫模型

C、线性回归模型

D\深度信念网络

答案：ABD

174.下列关于探索型数据分析常用图表的说法，正确的有（）。

A、绝大部分情况下使用饼图代替条形图能更加直观地展示数据之间的特征和对

比

B、探索型数据分析常用的图表包括条形图、直方图、饼图、折线图、散点图、

箱型图等

C、在探索型数据分析时应该尽量避免使用饼图，然而在数据报告中可以使用饼

图达到更加美观的效果

D、直方图和箱型图都可以用来展示数据的分布情况

答案：BCD

175.决策树在（）情况下会导致递归返回。

A、当前节点包含的样本全属于同一类

B、当前属性集为空

C、当前节点包含的样本集合为空

D、所有样本在所有属性上取值相同

答案：ABCD

176.Analytics1.0的主要特点有()。

A、分析活动滞后于数据的生成

B、重视结构化数据的分析

C、以对历史数据的理解为主要目的

D、注重描述性分析

答案：ABCD

177.回归分析有很多种类，常见的有()。

A、线性回归

B、系数回归

G逻辑回归

D、曲线回归

答案：ACD

178.以下()是scipy中的模块。

A、cIuster

B\constants

C、integrate

D、io

答案：ABCD

179.决策树递归停止的条件为（）。

A、训练数据集使用完

B、所有的类标签完全相同

C、特征用完

D、遇到丢失值

答案：BC

180.下面属于范数规则化的作用的是（）。

A、保证模型尽可能的简单，避免过拟合

B、约束模型特征

C、最小化问题

D、最大化问题

答案：AB

181.下列既可以用于分类，又可以用于回归的机器学习算法有（）。

A\k近邻

B、逻辑回归

C、决策树

D、线性回归

答案：AC

182.下面选项是python标准库的是（）。

A、os

B、sys

C、numpy

D、re

答案：ABD

183.语音识别的方法包括0o

A、声道模型方法

B、模板匹配的方法

C、利用人工神经网络的方法

D、语音知识方法

答案：ABCD

184.数据科学基本原则中，三世界原则指的是（）

A、精神世界

B、数据世界

C、物理世界

D、数字世界

答案：ABC

185.Spark提交工作的方式（）。

AvClient

B、CIuster

C、StandaIone

D、YARN

答案：AB

186.下面导入模块正确的是（）。

A、importnumpy

B、importnumpyasnp

C、frommatpIotIibimportpypIot

DvfrommatpIotIibimportpypIotasp11

答案：ABCD

187.SparkRDD的依赖机制包括O。

A、宽依赖

B、深度依赖

C、广度依赖

D、窄依赖

答案：AD

188.在假设检验中，当原假设为“伪"但数据分析人员没有拒绝它时犯的错误

叫（）。

A、a错误

B、B错误

C、取伪错误

D、弃真错误

答案：BC

189.下列关于自然语言处理中的关键词提取的说法，正确的是（）。

A、关键词提取是指用人工方法提取文章关键词的方法

B、TF-IDF模型是关键词提取的经典方法

C、文本中出现次数最多的词最能代表文本的主题

D、这个问题涉及数据挖掘、文本处理'信息检索等领域

答案：BD

190.下列关于深度学习的实质及其与浅层学习的说法，正确的是（）。

A、深度学习强调模型深度

B、深度学习突出特征学习的重要性：特征变换+非人工

C、没有区别

D、以上答案都不正确

答案：AB

191.Hadoop中map输出结果说法正确的是（）。

A、＜key,value〉键值对

B、输出中间临时结果

C、输出最终计算结果

D、输出结果永久保留

答案：AB

192.数据故事化描述应遵循的基本原则是（）。

A、忠于原始数据原则

B、设定共同场景原则

C、有效性利用原则

D、3c精神原则

答案：ABCD

193.以下算法中可以应用于图像分割的是（）。

A、边缘检测技术

B、阈值分割技术

C、基于区域的分割技术

D、区域生长方法

答案：ABCD

194.统计模式分类问题中，当先验概率未知时，可以使用（）。

A、最小最大损失准则

B、最小误判概率准则

C、最小损失准则

D、N-P判决

答案：AD

195.请问下面哪些是离散型变量（）。

A、示波器

B、心电图及脑动电图扫描器对脑电波的测量

C、过去数月的总销售额

D、公司每年的红利

答案：CD

196.能在卷积窗口的边界上使卷积掩膜中心像素和它的4-邻接点的系数降至0

附近的滤波器有（）。

A、同态滤波

B、图斯滤波

C、巴特沃斯滤波

D、中值滤波

答案：BC

197.决策树的划分选择有（）。

A、增益系数

B、信息增益

C、增益率

D、基尼系数

答案：BCD

198.图像压缩是建立在图像存在（）几种冗余之上。

A、编程冗余

B、像素间冗余

C、心理视觉冗余

D、计算资源冗余

答案：ABC

199.下列方法中，属于词语情感分析的方法有（）。

A、基于网络的分析方法

B、基于word-embedding的分析方法

C、基于词典的分析方法

D、基于词频的分析方法

答案：AC

200.Numpy中计算数组的标准差和方差的函数是（）。

A、std）

B、diff）

C\exp)

D\var)

答案：AD

201.Spark的技术架构可以分为哪几层（）。

A、资源管理层

B、Spark核心层

C、应用层

D、服务层

答案：ABD

202.以下关于神经网络模型描述正确的是（）。

A、神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出

变量都是下一层的输入变量

B、神经网络模型建立在多神经元之上

C、神经网络模型中，无中间层的神经元模型的计算可用来表示逻辑运算

D、神经网络模型一定可以解决所有分类问题

答案：ABC

203.类的特点有（）o

A、封装

B、继承

C、多态

D、重复

答案：ABC

204.下列方法中，可以用于特征降维的方法包括（）。

A、主成分分析PCA

B、线性判别分析LDA

G深度学习SparseAutoEncoder

D、矩阵奇异值分解SVD

答案：ABD

205.处理图像平滑处理的滤波有（）。

A、盒式滤波

B、均值滤波

C、图斯滤波

D、中值滤波

答案：ABCD

206.关于相关与线性关系，下列说法正确的是（）

A、相关不一定是线性关系，可能是非线性关系

B、相关一定是线性关系，不可能是非线性关系

C、相关时若有相关系数r为0,说明两个变量之间不存在线性关系，仍可能存

在非线性关系

D、相关系数为0是两个变量独立的必要不充分条件

答案：ACD

207.关于CAP理论说法正确的是（）。

A、一个分布式系统不能同时满足一致性,可用性和分区容错性等需求

B、一致性主要指强一致性

C、一致性、可用性和分区容错性中的任何两个特征的保证（争取）可能导致另

一个特征的损失（放弃）

D、可用性指每个操作总是在“给定时间”之内得到返回“所需要的结果”

答案：ABCD

208.常见的聚类性能度量外部指标有（）。

A、Jaccard系数

B、DB指数

C、FM指数

D、以上答案都正确

答案：AC

209.在网络爬虫的爬行策略中，应用最为常见的是（）。

A、深度优先遍历策略

B、广度优先遍历策略

C、高度优先遍历策略

D、反向链接策略

答案：AB

210.下列关于情感分析的说法正确的是（）。

A、简单而言，是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过

程

B、情感分析的发展得益于社交媒体的兴起

C、按照处理文本的粒度不同，情感分析大致可分为词语级、句子级、篇章级三个

D、情感分析可以应用于文本挖掘

答案：ABCD

211.假设检验中，首先需要提出零假设和备择假设，零假设是()，备择假设是

()。

A、只有出现的概率大于阈值才会被拒绝的，只有零假设出现的概率大于阈值才

会被承认的

B、希望推翻的结论，希望证明的结论

C、只有出现的概率小于阈值才会被拒绝的，只有零假设出现的概率小于阈值才

会被承认的

D、希望证明的结论，希望推翻的结论

答案：BC

212.关于卷积神经网络的叙述中，正确的是()。

A、可用于处理时间序列数据

B、可用于处理图像数据

C、卷积网络中使用的卷积运算就是数学中的卷积计算

D、至少在网络的一层中使用卷积

答案：ABD

213.在Python中,执行importdatetimeasdt语句后，如下下列时间或日期定义

方式正确的是()。

A、dt.datetime(2019,12,12,23,23,23)

B、dt.datetime(2019,0,0,23,23,23)

C\dt.datetime(2019,12,12,0)

D、1.1ime(23,23,23)

答案：AC

214.数据科学项目主要涉及的活动包括（）。

A、模式/模型的应用及维护

B、模式/模型的洞见

C、结果的可视化与文档化

D、模式/模型的验证和优化

答案：ABCD

215.0是Hadoop运行的模式。

A、单机版

B、伪分布式

C、分布式

D、全分布式

答案：ABC

216.列式数据库（如BigTable和HBase）以表的形式存储数据，表结构包括（）

等元素。

A、关键字

B、时间戳

G列簇

D、数据类型

答案：ABC

217.Python逻辑表达式中，（）会导致逻辑短路，即不会继续向下推算而直接

返回结果。

A、FaIse开头的and语句

B\FaIse开头的or语句

C\True开头的and语句

D、True开头的or语句

答案：AD

218.下面关于机器学习的理解，正确的是（）。

A、非监督学习的样本数据是要求带标签的

B、监督学习和非监督学习的区别在于是否要求样本数据带标签

C、强化学习以输入数据作为对模型的反馈

D、卷积神经网络一般用于图像处理等局部特征相关的数据

答案：BCD

219.不属于使用池化层相比于相同步长的卷积层的优势有（）。

A、参数更少

B、可以获得更大下采样

G速度更快

D、有助于提升精度

答案：BCD

220.在监督式学习中使用聚类算法的方法有（）。

A、首先，可以创建聚类，然后分别在不同的集群上应用监督式学习算法

B、在应用监督式学习算法之前，可以将其类别ID作为特征空间中的一个额外的

特征

C、在应用监督式学习之前，不能创建聚类

D、在应用监督式学习算法之前，不能将其类别ID作为特征空间中的一个额外的

特征

答案：AB

221.以下描述中正确的是0o

A、统计学是数据科学的理论基础之一

B、Python语言是统计学家发明的语言

C、机器学习是数据科学的理论基础之一

D、数据科学是统计学的一个分支领域（子学科）

答案：AC

222.Spark支持的计算模型有（）。

A、批处理

B、实时计算

C、机器学习模型

D、交互式查询

答案：ABCD

223.一个回归模型存在多重共线问题，在不损失过多信息的情况下，可采取的措

施有（）。

A、剔除所有的共线性变量

B、剔除共线性变量中的一个

C、通过计算方差膨胀因子（VariancelnflationFactor,VIF）来检查共线性程

度，并采取相应措施

D、删除相关变量可能会有信息损失，我们可以不删除相关变量，而使用一些正

则化方法来解决多重共线性问题，例如Ridge或Lasso回归

答案：BCD

224.以下选项中，不是Python语言保留字的是（）。

A、do

B、pass

Cvexcept

DvuntiI

答案：AD

225.图像分割中常使用的领域有（）。

A、0邻域

B、4邻域

C、8邻域

D、24邻域

答案：BC

226.以下描述中属于Analytics2.0的主要特点的是（）。

A、侧重嵌入式分析

B、重视非结构化数据的分析

C、以决策支持为主要目的

D、注重解释性分析和预测性分析

答案：BCD

227.下列选项中基于核的机器学习算法有（）。

A、最大期望算法

B、径向基核函数

C、线性判别分析法

D、支持向量机

答案：BCD

228.EDA（探索性数据分析）方法与传统统计学的验证性分析方法的区别有（）o

A、EDA需要事先提出假设，而验证性分析不需要

B、EDA中采用的方法往往比验证性分析简单

C、在一般数据科学项目中，探索性分析在先，验证性分析在后

D、EDA更为简单、易学和易用

答案：BCD

229.从可视化处理视角看，可以将数据分为四个类型（）四个类型并采用不同的

视觉映射方法。

A、定类数据

B、定序数据

C、定距离数据

D、定比暑假

答案：ABCD

230.属于特征选择的优点有（）。

A、解决模型自身的缺陷

B、减少过拟合

C、提升模型的性能

D、增强模型的泛化能力

答案：BCD

231.Spark容错性的方式有哪些（）。

A、数据检查点

B、存储原始数据

C、记录数据的更新

D、自建数据版本

答案：AC

232.下列可以用来构造神经网络的算法有（）。

A、kNN

B、线性回归

G逻辑回归

D、-

答案：BC

233.Hadoop组件Zookeeper的设计目标和主要特点包括（）。

A、简单性

B、自我复制

C、顺序访问

D、高速读取

答案：ABCD

234.Pig说法正确的是（）o

A、弥补MapReduce编程复杂性

B\封装MapReduce处理过程

C、PigLatin是一种数据分析语言

D、适用于并行处理

答案：ABCD

235.Python变量命名规则包含（）。

A、变量名只能包含字母、数字和下划线。变量名可以字母或下划线开头，但不

能以数字开头。例如，可将变量命名为message」，但不能将其命名为1_messa

ge。

B、变量名不能包含空格，但可使用下划线来分隔其中的单词。例如，变量名gr

eeting_message可行，但变量名greetingmessage会引发错误。

C\不要将Python关键字和函数名用作变量名，即不要使用Python保留用于特

殊用途的单词，如print。

D\变量名应既简短又具有描述性。例如，name比n好，student_name比s_n

好，name_lengthbtIength_of_persons_name好。

答案：ABCD

236.以下跟图像处理相关的是（）。

A、图像识别

B、人脸识别

C、视频分析

D、自然语言处理

答案：ABC

237.关于总体和样本的说法，正确的是（）。

A、总体也就是研究对象的全体

B、如果总体是某一条生产线上生产的全部产品，那么样本可以是每间隔10s抽

取的产品

C、样本是从总体的随机抽样

D、如果总体是某一小学的1000名学生，那么样本可以是一年级的100名学生

答案：ABC

238.深度学习方法不适用于的场景有（）。

A、数据样本充足

B、数据样本不足

C、数据集具有局部相关特性

D、数据集没有局部相关特性

答案：BD

239.在Windows系统中通过Geany编写Python程序，运行Python程序的常用步

骤是（）。

A、菜单Build>Execute

B、菜单Execute>BuiId

G按F5

D、按F10

答案：AC

240.在Spark中，弹性分布式数据集的特点包括（）。

A、可分区

B、可序列化

C、可直接修改

D、可持久化

答案：ABD

241.下列哪些是RDBMS中事务遵循的原则()o

A、原子性(Atomicity)

B、一致性(Connsistency)

G隔离性(Isolation)

Dv持久性(DurabiIity)

答案：ABCD

242.Spark组件包含哪两个算子()。

A、Map

B、Action

C、Transformation

D、Reduce

答案：BC

243.特征选择的目的是()。

A、减少特征数量、降维

B、使模型泛化能力更强

C、增强模型拟合能力

D、减少过拟合。

答案：ABD

244.对于不同场景内容，一般数字图像可以分为()。

A、二值图像

B、灰度图像

C、彩色图像

D、深度图像

答案：ABC

245.

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2024年数据价值挖掘技能竞赛考试题库大全-下（多选题）

文档简介

温馨提示

最新文档

评论

2024年数据价值挖掘技能竞赛考试题库大全-下（多选题）

文档简介

温馨提示

最新文档

评论

相关文档