大数据理论考试复习题库大全-上（单选题部分）

上传人：无*** IP属地：河北上传时间：2025-04-11 格式：PDF 页数：215 大小：20.42MB 积分：12 举报 版权申诉

已阅读5页，还剩210页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据理论考试复习题库大全-上(单选题部分)

一'单选题

1.把图像分割问题与图的最小割(mincut)问题相关联的方法是()。

A、基于图论的分割方法

B、分水岭算法

C、SLI法

D、基于阈值的方

答案：A

解析:基于图论的分割方法把图像分割问题与图的最小割(mincut)问题相关联。

首先将图像映射为带权无向图，图中每个节点对应于图像中的每个像素，每条边

的权值表示了相邻像素之间在灰度、颜色或纹理方面的非负相似度。

2.MapReduce里面的query、sort和limit等都是针对哪个阶段的操作?

A、Map()之前；

B、Reduce()之前；

GReduce()之后；

D、finalize()之后;

答案：A

解析：query是一个筛选条件，只有满足条件的文档才会调用map函数；sort

是在发往map函数前给文档排序；limit是发往map函数的文档数量的上限，所

以它们都是在Map()之前。

3.下列哪个程序通常与NameNode在一个节点启动()

AxSecondaryNameNode

B、DataNode

C、TaskTracker

D、Jobtracker

答案：D

解析：hadoop的集群是基于master/sIave模式，namenode和jobtracker属于

master,datanode和tasktracker属于sIave,master只有一个，而slave有

多个。SecondaryNameNode内存需求和NameNode在一个数量级上，所以通常se

condaryNameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。

JobTracker对应于NameNode0TaskTracker对应于DataNodeoDataNode和Nam

eNode是针对数据存放来而言的，JobTracker和TaskTracker是对于MapReduce

执行而言的。

4.在回归模型中，下列哪一项在权衡欠拟合(under-fitting)和过拟合(over

-fitting)中影响最大()

A、多项式阶数

B、更新权重w时，使用的是矩阵求逆

C、使用常数项D.使用梯度下降

答案：A

解析：选择合适的多项式阶数非常重要。如果阶数过大，模型就会更加复杂，容

易发生过拟合；如果阶数较小，模型就会过于简单，容易发生欠拟合。

5.数据探索是指针对目标可变、持续'多角度的搜索或分析任务，下列哪项不是

其搜索过程的特点Oo

A、有选择

B、有策略

C、有目标

D、反复进行的

答案：c

解析：数据探索是指针对目标可变、持续'多角度的搜索或分析任务，其搜索过

程是有选择'有策略和反复进行的。

6.()不仅可用于多层前馈神经网络，还可用于其他类型的神经网络。

A、感知机

B、神经元

C、神经系统

D、误差逆传

答案：D

解析：误差逆传播(errorBackPropagation,简称BP)算法不仅可用于多层前馈

神经网络，还可用于其他类型的神经网络，例如训练递归神经网络[Pineda,19

87]o

7.下列哪个不是RDD的缓存方法()

A、persist()

B、略

C、che()Memory()

D、以上答案都正

答案：c

解析：RDD的缓存方法包括persist和cache,其中cache方法默认存储到内存

中。

8.Base原则的含义不包括()

A、基本可用

B、柔性状态

C、最终一致

D、基础条

答案：D

解析：BASE原则是BasicallyAvailabIe(基本可用)、SoftState(柔性状态)和E

ventuaIIyConsistent(最终一致)的缩写。BasicaIIyAvaiIabIe是指可以容忍系

统的短期不可用，并不追求全天候服务；SoftState是指不要求一直保持强一致

状态；EventualIyConsistent是指最终数据一致，而不是严格的实时一致，系

统在某一个时刻后达到一致性要求即可。

9.哪种聚类方法采用概率模型来表达聚类Oo

A、K-means

B、LVQ

C、DBSN

D、高斯混合聚

答案：D

解析：高斯混合聚类(MixtureofGaussian)采用概率模型来表达聚类。

10.下列关于支持向量回归说法错误的是()o

A、支持向量回归是将支持向量的方法应用到回归问题中

B、支持向量回归同样可以应用核函数求解线性不可分的问题

C、同分类算法不同的是，支持向量回归要最小化一个凹函数

D、支持向量回归的解是稀疏

答案：C

解析：支持向量机最大间隔模型是一个凸二次规划问题。

11.在集成学习中，对于数据型输出，最常见的结合策略是O。

A、平均法

B、投票法

C、学习法

D、以上答案都正

答案：A

解析：在集成学习中，对于数据型输出，最常见的结合策略平均法。对于分类任

务来说，最常见的结合策略投票法。当训练数据很多时?一种更为强大的结合策

略是使用学习法。

12.K-means++算法选择初始seeds的基本思想就是：初始的聚类中心之间的相互

距离要尽可能的远。那么算法流程为Oo1.从输入的数据点集合中随机选择一

个点作为第一个聚类中心2.对于数据集中的每一个点x,计算它与最近聚类中心

(指已选择的聚类中心)的距离D(x)3.选择一个新的数据点作为新的聚类中心，

选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大4.重复2和3

直到k个聚类中心被选出来5.利用这k个初始的聚类中心来运行标准的k-mean

s算法

A、2.5.4.3.1

B、1.5.4.2.3

C、1.2.3.4.5

D、4.3.2.1.

答案：c

解析：k-means++算法基本流程为：1.从输入的数据点集合中随机选择一个点作

为第一个聚类中心2.对于数据集中的每一个点x,计算它与最近聚类中心(指已

选择的聚类中心)的距离D(x)3.选择一个新的数据点作为新的聚类中心，选择的

原则是：D(x)较大的点，被选取作为聚类中心的概率较大4.重复2和3直到k

个聚类中心被选出来5.利用这k个初始的聚类中心来运行标准的k-means算法

13.评估完模型之后，发现模型存在高偏差(highbias),应该如何解决。。

A、减少模型的特征数量

B、增加模型的特征数量

C、增加样本数量

D、以上答案都正

答案:B

解析：如果模型存在高偏差，意味着模型过于简单，为了使模型更加健壮，可以

在特征空间中添加更多的特征。而增加样本数量将减少方差。

14.在Hadoop生态系统中，()可以将结构化的数据文件映射成一张数据库表,

并提供简单的查询语言。

A、Pig

B、Hbase

C、Hive

D、MapReduce

答案：C

解析：Hive是构建在hadoop上的数据仓库工具，可以将结构化的数据文件映

射为一张数据库表，可以用来进行数据提取转化加载（ETL）,并提供简单的SQ

L查询功能。

15.大数据平台构建分布式文件系统、分布式数据仓库、非关系型数据库、关系

型数据库，实现各类数据的集中存储与统一管理，满足（）存储需求。

A、历史数据

B、离线数据

C、实时数据

D、多样化数据

答案：D

解析：大数据平台构建分布式文件系统、分布式数据仓库、非关系型数据库、关

系型数据库，实现各类数据的集中存储与统一管理，满足多样化数据存储需求。

16.假负率是指（）。

A、正样本预测结果数/正样本实际数

B、被预测为负的正样本结果数/正样本实际数

C、被预测为正的负样本结果数/负样本实际数

D、负样本预测结果数/负样本实际

答案：B

解析：假负率是指被预测为负的正样本结果数/正样本实际数。

17.不属于Mayer-SchdnbergerV和CukierK.在其著名论著《Bigdata:ArevoIut

ionthatwiIItransformhowweIive,work,andthink》中提出了大数据时代统计的

思维变革的是()o

A、不是随机样本，而是全体数据

B、不是精确性，而是混杂性

C、不是描述性分析，而是预测性分析

D、不是因果关系，而是相关关

答案：C

解析：Mayer-SchdnbergerV和CukierK.在其著名论著《Bigdata/revolution

thatwiIItransformhowweIive,work,andthink》中提出了大数据时代统计的思维

变革：1)不是随机样本，而是全体数据：大数据时代应遵循“样本=总体”的理

念，需要分析与某事物相关的所有数据，而不是依靠分析少量的数据样本。2)

不是精确性，而是混杂性：大数据时代应承认数据的复杂性，数据分析目的不应

追求精确性，数据分析的主要瓶颈是如何提升效率而不是保证分析结果的精确度。

3)不是因果关系，而是相关关系：大数据时代的思想方式应转变—不再探求

难以捉摸的因果关系，转而关注事物的相关关系。

18.以下关于Hive说法正确的是()0

A、一种数据仓库

B、一种数据处理工具

C、一种可视化工具

D、一种分析算法

答案：A

解析：hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加

载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

19.()是指对于数据局部不良行为的非敏感性，它是探索性分析追求的主要目标

之一。

A、鲁棒性

B、稳定性

C、可靠性

D、耐抗性

答案：D

解析：耐抗性(Resistance)为探索性数据分析的四个指标之一，是指对于数据

的局部不良行为的非敏感性，它是探索性分析追求的主要目标之一。对于具有耐

抗性的分析结果，当数据的一小部分被新的数据代替时，即使它们与原来的数值

差别很大，分析结果也只会有轻微的改变。

20.下列属于小波去噪步骤的是()o

A、对图象信号进行小波分解

B、对经过层次分解后的高频系数进行阈值量化

C、利用二维小波重构图象信号

D、以上答案都正

答案：D

解析：小波去噪是通过短波实现噪音消除，与高斯去噪的基本原理一致。小波去

噪方法包括三个基本的步骤：对含噪声信号进行小波变换；对变换得到的小波系

数进行某种处理，以去除其中包含的噪声;对处理后的小波系数进行小波逆变换,

得到去噪后的信号。

21.以下()是对DMM(数据管理成熟度模型)中“已管理级”基本特点的正确

表述。

A、组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革

进行不断优化。

B、组织机构已用定量化的方式管理其关键过程的执行过程。

C、组织机构只有在项目管理过程中执行了

D、M给出的关键过程，而缺乏机构层次的统筹与管理组织机构的数据管理工作

超出了项目管理的范畴，由组织机构统一管理了其数据管理关键过程

答案：D

解析：DMM(数据管理成熟度模型)中“已管理级”基本特点的正确表述是组织

机构的数据管理工作超出了项目管理的范畴，由组织机构统一管理了其数据管理

关键过程。

22.机器学习和深度学习的关系是(_)o

A、深度学习包含机器学习

B、机器学习包含深度学习

C、二者是独立的

D、二者相互促

答案：B

解析：机器学习包含深度学习。

23.关于bagging下列说法错误的是：O。

A、各基分类器之间有较强依赖，不可以进行并行训练

B、最著名的算法之一是基于决策树基分类器的随机森林

C、当训练样本数量较少时，子集之间可能有重叠

D、为了让基分类器之间互相独立，需要将训练集分为若干子

答案:A

解析：Bagging方法在训练过程中，各基分类器之间无强依赖，可以进行并行训

练，随机森林就是一种典型的例子。

24.数据预处理方法不包括O。

A、数据清洗：去噪声和无关数据

B、数据集成：将多个数据源中的数据结合起来存在一个一致的数据存储中

C、数据变换：把原始数据转换成为适合数据挖掘的形式

D、数据转化：把连续数据转换为离散数据

答案：D

解析：数据转化多为将字符型数据转换为数值型数据。例如将性别【男，女】分

别转换为【0,1】。

25.关于0LAP和OLTP的区别描述,不正确的是（）。

A、0L主要是关于如何理解聚集的大量不同的数据.它与0T应用程序不同。

B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务。

C、OLAP的特点在于事务量大，但事务内容比较简单且重复率高。

D、OLAP是以数据仓库为基础的，但其最终数据来源与OLTP一样均来自底层的数

据库系统,两者面对的用户是相同的

答案：C

解析：OLTP是传统的关系型数据库的主要应用，主要是基本的'日常的事务处

理，记录即时的增、删、改、查，比如在银行存取一笔款，就是一个事务交易。

OLAP即联机分析处理，是数据仓库的核心部心，支持复杂的分析操作，侧重决

策支持，并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。

26.()和假设检验又可归结为统计推断的范畴，即对总体的数量特征做出具有

一定可靠程度的估计和判断.

A、参数估计

B、逻辑分析

C、方差分析

D、回归分

答案：A

解析：推断统计包括两方面的内容：参数估计和假设检验。

27.数据科学家可能会同时使用多个算法(模型)进行预测，并且最后把这些算

法的结果集成起来进行最后的预测(集成学习)，以下对集成学习说法正确的是

()0

A、单个模型之间具有高相关性

B、单个模型之间具有低相关性

C、在集成学习中使用“平均权重”而不是“投票”会比较好

D、单个模型都是用的一个算法

答案：B

解析：集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监

督模型，集成学习潜在的思想是即便某一个弱模型得到了错误的预测，其他的弱

模型也可以将错误纠正回来。某一个弱模型要有一定的“准确性”，即学习器不

能太坏，并且要有多样性，即个体学习器间具有差异。集成中即可包含同种类型

的弱模型，也可包含不同类型的弱模型。

28.下列关于大数据的分析理念的说法中，错误的是()o

A、在数据基础上倾向于全体数据而不是抽样数据

B、在分析方法上更注重相关分析而不是因果分析

C、在分析效果上更追求效率而不是绝对精确

D、在数据规模上强调相对数据而不是绝对数据

答案：D

解析：在大数据的分析理念中，数据规模上强调绝对数据而不是相对数据。

29.一个分布式应用程序协调服务，分布式应用程序可以基于它实现同步服务，

配置维护和命名服务等的工具是O。

AxFlume

BxZookeeper

C、Storm

D、Sparkstreaming

答案：B

解析：Zoopkeeper和Chubby均是分布式协调服务。

30.SparkJob默认的调度模式是()。

A、FIFO

B、FAIR

C、无

D、运行时指定

答案：A

解析：Spark中的调度模式主要有两种FIFO和FAIR。默认情况下Spark的调度

模式是FIFO（先进先出）。

31.0将观测值分为相同数目的两部分，当统计结果为非对称分布时，经常使用

它。

A、众数

B、标准差

C、中位数

D、均值

答案：C

解析：中位数是指一组数据排序后处于中间位置的变量值。

32.数据仓库的最终目的是O。

A、收集业务需求

B、建立数据仓库逻辑模型

C、开发数据仓库的应用分析

D、为用户和业务部门提供决策支持

答案：D

解析：数据仓库的最终目的是为用户和业务部门提供决策支持。

33.因子分析把每个原始变量分解为两部分因素：一部分为（）,另一部分为（）。

A、公共因子和特殊因子

B、特殊因子和相关因子

C、相关因子和独立因子

D、独立因子和公共因子

答案：A

解析：因子分析把每个原始变量分解为两部分因素：一部分为公共因子，另一部

分为特殊因子。

34.在k近邻学习算法中，随着k的增加，上界将逐渐降低，当k区域无穷大时，

上界和下界碰到一起，k近邻法就达到了O。

A、贝叶斯错误率

B、渐进错误率

C、最优值

D、上

答案：A

解析：在k近邻学习算法中，随着k的增加，上界将逐渐降低，当k区域无穷大

时，上界和下界碰到一起，k近邻法就达到了贝叶斯错误率。

35.诊断性分析主要采取的分析方法是（）和（）。

A、关联分析和因果分析法

B、关联分析和分类分析法

C、关联分析和运筹学

D、因果分析和分类分析法

答案：A

解析：诊断性分析主要采取的分析方法是关联分析和因果分析法。

36.下面算法属于局部处理的是（）。

A、灰度线性变换

B、二值化

C、傅里叶变换

D、中值滤

答案：D

解析：中值滤波是将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点

灰度值的中值，在图像处理中常用于保护边缘信息，是一种局部处理方法。

37.一幅灰度均匀分布的图像，其灰度范围在[0,255],则该图像的信息量为（）。

A、0

B、6

C、8

D、25

答案：C

解析：把255拆成二进制以后是11111111所以是8。

38.输入图像已被转换为大小为28X28的矩阵和大小为7X7的步幅为1的核心/

滤波器。卷积矩阵的大小是多少（）

A、22X22

B、21X21

G28X28

D、7X

答案:A

解析：28-7+1=22o

39.关于数据分析，下列说法正确的是。。

A、描述性分析和预测性分析是对诊断性分析的基础

B、断性分析分析是对规范性分析的进一步理解

C、预测性分析是规范性分析的基础

D、规范性分析是数据分析的最高阶段，可以直接产生产业价值

答案：C

解析：在数据分析中，流程分为以下方式：描述性分析、诊断性分析、预测性分

析'规范性分析。

40.在MapReduce中,以下描述错误的有O。

A、Worker故障和Master故障的处理方法不相同

B、Map和Reduce的处理结果都存储在本地文件系统

C、一个Worker发生故障时，该节点上执行完的Map任务需要再次执行

D、MapReduce具有很强的容错机制

答案：B

解析：已经完成的Map任务的输出存储在本台机器上，Reduce任务的输出存储

在全局文件系统上，故B错。

41.采用主成分分析法映射到低维空间，将最小的个特征向量舍弃，有（）

影响。

A、使样本采样密度增大

B、丢失最优解

C、增大噪声

D、使样本采样密度减

答案：A

解析：低维空间与原始高维空间必有不同，因为对应于最小的d-d，个特征值的

特征向量被舍弃了，这是降维导致的结果.但舍弃这部分信息往往是必要的：一

方面舍弃这部分信息之后能使样本的采样密度增大，这正是降维的重要动机;另

一方面，当数据受到噪声影响时，最小的特征值所对应的特征向量往往与噪声有

关。将它们舍弃能在一定程度上起到去噪的效果.

42.为了允许支持向量机在一些样本上出错，引入（）的概念。

A、软间隔

B、硬间隔

C、间隔

D、误

答案：A

解析：为了允许支持向量机在一些样本上出错，引入软间隔的概念。

43.关于长短时神经网络的叙述中错误的是（）o

A、引用自循环思想

B、产生梯度长时间持续流动的路径

C、积累的时间尺度不可以因输入序列而改变

D、可应用于语音识别和机器翻

答案：C

解析：LSTM累积的时间尺度也可以因输入序列而改变，因为时间常数是模型本

身的输出。

44.以下处理能获得像素级标注的是（）。

A、图像分类

B、物体检测

C、图像去噪

D、语义分

答案：D

解析:语义分割通过对每个像素进行密集的预测、推断标签来实现细粒度的推理,

从而使每个像素都被标记为其封闭对象矿石区域的类别，因此能够获得像素级标

注。

45.第一数字定律中使用概率最大的数字是（）。

A、0

B、1

C、2

答案：B

解析：第一数字定律表示，数字“1”的使用最多接近三分之一，“2”为17.6%,

“3”为12.5%,依次递减，“9”的频率是4.6%。

46.下列关于bootstrap说法正确的是。。

A、从总的M个特征中，有放回地抽取m个特征（m<M）

B、从总的M个特征中，无放回地抽取m个特征（m<M）

C、从总的N个样本中，有放回地抽取n个样本（n<N）

D、从总的N个样本中，无放回地抽取n个样本（n<N

答案:C

解析：bootstrap抽样是从总的N个样本中，有放回地抽取n个样本（n<N）

47.对于PCA处理后的特征，其朴素贝叶斯特征相互独立的假设一定成立，因为

所有主成分都是正交的，所以不相关。这句话是否正确()

A、True

B、FaIs

答案：B

解析：这句话有两处错误：一是PCA转换之后的特征不一定不相关；二是不相关

并不等价于相互独立。正交和不相关没有必然关系，只有当一个随机变量的统计

平均等于零时，正交和不相关等价。独立则必定不相关，而不相关却不一定互相

独立，只有是高斯时独立和不相关才等价。

48.以下关于人工神经网络(ANN)的描述错误的有()o

A、神经网络对训练数据中的噪声非常鲁棒

B、可以处理冗余特征

C、训练ANN是一个很耗时的过程

D、至少含有一个隐藏层的多层神经网

答案:A

解析：未经正则化的神经网络对可能对噪声很敏感。

49.可分解为偏差、方差与噪声之和的是()。

A、训练误差(trainingerror)

B、经验误差(empiricalerror)

G均方误差(meansquarederror)

D、泛化误差(generaIizationerror

答案：D

解析：泛化误差可分解为偏差、方差与噪声之和。

50.多分类图像识别任务常采用O作为输出的编码方式。

A、二进制编码

B、one-hot编码

C、霍夫曼编码

D、曼切斯特编

答案:B

解析：分类任务一般用独热（one-hot）编码表示最终输出，也就是00000010000

这样的，码段中1出现的位置就是预测的类别。

51.如果使用线性回归模型，下列说法正确的是。

A、检查异常值是很重要的，因为线性回归对离群效应很敏感

B、线性回归分析要求所有变量特征都必须具有正态分布

C、线性回归假设数据中基本没有多重共线性

D、以上说法都不

答案:A

解析：异常值是数据中的一个非常有影响的点，它可以改变最终回归线的斜率。

因此，去除或处理异常值在回归分析中是很重要的。了解变量特征的分布是有用

的，类似于正态分布的变量特征对提升模型性能很有帮助，数据预处理的时候经

常做的一件事就是将数据特征归一化到（0,D分布，但不是必须的。当模型包

含相互关联的多个特征时，会发生多重共线性。因此，线性回归中变量特征应该

尽量减少冗余性。

52.数据科学是一门以（）为主要研究任务的独立学科。

A、“数据驱动”“数据业务化”“数据洞见”“数据产品研发”和（或）“数

据生态系统的建设”

B、数据研发

C、数据处理

D、数据洞见

答案：A

解析：数据科学是一门以实现“从数据到信息”、“从数据到知识”和（或）“从

数据到智慧”的转化为主要研究目的的，以“数据驱动”'“数据业务化”'“数

据洞见”、“数据产品研发”和（或）“数据生态系统的建设”为主要研究任务

的独立学科。

53.在空间维度上刻画数据连续性是数据的（）特点。

A、可关联性

B、可溯源性

C、可理解性

D、可复制性

答案：A

解析：数据连续性理论是指由数据的可关联性、可溯源性、可理解性及其内在联

系组成的一整套数据保护措施，其目的是保障数据的可用性、可信性和可控性,

降低数据的失用'失信和失控的风险：1）可关联性是在空间维度上刻画数据连

续性，代表的是不同数据对象之间的连续性。它是保障数据可用性的重要前提,

代表了数据是否具备支持开放关联和跨域存取的能力，进而避免数据资源的碎片

化。因此，研究数据可关联性的意义在于降低数据的“失用”风险。2）可溯源

性是在时间维度上刻画数据连续性，代表的是同一个数据对象的历史版本之间的

连续性。它是保障数据可信性的重要前提，代表了数据是否具备支持证据链管理'

可信度评估以及预测分析的能力。因此，研究数据可溯源性的意义在于降低数据

的“失信”风险；3)可理解性是在内容维度上刻画数据连续性，代表的是数据

与其产生、管理和维护的主体(包括人与计算机)之间的连续性。它是降低数据

的可控性的重要前提，代表了数据是否具备自描述和自包含信息。因此，研究数

据可理解性的意义在于降低数据的“失控”风险。

54.训练完SVM模型后，不是支持向量的那些样本我们可以丢掉,也可以继续分类:

()0

A、正确

B、错

答案：A

解析：训练完SVM模型后,不是支持向量的那些样本我们可以丢掉,也可以继续分

类。

55.语音识别的应用场景包括()o

A、语音转文本

B、语音合成

C、人机交互

D、以上答案都正

答案：D

解析：语音识别应用包含语音转文本，语音合成和人机交互等。

56.以下跟RNN相关的是(_)o

A、梯度消失

B、时间步

C、梯度爆炸

D、以上答案都正

答案：D

解析：深度学习基础知识。

57.下面()负责MapReduce任务调度。

AxNameNode

B、Jobtracker

C、TaskTracker

D、secondaryNameNode

答案：B

解析：Jobtracker负责MapReduce任务调度，TaskTracker负责任务执行。

58.数据管理成熟度模型中成熟度等级最高是哪一级()。

A、已优化级

B、已测量级

C、已定义级

D、已管理级

答案：A

解析：已优化是数据管理成熟度模型中成熟度的最高等级。

59.下列哪种机器学习算法不需要归一化处理()

A、DecisionTreeB.SVMC.KmeansD.LogisticRegressio

B、C、Kmeans

DxLogisticRegressio

答案：A

解析：DecisionTree属于概率模型，不需要归一化处理；SVM、Kmeans和Logis

ticRegression之类的最优化问题需要归一化处理。

60.卷积神经网络中每层卷积层(Convolutionallayer)由若干卷积单元组成，

每个卷积单元的参数都是通过反向传播算法最佳化得到，其作用是(_)。

A、增强图像

B、简化图像

C、特征提取

D、图像处理

答案：C

解析：卷积层(Convolutionallayer),卷积神经网络中每层卷积层由若干卷积

单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算

的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边

缘'线条和角等层级，更多层的网路能从低级特征中迭代提取更复杂的特征。

61.数据可视化的本质是()o

A、将数据转换为知识

B、将知识转换为数据

C、将数据转换为信息

D、将信息转换为智慧

答案：A

解析：可视化分析学模型认为，数据可视化的本质是将数据转换为知识，而不能

仅仅停留在数据的可视化呈现层次之上，并提出从数据到知识的转换途径有两个:

一是可视化分析，另一个是自动化建模。

62.机器学习中发生过拟合的主要原因不包括()o

A、使用过于复杂的模型

B、数据噪声较大

C、训练数据少

D、训练数据充

答案：D

解析：训练数据充足可以降低过拟合。

63.()算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生

成和检测两个阶段来挖掘频繁项集。

A、riori

B、EM

C、P

D、PA

答案：A

解析：Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候

选集生成和检测两个阶段来挖掘频繁项集。PCA是无监督的降维算法。概率近似

正确(简称PAC)学习理论计算学习理论中最基本的理论。最大期望算法(Expec

tation-EM),是一类通过迭代进行极大似然估计的优化算法。

64.以下选项中哪个不属于数据预处理的方法()。

A、数据清洗

B、数据集成

C、数据变换

D、数据统计

答案：D

解析：数据统计并非为数据预处理的常见内容。

65.决策树中，同一路径上的所有属性之间是()关系。

Ax因果

B、相关

C、逻辑或

D、逻辑

答案：D

解析：决策树中，同一路径上的所有属性之间是逻辑与的关系

66.下列哪一项能反映出X和Y之间的强相关性。

A、相关系数为0.9

B、对于无效假设B=0的p值为0.0001

C、对于无效假设B=0的t值为30

D、以上说法都不

答案：A

解析：相关系数反映了不同变量之间线性相关程度，取值范围在［7,1］之间，值

越大表示相关程度越高；因此，A选项中中r=0.9,表示X和Y之间有较强的相

关性。P和t的数值大小没有统计意义，只是将其与某一个阈值进行比对,以得

到二选一的结论。

67.在支持向量机中，()允许支持向量机在一些样本上出错。

A、硬间隔

B、软间隔

C、核函数

D、拉格朗日乘子

答案：B

解析：在支持向量机中，软间隔允许支持向量机在一些样本上出错。

68.假如使用逻辑回归对样本进行分类，得到训练样本的准确率和测试样本的准

确率。现在，在数据中增加一个新的特征，其它特征保持不变。然后重新训练测

试。则下列说法正确的是()o

A、训练样本准确率一定会降低

B、训练样本准确率一定增加或保持不变

C、测试样本准确率一定会降低

D、测试样本准确率一定增加或保持不

答案：B

解析：在模型中增加更多特征一般会增加训练样本的准确率，减小偏差。但测试

样本准确率不一定增加，除非增加的特征是有效特征。

69.彩色图像增强时，()处理可以采用RGBo

A、直方图均衡化

B、同态滤波

C、加权均值滤波

D、中值滤

答案：C

解析：RGB是彩色图像的三通道像素值，均值滤波进行的是线性操作，不影响原

本图像的相对亮度。

70.聚类算法的性能度量可称为()o

A、密度估计

B、异常检测

C、有效性指标

D、分布结

答案：C

解析：聚类算法的性能度量可称为有效性指标。

71.关于循环神经网络设计的叙述中，错误的是()o

A、能处理可变长度的序列

B、基于图展开思想

C、基于参数共享思想

D、循环神经网络不可应用于图像数

答案：D

解析：深度学习基础知识。

72.机器学习算法在学习过程中对某种类型假设的偏好，称为()o

A、训练偏好

B、归纳偏好

C、分析偏好

D、假设偏

答案：B

解析：机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好。

73.我们建立一个5000个特征,100万数据的机器学习模型.我们怎么有效地应对

这样的大数据训练()o

A、我们随机抽取一些样本,在这些少量样本之上训练

B、我们可以试用在线机器学习算法

C、我们应用P算法降维,减少特征数

D、以上答案都正

答案：D

解析：样本数过多,或者特征数过多,而不能单机完成训练,可以用小批量样本训

练,或者在线累计式训练,或者主成分PCA降维方式减少特征数量再进行训练。

74.下列不属于action操作的是O

A、coIIect

B、fiIter

C、reduce

D、count

答案：B

解析：Action常用的函数为reduce、collect、count、take、first、foreach

等

75.SLIC算法的主要目的是()o

A、目标识别

B、前景和背景分离

C、超像素提取

D、语义分

答案：C

解析：SLIC是基于K-means算法的生成超像素新方法，SLIC是超像素中心周围

的区域2sx2s中进行类似像素的搜索

76.当训练集特征非常多，而实例非常少的时候，可以采用()o

A、sigmoid核的支持向量机

B、不带核的支持向量机

C、高斯核的支持向量机

D、多项式核的支持向量机

答案：B

解析：当不采用非常复杂的函数，或者当我们的训练集特征非常多但是实例非常

少的时候，可以采用不带核函数的支持向量机。

77.图像中虚假轮廓的出现就其本质而言是()o

A、图像的灰度级数不够多而造成的

B、图像的空间分辨率不够高而造成的

C、图像的灰度级数过多而造成的

D、图像的空间分辨率过高而造成

答案:A

解析：图像中的虚假轮廓最易在平滑区域内产生。平滑区域内灰度应缓慢变化,

但当图像的灰度级数不够多时会产生阶跃。所以图像中虚假轮廓的出现就其本质

而言是图像的灰度级数不够多而造成的，选A。

78.下列关于L1正则化与L2正则化描述错误的是()o

A、L1范数正则化有助于降低过拟合风险

B、L2范数正则化有助于降低过拟合风险

C、L1范数正则化比L2范数正则化更有易于获得稀疏解

D、L2范数正则化比L1范数正则化更有易于获得稀疏

答案：D

解析：周志华机器学习

79.以下哪些算法，可以用神经网络去构造(_)。1)KNN2)线性回归3)对数几

率回归

A、1和2

B、2和3

C、1,2和3

D、以上答案都不正

答案：B

解析：1、KNN算法不需要训练参数，而所有神经网络都需要训练参数，因此神经

网络帮不上忙。2、最简单的神经网络，感知器,其实就是线性回归的训练。3、我

们可以用一层的神经网络构造对数几率回归。

80.下列属于卷积网络类型分类的是(_)o

A、普通卷积

B、扩张卷积

C、转置卷积

D、以上答案都正

答案：D

解析：卷积神经网络四种卷积类型：普通卷积，扩张卷积，转置卷积，可分离卷

积。

81.词袋模型中的文本向量每个元素表示该词的()。

A、频率

B、顺序

C、含义

D、语义关

答案：A

解析：词袋模型是最基础的文本表示模型，就是把每一篇文章看成一袋子单词,

并忽略每个词出现的顺序。每篇文章可以表示成一个长向量，向量中的每一维代

表一个单词，而该维对应的权重代表这个词在文章中的重要程度，重要程度是由

频率来衡量的。

82.以下不属于基于区域的图像分割方法的是()o

A、区域生长法

B、分水岭算法

C、大津算法

D、基于图论的分割算

答案：C

解析：大津算法是基于图像灰度分布的图像分割方法。

83.大数据应用需依托的新技术有（）。

A、大规模存储与计算

B、数据分析处理

C、智能化

D、三个选项都是

答案:D

解析：适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘、

分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统、智

能化相关技术等。

84.CNN神经网络对图像特征提取带来了变革性的变化，使之前的人工特征提取

升级到数据驱动的自动特征提取，在CNN中，起到特征提取作用的网络层是：（_

A、convoIution层

B、fulIconnect层

C、maxpooIing层

D、norm

答案：A

解析：卷积层负责提取特征，采样层负责特征选择，全连接层负责分类。

85.下列关于RNN说法正确的是（_）o

A、RNN可以应用在NLP领域

B、LSTM是RNN的一个变种

C、在RNN中一个序列当前的输出与前面的输出也有关

D、以上答案都正

答案：D

解析：RNN是一种人造神经网络，它通过赋予网络图附加权重来创建循环机制，

以维持内部的状态。在拥有状态以后，便能在序列预测中明确地学习并利用上下

文信息，如顺序或时间成分，因此RNN适用于自然语言处理。RNN中一个序列当

前的输出与前面的输出有关。LSTM在RNN基础上进行了改进，能够学习到长期

依赖关系，因此是RNN的一个变种。

86.选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入

()0

A、线性回归

B、线性判别分析

G正则化项

D、偏置

答案:C

解析：选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引

入正则化(regular!zation)项。

87.图像灰度方差说明了图像的哪一个属性O。

A、平均灰度

B、图像对比度

C、图像整体亮度

D、图像细

答案：B

解析：方差反应图像的高频部分的大小；如果图片对比度小，那方差就小；如果

图片对比度很大，那方差就大；方差;每个像素点的灰度值减去图像平均灰度值

的平方和除以总的像素个数

88.Hadoop中partition()函数描述正确的是()。

A、分区函数

B、特征函数

C、算法函数

D、排序函数

答案：A

解析：partition代表分区函数，其他选项都不符合题意。

89.在Hadoop中，下面哪个是默认的InputFormat类型，它将每行内容作为新值，

而将字节偏移量作为key()o

A、FiIeInputFormat

B、TextInputFormat

C、KeyVaIueTextInputFormat

D、bineTextInputForma

答案：B

解析：TextInputFormat是默认的InputFormat。每条记录是一行输入。键Key

是LongWritable类型，存储该行在整个文件中的字节偏移量。

90.Hadoop中，Reducer的三个阶段是_。

AvShuffIe-Sort-Reduce

B、Shuffle-Reduce-Sort

CxReduce-ShuffIe-Sort

D、Sort-ShuffIe-Reduce

答案：A

解析：Reducer主要分为三个步骤ShuffIe洗牌、Sort排序和Reduce

91.机器学习训练时,Mini-Batch的大小优选为2的鬲，如256或512。它背后

的原因是什么（）。

A、Mini-Batch为偶数的时候，梯度下降算法训练的更快

B、Mini-tch设为2的鬲，是为了符合CPU、GPU的内存要求，利于并行化处理

C、不使用偶数时，损失函数是不稳定的

D、以上答案都不正

答案：B

解析：Mini-Batch设为2的鬲，是为了符合CPU、GPU的内存要求，利于并行化

处理

92.在深度学习中，下列对于sigmoid函数的说法，错误的是（）。

A、存在梯度爆炸的问题

B、不是关于原点对称

G计算exp比较耗时

D、存在梯度消失的问

答案：A

解析：sigmoid函数存在的是梯度消失问题。

93.MapReduce编程模型，键值对的key必须实现哪个接口（）

AxWritabIeparable；

Bxparable；

GWritable；

D、LongWritable；

答案:A

解析：hadoop为Key的数据类型必须实现WritabIeparable,而Value的数据类

型只需要实现Writable即可

94.以下不是开源工具特点的是（）。

A、免费

B、可以直接获取源代码

C、用户可以修改源代码并不加说明用于自己的软件中

D、开源工具一样具有版权

答案：C

解析：在延伸的代码中（修改和有源代码衍生的代码中）需要带有原来代码中的

协议，商标，专利声明和其他原来作者规定需要包含的说明。如果再发布的产品

中包含一^Notice文件，则在Notice文件中需要带有开源工具的Licence。你

可以在Notice中增加自己的许可，但不可以表现为对开源工具Licence构成更

改。

95.下面哪个程序负责HDFS数据存储（）o

A、NameNode

B、Jobtracker

C、Datanode

D、secondaryNameNod

答案：C

解析：Datanode负责HDFS的数据块存储。

96.下列图像边缘检测算子中抗噪性能最好的是()。

A、梯度算子

B、Prewitt算子

C、Roberts算子

D、LapIacian算

答案：B

解析：Prewitt算子是一种一阶微分算子的边缘检测，利用像素点上下'左右邻

点的灰度差，在边缘处达到极值检测边缘，去掉部分伪边缘，对噪声具有平滑作

用。

97.以下关于新旧MapReduceAPI的描述错误的是()

A、新I放在org.apache,hadoop.mapreduce包中,而旧I则是放在org.apache,

hadoop.mapred中

B、新API倾向于使用接口方式，而旧API倾向于使用抽象类

G新API使用nfiguration,而旧API使用Jobnf来传递配置信息

D、新API可以使用Job对象来提交作业

答案：B

解析：在新API中，原来的大量接口都被改成了抽象类。所以使用新API编写M

R程序时，都是由实现接口变成集成抽象类，因此B错。

98.给定词汇表如下：{Bob,ok,Iike,footbaII,car}0则下面句子BotIikesfoot

ball的词袋模型表示为：

A、[11100]

B、[10110]

C、[10010]

D、[01101

答案:B

解析：统计自然语言处理语言模型P162,命名实体翻译P585统计文档中每个词

的数量，根据词表的位置，将各个词的数量拼接成一个向量即可。

99.给定一个长度为n的不完整单词序列，我们希望预测下一个字母是什么。比

如输入是predict2(9个字母组成)，希望预测第十个字母是什么。下面哪种神

经网络结构适用于解决这个工作()

A、循环神经网络

B、全连接神经网络

C、受限波尔兹曼机

D、卷积神经网

答案：A

解析：循环神经网络具有记忆性、参数共享并且图灵完备，因此在对序列的非线

性特征进行学习时具有一定优势。循环神经网络在自然语言处理(NaturalLang

uageProcessing.NLP),例如语音识别、语言建模、机器翻译等领域有应用，也

被用于各类时间序列预报。

100.Hadoop生态系统中,HBase是一种()。

A、分布式文件系统

B、数据仓库

C、实时分布式数据库

D、分布式计算系统

答案：C

解析：HBase是一个面向列的实时分布式数据库。

101.Hadoop生态系统中，（）主要解决的是日志类数据的收集和处理问题。

A、Mahout

B、Flume

C、Sqoop

D、HBase

答案：B

解析：Flume主要用于日志采集，其中的agent里面包含3个核心的组件sourc

e（采集/输入）-channel（缓存/管道）->sink（输出），类似生产者、仓库'

消费者的架构。

102.两个变量相关，它们的相关系数r可能为0。这句话是否正确（）

A、正确

B、错

答案：A

解析：Pearson相关系数r=0,这表示两个变量间不存在线性相关关系。

103.当在卷积神经网络中加入池化层（poolinglayer）时，变换的不变性会被保留,

是吗（）

A、不知道

B、看情况

C、是

答案：C

解析：使用池化时会导致出现不变性。

104.一篇文章中某些名词的TF-IDF值比较大，则说明()。

A、这些名词对这篇文章的区分度比较高

B、这些名词对这篇文章的区分度比较低

C、不能说明什么

D、以上答案都不正

答案：A

解析：TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库

中的其中一份文件的重要程度。名词的TFTDF值越大说明这些名词对这篇文章

的区分度越高。

105.图像降噪一般可分为以下哪几类()o

A、加性噪声

B、乘性噪声

C、量化噪声

D、以上答案都正

答案：D

解析：噪声是图像干扰的重要原因。一幅图像在实际应用中可能存在各种各样的

噪声,这些噪声可能在传输中产生,也可能在量化等处理中产生。根据噪声和信号

的关系可将其分为三种形式：(f(x,y)表示给定原始图像,g(x,y)表示图像信号,n

(x,y)表示噪声。)1、加性噪声，此类噪声与输入图像信号无关，含噪图像可表示

为f(x,y)=g(x,y)+n(x,y),信道噪声及光导摄像管的摄像机扫描图像时产生的

噪声就属这类噪声;2、乘性噪声,此类噪声与图像信号有关,含噪图像可表示为f

(x,y)-g(x,y)+n(x,y)g(x,y),飞点扫描器扫描图像时的噪声，电视图像中的相干

噪声，胶片中的颗粒噪声就属于此类噪声。3、量化噪声，此类噪声与输入图像信

号无关,是量化过程存在量化误差,再反映到接收端而产生。

106.绝对多数投票法的基本思想是()。

A、对于若干和弱学习器的输出进行平均得到最终的预测输出

B、少数服从多数，数量最多的类别为最终的分类类别

C、不光要求获得最高票，还要求票过半数

D、将训练集弱学习器的学习结果作为输入，将训练集的输出作为输出，重新训

练一个学习器来得到最终结果

答案：C

解析：绝对多数投票法若某标记得票过半数，则预测为该标记;否则拒绝预测。

107.图像平滑会造成()o

A、图像边缘模糊化

B、图像边缘清晰化

C、无影响

D、以上答案都不正

答案:A

解析：为了抑制噪声，使图像亮度趋于平缓的处理方法就是图像平滑。图像平滑

实际上是低通滤波，平滑过程会导致图像边缘模糊化。

108.以下关于Hadoop中MapReduce说法正确的是（）。

A、可以没有reduce任务

B、Reducer输入为随机输入

C、shuffle主要实现数据可视化功能

D、一个reducer只能从一个map复制所需要的partitio

答案：A

解析：MapReduce中的reduce并不是必须存在的。

109.高通滤波后的图像通常较暗，为改善这种情况，将高通滤波器的转移函数加

上一常数量以便于引入一些低频分量。这样滤波器叫（）o

A、巴特沃斯高通滤波器

B、高频提升滤波器

C、局频加强滤波器

D、理想高通滤波

答案：B

解析：高频增强滤波器由于相对削弱了低频成分,因而滤波所得的图像往往偏暗。

110.对MapReduce计算框架中生成的键值对的说法正确的是（_）。

A、可以有相同的键，值必须唯一；

B、可以有相同的值，键必须唯一；

C、可以有相同的键，也可以有相同的值；

D、键和值都必须唯一;

答案：C

解析：键值对中的“键”和“值”并没有必然的联系，两者可以相同。

111.当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质，这样

会导致泛化性能下降，这种现象称之为（）o

A、欠拟合

B、过拟合

C、拟合

D、以上答案都不正

答案：B

解析：当学习器把训练样本学得太好了的时候，很可能巳经把训练样本自身的一

些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降这

种现象在机器学习中称为过拟合。

112.数据的可用性取决于（）。

A、数据分析

B、数据集采

C、数据质量

D、数据需求

答案：C

解析：略

113.Spark可以处理的数据任务包括（）

A、数据批处理任务；

B、交互式处理任务;

C、图数据处理任务;

D、A,B和C；

答案：D

解析：Spark可以很好地支持流计算、交互式处理、图计算等多种计算模式。

114.属于卷积神经网络应用方向的是(_)。

A、图像分类

B\目标检;则

C、图像语义分割

D、以上答案都正

答案：D

解析：卷积神经网络应用于图像分类，目标检测及图像语义分割。

115.Adaboost的核心思想是()。

A、给定一个弱学习算法和一个训练集，将该学习算法使用多次，得出预测函数序

列,进行投票

B、针对同一个训练集训练不同的弱分类器集合起来，构成一个强分类器

C、利用多棵树对样本进行训练并预测的一种分类器

D、基于前向策略的加法模型,每阶段使用一个基模型去拟合上一阶段基模型的残

差

答案：B

解析：Adaboost的核心思想是给定一个弱学习算法和一个训练集，将该学习算

法使用多次,得出预测函数序列,进行投票。

116.下列哪项方法不属于图像分割方法()o

A、边缘检测法

B、阈值分割法

C、区域分割法

D、特征提取

答案：D

解析：特征提取法属于图像配准方法的范畴。

117.线性判别分析在二分类问题上，也称为()。

A、线性回归

B、对数几率回归

C、Fisher判别分析

D、主成分分

答案：C

解析：线性判别分析在二分类问题上，也称为Fisher判别分析。

118.相关关系是一种与函数关系区别的非确定性关系，而相关分析就是研究事物

或现象之间是否存在这种非确定性关系的统计方法，以下不属于相关性分析方法

的是()o

A、Pearson相关系数

B、Spearman秩相关系数

C\KendaII相关系数

D、傅里叶系数

答案：D

解析：傅里叶系数由Fouriercoefficient翻译而来，有多个中文译名。它是数

学分析中的一个概念，常常被应用在信号处理领域中。对于任意的周期信号，如

果满足一定条件，都可以展开三角函数的线性组合，每个展开项的系数称为傅里

叶系数，不能用于解释相关性。

119.jieba分词包含的分词模式有（）o

A、精确模式

B、全模式

C、搜索引擎模式

D、以上答案都正

答案：D

解析：jieba中文分词支持的三种分词模式包括⑴精确模式：试图将句子最精

确地切开，适合文本分析；（2）全模式：把句子中所有的可以成词的词语都扫描

出来，速度非常快，但是不能解决歧义问题；（3）搜索引擎模式：在精确模式的

基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

120.一幅512*512的图像，若灰度级数为16,则该图像大小为（）。

A、32KB

B、128KB

C、1MB

D、2M

答案：B

解析：512*512表示像素个数，16级灰度用二进制表示需要4位，故存储图像所

需的二进制位数为：512*512*4,即1024Kbit,所需字节数除以8为128KB,注

意单位的不同。

121.如果我使用数据集的全部特征并且能够达到100%的准确率，但在测试集上

仅能达到70%左右，这说明：（）。

A、欠拟合

B、模型很棒

C、过拟合D.以上答案都不正

答案：C

解析：当学习器把训练样本学得太好了的时候，很可能巳经把训练样本自身的一

些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降这

种现象在机器学习中称为过拟合。

122.MapReduce使用（）来记录不同事件的发生次数。

A、日志

B、事件触发器

C、状态列表

D、计数器

答案：D

解析：MapReduce使用计数器来记录不同事件的发生次数。

123.常用的数据归约方法可以分为（）。

A、维归约数据压缩

B、维归约参数归约

C、维归约值归约

D、数据压缩值归约

答案：C

解析：常用的数据归约方法有两种：维归约和值归约。

124.下列属于无监督学习的是（）。

AxK-means

B、SVM

c、最大熔

D、CRF

答案：A

解析：K-means是一个将数据集中在某些方面相似的数据成员进行分类组织的过

程，这是一个典型聚类算法，聚类就是一种发现这种内在结构的技术，该类算法

被称为无监督学习。

125.大数据中的小数据可能缺失、冗余、存在垃圾数据不影响大数据的可信数据,

体现大数据“涌现”的（）表现形式。

A、价值涌现

B、隐私涌现

C、质量涌现

D、安全涌现

答案：C

解析：大数据的“质量涌现”是指大数据中的成员小数据可能有质量问题（不可

信的数据），如缺失、冗余、垃圾数据的存在，但不影响大数据的质量（可信的

数据）。

126.对于随机森林和GBDT,下面说法正确的是（）o

A、在随机森林的单个树中，树和树之间是有依赖的,而GBDT中的单个树之间是没

有依赖的

B、这两个模型都使用随机特征子集,来生成许多单个的树

C、我们可以并行地生成GBDT单个树,因为它们之间是没有依赖的

D、GB训练模型的表现总是比随机森林

答案：B

解析：组成随机森林的树可以并行生成；而GBDT只能是串行生成

127.协同过滤分析用户兴趣,在用户群中找到指定用户的相似（兴趣）用户,综合

这些用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度（），

并将这些用户喜欢的项推荐给有相似兴趣的用户。

A、相似

B、相同

C、推荐

D、预

答案：D

解析：协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐

用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并

记录下来以达到过滤的目的进而帮助别人筛选信息。

128.DataFrame和RDD最大的区别是()。

A、科学统计支持

B、多了schema

C、存储方式不一样

D、外部数据源支

答案：B

解析：相比于RDD,DataFrame多了数据的结构信息，即schema

129.()是实现数据战略的重要保障。

A、数据管理

B、数据分析

C、数据治理

D、数据规划

答案：C

解析：从DMM模型可以看出，数据治理是实现数据战略的重要保障。数据管理的

是指通过管理“数据”实现组织机构的某种业务目的。然而，数据治理则指如何

确保“数据管理”的顺利、有效、科学地完成。

130.数据整合和分组的说法，不正确的是()o

A、数据连接可以用concat或merge函数

B、axis=1表示轴向连接

C、数据分组可以使用mean函数

D、使用agg可以自定义多个聚合函数

答案：C

解析：数据分组不可以使用mean函数，mean函数为求平均数函数。

131.在支持向量机中，核函数的主要作用是()o

A、将低维空间中线性不可分的数据映射到高维空间，使其线性可分

B、将高维空间中线性不可分的数据映射到低维空间，使其线性可分

C、将高维空间中线性可分的数据映射到低维空间，使其线性不可分

D、将低维空间中线性可分的数据映射到高维空间，使其线性不可

答案:A

解析：核函数的作用是将低维空间中线性不可分的数据映射到高维空间，使其线

性可分。

132.文档是待处理的数据对象，它由一组词组成,这些词在文档中不计顺序的额,

例如一篇论文、一个网页都可以看做一个文档；这样的表示方式称为()o

A、语句

B、词袋

C、词海

D、词

答案：B

解析：词袋模型下，像是句子或是文件这样的文字可以用一个袋子装着这些词的

方式表现，这种表现方式不考虑文法以及词的顺序。

133.标准BP算法的目标是使训练集上的()为最小。

A、累积方差

B、累积误差

C、累积协方差

D、累积偏

答案：B

解析：标准BP算法的目标是使训练集上的累积误差最小。

134.以下关于图像识别任务的叙述，错误的是（）。

A、目标在于检测出图像中的对象是什么

B、在识别前往往需要对图像进行预处理

C、N是一种常用的图像识别网络

D、图像的采集和传输方式对于图像识别结果没有影

答案：D

解析：图像处理基础知识。

135.关于boosting下列说法错误的是O。

A、boosting方法的主要思想是迭代式学

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据理论考试复习题库大全-上（单选题部分）

文档简介

温馨提示

最新文档

评论

大数据理论考试复习题库大全-上（单选题部分）

文档简介

温馨提示

最新文档

评论

相关文档