大数据应用习题库-下（多选、判断、填空题部分）

上传人：新*** IP属地：河北上传时间：2025-02-16 格式：PDF 页数：210 大小：51.45MB 积分：12 举报 版权申诉

已阅读5页，还剩205页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(新版)大数据应用习题库汇总一下(多选、判断、填空题部分)

多选题

1.关于Pig的说法正确的是()。

AxPig的主要目的是弥补MapReduce编程的复杂性

B、Pig的核心是一种数据分析语言

C、Pig程序的结构适合于串行处理

DxPig主要包含PigLatin和Pig执行环境两部分

答案：ABD

解析：Pig程序的结构适合于并行处理。

2.下面是Numpy支持的统计函数有()。

A、min

B、max

Cvmedian

Dvmean

答案：ABCD

解析：这些都是Numpy支持的统计函数。

3.下列哪些是词语情感分析的方法()。

A、基于网络的分析方法

B、基于word-embedding的分析方法

C、基于词典的分析方法

D、基于词频的分析方法

答案：AC

解析：其余两种为分词方法

4.K均值聚类和层次聚类在一些方面有重大差异。以下哪些说法是正确的()

A、在K均值聚类中,必须在运行算法前选定想要的簇的个数

B、在k均值聚类中，可以在运行算法后选定想要的簇的个数

C、在层次聚类中，可以在运行算法后选定想要的簇的个数

D、k均值聚类算法所需的计算量比层次聚类算法小得多

答案：ACD

解析：在k均值聚类中，需要在运行算法前确定想要的簇的个数ko

5.下面关于Python中的列表和字典说法正确的是0。

A、字典和列表都可以通过操作符访问元素的值

B、列表的索引必须是整型数或者切片

C、字典不过是列表的另一个名字。二者没有区别

D、字典的长度是动态的,而列表的长度是固定的

答案：AB

解析：字典与列表有区别，长度均为动态。

6.关于Dropout说法正确的是：(—)o

A、Dropout背后的思想其实就是把DNN当做一个集成模型来训练,之后取所有值

的平均值,而不只是训练单个DNN

B、DNN网络将Dropout率设置为p,也就是说,一个神经元被保留的概率是1-po

当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设

置为0

C、丢弃的神经元在训练阶段，对BP算法的前向和后向阶段都没有贡献。因为这

个原因,所以每一次训练,它都像是在训练一个新的网络

D\Dropout方法通常和L2正则化或者其他参数约束技术(比如MaxNorm)一起使

用，来防止神经网络的过拟合

答案：ABCD

解析：dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定

的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机

丢弃，故而每一个mini-batch都在训练不同的网络。防止过拟合的方法:提前终

止(当验证集上的效果变差的时候)；L1和L2正则化加权;softweightsharingdro

poutoropout率的选择:经过交叉验证，隐含节点dropout率等于0.5的时候效

果最好,原因是0.5的时候dropout随机生成的网络结构最多。dropout也可以

被用作一种添加噪声的方法,直接对input进行操作。输入层设为更接近1的数。

使得输入变化不会太(0.8)。

7.下列哪些是情感分析的途径0。

A、关键词识别

B、数据增强

C、统计方法

D、概念级技术

答案：ABCD

解析:现有的文本情感分析的途径大致可以集合成四类:关键词识别、词汇关联'

统计方法和概念级技术。

8.以下有关特征数据归一化的说法正确的是()。

A、特征数据归一化加速梯度下降优化的速度

B、特征数据归一化有可能提高模型的精度

C、线性归一化适用于特征数值分化比较大的情况

D、概率模型不需要做归一化处理

答案：ABD

解析：归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷，如果ma

x和min不稳定,很容易使得归一化结果不稳定，使得后续使用效果也不稳定。实

际使用中可以用经验常量值来替代max和mino非线性归一化经常用在数据分化

比较大的场景,有些数值很大,有些很小。

9.我们想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此

大数据,如何有效地训练模型()

A、对训练集随机采样,在随机采样的数据上建立模型

B、尝试使用在线机器学习算法

C、使用PCA算法减少特征维度

答案：ABC

解析：大数据可以采用对训练集随机采样,在随机采样的数据上建立模型,尝试使

用在线机器学习算法，使用PCA算法减少特征维度。

10.python中,字符串格式化的方式()。

A、%

B、format

C\in

D、input

答案：AB

解析：input输入in判断。

11.按照涉及自变量的多少,可以将回归分析分为0。

A、线性回归分析

B、非线性回归分析

C、一元回归分析

D、多元回归分析

E、综合回归分析

答案：CD

解析：按照涉及自变量的多少,可以将回归分析分为一元回归分析和多元回归分

析。

12.MapReduce中运行程序副本程序的机器为()。

AxMap服务器

BvMaster服务器

C\Worker服务器

D、Reduce服务器

答案：BC

解析：MapReduce中，运行程序副本程序的机器分为两类:一^1^Master服务器和

若干个Worker服务器。

13.以下()是scipy中的模块。

A、cIuster

B、constants

C、integrate

D、io

答案：ABCD

解析：四种都是scipy的模块。

14.以下描述中属于Analytics2.0的主要特点的是0。

A、侧重嵌入式分析

B、重视非结构化数据的分析

C、以决策支持为主要目的

D、注重解释性分析和预测性分析

答案：BCD

解析：著名管理学家Thomas

H,Davernport于2013年在《哈佛商业论坛(HarvardBusinessReview)》上发表

一篇题为《第三代分析学(Analytics3.0)》的论文，将数据分析的方法、技术和

工具——分析学(AnaIytics)分为三个不同时代一一商务智能时代、大数据时代

和数据富足供给时代，即AnaIytics1.0、AnaIytics2.0和AnaIytics3.0.其中,A

nalytics2.0的主要特点有:分析活动与数据的生成几乎同步,强调数据分析的

实时性；重视非结构化数据的分析;以决策支持为主要目的；注重解释性分析和预

测性分析。

15.Hadoop中map输出结果说法正确的是0。

A、＜key,vaIue＞键值对

B\输出中间临时结果

C、输出最终计算结果

D、输出结果永久保留

答案：AB

解析：map输出结果并非是最终结果且只是暂时保留

16.统计模式分类问题中，当先验概率未知时,可以使用()。

A、最小最大损失准则

B、最小误判概率准则

C、最小损失准则

D、N-P判决

答案：AD

解析：统计模式分类问题中，当先验概率未知时,可以使用最小最大损失准则和最

小损失准则。

17.关于CAP理论说法正确的是()。

A、一个分布式系统不能同时满足一致性、可用性和分区容错性等需求

B、一致性主要指强一致性

C、一致性、可用性和分区容错性中的任何两个特征的保证(争取)可能导致另一

个特征的损失(放弃)

D、可用性指每个操作总是在“给定时间”之内得到返回“所需要的结果”。

答案：ABCD

解析：CAP理论认为，一^"b分布式系统不能同时满足一致性(Consistency)、可用

性(AvailabiIity)和分区容错性(PartitionToIerance)等需求,而最多只能同时

满足其中的两个特征。CAP理论告诉我们,数据管理不一定是理想的致性

[[1]]、可用性和分区容错性中的任何两个特征的保证(争取)可能导致另一个特

征的损失(放弃)。

18.下列关于密度聚类说法错误的是(_)。

A、DBSCAN是一种著名的密度聚类算法

B、密度聚类从样本数量的角度来考察样本之间的可连接性

C、密度聚类基于不可连接样本不断扩展聚类簇易获得最终的聚类结果

D、密度直达关系通常满足对称性

答案：BCD

解析：密度聚类从样本密度的角度出来,来考查样本之间的可连接性;密度聚类基

于可连接样本不断扩展聚类簇,以获得最终的聚类结果；密度直达关系通常不满

足对称性；密度可达关系满足直递性，但不满足对称性；密度相连关系满足对称性。

19.Python中jieba库支持哪几种模式()。

A、精准模式

B、匹配模式

C、全模式

D、搜索引擎模式

答案：ACD

解析：jieba分词的三种模式。

20.下列说法正确的是()。

A、cookielib库提供可存储cookie的对象,以便于与urIIirequest库配合使用

来进行访问

B、过于频繁的爬虫不会带给网站额外的压力

C、使用split。可以进行字符串的拆分

D、正则表达式可以实现对爬取信息的快速过滤

答案：ACD

解析：过于频繁的爬虫会带给网站额外的压力。

21.以下关于降维方法,叙述正确的是0。

A、主成分分析是一种常用的非线性降维方法

B、核化线性降维是一种常用的线性降维方法

C、流形学习是一种借鉴拓扑流形概念的降维方法

D、度量学习绕过降维的过程，将学习目标转化为对距离度量计算的权重矩阵的学

习

答案：CD

解析：本质上讲,主成分分析是一种线性降维方法,在处理非线性问题时,效果不

太理想。核化线性降维是一种非的线性降维方法。

22.一个监督观测值集合会被划分为()。

A、训练集

B、验证集

C、测试集

D、预处理集

答案：ABC

解析：一个监督观测值集合会被划分为训练集、测试集、预测集。其中测试集来

测试学习器对新样本的判别能力,然后以测试集上的测试误差(testingerror)作

为泛化误差的近似。

23.神经网络的拓扑结构可以分为()和随机型网络等。

A、前向型

B、后向型

C、反馈型

D、自组织竞争型

答案：ACD

解析：神经网络的拓扑结构有前向型、反馈型、自组织竞争型和随机型网络等。

24.Python函数包括下述哪些内容0。

A、函数名称

B、参数

C、执行语句

D、返回值

答案：ABCD

解析：Python函数包括下述哪些内容函数名称、参数、执行语句、返回值。

25.决策树递归停止的条件为()。

A、训练数据集使用完

B、所有的类标签完全相同

C、特征用完

D、遇到丢失值

答案：BC

解析：决策树的生成是一个递归过程.在决策树基本算法中，有三种情形会导致递

归返回：(1)当前结点包含的样本全属于同一类别，无需划分；(2)当前属性集为空,

或是所有样本在所有属性上取值相同，无法划分；⑶当前结点包含的样本集合为

空,不能划分.

26.在建立模型时,需要用到0。

A、训练数据

B、测试数据

C、原始数据

D、验证数据

答案：ABD

解析：在机器学习中，通常将数据分为训练集、测试集和验证集。

27.数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的

表现力的评价指标包括()。

A、精确性

B、可辨认性

G可分离性

D、视觉突出性

答案：ABCD

解析：在数据来源和目标用户已定的情况下，不同视觉通道的表现力不同。视觉

通道的表现力的评价指标包括精确性、可辨认性、可分离性和视觉突出性。1)

精确性代表的是人类感知系统对于可视化编码结果和原始数据之间的吻合程度。

斯坦福大学Mackinlay曾于1986年提出了不同视觉通道所表示信息的精确性2)

可辨认性是指视觉通道的可辨认度。3)可分离性是指同一个视觉图形元素的不同

视觉通道的表现力之间应具备一定的独立性。4)视觉突出性是指视觉编码结果能

否在很短的时间内(如毫秒级)能够迅速准确表达出可视化编码的主要意图。

28.决策树的划分选择有()。

A、增益系数

B、信息增益

C、增益率

D、基尼系数

E、信息增益量

答案：BCD

解析：决策树的划分选择有信息增益,增益率，基尼系数。

29.相关与线性关系,下列说法正确的是0

A、相关不一定是线性关系,可能是非线性关系

B、相关一定是线性关系，不可能是非线性关系

C、相关时若有相关系数r为0,说明两个变量之间不存在线性关系，仍可能存在

非线性关系

D、相关系数为0是两个变量独立的必要不充分条件

答案：ACD

解析：相关不一定是线性关系,可能是非线性关系。

30.下列哪些是常用分词方法()。

A、基于Binarytree的分词方法

B、基于HMM的分词方法

C、基于CRF的分词方法

D\基于Kmeans的分词方法

答案：BC

解析：k均值一般用于聚类,二叉树也不用于分词

31.HighBias（高偏差）解决方案：（）。

A、Boosting

B、复杂模型（非线性模型、增加神经网络中的层）

G更多特征

答案：ABC

解析：偏差刻画了学习算法本身的拟合能力,高偏差意味着欠拟合,可通过Boost

ing、复杂模型（非线性模型、增加神经网络中的层）、更多特征等方式解决。

32.Spark的部署模式包括0。

A、本地模式

B\standaIone模式

C、Sparkonyarn

D\mesos模式

答案：ABCD

解析：spark支持上述四种运行模式,在实验中为了充分利用资源,一般配置sta

ndaIone模式运行。

33.下面关于机器学习的理解正确的是（）。

A、非监督学习的样本数据是要求带标签的

B、监督学习和非监督学习的区别在于是否要求样本数据带标签

C、强化学习以输入数据作为对模型的反馈

D、卷积神经网络一般用于图像处理等局部特征相关的数据

答案：BCD

解析：非监督学习的样本数据是不要求带标签的,监督学习的样本数据是要求带

标签的。

34.图像压缩是建立在图像存在()几种冗余之上。

A、编程冗余

B、像素间冗余

C、心理视觉冗余

D、计算资源冗余

答案：ABC

解析：图像压缩是通过算法的改进,对重复像素用压缩算法减少储存空间和并行

算法达到的。

35.下列哪种服务可以用于存储数据()。

A、MapReduce

B、YARN

C、HBase

D、HDFS

答案：CD

解析：MapReduce是计算模型;YARN是通用资源管理系统;HBase是动态模式数据

库;HDFS是Hadoop分布式文件系统,是数据存储的基础。

36.许多功能更为强大的非线性模型可在线性模型基础上通过引入()和()而得。

A、层级结构

B、高维映射

C、降维

D、分类

答案：AB

解析：许多功能更为强大的非线性模型可在线性模型基础上通过引入层级结构和

高维映射而得。

37.决策树（）情况下会导致递归返回。

A、当前节点包含的样本全属于同一类

B、当前属性集为空

C、当前节点包含的样本集合为空

D、所有样本在所有属性上取值相同

答案：ABCD

解析：决策树的生成是一个递归过程.在决策树基本算法中，有三种情形会导致递

归返回：（1）当前结点包含的样本全属于同一类别，无需划分；（2）当前属性集为空,

或是所有样本在所有属性上取值相同，无法划分；⑶当前结点包含的样本集合为

空,不能划分.

38.常见的图像分割算法有0。

A、基于区域的分割方法

B、基于人工勾画的分割方法

C、基于边缘的分割方法

D、基于阈值的分割方法

答案：ACD

解析：人工勾画太过耗时,并不能作为常见的图像分割方法。

39.文本分类过程包括0。

A、选择训练文本

B、选择文本特征

C、建立文本表示模型

D、选择分类方法

答案：ABCD

解析：文本分类过程包括：(1)选择训练文本；(2)选择文本特征；⑶建立文本表示

模型；⑷选择分类方法；(5)分类结果的评估。

40.下面定义函数正确的是0。

A、defcaIc(*numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

B、defcaIc(**numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

C\defcaIc(**numbers,n):sum=0forninnumbers:sum=sum+n*nreturnsum

D、defcaIc(**numbers,n=0):sum=0forninnumbers:sum=sum+n*nreturnsum

答案：AB

解析：函数不定长参数*args和**kwargs只能放在形参的末尾，因此AB正确,CD

错误。

41.以下属于关键词提取算法的有()。

A、TF-IDF算法

B、TextRank算法

C、LSA(潜在语义分析)

D、LDA

答案：ABCD

解析：关键词提取算法包括TF-IDF算法、TextRank算法、LSA（潜在语义分析）。

rLSI（潜在语义索引）、LDA等。

42.线性模型的基本形式有0。

A、线性回归

B、对数几率回归（二分类问题）

C、线性判别分析（Fisher判别分析）

D、多分类学习

答案：ABCD

解析：线性模型的经典模型有:线性回归,对数几率回归（二分类问题），线性判别

分析（Fisher判别分析），多分类学习。

43.大数据偏见包括（）

A、数据源的选择偏见

B、算法与模型偏见

C、结果解读方法的偏见

D、数据呈现方式的偏见

答案：ABCD

解析：大数据偏见是数据科学项目中必须关注和加以避免的问题,上述四个活动

中均可能出现偏见。

44.以下图像技术中属于图像处理技术的是（）。

A、图像编码

B、图像合成

C、图像增强

D、图像分类

答案：AC

解析：图像合成输入是数据，图像分类输出是类别数据。

45.下列哪些是面向对象技术的特征()。

A、封装

B、继承

C、多态

D、分布性

答案：ABC

解析：面向对象技术的特征封装、继承、多态。

46.Web内容挖掘实现技术()。

A、文本总结

B、文本分类

C、文本机器学习

D、关联规则

答案：ABCD

解析：Web内容挖掘实现技术包含文本总结,文本分类,文本机器学习和关联规则

等。

47.完整性约束通常包括()

A、实体完整性

B、域完整性

C、参照完整性

D、用户定义完整性

答案：ABCD

解析：在关系数据库中，1)实体完整性:规定表的每一行在关系表中是惟一的实体。

2)域完整性:是指关系表中的列必须满足某种特定的数据类型约束,其中约束又

包括取值范围、精度等规定。3)参照完整性:是指两个关系表的主关键字和外关

键字的数据应一致，保证了表之间的数据的一致性,防止了数据丢失或无意义的

数据在数据库中扩散。4)用户定义的完整性:不同的关系数据库系统根据其应用

环境的不同,往往还需要一些特殊的约束条件。用户定义的完整性即是针对某个

特定关系数据库的约束条件，它反映某一具体应用必须满足的语义要求。

48.Spark容错性的方式有哪些()。

A、数据检查点；

B、存储原始数据；

C、记录数据的更新；

D、自建数据版本；

答案：AC

解析：Spark容错性有两种方式数据检查点和记录数据的更新。

49.关于HadoopMapReduce,以下描述中正确的是0。

A、reduce。函数的输入是value集

B\reduce()函数将最终结果写到HDFS系统中

C、用户可以自己定义reduce()函数

Dvreduce()函数的输入数据是经过map()函数处理之后的数据

答案：BCD

解析：reduce。函数的输入是key-value集。

50.Scikit-Learn中可以实现()算法。

A、分类

B、聚类

G回归

D、降维

答案：ABCD

解析：这些均可在skIearn中实现。

51.直方图修正法包括0。

A、直方图统计

B、直方图均衡

C、直方图过滤

D、直方图规定化；

答案：BD

解析：直方图统计是对图像特征值的统计;直方图过滤属于图像处理技术。

52.Python中标识符的命名规则正确的是()。

A、只能以下划线或者A-Z/a-z中的字母开头

B、关键字不能作为标识符

C、Python标识符区分大小写

D、关键字不能作为标识符

答案：ABCD

解析：变量名可以包含字母数字下划线,但不能以数字开头,避免使用关键字。

53.在网络爬虫的爬行策略中，应用最为常见的是0。

A、深度优先遍历策略

B、广度优先遍历策略

C、高度优先遍历策略

D、反向链接策略

E、大站优先策略

答案：AB

解析：在网络爬虫的爬行策略中，应用最为常见的是深度优先遍历策略、广度优

先遍历策略。

54.Spark提交工作的方式0。

A、Iient

B\Iuster

C、tandaIone

D\arn

答案：AB

解析：spark提交作业的方式是client和cluster。

55.训练CNN时,GPU显存溢出，此时可以采取什么办法()

A、减少mini_batch大小

B、移除一些卷积层

C、减少图片输入大小

D、增加激活函数

答案：ABC

解析：D:反而会加重负担。

56.从Hadoop实现角度看,HadoopMapReducel.0主要由()组成。

A、编程模型

B、数据处理引擎

C、运行时环境

D、算法库

答案：ABC

解析：HadoopMapReducel.0计算框架主要由编程模型、数据处理引擎和运行时

环境组成。

57.空间域滤波是直接以图像中的像素操作为基础的滤波,空间滤波器有时也可

称为()。

A、空间掩模

B、核

C、模板

D、窗口

答案：ABCD

解析：空间滤波器也可称为空间掩模,核,模板和窗口等。

58.下面对范数规则化描述正确的是()。

A、L0是指向量中0的元素的个数

B、L1范数是指向量中各个元素绝对值之和

C、L2范数向量元素绝对值的平方和再开平方

D、L0是指向量中非0的元素的个数

答案：BCD

解析:L0是指向量中非0的元素的个数,L1范数是指向量中各个元素绝对值之和,

L2范数向量元素绝对值的平方和再开平方。

59.数据科学基本原则中，三世界原则指的是0

A、我们的世界

B、数据世界

C、物理世界

D、数字世界

答案：ABC

解析：大数据时代的到来，在我们的“精神世界”和“物理世界”之间出现了一

种新的世界—“数据世界”。因此,在数据科学中，通常需要研究如何运用“数

据世界”中已存在的“痕迹数据”的方式解决“物理世界”中的具体问题，而不

是直接到“物理世界”，采用问卷和访谈等方法亲自收集“采访数据”。相对于

“采访数据”，“痕迹数据”更具有客观性。图灵奖获得者JimGray提出的科学

研究第四范式数据密集型科学发现(Data-intensiveScientificDiscovery)

是“三世界原则”的代表性理论之一。

60.以下选项中，属于MapReduce特征的有()。

A、以主从结构的形式运行

B、容错机制的复杂性

C、任务备份机制的必要性

D、数据存储位置固定

答案：ABC

解析：数据存储位置具有多样性,并非固定,所以D错。

61.影响聚类算法效果的主要原因有：()

A、特征选取

B、模式相似性测度

C、分类准则

D、已知类别的样本质量

答案：ABC

解析：聚类算法是无监督的学习算法,训练样本的标记信息是未知的。

62.已测量级(MeasuredLeveI)的主要特点包括()。

A、已构建了关键过程矩阵。

B、已定义了变革管理的正式流程。

C、已实现用定量化方式计算关键过程的质量和效率。

D、关键过程的质量和效率的管理涉及整个生命周期

答案：ABCD

解析：DMM的已测量级(MeasuredLeveI):组织机构已用“定量化”的方式管理其

关键过程的执行过程。主要特点如下：1)已构建了关键过程矩阵;2)已定义了变革

管理的正式流程⑶已实现用定量化方式计算关键过程的质量和效率;4)关键过

程的质量和效率的管理涉及其全生命周

63.以下说法正确的是()。

A、条件独立性假设不成立时,朴素贝叶斯分类器仍有可能产生最优贝叶斯分类器

B、在估计概率值时使用的拉普拉斯修正避免了因训练集样本不充分而导致概率

估值为零的问题

C、由于马尔可夫链通常很快就能趋于平稳分布，因此吉布斯采样算法的收敛速度

很快

D、二分类任务中两类数据满足高斯分布且方差相同时,线性判别分析产生贝叶斯

最优分类器

答案：ABD

解析：由于马尔可夫链通常需要很长时间才能趋于平稳分布,因此吉布斯采样算

法的收敛速度较慢。

64.以下关于Hbase说法正确的是0。

A、面向列的数据库

B、非结构化的数据库

C、支持大规模的随机、实时读写

D、采用松散数据模型

答案：ABCD

解析：HBase是非结构化的、多版本的、面向列和开源的数据库;HBase提供了对

大规模数据的随机、实时读写访问;从存储模型看,HBase采用的是松散数据模型。

65.关于降维说法正确的是0。

A、PA是根据方差这一属性降维的

B、降维可以防止模型过拟合

C、降维降低了数据集特征的维度

D、降维方法有PLA等

答案：ACD

解析：降维不能用于防止模型过拟合。

66.下面哪些是有效的类构造函数()。

A、def_lnit_(self):

B\def_init_(seIf,var=O):

C\definit_0:

D\def_init_(seIf,a,b,c):

答案：ABD

解析：C属于自定义函数。

67.下面哪些是spark比Mapreduce计算快的原因()。

A、基于内存的计算；

B、基于DAG的调度框架；

C、基于Lineage的容错机制；

D、基于分布式计算的框架；

答案：ABC

解析：Spark比Mapreduce计算快的原因包括基于内存计算;使用基于Lineage

的容错机制和基于DAG的调度框架。

68.数据挖掘的主要功能包括概念描述,趋势分析、孤立点分析及()等方面。

A、挖掘频繁模式

B、分类和预测

C、机器学习分析

D、偏差分析

答案：ABCD

解析：数据挖掘的主要功能包括概念描述、关联分析、分类与预测、聚类分析、

趋势分析、孤立点分析以及偏差分析等。

69.在Python中，以下导入模块方式正确的是（）。

A、import模块名

B、import模块名as模块的别名

C\from模块名import函数名

D、from模块名import函数名A,函数名B

答案：ABCD

解析：本题考查模块导入方法。

70.0是通过对无标记训练样本的学习来进行分类的。

A、密度估计

B、异常检测

G线性回归

D、聚类分析

答案：ABD

解析：《数据挖掘导论》P403?（有疑问）

71.下列属于字符串匹配的分词方法的是0。

A、正向最大匹配法（由左到右的方向）

B、逆向最大匹配法（由右到左的方向）

C、最少切分（使每一句中切出的词数最小）

D、双向最大匹配法（进行由左到右、由右到左两次扫描）

答案：ABCD

解析：正向最大匹配、逆向最大匹配、最少切分、双向最大匹配都属于字符串匹

配的常用方法。

72.如何在监督式学习中使用聚类算法()

A、首先,可以创建聚类，然后分别在不同的集群上应用监督式学习算法

B、在应用监督式学习算法之前，可以将其类别ID作为特征空间中的一个额外的

特征

C、在应用监督式学习之前,不能创建聚类

D、在应用监督式学习算法之前，不能将其类别ID作为特征空间中的一个额外的

特征

答案：AB

解析：我们可以为不同的集群构建独立的机器学习模型,并且可以提高预测精度。

将每个类别的ID作为特征空间中的一个额外的特征可能会提高的精度结果。

73.关于Hive的说法正确的是()o

A、Hive是基于Hadoop的数据仓库工具

B、Hive可以将结构化的数据文件映射为一张数据库表

C、最初,Hive由Google开源,用于解决海量结构化日志数据统计问题

D、Hive的主要应用场景是离线分析

答案：ABD

解析：Hive不是由谷歌提出和开源的,谷歌提出的三大核心技术是GFS.BigTabl

e,MapReduceo

74.在假设检验中，当原假设为“伪”，但数据分析人员没有拒绝它时犯的错误叫()。

A、ct错误

B、B错误

C、取伪错误

D、弃真错误

答案：BC

解析：a错误（弃真错误）：当原假设为真时，但我们错误地认为“原假设是不成立

的”，进而导致拒绝这个正确假设邛错误（取伪错误）：当原假设为假时，但我们错

误地认为“原假设是成立的”，进而导致接受此错误假设

75.以下（）属于数据统计分析工具。

A、Weka

B、SAS

C、SPSS

D、MatIab

答案：ABCD

解析:常用统计软件的种类，包含Weka,SAS、SPSS、ExceKS-plus、Minitab,S

tatistica,Eviewso

76.某单位运用随机森林算法思想建立抢修热点模型。该模型主要预测下期台区

工单数量,构建抢修热点。以下模型算法构建步骤中合理的顺序是：（）o

A、将历史数据进行随机自助法重抽样,生成N个训练样本集

B、将N个训练样本集分别做决策树,生成N棵决策树

C、将N棵决策树随机构成随机森林

D、未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票，

得出针对该预测样本最优的决策树进行运算,并计算出最终结果。

答案：ABCD

解析：模型算法构建步骤为：

1.将历史数据进行随机自助法重抽样,生成N个训练样本集.

2.将N个训练样本集分别做决策树,生成N棵决策树；

3.将N棵决策树随机构成随机森林

4.未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票,

得出针对该预测样本最优的决策树进行运算,并计算出最终结果。

77.字符串的格式化可以使用()。

A、%

B、format

C、input

D、+

答案：AB

解析：input输入,+加法运算符。

78.假设一个随机变量服从正态分布,则随机变量的概率分布跟其()和()有关。

A、众数

B、频数

C、平均值

D、方差

答案：CD

解析：正态分布一般用均值和方差来刻画。

79.循环神经网络主要被应用于哪些场景(_)。

A、语音识别

B、语音建模

C、机器翻译

D、图像识别

答案：ABC

解析：图像识别用CNN。

80.以下()函数是累积函数。

A、cumsum

B、argmin

C、cumprod

D、argmax

答案：AC

解析：分别为累加和累乘函数。

81.以下哪层是卷积神经网络的组成部分。

A、卷积层

B、中间层

C、池化层

D、全连接层

答案：ACD

解析：卷积神经网络的组成部分不包括中间层。

82.下面对LDA判别分析的思想描述正确的是()。

A、同类样例的投影点尽可能近

B、异类样例的投影点尽可能远

C、同类样例的投影点尽可能远

D、异类样例的投影点尽可能近

答案：AB

解析：LDA的思想非常朴素:给定训练样例集，设法将样例投影到一条直线上，使

得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离；在对新样本进

行分类时，将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的

类别。

83.可视分析学是一门以可视交互为基础,综合运用()等技术等多个学科领域的

知识,以实现人机协同完成可视化任务为主要目的分析推理学科。

A、物理学

B、图形学

C、数据挖掘

D、人机交互

答案：BCD

解析：可视分析学(VisuaIAnaIytics):科学可视化和信息可视化理论的进一步演

变以及与其他学科相互交融发展之后的结果。在数据科学中,通常采用数据可视

化的广义定义方法,并以可视分析学为主要理论基础。

84.以下哪些选项可以用于实现爬虫功能0。

A、BeautifuISoup库

B、re模块

C\Scrapy框架

D\urIIibrequest库

答案：ACD

解析：re是正则模块不含网络功能，但可以用它将爬下来的数据进行处理。

85.Hadoop组件Flume三层架构包括()。

A、Agent

B、Gossip

C\ColIector

D\Storage

答案：ACD

解析：Flume采用了三层架构，分别为agent,collector和storage,每一层均可

以水平扩展。agent用于采集数据,agent是flume中存储数据流的地方，同时ag

ent会将产生的数据传输到collector;Collector的作用是坚多个agent的数据

汇总后,加载到storage中，多个collector之间遵循负载均衡规则；Storage是

存储系统,可以是一个普通fiIe,也可以是HDFS.HIVE,Hbase等。

86.下列关于极大似然估计(MaximumLikeIihoodEstimate,MLE),说法正确的是(—

A、MLE可能并不存在

B、MLE总是存在

C、如果MLE存在,那么它的解可能不是唯一的

D、如果MLE存在，那么它的解一定是唯一的

答案：AC

解析：极大似然估计方法(MaximumLikeIihoodEstimate,MLE)也称最大概似估计

或最大似然估计:利用已知的样本结果,反推最有可能(最大概率)导致这样的结

果的参数值。极大似然估计,只是一种概率论在统计学的应用，它是参数估计的方

法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清

楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极

大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,

我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真

实值。

当然极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估

计。

87.pandas中删除列的方式()。

A、df.drop(["列名,axis=1)

B、df.drop(coIumns=["列名"])

C\df.drop([0,1])

D、df.drop([0])

答案：AB

解析：A和B选项都是删除列的方式,CD选项没有指定axis,默认是删除行。

88.Python的优点有()。

A、变量不用预定义类型

B、数据结构功能强大

C、语言可解释性强

D、变量类型固定

答案：ABC

解析：Python变量在使用前不必定义变量类型。

89.基于Boosting的集成学习代表算法有()。

A、Adaboost

B、GBDT

C、XGBOOST

D、随机森林

答案：ABC

解析:AdaboostxGBDT、XGBOOST是基于Boosting的集成学习算法。

90.以下关于API爬虫哪些说法是错误的()。

A、基于API返回的结果通常会比较干净

B、基于API的爬虫任务中，速度一般较慢

C、基于API的爬虫爬取的好处是没有次数的限制

D、基于API的爬取能够覆盖网站所有信息

答案：BCD

解析：基于API返回的结果同样需要解析。

91.Apriori算法的计算复杂度受()影响。

A、支持度阀值

B、项数(维度)

C、事务数

D、事务平均宽度

答案：ABCD

解析：Apriori算法的计算复杂度受A.支持度阀值、项数(维度)、事务数'事务

平均宽度影响。

92.下列关于RNN、LSTM、GRU说法正确的是(_)。

A、RNN引入了循环的概念

B、LSTM可以防止梯度消失或者爆炸

GGRU是LSTM的变体

D、RNN、LSTM、GRU是同一神经网络的不同说法，没有区别

答案：ABCD

解析：RNN:循环神经网络,是非线性动态系统,将序列映射到序列;LSTM:LSTM通

过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是LSTM的默认行

为,而非需要付出很大代价才能获得的能力;GRU:LSTM有很多变体,其中较大改

动的是GatedRecurrentllnit(GRU),它将忘记门和输入门合成了一个单一的更新

门。同样还混合了细胞状态和隐藏状态，和其他一些改动。最终的模型比标准的

LSTM模型要简单。效果和LSTM差不多，但是参数少了1/3,不容易过拟合。

93.下面关于随机变量及其概率分布的说法,正确的是()。

A、随机变量可以分为离散型随机变量和连续型随机变量

B、随机变量的概率分布指的是一个随机变量所有取值的可能性

C、扔5次硬币，正面朝上次数的可能取值是0,1,2,3,4,5,其中正面朝上次数为0

与正面朝上次数为5的概率是一样的

D、扔5次硬币，正面朝上次数的可能取值是0,1,2,3,4,5,其中正面朝上次数为5

的概率是最大的

答案：ABC

解析：扔5次硬币，正面朝上次数的可能取值是0,1,2,3,4,5,其中正面朝上次数

为5的概率不是最大的。

94.关于现阶段大数据技术体系,说法正确的是()。

A、基础设施提供数据计算'数据存储'数据加工(DataWrangling或DataMungi

ng)等服务

B、流处理、统计工具、日志分析都属于常用的开源工具

C、数据资源代表的是生成数据的机构

D、数据源与APP为数据科学和大数据产业生态系统提供数据内容

答案：ABCD

解析：Speechpad的联合创始人DaveFeinleib于2012年发布大数据产业全景图

(BigDataLandscape),首次较为全面地刻画了当时快速发展中的大数据技术体系。

后来,该图及其画法成为大数据和数据科学的重要分析工具,得到广泛的应用和

不断的更新。MattTurck等组织绘制的2017大数据产业全景图(BigDataLandsca

pe2017)。从2017大数据产业全景图看，现阶段的大数据技术体系主要类型包括：

数据资源、数据源与APP、开源工具、跨平台基础设施和分析工具、行业应用、

企业应用、基础设施和分析工具。

95.我们希望减少数据集中的特征数量。你可以采取以下哪一个步骤来减少特征

Ax使用正向选择法(ForwardSeIection)

B\使用反向消除法(BackwardEIimination)

C\逐步选择消除法(Stepwise)

D、计算不同特征之间的相关系数,删去相关系数高的特征之一

答案：ABCD

解析：正向选择(ForwardSelection)是首先选择一^1^特征,每个特征都试一遍，

选择对模型准确率提升最高的那个特征;然后再在这个特征基础上添加另外一个

特征,方法类似,直到模型准确率不再提示为止。反向消除(BackwardEIiminatio

n)是首先包含了所有的特征,然后尝试删除每个特征,最终删掉对模型准确率提

升最高的一个特征(因为删除这个特征,模型准确率反而增加了，说明是无用特

征)。如此类推，直到删除特征并不能提升模型为止。相对于ForwardSelection,

BackwardEIimination的优点在于其允许一些低贡献值的特征能够进到模型中

去(有时候低贡献值的特征能在组合中有更大的贡献值,而ForwardSelection忽

略了这种组合的可能性)，因此BackwardEIimination能够避免受一两个占主导

地位的特征的干扰。

另外还有一种特征选择方法是Stepwise,该方法结合上述两者的方法,新加入一

个特征之后,再尝试删去一个特征,直至达到某个预设的标准。这种方法的缺点是,

预设的标准不好定,而且容易陷入到过拟合当中。除此之外，也可以使用基于相关

性的特征选择,可以去除多重线性特征。

96.下面关于函数的递归调用描述正确的是()。

A、必须有一个明确的结束条件

B、每次进入更深一层递归时，问题规模相比上次递归都应有所减少

C、递归调用效率不高,递归层次过多会导致栈溢出(在计算机中，函数调用是通过

栈(stack)这种数据结构实现的,每当进入一个函数调用，栈就会加一层栈帧,每

当函数返回,栈就会减一层栈帧

D、由于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出)

答案：ABCD

解析：关于函数的递归调用要求必须有一个明确的结束条件,每次进入更深一层

递归时，问题规模相比上次递归都应有所减少,递归调用效率不高,递归层次过多

会导致栈溢出(在计算机中，函数调用是通过栈(stack)这种数据结构实现的,每

当进入一个函数调用，栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧,由

于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出)o

97.下列关于spark中的RDD描述正确的有()。

A、RDD(ResiIientDistributedDataset)叫做弹性分布式数据集，是spark中最基

本的数据抽象；

B、ResiIient:表示弹性的；

C、Destributed:分布式，可以并行在集群计算；

D、Dataset:就是一个集合，用于存放数据的；

答案：ABCD

解析：关于spark中的RDD描述正确的有RDD(ResiIientDistributedDataset)

叫做弹性分布式数据集,是spark中最基本的数据抽象;ResiIient:表示弹性的；

Destributed:分布式,可以并行在集群计算;Dataset:就是一^集合,用于存放数

据的。

98.Hadoop框架的缺陷有()。

A、MR编程框架的限制；

B、过多的磁盘操作,缺乏对分布式内存的支持；

C、无法高效支持迭代式计算;

D、不支持多用户写入并任意修改文件;

答案：ABCD

解析：以上四项都为Hadoop的缺点。

判断题(共38题)

99.以下关于HTML标签嵌套规则的说法,正确的是0。

A、块元素可以包含内联元素或某些块元素，但内联元素也可以包含块元素

B、HTML标签包括块级元素和内嵌元素

C、内嵌元素一般用在网站内容之中的某些细节或部位,用以“强调区分样式上标

下标锚点”等，通常包括：aabbrbbrfontiimginputkbdIabeIqsseIectsmaIIspans

ubttuvar等

D、其中块级元素一般用来搭建网络架构布局承载内容,通常包括的标签有:addr

essdirdivdIdtddformhl~h6hrisindexmenunoframesnoscriptoIppretabIeuI等

答案：BCD

解析：块元素可以包含内联元素或某些块元素，但内联元素却不能包含块元素，

它只能包含其他的内联元素。

100.一个回归模型存在多重共线问题。在不损失过多信息的情况下,可如何处理

A、剔除所有的共线性变量

B、剔除共线性变量中的一个

G通过计算方差膨胀因子(VarianceInfIationFactor,VIF)来检查共线性程度,

并采取相应措施

D、删除相关变量可能会有信息损失,我们可以不删除相关变量,而使用一些正则

化方法来解决多重共线性问题，例如Ridge或Lasso回归

答案：BCD

解析：为了检查多重共线性,我们可以创建相关系数矩阵来辨别和移除相关系数

大于75%的变量(阈值根据情况设定)，除此之外,可以使用VIF方法来检查当前存

在的共线变量。VIFU4表明没有多种共线,VIF>=10表明有着严重的多重共线性,

也可以使用公差(t。Ierance)作为评估指标。但是，移除相关变量可能导致信息的

丢失,为了保留这些变量,可以使用带惩罚的回归方法。可以在相关变量之间随机

加入噪音，使得变量之间存在差异。但增加噪音可能影响准确度，因此这种方法应

该小心使用。

101.Spark中的ScheduIer模块可以分为以下哪几个部分()。

A、DAGScheduIer;

B、ResourceScheduIer;

C、TaskScheduIer;

DvJobScheduIer;

答案：AC

解析:ScheduIer模块分为两个部分DAGScheduIer和TaskScheduIer。

102.下列哪个是Hadoop运行的模式()。

A、单机版

B、伪分布式

C、分布式

D、全分布式

答案：ABC

解析：Hadoop运行模式包括单机版、伪分布式和分布式。

103.下列哪些是TF-IDF的缺点()o

A、字词的重要性随它在文件中出现的次数成正比

B、将一些生僻字误当作文档关键词

C、只考虑特征词和文本之间的关系,忽略了一个特征项在不同类别间的分布情况

D、没有考虑特征词的位置因素对文本的区分度

答案：BCD

解析：低频词汇的重要性和出现次数成正比。

104.以下哪些滤波器能在卷积窗口的边界上使卷积掩膜中心像素和它的4-邻接

点的系数降至0附近0。

A、同态滤波

B、图斯滤波

C、巴特沃斯滤波

D、中值滤波

答案：BC

解析：图像处理基础知识。

105.数据挖掘的挖掘方法包括0。

A、聚类分析

B、回归分析

C、神经网络

D、决策树算法

答案：ABCD

解析：利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关

联规则、特征、变化和偏差分析、Web页挖掘等.

分类方法有决策树'1(邮法(1<-岫2匹5七岫18世0。\SVM法、VSM法、Bayes法、

神经网络等。

聚类算法分为:基于密度,基于层次,基于模型,基于网格等。

关联规则算法有:Apriori算法,FP-Growth算法

106.卷积神经网络中常用的池化函数包括()。

A、最大池化函数

B\L2范数

C、相邻矩形区域内的平均值

D、基于据中心像素距离的加权平均函数

答案：ABCD

解析：最大池化函数;L2范数；相邻矩形区域内的平均值;基于据中心像素距离的

加权平均函数；重叠池化;空金字塔池化。

107.下列哪些是特征选择方法()。

A、AIC赤池信息准则

B、LARS嵌入式特征选择方法

C、LVW包裹式特征选择方法

D、Relief过滤式特征选择方法

答案：BCD

解析：AIC赤池信息准则是常用的模型选择方法。

108.常用的冲突消解策略有包括()。

A、投票法

B、排序法

G元规则法

D、调研法

答案：ABC

解析：常用的冲突消解策略有包括:投票法,排序法,元规则法。

109.以下可用于处理由于光照不均带来的影响的图像处理方法有()。

A、同态滤波

B、顶帽变换

C、基于移动平均的局部阈值处理

D、拉普拉斯算子

答案：ABC

解析：拉普拉斯算子属于锐化滤波器,并不能处理光照不均匀带来的影响。

110.MapReduce对map0函数的返回值处理后才传给reduce0函数,其中涉及哪

些操作()。

A、合并

B、排序

C、分区

D、抽样

答案：ABC

解析：分别涉及Shuffle(排序)、biner(合并)和partition(分区)操作。

111.我们想要减少数据集中的特征数,即降维.选择以下适合的方案：()。

A、使用前向特征选择方法

B、使用后向特征排除方法

C、我们先把所有特征都使用，去训练一个模型,得到测试集上的表现.然后我们去

掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,

我们可以去除这个特征

D、查看相关性表，去除相关性最高的一些特征

答案：ABCD

解析：前向特征选择方法和后向特征排除方法是特征选择的常用方法。如果前向

特征选择方法和后向特征排除方法在大数据上不适用，可以用这里C中方法。用

相关性的度量去删除多余特征,也是一个可行的方法。

112.以下哪种说法是正确的()。

A、网站服务器可以识别你使用的访问软件,因为在发送访问请求中有特定位置的

字符串和软件类型相关

B、低级别的代理服务器十分容易被识别

C、可以通过修改opener的proxy来模拟浏览器访问

D、爬取图片的流程被中断时,之前所有爬取的信息都将被自动删除

答案：AB

解析：可以通过修改报头来模拟浏览器访问;爬取图片的流程被中断时,之前所有

爬取的信息已被保存到本地。

113.Hadoop的HDFS是一种分布式文件系统,适合以下哪种场景的数据存储和管

理0。

A、大量小文件存储

B、局容错'局吞吐量

C、低延迟读取

D、流式数据访问

答案：BD

解析：HDFS不适合小文件存储,HDFS的读取操作相比于传统的数据库延迟较高，

不适合低延迟读取。

114.常见的图像降噪方式包括()。

A、中值滤波

B、均值滤波

C、平均滤波

D、加权平均滤波

答案：ABCD

解析：常见的图像降噪方式包括中值滤波,均值滤波,平均滤波和加权平均滤波等。

115.ETL技术主要涉及()操作。

A、抽取

B、转换

C、加载

D、分析

答案：ABC

解析：抽取(extract)、转换(transform)、加载(load)

116.神经网络模型(NeuraINetwork)因受人类大脑的启发而得名。神经网络由许

多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个

输出。请问下列关于神经元的描述中，哪一项是正确的(_)。

A、每个神经元有一个输入和一个输出

B、每个神经元有多个输入和一个输出

C、每个神经元有一个输入和多个输出

D、每个神经元有多个输入和多个输出

答案：ABCD

解析：每个神经元可以有一个或多个输入,和一个或多个输出。

117.HIS表色系的三属性包含:Oo

A、色调

B、色饱和度

C、亮度

D、色度

答案：ABC

解析：HIS表色系包含色调，色饱和度和亮度。

118.关于数据组织的维度，以下选项中描述正确的是0。

A、数据组织存在维度,字典类型用于表示一维和二维数据

B、高维数据有键值对类型的数据构成,采用对象方式组织

C、二维数据采用表格方式组织，对应于数学中的矩阵

D、一维数据采用线性方式组织,对应于数学中的数组和集合等概念

答案：BCD

解析：字典类型用于表示一维数据。

119.MapReduce与HBase的关系，哪些描述是正确的()。

A、两者不可或缺,MapReduce是HBse可以正常运行的保证

B、两者不是强关联关系，没有MapReduce,HBase可以正常运行

C\MapReduce可以直接访问Hbase

D、它们之间没有任何关系

答案：BC

解析：Hbase是Hadoopdatabase,即Hadoop数据库。它是一^适合于非结构化数

据存储的数据库，与MapReduce并无强关联关系,HadoopMapReduce为HBase提供

了高性能的计算能力,可直接访问Hbase

120.下面是文件基本操作的函数()。

A、cIose

B\read

C、rename

D\remove

答案：ABCD

解析：下面是文件基本操作的函数close、read、rename、removeo

121.属于特征选择的优点有()。

A、解决模型自身的缺陷

B、减少过拟合

C、提升模型的性能

D、增强模型的泛化能力

答案：BCD

解析：特征选择无法克服模型自身的缺陷,二者是独立的。

122.Client端上传文件的时候下列哪项正确0。

A、数据经过NameNode传递给DataNode

B、Client端将文件切分为Block,依次上传

C\CIient只上传数据到一台DataNode,然后由NameNode负责BIock复制

D、Client如果上传的时候没有上传成功指定的副本数，则整次上传不成功

答案：BD

解析：Client端在上传文件的时候,请求是由NameNode响应，传输数据时Clien

t直接与DataNode通信,并非先把数据传输到NameNode再传送到DataNode,否则

会极大的增加NameNode节点的负担,因此A、C错误。

123.常见的核函数主要包括()。

A、多项式核

B、高斯核

C、线性核

D、拉普拉斯核

E、Sigmoid核

答案：ABODE

解析：上述都是常见的核函数。

124.任何函数都可以修改,所以尽量少用全局变量,主要原因包括()。

A、不够安全

B、一直占用内存

C、容易失效

D、一直占用字符

答案：AB

解析：全局变量安全性差、相关内存一直无法释放。

125.可视化高维展示技术在展示数据之间的关系以及数据分析结果方面作0。

A、能够直观反映成对数据之间的空间关系

B、能够直观反映多维数据之间的空间关系

C、能够静态演化事物的变化及变化的规律

D、能够动态演化事物的变化及变化的规律

E、提供高性能并行计算技术的强力支撑

答案：BD

解析：可视化高维展示技术在展示数据之间的关系以及数据分析结果方面能够直

观反映多维数据之间的空间关系，动态演化事物的变化及变化的规律。

126.当我们构造线性模型时,我们注意变量间的相关性。在相关矩阵中搜索相关

系数时,如果我们发现3对变量的相关系数是(Vari和Var2,Var2和Var3,Var3

和Vari)是-0.98,0.45,1.23.我们可以得出什么结论：()。

A、Vari和Var2是非常相关的

B、因为Va1r和Var2是非常相关的,我们可以去除其中一个

GVar3和Vari的1.23相关系数是不可能的

答案：ABC

解析：ASVM的策略是最大间隔分类器。B簇内的相似性越大，簇间的差别越大，

聚类的效果就越好。C训练误差减少与测试误差逐渐增大,是明显的过拟合的特

征。

127.聚类性能度量外部指标包括()。

A、Jaccard系数

B、FM指数

C\Dunn指数

D、Rand指数

答案：ABD

解析：常用的聚类性能度量外部指标:Jaccard系数,FM指数,Rand指数。

128.在Spark中，弹性分布式数据集的特点包括0。

A、可分区

B、可序列化

C、可直接修改

D、可持久化

答案：ABD

解析：RDD不可修改。

129.常见的原型聚类算法包括0。

A、k均值算法

B、学习向量量化

C、高斯混合聚类

D、密度聚类

答案：ABC

解析：常见的原型聚类算法包括k均值算法,学习向量量化,高斯混合聚类等。

130.Spark有哪些缺陷()。

A、于内存的计算

B、持Schema信息

C、支持增量迭代计算

D、支持细粒度更新操作

答案：CD

解析：不支持细粒度的写和更新操作,Spark写数据是粗粒度的,即为了提高效率

批量写入数据。Spark读数据是细粒度的，即一条一条读的,C对;Spark不支持增

量迭代计算,Flink支持增量迭代计算,D对。

131.可视分析学的几个特点包含()

A、强调数据到知识的转换过程

B、强调可视化分析与自动化建模之间的相互作用

C、强调数据映射和数据挖掘的重要性

D、强调数据加工(DataWrangling或DataMunging)工作的必要性

E、强调人机交互的重要性

答案：ABCDE

解析：从可是分析学模型可以看出，可视分析学的流程具有如下特点：1)强调数据

到知识的转换过程。可视化分析学中对数据可视化工作的理解发生了根本性变化

——数据可视化的本质是将数据转换为知识,而不能仅仅停留在数据的可视化呈

现层次之上。两种从数据到知识的转换途径:一是可视化分析,另一个是自动化建

模。2）强调可视化分析与自动化建模之间的相互作用。二者的相互作用主要体现

在:一方面，可视化技术可用于数据建模中的参数改进的依据;另一方面,数据建

模也可以支持数据可视化活动,为更好地实现用户交互提供参考。3）强调数据映

射和数据挖掘的重要性。从数据到知识转换的两种途径一一可视化分析与自动化

建模分别通过数据映射和数据挖掘两种不同方法实现。因此，数据映射和数据挖

掘技术是数据可视化的两个重要支撑技术。用户可以通过两种方法的配合使用实

现模型参数调整和可视化映射方式的改变，尽早发现中间步骤中的错误,进而提

升可视化操作的信度与效度。4）强调数据加工工作的必要性。数据可视化处理之

前一般需要对数据进行预处理（转换）工作,且预处理活动的质量将影响数据可视

化效果。5）强调人机交互的重要性。可视化过程往往涉及人机交互操作，需要重

视人与计算机在数据可视化工作中的互补性优势。因此,人机交互以及人机协同

工作也将成为未来数据可视化研究与实践的重要手段。

132.以下（）是一元通用函数。

A、np.add0

B\np.maximum0

C、np.exp0

D\np.sqrt（）

答案：CD

133.特征工程一般需要做哪些工作0。

A、正则化

B、标准化

C、特征处理

D、特征选择

答案：CD

解析：特征工程包括特征选择、特征处理、特征变换、特征衍生等。

134.以下属于图像分割的算法的是：()。

A、阈值分割方法(threshoIdsegmentationmethod)

B\区域增长细分(regionaIgrowthsegmentation)

C\边缘检测分割方法(edgedetectionsegmentationmethod)

D、基于聚类的分割(segmentationbasedoncIustering)

E、基于CNN中弱监督学习的分割

答案：ABODE

解析：以下方法均属于图像分割。

135.图像分割中常使用的领域有()。

A、0邻域

B、4邻域

C、8邻域

D、24邻域

答案：BC

解析：图像分割中常见的邻域为4邻域与8邻域，即某像素的上下左右、某像素

周围的一圈像素。

136.下列既可以用于分类,又可以用于回归的机器学习算法有：

A、k近邻

B、逻辑回归

C'决策树

D、线性回归

答案：AC

解析：逻辑回归只用于分类，线性回归只用于回归。

137.对于主成分分析方法，降维后低维空间的维数d可以通过。方法确定。

A、由用户事先指定

B、通过在d值不同的低维空间中对开销较小的学习器进行交叉验证来选取

C、可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值

D、随机设置

答案：ABC

解析：降维后低维空间的维数通常是由用户事先指定,或通过在d值不同的低维

空间中对k近邻分类器（或其他开销较小的学习器）进行交叉验证来选取较好的d

值。从重构的角度还可以设置一个重构阈值,选取使得特定公式成立的最小值。

138.数据挖掘算法的组件包括0。

A、模型或模型结构

B、评分函数

C、优化和搜索方法

D、数据管理策略

答案：ABCD

解析：数据挖掘算法的组件包括模型或模型结构、评分函数、优化和搜索方法、

数据管理策略。

139.以下哪几项属于汉语未登录词的类型0。

A、存在于词典但出现频率较少的词

B、新出现的普通词汇

C、专有名词

D、专业名词和研究领域名称

答案：BCD

解析：未登录词就是未知的新词。判断一个新字符串是否应作为一个词,是基于

世界知识的,需要人参与才能确认。

140.Hadoop生态系统中,核心是()o

A、FIume

B、MapReduce

C、Pig

D、HDFS

答案：BD

解析：Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据

提供了存储,则MapReduce为海量的数据提供了计算。

141.关于数据产品研发,下列说法错误的是()。

A、从加工程度看,可以将数据分为一次数据、二次数据和三次数据

B、一次数据中往往

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据应用习题库-下（多选、判断、填空题部分）

文档简介

温馨提示

最新文档

评论

大数据应用习题库-下（多选、判断、填空题部分）

文档简介

温馨提示

最新文档

评论

相关文档