




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据应用考试模拟习题库(汇总带解析)
一'单选题
1.下列关于线性模型的描述错误的是()。
A、支持向量机的判别函数一定属于线性函数
B、在样本为某些分布情况时,线性判别函数可以成为最小错误率或最小风险意义
下的最优分类器
C、在一般情况下,线性分类器只能是次优分类器
D、线性分类器简单而且在很多期情况下效果接近最优,所以应用比较广泛
答案:A
解析:支持向量机的判别函数不一定是线性函数。
2.下列策略()可在保证训练精度的情况下降低模型的复杂度。
A、正则化系数无穷大
B、正则化系数几乎为0
C、选择合适的正则化参数
D、以上答案都不正确
答案:C
解析:选择合适的正则化参数可在保证训练精度的情况下降低模型的复杂度。
3.以下有关计算机编程语言说法错误的是()。
A、编程语言是用于书写计算机程序的语言;
B、计算机语言可分为机器语言'汇编语言、高级语言;
C、计算机能识别和执行所有编程语言写的程序;
D、C/C++、pascal、javpython都属于高级编程语言;
答案:C
解析:只有机器语言才能被计算机直接识别,Python等高级语言源程序,不能直
接运行,必须翻译成机器语言才能执行。
4.下列关于计算机存储容量单位的说法中,错误的是()。
A、1KB<1MB<1GB
B、基本单位是字节(Byte)
C、一个汉字需要一个字节的存储空间
D、一个字节能够容纳一个英文字符
答案:C
解析:通常,一个汉字需要两个字节的存储空间
5.锐化(高通)滤波器的作用()。
A、能消减或削弱傅立叶空间的低频分量,但不影响高频分量
B、能消减或削弱傅立叶空间的高频分量,但不影响低频分量
C、对傅立叶空间的低、高频分量均有削弱或削除作用
D、对傅立叶空间的低、高频分量均有增强作用
答案:A
解析:高通滤波与低通滤波正好相反,是频域图像的高频部分通过而抑制低频部
分。在图像中图像的边缘对应高频分量,因此高通滤波的效果是图像锐化。
6.对组织机构的数据管理成熟度等级划分中的已执行级的描述错误的是0。
A、在具体项目中,DMM关键过程域(KPA)中给出的关键过程已被执行,但随意性和
临时性较大
B、DMM关键过程的执行不仅仅局限于特定业务范畴,存在跨越不同业务领域的关
键过程
C、缺少针对DMM关键过程的反馈与优化
D、虽然有可能在特定业务过程中进行了基础性改进,但没有进行持续跟进,也未
拓展到整个组织机构
答案:B
解析:DMM的执行级(PerformedLevel):组织机构只有个别项目的范围之内"执
行”了DMM给出的关键过程,但缺乏机构层次的统筹与管理。主要特点如下:1)
在具体项目中,DMM关键过程域(KPA)中给出的关键过程(KeyProcess)已被执行,
但随意性和临时性较大;2)DMM关键过程(KeyProcess)的执行往往仅限于特定业
务范畴,很少存在跨越不同业务领域的关键过程;3)缺少针对DMM关键过程(KeyP
rocess)的反馈与优化。以DMM关键过程(KeyProcess)中的“数据质量”为例,
其数据管理工作可能过于集中在一个特定业务,如“数据修复活动”,并没有扩散
到整个的业务范围或并没有开展对数据修复活动本身的反馈与优化工作;4)虽然
有可能在特定业务过程中已进行了基础性改进,但没有进行持续跟进,也未拓展
到整个组织机构;5)组织机构没有统筹其数据管理工作,而数据管理活动局限在
具体项目中,主要按照其具体项目的实施需求进行,如果一个具体项目中需要进
行数据管理,可能执行DMM中给出的相关过程,反之亦然。
7.下面哪个是满足期望输出的代码()。
Arr=np.array([0,1,2,3,4,5,6,7,8,9])
期望输出:array([1,3,5,7,9])
A、arr%2~1
B、arr[arr%2-1]
C、arr[arr/2-1]
D、arr[arr//2=1]
答案:B
解析:本题中的结果是选取了原数组的奇数,先使用数组进行逻辑判断得到一个
逻辑数组,然后以其作为索引选取数据。
8.在k-均值算法中,以下哪个选项可用于获得全局最小()
A、尝试为不同的质心(centroid)初始化运行算法
B、调整迭代的次数
C、找到集群的最佳数量
D、以上答案都正确
答案:D
解析:所有都可以用来调试以找到全局最小。
9.考虑值集(12243324556826),其四分位数极差是:()
A、21
B、24
C、55
D、3
答案:A
解析:四分位差,也称为内距或四分间距,它是上四分位数(QU,即位于75%)与下
四分位数(QL,即位于25%)的差。计算公式为:QD=QU-QL。将数据从小到大排序,
可得到QU=33,QL=12,因此QD=QU-QL=21
10.关于Python布尔值,下列选项描述正确的是()。
A、整型的0不可以表示FaIse
B、浮点型的0不可以表示FaIse
C、0+0j可以表示FaIse
D、布尔值不可以进行算术运算
答案:C
解析:整型、浮点型0均可表示FaIse,布尔值可参加运算。
11.采用塞次变换进行灰度变换时,当寨次取大于1时,该变换是针对如下哪一类
图像进行增强0。
A、图像整体偏暗
B、图像整体偏亮
C、图像细节淹没在暗背景中
D、图像同事存在过亮和过暗背景;
答案:B
解析:鬲次变换的基本表达式为:y=cx-+b。当r>1时,变换函数曲线在正比函数
下方。此时扩展高灰度级,压缩低灰度级,使图像变暗。当r〈1时,变换函数曲线
在正比函数上方。此时扩展低灰度级,压缩高灰度级,使图像变亮。这一点与对数
变换十分相似。
12.LSTM中,(_)的作用是确定哪些新的信息留在细胞状态中,并更新细胞状态。
A、输入门
B、遗忘门
C、输出门
D、更新门
答案:A
解析:LSTM中,输入门的作用是确定哪些新的信息留在细胞状态中,并更新细胞
状态;遗忘门决定我们会从细胞状态中丢弃什么信息;输出门确定输出。
13.Numpy包中meshgrid函数实现的功能是()。
A、数组拆分
B、数组乘法
C、数组除法
D、数组融合
答案:D
解析:np.meshgrid()用于数组融合,在画等高线图时常用。
14.以下代码的输出结果为()。
Importnumpyasnp
A=np.arange(9)
B=np.split(a,3)
Print(b)
A、[012345678]
B、[array([0,1,2]),array([3,4,5]),array([6,7,8])]
G[array([0,1,2,3]),array([4,5,6]),array([7,8])]
D、没有正确答案
答案:B
解析:split将原数组等分成三个数组。
15.np.where([[True,False],[True,True]],[[1,2],[3,4]],[[9,8],[7,6]]),
最终的输出结果是0。
A、[[1,4],[9,7]]
B、[[1,3],[9,7]]
C、[[1,8],[3,4]]
D、[[2,9],[3,6]]
答案:C
解析:上述条件为[[True,False],[True,False]],分别对应最后输出结果的四个
值。第一个值从[1,9]中选,因为条件为True,所以是选1。第二个值从[2,8]中选,
因为条件为False,所以选8,后面以此类推。
16.聚类算法的性能度量可称为()。
A、密度估计
B、异常检测
C、有效性指标
D、分布结构
答案:C
解析:聚类算法的性能度量可称为有效性指标。
17.下列哪个不是RDD的缓存方法()
Avpersist()
B、cache0
C、Memory()
D、以上答案都正确
答案:C
解析:
RDD的缓存方法包括persist和cache,其中cache方法默认存储到内存中。
18.机器学习训练时,Mini-Batch的大小优选为2的幕,如256或512。它背后的
原因是什么()。
A、Mini-Batch为偶数的时候,梯度下降算法训练的更快
B、Mini-Batch设为2的悬,是为了符合CPU、GPU的内存要求,利于并行化处理
C、不使用偶数时,损失函数是不稳定的
D、以上答案都不正确
答案:B
解析:Mini-Batch设为2的募,是为了符合CPU、GPU的内存要求,利于并行化处
理
19.线性判别分析在二分类问题上,也称为()。
A、线性回归
B、对数几率回归
GFisher判别分析
D、主成分分析
答案:C
解析:线性判别分析在二分类问题上,也称为Fisher判别分析。
20.以下不属于大数据在社会活动中的典型应用的是()。
A、美团实现了快速精准的送餐服务
B、享单车、滴滴打车方便了人们的日常出行
C、快递实现了订单的实时跟踪
D、供电公司提供电费账单查询
答案:D
解析:电费账单查询属于简单报表查询,用电情况分析、窃电行为分析'基于交
易大数据分析用户的购买习惯'基于传感器感知的海量数据分析自然灾害的危害
程度、基于搜索引擎的搜索关键词分析社会热点等属于大数据应用。
21.如果要清空文件,需要使用的命令是()。
A、cIose0
B、seek(0)
C、truncate(0)
D、Dwrite('stuff')
答案:c
解析:truncate(size)方法将截断文件,大小为size,size为0即清空
22.通常“落伍者”是影响MapReduce总执行时间的主要影响因素之一,为此Map
Reduce采用()机制来解决。
A、分布式计算
B、惰性计算
C、推测性执行的任务备份
D、先进先出
答案:C
解析:MapReduce采用“推测性执行的任务备份”机制一当作业中大多数的任务
都已经完成时,系统在几个空闲的节点上调度执行剩余任务的备份,并在多个Wo
rker上同时进行相同的剩余任务。
23.假设一个线性回归模型完美适合训练数据(训练误差为0),下面那个说法是
正确的()。
A、测试集误差一直为0
B、测试集误差可能为0
C、测试集误差不会为0
D、以上都不对
答案:B
解析:测试误差有可能为0,假如测试数据里面没有噪声数据。或者说,如果测试
数据能够完美表征训练数据集,测试误差即可为0,但测试数据不会总这样。
24.在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了一
个(_)。
A、偏置项b
B、系数
C、松弛变量
D、两种情况的目标函数相同
答案:C
解析:在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了
一个松弛变量。
25.查看变量内存地址的Python内置函数是()。
A、memery()
B、id()
GIocaIof0
D、heIp()
答案:B
解析:查看变量内存地址的Python内置函数是id()。
26.以下关于DNN说法不正确的是(_)o
A、层数多
B、抽象能力强
C、模拟更复杂模型
D、广义上包含CNN,DBN,SVM等
答案:D
解析:DNN不包括SVM和DBM。
27.数据故事话的“情景'不包括()。
A、还原情景
B、统计情景
C、移植情景
D、虚构情景
答案:B
解析:“数据的故事化描述(Storytelling)”是指为了提升数据的可理解性、可
记忆性及可体验性,将“数据”还原成关联至特定的“情景”的过程。可见,数据
故事化也是数据转换的表现形式之一,其本质是以“故事讲述”的方式展现“数
据的内容”。数据故事化中的“情景”,可以是:1)还原情景:还原数据所计量和
记录信息时的“原始情景”;2)移植情景:并非对应信息的原始情景,而是将数据
移植到另一个真实发生的情景(如目标用户比较熟悉的情景)之中。3)虚构情景:
数据的故事化描述中所选择的情景并非为真实存在的情景,而是根据讲述人的想
象力设计出来的“虚构情景”。
28.Python解释器环境中,用于表示上一次运算结果的特殊变量为0。
A、:
B、_
C、>
D、#
答案:B
解析:Python解释器环境中,用.表示上一次运算结果的特殊变量。
29.自然语言处理、语音识别'股票交易、气象预测等应用适合采用(_)处理。
A、循环神经网络
B、卷积神经网络
C、多层神经网络
D、单层神经网络
答案:A
解析:循环神经网络具有记忆性、参数共享并且图灵完备,因此在对序列的非线
性特征进行学习时具有一定优势。循环神经网络在自然语言处理,例如语音识别'
语言建模、机器翻译等领域有应用,也被用于各类时间序列预报如股票交易和气
象预测。卷积神经网络主要用于图像处理。多层神经网络主要用于分类任务,单
层神经网络只能实现简单的逻辑如与、或、非,若不加激活函数甚至无法实现异
或。
30.scipy.stats中,()表示泊松分布。
Axgamma
B、poisson
Cxbinom
D、uniform
答案:B
解析:poission表示泊松分布。
31.MapReduce对mapO函数的返回值进行处理后再返回给reduce()函数的目的
是()。
A、减少map0函数和reduce()函数之间的数据传输
B、优化map()函数
G优化reduce。函数
D、这一步骤并无必要
答案:A
解析:为了降低map()函数与reduce。函数之间的数据传输量,一般先对map()
函数的输出结果进行处理。
32.下面选项不正确的是()。
Importnumpyasnp
X=np.array([[1,2],[3,4]])
Y=np.IinaIg.inv(x)
Print(y)
A、[[⑵[34]]
B、[[-2.1.][1.5-0.51]
C、[[1.0.][2.1J]
D、以上答案均不正确
答案:B
解析:linalg.inv()是矩阵求逆,输入与结果相乘为单位矩阵。
33.一组数据的最大值与最小值之差叫做()。
A、标准差
B、极差
C、方差
D、极小值
答案:B
解析:极差又称范围误差或全距(Range),以R表示,是用来表示统计资料中的变
异量数,其最大值与最小值之间的差距,即最大值减最小值后所得之数据。
34.使用pivot_table函数制作透视表用以下那个参数设置行分组键()。
A、index
B、raw
C、vaIues
D、data
答案:A
解析:index用于设置数据透视表的行。
35.Python单下划线_foo与双下划线_foo与—foo—的成员,下列说法错误的是
Oo
A、_foo不能直接用于'frommoduIeimport,
B、_foo解析器用_classname—foo来代替这个名字,以区别和其他类相同的命
名
C、_foo_代表python里特殊方法专用的标识
D、_foo可以直接用于'frommoduIeimport'
答案:D
解析:_f。。私有,不能在外部调用。
36.Python中自定义函数的关键字为()。
A、from
B、def
C、return
D、del
答案:B
解析:def是Python中自定义函数的关键字
37.关于基本数据的元数据是指()。
A、基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息
B、基本元数据包括与企业相关的管理方面的数据和信息
C、基本元数据包括日志文件和简历执行处理的时序调度信息
D、基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息
答案:D
解析:元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(dataab
outdata)。
38.“数据的故事化描述”是指为了提升数据的0和(),将数据还原成关联至特定
的情景的过程。
A、可理解性可记忆性可体验性
B、可接受性可记忆性可体验性
C、可接受性可记忆性可呈现性
D、可理解性可记忆性可呈线性
答案:A
解析:“数据的故事化描述(Storytelling)”是指为了提升数据的可理解性、可
记忆性及可体验性,将“数据”还原成关联至特定的“情景”的过程。
39.划分聚类算法是一种简单的较为基本的重要聚类方法。它的主要思想是通过
将数据点集分为()个划分,并使用重复的控制策略使某个准则最优化,以达到最
终的结果
A、D
B、K
C、E
D、F
答案:B
解析:划分聚类算法K-Means将数据点集分为K个子集。
40.Python中jieba库是一个()库。
A、第三方中文分词库
B、机器学习库
C、图像处理库
D、自动提取语义主题
答案:A
解析:jieba是第三方中文分词词库。
41.scipy.stats模块中随机变量的残存函数是()。
Avcdf
B、rvs
Cvpdf
D、sf
答案:D
解析:残存函数是sf,其数值上等于1-cdf(累积分布函数)
42.IDLE环境的退出命令是()。
A、exit()
B、回车键
C、closeO
Dxesc()
答案:A
解析:IDLE使用exit。退出环境。
43.下列不属于聚类性能度量外部指标的是()。
AxJaccard系数
B、FM系数
C、Rand指数
D、DB指数;
答案:D
解析:聚类常用的外部指标包括:Jaccard系数'FM指数、Rand指数;聚类常用
的内部指标包括:DB指数、Dunn指数。
44.关于Python注释,以下选项中描述错误的是()。
A、Python注释语句不被解释器过滤掉,也不被执行
B、注释可以辅助程序调试
C、注释可用于标明作者和版权信息
D、注释用于解释代码原理或者用途
答案:A
解析:Python注释语句会被解释器过滤掉,不被执行。
45.自然语言理解是人工智能的重要应用领域,下面列举中的()不是它要实现的
目标。
A、理解别人讲的话
B、对自然语言表示的信息进行分析概括或编辑
C、欣赏音乐
D、机器翻译
答案:C
解析:自然语言理解应用主要包含理解自然语言,包括机器翻译以及对文本信息
概括归纳等。
46.从网络的原理上来看,结构最复杂的神经网络是()。
A、卷积神经网络
B、长短时记忆神经网络
C、GRU
D、BP神经网络
答案:B
解析:从网络的原理上来看,结构最复杂的神经网络是LSTMo
47.scipy.stats中,()表示二项分布。
A、gamma
B、binom
C、uniform
D、rayIeigh
答案:B
解析:binom表示二项分布。
48.Scipy中,线性模块是以下哪个模块()。
A、fftpack
B、signaI
C、IinaIg
D、ndimage
答案:c
解析:fftpack米快是傅里叶变换模块,signaI是信号处理模块,IinaIg是线性
代数模块,ndimage是多维图像处理模块,
49.Nu叩y的数组中Ndarray对象属性描述错误的是()。
A、Ndarray.ndim秩,即轴的数量或维度的数量
B、Ndarray.shape数组的维度,对于矩阵,n行m列
GNdarray.size数组元素的总个数,也是shape属性中n*m的值
D\Ndarray.itemsizeNdarray对象的元素类型
答案:D
解析:itemsize是每个数组元素的字节大小。
50.建立在相关关系分析法基础上的预测是大数据的()。
A、基础
B、前提
C、核心
D、条件
答案:C
解析:建立在相关关系分析法基础上的预测是大数据的核心。
51.下列关于LSTM说法错误的是(_)o
A、LSTM中存在sigmoid函数
B、LSTM中存在tanh函数
C、LSTM又称长短时记忆网络
D、RNN是LSTM的变种
答案:D
解析:LSTM在RNN基础上进行了改进,能够学习到长期依赖关系,因此是RNN的
一个变种。
52.HBase是一种可伸缩、高可靠、高性能,分布式和面向()的动态模式数据库。
A、列
B、行
C、行和列
D、元组
答案:A
解析:HBase支持的是列式存储。
53.Zookeeper主要解决的是()问题。
A、数据存储
B、模型训练
C、分布式环境协作服务
D、数据管理
答案:C
解析:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Goo
gle的Chubby—开源的实现,是Hadoop和Hbase的重要组件。
54.以下说法哪些是正确的()
A、在使用KNN算法时,k通常取奇数
B、KNN是有监督学习算法
C、在使用KNN算法时,k取值越大,模型越容易过拟合
D、KNN和k-means都是无监督学习算法
答案:B
解析:在使用KNN算法时,k取值越大,模型越容易欠拟合,KNN是有监督的机器学
习算法。
55.()是一个组织机构的数据管理的愿景、目标以及功能蓝图的统一管理。
A、数据治理
B、数据战略
G数据加工(DataWrangling或DataMunging)
D、数据能力
答案:B
解析:数据战略(DataStrategy)是一个机构的数据管理的愿景、目标以及功能蓝
图的统一管理。从DMM模型看出,数据战略是组织机构的数据管理工作的重要前
提。
56.scipy中()是空间数据结构和算法模块。
A、cIuster
B、constants
C、integrate
D、spatiaI
答案:D
解析:spatial模块是Scipy中的空间结构模块,提供了一些空间相关的数据结
构和算法,如DeIaunay三角剖分,共面点,凸包,维诺图,Kd树等。
57.()试图学得一个属性的线性组合来进行预测的函数。
A、决策树
B、贝叶斯分类器
G神经网络
D、线性模型
答案:D
解析:线性模型试图学得一个属性的线性组合来进行预测的函数。
58.以下关键点检测描述正确的是()。
A、关键点检测就是检测目标的关键点
B、在人体或者人脸关键点检测中应用较多
C、在电网的应用中,我们主要用来进行人员违章动作的判断
D、以上答案都正确
答案:D
解析:关键点检测就是检测目标的关键点,在人体或者人脸关键点检测中应用较
多,在电网的应用中主要用来进行人员违章动作的判断。
59.对于PCA说法正确的是:()。1.我们须在使用PCA前标准化化数据2.我们应
该选择使得模型有最大variance的主成分3.我们应该选择使得模型有最小var
iance的主成分4.我们可以使用PCA在低维度上做数据可视化
A、1,2and4
B、2and4
Cx3and4
D、1and3
答案:A
解析:须在使用PCA前标准化化数据,应选择使得模型有最大variance的主成分,
PCA在低维度上做数据可视化。
60.scipy.stats模块中累积分布的反函数是()。
A、pdf
B、ppf
C、rvs
D、sf
答案:B
解析:ppf分位点函数是累积分布函数cdf的反函数
61.以下关于Mahout说法正确的是()。
A、存储框架
B、数据管理框架
C、数据可视化专业工具
D、可扩展的机器学习算法及其实现
答案:D
解析:Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一
些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创
建智能应用程序
62.()反映数据的精细化程度,越细化的数据,价值越高。
A、规模
B、灵活性
C、关联度
D、颗粒度
答案:D
解析:颗粒度反映的是数据的精细化程度。
63.以下哪项不属于图像分割的内容()。
A、把不同类标分开
B、提取不同区域的特征
C、识别图像内容,或对图像进行分类
D、对未处理图像进行平滑
答案:D
解析:对未处理图像进行平滑为图像基础处理,并非图像分割。
64.以下说法正确的是()。
A、散点图不能在子图中绘制
B、散点图的x轴刻度必须为数值
C、折线图可以用作查看特征间的趋势关系
D、箱线图可以用来查看特征间的相关关系
答案:C
解析:A、B选项,散点图可以在子图中绘制且x轴刻度可以是文本等非数值,D
选项中箱线图由于查看数据的分布。
65.以下哪一种分布是二维随机变量的分布()。
A、正态分布
B、二项分布
C、边缘分布
D、指数分布
答案:C
解析:二维随机变量的分布有边缘分布和条件分布
66.训陈完SVM模型后不是支持向量的那些样本我们可以丢掉,也可以继续分类:
Oo
A、正确
B、错误
答案:A
解析:训练完SVM模型后,不是支持向量的那些样本我们可以丢掉,也可以继续分
类。
67.np.sort。函数返回的是()。
A、已排序的原数组
B、排好序的数组拷贝
C、原数组
D、原数组的拷贝
答案:B
解析:np.sort。返回拷贝,Ndarray的sort。在原地操作,类似于Python的sor
ted与sorto
68.下列哪个不属于常用的文本分类的特征选择算法()。
A、卡方检验值
B、互信息
C、信息增益
D、主成分分析
答案:D
解析:以文档频率为基础的特征选择算法有文档频次方法(直接依据文档频率大
小排序的方法)、卡方检验、信息增益、互信息等,不包括主成分分析法。
69.随机森林等树状算法通过哪个模块进行调用()。
A、dummy
B、ensembIe
C、tree
D、experimentaI
答案:B
解析:sklearn.ensemble模块包含了很多集成学习的算法,包括随机森林、Adab
oostxGBDT等。
70.决策树中的叶结点对应于()。
A、属性
B、样本
C、决策结果
D、标签值
答案:C
解析:决策树中的叶结点对应于决策结果。
71.二项分布的数学期望为()。
A、n(1-n)p
B、np(1-p)
C、np
D、n(1-p)
答案:C
解析:二项分布,即重复n次的伯努利试验。如果事件发生的概率是P,则不发生
的概率q=1p.则期望为np,方差为npq。
72.增加卷积核的大小对于改进卷积神经网络的效果是必要的吗()
A、是的,增加卷积核尺寸一定能提高性能
B、不是,增加核函数的大小不一定会提高性能
答案:B
解析:增加核函数的大小不一定会提高性能。这个问题在很大程度上取决于数据
集。
73.Python解释器的提示符为()。
A、>;
B、»;
C、»>;
D、#;
答案:C
解析:Python解释器的提示符为>>>。
74.关于降维算法中的主成分分析,()是错误的。
A、有监督算法
B、可以指定降维的维度
C、基于方差来计算
D、根据特征值大小来筛选特征
答案:A
解析:主成分分析法属于无监督算法。
75.DIKW金字塔模型中,顶层与底层的名称分别为()。
A、智慧与数据
B、知识与数据
C、智慧与数值
D、知识与数值
答案:A
解析:DIKW金字塔(DIKWPyramid)模型揭示了数据(Data)与信息(Information)、
知识(KnowIedge)、智慧(Wisdom)之间的区别与联系,自底向上分别为数据、信息、
知识、智慧。
76.下面代码的输出结果是()。
Print(0.1+0.2=0.3)
A、True
B、FaIse
C、true
D、faIse
答案:B
解析:由于存在精度的关系,所以0.1+0.2得到的是一个无限接近0.3的数而不
是0.3,故输出False。
77.以下代码的输出结果为()。
Importnumpyasnp
A=np.array([[1,2,3],[4,5,6]])
Print(np.append(a,[7,8,9]))
A、[[123][456]]
B、[123456789]
G[[123][456][789]]
D、[[123555][4567891]
答案:B
解析:append()函数在没有指定轴进行操作时,默认展平数组。
78.下面关于词袋模型说法错误的是()。
A、词袋模型使用一个多重集对文本中出现的单词进行编码
B、词袋模型不考虑词语原本在句子中的顺序
C、词袋模型可以应用于文档分类和检索,同时受到编码信息的限制
D、词袋模型产生的灵感来源于包含类似单词的文档经常有相似的含义
答案:C
解析:文本处理基础知识。
79.数据科学中,人们开始注意到传统数据处理方式中普遍存在的“信息丢失”现
象,进而数据处理范式从()转向()。
A、产品在先,数据在后范式;数据在先,产品在后范式或无模式
B、模式在先,产品在后范式;产品在先,模式在后范式或无模式
C、数据在先,模式在后范式或无模式;模式在先,数据在后范式
D、模式在先,数据在后范式;数据在先,模式在后范式或无模式
答案:D
解析:传统关系数据库中,先定义模式,然后严格按照模式要求存储数据;当需要
调整模式时,不仅需要数据结构,而且还需要修改上层应用程序。然而,NoSQL技
术则采用了非常简单的Key-VaIue等模式在后(SchemaLater)和无模式(SchemaI
ess)的方式提升了数据管理系统的自适应能力。当然,模式在后(SchemaLater)
和无模式(Schemaless)也会带来新问题,如降低了数据管理系统的数据处理能力。
80.有数组n=np.arange(24).reshape(2,-1,2,2),np.shape的返回结果是()。
A、(2,3,2,2)
B、(2,2,2,2)
C、(2,4,2,2)
D、(2,6,2,2)
答案:A
解析:reshape里-1的作用是可以先不计算,由数组size和其他的reshape参数
确定这个数值,此处用24除以其他不是7的值得到6„
81.设置图的标题的命令是()。
A、pit.text('标题')
B、pit.legendC标题,)
C、pit.xticks('标题’)
D、pit.titIe('标题’)
答案:D
解析:A选项是添加文字说明命令,B选项是添加标识命令,C选项是添加X轴坐
标轴标识命令。
82.以下代码的输出结果为()。
Importnumpyasnp
A=np.array([[10,7,4],[3,2,1]])
Print(np.percentiIe(a,50))
A、[[1074][321]]
B、3.5
C、[6.54.52.53
D、[7.2.]
答案:B
解析:percentiIe是百分位数,此处是50%,即中位数,因为数组个数为偶数个,
因此中位数为3和4的均值。
83.基于Bagging的集成学习代表算法有()。
A、Adaboost
B、GBDT
GXGB00ST
D、随机森林
答案:D
解析:随机森林是基于Bagging的集成学习算法。
84.令N为数据集的大小(注:设训练样本(xi,yi),N即训练样本个数),d是输入空
间的维数(注:d即向量xi的维数)。硬间隔SVM问题的原始形式(即在不等式约
束(注:yi(wTxi+b)21)下最小化(1/2)wTw)在没有转化为拉格朗日对偶问题之前,
是()。
A、一个含N个变量的二次规划问题
B、一个含N+1个变量的二次规划问题
C、一个含d个变量的二次规划问题
D、一个含d+1个变量的二次规划问题
答案:D
解析:欲找到具有最大间隔的划分超平面,也就是要找到能满足式题中不等式约
束的参数w和b,是一个含d+1个变量的二次规划问题。
85.()是利用样本的实际资料计算统计量的取值,并以引来检验事先对总体某些
数量特征的假设是否可信作为决策取舍依据的一种统计分析方法
A、假设检验
B、逻辑分析
C、方差分析
D、回归分析
答案:A
解析:假设检验,又称统计假设检验,是用来判断样本与样本、样本与总体的差异
是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的
特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接
受做出推断。
86.输入图像已被转换为大小为28X28的矩阵和大小为7X7的步幅为1的核心/
滤波器。卷积矩阵的大小是多少()
A、22X22
B、21X21
G28X28
D、7X7
答案:A
解析:28-7+1=22o
87.神经网络感知机只有(_)神经元进行激活函数处理,即只拥有一层功能神经
兀。
A、输出层
B、输入层
G感知层
D、网络层
答案:A
解析:神经网络感知机只有输入层神经元进行激活函数处理,即只拥有一层功能
神经元。
88.大数据涌现现象的形式有多种,不属于大数据涌现的形式()。
A、价值涌现
B、隐私涌现
G物质涌现
D、隐私涌现
答案:C
解析:大数据并不等同于“小数据的集合”。因为,从“小数据”到“大数据”
的过程中出现了“涌现’现象“涌现”才是大数据的本质特征。所谓的“涌现(E
mergence)”就是“系统大于元素之和,或者说系统在跨越层次时,出现了新的质”。
大数据“涌现”现象的具体表现形式有多种,例如价值涌现'隐私涌现、质量涌
现和安全涌现等。
89.()先对数据集进行特征选择,然后再训练学习器。
A、过滤式选择
B、包裹式选择
C、稀疏表ZF
D、嵌入式选择
答案:A
解析:过滤式选择先对数据集进行特征选择,然后再训练学习器。
90.在支持向量机中,核函数的主要作用是0。
A、将低维空间中线性不可分的数据映射到高维空间,使其线性可分
B、将高维空间中线性不可分的数据映射到低维空间,使其线性可分
C、将高维空间中线性可分的数据映射到低维空间,使其线性不可分
D、将低维空间中线性可分的数据映射到高维空间,使其线性不可分
答案:A
解析:核函数的作用是将低维空间中线性不可分的数据映射到高维空间,使其线
性可分。
91.np.exp(x).round(5)的结果是2.71828,x的值是()。
A、0
B、1
C、2
D、2.71828
答案:B
解析:e的1次方。
92.下列有关函数的说法中,正确的是()。
A、函数的定义必须在程序的开头
B、函数定义后,其中的程序就可以自动执行
C、函数定义后需要调用才会执行
D、函数体与关键字关键字def必须左对齐
答案:C
解析:函数的定义只要出现在调用之前即可;函数定义后需调用才可以执行;函数
定义时主体语句应缩进4个空格。
93.Spark的劣势()
A、运算速度快
B、业务实现需要较少代码
C、提供很多现成函数
D、需要更多机器内存
答案:D
解析:Spark采用的是内存计算模式,需要的内存较多
94.在逻辑回归输出与目标对比的情况下,以下评估指标中哪一项不适用()。
A、AUC-ROC
B、准确度
C、Logloss
D、均方误差
答案:D
解析:LogisticRegression是一个分类算法,所以它的输出不能是实时值,所以
均方误差不能用于评估它。
95.数据科学项目应遵循一般项目管理的原则和方法,涉及()o
A、整体、范围、时间、成本、质量、沟通、风险、宣传、消费
B、整体、范围、时间、成本、质量、人力资源、沟通、风险、采购
C、整体、范围、时间、成本、质量、人力资源、运维'采购'宣传
D、整体、范围、时间、成本、质量、人力资源、采购、宣传、运维
答案:B
解析:数据科学项目应遵循一般项目管理的原则和方法,涉及整体、范围、时间、
成本、质量、人力资源、沟通、风险、采购。
96.以下关于连接数组不正确的是()。
Axconcatenate连接沿现有轴的数组序列
B、stack沿着新的轴加入一系列数组。
C、vstack水平堆叠序列中的数组(列方向)
D、hstack3D堆叠序列中的数组(行方向)
答案:D
解析:hstackO为数组水平拼接。
97.执行后可以查看Python的版本的是()。
Aximportsystem
Print(system,version)
B、importsys
Print(sys.version)
Cximportsystem
Print(system.Version)
D、importsys
Print(sys.Version)
答案:B
解析:查看Python版本可以通过调用操作系统模块sys,语句print(sys.versi
on)实现。
98.数据安全不只是技术问题,还涉及到()。
A、人员问题
B、管理问题
C、行政问题
D、领导问题
答案:B
解析:数据安全不只是技术问题,还涉及到管理问题。
99.下面算法中属于图像锐化处理的是()。
A、低通滤波
B、加权平均法
C、高通滤波
D、中值滤波
答案:C
解析:高通滤波(high-passfiIter)是一种过滤方式,规则为高频信号能正常通过,
而低于设定临界值的低频信号则被阻隔'减弱。通滤波属于频率域滤波,它保留
高频,抑制低频,是图像锐化的一种方式。
100.以下关于图像中的噪声的特性说法错误的是()。
A、具有随机性
B、具有规律性
C、具有叠加性
D、具有叠加性
答案:B
解析:噪声是干扰和妨碍人类认知和理解信息的重要因素,而图像噪声则是图像
中干扰和妨碍人类认识和理解图像信息的重要因素。由于噪声本身具有不可预测
性,可以将它当做一种随机误差(这种误差只有通过概率统计的方法来识别)o因
此,图像噪声可以视为一种多维随机过程,可以选择随机过程的概率分布函数和
概率密度函数来作为对图像噪声进行描述的方法。
101.关于面向过程和面向对象,下列说法错误的是()。
A、面向过程和面向对象都是解决问题的一种思路
B、面向过程是基于面向对象的
C、面向过程强调的是解决问题的步骤
D、面向对象强调的是解决问题的对象
答案:B
解析:面向过程、面向对象是两种不同思想,不存在递进关系。
102.以下关于随机森林的说法正确的是()o
A、随机森林对于高维数据集的处理能力比较好
B、在对缺失数据进行估计时,随机森林是一个十分有效的方法
C、当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法
D、以上答案都正确
答案:D
解析:随机森林对于高维数据集的处理能力比较好,在对缺失数据进行估计时,
随机森林是一个十分有效的方法,当存在分类不平衡的情况时,随机森林能够提
供平衡数据集误差的有效方法。
103.在页面中看不见的表单元素是那种()。
Ax<inputtype="password"></input>
B、<inputtype=,,radion></input>
C、<inputtype="hidden"></input>
D、<inputtype="reset"></input>
答案:C
解析:注意关键词hidden。
104.以下代码的输出结果为()。
Importnumpyasnp
A=np.arange(6).reshape(3,2)
Wt=np.array([3,5])
Print(np.average(a,axis=1,weights=wt))
A、[[01][23][45]]
B、[0.6252.6254.625]
C、(array([0.625,2.625,4.625]),array([8.,8.,8.]))
D、以上答案都不正确
答案:B
解析:averge是按照权重求加权均值。
105.不属于模型集成方法的是0。
A、直接集成法
B、增强法
C、堆叠法
D、递归法
答案:D
解析:模型集成方法包括直接集成法、自助法、随机森林、增强法和堆叠法等。
106.参数估计又可分为()和区间估计。
A、线型估计
B、点估计
C、回归估计
D、二维分析
答案:B
解析:参数估计是根据从总体中抽取的随机样本来估计总体分布中未知参数的过
程。从估计形式看,区分为点估计与区间估计。
107.matplotlib中的step函数绘制的是什么图()。
A、阶梯图
B、直方图
C、间断条形图
D、堆积折线图
答案:A
解析:step用于绘制阶梯图。
108.info='abc'info[2]='d'输出结果是()。
A、TypeError:'str'objectdoesnotsupportitemassignment
B、b
Cvc
D、d
答案:A
解析:字符串不能被修改
109.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题
Oo
A、增加训练集量
B、减少神经网络隐藏层节点数
C、删除稀疏的特征
D、SVM算法中使用高斯核/RBF核代替线性核
答案:D
解析:神经网络减少隐藏层节点,就是在减少参数,只会将训练误差变高,不会导
致过拟合。D选项中SVM高斯核函数比线性核函数模型更复杂,容易过拟合。
110.标准正态分布的均数与标准差是()。
A、0,1
B、1,0
C、0,0
D、1,1
答案:A
解析:标准正态分布是均值为0,标准差为1的正态分布。
111.使用PiP工具查看当前已安装的Python扩展库的完整命令是()。
A、pipupdate
B、pipIist
C、pipinstaII
D、pipshowaII
答案:B
解析:使用pip工具查看当前已安装的Python扩展库的完整命令piplisto
112.有关MapReduce的输入输出,说法错误的是()
A、链接多个MapReduce作业时,序列文件是首选格式
B、FilelnputFormat中实现的getSpIits()可以把输入数据划分为分片,分片数
目和大小任意定义
C、想完全禁止输出,可以使用NullOutputFormat
D、每个reduce需将它的输出写入自己的文件中,输出无需分片
答案:B
解析:FilelnputFormat的分片大小是可以任意设置,可以调整的,输入分片数目
不可以随意设置,是根据分片大小和文件计算出来的。
113.下列关于描述性分析与探索性分析描述正确的是()o
A、描述性分析是相对于验证性分析的一种提法
B、探索性分析是探索性性分析的基础
C、探索性分析是相对于验证性分析的一种提法
D、探索性分析是数据分析的第一步
答案:C
解析:二者的区别:
1)描述性分析(DescriptiveAnaIytics)是相对于诊断性分析、预测性分析和规范
性分析的一种提法,主要指的是对一组数据的各种统计特征(如平均数、标准差、
中位数、频数分布、正态或偏态程度等)进行分析,以便于描述测量样本的各种特
征及其所对应总体的特征。
2)探索性数据分析(ExpIoratoryDataAnalysis,EDA)是相对于验证性分析的一种
提法,主要指的是指在尽量少的先验假定下,对已有的数据(特别是调查或观察得
来的原始数据)进行探索,并通过作图、制表'方程拟合、计算特征量等较为简单
方法,探索数据的结构和规律的一种数据分析方法。
114.把图像分割问题与图的最小割(mincut)问题相关联的方法是()。
A、基于图论的分割方法
B、分水岭算法
GSLIC算法
D、基于阈值的方法
答案:A
解析:基于图论的分割方法把图像分割问题与图的最小割(mincut)问题相关联。
首先将图像映射为带权无向图,图中每个节点对应于图像中的每个像素,每条边
的权值表示了相邻像素之间在灰度、颜色或纹理方面的非负相似度。
115.所有预测模型在广义上都可称为一个或一组()。
A、公式
B、逻辑
C、命题
D、规则
答案:D
解析:所有预测模型在广义上都可称为一个或一组规则。
116.高通滤波后的图像通常较暗,为改善这种情况,将高通滤波器的转移函数加
上一常数量以便于引入一些低频分量。这样滤波器叫()。
A、巴特沃斯高通滤波器
B、高频提升滤波器
C、图频加强滤波器
D、理想高通滤波器
答案:B
解析:高频增强滤波器由于相对削弱了低频成分,因而滤波所得的图像往往偏暗。
117.下列哪一种方法的系数没有封闭形式(cIosed-form)的解()。
A、Ridge回归
B、Lasso
C、Ridge回归和Lasso
D、以上答案都不正确
答案:B
解析:Ridge回归是一般的线性回归再加上L2正则项,它具有封闭形式的解,可
以基于最小二乘法求解。
118.下列()算法更适合做时间序列建模。
A、CNN
B、决策树
C、LSTM
D、贝叶斯算法
答案:C
解析:LSTM算法更适合做时间序列建模。
119.文本信息往往包含客观事实和主观情感,对于文本的情感分析主要是识别文
章中的主观类词语,其中()不适用于情感分析。
A、表达观点的关键词
B、表达程度的关键词
C、表达情绪的关键词
D、表达客观事实的关键词
答案:D
解析:D中表达客观事实的关键词是对事物的客观性描述,不带有感情色彩和情
感倾向,即为客观性文本,不适用于情感分析。而主观性文本则是作者对各种事物
的看法或想法,带有作者的喜好厌恶等情感倾向,如ABC中表观点、程度和情绪的
关键词都是带有情感倾向的主观性文本,适用于情感分析。
120.下列哪种去噪方法能较好的保持图像边缘()。
A、中值滤波
B、双边滤波
C、均值滤波
D、IWJ斯滤波
答案:A
解析:中值滤波法是一种非线性平滑技术,它将每一像素点的灰度值设置为该点
某邻域窗口内的所有像素点灰度值的中值。中值滤波对脉冲噪声有良好的滤除作
用,特别是在滤除噪声的同时,能够保护信号的边缘,使之不被模糊。
121.两个变量相关,它们的相关系数r可能为0。这句话是否正确()
A、正确
B、错误
答案:A
解析:Pearson相关系数r=0,这表示两个变量间不存在线性相关关系。
122.a=np.array([1,0,0,3,4,5,0,8]),b=np.nonzero(a)
B[。的值为0。
A、[0,3,4,5,7]
B、[1,3,4,5,8]
C、[03457]
D、[13458]
答案:A
解析:np.nonzero()函数是提取数组中不为0的下标,返回的结果为每一个位置
的下标数组组成的元组。
123.下列关于误差的说法,正确的是()。
A、训练样本容量增加,泛化误差也会增加
B、过拟合指数据在训练集上的误差过大
C、过拟合可以通过减少模型参数数量解决
D、交叉验证不重复使用数据
答案:C
解析:解决过拟合的两条主线:一是增大数据集,二是降低模型的复杂度(根据VC
维理论可知)O
124.下列属于卷积网络类型分类的是(_)o
A、普通卷积
B、扩张卷积
C、转置卷积
D、以上答案都正确
答案:D
解析:卷积神经网络四种卷积类型:普通卷积,扩张卷积,转置卷积,可分离卷积。
125.以下哪种方法不能成功创建一个数组()。
A、a=np.array([1,2,3,4])
B、b=np.zeros((3,4))
Cxc=np.ones(1,2,3,4)
Dxd=np.arange(10,30,5)
答案:C
解析:onesO函数必须传入一个数组类型的维度参数所表示的序列,如列表或元
组,所以C无法成功创建数组,改为np.ones((1,2,3,4))就可以。
126.有关Hadoop的陈述哪个是错误的()。
A、它运行在通用硬件上;
B、它是Apache软件基金会(ASF)下的项目;
C、它是最好的实时流式数据处理框架;
D、Hadoop对数据的处理是有延迟的;
答案:C
解析:Hadoop不善于处理除批处理计算模式之外的其他计算模式,如流计算等,
故C错。
127.以下哪个不属于scikit-learn中用于标准化的函数()。
A、StandardScaIer
B、MinMaxScaIer
C、MeanScaIer
D、以上答案都正确
答案:c
解析:StandardScaIer和MinMaxScaIer是标准化的函数。
128.下列不属于数据科学跨平台基础设施和分析工具的是()。
A、微软Azure
B\Google云平台
G阿里云
D、Adobephotoshop
答案:D
解析:Adobephotoshop软件一般不作为数据分析工具。
129.构建一个神经网络,将前一层的输出和它自身作为输入。下列哪一种架构有
反馈连接()
A、循环神经网络
B、卷积神经网络
C、限制玻尔兹曼机
D、都不是
答案:A
解析:循环神经网络有反馈连接。
130.scipy.stats模块中对随机变量进行随机取值的函数是()。
A、rvs
B、pdf
C、cdf
Dvsf
答案:A
解析:stats模块中每个分布都rvs函数,对随机变量取值。
131.在python中可以通过调用random库来产生随机数。a=random.randint(1,
99),并赋值给变量a。
A、随机产生一个1~99的小数;
B、随机产生一个厂99的整数;
C、产生一个值为99的整数;
D、随机产生一个厂99的无理数;
答案:B
解析:randintO函数用来生成闭区间的整数。
132.kNN最近邻算法在什么情况下效果较好()。
A、样本较多但典型性不好
B、样本较少但典型性好
C、样本呈团状分布
D、样本呈链状分布
答案:B
解析:K近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型
性好的容易区分。
133.关于层次聚类算法:(1)不断重复直达达到预设的聚类簇数⑵不断合并距离
最近的聚类簇⑶对初始聚类簇和相应的距离矩阵初始化⑷对合并得到的聚类
簇进行更新。正确的执行顺序为()。
A、1234
B、1324
C、3241
D、3412
答案:C
解析:层次聚类算法的过程是:
对初始聚类簇和相应的距离矩阵初始化;不断合并距离最近的聚类簇;对合并得
到的聚类簇进行更新;不断重复直达达到预设的聚类簇数。
134.Numpy.array数组的简称是()。
Axarray
Bxnparray
C、Ndarray
D、pyarray
答案:C
解析:Numpy的array数组类被调用的是N维数组对象Ndarrayo
135.假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模
型线性可分()。
A、设C=1
B、设C=0
C、设C=无穷大
D、以上答案都不正确
答案:C
解析:C无穷大保证了所有的线性不可分都是可以忍受的。
136.任一随机事件出现的概率为()
A、在-1与1之间
B、小于0
C、不小于1
D、在0与1之间
答案:D
解析:如果没有其他的附加条件的话,一般概率P的取值范围是:0WPW1。0代
表不可能发生,1代表一定会发生。
137.以下()是对DMM(数据管理成熟度模型)中“已管理级”基本特点的正确表述。
A、组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革
进行不断优化。
B、组织机构已用定量化的方式管理其关键过程的执行过程。
C、组织机构只有在项目管理过程中执行了
D,M给出的关键过程,而缺乏机构层次的统筹与管理
D、组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理了其数
据管理关键过程
答案:D
解析:DMM(数据管理成熟度模型)中“已管理级”基本特点的正确表述是组织机
构的数据管理工作超出了项目管理的范畴,由组织机构统一管理了其数据管理关
键过程。
138.Python内置函数()可以返回列表、元组、字典、集合、字符串以及range
对象中元素个数。
A、Ien()
B、Iength
C、sizeof()
Dxmax()
答案:A
解析:len()返回元素个数,max()返回最大值,python中无length。和sizeof()。
139.三维以上数组是以()的形式输出的。
A、按行输出
B、按矩阵输出
C、按矩阵列表输出
D、按字符串输出
答案:C
解析:一维数组输出为行,二维数组输出为矩阵,三维数组输出位矩阵列表。
140.Mapreduce适用于()
A、任意应用程序
B、任意可在windowsservet2008上运行的程序
C、可以串行处理的应用程序
D、可以并行处理的应用程序
答案:D
解析:Mapreduce适用于并行处理的应用程序
141.下列不属于深度学习内容的是(_)0
A、深度置信网络
B、受限玻尔兹曼机
C、卷积神经网络
D、贝叶斯学习
答案:D
解析:贝叶斯学习属于传统的机器学习算法。
142.长短时记忆神经网络被设计用来解决什么问题()
A、传统RNN存在的梯度消失/爆炸问题
B、传统RNN计算量大的问题
C、传统RNN速度较慢的问题
D、传统RNN容易过过拟合的问题
答案:A
解析:长短时记忆神经网络增加一个用来保存长期状态的单元来解决梯度消失问
题。
143.以下说法正确的是:()。1.一个机器学习模型,如果有较高准确率,总是说明
这个分类器是好的2.如果增加模型复杂度,那么模型的测试错误率总是会降低3.
如果增加模型复杂度,那么模型的训练错误率总是会降低
A、1
B、2
C、3
D、1and3
答案:C
解析:如果增加模型复杂度,那么模型的测试错误率总是会降低,训练错误率可能
降低,也可能增高。
144.以下哪项不是Matplotlib的三层结构()。
A、容器层
B、辅助显示层
C、数据层
D、图像层
答案:c
解析:MatplotIib三层结构是:容器层、辅助显示层和图像层。
145.著名的C4.5决策树算法使用()来选择最优划分属性。
A、信息增益
B、增益率
C、基尼指数
D、均值
答案:B
解析:C4.5决策树算法使用增益率来选择最优划分属性。
146.K-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相
互距离要尽可能的远。那么算法流程为()。1.从输入的数据点集合中随机选择一
个点作为第一个聚类中心2.对于数据集中的每一个点x,计算它与最近聚类中心
(指已选择的聚类中心)的距离D(x)3.选择一个新的数据点作为新的聚类中心,
选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大4.重复2和3直
到k个聚类中心被选出来5.利用这k个初始的聚类中心来运行标准的k-means
算法
A、2.5.4.3.1
B、1.5.4.2.3
C、1.2.3.4.5
D、4.3.2.1.5
答案:C
解析:k-means++算法基本流程为:1.从输入的数据点集合中随机选择一个点作为
第一个聚类中心2.对于数据集中的每一个点X,计算它与最近聚类中心(指已选
择的聚类中心)的距离D(x)3.选择一个新的数据点作为新的聚类中心,选择的原
则是:D(x)较大的点,被选取作为聚类中心的概率较大4.重复2和3直到k个聚
类中心被选出来5.利用这k个初始的聚类中心来运行标准的k-means算法
147.scikit-learn中的k-means类,哪个参数是用来调节k值的()。
Avn_cIusters
B、max_iter
Cvn_init
D、init
答案:A
解析:n_cIusters参数设定了k-means算法的聚类个数。
148.大数据平台核心分布式存储与计算组件采用Hadoop技术体系中分布式存储、
分布式计算框架,及Spark等开源产品和技术,实现对数据的安全控制和管理功
能,其中分布式存储不包括()。
A、HDFS
B、PostgresqI
C、Hive
D、HBase
答案:B
解析:PostgresqI并非分布式存储。
149.以下可以应用关键词提取的是()。
A、文献检索
B、自动文摘
C、文本聚类/分类
D、以上答案都正确
答案:D
解析:在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的
问题提取出来。
150.不属于数据脱敏的要求的是()。
A、双向性
B、单向性
C、无残留
D、易于实现
答案:A
解析:数据脱敏操作不能停留在简单地将敏感信息屏蔽掉或匿名处理。数据脱敏
操作必须满足以下3个要求:单向性、无残留、易于实现。
151.()模块是python标准库中最常用的模块之一。通过它可以获取命令行参数,
从而实现从程序外部向程序内部传递参数的功能,也可以获取程序路径和当前系
统平台等信息。
A、sys
B、pIatform
Cxmath
D、time
答案:A
解析:sys模块用来获取命令行参数,从而实现从程序外部向程序内部传递参数
的功能,也可以获取程序路径和当前系统平台等信息。
152.scipy中包含对随机变量计算期望和方差等函数的模块是()。
Axstats
B、cdf
C、sf
D、rvs
答案:A
解析:stats是scipy的统计模块,包含期望方差等计算。
153.Hive的数据最终存储在()
A、HDFS
B、HBase
GRDBMS
D、Metastore
答案:A
解析:Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文
件系统HDFS中
154.下列场景中最有可能应用人工智能的是()。
A、刷脸办电
B、舆情分析
C、信通巡检机器人
D、以上答案都正确
答案:D
解析:人工智能应用的范围很广,包括:计算机科学,金融贸易,医药,诊断,重工业,
运输,远程通讯,在线和电话服务,法律,科学发现,玩具和游戏,音乐等诸多方面,
刷脸办电、舆情分析、信通巡检机器人当然都能很好的应用到人工智能,选D。
155.time库的time.mktime(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年饲料级磷酸盐合作协议书
- 兽医用器械制造企业县域市场拓展与下沉战略研究报告
- 成品油管企业ESG实践与创新战略研究报告
- 臭氧球企业县域市场拓展与下沉战略研究报告
- 轨道交通电气装备企业县域市场拓展与下沉战略研究报告
- 场控双极型复合器件企业数字化转型与智慧升级战略研究报告
- 航标器材及相关浮动装置企业县域市场拓展与下沉战略研究报告
- 小学必学古诗词及作者
- 2025-2030中国足球护具行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030中国膨化休闲食品行业市场现状供需分析及投资评估规划分析研究报告
- 仓库辣椒管理制度内容
- 足浴店卫生管理规章制度模版(3篇)
- 衡重式及重力式挡土墙自动计算表
- 广告制作投诉处理规则
- 针刺伤护理文献分享
- 《名片设计教程》课件
- 社区工作职业道德培训
- 手机支架供货合同模板
- 2024年高考化学真题完全解读(全国甲卷)
- 2024能源互联网智慧电力云服务平台建设规范及标准
- 静电喷涂培训
评论
0/150
提交评论