大数据竞赛理论试题题库及答案_第1页
大数据竞赛理论试题题库及答案_第2页
大数据竞赛理论试题题库及答案_第3页
大数据竞赛理论试题题库及答案_第4页
大数据竞赛理论试题题库及答案_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据竞赛理论试题题库

一、选择题

1.scipy.stats中,()表示二项分布。[单选题]*

A.gamma

B.binomV

C.uniform

C.rayleigh

2.下列关于PCA的说法中:①我们须在使用PCA前标准化数据;②我们应该选择使得模型有最大

variance的主成分;③我们应该选择使得模型有最小variance的主成分;④我们可以使用PCA在低维度上

做数据可视化。正确的是()。[单选题]上

C.®®

D.①③

3.下列描述中不属于数据预处理方法的是()。[单选题]*

A.数据清洗:去噪声和无关数据

B.数据集成:将多个数据源中的数据结合起来存在一个一致的数据存储中

C.数据变换.把原始数据转换成为适合数据挖掘的形式

。.数据转化:把连续数据转换为离散数据。

4.Scikit-Leam中,()可以实现整数分类值转化为独热向量。[单选题]*

A.OridinalEncoder

B.OneHotEncoderV

C.LableEncoder

D.AutoEncoder

5.矩阵相减使用的函数是()[单选题]*

A.np.add()

B.np.subtract()V

C.np.multiply()

D.np.divide()

6.下列分割方法中不属于区域算法的是()。[单选题]*

A分裂合并

B.阈值分割

C.区域生长

。・边缘检测V

7.语句np.random.randn(5,4)的运算结果是()。[单选题]*

A.生成一个5行4列的随机矩阵V

B.将矩阵的第5行第4列改成一个随机值

C.将矩阵的第4行第了列改成一个随机值

。.将矩阵的第5列和第4列都用随机值代替

8.MapReduce里面的query、sort和limit等都是针对()的操作。[单选题*

Amap()之前V

B.reduce()之前

C.reduce()之后

D.finalize()之后

9.()模块提供了用于加载和获取流行的参考数据集的方法。[单选题]*

A.sklearn.data

B.sklearn.datasetsV

C.sklearn.datas

C.sklearn.datafetch

1)下列关于图像的平滑处理的说法错误的是()。[单选题]*

A图像的平滑处理是指在尽量保留原有信息的情况下,过滤掉图像内部的噪声

B.图像平滑处理会对图像中与周围像素点的像素值差异较大的像素点进行处理,将其值调整为周围像

素点像素值的近似值

C.经过平滑处理后图像质量会下降4

C,以上都对

11.在神经网络中引入了非线性的是()。[单选题]*

A随机梯度下降

B.修正线性单元(ReLU)V

C.卷积函数

D.以上答案都不正确

12大数据计算服务提供了大数据的存储和计算服务,非常适合应用于大数据分析的领域。以下说法中

错误的是()o[单选题]*

A.可以实现大型互联网企业的数据仓库和BI分析

B.提供了便捷的分析处理海量数据的手段,用户可以不必关心分布式计算细节,从而达到分析大数据

的目的

C可以支持实时OLAP分析V

。.可以基于历史数据,进行用户特征和兴趣挖掘

13.plt.show()函数的作用是()o[单选题]*

A.展示图像,

B,画直方图

C.保存图像

D.画散点图

14.()采用概率模型来表达聚类原型。[单选题]*

A.尝试为不同的质心(centroid)初始化运行算法

B.调整迭代的次数

C.找到集群的最佳数量

。.以上答案都正确V

15.相对于HadoopMapReduce1.0,Spark的特点不包括()o[单选题]*

A速度快

B.并发多V

C通用性

C,易用性

16.下列算法中:①KNN;②线性回归;③对数几率回归。可以用神经网络去构造的([单选题]*

A.®2)

B.(2X3)V

C①@@

。.以上答案都不正确

17.最早被提出的循环神经网络门控算法是()。[单选题]*

A.长短期记忆网络V

B.门控循环单元网络

C.堆叠循环神经网络

D.双向循环神经网络

1B.下列方法不能成功创建一个Numpy数组的是()[单选题]*

A.a=np.array([1,2,3,4])

B.b=np.zeros(3,4)

C.c=np.ones(1,2,3,4)V

D.d=np.arange(10,30,5)

19.语音识别的应用场景包括()0[单选题]*

A.语音转文本

B.语音合成

C.人机交互

。.以上都对V

29.Matplotlib中的axvspan()函数作用是()。[单选题]*

A.在X轴标示不同图形的文本标签图例

B.绘制垂直于x的参考区域,

C.添加x轴内容细节的指向性注释文本

C.添加x轴标题

21.在Linux下预装了Python2、Python3且默认Python版本为Python3,则下列描述可以正确启动Python

的是()。[单选题]*

A在Linux应用程序Terminal,打开一个终端窗口输入whichPython

B.在Linux应用程序Terminal,打开一个终端窗口,输入Python2或Python3V

C.在Linux应用程序Terminal,打开一个终端窗口,输入whichPython3

D.在Linux应用程序Terminal,打开一个终端窗口,输入whichPython2

22.如果线性回归模型中的随机误差存在异方差性,那么参数的。LS估计量是()□[单选题]*

A无偏的、有效的

B.无偏的、非有效的V

C.有偏的、有效的

。.有偏的、非有效的

23.一篇文章中某些名词的TF-IDF值比较大,则说明()。[单选题]*

A这些名词对这篇文章的区分度比较高V

B.这些名词对这篇文章的区分度比较低

C.不能说明什么

D.以上都不对

24.HTML的表格中,如果需要定义表格的单元格内文字和边缘的空间,需要通过(来实现。[单选题]*

A.cellspacing属性

B.colspan属性

C.cellpadding属性V

C.rowspan属性

25.Scipy中模块signal的作用是()。[单选题]*

A.信号处理V

B.程序输入输出

C.程序输入输出

。.计算积分

26.关系云的一个重要功能是提供()。[单选题]*

A.数据库即服务V

B.虚拟服务

C.弹性计算

口•按需服务

27.下列关于可视化方法体系的说法不正确的是()0[单选题]*

A通常采用视觉图形元素和视觉通道两个维度进行视觉编码

B.常用的共性方法有统计图表、图论方法、视觉隐喻和图形符号学等

C领域方法在所属领域内其可视化的信度和效果往往低于基础方法的直接应用V

。.视觉编码为其他数据可视化方法提供了方法学基础

28.如果建立一个5000个特征、100万个数据的机器学习模型,则有效地应对这样的大数据训练的方法

是()。[单选题]*

A随机抽取一些样本.在这些少量样本之上训练

B.可以试用在线机器学习算法

C.应用PCA算法降维.减少特征数

二以上答案都正确V

29.()是一种著名的密度聚类算法,它基于一组邻域参数来刻画样本的紧密程度。[单选题]*

A.DBSCANV

B.原型聚类

C.密度聚类

。.层次聚类

33.下列方法中属于映射数据到新的空间的是()0[单选题]*

A傅里叶变换。

B.特征加权

C.渐进抽样

。・维归约

31.决策树的基本流程遵循()的策略。[单选题]*

A贪心

B.最优化

C分而治之V

C.顺序

32.下列关于SecondaryNameNode的说法正确的是()。[单选题]*

A.它是NameNode的热备

B.它对内存没有要求

C.它的目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间V

0.SecondaryNameNode应与NameNode部署到一个节点

33.由于不同类别的关键词对排序的贡献不同,检索算法一般把查询关键词分为几类,下列不属于此关键

词类型的是()[单选题]*

A引用词

B.普通关键词

C.高频词汇V

。.扩展关键词

34.下列关于函数的参数的描述错误的是()。[单选题]*

A.可选参数可以定义在非可选参数的前面V

B.一个元组可以传递给带有星号的可变参数

C.在定义函数时,可以设计可变数量参数,通过在参数前增加星号(*)实现

。.在定义函数时,如果有些参数存在默认值,可以在定义函数时直接为这些参数指定默认值

35.假设你需要调整参数来最小化代价函数(c。stfimction),会使用()技术。[单选题卜

A.穷举搜索

B.随机搜索

C.Bayesian优化

。.以上全是。

36.下列叙述正确的是()。[单选题]*

A.continue语句的作用是结束整个循环的执行

B.只能在循环体内使用break语句V

C.在循环体内使用break语句或contnue语句的作用相同

D.从多层循环嵌套中退出时,只能使用goto语句

37.Python代码中mpI.rcParamsCfont.sans-serif]=「SimHei]的作用是()o[单选题]*

A设置图表中文显示的字体V

B.设置图表图例的位置

C.设置图表标题的颜色

。.设置图表标题的位置

38.训练一个RNN网络,如果权重与激活值都是NaN,下列选项中,哪一个是导致这个问题的最有可

能的原因()。[单选题]*

A梯度消失

B.梯度爆炸V

CReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了

口Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了

39.大数据参考架构的水平轴和垂直轴分别为()。[单选题]*

A信息(活动)价值链和信息技术价值链V

B.信息技术价值链和信息(活动)价值链

C.信息交互价值链和信息技术价值链

D.信息(活动)价值链和信息交互价值链

43.可用作数据挖掘分析中的关联规则算法有()。f单选题]*

A.机器学习、对数回归、关联模式

B.K均值法、SOM机器学习

C.Apriori算法、FP-Tree算法V

D.RBF机器学习、K均值法、机器学习

41.运行下面程序,a、b、c、d四个变量的值错误的是()oimportcopya=[l,2,3,4,['a',

'b']]b=ac=copy.copy(a)d=copy.deepcopy(a)a.append(5)a[4]append('c')[单选题]*

Aa==[l,2,3,4,['a','b':c']t5]

B.b==[l,2,3,4,['a'/b'.'c'],5]

C.c==[l,2,3,4I['a';b','c']]

D.d==[l,2,3,A.fa'.'b',<c']]V

42.如果一个SVM模型出现欠拟合,那么()能解决这一问题。[单选题]*

A增大惩罚参数CV

B.减小惩罚参数C

C.减小核系数(gamma参数)

D.增大核系数(gamma参数)

43.下列可以应用关键词提取的是()。[单选题]*

A.文献检索

B.自动文摘

C.文本聚类/分类

。.以上都对V

44.在MapReduce中,为了发现Worker故障,Master周期性进行的操作是()。[单选题]*

A.Join

B.PingV

C.Check

C.Connect

45.下列不属于Python内置模块的是()[单选题]*

A.sys

B.json

C.os

D.imageV

46.通常来说,()能够用来预测连续因变量。[单选题卜

A线性回归V

B.逻辑回归

C线性回归和逻辑回归

。.以上答案都不正确

47.下列不属于数据科学项目主要角色的是()。[单选题]*

A项目发起人

B.项目经理

C.操作员

。.验收人员V

48.如果训练一个RNN网络时发现权重与激活值都是NaN,则导致这个问题最有可能的原因是()o[单

选题]*

A梯度消失

B.梯度爆炸V

CReLU函数作为激活函数g(),在十算g(z)时,z的数值过大了

□Sigmoid函数作为激活函数g(),在计算g(z)时,z的数值过大了

49.运行下面代码的输出结果为()oimportnumpyasnpx=np.array([3,1,2])y=np.argsort(x)

print(y)[单选题]*

A.[312]

B.[I2O]V

C.[12司

C.123

53.运行下面代码,则下列描述错误的是()。importtimeprint(time.time)[单选题]*

A.time库是Python的标准库

B.可使用time.ctime(),显示为更可读的形式

Ctime.sleep(5)推迟调用线程的运行,单位为毫秒V

C.输出自1970年1月1日00:00:00AM以来的秒数

51.在Numpy中,数组拼接的函数不包括()[单选题]*

A.append()

B.insert()

C.vstack()

D.where()7

52.下列关于_new_和_init_区别的说法不正确的是()。[单选题]*

A_new_是一个实例方法,而_init_是一个静态方法V

B._new_方法会返回一个创建的实例,而_init_什么都不返回

C.只有在_new_返回一个cis的实例时,后面的_init_才能被调用

D.当创建一个新实例时调用一new-初始化一个实例时用_init_

53.下列情景中不属于数据故事化的是()。[单选题]*

A.还原情景

B.统计情景V

C.移植情景

。.虚构情景

54.对模型进行超参数优化,详尽搜索指定参数的估计值使用()函数c[单选题]*

A.ParameterGrid()

B.ParameterSampler()

C.GridSearchCV()V

D.RandomizedSearchCV()

55.图像中虚假轮廓的出现就其本质而言是()。[单选题卜

A图像的灰度级数不够多而造成的V

B.图像的空间分辨率不够高而造成的

C.图像的灰度级数过多而造成的

。.图像的空间分辨率过高而造成的

56.下列语句中不能创建一个字典的是()[单选题]*

A.dictl=0

B.dict2={3:5)

C.dict3={[1,2,3]:"uestc"}V

D.dict4={(1,2,3):"uestc"}

57.np.setdiffld(Ndarray1,Ndarray2)函数的作用是()。[单选题*

A返回二者的交集并排序

B.返回二者的并集并排序

C.返回二者的差集v

C.返回二者的对称差

58.集群的最主要“瓶颈”通常是()。[单选题]*

A.CPU

B.网络

C.磁盘I/OV

D.内存

59.FusionlnsightHD中Loader从SFFP服务器导入文件时,不需要做编码转换和数据转换且速度最快

的文件类型是:()。[单选题]*

A.graph-file

B.binary-fileV

C.text-file

D.sequence-file

63.著名的C4.5决策树算法使用()来选择最优划分属性。[单选题]*

A信息增益

B.增益率V

C.基尼指数

。.均值

61.下列关于RNN的说法正确的是()。[单选题]*

ARNN可以应用在NLP领域

B.LSTM是RNN的一个变种

C.在RNN中一个序列当前的输出与前面的输出也有关

。.以上答案都正确V

62.有研究发现“页面的显示速度每延迟Is,网站访问量就会降低11%,从而导致营业额或者注册量减

少7%,顾客满意度下降16就。该项研究表明了在数据产品开发中更加重要的是()。[单选题]*

A查全率

B.用户体验V

C.数据可视化

D.查准率

63冽表对象的sort()函数用来对列表元素进行原地排序,该函数返回值为()。f单选题卜

A.False

B.NoneV

C.True

口报错

64.()算法是分类算法。[单选题]*

A.DBSCAN

B.C4.5V

C.K-means

D.EM

65.下列关于Python单下划线_foo与双下划线_foo与_foo_的说法错误的是()[单选题]*

A._foo不能直接用于'frommoduleiITport,

B._foo解析器用_classname_too来代替这个名字,以区别和其他类相同的命名

(:/。0_代表python里特殊方法专月的标识

D._foo可以直接用于‘frommoduleimport'V

66.下列关于连接数组的描述不正确的是()。[单选题]*

A.concatenate()连接沿现有轴的数组序列

B.stack()沿着新的轴加入一系列数组

C.vstack()水平堆叠序列中的数组(列方向)

C.hstack()3D堆叠序列中的数组(行方向)V

67.Matplotlib中的legend()函数的作用是()。[单选题]*

A设置标签文本

B.绘制网格线

C.标示不同图形的文本标签图例。

D.设置x轴的数值显示范围

68.一幅数字图像是()。[单选题]*

A一个观测系统

B.一个由许多像素排列而成的实体

C.一个2D数组中的元素V

C.一个3D空间中的场景

69.诊断性分析主要采取的分析方法是()。[单选题]*

A关联分析法和因果分析法。

B.关联分析法和分类分析法

C关联分析法和运筹学

。.因果分析法和分类分析法

7O.Spark的集群管理模式不包含([单选题卜

A.Standalone模式

B.Message模式。

C.YARN模式

D.Mesos模式

71.open()函数中,参数'wb'的含义是()[单选题]*

A创建并二进制只读

B.创建并只写方式

C.创建并二进制写入V

。.创建并追加方式

72.()是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记。[单选题]

A支持向量机

B.间隔最大化

C.线性分类器

。・贝叶斯判定准则V

73.下列不属于循环神经网络的输出模式是()。[单选题]*

A单输出

B.多输出

C.同步多输出V

。.异步多输出

74.选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入()。[单选题]*

A线性回归

B.线性判别分析

C正则化项V

C.偏置项

75.Numpy中使用不同类型的数组进行操作时,结果数组的类型会进行()[单选题]*

A.向下转换

B.向上转换V

C.不进行转换

D.无法计算

76.在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于L则表明模型中存在

()。[单选题]*

A.异方差

B.序列相关

C.多重共线性V

[:・高拟合优度

77.在一个简单的线性回归模型中(只有一个变量),如果将输入变量改变一个单位(增加或减少),那

么输出将改变()。[单选题]*

A.—个单位

B.不变

C.截距

C.回归模型的尺度因子,

7B.Scipy中模块i。的作用是()0[单选题]*

A.差值计算

B.程序输入输出V

C.稀缺矩阵

。优化

79.()会发生权重共享。[单选题]*

A卷积神经网络

B.循环神经网络

C.全连接神经网络

D.A、BV

83.()不是Scipy库中的模块0[单选题]*

A.cluster

B.randomV

C.signal

D.misc

81.卷积的过程是让过滤器在图像上进行()。[单选题]*

A缩放

B.剪切

C.窗口滑动V

。.镜像对称

82一元线性回归方程户0.7+0.82X,判定系数等于0.64厕尤与V的相关系数为().[单选题]*

A.0.82

B.0.64

C.0.8V

C.0.7

83.下列关于等距离散化和等频离散化的叙述不正确的是()。[单选题]*

A等距离散化是将连续型特征的取值X间均匀地划分成多个区间段

B.等距离散化对数据离群值不敏感V

C等频离散化考虑了区间段中的样本个数,使每个区间段的样本数相同

C.等频离散化会将相似的样本划分到不同的区间

84.运行下面代码的输出结果为()arr=np.array([1,5,3])arrl=np.array([2,4,6])print(arr

<arrl)[单选题]*

A.TRUE

B.FALSE

C.[Ture,False,Ture]V

C.([Ture,Ture,Ture])

85.下列不属于模型集成方法的是([单选题]*

A.直接集成法

B.增强法

C.堆叠法

。.递归法V

86.如果要清空文件,需要使用的命令是()。[单选题]*

A.close()

B.seek(0)

C.truncate(0)7

D.write('stuff')

87.大数据应用需依托的新技术有()。[单选题]*

A大规模并行处理

B.数据分析处理

C.智能化

。.三个选项都是,

8B.运行下面代码的输出结果为()0importnumpyasnpa=np.arange(4)b=a[:]a[l]=9print(a)

print(b)[单选题]*

A.[0,1,2,3][0,1,2,3]

B.[l,9.3,4][1,2,3,4]

C.[0,9,2,3][0,9,2,3]V

C.[0,9,2,3][0,1,2,3]

89.下列关于欠拟合(under-fitting)的说法正确的是()。[单选题]*

A训练误差较大.测试误差较小

B.训练误差较小.测试误差较大

C.训练误差较大.测试误差较大V

。・训练误差较小.测试误差较小

93.对air二叩.arange(9).reshape(3,3),反转二维数组air的行进行的操作是()o[单选题]*

A.arr[::-1]V

B.arr[::-2]

C.arr[::1]

D.arr[::0]

91.Adaboost的核心思想是()。[单选题]*

A给定一个弱学习算法和一个训练集将该学习算法使用多次得出预测函数序列.进行投票

B.针对同一个训练集训练不同的弱分类器并集合起来.构成一个强分类器V

C.利用多棵树对样本进行训练并预测的一种分类器

口基于前向策略的加法模型.每阶段使用一个基模型去拟合上一阶段基模型的残差

92.下列不属于特征选择的标准方法的是()。f单选题]*

A嵌入

B.过滤

C.包裹

。.抽样V

93.与HMM和MEMM模型相比,CRF模型的优势不包含()。[单选题*

A.特征灵活

B.速度快V

C.可容纳较多上下文信息

。.全局最优

94.后剪枝是先从训练集生成一颗完整的决策树,然后()对非叶结点进行考察。[单选题]*

A.自上而下

B.在划分前

C.禁止分支展开

。.自底向上V

95.下列人工神经网络属于反馈网络的是()。[单选题]*

AHopfield神经网格模型

B.BP网络V

C.多层感知器

C.LVQ网络

96以P(w)表示词条w的概率,假设已知P(南京)=0.8,F(市长)=0.6,F(江大桥)=0.4;尸

(南京巾)=0.3,独立的,那么分词结果就是()。[单选题]*

A南京市*长江*大桥

B..南京*市长*江大桥V

C.南京市长*江大桥

97.下列关于。LAP的特性的描述:①快速性;②可分析性;③多维性;④信息性;⑤共享性。正确的是

()0[单选题]*

A.3X2X3)

B.②③©

c.®2X3)@

D.®2)3)3)@V

9B.常用的数据归约方法可以分为(),[单选题]*

A.维归约、数据压缩

B.维归约、参数归约

C.维归约、值归约V

D.数据压缩、值归约

99.下列处理方法能获得像素级标注的是()。[单选题]*

A图像分类

B.物体检测

C.图像去噪

。.语义分割V

100.在抽样估计中,随着样本容量的增大,样本统计量接近总体参数的概率就越大,这一性质称为()。

[单选题]*

A无偏性

B.有效性

C.及时性

D.一致性V

101.scipy.stats.fit()函数的作用是()<>[单选题]*

A.随机变量的生存函数

B.对数据进行拟合,找出最适合采样数据的概率密度函数系数V

C.计算随机变量的期望和方差

C.随机变量的概率密度函数

102.ResNet-50有多少个卷积层()。[单选题]*

A.48

B.49V

C.50

C.51

133.下列关于文件的打开方式的描述正确的是()[单选题]*

A文件只能选择二进制或文本方式打开

B.文本文件只能以文本方式打开

C.所有文件都可能以文本方式打开

。.所有文件都可能以二进制方式打开v

.长短时记忆网络属于一种(jo[单选题]*

A全连接神经网络

B.门控RNNV

C.BP神经网络

D.双向RNN

135.下列函数中可以计算字典元素个数的是()。[单选题]*

A.cmp()

B.len()V

C.str()

C.type()

136.考察一个由三个卷积层组成的CNN:kemel=3x3,stride=21padding=SAMEo最低层输出100个特

征映射(featuremap),中间层200个特征映射,最高层400个特征映射°输入是200x300的RGB图片,则

总参数的数量是()。[单选题]*

A.903400V

B.2800

C.180200

C.720400

107.异常检测过程查找基于()组标准值偏差的异常个案。[单选题]*

A单体

B,分类

C聚类V

D.回归

138.下列关于缩进格式的描述不正确的是()[单选题]*

A.缩进指在代码行前面添加空格或Tcb

B.在Python程序中,缩进不是任意的

C.缩进可以使程序更有层次感、结构感,从而使程序更易读

。.平级的语句行(代码块)的缩进可以不相同V

109.Scipy中模块stats的作用是()。[单选题]*

A.统计V

B.差值计算

C.程序输入输出

。.稀疏矩阵

110.LSTM网络引入门控机制来控制信息传递的路径,其中输入门的作用是()o[单选题]*

A控制上一个时刻的内部状态需要遗忘多少信息

B.控制上一个时刻的内部状态有多少信息需要保存

C.控制当前当刻的候选状态有多少信息需要保存V

。.控制当前当刻的内部状态有多少信息需要输出给外部状态

111.下列关于支持向量的说法正确的是()。[单选题]*

A到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量V

B.训练集中的所有样本点都是支持向量

C.每一类样本集中都分别只有一个支持向量

D.支持向量的个数越多越好

112.运行下面代码,输出结果是()。d={-2,-1,0,1,2.3}n=d.pop•)print(n)[单选题]*

A.-2

B.2

C.不确定V

D.3

113.执行下列代码后,Iist2的值是()e[单选题]*

A.[4,5,6]

B.[4,3,6]

C.[4,5,3]V

D.以上答案都不正确

114.Spark的()组件用于支持实时计算需求。[单选题]*

A.SparkSQL

B.SparkStreamingV

C.SparkGraphX

C.SparkMLLib

ns执行一个job,如果这个job的输巴路径已经存在,那么程序会()0[单选题]*

A覆盖这个输出路径

B.抛出警告,但是能够继续执行

C.抛出一个异常,然后退出V

。.创建一个新的输出路径

116.下列关于数据整合和分组的说法不正确的是()。[单选题]*

A.数据连接可以用concat或merge函数

B.axis=l表示轴向连接

C.数据分组可以使用mean函数V

。.使用agg可以自定义多个聚合函数

117.如果使用数据集的全部特征并且准确率能够达到100%,但在测试集上准确率仅能达到70%左右,这

说明()。[单选题]*

A欠拟合

B.模型很棒

C过拟合V

D.以上答案都不正确

118.pit.scatter()函数中的参数c表示的含义是()。[单选题]*

Ax轴上的数值

B.y轴上的数值

C.散点图中的标记颜色V

。.标记图形内容的标签文件

119.在Python中,下列不是int整型数据的是()。[单选题卜

A160

B.010V

C.-78

D.0x234

120.下列关于Python包的说法正确的是()[单选题]*

A.利用pip包管理器更新已安装包的代码是pipupdate包名

B.单独导入包名即可导入包中所包含的所有子模块

C.下载安装、更新、查看、移除包等行为可以在命令行中进行,但不可以在Jupyternotebook中进行

D.下载安装、更新、查看、移除包等行为既可以用pip工具,也可以用8nda工具V

121.下列关于文本分类的说法不正确的是()。「单选题卜

A.文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别

B.文木分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统

C文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序。

。.构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤

122.运行代码,输出结果为()。#!/usr/bin/envpython3n=100sum=0counter:lwhilecounter<=n:sum

+countercounter+=lprint("1到%d之和为:%d"%(n,sum))[单选题]*

Al到100之和为:5000

B.1至ij100之和为

C.1到100之和为:2050

C.1到100之和为:5020

123.()算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭

检测两个阶段来挖掘频繁项集。[单选题卜

A.AprioriV

B.EM

C.PCA

D.PAC

124.下列不是目前机器学习所面临的问题是()。[单选题]*

A.测试集的规模V

B.维度灾难

C.特征工程

口过拟合

125.假设文件不存在,如果使用。pen()打开文件会报错,那么该文件的打开方式是()。[单选题]*

A.'r'V

B.'w'

C.'a,

C.'w,

126.下列哪个神经网络结构会发生权重共享()。[单选题]*

A卷积神经网络

B.循环神经网络

C.全连接神经网络

D.选项A和BV

127.下列语句会无限循环下去的是()。[单选题]*

A.forainrange(10):timesleep(10)

B.whilei<10:timesleep(10)V

C.whileTrue:break

D.a=[3,-1,,,']foriina[:]:ifnota.break

128.下列关于数据的存储结构的描述正确的是()。[单选题]*

A数据所占的存储空间量

B.存储在外存中的数据

C.数据在计算机中的顺序存储方式

口数据的逻辑结构在计算机中的表示V

129.PHOTO_PATH="./photo/OJpg1指令可以实现()[单选题]*

A复制jpg文件到photo目录下

B.定义一个名为photo的存储路径V

C.打开photo里所有的jpg文件

D.重命名目录

130.下列关于分类算法的准确率、召回率、比值的描述错误的是()□[单选题]*

A.准确率是检索出相关文档数与检索出的文档总数的比率彳肉量的是检索系统的查准率

B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率指量的是检索系统的查全率

C.正确率、召回率和尸]值取值都在。和1之间.数值越接近0.查准率或查全率就越高V

「.为了解决准确率和召回率冲突问题引入了F]分数

131.假设函数中不包括global保留字,则下列关于改变参数值的方法的说法错误的是()。[单选题]*

A参数是列表类型时,改变原参数的值

B.参数的值是否改变与函数中对变量的操作有关,与参数类型无关V

C参数是整数类型时,不改变原参数的值

。.参数是组合类型(可变对象)时,改变原参数的值

132.下列关于降维的表述错误的是()。[单选题]*

A降维过程中可以保留原始数据的所有信息V

B.多维缩放的目标是要保证降维后样本之间的距离不变

C.线性降维方法目标是要保证降维到的超平面能更好地表示原始数据

。・核线性降维方法目标是通过核函数和核方法来避免采样空间投影到高维空间再降维之后的低维结构

丢失

133.下列关于HDFS的描述正确的是([单选题卜

A.如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作

B.HDFS集群支持数据的随机读写

C.NameNode磁盘元数据不保存Block的位置信息V

D.DataNode通过长连接与NameNode保持通信

工34.下列不属于现阶段的大数据技术体系主要类型的是()。[单选题]*

A数据源与App

B.基础设施

C.HadoopV

。.数据资源

135.对分类任务来说,学习器从类别标记集合中预测出一个标记,最常见的结合策略是()。[单选题]

*

A投票法V

B.平均法

C.学习法

。.排序法

136.Python中Jieba库是一个()库。[单选题]*

A第三方中文分词词库V

B.机器学习库

C.图像处理库

D,自动提取语义主题

137.为了观察测试丫与X之间的线性关系,若X是连续变量,则使用()比较适合。[单选题]*

A.散点图V

B.柱形图

C.直方图

[:•以上答案都不正确

138.属于卷积神经网络应用方向的是()0[单选题]*

A.图像分类

B.目标检测

C.图像语义分割

。.以上答案都正确V

139.如果python程序中包括零运算,解释器将在运行时抛出()错误信息。[单选题]*

A.NameError

B.FileNotFoundError

C.SyntaxError

D.ZeroDivisionErrorV

140.针对以下数组,从一个数组中移除存在于另一个数组中的项时可进行的操作是()。a=np.array

([1,2,3,4,5])b=np.array([5,6,7,8,9])期望输出:array([1,2,3,4])[单选题]*

A.np.setdiffld(a,b)V

B.setdiffId(a)

C.setdiffId(b)

D.以上都不对

141.情感信息抽取不包括()。[单选题]*

A基于命名实体识别的抽取方法

B.基于重复段落的识别方法V

C.基于语义角色标注的抽取方法

D.基于监督学习的抽取方法

142.运行下面代码的输出结果为()oimportnumpyasnpa二np.arange(6).reshape(3,2)

wt=np.array([3,5])print(np.average(a,axis=I,weights=wt))[单选题]*

A.[[01][23][45]]

B.[0,6252.6254.625]V

C.(array([0.625,2.625,4,625]),array([8.,8.,8.]))

。.以上都不对

143.在页面中看不见的表单元素是()。[单选题]*

A.<inputtype="password"x/input>

B.<inputtype="radio"x/input>

C.<inputtype="hidden"x/input>V

D.〈inputtype="reset',x/input>

144执行下面程序,打开文件的位置应该在()。仁open('itheima.txtlW)[单选题卜

A.C盘根目录下

B.D盘根目录下

C.Python安装目录下

。.与源文件在相同的目录下V

145.下列算法中属于图像锐化处理的是()。[单选题卜

A低通滤波

B.加权平均法

C高通滤波V

。・中值滤波

146.HBase作为数据存储组件封装于大数据平台,用于()。[单选题]*

A关系型数据库存储

B,分布式文件存储

C.非关系型数据库存储。

。.列式存储

147.循环神经网络适合处理的数据是()0[单选题]*

A节点数据

B.序列数据V

C.结构化数据

。,图像数据

148.下列关于副本和视图的描述错误的是()。[单选题]*

ANumpy的切片操作返回原数据的视图

B.调用Ndarray的view()函数产生一个视图

C.Python序列的切片操作,调用deepCopy()函数

D.调用Ndarray的copy()函数产生一个视图V

149.Numpy默认产生的数据类型是()[单选题]*

Aintl6

B.float32

C.char

D.float64V

150输入图片大小为200200,依次经过一层卷积(kernelsize5x5,padding1,stride2),pooling

(kernelsize3x3,padding0,stride1),又一层卷积(kernelsize3x3,padding1,stride1)之后,输出

特征图大小为()。[单选题]*

A.95

B.96

C.97V

D.98

151.plt.plot()函数输入参数'b'修改的是图形的()。[单选题]*

A.位置

B.大小

C形状

D.颜色V

152.以下哪种卷积神经网络的设计引入了残差网络结构()。[单选题]*

A.LeNet

B.AIexNet

C.GoogLeNet

D.ResNetsV

153.下列说法正确的是()。[单选题]*

A函数的名称可以随意命名

B.带有默认值的参数一定位于参数列表的末尾,

C.局部变量的作用域是整个程序

D.函数定义后,系统会自动执行其内部的功能

154.scipy.stats.isf()函数的作用是()[单选题]*

A随机变量的生存函数

B.scipy.stats.sf()的逆V

C计算随机变量的期望和方差

。.随机变量的累积分布函数

155.假设使用原始的非线性可分版本的S。ft-SVM目标函数作为最优化对象,则可通过()来保证得

到的模型是线性可分离的。「单选题1*

A.设OO

B.设C=1

c.设c正无穷大v

。.设c负无穷大

156.关于神经网络中经典使用的优化器,以下说法正确的是()。[单选题]*

A.Adam的收敛速度比RMSprop慢

B.相比于SGD或RMSprop等优化器,Adam的收敛效果是最好的

C.对于轻量级神经网络,使用Adam比使用RMSprop更合适

。.相比于Adam或RMSprop等优化器,SGD的收敛效果是最好的V

157.大数据环境下的隐私担忧,主要表现为()。[单选题]*

A人信息的被识别与暴露V

B.用户画像的生成

C.广告的推送

。.病毒入侵

158.下列关于Ndarrayhemsize的描述错误的是()。[单选题]*

A以字节的形式返回数组中每一个元素的大小

B.一个元素类型为float64的数组,^emsize属性值为8

C.一个元素类型为complex32的数组,itemsize属性为4

。.一个元素类型为complex64的数组,itemsize属性为4V

159.单独使用多层索引时,()。[单选题卜

A最外层和最里层的索引都可以单独使用

B.只有最外层的索引可以单独使用V

C.不能单独使用多层索引

(:・只有最里层的索引可以单独使用

160.假定使用SVM学习数据X,数据X里面有些点存在错误。现在如果使用一个二次核函数,多项式

阶数为2,使用松弛变量C作为超参之一。当使用较大的C(C趋于无穷),则()。[单选题]*

A仍然能正确分类数据V

B.不能正确分类

C不确定

。.以上均不正确

161.下列关于随机森林和GBDT的说法正确的是()。[单选题]*

A在随机森林的单个树中.树和树之间是有依赖的.而GBDT中的单个树之间是没有依赖的

B.这两个模型都使用随机特征子集.来生成许多单个的树V

C我们可以并行地生成GBDT单个树.因为它们之间是没有依赖的

C.GBDT训练模型的表现总是比随机森林好

162.一个MapReduce程序中的MapTask的个数由()决定。[单选题]*

A.输入的总文件数

B.客户端程序设置的mapTask的个数

C.FilelnputFormat.getSplits(JobContextjob)计算出的逻辑切片的数量V

。.输入的总文件大小/数据块大小

163.数据集成的基本类型是()。[单选题]*

A内容集成、结构集成V

B.内容集成、规约集成

C.规约集成、结构集成

口模式集成、结构集成

164.对矩阵0,3],[1,1,0],[0,2,1;,[1.0,2]]进行独热编码训练后,对矩阵[[0,1,3]]进行独热编码输

出结果为()。[单选题]*

A.[0,1,0,1,0,0,0,1,0]

B.[1,0,0,1,0,0,0,0,1]V

C.[0t1,0,0,1,0,0,0,1]

c.[1,o,0,0,1,0,0,1,0]

165.下列关于降维算法中主成分分析的说法错误的是()。[单选题]*

A有监督算法V

B.可以指定降维的维度

C.基于方差来计算

D.根据特征值大小来筛选特征

166.在情感分析中不属于影响词的是()。[单选题]*

A.识别V

B.开心

C.难过

。・无聊

167.下列关于python的类的说法错误的是()。[单选题]*

A类的实例方法必须创建对象后才可以调用

B.类的实例方法必须创建对象前才可以调用V

C.类的类方法可以用对象和类名来调用

口类的静态属性可以用类名和对象来调用

168.下列关于Python注释的描述错误的是()。[单选题]*

APython注释语句不被解释器过滤掉,也不被执行V

B.注释可以辅助程序调试

C.注释可用于标明作者和版权信息

[:・注释用于解释代码原理或者用途

169.下列说法错误的是()。[单选题]*

A当目标函数是凸函数时梯度下降算法的解一般就是全局最优解

B.进行PCA降维时.需要计算协方差矩阵

C.沿负梯度的方向一定是最优的方向V

D.利用拉格朗日函数能解带约束的优化问题

170.HadoopMapReduce2.0()负责资源的管理和调度。[单选题]*

A.JobTracker

B.YARNV

C.TaskTracker

C.ApplicationMaster

171.下列关于函数的关键字参数使用限制的描述错误的是()。[单选题]*

A关键字参数必须位于位置参数之前V

B.不得重复提供实际参数

C关键字参数必须位于位置参数之后

。・关键字参数顺序无限制

172.线性模型中的权重w可以看做各个属性工的()。[单选题]*

A正则化系数

B.对最终决策结果的贡献度V

C.高维映射

C.取值

173.下列不是N°SQL数据库的是()。[单选题]*

A.MongoDB

B.BigTable

C.Hbase

0.AccessV

174.运行下面代码的输出结果为()oa=np.array([[5,3,2],[2,4,0]])n=np.sort(a,axis=None)

print(n)[单选题]*

A.[0,2,2,3,4,5]V

B.[5,4,3,2,2,0]

C.[[2,3,0],[5,4,2]]

C.[[2,3,5],[0,2,4]]

175.随着集成中个体分类器(相互独立)数目T的增大,集成的错误率将呈()下降,最终趋向于零。

[单选题]*

A.指数级V

B.对数级

C.线性级

。•平方级

176.在Python中,导入random包后random.random()可能的运行结果为()。[单选题]*

A1

B.4.06364700016475

C.0.0965639318571762V

D.-0.885155622826353

177.缓解过拟合的一个办法是允许支持向量机在一些样本上出错,()形式适合这种方法。[单选题卜

A.硬间隔支持向量机

B.软间隔支持向量机V

C.线性核函数支持向量机

。.多项式核函数支持向量机

178.下列关于数据转换的说法正确的是()。[单选题]*

AJson内的取值只能有统一格式

B.PDF文件在不同平台上打开显示不同

C.可以通过Python将CSV文件转换成Excel格式V

□.Excel存储数据的量无限制

179.scipy.io模块不可以读取()。[单选题]*

A.matlab文件

B.IDL文件

C.wav文件

D.CSV文件V

180.Hive的数据最终存储在()中。[单选题]*

A.HDFSV

B.HBase

CRDBMS

D.MetaStore

181.下列关于在回归分析中解释变量与非解释变量的说法正确的是()。[单选题]*

A.解释变量和被解释变量都是随机变量

B.解释变量为非随机变量,被解释变量为随机变量V

C解释变量和被解释变量都为非随机变量

。.解释变量为随机变量,被解释变量为非随机变量

182.通常落伍者是影响MapReduce总执行时间的主要影响因素之一,为此MapReduce采用()机制

来解决。[单选题卜

A.分布式计算

B.惰性计算

C.推测性执行的任务备份V

。.先进先出

1B3.如果说线性回归模型完美地拟合了训练样本(训练样本误差为零),则下列说法正确的是()。[单

选题]*

A.测试样本误差始终为零

B.测试样本误差不可能为零

C测试样本误差不一定为零V

。.以上答案都不对

184.下列算法中属于局部处理的是()。[单选题]*

A灰度线性变换

B.二值化

C.傅里叶变换

。・中值滤波V

185.对文本数据处理通常采用()核函数。[单选题卜

A多项式

B.Sigmoid

C.线性V

。・拉普拉斯

186.特征工程的目的是()。[单选题]*

A找到最合适的算法

B得到最好的输入数据V

C.减低模型复杂度

D.加快计算速度

1B7.已知数组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论