大数据开发基础练习题及答案14-2023-练习版_第1页
大数据开发基础练习题及答案14-2023-练习版_第2页
大数据开发基础练习题及答案14-2023-练习版_第3页
大数据开发基础练习题及答案14-2023-练习版_第4页
大数据开发基础练习题及答案14-2023-练习版_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试题说明

本套试题共包括1套试卷

答案和解析在每套试卷后

大数据开发基础练习题及答案14(500题)

大数据开发基础练习题及答案14

L[单选题]下列哪个不是RDD的缓存方法()

A)persist()

B)cache()

C)memory()

2.[单选题]Spark中Job的划分依据是()。

A)依赖

B)Action算子

C)Transformation算子

3.[单选题]下列方法中,不可以用于特征降维的方法包括

A)主成分分析PCA

B)线性判别分析LDA

C)深度学习SparseAutoEncoder

D)矩阵奇异值分解SVD

4.[单选题]MaxCompute服务是以RESTfulAPI的形式对外提供。下列()方法可以更新资源。

A)UPDATE

B)P0ST

C)GET

D)PUT

5.[单选题]根据《大数据风控平台项目操作手册》,全景风险视图模块,为了用户能便捷查看客户

的关联风险,实现客群风险监测和关联客户风险联防联控,系统在全景风险视图的客户名称下放置

了()按钮,方便用户查看关键信息。

A)【权限申请】、【集团图谱】、【最终受益人】

B)B.【数据补录】、【集团图谱】、【最终受益人】

C)C.【影像操作】、【企业信用智能分析报告】、【集团图谱】、【最终受益人】

D)D.【担保圈链】、【关联关系图谱】、【企业信用智能分析报告】、【集团图谱】、【最终受益

人】

6.[单选题]假设你正在训练一个LSTM网络,你有一个10000词的词汇表,并且使用一个激活值维度

为100的LSTM块,在每一个时间步中,几的维度是()

A)1

B)100

C)300

D)10000

7.[单选题]Hive不适用于以下哪个场景

A)非实时分析,例如日志分析,统计分析

B)数据挖掘,例如用户行为分析,兴趣分析,区域展示

C)数据汇总,例如每天,每用户点击数,点击排行

D)实时在线数据分析

8.[单选题]Kafka集群在运行期间,直接依赖于下面那些组件?

A)Spark

B)Zookeeper

OHBase

D)HDFS

9.[单选题]内部用户有作业层、管理层、()

A)执行层

B)决策层

C)建议层

D)推送层

10.[单选题]数据的故事化描述是指为了提升数据的(),将数据还原成关联至特定的情景的过程

O

A)可理解性、可记忆性、可体验性

B)可接受性、可记忆性、可体验性

C)可接受性、可记忆性、可呈现性

D)可理解性、可记忆性、可呈线性

11.[单选题]迪士尼MagicBand手环,体现了哪种大数据思维方式:()

A)我为人人,人人为我

B)全样而非抽样

C)效率而非精确

D)相关而非因果

12.[单选题]以下不属于大数据系统端风险的是()

A)数据系统的申请、查看流程

B)数据查看权限

C)系统平台的稳定性

D)数据库管理、存储

13.[单选题]下列语句执行的结果是()>>>a=l>>>b=2*a/4>>>a="one">〉>print(a,b)

A)one0

B)10

C)one0.5

D)one,0.5

14.[单选题]以下关于关系数据模型的论述正确的是()

A)只能表示实体间的1:1联系

B)只能表示实体间的Ln联系

C)只能表示实体间的m:n联系

D)可以表示实体间上述三种联系

15.[单选题]在Hive中,以下那一个查询语句可以将2个或多个表集合进行合并()

A)unionfull

B)unionall

C)unionfor

D)unionon

16.[单选题]与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同,基于

分歧的方法(disagreement-basedme也ods)使用多学习器,而学习器之间的分岐(disagreement)对未

标记数据的利用至关重要()是此类方法的重要代表

A)协同训练

B)组合训练

C)配合训练

D)陪同训练

17.[单选题]大数据的4V特性不包括

A)Volume(大量)

B)Velocity(高速)

C)Visual(可视)

D)Variety(多样)

18.[单选题]下面关于Hadoop的描述错误的是:()

A)Hadoop是一个能够对大量数据进行分布式处理的软件框架

B)作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效地处理

PB级数据

C)Hadoop只支持Java编程语言

D)Hadoop可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上

19.[单选题]type(complex(2,4))的结果为(____)0

A)class'int'

B)class'float'

C)class'complex

D)class'bool'

20.[单选题]以下四种描述中,正确的是()

A)、大数据和海量数据是同一个事物的不同描述

B)、数据和数值是同一个事物的不同描述

C)、数据和数字是同一个事物的不同描述

D)、以上说法均不正确

21.[单选题](_)是M-P神经元,也称为“阈值逻辑单元”。

A)输入层

B)输出层

C)第一层

D)第二层

22.[单选题]Python使用()符号标示注释。

A)&

B)*

0#

D)//

23.[单选题]大数据时代,数据使用的关键是().

A)数据收集

B)数据存储

C)数据分析

D)低容错性

24.[单选题]下面哪项操作能实现跟神经网络中Dropout的类似效果?

A)Boosting

B)bagging

C)Stacking

D)Mapping

25.[单选题]网站在运营过程中,会有用户访问并产生行为数据,要想对这些数据进行处理挖掘,如

果是离线批处理下的方案配置,描述不正确的是

A)数据导入导出,Loader

B)数据采集传输:Flume

C)数据计算,Storm

D)数据存储.HDFS或MySql

26.[单选题]机器学习中L1正则化和L2正则化的区别是?()

A)使用L1可以得到稀疏的权值,使用L2可以得到平滑的权值

B)使用L1可以得到平滑的权值,使用L2可以得到平滑的权值

C)使用L1可以得到平滑的权值,使用L2可以得到稀疏的权值

D)使用L1可以得到稀疏的权值,使用L2可以得到稀疏的权值

27.[单选题]我国首家大数据交易所是:()

A)贵阳大数据交易所

B)上海数据交易中心

C)华东江苏大数据交易中心

D)浙江大数据交易中心

28.[单选题]下列哪个标识符是合法的()

A)print

B)_100

C)12name

D)name

29.[单选题](_)是从海量文本中查询到观点信息,根据主题相关度和观点倾向性对结果排序。

A)情感分类

B)情感检索

C)情感抽取

D)情感分析

30.[单选题]下面不属于大数据4V特性有(一)。

A)容量大

B)类型多

C)速度快

D)应用价值高

31.[单选题]设2={1,1,1,1,1,2,3,4,5,5,5,5},贝!]print(len(a))的显示结果为(.)。

A)5

B)12

03

D)Error

32.[单选题]支撑大数据业务的基础是()

A)数据科学

B)数据应用

C)数据硬件

D)数据人才

33.[单选题]以下关于Zookeeper的Leader节点在收到数据变更请求后的读写流程说法正确的是?

A)仅写入内存

B)同时写入磁盘和内存

C)先写入内存再写入磁盘

D)先写磁盘再写内存

34.[单选题]numpy中向量转成矩阵使用什么函数?

A)np.reshape()

B)np.reval()

C)np.arange()

D)np.random()

35.[单选题]对线下零售而言,做好大数据分析应用的前提是。

A)增加统计种类

B)扩大营业面积

C)增加数据来源

D)开展优惠促销

36.[单选题]以下名称中不属于“属性张成的空间”的是(—)。

A)属性空间

B)样本空间

C)输入空间

D)对偶空间

37.[单选题]关于赋值语句,以下选项中描述错误的是

A)在Python语言中,有一种赋值语句,可以同时给多个变量赋值

B)设x="alice";y="kate",执行x,y=y,x可以实现变量x和y值的互换

C)设a=10;b=20,执行a,b=a,a+bprint(a,b)和a=bb=a+bprint(a,b)之后,得到

同样的输出结果:1030

D)在Python语言中,“=”表示赋值,即将“=”右侧的计算结果赋值给左侧变量,包含“=”的语

句称为赋值语句

38.[单选题]关于基本数据的元数据是指:

A)基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息

B)基本元数据包括与企业相关的管理方面的数据和信息

C)基本元数据包括日志文件和简历执行处理的时序调度信息

D)基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息

39.[单选题]以下不属于关系型数据库的是()

A)DB2

B)HBase

C)MySQL

D)Oracle

40.[单选题]下列数据类型中不可以作为索引对Numpy数组进行选取的是()。

A)boolean

B)tuple

C)diet

D)int

41.[单选题]scipy.stats模块中对随机变量进行随机取值的函数是()。

A)rvs

B)pdf

Ocdf

D)sf

42.[单选题]以下哪项用来排序()

A)ORDEREDBY

B)ORDERBY

C)GROUPBY

D)GROUPEDBY

43.[单选题]Relief的扩展变体Relief-F能够处理(_)问题。

A)二分类

B)多分类

C)回归

D)降维

44.[单选题]信息安全事件的处理不遵循的原则是()

A)统一领导

B)综合协调

C)快速处理

D)集体责任

45.[单选题]下列哪一项不属于仪表板的布局模式()

A)标准模式

B)自由模式

C)标准模式(分页)

D)自由模式(分页)

46.[单选题]若设1.启动,2.诊断,3.建立,4.行动,5.学习,贝UDMM模型中的顺序为(_)。

A)12345

B)12354

013254

D)13245

47.[单选题]以下关于函数参数和返回值的描述,正确的是:

A)采用名称传参的时候,实参的顺序需要和形参的顺序一致

B)可选参数传递指的是没有传入对应参数值的时候,就不使用该参数

C)函数能同时返回多个参数值,需要形成一个列表来返回

D)Python支持按照位置传参也支持名称传参,但不支持地址传参

48.[单选题]高斯核也称为(_)。

A)多项式核

B)拉普拉斯核

C)RBF核

D)Sigmoid核

49.[单选题]数据产品开发的关键环节是()

A)数据收集

B)数据预处理

C)数据学习

D)数据加工

50.[单选题]Flume的高级组件不包含以下哪个?

A)SinkProcessor

B)ChannelInterceptor

C)ChannelSelector

D)SourceInterceptor

51.[单选题]以下()组件负责存储业务数据、执行数据查询任务以及向CN返回执行结果。

A)GTM

B)WLM

C)CN

D)DN

52.[单选题]下列语句中不能创建一个字典的是()。

A)dictl={}

B)dict2={3:5}

C)dict3={[1,2,3]I"uestc")

D)dict4={(1,2,3):"uestc")

53.[单选题]下列有关Hive中分桶表理解不正确的是()

A)Hive不能针对分区进行桶的组织

B)Hive可以针对某一列进行桶的组织

C)把表组织成桶可以获得更高的查询处理效率

D)把表组织成桶可以使取样更高效

54.[单选题]国网公司泛在电力物联网2019年建设方案要求,推进营配贯通优化提升,贯通率提升

()O

A)5%

B)7%

010%

D)15%

55.[单选题]某公司在进行大数据离线批处理平台的前期技术选型,以下哪个大数据组件不属于离线

批处理业务所涉及到的组件?

A)HDFS

B)Spark

C)Storm

D)Hive

56.[单选题]下面python循环体执行的次数与其他不同的是。。

A)i=0while(i

B)i=10while(i>0):print(i)i=i-l

C)forIinrange(10):Print(i)

D)forIinrange(10,0,-l):print(i)

57.[单选题]以下关于ElasticSearch介绍错误的是?(

A)Document文档,被素引的基本单位

B)EsMaster主节点

C)Index亲弓I,与关系型数据库中的索引概念一样

D)EsNode:Elasticsearch节点,一个节点就是一个Elasticsearch实例

58.[单选题]以下不是NoSQL常用数据模型的是()

A)Key-Value

B)Key-Colum

C)图存储

D)关系数据模型

59.[单选题](一)返回模块名称空间的字典,(—)返回当前名称空间的字典。

A)locals()locals()

B)global()locals()

C)locals()global()

D)globals()globals()

60.[单选题]以P(w)表示词条w的概率,假设已知P(南京)=0.8,P(市长)=0.6,P(江大桥

)=0.4;P(南京市)=0.3,P(长江大桥)=0.5。如果假设前后两个词的出现是独立的,那么分词

结果就是()。

A)南京市*长江*大桥

B)南京*市长*江大桥

C)南京市长*江大桥

D)南京市*长江大桥

61.[单选题]Hive在处理数据时,默认的分隔复合类型中元素的分隔符是()

ALA

B)"B

C)-C

D)\n

62.[单选题]常用的数据归约方法可以分为()。

A)维归约、数据压缩

B)维归约、参数归约

C)维归约、值归约

D)数据压缩、值归约

63.[单选题]ApacheHadoop可以在(_)平台上运行。

A)Ubuntu

B)Debian

C)Windows

D)跨平台

64.[单选题]某电商公司数据库高级工程师进行大数据分析,现在界面提示:"0:

jdbe:hive2:〃192.168.0.186:2181/>"信息,那么他最有可能在进行什么场录的数据分析工作?

A)实时检素场景

B)离线批处理场景

C)图搜索场景

D)实时流开发场景

65.[单选题]HDFS的优点不包含哪个?

A)处理超大文件

B)运行于廉价机器上

C)高效存储大量小文件

D)流式的访问数据

66.[单选题]MapReduce流程有()各阶段。

A)三

B)二

C)四

D)五

67.[单选题]Hive常被用来处理()场景。

A)事务性处理

B)批量计算

C)实时性计算

D)流计算

68.[单选题]下列关于Numpy的数组Ndarray对象属性的描述错误的是()。

A)Ndarray.ndim秩,即轴的数量或维度的数量

B)Ndarray.shape数组的维度,对于矩阵来说是n行m列

C)Ndarray.size数组元素的总个数,也是shape属性中nXm的值

D)Ndarray.itemsizeNdarray对象的元素类型

69.[单选题]下列算法中属于图像平滑处理的是()o

A)梯度锐化

B)直方图均衡化

0中值滤波

D)Laplacian增强

70.[单选题]在MaxCompute中,可以通过Tunnel命令行来完成数据的上传下载。如果要下载

test_project项目空间下的一个带分区的表test_table_p的内容到log.txt文件中,使用命令

tunneldownloadtest_project.test_table_plog.txt;结果报错,其中出错的部分为:()。

A)tunnel

B)download

C)test_project.test_table_p

D)logtxt

71.[单选题]假设我们要解决一个二类分类问题,我们已经建立好了模型,输出是0或1,初始时设阈

值为0.5,超过0.5概率估计,就判别为1,否则就判别为0;如果我们现在用另一个大于0.5的阈值,

那么现在关于模型说法,正确的是:

A)模型分类的召回率会降低或不变

B)模型分类的召回率会升高

C)模型分类准确率会升高或不变

D)模型分类准确率会降低

72.[单选题](_)通过构建并结合多个学习器来完成学习任务。

A)支持向量机

B)贝叶斯分类器

C)神经网络

D)集成学习

73.[单选题]如想定义字符串,应使用。

A)list

B)set

C)str

D)dict

74.[单选题]关于基于Hadoop的MapReduce编程的环境配置,下面哪一步是不必要的()

A)配置java环境变量

B)配置Hadoop环境变量

C)配置Eclipse

D)配置ssh

75.[单选题]以下哪项不是“大数据”和传统的“小数据”的区别?

A)数据规模的采样聚合与全量

B)数据结构的结构化与非结构化

C)数据来源的集中于分散

D)数据质量的高低参差不齐

76.[单选题]在逻辑回归输出与日标对比的情况下,以下评估指标中()不适用

A)AUC-R0C

B)准确度

C)Logloss

D)均方误差

77.[单选题]能实现将一维数据写入CSV文件中的是

A)fo=open("price2016bj.csv","w")Is=['AAA','BBB','CCC','DDD']

fo.write(",join(Is)+"\n")fo.close()

B)fr=open("price2016.csv","w")Is=[]forlineinfo:line=

line,replace("\n","")Is.append(line,split(","))print(Is)fo.close()

C)fo=open("price2016bj.csv","r")Is=['AAA','BBB','CCC",

'DDD']fo.write(",",join(Is)+"\n")fo.close()

D)fname=input("请输入要写入的文件:")fo=open(fname,"w+")ls=["AAA","BBB",

"CCC"]fo.writelines(Is)forlineinfo:print(line)fo.close()

78.[单选题]在线性回归问题中,我们用R方来衡量拟合的好坏。在线性回归模型中增加特征值并再训

练同一模型。下列说法正确的是()。

A)如果R方上升,则该变量是显著的

B)如果R方下降,则该变量不显著

C)单单R方不能反映变量重要性,不能就此得出正确结论

D)以上答案都不正确

79.[单选题]当数据集非常大的时候,对全体数据进行处理存在困难时,通过什么方式可以估计和推

断出整体的特性()

A)抽样查询

B)模糊查询

C)条件查询

D)连接查询

80.[单选题]下列选项中,Python不支持的数据类型有()。

A)int

B)char

C)float

D)dictionary

81.[单选题]np.square(2)的结果是多少?

A)1

B)4

03

D)2

82.[单选题]下列哪项通常是集群的最主要的性能瓶颈?()

A)CPU

B)网络

C)磁盘

D)内存

83.[单选题]下列关于BigTable的描述,哪个是错误的?()

A)爬虫持续不断地抓取新页面,这些页面每隔一段时间地存储到BigTable里

B)BigTable是一布式存储系统

OBigTable起初用于解决典型的互联网搜索问题

D)网络搜索应用查询建立好的索引,从BigTable到网页

84.[单选题]选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引人()。

A)线性回归

B)线性判别分析

C)正则化项

D)偏置项

85.[单选题]变量的不确定性越大,相对应信息'脑的变化是()

A)蜻变小

B)蜻变大

C)不变

D)以上答案都不正确

86.[单选题]可用作数据挖掘分析中的关联规则算法有()。

A)机器学习、对数回归、关联模式

B)K均值法、SOM机器学习

C)Apriori算法、FP-Tree算法

D)RBF机器学习、K均值法、机器学习

87.[单选题]以下关于DataNode的描述不正确的是?

A)DataNode执行数据块的读/写操作

B)DataNode是用来存储数据块

C)DataNode管理数据块元数据

D)DataNode的数量受数据规模影响

88.[单选题]()是基于规则的分类器

A)C4,S

B)KNN

C)NaiveBayes

D)C.ANN

89.[单选题]关于数据备份的做法不对的是:()

A)确认备份操作步骤准确无误后进行备份操作。

B)各业务部门应将计算机信息数据备份媒体视同重要空白凭证,指定专人负责备份数据媒体的签收

和入库管理。

C)备份数据媒体应按要求写明标识,交办公室档案管理员异地存放,要确保存放地的安全,并定期

进行检查,确保数据的完整性、可用性。

D)涉密信息媒体的备份媒体(磁带、磁盘、光盘、纸媒体等)应有密级及保密期限标志,统一编号

,各单位保密机构负责涉密信息媒体的界定和销毁。

90.[单选题]智能健康手环的应用,体现了()数据采集技术的应用。

A)统计报表

B)网络爬虫

C)传感器

D)API接口

91.[单选题]以下关于数据仓库的叙述中,正确的是()

A)数据仓库主要用于支持决策管理

B)数据仓库的数据源相对比较单一

C)存放在数据仓库中的数据一般是实时更新的

D)数据仓库为企业的特定应用服务、强调处理的响应时间,数据的安全性和完整性等

92.[单选题]若2=叩.abs(-5),则print(a)输出为(—)。

A)-6

B)-4

0-5

D)5

93.[单选题]下列语句会无限循环下去的是()。

A)forainrange(10):timesleep(10)

B)whilei<10:

Timesleep(10)

C)whileTrue:

Break

D)a=[3,-1,']

Foriina[:]:ifnota:

Break

94.[单选题]()是指过滤器在图像上滑动的距离。

A)卷积核大小

B)卷积步长

C)过滤器大小

D)图像大小

95.[单选题]任何一个核函数都隐式地定义了一个(_)空间。

A)希尔伯特空间

B)再生希尔伯特空间

C)再生核希尔伯特空间

D)欧式空间

96.[单选题]我想使用JavaAPI删除HDFS中的非空文件夹/123,以下选项正确的是。

A)fs.delete(newPath("/123"));

B)fs.delete(newPath("/123"),false);

C)fs.delete(newPath("/123"),true);

D)delete()方法只能删除文件或非空文件夹,不能直接删除非空文件夹

97.[单选题]例如数据库中有A表,包括学生,学科,成绩三个字段,数据库结构为学生学科成

绩张三语文60张三数学100李四语文70李四数学80李四英语80如何统计最高分>80的

学科()

A)SELECTMAX(成绩)FROMAGROUPBY学科HAVINGMAX(成绩)〉80;

B)SELECT学科FROMAGROUPBY学科HAVING成绩>80;

C)SELECT学科FROMAGROUPBY学科HAVINGMAX(成绩)>80;

D)SELECT学科FROMAGROUPBY学科WHEREMAX(成绩)>80;

98.[单选题]下列关于支持向量机优化性问题的形式说法正确的是(_)。

A)它是一个凸二次规划问题

B)它是一个凸一次规划问题

C)它是一个凹二次规划问题

D)它是一个凹一次规划问题

99.[单选题]HFile数据格式中的Data字段用于()。

A)存储实际的KeyValue数据

B)存储数据的起点

C)指定字段的长度

D)存储数据块的起点

100.[单选题]多分类学习中,最经典的三种拆分策略不包括()。

A)一对一

B)一对其余

C)一对多

D)多对多

101.[单选题]下面关于机械思维的核心思想,描述错误的是:()

A)世界变化的规律是确定的

B)lit界变化的规律是无法确定的

C)规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚

D)这些规律应该是放之四海而皆准的.可以应用到各种未知领域指导实践

102.[单选题]在Matplotlib中,在当前图形上添加一个子图需要用到的函数是()。

A)pit.stackplot()

B)pit.suptitle()

C)pit.subplot()

D)plt.imshow()

103.[单选题]电影评分是以下哪些的应用实例(—)。

A)分类

B)聚类

C)强化学习

D)回归

104.[单选题]在HBase的专用过滤器中,单列排除过滤器是()

A)SingleValueExcludeFilter

B)SingleColumnExcludeFilter

C)SingleColumnValueExcludeFilter

D)ColumnValueExcludeFilter

105.[单选题]通过(),持续降低自动采集成本和操作难度,不断提高公司数据的自动采集水平。

A)组织开展数据转换技术及应用研究

B)组织开展数据分类技术及应用研究

C)组织开展数据录入技术及应用研究

D)组织开展数据自动采集技术及应用研究

106.[单选题]回归方程判定系数的计算公式R2=SSR/SST=1-SSE/SST,对判定系数描述错误的是。

A)式中的SSE指残差平方和

B)式中的SSR指总离差平方和

C)判定系数用来衡量回归方程的抗合优皮

D)判定系教K等于相关系数的平方

107.[单选题]下列哪个程序通常与NameNode在一个节点启动?

A)SecondaryNameNode

B)DataNode

C)TaskTracker

D)Jobtracker

108.[单选题]a和b为两个整数,以下关系表达式语法错误的是?

A)a==b

B)ab

C)a>=b

D)a!=b

109.[单选题]Oracle数据库最近使用过的SQL语句存储在

A)共享池

B)数据高速缓冲区

C)私有全局区

D)用户全局区

110.[单选题]K-摇臂赌博机属于(—)算法。

A)机器学习

B)深度学习

C)强化学习

D)有监督学习

111.[单选题]二项分布的数学期望为()

A)n(1-n)p

B)np(1-p)

C)np

D)n(1-p)

112.[单选题]MapReduce框架对()按照键值排序。。

A)中间结果

B)最终结果

C)输入数据

D)输出数据

113.[单选题]对于ADS的主键,()说法是正确的。

A)对于updateType=realtime的表来讲,主键是必须的,且主键中不能包含作为一级hash分区的分区

B)对于ADS的普通表,无论updateType如何取值,主键是必要的

C)对于updateType=batch的表来讲,主键是必须的,主要是约束导入数据时的重复记录

D)有主键的表的性能和用法上和没有主键的表之间没有任何区别

114.[单选题]进入要操作的数据库TEST用以下哪一项()

A)INTEST

B)SHOWTEST

C)USERTEST

D)USETEST

115.[单选题]在图集合中发现一组公共子结构,这样的任务称为()

A)频繁子集挖掘

B)频繁于圈挖掘

C)频繁数据项挖掘

D)频繁模式挖掘

116.[单选题]以下哪一项不是Spark框架可用的资源调度系统?

A)Mesos

B)Yarn

C)deremel

D)aws

117.[单选题](_)是一类用图来表达变量相关关系的概率模型。

A)神经元模型

B)感知机模型

C)概率图模型

D)SVM

118.[单选题]以下描述中错误的是()。

A)数据化与数字化是两个不同概念

B)数据与数值是一个概念

C)大数据与海量数据是两个不同的概念

D)数据和信息是两个不同的概念

119.[单选题]()对监管数据质量承担最终责任

A)董事长

B)风险管理部

C)行长

D)数据运管部

120.[单选题]阿里巴巴旗下的数据管理平台,被称为:

A)达摩盘

B)支付宝

C)蚂蚁花呗

D)招财宝

121.[单选题]感知层是物联网体系架构的()层。

A)第一层

B)第二层

C)第三层

D)第四层

122.[单选题]执行后可以查看Python的版本的是

A)importsysprint(sys.Version)

B)importsystemprint(system,version)

C)importsystemprint(system.Version)

D)importsysprint(sys.version)

123.[单选题]一般地,”人“与”马“分别与”人马“相似,但”人“与”马”很不相似;要达到

这个目的,可以令”人“”马“与”人马”之间的距离都比较小,但”人“与”马”之间的距离很

大,此时该距离不满足(_)O

A)非负性

B)同一性

C)对称性

D)直递性

124.[单选题]MapReduce中的归约过程是

A)Map

B)Guiyue

C)Summary

D)Reduce

125.[单选题]HDFS采用块复制的概念,让数据在集群的节点间进行复制,从而实现了一个(__)的

系统。

A)云计算

B)分布式文件

C)流处理

D)高度容错性

126.[单选题]实现One-Hot编码可以用Pandas中()函数。

A)groupby()

B)merge()

C)getdummies()

D)llna()

127.[单选题]kafka-clustermirroring工具可以实现()功能。

A)kafka集群数据同步方案

B)kafka单集群内数据备份

Okafka单集群内数据恢复

D)以全部不对

128.[单选题]线性回归的基本假设不包括()。

A)随机误差项是一个期望值为0的随机变量

B)对于解释变量的所有观测值,随机误差项有相同的方差

C)随机误差项彼此相关

D)解释变量是确定性变量不是随机变量,与随机误差项之间相互独立

129.[单选题]执行以下代码段时a=set('apple')b=set('orange')print(a&b)时,输出为

(一)o

A){'r,'e','a'.'p'}

Bn)\tf»r',tai,,g,,tef,in»,for)\

1,p,g,O,e,n,a,r)

D){Q,'a')

130.[单选题]BP算法基于(_)策略,以目标的(_)梯度方向为参数进行调整。

A)前向传播,正

B)梯度下降,负

C)前向传播,负

D)梯度下降,正

131.[单选题]下列有关Hive和Impala的对比错误的是()。

A)Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划

B)Hive与Impala使用相同的元数据

C)Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询

D)Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此

132.[单选题]选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引人()

A)线性回归

B)线性判别分析

C)正则化项

D)偏置项

133.[单选题]下面哪个功能不是大数据平台安全管理组件提供的功能0。

A)接口代理

B)接口认证

C)接口授权

D)路由代理

134.[单选题]在完整的异常语句中,语句出现的顺序正确的是()o

A)tryfexceptfelseffinally

B)try-*else-*except-♦finally

C)tryfexceptffinallyfelse

D)try-*else-*else-*except

135.[单选题]Gremlin中查询单个点的信息该用什么命令

A)g.VO.hasLabel("test")

B)g.VOhasLabel("test"),values("age")

C)9.VO.hasLabel("test).valueMap("String,list","age")

D)gV(13464736).valueMapO自

136.[单选题]大数据的4V特点:Volume、Velocity,Variety,Veracity,其中Volume的含义是()

A)价值密度低

B)处理速度快

C)数据类型繁多

D)数据体量巨大

137.[单选题]下列操作是只能删除空目录的是(—)。

A)rmtree

B)mkdir

C)chdir

D)rmdir

138.[单选题]向量空间模型的缺陷不包括()

A)维度灾难

B)模型稀疏性

C)语义信息缺失

D)无法计算文本相似度

139.[单选题]()和假设检验又可归结为统计推断的范畴,即对总体的数量特征做出具有一定可靠程度

的估计和判断。

A)参数估计

B)逻辑分析

C)方差分析

D)回归分析

140.[单选题]摩尔定律指出,当价格不变时,集成电路上可容纳的晶体管数目,约每隔()便会增

加一倍,性能也将提升一倍。

A)6个月

B)18个月

012个月

D)24个月

141.[单选题]下列操作属于预剪枝的是()。

A)信息增益

B)计算最好的特征切分点

C)限制树模型的深度

D)可视化树模型

142.[单选题]公司()负责研究审议网络与数据安全总体方针、重大政策和重大事项。

A)国网安质部

B)国网信通部

C)网络安全和信息化领导小组

D)国网办公厅

143.[单选题]下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是()

A)FSDatalnputStream扩展了DatalnputStream以支持随机读

B)为实现细粒度并行,输入分片(InputSplit)应该越小越好

C)一台机器可能被指派从输入文件的任意位置开始处理一个分片

D)输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割

144.[单选题](一)是一个在HDFS上开发的面向列的分布式数据库。

A)Hive

B)Pig

C)Mahout

D)Hbase

145.[单选题]以下()在关系模型中表示属性的取值范围。--

A)元组

B)键

C)属性

D)域

146.[单选题]启动hadoop所有进程的命令是()。

A)start-dfs.sh

B)start-all.sh

C)start-hadoop.sh

D)start-hdfs.sh

147.[单选题]以下图像分割方法中,不属于基于图像灰度分布的阈值方法的是

A)类间最大距离法

B)最大类间、内方差比法

0p-参数法

D)区域生长法

148.[单选题]数据管理成熟度模型中成熟度等级最高的是()。

A)已优化级

B)已测量级

C)已定义级

D)已管理级

149.[单选题]int('Oxa',16)的结果为()0

A)10

B)12

016

D)a

150.[单选题]大数据的起源是().

A)金融

B)电信

C)互联网

D)公共管理

151.[单选题]业务中台方面,以业务为导向,优先建设()和客户服务业务中台,后期逐步视情况

拓展账务结算等业务共享服务

A)电网服务业务中台

B)电网资源业务中台

C)电网优化业务中台

D)电网环境业务中台

152.[单选题]ElasticSearch中构建一个query需要用到下列哪个代码?

A)QueryBuilders.putQuery()

B)QueryBuilders.matchQuery()

C)QueryBuiIdersgetQuery()

D)QueryBuiIderscreateQuery()

153.[单选题]关系云的一个重要功能是提供()。

A)数据库即服务

B)虚拟服务

C)弹性计算

D)按需服务

154.[单选题]下列不属于Transformation操作的是()。

A)map

B)filter

C)sample

D)count

155.[单选题]使用池化层相比于相同步长的卷积层的优势在于?

A)参数更少

B)可以获得更大下采样

C)速度更快

D)有助于提升精度

156.[单选题]下列关于线性回归分析中的残差说法正确的是()。

A)残差均值总是为零

B)残差均值总是约等于零

C)残差均值总是大于本

D)以上答案都不正确

157.[单选题]执行以下代码段x=32deffl():globalxx=14deff2():globalxx=

29print(x)时,输出为(____)。

A)32

B)14

029

D)以上都不是

158.[单选题]以下插入记录正确的()

A)insertintoemp(ename,hiredate,sal)values(valuel,value2,value3);

B)insertintoemp(ename,sal)values(valuel,value2,value3);

C)insertintoemp(ename)values(valuel,value2,value3);

D)insertintoemp(ename,hiredate,sal)values(valuel,value2);

159.[单选题]给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、

异类样例的投影点尽可能远离,这说的是()算法。

A)PCA

B)SVM

C)K-means

D)LDA

160.[单选题]FusioninsightHD系统中,下面哪个方法不能查看到Loader作业执行的结果

A)通过LoaderUI界面查看

B)通过YARN任务管理查看

C)通过NodeManager查看

D)通过Manager的告警查看

161.[单选题]关于“from-import”形式,以下错误的选项是(—兀

A)从模块名导入标识符

B)这种导入形式可以防止名称冲突

C)被导入模块的命名空间是模块导入的一部分

D)模块中的标识符可直接访问为标识符

162.[单选题]下列模型中与文本分类相关的是()。

A)决策树

B)神经网络

OKNN算法

D)以上都对

163.[单选题]()属于Spark框架中的可扩展机器学习库。

A)MLib

B)GraphX

C)Streaming

D)SparkSQL

164.[单选题]关于RDD,下列说法错误的是?

A)RDD具有血统机制答案:Lineage

B)RDD默认存储在磁盘

ORDD是一个只读的,可分区的分布式数据集

D)RDD是Spark对基础数据的抽象

165.[单选题]Spark的集群管理模式不包含()。

A)Standalone模式

B)Message模式

OYARN模式

D)Mesos模式

166.[单选题]在Kafka集群中,Kafka服务端的角色是下列哪-项?

A)Producer

B)ZooKeeper

C)Consumer

D)Broker

167.[单选题](一)是norm,rvs(5)的结果。

A)7.1316243700758

B)array([-0.35687759,1.34347647,-0.11710531,-1.00725181,-0.51275702])

C)array([1,2,3,4,5])

D)array([5,4,3,2,1])

168.[单选题](_)不属于基本分析方法。

A)回归分析

B)分类分析

C)聚类分析

D)元分析

169.[单选题]Hadoop使用了一套独有的配置文件管理系统,并提供自己的API,即使用()处理配

置信息。

A)org.apache,hadoop.conf.Configuration

B)org.apache,hadoop.conf.Config

C)org.apache,hadoop.fs.FileSystem

D)org.apache,hadoop.fs.Path

170.[单选题]大数据的起源()

A)电信

B)互联网

C)金融

D)公共管理

171.[单选题]在Hadoop生态系统的组件中(__)是可扩展可伸缩的工作流协调管理器。

A)Oozie

B)Flume

C)Sqoop

D)Hue

172.[单选题]执行以下代码段cars=['bmw','audi','toyota',

1subaru']cars,sort()print(cars)时,输出为()。

A)['audi',1bmw',1subaru*,1toyotaf]

B)['toyota',1subaru1,'bmw',faudi1]

C)[rbmw1,1audi1,1toyota',1subaru1]

D)['bmw',1toyota1,'audi',1subaru11

173.[单选题]Flume中一个ChannelSelector的作用是什么?

A)设置多个channel发往多个sink的策略

B)设置一个source发往多个channel的策略

C)设置多个source发往多个channel的策略

D)设置一个channel发往多个sink的策略角

174.[单选题]Hadoop2.x版本中的数据块大小默认是多少?()

A)64M

B)128M

C)256M

D)512M

175.[单选题]下列有关KNN算法的流程顺序,描述正确的是()①确定K的大小,和距离的计算方法

②根据K个样本的所属类别,投票决定测试样本的类别归属③计算训练集样本与测试样本的举例,选

出K个与测试样本最相似的样本

A)①②③

B)③②①

C)①③②

D)②①③

176.[单选题]HAVING子句的位置放在GROUPBY子句之()

A)前后都可以

B)前

C)后

D)以上都不对

177.[单选题]以下哪项属于Flume的基本数据单位?

A)Subject

B)Topic

C)Object

D)Event

178.[单选题]消费信息是否属于用户信息?()

A)属于

B)不属于

C)未定义

D)以上都不对

179.[单选题]与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同,基于

分歧的方法(disagreement-basedmethods)使用多学习器,而学习器之间的分歧(disagreement)对未

标记数据的利用至关重要。()是此类方法的重要代表。

A)协同训练

B)组合训练

C)配合训练

D)陪同训练

180.[单选题]下列关于Python模块的理解错误的是()。

A)模块是包含函数和变量的Python文件

B)不可以使用"操作符访问模块中的函数和变量

C)可以导入模块中的所有类

D)可以在一个模块中导入另一个模块

181.[单选题]k-means算法中K指的是:()

A)K个样本

B)K个质心

C)K次迭代

D)K次方

182.[单选题]某电商网站想要实现热销商品的实时TopN排名,可以使用哪种技术实现?

A)Elasticsearch的快速检索

B)HBase的rowkey索引

C)Hive的关联查询分析

D)Redis的排序计算

183.[单选题]()是表管理类,提供了一个接口来管理HBase数据库的表信息。它提供的方法包括

:创建表、删除表、列出表项、使表有效或无效,以及添加或删除表列簇成员等。

A)Admin

B)Table

C)HTableDescriptor

D)HColumnDescriptor

184.[单选题]以下不属于维度建模过程的是()

A)选择业务过程

B)定义粒度

C)建立模型

D)确定事实

185.[单选题]下列哪个不属于可视化工具?()

A)Google

B)D3

C)Visual.ly

D)Spark

186.[单选题]与以下代码段var=lOOifvar==200:print("1-Gotatrueexpression

value")print(var)elifvar==150:print("2-Gotatrueexpressionvalue")

print(var)elifvar==100:print("3-Gotatrueexpressionvalue")print(var)else:

print("4-Gotafalseexpressionvalue")print(var)等效的列表描述()。

A)1-GotatrueexpressionvaluelOO

B)2-GotatrueexpressionvaluelOO

C)3-GotatrueexpressionvaluelOO

D)4-GotatrueexpressionvaluelOO

187.[单选题]数学关系式2

A)2

B)2

02

D)x>2orx

188.[单选题]在Numpy中,数组拼接的函数不包括()。

A)append()

B)insert()

C)vstack()

D)where()

189.[单选题]HBase依赖____提供强大的计算能力。

A)Zookeeper

B)Chubby

ORPC

D)MapReduce

190.[单选题]在k近邻学习算法中,随着k的增加,上界将逐渐降低,当k区域无穷大时,上界和下界

碰到一起,k近邻法就达到了(_)。

A)贝叶斯错误率

B)渐进错误率

C)最优值

D)上界

191.[单选题]()属于浅层学习模型

A)DBN

B)CNN

OSVM

D)RNN

192.[单选题]下面这段代码的作用是什么?(VX:HWRZKSTK)

A)判断索引分片是否存在

B)判断索引是否可用

C)判断索引是否存在

D)判断索引类型

193.[单选题]当在卷积神经网络中加人池化层(pool恒.glay,町)时,变换的不变性会被保留该说十

法()正确

A)不知道

B)看情况

C)是

D)否

194.[单选题]在大数据计算服务(MaxCompute,原ODPS)的MapReduce中可以使用资源

(Resource,包括jar包、压缩文件、表等)。在使用jar命令执行MR程序时,需要在参数

resources中指定资源,以下说法正确的是:()。

A)包括已上传到大数据计算服务的MR程序本身所在的jar包,以及MR程序用到的大数据计算服务上的

资源

B)仅包含MR程序中用到的大数据计算服务上的资源

0仅包含保存在本地的MR程序本身所在的jar包

D)仅包含已上传到大数据计算服务的MR程序本身所在的jar包

195.[单选题]以下说法不正确的是()

A)卷积神经网络主要用于目标识别、国像分割等方面

B)循环神经网络主要用于处理序列数据

C)长短时记忆神经网络主要用于处理序列数据

D)长短时记忆神经网络是和循环神经网络完全不同的一种新型神经网络

196.[单选题]如果线性回归模型中的随机误差存在异方差性,那么参数的OLS估计量是

A)无偏的,有效的

B)无偏的,非有效的

C)有偏的,有效的

D)有偏的,非有效的

197.[单选题]当闵可夫斯基距离公式中的系数p趋近于无穷大时,可得到(_)的公式。

A)欧氏距离

B)曼哈顿距离

C)街区距离

D)切比雪夫距离

198.[单选题]从节点程序()o

A)NameNode

B)DataNode

C)SecondaryNameNode

D)Jobtracker

199.[单选题]当机器学习把训练样本自身特点当作所有潜在样本特点,导致泛化性能下降,这种现

象在机器学习中称为(—)。

A)偏差

B)过拟合

C)欠拟合

D)误差

200.[单选题]下列关于抛出异常的说法错误的是()。

A)当raise指定异常的类名时,会隐式地创建异常类的实例

B)显式地创建异常类实例,可以使用raise直接引发

C)不带参数的raise语句,只能引发刚刚发生过的异常

D)使用raise抛出异常时,无法指定描述信息

201.[单选题]2012年,()政府发布了《大数据研究和发展倡议》,标志着大数据已经成为重要的

时代特征

A)中国

B)美国

C)日本

D)英国

202.[单选题]神经网络研究属于下列()学派。

A)符号主义

B)连接主义

C)行为主义

D)都不是

203.[单选题]逻辑回归的实现采用的方法是()。

A)LinearRegression()

B)LogisticRegression()

C)HuberRegression()

D)TheilSenRegression()

204.[单选题]numpy矩阵之间的内积使用什么函数?

A)np.dot()

B)np.cross()

C)np.outer()

D)np.svd()

205.[单选题]()是指几组不同的数据中均存在一种趋势,但当这些数据组组合在一起后,这种

趋势将消失或反转。

A)辛普森悖论

B)大数据悖论

C)大数据偏见

D)幸存者偏差

206.[单选题]下列关于推荐系统的描述,哪一项是错误的?()

A)推荐系统是大数据在互联网领域的典型应用

B)推荐系统是自动联系用户和物品的一种工具

C)推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售

D)推荐系统分为基于物品的协同过滤和基于商家的协同过滤

207.[单选题]下面属于数据权限的特权是()。-

A)DR0P

B)ALTER

C)DELETE

D)以上答案全部正确

208.[单选题]使用Maxcomputetunnel命令上传log.txt文件到表t_log中去,t_log为分区表(pl

string,p2string)。下列命令中正确的是:()。

A)tunneluploadlog.txtt_log/pl="bl”/p2="b2”

B)tunneluploadlog.txtt_log(pl="bl”,p2=“b2”)

C)tunneluploadlog.txtt_log/pl="bl”,p2=“b2”

D)tunneluploadlog.txtt_log/(pl="bl”,p2="b2”)

209.[单选题]()肯定是宽依赖操作。

A)map

B)flatMap

C)reduceByKey

D)sample

210.[单选题]上传当前目录下的本地文件word,txt到分布式文件系统HDFS的"/dirPath”目录下的

Shell命令是()o

A)hdfsdfs-put/dirPathword,txt

B)hadoopdfs-put/dirPathword,txt

C)hdfsfs-putword,txt/dirPath

D)hdfsdfs-putword,txt/dirPath

211.[单选题]以下内容符合物体识别任务的是()o

A)不能对图像进行压缩或剪裁

B)遵守误差最小准则和最佳近似准则

C)可以不指定分类的类别数量

D)事先给定样本的分布特征

212.[单选题]整形变量x中存放了一个两位数,要将这个两位数的个位数字和十位数字变换位子,例

如,13变成31,正确的python表达式为。()

A)(x%10)*10+x//10

B)(x%10)//10+x//10

C)(x/10)%10+x//10

D)(x%10)*10+x%10

213.[单选题]在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了一个()

A)偏置项b

B)系教

C)松弛变量

D)两种情况的目标函数相同

214.[单选题]假设你有5个大小为7x7、边界值为0的卷积核,同时卷积神经网络第一层的深度为1此

时如果你向这一层传人一个维度为224x224x3的数据,那么神经网络下一层所接收到的数据维度是(

A)218x218x5

B)217x217x8

0217x217x3

D)220x220x5

215.[单选题]下面对SecondaryNameNode第二名称节点的描述,哪个是错误的?

A)SecondaryNameNode一般是并行运行在多台机器上

B)它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间

C)SecondaryNameNode通过HTTPGET方式从NameNode上获取到FsImage和EditLog文件,并下载到本地

的相应目录下

D)SecondaryNameNode是HDFS架构中的一个组成部分

216.[单选题]FusioninsightHD系统中,以下选项哪一个不是HBase写数据设计的角色或服务?

A)Zookeeper

B)HDFS

OHMaster

D)RegionServer

217.[单选题]以下属于FROM子查询的是()。一

A)标量子查询

B)列子查询

C)行子查询

D)表子查询

218.[单选题]下列选项中,哪一项是研究大数据最重要的意义()

A)分析

B)统计

C)测试

D)预测

219.[单选题]把基于使用DMSquid作为模型的Predict输出进行反向转换得到原始的标签值,会采用

哪个数值转换器?

A)JobId

B)InverseQuantify

C)DMSquid

D)InverseNormalizer

220.[单选题]数据可视化的本质是()o

A)将数据转换为知识

B)将知识转换为数据

C)将数据转换为信息

D)将信息转换为智慧

221.[单选题]在一个线性回归问题中,我们使用R平方(R-Squared)来判断拟合度。此时、如果增加一

个特征,模型不变,则下面说法正确的是()。

A)如果R-Squared增加,则这个特征有意义

B)如果R-Squared减小,则这个特征没有意义

C)仅看R-Squared单一变量,无法确定这个特征是否有意义

D)以上说法都不对

222.[单选题]建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘

的哪一类任务?

A)根据内容检索

B)建模描述

C)预测建模

D)寻找模式和规则

223.[单选题]pipshowSomePackage指令的意义是(__)0

A)卸载指定包

B)安装指定包

C)搜索指定包

D)查看指定包的详细信息

224.[单选题]以()为指导,结合业务数据资产需求和数据资产管理现状,编制专业数据资产发展

规划,统筹编制公司数据资产发展规划。

A)公司战略

B)公司数据安全战略

C)公司管理制度

D)公司数据资产发展战略

225.[单选题]MaxCompute提供了多种针对日期的计算函数,以下函数中,能实现计算两个时间的差

的是:()。

A)datediff

B)timestampdiff

C)interval

D)直接相减

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论