大数据开发基础练习题及答案2-2023练习版_第1页
大数据开发基础练习题及答案2-2023练习版_第2页
大数据开发基础练习题及答案2-2023练习版_第3页
大数据开发基础练习题及答案2-2023练习版_第4页
大数据开发基础练习题及答案2-2023练习版_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试题说明

本套试题共包括1套试卷

答案和解析在每套试卷后

大数据开发基础练习题及答案2(500题)

大数据开发基础练习题及答案2

L[单选题]SVM在()情况下表现糟糕。

A)线性可分数据

B)清洗过的数据

C)含噪声数据与重叠数据点

2.[单选题]HDFS默认BlockSize

A)32MB

B)64MB

C)128MB

3.[单选题]Python代码中mpl.reParams['font,sans-serif']=['SimHei']的作用是()o

A)设置图表中文显示的字体

B)设置图表图例的位置

C)设置图表标题的颜色

D)设置图表标题的位置

4.[单选题](一)是一个编写基于大数据的机器学习软件,人工智能程序的协助工具。

A)Avro

B)HttPFSB

C)Mahout

D)Snappy

5.[单选题]下列数据中,不属于字符串的是()。

A)'ab"

B)"perfect"'

C)"52wo"

D)abc

6.[单选题]修改数据库表结构用以下哪一项()

A)UPDATE

B)CREATE

C)UPDATED

D)ALTER

7.[单选题]从PythOn库中输入函数,要有如下格式,那个是错误的

A)frommathimportsqtr

B)importmath

C)importmathasX

D)importmathfromsqrt

8.[单选题]在回归模型中,()在权衡欠拟合和过拟合中影响最大。

A)多项式阶数

B)更新权重W时,使用的是矩阵求逆还是梯度下降

C)使用常数项

D)训练样本数量

9.[单选题[StructuredStreaming中持续地查询最新计算结果至写出。这个过程叫做什么?

A)matchquery

B)querystring

C)Continousquery

D)matchphrase

10.[单选题]下列企业中,最有可能成为典型的数据资产运营商的是()

A)物联网企业

B)互联网企业

C)云计算企业

D)电信运营商

11.[单选题]关于数据创新,下列说法正确的是()。

A)个数据集的总和价值等于单个数据集价值相加

B)于数据的再利用,数据应该永久保存下去

C)同数据多次用于相同或类似用途,其有效性会降低

D)数据开放价值可以得到真正释放

12.[单选题]np.SWaPaXeS()函数的作用是(_)o

A)数组转置

B)删除数组

C)修改数组存储位置

D)对轴进行调整

13.[单选题]一幅灰度均匀分布的图像,其灰度范围在[0,255],则该图像的信息量为OO

A)0

B)6

08

D)255

14.[单选题]以下对非结构化数据描述不正确的是(一)o

A)不能用关系数据库存储和管理的数据

B)没有统一的结构

C)图像是非结构化数据

D)HTML是非结构化数据

15.[单选题]random库的seed(a)函数的作用是()。

A)生成一个[0.0,1.0)之间的随机小数

B)生成一个k比特长度的随机整数

C)设置初始化随机数种子a

D)生成一个随机整数

16.[单选题]Hive适合()环境

A)Hive

B)提供实时查询功能

C)适合应用在大量不可变数据的批处理作业

D)Hive

17.[单选题]输入图像为32X32,经过步长为1、不进行padding,卷积核为5×5的卷积层后,

得到的特征图尺寸是()。

A)28X28

B)27X27

C)29×29

D)32X32

18.[单选题]以下关于ZOokeePer的Leader节点在接收到数据变更请求后的读写流程说法正确的是:(

)O

A)仅写入内存

B)同时写入硬盘和内存

C)先写入内存再写入硬盘

D)先写入硬盘再写入内存

19.[单选题]关于缺失值填补,不正确的说法是0。

A)填补数据可以用中位数或者众数等

B)Pandas,dropna可以用来填补缺失值

C)用平均值填补会引入相关性

D)哑变量填补是将缺失值当做一类新特征处理

20.[单选题]下面关于NeWSQL数据库的描述,错误的是:()

A)NeWSQL数据库保持了传统数据库支持ACID和SQL等特性

B)不同的NeWSQL数据库的内部结构基本相同

C)都支持关系数据模型

D)都使用SQL作为其主要的接口

21.[单选题]np.exp(l)的结果是多少?

A)l

B)2

Oo

D)2.718281828459

22.[单选题]下列关于PythOn的说法中,错误的是()

A)Python是从ABC发展起来的

B)Python是一门高级的计算机语言

C)PythOn是一门只面向对象的语言

D)Python是一种代表简单主义思想的语言

23.[单选题]以下哪种操作能够实现实体完整性()

A)设置唯一键

B)设置外键

C)减少数据冗余

D)设置主键

24.[单选题]MapReducel.0的体系结构中,JobTraCker是主要任务是什么?

A)负责资源监控和作业调度,监控所有TaSkTraCker与JOb的健康状况

B)使用“slot”等量划分本节点上的资源量(CPU、内存等)

C)会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给TaSkTraCker

D)会跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务(Task)

25.[单选题]ADS中两个普通表关联,对于joinkey,()说法是不正确的。

A)如果两张表的joinkey都没有hashmap索引,则会报错,修正方法为:至少一个joinkey上手工添

加hashmap索引,且修改过的表需要重新加载数据,重新进行关联

B)两张表的HaSh分区数必须一致,且分区列一致

C)两张表的JoinKey至少有一列建立了HaShMaP索引

D)如果选择只在一张表上建HaShMaP索引的话,推荐建立在数据量较大表的一侧

26.[单选题]当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数

据相分离?

A)分类

B)聚类

C)关联分析

D)隐马尔可夫链

27.[单选题]删除经销商Iol8的数据记录的代码为()fromdistributorswheredistrinum=1018

A)droptable

B)delete*

C)dropcolumn

D)delete

28.[单选题]当Mapper输出的相同partition的kv数据到达一个Reducer后,会有一个聚合的

过程,即将“相同”key的kv聚合到一起,其实质是利用来对key进行比较。

A)GroupingComparator

B)Comparator

C)Partitioner

D)GroupingPartitioner

29.[单选题]np.SWaPaXeS()函数返回的是数组的(—)。

A)副本

B)视图

C)子集

D)切片

30.[单选题]下面组件哪个是负责在HadOoP和关系数据库之间实现数据导入导出的:()

A)MySQL

B)HDFS

C)Sqoop

D)FIume

31.[单选题]用来插入数据的命令是(),用于更新的命令是()

A)INSERT,UPDATE

B)CREATE,INSERTINTO

C)DELETE,UPDATE

D)UPDATE,INSERT

32.[单选题]下列有关HiVe查询语句的写法正确的是(—)。

A)SELECTname,addressFROMemployees;

B)FROMemployees,SELECTname,address;

C)FINDname,addressFROMemployees;

D)FROMemployees,FINDname,address;

33.[单选题]坚持“业务驱动、迭代完善、问题导向、急用先行”的原则,以企业级共享服务为核心

,逐步沉淀共性业务和O能力,打造企业中台

A)数据服务

B)信息服务

C)业务服务

D)营销服务

34.[单选题]以下()不是由MaXCOmPUte接入层提供的服务。

A)用户空间管理操作

B)HTTP服务

C)LoadBalance

D)用户认证

35.[单选题]相比依赖于小数据和精确性的时代,大数据更强调数据的

A)安全性

B)完整性

C)混杂性

D)完整性和混杂性

36.[单选题]对于线性回归模型,包括附加变量在内,以下可能正确的是0。

1)R-Squared和AdjustedR-SqUared都是递增的

2)R-Squared是常量的,AdjustedR-SqUared是递增的

3)R-Squared是递减的,AdjustedR-SqUared也是递减的

4)R-SqUared是递减的,AdjustedR-squared是递增的

A)I和2

B)I和3

C)2和4

D)以上都不是

37.[单选题]下列哪个方法会把读取到的数据返回的是一个列表Oo

A)read(12)

B)read()

C)readlines()

D)readline()

38.[单选题]下面关于贝叶斯学习相关描述正确的有(_)。

A)贝叶斯学习等价于频数概率

B)频数概率引入先验知识和逻辑推理来处理不确定问题

C)贝叶斯学习只从数据本身获得结论

D)贝叶斯学习是一种以贝叶斯法则为基础的,并通过概率手段进行学习的方法

39.[单选题]核主成分分析是一种(_)方法。

A)非线性降维

B)线性降维

C)分类

D)回归

40.[单选题]下列不属于常用的聚合方式的是()

A)AVG

B)MIN

OMAX

D)AND

41.[单选题]在SParkSQL中,()使用了新的编码器,其编码器的作用是将VM的对象与表结构进行转

换,允许操作序列化数据,可以提高内存利用率。

A)DataFrame

B)Table

ODataSet

D)RDD

42.[单选题]arr=np.arange(9).reshape(3,3),使数组arr交换列1和列2的操作是(

)0

A)arrL:,[1,0,2]]

B)arr[:,[1,0,3]]

C)arrL:,[1,0,1]]

D)arr[:,[1,0]]

43.[单选题]以下滤波器对图像中的椒盐噪声滤波效果最好的是(_)。

A)中值滤波

B)均值滤波

C)最大值滤波

D)最小值滤波

44.[单选题]Python代码中mpl.reParams['font,sans-serif']=['SimHei']的作用是()o

A)设置图表中文显示的字体

B)设置图表图例的位置

C)设置图表标题的颜色

D)设置图表标题的位置

45.[单选题]MapReduce中哪一种文件输入格式可以自动切割并合并小文件?()

A)NLinelmputFormat

B)TextInputFormat

C)CombineFileInputFormat

D)KeyvalueTextInputFormat

46.[单选题]下列关于Sigmoid函数的说法错误的是()。

A)存在梯度爆炸的问题

B)不是关于原点对称

C)计算exp比较耗时

D)存在梯度消失的问题

47.[单选题]下列哪项具体任务不属于情感分析?()

A)、情感分类

B)、观点抽取

C)、观点问答

D)、段落匹配

48.[单选题]python中while的中止的关键字是()。

A)continue

B)broken

C)break

D)plug

49.[单选题]MapReduce框架分为MaP和RedUCe,下列对RedUCe阶段叙述正确的是()

A)主要分为ShUffIe和SOrt这2个阶段

B)这个阶段过程中,key的分组规则是不可更改的

C)其中的ShUffIe和Sort是同时进行的

D)Reduce数目的增加不会增加系统的开销

50.[单选题IMaxCompute通过云账号服务器,()对请求中的签名信息进行验证,返回给HTTP

Server0

A)AccessID

B)AccountID

C)MD5码

D)正确标识

5L[单选题]()是HadooP系统核心组件之一,主要解决海量数据的计算。

A)HDFS

B)MapReduce

C)Spark

D)HBase

52.[单选题]掌握智慧物联的发展重点,应用人工智能和()等新技术,实现区域自治、云边协同和

能力开放。

A)云计算

B)能源生态

C)边缘计算

D)数据共享

53.[单选题]有下面的程序段ifkO:ifk>5:ifk>8:x=0else:x=lelse:ifk>2:x=3else:

x=4其中k取那组值时x=3()

A)3,4,5

B)3,4

C)5,6,7

D)4,5

54.[单选题]有一张表name,其中一个字段名为ChineSe_name,类型为Char(4),另一个字段名为

u

english_name,类型为VarChar(5)o那么执行如下语句insertintoname

values(gaosi,,,GaussDB,)”会发生什么?()

A)存在记录(gaos,GaussDB)。

B)存在记录gaos,Gauss)

C)数据无法插入。

D)存在记录(gaosi,GaussDB)

55.[单选题]一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务、配置维护和

命名服务等的工具是()。

A)Flume

B)Zookeeper

C)Storm

D)SparkStreaming

56.[单选题]Hadoop的两大核心技术是()。

A)MaPRedUCe和HBaSe

B)HDFS和HBaSe

C)HDFS和MaPRedUCe

D)GFS和MaPRedUCe

57.[单选题](一)对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的

子集,然后再从这个子集中选择一个最优属性进行划分。

A)AdaBoost

B)RF

C)Bagging

D)传统决策树

58.[单选题]下面代码运行后,a、b、c、d四个变量的值,描述错误的是()。importcopya=

[1,2,3,4,[,a,,'b']]b=ac=copy,copy(a)d=

copy,deepcopy(a)a.append(5)a[4].append(,c,)

A)a==[1,2,3,4,['a','b','c'],5]

B)b==[1,2,3,4,['a','b','c'L5]

C)c==[1,2,3,4,['a','b','c']]

D)d==[1,2,3,4,['a','b',,c']]

59.[单选题]()网络是一种竞争学习型的无监督神经网络,它能将高维输入数据映射到低维空间

,同时保持输入数据在高维空间的拓扑结构,即将高维空间中相似的样本点映射到网络输出层中的

邻近神经元

A)SOM

B)RBF

OART

D)ELman

60.[单选题]有关HiVe支持的基本数据类型,以下那个是8byte有符合整数()

A)Tinyint

B)Smalint

OInt

D)Bigint

61.[单选题]大数据应用需要依托的新技术有。

A)大规模存储与计算

B)数据分析处理

C)智能化

D)以上都是

62.[单选题]若视图是由调用视图的用户执行时,SQLSEeURlTY的值为()。一

A)DEFINER

B)INVOKER

C)root

D)以上答案都不正确

63.[单选题]我们想要减少数据集中的特征数,即降维.选择以下适合的方案:1.使用前向特征选

择方法2.使用后向特征排除方法3.我们先把所有特征都使用,去训练一个模型,得到测试集上的

表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要

好,我们可以去除这个特征.4.查看相关性表,去除相关性最高的一些特征

A)I和2

B)2,3和4

01,2和4

D)l,2,3和4

64.[单选题]以下关于随机运算函数库的描述,错误的是:

A)random库里提供的不同类型的随机数函数是基于random.random()函数扩展的

B)伪随机数是计算机按一定算法产生的,可预见的数,所以是“伪”随机数

OPython内置的random库主要用于产生各种伪随机数序列

D)uniform(a,b)产生一个a到b之间的随机整数

65.[单选题]通过聚集多个分类器的预测来提高分类准确率的技术称为()。

A)组合

B)聚集

C)合并

D)投票

66.[单选题]()主要提供内存计算框架。

A)Spark核心层

B)资源管理层

C)服务层

D)Spark层

67.[单选题]在机器学习算法中,选择具有最大间隔的分割线进行预测的算法是哪一个()

A)线性回归

B)支持向量机

C)决策树

D)K-Means

68.[单选题]聚类是一类重要的机器学习算法,以下哪些场景属于聚类问题?

A)判断一个网络访问是否为入侵访问。

B)某网商对客户的购物行为进行分析,从而为不同组用户推荐商品

C)根据学生的成绩,给出学生的名次。

D)对数据库的论文根据内容主题的不同做划分

69.[单选题]Flume中的JDBCChanneI内置数据库是哪个?

A)Oracle

B)MySql

C)Derby

D)SqlServer

70.[单选题]运行下面代码的输出结果是()。importnumpyasnp

nm=(raju,anil,ravι,amar)dv=(f.y.,s.y.,s.y.,f.y.)

Ind=np.Iexsort(nm,dv)print(ind)

A)[3012]

B)[1359]

C)[3198]

D)[1amar,f.y.'anil,s.y.'raju,f.y.'ravi,s.y,']

71.[单选题]HDFS基本系统架构中,副本配置通常存储。份?

Λ)3

B)4

Ol

D)2

72.[单选题]在空间维度上刻画数据连续性是数据的()。

A)可关联性

B)可溯源性

C)可理解性

D)可复制性

73.[单选题]以下表述正确的是?

A)if语句总是与else成对出现;

B)if语句总是与elif成对出现;

C)if语句分支嵌套实现多分支;

D)if语句只能实现二分支。

74.[单选题]下列参数中调整后显示中文的是Oo

A)lines,linestyle

B)lines,linewidth

C)font,sans-serif

D)axes,unicodeminus

75.[单选题]下列哪一个选项不是StrUCtUredStreanIing支持的SoUrCe数据源?

A)Socket

B)Kafka

C)HDFS

D)Hive

76.[单选题]下列有关数据基本单位换算错误的是()

A)1Byte=8bit

B)lKB=1024Bytes

C)1MB=1024GB

D)lGB=1024MB

77.[单选题]下列选项中,属于数值类型的是()。

A)0

B)l

C)2+3j

D)以上都是

78.[单选题]执行以下代码段ClaSSA:deftest(self):print("testofAcalled")classB(A):

deftest(self):print("testofBcalled")super().test()classC(A):deftest(self):

print("testofCcalled")super().test()classD(B,C):deftest2(self):print("testofD

called")Obj=D()obj.test()时,输出为()。

A)testofDcalledtestofBCalledtestofCCalledtestofAcalled

B)testofBcalledtestofCcalledtestofAcalled

C)testofCcalledtestofBcalled

D)testofBcalledtestofCcalled

79.[单选题]贝叶斯决策论是在(_)框架下实施决策的基本方法。

A)模型

B)条件

C)概率

D)分类器

80.[单选题]下列代码运行结果是Ooa='a'print(a>'b'or,c')

A)a

B)b

Oc

D)l

81.[单选题]数据库管理系统是()

A)操作系统的一部分

B)在操作系统支持下的系统软件

C)一种编译程序

D)一种操作系统

82.[单选题]下列算法中,()更适合做时间序列建模

A)CNN

B)决策树

OLSTM

D)贝叶斯算法

83.[单选题]以下属于Python脚本程序转变为可执行程序的第三方库的是:

A)requests

B)Pyinstaller

C)numpy

D)scrapy

84.[单选题]执行以下代码段a=set('apple')b=set('orange')print(a+b)时,输出为()。

A){'Γ,'e','a','p')

∖fIIffI»IIIIIfʌ

Bn){r,a,g,e,n,o)

rC›∖)ʃt»11∙,tP,g»,tOt,»e»,fnt,»a»,trt)1

D)Error

85.[单选题]O存储HadOOP集群中所有存储节点上的文件,为海量提供存储。

A)JobTracker

B)TaskTracker

OHDFS

D)HBase

86.[单选题]下列选项中不是hadoop特点的是()»

A)可靠性

B)扩容能力

C)高效率

D)成本高

87.[单选题]以下哪个不是离线批处理的核心诉求?

A)处理数据格式多样

B)处理教据量巨大

C)支持SQL美作业和自走义作业

D)处理时间要求高

88.[单选题]根据《促进大数据发展行动纲要》(国发(2015)50号),大数据对推动经济的重要

意义不包括OO

A)大数据成为推动经济转型发展的新动力

B)大数据成为重塑国家竞争优势的新机遇

C)大数据成为企业转型升级的新常态

D)大数据成为提升政府治理能力的新途径

89.[单选题]下面关于HadOoP的描述错误的是:O

A)HadOoP是一个能够对大量数据进布式处理的软件框架

B)作为并布式计算平台,HadoOP采布式存储布式处理两大核心技术,能够高效地处理PB级数据

C)HadOoP只支持JaVa编程语言

D)HadOoP可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上

90.[单选题]计算之树中,网络化思维是怎么概括的()

A)机器网络、信息网络和人-机-物互联的网络化社会

B)机器网络、信息网络和物联网

C)局域网、广域网和互联网

D)局域网、互联网和数据网络

91.[单选题]()不仅可用于多层前馈神经网络,还可用于其他类型的神经网络。

A)感知机

B)神经元

C)神经系统

D)误差逆传播

92.[单选题]为了提高系统性能,SPark采取"惰性计算模式",具体为()。

A)执行TranSformation操作时不会提交,只有执行Action操作时才会被提交到集群中开始被执

B)执行Action操作时不会提交,只有执行TranSformation操作时才会被提交到集群中开始被执

C)只有执行完Action操作和TranSfOrmatiOn操作时,所有操作才会被提交到集群中开始被执行

D)执行完Action操作或TranSformatiOn操作时都不会提交到集

93.[单选题]下列关于PythOn字典的说法,不正确的是()

A)字典的创建用大括号包含键值对

B)键值对用:分隔,键在前,值在后

C)用in可以检查某个值是否在字典内

D)用get()方法可以找到某个键对应的值

94.[单选题]安装第三方模块使用的指令是(一)。

Λ)pipinstallSomePackage

B)pipuninstallSomePackage

OpipsearchSomePackage

D)pipshowSomePackage

95.[单选题]大数据平台核心分布式存储与计算组件采用Hadoop技术体系中的分布式存储、分布式

计算框架及Spark等开源产品和技术,实现对数据的安全控制和管理功能,其中分布式存储不包括

()O

A)HDFS

B)Postgresql

OHive

D)HBase

96.[单选题]对于随机森林和GradientBOoStingTrees,下面说法正确的是:

A)在随机森林的单个树中,树和树之间是有依赖的,而GradientBOoStingTreeS中的单个树之间是

没有依赖的

B)这两个模型都使用随机特征子集,来生成许多单个的树

C)我们可以并行地生成GradientBooStingTreeS单个树,因为它们之间是没有依赖的

D)GradientBoostingTreeS训练模型的表现总是比随机森林好

97.[单选题]关于TFTDF模型,以下描述错误的是(一)。

A)TF意思是词频

B)IDF是逆文本频率

C)该模型是一种统计方法

D)该模型基于聚类方法

98.[单选题]下列关于模块的描述不正确的是()。

A)模块是包含函数和变量的Python文件

B)模块可以被导入

C)可以使用"操作符访问模块中的函数和变量

D)模块使得代码更复杂,可读性变差

99.[单选题]()模块中包含了插值运算的各种方法

A)scipy.cluster

B)scipy.fftpack

C)scipy.integrate

D)scipy.interpolate

100∙[单选题]多元线性回归的训练样本由(_)个属性描述。

A)-

B)二

OS

D)多

IOL[单选题]以下关于EaStiCSearCh缓存机制的理解不正确的是()。

A)QueryCaChe:Shard级别的缓存,是对一个查询中包含的过滤器执行结果进行缓存。

B)RequestCaChe:Shard级别的缓存,是为了缓存“分片级”的本地结果集。

C)FielddataCaChe专门针对分词的字段在查询期间的数据结构的缓存。

D)缓存主要分三种:QueryCache,FielddataCache,RequestCacheo

102.[单选题]根据DlKW信息、数据、知识、智慧模型,以下说法错误的是

A)数据是记录下来可以被鉴别的符号,它是最原始的素材,未被加工解释,没有回答特定的问题

,没有任何意义

B)信息是已经被处理、具有逻辑关系的数据,是对数据的解释,这种信息对其接收者具有意义

C)知识是从相关信息中过滤、提炼及加工而得到的有用资料,不能从知识中产生新的知识

D)智慧是人类所表现出来的一种独有的能力,主要表现为收集、加工、应用、传播知识的能力,以

及对事物发展的前瞻性看法

103.[单选题IMaxcompute的屏显行数可以通过管理控制台实现,最大的显示条数是:()。

A)Ioo条

B)IooOo条

C)IooO条

D)5000条

104.[单选题]a=l,b=2,c=3,则下列表达式结果为True的是()。

A)a>=bor(c+5)%3==1

B)notCa==Iandb!=c)

C)notaandb==c

D)aanda+b>=c

105.[单选题]以下对大数据''涌现”描述不正确的是(一)。

A)安全涌现是大数据涌现现象

B)小数据可能没价值,但是小数据组成的大数据却很有价值,这叫做价值涌现

C)小数据可能质量没问题,但是大数据质量会出现问题这叫质量涌现

D)小数据可能不涉及隐私,但是大数据可能严重威胁个人隐私,这叫隐私涌现

106.[单选题]某银行规划的FUSiOnInSightHD集群有90个节点,如果控制节点规划了3个,那集群中

数据节点推荐规划多少最为合理

A)87

B)85

090

D)86

107.[单选题]若arr=np.array([l,2,3]),JJll]arr*arr的输出为(一)o

A)([1,4,9])

B)([1,2,3])

C)([2,4,6])

D)([3,6,9])

108.[单选题]下述说法错误的是()

A)、关联规则属于半监督学习

B)、有监督学习使用已知模式预测数据,其使用前提是训练集为带标签数据

C)、当训练集中是不带标签的信息时,通常采用无监督学习算法

D)、半监督学习算法有半监督分类方法(如生成式方法、判别式方法等)

109.[单选题]若arr=np.array([l,2,3,4,5,6,7,8]),则arr[5:8]=12的意义为(_)o

A)将第5个和第8个元素改成12

B)将第6、7、8个元素修改成12

C)将第8个元素赋值给第5个元素

D)创建一个全为12的数组

110.[单选题](一)数据库主要用来应对分布式存储的海量数据,一个键指向了多个列。

A)列存储

B)文档型

C)图形

D)key-value

IlL[单选题]Spark中引入RDD概念的目的是()。

A)数据存储

B)数据查重

C)提升容错能力

D)增强数据一致性

112.[单选题]大数据计算服务(MaxCompute,原ODPS)提供了客户端OdPSCmd,支持WindoWs、

LinUX或者OSX等操作系统。在执行前需要对OdPSCmd的配置文件OdPS_config.ini中的某些参数进行

设定,包括用于鉴权的access_id/access_key,指定服务地址的end_point,以及tunnel的服务地址

tunneLendPoint等。其中有一项参数为:PrOjeCt_name,关于这个参数的说法,正确的是:(

)O

A)指定的项目必须存在,否则连接过程中会报错

B)如果给该值指定了恰当的PrOjeCt名字,连接成功后,会自动进入该PrOjeCt

C)如果不指定该值,连接成功后会自动进入上次退出时所在的PrOjeCt

D)如果不指定该值,且帐户下就一个PrOjeCt的话,连接成功后会自动进入该ProjeCt

113.[单选题]考虑以下场景,HBaSe有列簇CFL歹IJCLC2.当读取HBaSe表时。只要求近回Cl的列值

,使用下列哪个选项可以实现该功能?

A)ColumFiIter

B)ValueFiIte

C)QualifierFilte

D)RowFilter

114.[单选题]大数据的简单算法比小数据的复杂算法更有效,体现了哪种大数据思维方式:()

A)以数据为中心

B)全样而非抽样

C)效率而非精确

D)相关而非因果

115.[单选题]执行以下代码段a=3b=4print(a%b)时,输出为()。

A)0

B)0.75

Ol

D)3

116.[单选题]在关系数据库中,用来表示实体之间联系的是。

A)网结构

B)二维表

C)线性表

D)树结构

117.[单选题]线性判别分析在二分类问题上,也称为(_)。

A)线性回归

B)对数几率回归

C)FiSher判别分析

D)主成分分析

118.[单选题]在HadOOP2.X版本下,HDFS中的文件总是按照默认大小()被切分成不同的块,且备份

3份。

A)256M

B)128M

C)512M

D)1024M

119.[单选题]假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分

()。

A)设C=I

B)设C=O

C)设C为无穷大

D)以上答案都不正确

120.[单选题]数据可视化的方法论基础是()。

A)统计图表

B)视觉编码

C)图论

D)围形符号学

121.[单选题]线性判别分析(LDA)从贝叶斯决策理论阐释,当两类数据同先验且满足()时

,LDA达到最优分类。

A)高斯分布

B)协方差相等

C)高斯分布且协方差相等

D)协方差不等

122.[单选题]在hadoop配置中yarn-site,xml作用是()

A)用于定义系统级别的参数

B)用于名称节点和数据节点的存放位置

C)用于配置

D)配置

123.[单选题]吸烟有害身体健康的法律诉讼的案例体现的大数据思维方式是()

A)全样而非抽样

B)效率而非精确

C)相关而非因果

D)以数据为中心

124.[单选题]有如下程序:defpower(x,y=2):r=1foriinrange(y):r=r*xreturn

rprint(power(3))print(power(3,3))程序的输出结果是()。

A)21232

B)927

C)56798

D)以上都不对

125.[单选题]以下关于计算机视觉,描述错误的是:O

A)计算机视觉是一门研究如何使机器“看”的科学

B)是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量的机器视觉

C)计算机视觉是一门综合性的学科

D)语音识别属于计算机视觉的典型应用

126.[单选题]多用于结构分析场景,以树枝状形式展示数据构成或内在逻辑关系的图表是?()

A)雷达图

B)漏斗图

C)瀑布图

D)树图

127.[单选题]以下代码的输出是()importnumpyasnpx=[1,2,3]y=[4,5,

6]print(np.cross(x,y))

A)[3,6,-3]

B)[-3,6,-3]

C)[3,6,3]

D)[3,-6,-3]

128.[单选题]安全设备中的安全日志必须存放()个月以上,以备审计时使用。

A)l

B)2

03

D)6

129.[单选题]以下有关特征数据归一化的说法错误的是()

A)特征数据归一化加速梯度下降优化的速度

B)特征数据归一化有可能提高模型的精度

C)线性归一化适用于特征数值分化比较大的情况

D)概率模型不需要做归一化处理

130.[单选题]下列哪个程序是带参数的函数程序一defCard():name="张三"address="环市路1号

"print("姓名:",name)print("地址:",address)card()程序二def

card(name,address):print("姓名:",name)print("⅛⅛t:",address)card("张三","环市路1号

")程序三defcard():Print("张三")print("环市路1号")card()

A)程序一

B)程序二

C)程序三

D)以上都不对

13L[单选题]关于FUSiOnlnSightManbager中的COntrOIIer和NOdeAgent,说法正确的是?

A)ControIler每隔3秒向NOdeAgent发送心跳

B)NodeAgent接受COStroller下发的命令,执行具体的动作

C)每个节点都必须部署COntrOIler

D)NOdeAgent是开源增强

132.[单选题IFusionInsightHD的HBaSe中保存了一张用户信息表msg_table,RowKey为用户id,

其中一类为用户昵称,现在按先后顺序往这列写keyValue:001:Li,OOl:Mary,OOl:Lily,请问

scan'ɪnsgJabIe',答案:VERSlONS=>2会返回哪几条数据?

A)l:Li

B)hLily

C)OOl=Li,001:Mary,OOl:LiIy

D)OOl:Mary,OOhLily

133.[单选题]为了检验连续变量X,y之间的线性关系,下列哪种图最合适?

A)条形图

B)散点图

C)直方图

D)都不对

134.[单选题]关于大数据与区块链的联系,下面描述错误的是:O

A)区块链使大数据极大降低信用成本

B)区块链是构建大数据时代的信任基石

C)区块链是促进大数据价值流通的管道

D)区块链会提升大数据的信用成本

135.[单选题]数据资产维护是指为保证数据质量,对数据进行()等处理的过程。

A)更正

B)删除

C)补充录入

D)以上答案都正确

136.[单选题]读代码,请写出程序正确的答案()W!∕usr∕bin∕envpython3n=IOOsum=Ocounter

=Iwhilecounter

A)结果:1S∣J100之和为:5000

B)结果:1到Ioo之和为:0

C)结果:1J∣J1OO之和为:2050

D)结果:1至Uloo之和为:5020

137.[单选题]根据《大数据风控平台项目操作手册》,日常工作提示(预警)中,新增近30天存在

外部风险信息、贷后风险预警提示等O种预警提示。

A)l

B)B.3

C)C.5

D)D.10

138.[单选题]推动优势资源商业化运营,重点是发挥公司O企业优势,挖掘公司资产商业化潜力

A)共享型

B)经济型

C)计划性

D)多用型

139.[单选题]当图像通过信道传输时,噪声一般与O无关。

A)信道传输的质量

B)出现的图像信号

C)是否有中转信道的过程

D)图像在信道前后的处理

140.[单选题]MySQL是一种(—)数据库管理系统。

A)层次型

B)网络型

C)关系型

D)对象型

141.[单选题]下面代码的输出结果是a=1000000b="-

"print("{0:⑵Yl},}∖n{0:⑵>{l},}∖n{0:⑵

A)1,000,000----------------------------------------1,000,000---------1,000,000-

B)1,000,0001,000,000--------------------------------------------------1,000,000

C)1,000,000-----------------------------1,000,000-----------1,000,000----------

D)1,000,000----------------------------------------1,000,0001,000,000----------

142.[单选题]在HBaSe系统架构中,HBaSe存储的核心是()

A)Region

B)HRegionServer

OHStore

D)Client

143.[单选题]某企业的数据仓库运行在大数据计算服务上,开发人员在加工数据时发现用户表

USer中的用户标识字段USejid有部分脏数据,正确的格式应该是8位的字符串。可以使用SQL语句(

)将脏数据过滤出来。

A)select*fromuserwherelength(userid)08

B)select*fromuserwherelength(userid)>8

C)select*fromuserwherelength(userid)<8

D)select*fromuserwherelength(userid)08oruseridisnull

144.[单选题]王先生近期收到了一封电子邮件,发件人显示是某同事,但该邮件十分可疑,没有任

何与工作相关内容,邮件中带有一个陌生的网站链接,要求他访问并使用真实姓名注册,这可能属

于哪种攻击手段?()

A)DDOS攻击

B)钓鱼攻击

C)水坑攻击

D)缓冲区溢出攻击

145.[单选题]有如下类定义,下列描述正确的是()OclassA(object):passclassB():

passb=B()

A)isinstance(b,A)==False

B)isinstance(b,object)==True

C)issubclass(B,A)==False

D)issubclass(b,B)==True

146.[单选题]下面哪个选项不是神经网络训练过程中过拟合的防止方法?O

A)L2正则化

B)dropout

C)修改学习率的大小

D)提前终止

147.[单选题]一切可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维中的()

A)相关思维

B)因果思维

C)定量思维

D)实验思维

148.[单选题]请阅读下面一段程序:arr=np.arange(6).reshaped,2,

3)print(arr.transpose(2,O,1))执行上述程序后,最终输出的结果为()。

A)[[[25]][[O3]][[14]]]

B)[[[l4]][[O3]][[25]]]

C)[[[03]][[14]][[25]]]

D)[[[0][3]][[1]⑷][⑵⑸]]

149.[单选题]以下关于数据科学描述正确的是()

A)数据科学是统计学的一部分

B)数据科学就是机器学习

C)天文学与数据科学无关

D)数据科学家倾向于用探索数据的方式来看待周围的世界

150.[单选题]Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是

A)安全模式目的是在系统启动时检查各个DataNOde上数据块的有效性

B)根据策略对数据块进行必要的复制或删除

C)当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式

D)文件系统允许有修改

151.[单选题]用户可通过(___)提供的一些接口查看作业运行状态。

A)TaskTrack

B)Task

C)Client

D)JobTracker

152.[单选题]执行a=np.array([[1,1,3],[4,3,6]]);print(np.append(a,[[1,1,1]],axis

0))结果为?

A)[11343611U

B)[[141]L251][361]]

C)[[l13][436][111]]

D)[[l,1,3,4,3,6i,i,i,in

153.[单选题]以下关于SqOOP数据导入原理的描述中,错误的是哪一项?

A)rum-mappers越大效率越言。

B)Sqoopi在import时,需要指定SPliLby参数。

C)SqoOPi根据不同的SPIit-by参数值来进行切分,然后将切分出来的区域分配到不同map中。

D)Sqoop:会根据传入的num-mappersa来确定划分几个区域。

154.[单选题]中心极限定理是噪声抑制的中的统计原理,其内容是均值分布总会收敛于一个

()O

A)正态分布

B)泊松分布

C)多项式分布

D)均值分布

155.[单选题]Spark的特点不包括()。

A)速度快

B)通用性

C)易用性

D)单一操作性

156.[单选题]互联网接入服务包含()等接入方式的接入服务

A)固定速率独享端口

B)动态速率独享端口

C)共享端口

D)三个选项都是

157.[单选题]下面哪个变量命名是正确的

A)123a

B)abc

C)$y6

D)abc

158.[单选题]HDFS分布式文件系统的特点为Oc

A)半透明性

B)低可用性

C)可扩展性

D)支持一个应用程序并发访问

159.[单选题]以下属于PythonHTML和XML解析的第三方库的是:

A)Django

B)Networkx

C)Requests

D)BeautifulSoup

160.[单选题]考察一个由三个卷积层组成的CNN=kernel=3X3,StriD、e=2,pA、D、D、ing=SA、

MEo最

低层输出100个特征映射(feA、turemA、p),中间层200个特征映射,最高层400个特征映

射。输入是200X300的RGB、图片,总参数的数量是多少?()

A)、903400

B)、2800

C)、180200

D)、720400

161.[单选题]下列关于HBaSe数据模型叙述不正确的一项是()。

A)表有单元格组成

B)一个表可以包含若干个列族

C)一个列族内可用列限定符来标志不同的列

D)存于表中单元的数据尚需打上时间戳

162.[单选题]关于fusioninsightmanager界面hive日志收集的描述中,哪个不对?

A)可指定实例进行日志收集,比如指定收集metaStore的日志

B)可指定节点ip进行日志收集,例如仅下载某个ip的日志

C)可指定特定用户进行日志收集,例如仅下载user用户的日志

D)可指定时间端进行日志收集,不如只收集2016-1-1至1]2016TT0的日志

163.[单选题]泛在电力物联网系统建设必须严格遵循公司统一的(—)数据模型和数据、采集、定

义、编码、应用等标准,确保数据。

A)SG-PDM模型、优化

B)SG-CIM模型、共享

C)CG-SlM模型、集成

D)SG-CDM模型、集约

164.[单选题]图像分割是(_)的过程。

A)改变图像大小

B)将图像分成多个小区域

C)去除干扰信号

D)使图像变得更加丰富

165.[单选题]向量空间模型的缺陷不包括()

A)、维度灾难

B)、模型稀疏性

0、语义信息缺失

D)、无法计算文本相似度

166.[单选题]下列关于MPl叙述不正确的一项是Oo

A)MPl是一个信息传递应用程序的接口

B)MPl程序经常在共享内存的机器上使用

C)MPl并行计算增加高层并行编程模型

D)MPl缺少统一的计算框架支持

167.[单选题]K-means++算法选择初始seeds的基本思想就是初始的聚类中心之间的相互距离要尽

可能的远。对以下步骤:①从输入的数据点集合中随机选择一个点作为第一个聚类中心;②对于数

据集中的每一个点X,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x);③选择一个

新的数据点作为新的聚类中心,选择的原则是D

(x)较大的点,被选取作为聚类中心的概率较大;④重复②和③直到k个聚类中心被选出来

;⑤利用这k个初始的聚类中心来运行标准的K-means算法。K-means++算法的正确流程为(

)O

A)②⑤④③①

B)①⑤④②③

C)①②③④⑤

D)④③②①⑤

168.[单选题]()情况下,LDA会失败。

A)如果有辨识性的信息不是平均值,而是数据的方差

B)如果有辨识性的信息是平均值,而不是数据方差

C)如果有辨识性的信息是数据的均值和方差

D)以上答案都不正确

169.[单选题]()试图学得一个属性的线性组合来进行预测的函数。

A)决策树

B)贝叶斯分类器

C)神经网络

D)线性模型

170.[单选题]最简单的SerieS是由O的数据构成

A)一个数组

B)两个数组

C)三个数组

D)以上都不是

171.[单选题]下列哪个程序通常与NameNode在同一个节点启动(),

A)TaskTracker

B)DataNode

C)SecondaryNameNode

D)Jobtracker

172.[单选题]AGNES是一种采用(_)策略的层次聚类算法。

A)自顶向下

B)自底向上

0自左至右

D)自右至左

173.[单选题]执行以下代码段Print(3==3andnot("test"=="testing"or"Python"==

"Fun"))时,输出为(—)o

A)True

B)False

C)None

D)Error

174.[单选题]目前大数据交易市场上存在很多种定价机制,但是不包括以下哪项:O

A)平台预定价

B)自动计价

C)拍卖式定价

D)随机性定价

175.[单选题]执行以下代码段Print("D",end=')print("C",end=')print("B",end=

')print("A",end=,')时,输出为()。

A)D,C,B,A

B)DCBA

C)DCBA

D)DCBA

176.[单选题]下列选项中,不属于大数据技术平台安全体系内容的是O0

A)数据安全保护

B)认证授权

C)基础设施安全

D)业务数据通信

177.[单选题]根据《大数据风控平台项目操作手册》,客户基本信息引入页面,分左右两栏展示系

统现有的客户基本信息和外部引入的OO

A)舆情风险信息

B)B.工商查询结果

C)C.股权冻结信息

D)D.司法风险信息

178.[单选题]以下哪项不属于数据挖掘的内容?()

A)建立道路拥堵概率与拥堵趋势变化模型

B)多维分析统计用户出行规律

C)高德地图导航有躲避拥堵功能

D)补充与完善路网属性

179.[单选题]在Hadoop生态系统中,()主要解决的是日志类数据的收集和处理问题。

A)Mahout

B)Flume

C)Sqoop

D)HBase

180.[单选题]下列对于精度的描述,解释正确的是(_)。

A)统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。

B)先统计分类正确的样本数,然后除以总的样例集D的个数。

C)预测为正的样例中有多少是真正的正样例

D)样本中的正例有多少被预测正确

181.[单选题]()表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻圃了学习

问题本身的难度

A)偏差

B)方差

C)噪声

D)泛化误差

182.[单选题]下图为Flume数据传输架构,图中“?”号处的组件是?

style="width:auto;"class="fr-ficfr-filfr^dibcursor-hover">

A)Interceptor

B)ChannelProcessor

C)ChannelSelector

D)以上全不正确

183.[单选题]假设属性income的最大最小值分别是98000元和12000元。利用最大最小规范化的方法

将属性的值映射到0至1的范围内。对属性income的73600元将被转化为(—)。

A)0.821

B)1.224

01.45

D)0.716

184.[单选题]以下关于数据产品特征的描述不正确的是

A)数据产品往往能达到极高的准确度,并且保持稳定

B)数据产品所使用的数据包含很多差数据

C)数据产品会随着环境的改变发生变化

D)数据产品的决策会直接影响业务的表现

185.[单选题]将数据更新写入O,只有其写入完成后,commit。才返回给客户端。

A)Zookeeper

B)HMaster

C)RegionServer

D)HLog

186.[单选题]OGG是一种基于日志的结构化数据(一)软件。

A)存储

B)查询

C)复制

D)更新

187.[单选题]下列关于多层前馈神经网络的描述错误的是()。

A)输出层与输入层之间包含隐含层,且隐含层和输出层都拥有激活函数的神经元

B)神经元之间存在同层连接以及跨层连接

C)输入层仅仅是接收输入,不进行函数处理

D)每层神经元上一层与下一层全互连

188.[单选题IMapReduce是一种()。

A)编程语言

B)数据库

C)编程模型

D)存储单元

189.[单选题]下列选项中,关于drop_duplicates()方法描述错误的是()。

A)仅支持单一特征数据的去重

B)仅对SerieS和DataFrame对象有效

C)数据去重时默认保留第一个数据

D)该方法不会改变原始数据排列

190.[单选题]下列描述中,哪项不属于Sqoop的缺点()

A)无法控制任务的并发度

B)格式紧耦合

C)安全机制不够完善

D)connector必须符合JDBC模型

191.[单选题]下面组件哪个是负贲日志收集的:()

A)Ambari

B)Zookeeper

OHDFS

D)FIume

192.[单选题]数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果

集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是

A)单个模型之间有高相关性

B)单个模型之间有低相关性

C)在集成学习中使用“平均权重”而不是“投票”会比较好

D)单个模型都是用的一个算法

193.[单选题]python语句Print(type((l,2,3,4)))的输出结果是。()

A)class'tuple'

B)class'diet'

Oclass'set'

D)class'list'

194.[单选题]JuPyternotebook的记事本文件扩展名为:

A)m

B)py

C)pyc

D)ipynb

195.[单选题]下列说法正确的是O0

A)散点图不能在子图中绘制

B)散点图的X轴刻度必须为数值

C)折线图可以用作查看特征间的趋势关系

D)箱线图可以用来查看特征间的相关关系

196.[单选题]以下哪种机制使FIink能够实现窗口中无序数据的有序处理?

A)窗口

B)有状态处

C)检查点

D)事件时间

197.[单选题]()的系数没有封闭形式(closed-form)的解

A)Ridge回归

B)Lasso

C)Ridge回归和LaSSo

D)以上答案都不丘确

198.[单选题]下列关于气泡图的说法中,错误的是0

A)气泡图中气泡的颜色是可以调整的

B)气泡大小的不同意味着所代表的的数值的不同

C)气泡图中的图形形状一定是圆形

D)可以为每个气泡打上标签使其展示的数值更加直观化

199.[单选题]()不是长短时记忆神经网络三个门中的一个门。

A)输入门

B)输出门

C)遗忘门

D)进化门

200.[单选题]以下关于HDFS的特点描述不正确的是()。

A)大数据量吞吐

B)低延迟读取

C)流式数据读取

D)大文件存储与访问

201.[单选题]阅读下面P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论