大数据开发基础练习题及答案15-2023-练习版_第1页
大数据开发基础练习题及答案15-2023-练习版_第2页
大数据开发基础练习题及答案15-2023-练习版_第3页
大数据开发基础练习题及答案15-2023-练习版_第4页
大数据开发基础练习题及答案15-2023-练习版_第5页
已阅读5页,还剩103页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试题说明

本套试题共包括1套试卷

答案和解析在每套试卷后

大数据开发基础练习题及答案15(500题)

大数据开发基础练习题及答案15

1.[单选题]语义网络表达知识时,有向弧AKO链、ISA链是用来表达节点知识的()o

A)无悖性

B)可扩充性

C)继承性

2.[单选题]()算法假设聚类结构能通过样本分布的紧密程度确定

A)原型聚类

B)密度聚类

C)层次聚类

3.[单选题]根据《大数据风控平台项目操作手册》,从【集团客户管理】节点路径进入集团图谱

,在正常模式下的集团图谱页面中新增子节点客户,新增的子节点客户状态为()O

A)核心企业

B)B.行内客户已认定

C)C.行内客户认定中

D)D.行内手动添加

4.[单选题]对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,而是都设成0,则下

列叙述正确的是()。

A)没有问题,神经网络会正常开始训练

B)神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西

C)神经网络不会开始训练,因为没有梯度改变

D)以上选项都不对

5.[单选题]下列关于模型能力(modelcapacity,指神经网络模型能拟合复杂函数的能力)的描述正

确的是()。

A)隐藏层层数增加,模型能力增加

B)Dropout的比例增加,模型能力增加

C)学习率增加,模型能力增加

D)以上都不正确

6.[单选题]下列哪个应用领域不属于深度学习算法应用()

A)人脸识别

B)机器翻译

0肿瘤诊断

D)自动控制

7.[单选题]下面哪个工具可以从RDBMS将数据导入到HDFS()

A)Sqoop

B)Flume

OHDFS

D)Hive

8.[单选题]关于类和对象的关系,下列描述正确的是()。

A)类是面向对象的核心

B)类是现实中事物的个体

C)对象是根据类创建的,并且一个类只能对应一个对象

D)对象描述的是现实的个体,它是类的实例

9.[单选题]大数据解决方案中的哪一层可以帮助定义和分类各个必要的组件?

A)业务层

B)网络层

C)服务层

D)逻辑层

10.[单选题]根据《大数据应用推动考核办法》,总行每月拿出。元考核资金作为考核款。

A)5000

B)10000

C)15000

D)20000

1L[单选题]关于Python语言的注释,以下选项中描述错误的是:

A)python语言有两种注释方式:单行注释和多行注释

B)python语言的单行注释以#开头

Opython语言的单行注释以单引号开头

D)Python语言的多行注释以'''(三个单引号)开头和结尾

12.[单选题]scipy.io模块可以实现(_)。

A)计算kmeans

B)计算knn

C)粒子群计算

D)数据输入输出

13.[单选题]使用()关键字创建自定义函数。

A)function

B)func

Odef

D)lambda

14.[单选题]下面与HDFS类似的框架是()?

A)NTFS

B)FAT32

OGFS

D)EXT3

15.[单选题]字符串中,成员资格判断使用的关键字是()

A)limit

B)to

C)in

D)len

16.[单选题]以下关于数据科学描述正确的是

A)数据科学是统计学的一部分

B)数据科学就是机器学习

C)天文学与数据科学无关

D)数据科学家倾向于用探索数据的方式来看待周围的世界

17.[单选题]指出下面正确的说法①基于像素的图像增强方法是一种非线性灰度变换。②基于像素的

图像增强方法是基于空域的图像增强方法的一种。③基于频域的图像增强方法由于常用到傅里叶变

换和傅里叶反变换,所以总比基于图像域的方法计算复杂较高。④基于频域的图像增强方法可以获

得和基于空域的图像增强方法同样的图像增强效果。

A)①②

B)①③

C)③④

D)②④

18.[单选题]在HBase中,删除整个表结构的命令是()

A)truncate

B)drop

C)delete

D)以上都不正确

19.[单选题]下列选项中,使用名称为cursor_student的游标,将查询出的信息存入s_name和s_

gender,写法正确的是()。一

A)FETCHcursor_studentTOs_name,s_gender;

B)SETcursor_studentINTOs_name,s_gender;

C)FETCHcursor_studentINTOs_name,sgender;

D)SETcursor_studentTOs_name,s_gender;

20.[单选题]以下不能创建一个字典的语句是

A)dictl={}

B)dict2={3:5}

C)dict3={[1,2,3]:"uestc”}

D)dict4={(1,2,3):“uestc”}

21.[单选题]()不适合使用机器学习方法解决

A)判断电子邮件是否是垃圾邮件

B)判断给定的图中是否有环

C)是否给指定用户办理信用卡

D)咱对滴滴拼车乘客分簇

22.[单选题]以下python注释代码,不正确的是。()

A)#python注释代码

B)#python注释代码1#python注释代码2

0""“python文档注释"””

D)//python注释代码

23.[单选题]下列不属于数据科学跨平台基础设施和分析工具的是()。

A)微软Azure

B)Google云平台

C)阿里云

D)Adobephotoshop

24.[单选题]下面与Zookeeper类似的框架是?

A)Protobuf

B)Java

C)Kafka

D)Chubby

25.[单选题]物联网的核心和基础是()

A)RFID

B)计算机技术

C)人工智能

D)互联网

26.[单选题]自然语言处理、语音识别、股票交易、气象预测等应用适合采用()处理。

A)循环神经网络

B)卷积神经网络

C)多层神经网络

D)单层神经网络

27.[单选题]下列描述说法错误的是?()

A)SecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执

行操作。

B)Hadoop是一个用于处理大数据的分布式集群架构,支持在GNU/Linux系统以及Windows系统上进行

安装使用。

C)VMwareWorkstation是一款虚拟计算机的软件,用户可以在单一的桌面上同时操作不同的操作系

统。

D)SSH是一个软件,专为远程登录会话和其他网络服务提供安全性功能的软件。

28.[单选题]下列关于Spark的描述,错误的是哪一项?

A)使用DAG执行引擎以支持循环数据流与内存计算析

B)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于AmazonEC2等云环境中

C)支持使用Scala、Java、Python和R语言进行编程,但是不可以通过SparkShell进行交互式编程

D)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于AmazonEC2等云环境中

29.[单选题]0GG软件是一种基于(一)的结构化数据复制软件。

A)数据流

B)配置文件

C)交互

D)日志

30.[单选题]hadoop集群不可以在()进行。

A)联机模式

B)单机模式

C)虚拟分布模式

D)完全分布模式

31.[单选题]若a=range(100),以下哪个操作是非法的()0

A)a[-0,3]

B)a[2:13]

C)a[::3]

D)a[2-3]

32.[单选题]在淘宝网购物时,当你购买了“汽车防盗锁”之后,淘宝网会自动提示你与你购买相

同物品的其他客户还购买了汽车坐垫。这个案例体现了大数据思维的()

A)大数据强调因果性

B)大数据强调相关性

C)大数据强调精确性

D)大数据强调抽样

33.[单选题]在Hadoop的组件中可用于实现各种经典的机器学习算法的组件是(—)。

A)HDFS

B)Hive

OPig

D)Mahout

34.[单选题]离散程度的测度值愈大,则()。

A)反映变量值愈分散,算术平均数代表性愈差

B)反映变量值愈集中,算术平均数代表性愈差

C)反映变量值愈分散,算术平均数代表性愈好

D)反映变量值愈集中,算术平均数代表性愈好

35.[单选题]离散程度的测度值愈大,贝1()。

A)映变量值愈分散,算术平均数代表性愈差

B)映变量值愈集中,算术平均数代表性愈差

C)映变量值愈分散,算术平均数代表性愈好

D)映变量值愈集中,算术平均数代表性愈好

36.[单选题]下列关于SparkStreaming和Streaming比较说法不正确的是?

A)SparkStreaming是一个微批处理框架,事件需要积累到一定量时才进行处理

B)Streaming的执行逻辑是即时启动,运行完后再回收

C)SparkStreaming的吞吐量大约是Streaming的2-5倍

D)SparkStreaming事件处理时延比Streaming更高

37.[单选题]下列关于分类算法的准确率、召回率、F1值的描述错误的是()。

A)准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率

B)召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全

C)正确率、召回率和F1值取值都在0和1之间,数值越接近0,查准率或查全率就越高

D)为了解决准确率和召回率冲突问题,引入了F1分数

38.[单选题]np.linalg.svd()函数可以实现什么功能?

A)计算协方差矩阵

B)实现奇异值分解

C)计算方差

D)计算均值

39.[单选题]下面哪一项不是云数据库的特性?()

A)动态可扩展

B)高成本

C)易用性

D)大规模并行处理

40.[单选题]假设拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的

数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。

现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为

定位车辆在照片中的位置,则应采取的方法是()。

A)除去神经网络中的最后一层,冻结所有层然后重新训练

B)对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层

C)使用新的数据集重新训练模型

D)所有答案均不对

41.[单选题]与科学可视化相比,(_)更关注抽象且应用层次的可视化问题。

A)信息可视化

B)可视化理论

C)可视分析学

D)数据可视化

42.[单选题]考察一个由三个卷积层组成的CNN:kernel=3X3,stride=2,padding=SAMEo最低

层输出100个特征映射(featuremap),中间层200个特征映射,最高层400个特征映射。输入是

200X300的RGB图片,总参数的数量是多少?

A)903400

B)2800

C)180200

D)720400

43.[单选题]若依据一个视图创建另一个视图,那么添加()选项,视图的数据操作会进行级联检查。-

A)DEFINER

B)CASCADED

C)LOCAL

D)以上选项都不正确

44.[单选题]()的主要目标是提供可扩展的机器学习算法及其实现,旨在帮助开发人员更加方便快

捷地创建智能应用程序。

A)Mahout

B)Flume

C)Sqoop

D)HBase

45.[单选题]下列关于大数据预测的说法中,错误的是()

A)人类的生活正在被大数据预测深刻改变

B)预测性分析是大数据最核心的功能

C)分析从“面向已经发生的过去”转向“面向即将发生的未来”是大数据与传统数据的最大区别

D)大数据预测是基本大数据集和预测模型去预测过去某件事情的概率

46.[单选题]下列方法中,可以将元组转换为Multilndex对象的是()

A)from_tuples()

B)from_arrays()

C)fromproduct()

D)from_list()

47.[单选题]创建视图的命令是()

A)alterview

B)altertable

C)createtable

D)createview

48.[单选题]下列关于分词的说法正确的是?

A)中文句子字之间没有空格,无法分词

B)一个句子的分词结果是唯一的

C)中文分词是将一系列无空格间隔字符串分割成一系列单词的过程

D)分词没有实际应用价值

49.[单选题]SEQUENCEFILE是HadoopAPI提供的一种()进制文件支持,其具有使用方便、可分割

、可压缩的特点

A)二

B)八

0+

D)十六

50.[单选题]print。是通过参数(一)来设定以什么结尾。

A)objects

B)sep

C)end

D)file

51.[单选题]以下不属于判别式模型的是:

A)决策树

B)BP神经网络

C)高斯混合模型

D)支持向量机

52.[单选题]以下说法不正确的是()

A)HadoopStreaming使用Unix中的流与程序交互

B)HadoopStreaming允许我们使用任何可执行脚本语言处理数据流

0采用脚本语言时必须遵从UNIX的标准输入STDIN,并输出到STDOUT

D)Reduce没有设定,上述命令运行会出现问题

53.[单选题]在Hadoop中,哪个用于机器学习()

A)Hive

B)Pig

C)HBase

D)Mahout

54.[单选题]()是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记

A)支持向量机

B)间隔最大化

C)线性分类器

D)贝叶斯判定准则

55.[单选题]以下关于NoSQL数据库描述错误的是:()

A)NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称

B)NoSQL所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系

模型

ONoSQL数据库有固定的表结构,通常存在较多连接操作

D)与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储

56.[单选题]下面哪个进程负责MapReduce任务调度。()

A)NameNode

B)Jobtracker

C)TaskTracker

D)secondaryNameNode

57.[单选题]下面哪个函数可以计算两个日期之间的差()

A)DateFormat

B)DatePart

ODateDiff

D)SystemDatetime

58.[单选题]ApacheHadoop是使用哪个协议发布的()

A)ApacheLicense2.0

B)Shareware

C)MozillaPublicLicense

D)Commercial

59.[单选题]下列哪个选项可用于查询ElasticSearch的索引?

A)curl-XGET"http://ip:httpport/cluster/health?pretty

B)B.curl-XGET'http://ip:httpport/name/type/indexlD?pretty'

C)C.curl-XPOSThttp://ip:httpport/name/type/indexlD?pretty-H'Content-

Type:application/ison'-d'{}'

D)D.curl-XGEThttp://ip:httpport/_cat/indices?'

60.[单选题]假设已从标准库functools导入reduce()函数,那么表达式reduce(lambda

x,y:x+y,[1,2,3])的值为()。

A)None

B)6

03

D)9

61.[单选题]下列关于Hadoop中MapReduce的说法正确的是()。

A)可以没有Reduce任务

B)Reducer输入为随机输入

OShufe主要实现数据可视化功能

D)一个Reducer只能从一个Map复制所需要的partition

62.[单选题]下列不属于RDBMS常用的数据库软件有()

A)Oracle

B)SQLServer

C)MySQL

D)redis

63.[单选题]Hadoop具有特性不包括()。

A)高可靠性

B)高效性

C)高可扩展性

D)低容错性

64.[单选题]关于“与/或”图表示知识的叙述,错误的有()o

A)用“与/或”图表示知识方便使用程序设计语言表达,也便于计算机存储处理。

B)“与/或”图表示知识时一定同时有“与节点”与“或节点”。

C)“与/或”图能方便地表示陈述性知识与过程性知识。

D)能用“与/或”图表示的知识不适宜用其他方法表示。

65.[单选题]以下变量名中正确的是(—)。

A)global

B)pass

C)except

D)letter

66.[单选题]下列关于Spark的描述,错误的是哪一项?

A)Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发

B)Spark在2014年打破了Hadoop保持的基准排序纪录

C)Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度

D)Spark运行模式单一

67.[单选题]下列关于漏斗图的说法中,错误的是()

A)漏斗图往往适用于业务流程上的顺序关系

B)漏斗图可以通过漏斗中梯形的大小,清晰地展示出不同数值的大小

C)漏斗图与饼图同样适用于表示占比的情况

D)漏斗图不适用于表示无逻辑顺序的分类对比情况

68.[单选题]Hive是建立在()之上的一个数据仓库

A)HDFS

B)MapReduce

C)Hadoop

D)HBase

69.[单选题]下面哪个协议用于SecondaryNamenode和Namenode之间的通信。

A)DatanodeProtocol

B)NamenodeProcotol

C)ClientProtocol

D)ClientDatanodeProtocol

70.[单选题]按照班级进行分组()

A)ORDERBYCLASSES

B)DORDERCLASSES

C)GROUPBYCLASSES

D)GROUPCLASSES

71.[单选题]Maxcompute的命令行工具odpscmd可以使用()参数调用某个文件中的命令集。

A)k

B)e

Of

D)c

72.[单选题]下列哪些选项不是HBase为null的列不占用存储空间的原因?

A)Region分裂

B)列存储

C)行存储

D)Key-Value结构

73.[单选题]在HDFS中,NameNode的主要功能是什么?

A)维护了blockid到datanode本地文件的映射关系

B)存储文件内容

C)文件内存保存在磁盘中

D)存储元数据

74.[单选题]下列滤波器中对图像中的椒盐噪声滤波效果最好的是()。

A)中值滤波

B)均值滤波

C)最大值滤波

D)最小值滤波

75.[单选题]关于Spark中SparkSQL描述不准确的是?

A)SparkSQL使用场景包括毫秒级实时查询

B)SQL语句通过SparkSQL模块解析为DAG,交给SparkCore执行

C)通过Sparksession提交SQL语句,任务像Spark应用一样,提交到集群中分布式运行。

D)SparksQL是Spark用来处理结构化数据的一个模块,可以在spark应用中接使用SQL语句对数据进行

操作。

76.[单选题]HDFS寻求帮助的命令格式是什么?

A)$hadoopfs-h命令名

B)Shadoopfs-help命令名

C)$hadoopfsh命令名

D)Shadoopfshelp命令名

77.[单选题]下列哪个程序通常与NameNode在一个节点启动?

A)SecondaryNameNode

B)DataNode

C)TaskTracker

D)Jobtracker

78.[单选题]requests库的get()函数执行后会返回一个Response类型的对象,其text属性以()形式

存储响应内容

A)网页

B)字符串

C)整数

D)文本

79.[单选题]执行以下代码段t=(l,2,4,3)print(t[l:3])时,输出为(—)。

A)(1,2)

B)(1,2,4)

0(2,4)

D)(2,4,3)

80.[单选题]在以下代码片段中:i=lwhilei

A)10次

B)9次

C)0次

D)以上都不对

81.[单选题]个性化推荐系统是建立在海量数据挖据基础上的一种高级商务智能平台,以帮助(

)为其顾客购物提供完全个性化的决策支持和信息服务。

A)公司

B)单位

C)电子商务网站

D)跨国企业

82.[单选题]关于HDFS的文件写入,正确的是()。

A)支持多用户对同一文件的写操作

B)用户可以在文件任意位置进行修改

C)默认将文件复制成三份存放

D)复制的文件块默认存在同一机架上

83.[单选题]阿里云MaxCompute中,用于在关系表达式中匹配任意一个字符的是:()。

A)

B)

O*

D)'\'

84.[单选题]数据湖探索(DataLakeInsight,简称DLI)是支持以下()形式的大数据计算分析

服务。

A)流式处理

B)批处理

C)流批一体

D)都不支持

85.[单选题]以下关于文件的描述,错误的是:

A)二进制文件和文本文件的操作步骤都是“打开-操作-关闭”

B)open()打开文件之后,文件的内容并没有在内存中

C)open()只能打开一个已经存在的文件

D)文件读写之后,要调用close。才能确保文件被保存在磁盘中了

86.[单选题]下面对“ORDERBYpno,levelw描述正确的是()。—

A)先按level全部升序后,再按pno升序

B)先按level升序后,相同的level再按pno升序

C)先按pno全部升序后,再按level升序

D)先按pno升序后,相同的pno再按level升序

87.[单选题]np.abs()函数可以实现什么功能?

A)计算绝对值

B)计算相反数

C)计算方差

D)计算均值

88.[单选题]以下关于降维的表述,错误的是()。

A)降维过程中可以保留原始数据的所有信息

B)多维缩放的目标是要保证降维后样本之间的距离不变

C)线性降维方法目标是要保证降维到的超平面能更好地表示原始数据

D)核线性降维方法目标是通过核函数和核方法来避免采样空间投影到高维空间再降维之后的低维结

构丢失

89.[单选题]当我们需要在一张图表中加上文字标注,达到提醒读者的目的时,需要用到(_)函数。

A)plt.axvspan()

B)pit.axhspan()

C)pit.annotate()

D)pit.text()

90.[单选题]行业应用解决的是行业()问题,并为企业应用提供基础平台。

A)单一

B)共性

C)基础

D)根本

91.[单选题]下列关于数据重组的说法错误的是()。

A)数据重组是数据的重新生产和重新采集

B)数据重组能够使数据焕发新的光芒

C)数据重组实现的关键在于多源数据融合和数据集成

D)数据重组有利于实现新颖的数据模式创新

92.[单选题]当图像通过信道传输时,噪声一般与()无关。

A)、信道传输的质量

B)、出现的图像信号

0、是否有中转信道的过程

D)、图像在信道前后的处理

93.[单选题]以下哪一项不是Spark框架可以满足的大数据分析场景?

A)批处理

B)即席查询

C)流处理

D)大批量shuffle的实时需求

94.[单选题]K-Means算法无法聚类()形状的样本。

A)圆形分布

B)螺旋分布

C)带状分布

D)凸多边形分布

95.[单选题]可以从foohs2019bar提取hs2019的正确语句是

A)selectregexp_replace('foohs2019bar','hsEO-9]{3}',")

B)selectregexpreplace('foohs2019bar','hs[0-9]{4}',")

C)selectregexp_extract('foohs2019bar',,(hstO-9]{4})(,0)

D)selectregexp_extract('foohs2019bar',,(hs[0-9]{4}),,1)

96.[单选题]下列关于数据可视化的描述,哪个是错误的?()

A)数据可视化是指将大型数据集中的数据以图形图像形式表示

B)利用数据分析和开发工具发现其中未知信息的处理过程

C)数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示

D)将数据的各个属性值以一维数据的形式表示

97.[单选题]当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质,这样会导致泛化

性能下降,这种现象称为()

A)欠拟合

B)过拟合

C)拟合

D)以上答案都不正确

98.[单选题]大数据计算服务中,日志表ods_order是一张非分区表,结构如下:createtable

ods_order(order_idstring,order_datestring,orderamtdecimal);fact_order是一张按日

期分区的表,结构如下:createtablefact_order(order_idstring,order_amtdecimal)

partitionedby(orderdtstring);现在需要将数据从ods.order加载到factorder表中,并且按

照order_date进行分区,执行了以下SQL:insertoverwritetablefact_order

partition(orderdt)selectorder_id,orderamt,order_dateasorderdtfromodsorder;

ods_order表中的ordejdate有部分记录取值为NULL,对执行结果描述正确的是:()。

A)语句可以正常执行,其中order_date为NULL的记录会被放入orderdt=,BAD'的分区

B)语句可以正常执行,在提交时会报语句错误

C)语句可以正常执行,其中的order_date为NULL值的记录会被丢弃

D)语句无法正常执行,系统会抛异常

99.[单选题]大数据的特点不包括下面哪一项o

A)巨大的数据量

B)多结构化数据

C)增长速度快

D)价值密度高

100.[单选题]MaxCompute的命令行工具odpscmd可以使用()参数调用某个文件中的命令集。

A)e

B)k

Of

D)c

101.[单选题]数据安全不只是技术问题,还涉及()。

A)人员问题

B)管理问题

C)行政问题

D)领导问题

102.[单选题]()是一个类似Facebook的scribe的分布式,高可靠,高可用,高校的数据收集器

O

A)Oozie

B)Flume

C)Sqoop

D)Hue

103.[单选题]长短时记忆网络属于一种()

A)全连接神经网络

B)门控RNN

C)BP神经网络

D)现向RNN

104.[单选题]Spark是用以下()编程语言实现的。

A)C

B)C++

C)JAVA

D)Scala

105.[单选题]FusioninsightHD使用HBase客户端批量写入10条数据,某个regionserver节点上包含

该表的2个region,分别A和B,10条数据中有两条属于A,4条属于B,请问写入这10条数据需要向该

regionserver发送几次RPC请求?

A)A1

B)B2

C)C6

D)D10

106.[单选题]HBase虚拟分布式模式需要()个节点?

A)1

B)2

03

D)最少3个

107.[单选题]参数估计又可分为()和区间估计。

A)线型估计

B)点估计

C)回归估计

D)二维分析

108.[单选题]下面关于数据科学与统计学的关系描述不正确的有(_)。

A)数据科学是统计学的主要基础理论之一

B)数据科学的工具往往来自于统计学

C)统计学家在数据科学的发展中做出过突出贡献

D)第一篇以“数据科学”为标题的论文是由统计学家完成的

109.[单选题]选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入(_)。

A)线性回归

B)线性判别分析

C)正则化项

D)偏置项

110.[单选题]在马尔科夫随机场中,(_)个变量之间的联合概率分布能基于团分解为多个因子的

乘积。

A)2

B)3

04

D)多

111.[单选题]下列哪一种命令格式是不正确的()

A)get

B)scan

C)alter

D)put

112.[单选题]在HBase中,查看所有记录的命令是()

A)selectfrom'表名称'

B)select'表名称'

C)scan'表名称'

D)select*from'表名称

113.[单选题]执行以下代码段importrandomprint(random,choice(1sun1))Bf,输出为()。

A)sun

B)s或u或n

C)除了s、u、n的任一字符

D)s

114.[单选题]对于线性回归模型,包括附加变量在内,以下可能正确的是()1)R-Squared和

人仃1151。(^呵11@1'6(^都是递增的2)R-Squared是常量的,AdjustedR叫uared是递增的R-Squared是递减

的,AdjustedR-squared也是递减的R-Squared是递减的,AdjustedR-Squared是递增的

A)1和2

B)1和3

02和4

D)以上都不是

115.[单选题]Python内置函数()可以返回列表、元组、字典、集合、字符串以及range对象中元素

个数

A)dim

B)len

C)set

D)compute

116.[单选题]执行以下代码段classMyGraph():def_init_(self,nodes,edges):self,nodes

=nodes[:]self,edges=edges[:]def—eq_(self,g):ifsorted(self,nodes)!=

sorted(g.nodes):returnFalseifsorted(self,edges)!=sorted(g.edges):returnFalse

1111

returnTruegl=MyGraph(['A,'B'f'C'],edges=[('A','B'),(B',C)])g2=

MyGraph(「A’,'C‘,'B'],edges=[('B','C'),('A','B')])print(gl=g2)时,输出为

(一)o

A)True

B)False

C)None

D)Error

117.[单选题]()可以为远程客户端提供执行Hive查询服务。

A)MetastoreServer

B)HiveServer2

OBeelineCLI

D)MySQL

118.[单选题]OTS单个分片下所有行的大小总和不能超过()。

A)无限制

B)1G

O1M

D)1T

119.[单选题]MaxCompute底层存储使用的文件格式为:()。

A)CHUNK

B)GFS

OCFILE

D)MFC

120.[单选题]以下可以用于比较运算的函数是()。-

A)RAND()

B)P0W()

OCEILO

D)IN()

121.[单选题]1104报表系统是向那个部门报送的行业监管平台

A)中国人民银行

B)国家外汇管理局

C)省联社

D)银监会

122.[单选题]print(type('abc'))打印结果为

A)str

B)int

C)float

D)list

123.[单选题]下面关于数据科学与机器学习的关系描述不正确的有(_)。

A)机器学习为数据科学中充分发挥计算机的自动数据处理能力提供了重要的手段

B)机器学习是数据科学的主要理论基础之一

C)机器学习为数据科学中扩展人的数据处理能力提供了重要的手段

D)机器学习的基础理论包含数据科学

124.[单选题]Shufile阶段中哪一步是可选的?()

A)排序

B)分区

C)分组

D)规约

125.[单选题]在MaxComputeSQL中,常量定义1OOBD表示的含义是:()。

A)数值为100的DECIMAL

B)数值为100的Bigint

C)数值为100的String

D)数值为100的Double

126.[单选题]下面不属于NewSQL的有(—)。

A)memsql

B)trafodion

OmariaDB

D)objectivity

127.[单选题]下列关于推荐系统的描述错误的是()。

A)推荐系统是自动联系用户和物品的一种工具

B)和搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算

C)推荐系统可以发现用户的兴趣点,帮助用户从海量信息中发掘自己潜在的需求

D)推荐系统是一种只能通过专家进行人工推荐的系统

128.[单选题]在MapReduce中,()阶段,Mapper执行maptask,将输出结果写入中间文件。

A)Shuffle

B)Map

C)Reduce

D)Sort

129.[单选题]大数据4V特征不包括

A)规模性(Volume)

B)有效地(Valid)

C)多样性(Varity)

D)高速性(Velocity)

130.[单选题]主节点程序()o

A)NameNode

B)DataNode

C)SecondaryNameNode

D)Jobtracker

131.[单选题]根据《大数据风控平台项目操作手册》,担保圈链模块,用户可在页面右侧的关联筛

选选项卡中,基于()筛选条件,控制图谱展示的担保关联最高层级数。

A)快速定位

B)B.层级选择

C)C.客户筛选

D)D.担保筛选

132.[单选题]下列关于构造函数说法错误的是(—)o

A)python中如果子类有自己的构造函数,不会自动调用父类的构造函数

B)如果需要用到父类的构造函数,则需要在子类的构造函数中显式的调用

C)如果子类没有自己的构造函数,则会直接从父类继承构造函数

D)无论子类有没有构造函数,子类都会自动调用父类的构造函数

133.[单选题]对于ADS的连接方式,以下说话正确的是:()。

A)以上都是

B)安装了php-mysql-5.1.x模块的php环境

C)使用版本为5.4系列的mysql-jdbc驱动

D)mysql5.6的客户端

134.[单选题]()的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概

率计算,又不至于彻底忽略了比较强的属性依赖关系。

A)贝叶斯判定准则

B)贝叶斯决策论

C)朴素贝叶斯分类器

D)半朴素贝叶斯分类器

135.[单选题]属于深度学习框架的是()。

A)Tensorow

B)Caffe

C)PyTorch

D)以上答案都正确

136.[单选题]()模块是Python标准库中最常用的模块之一。通过它可以获取命令行参数,从

而实现从程序外部向程序内部传递参数的功能,也可以获取程序路径和当前系统平台等信息。

A)sys

B)platform

C)math

D)time

137.[单选题]Hadoop()中将海量数据分割于多个节点,由每个节点并行计算,将得到的结果归并

到输出。

A)应用场景

B)分布式计算

C)分阶段计算

D)高效处理

138.[单选题]IBMCloud为我们提供的是以下哪种服务?

A)SaaS

B)PaaS

C)laaS

D)DaaS

139.[单选题]关于数据组织的维度描述正确的是

A)二维数据由对等关系的有序或无序数据构成

B)高维数据由关联关系数据构成

OCSV是一维数据

D)一维数据采用线性方式存储

140.[单选题]某企业准备上线一个项目,去搜集国内主要门户、论坛中和本公司相关的消息,一旦

有符合预定义类型的消息出现,将第一时间反馈给公司的公共关系部,该场景属于典型的()。

A)流计算

B)在线计算

O0LTP

D)离线计算

141.[单选题]根据《促进大数据发展行动纲要》(国发(2015)51号)制定的主要任务,下列

()不是“公共服务大数据工程”中的四大工程之一。

A)医疗健康服务大数据

B)社会保障服务大数据

C)新兴产业大数据

D)交通旅游服务大数据

142.[单选题]以下不是测试方法的是()

A)留出法

B)交叉验证法

0自助法

D)全量法

143.[单选题]要想让机器具有智能,必须让机器具有知识。因此,在人工智能中有一个研究领域

,主要研究计算机如何自动获取知识与技能,实现自我完善,这门研究分支学科叫()O

A)专家系统

B)机器学习

C)神经网络

D)模式识别

144.[单选题]事件A在另外一个事件B已经发生条件下的发生概率,称为。

A)先验概率

B)后验概率

C)条件概率

D)统计概率

145.[单选题]下列不是距离度量需要满足的基本性质的是(_一)。

A)非负性

B)同一性

C)对称性

D)传递性

146.[单选题]关于Flink的角色,下列哪-项说法是错误的?

A)TaskManager负责从用户提交的Flink程序配置中获取JobManager的地址。

B)Cient是Flink程序提交的客户端,对用户提交的Flink程序进行预处理,并提交到Flink集群中处

理。

C)JobManager扮演着集群中的管理者Master的角色,它是整个集群的协调者。

D)TaskManager是实际负责执行计算的Worker.

147.[单选题]如果需要在select语句中根据某列的结果进行判断处理,Hive支持在select语句中使

用()的判断子句

A)casewhenthen

B)casewherethen

C)casewhilethen

D)casehowthen

148.[单选题]下面哪个不属于循环神经网络的输出模式

A)单输出

B)多输出

C)同步多输出

D)异步多输出

149.[单选题](一)是分类错误的样本数占样本总数的比例。

A)精度

B)错误率

C)正确率

D)误差

150.[单选题]MaxCompute中,()命令可以查看角色roletest的权限。

A)descrolerole_test

B)listrolerole_test

C)showgrantsforrolerole_test

D)showaclforrolerole_test

151.[单选题]下列对大数据4V特征的说法中,错误的是

A)数据规模大

B)数据价值密度高

C)数据类型多样

D)数据处理速度快

152.[单选题]如下:strl="Runoobexample....wow!!!"str2="exam";Print(strl.find(str2,

5))打印的结果是

A)6

B)7

08

D)-l

153.[单选题]决策树中的叶结点对应于(_)。

A)属性

B)样本

C)决策结果

D)标签值

154.[单选题]下列关于特征编码的叙述中,不正确的是()。

A)特征编码是将非数值型特征转换成数值型特征的方法

B)数字编码与特征的排序无关

C)One-Hot编码中,原始特征有n种取值,转换后就会产生n列新特征

D)哑变量编码解决了One-Hot编码中存在线性关系的问题

155.[单选题]下列数据类型中适合存储PDF文档的是()。-

A)CHAR

B)VARCHAR

OVARBINARY

D)BLOB

156.[单选题]下列对于查全率的描述,解释正确的是(一)。

A)统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。

B)先统计分类正确的样本数,然后除以总的样例集D的个数。

C)预测为正的样例中有多少是真正的正样例

D)样本中的正例有多少被预测正确

157.[单选题]在做CNN时,输入图片大小为37X37,经过第一层卷积层(有25个卷积核,每个卷积核的

大小为5X5,不做填充,步长为1),与池化层(Maxpooling大小为3X3,不做填充,步长为1),输

出图片再通过一次卷积层(有100个卷积核,每个卷积核的大小为4X4,不做填充,步长为1),与池

化层maxpooling(Maxpooling大小为2X2,不做填充,步长为1),最终输出特征图大小为()。

A)2X2

B)3X3

04X4

D)5X5

158.[单选题]属于无监督学习的是()

A)、随机森林

B)、朴素贝叶斯

C)、主成分分析

D)、支持向量机

159.[单选题]Oracle实例是

A)Oracle内存结构

B)OracleI/O结构

C)Oracle后台进程

D)以上都是

160.[单选题]y=lOwhiley:y-=Iprint(y)请问输出的y是多少()

A)-l

B)1

C)0

D)while构成无限循环

161.[单选题]以下对Python程序设计风格描述错误的选项是:

A)Python中允许把多条语句写在同一行

B)Python语句中,增加缩进表示语句块的开始,减少缩进表示语句块的退出

OPython可以将一条长语句分成多行显示,使用续航符“\”

D)Python中不允许把多条语句写在同一行

162.[单选题]下列用于关闭文件的是()。

A)read()

B)tell()

C)seek()

D)close()

163.[单选题]在Hadoop配置文件中,以下属于core-site.xml文件主要内容的是()

A)用于定义系统级别的参数,如HDFSURL、Hadoop的临时目录等。

B)名称节点和数据节点的存放位置、文件副本的个数文件读取权限等。

C)配置ResourceManager,NodeManager的通信端口,web监控端口等。

D)包括JobHistoryServer和应用程序参数两部分,如reduce任务的默认个数、任务所能够使用

内存的默认上下限等。

164.[单选题]将闵可夫斯基距离和(_)结合即可处理混合属性。

A)ValueDifferenceMectric

B)k-means

C)k近邻

D)SVM

165.[单选题]如果一个split文件中有3行内容,则MapReduce框架将为其分配一个任务进程

MapTask,MapTask调用()次map函数。

A)1

B)2

03

D)4

166.[单选题]在概率图模型中,(_)模型是一种判别式无向图模型。

A)马尔可夫随机场

B)隐马尔可夫模型

C)条件随机场

D)逆误差传播

167.[单选题]Hive的数据最终存储在()中。

A)HDFS

B)HBase

C)RDBMS

D)MetaStore

168.[单选题]当一个MapReduce应用程序被执行时,如下()动作是map阶段之前发生的。

A)split

B)combine

C)partition

D)sort

169.[单选题]以下关于隐马尔科夫模型中,叙述错误的是(一)o

A)是一种有向图模型

B)是一种无向图模型

C)是一种结构简单的动态贝叶斯网络

D)常被应用于时序数据建模

170.[单选题]某公司计划上线新系统,数据库工程师使用Hive数据仓库进行数据分析,现在界面提

示:"o:jdbc:hive2:〃192.168.0.186:2181/>"信息,现已完成数据库的创建工作,那么他将如何继

续开始数据库的使用?

A)usedatabase

B)startdatabase

C)restartdatabase

D)continuedatabase

171.[单选题]Spark的()组件用于支持实时计算需求。

A)SparkSQL

B)SparkStreaming

C)SparkGraphX

D)SparkMLLib

172.[单选题]假定你使用SVM学习数据X,数据X里面有些点存在错误。现在如果你使用一个二次核函

数,多项式阶数为2,使用松弛变量C作为超参之一。当你使用较大的C(C趋于无穷),则()。

A)仍然能正确分类数据

B)不能正确分类

C)不确定

D)以上均不正确

173.[单选题]关于大数据在社会综合治理中的作用,以下理解不正确的是()o

A)大数据的应用能够杜绝抗生素的滥用

B)大数据的应用能够维护社会治安

C)大数据的应用有利于走群众路线

D)大数据的应用能够加强交通管理

174.[单选题]下图展示了StructuredStreaming的计算模型。通过观察可以得出最终T3的计算

结果是?

Time

style="width:auto;"class="fr-ficfr-filfr-dibcursor-hover">

A)Dog1,owl1

B)Cat2,dog4,owl2

C)Cat2,dog3,owl1

D)Cat1,catl,dog2,dog2,owl2

175.[单选题]返回当前日期的函数是()

A)curtime()

B)adddate()

C)curnow()

D)curdate()

176.[单选题]以下哪项关于决策树的说法是错误的0。

A)冗余属性不会对决策树的准确率造成不利的影响

B)子树可能在决策树中重复多次

C)决策树算法对于噪声的干扰非常敏感

D)寻找最佳决策树是NP完全问题

177.[单选题]HFile数据格式中的Metaindex字段用于()0

A)Meta块的长度

B)Meta块的结束点

C)Meta块数据内容

D)Meta块的起始点

178.[单选题](_)是指捕获人们的生活、业务或社会活动,并将其转换为数据的过程。

A)数据化

B)数据可视化

C)数据存储

D)数据加工

179.[单选题]下面与HDFS类似的框架是一.?

A)NTFS

B)FAT32

C)GFS

D)EXT3

180.[单选题]下列不是NoSQL数据库的是()。

A)MongoDB

B)BigTable

OHBase

D)Access

181.[单选题]以下关于过拟合与欠拟合说法正确的是(—)

A)欠拟合无法彻底避免

B)过拟合可采取的方法有:在决策树学习中扩展分支等

C)过拟合模型表现为在训练集上具有高方差和低偏差

D)泛化误差是模型响应训练数据而变化的程度

182.[单选题]执行数据块复制的任务时,是什么和什么在进行通信()

A)clientandnamenode

B)clientanddatanode

C)namenodeanddatanode

D)datanodeanddatanode

183.[单选题]对a=(l,2,3,4,5),下面操作正确的是()

A)a()=(l,2,3,4)

B)a[l]=4

C)a[0:2]

D)a[5]

184.[单选题]推进营配贯通优化提升,贯通率提升()

A)5%

B)7%

010%

D)15%

185.[单选题]HBase的主HMaster是如何选举的?

A)由RegionServer进行裁决

B)HMaster为双主模式,不需要进行裁决

C)通过ZooKeeper进行裁决

D)随机选举

186.[单选题]MapReduce是什么类型的并行计算系统

A)专门为MPI设计的系统

B)图计算

C)流计算

D)作业批处理

187.[单选题]tf.nn.rnn_ceH.MultiRNNCell()函数的作用是()。

A)生成卷积神经网络

B)生成LSTM

C)生成池化层

D)生成多层RNN网络

188.[单选题]以下选项中哪个不属于数据预处理的方法()。

A)数据清洗

B)数据集成

C)数据变换

D)数据统计

189.[单选题]根据《泛在电力物联网2019年建设方案》,各部门、各单位提出的建设任务和综合示

范采用()的方式有序安排。

A)“集中统筹、分批安排、联合试点”

B)”分类统筹、分批安排、分别试点”

C)“分类统筹、分批安排、联合试点”

D)“分类统筹、统一安排、联合试点”

190.[单选题]专家系统是一个复杂的智能软件,它处理的对象是用符号表示的知识,处理的过程是

()的过程。

A)思维

B)思考

C)推理

D)递推

191.[单选题]"for"是一种常用的循环语句。下列语句运行后,变量sum的值为()sum=0foriin

range(10):sum=sum+i

A)55

B)10

Oil

D)45

192.[单选题](_)是分类错误的样本数占样本总数的比例。

A)精度

B)错误率

C)正确率

D)误差

193.[单选题]下列算法中属于点处理的是

A)梯度锐化

B)二值化

C)傅立叶变换

D)中值滤波

194.[单选题]MapReduce适用于()

A)任意应用程序

B)任意可以在WindowsServer2008上的应用程序

C)可以串行处理的应用程序

D)可以并行处理的应用程序

195.[单选题]泛化误差可分解为偏差、方差与噪声之和,当学习器拟合程度不够强时,是()主导了泛

化错误率。

A)偏差

B)方差

C)噪声

D)差与方差共同

196.[单选题]HDFS默认的当前工作目录是/user/$USER,fs.default.name的值需要在哪个配置文件

内说明

A)mapred-site.xml

B)core-site,xml

C)hdfs-site.xml

D)以上均不是

197.[单选题]根据《大数据风控平台项目操作手册》,公司客户管理菜单下,新增()按钮。

A)数据补录、准入风险探测、最终受益人

B)B.客户信息预警、准入风险探测、最终受益人

C)C.影像操作、准入风险探测、最终受益人

D)D.担保圈链、关联关系图谱、全景风险视图、企业信用智能分析报告、准入风险探测、最终受益

198.[单选题]从训练数据中学习出一组能用于对未见示例进行判别的规则,这个过程称为

A)机器学习

B)规则学习

C)直推学习

D)主动学习

199.[单选题]给出如下代码:DictColor={"seashell":"海贝色","gold":"金色","pink":"粉红色

","brown":"棕色","purple":"紫色","tomato":"西红柿色"}以下选项中能输出“海贝色”的是

A)print(DictColor.keys())

B)print(DictColor["海贝色"])

C)print(DictColor.values())

D)print(DictColor["seashell"])

200.[单选题]Python中用于释放类占用资源的方法是()。

A)_init__

B)_del—

C)_del

D)delete

201.[单选题]MaxCompute的分区表的分区层次目前不能超过()。

A)2层

B)3层

06层

D)不限制

202.[单选题]()常用于词云图的绘制,词云是一种直观展示数据频率的图表类型,可以对出现频率较

高的“关键词”予以视觉上的突出,形成“关键词云层”,从而过滤掉大量的文本信息,使浏览者只要

一眼扫过文本就可以领略重点。

A)文本图

B)热力点图

C)面积图

D)雷达图

203.[单选题]下列关于GaussDB200的说法正确的是(?

A)RETURN用于返回存储过程调用结果

B)RETURNNEXT表示返回下一个。

C)RETURNQUERY用于近回集合。

D)存储过程需要回值时使用RETURN关键字

204.[单选题]假设文件不存在,如果使用open。方法打开文件会报错,那么该文件的打开方式是下

列哪种?()

A)r

B)w

C)a

D)w+

205.[单选题]以下哪些算法,可以用神经网络去构造:LKNN2.线性回归3.对数几率回归

A)1和2

B)2和3

01,2和3

D)以上都不是

206.[单选题]在MaxComputeSQL中,concat('a',null,'b')的执行结果是:()。

A)a

B)anullb

C)ab

D)null

207.[单选题]一位母亲记录了儿子3〜9岁的身高,由此建立的身高与年龄的回归直线方程为

y=7.19x+73.93,据此可以预测这个孩子10岁时的身高,则正确的叙述是()

A)身高一定是145.83cm

B)身高超过146.00cm

C)身高低于145.00cm

D)身高在145.83cm左右

208.[单选题]HadoopMapReduce2.0中,()负责资源的管理和调度。

A)JobTracker

B)YARN

C)TaskTracker

D)ApplicationMaster

209.[单选题]Flink的数据转换操作在以下哪些环节中完成?

A)channel

B)Transformation

C)sink

D)source

210.[单选题]RDBMS是建立在(一)基础上的数据库,用来存储和管理大量数据。

A)关系模型

B)层次模型

C)网状模型

D)概念模型

211.[单选题]下面关于主服务器Master主要负责表和Region的管理工作的描述,哪个是错误的?

A)在Region分裂或合并后,负责重新调整Region的分布

B)对发生故障失效的Region服务器上的Region进行迁移

C)管理用户对表的增加、删除、修改、查询等操作

D)不支持不同Region服务器之间的负载均衡

212.[单选题]在概率图模型中,(_)模型是结构最简单的动态贝叶斯网,主要用于时序数据建模

O

A)马尔可夫随机场

B)隐马尔可夫模型

C)条件随机场

D)逆误差传播

213.[单选题]以下方法中,更适用于处理序列数据的有(一Jo

A)卷积神经网络

B)全连接神经网络

C)BP神经网络

D)循环神经网络

214.[单选题]以下()不是NoSQL数据库。

A)MongoDB

B)BigTable

C)HBase

D)Access

215.[单选题]下列哪一个不属于云数据库产品?()

A)阿里云RDS

B)OracleCloud

C)百度云数据库

D)本地安装MySQL

216.[单选题]()是唯一不在运行时发生的异常。

A)ZeroDivisionError

B)NameError

C)SyntaxError

D)KeyError

217.[单选题]python中,字符串的格式()

A)括号

B)中括号

C)花括号

D)引号

218.[单选题]()通常与NameNode在一个节点启动。

A)SecondaryNameNode

B)DataNode

C)TaskTracker

D)JobTracker

219.[单选题]随着集成中个体分类器(相互独立)数日T的增大,集成的错误率将呈()下降,最终趋

向于零

A)指数级

B)嘈对教级

C)线性级

D)平方级

220.[单选题]在FusioninsightManager界面中,对Loader的操作不包括下列哪个选项?

A)切换Loader主备节点

B)启动Loader实例

C)配置Loader参数

D)查看Loader服务状态

221.[单选题]()是交叉验证法的一种特例。

A)自助法

B)留一法

C)交叉验证法

D)错误率分析

222.[单选题]信息增益、增益率分别对可取值数目()的属性有所偏好。

A)较高,较高

B)较高,较低

C)较低,较高

D)较低,较低

223.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论