大数据开发基础练习题及答案4-2023练习版

上传人：灯*** IP属地：河北上传时间：2024-04-20 格式：PDF 页数：108 大小：12.17MB 积分：12 举报 版权申诉

已阅读5页，还剩103页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试题说明

本套试题共包括1套试卷

答案和解析在每套试卷后

大数据开发基础练习题及答案4（500题）

大数据开发基础练习题及答案4

L［单选题］下列关于极大似然估计的描述，错误的是（）

A）极大似然估计先假定其具有某种确定的概率分布形式

B）极大似然估计没有确定的概率分布形式巳概率模型的训练过程就是参数估计

C）贝叶斯学派认为参数本身也有分布，是未观察的随机变量

2.［单选题］当前归结式是O时，则定理得证。

A）永真式

B）包孕式（subsumed）

C）空子句

3.［单选题］Stage的TaSk的数量由什么决定（）

A）Partition

B）Job

C）Stage

D）TaskScheduler

4.［单选题］在当前社会中，最为突出的大数据环境是（）

A）互联网

B）物联网

C）合国力

D）自然资源

5.［单选题IMapReduce通常将输入的数据集分割为一些独立的（）,然后由一些MaP任务在服务器

集群上以完全并行的方式进行处理。

A）键

B）值

C）键值对

D）数据块

6.［单选题］Hadoop是一个实现了MaPRedUCe模式的开源的分布式并行的（）。

A）编程语言

B）数据库

C）编程范式

D）存储单元

7.［单选题］信息系统安全等级保护是指（）。

A）对国家安全、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信

息系统分等级实行安全保护。

B）对国家安全、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信

息系统分等级实行安全保护，对信息系统中使用的信息安全产品实行按等级管理。

C）对国家安全、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信

息系统分等级实行安全保护，对信息系统中使用的信息安全产品实行按等级管理，对信息系统中发

生的信息安全事件分等级响应和处置。

D）对国家安全、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信

息系统分等级实行安全保护，对信息系统中发生的信息安全事件分等级响应和处置。

8.［单选题］Zookeeper启动时会最多监听几个端口（）

A）l

B）2

D）4

9.［单选题］创建DRDS库的时候，每个挂载的RDS实例默认创建的库的个数为：（）。

A）16

B）8

D）2

10.［单选题］使用类间最大距离法进行图像分割时，下列步骤正确的是①计算相对距离度量值。②给

定一个初始阈值，将图像分成目标和背景两类。③分别计算出两类的灰度均值。④选择最佳的阈值

,使得图像按照该阈值分成两类后，相对距离度量值达到最大。

A）①②③④

B）②①③④

C）②③①④

D）①③②④

11.［单选题］MapReducevl和MapReducev2的主要区别在哪里?

A）编程模型

B）数据处理引擎

C）运行时环境

D）任务备份机制

12.［单选题］关于高偏差说法错误的是（）

A）、随着训练样本数增多，训练准确率和交叉验证准确率趋于收敛,但与理想取值的偏

差很大

B）、高偏差意味着模型在训练集和交叉验证集上的准确率都很低，很可能存在“欠拟合”

现象。

0、造成欠拟合的主要原因有两个：一是所训练出的模型过于简单；二是所选择的特征

32属性并不提供充分信息，与本模型的功能并不相关。

D）、高偏差表示对应模型很可能存在“过拟合”现象。

13.［单选题］支持向量回归与传统回归模型的差别（一）。

A）模型输出与真实值相同

B）模型输出与真实值存在£偏差

C）模型输出大于真实值

D）模型输出小于真实值

14.［单选题］世界一流能源互联网企业办公室统筹组织，下设技术组、商务组和管理优化组3个常设

小组，以下哪个不是管理优化组的成员部门O

A）国网互联网部

B）国网能源院

C）中国电科院

D）国调中心

15.［单选题］为提高计算性能，SPark中TranSformatiOn操作采用的是（__）计算模式。

A）活性

B）惰性

C）实时

D）非实时

16.［单选题］关于hive错误的是

A）数据存储在HDFS中

B）通过类SQL语句快速实现MaPRedUCe统计

C）HiVe的设计目标为适用于OLTP业务场景

D）不提供行级数据更新操作

17.［单选题］在Python3中执行以下代码段a=21b=IOprint（ab）时，输出为（）。

A）True

B）False

C）None

D）Error

18.［单选题］Hadoop中，（）执行文件系统命名空间操作。

A）DataNode

B）NameNode

C）JobTracker

D）TaskTracker

19.［单选题］一个正常的SPark任务会产生哪些调度任务？

A)DAG

B)RDD

OTask

D)Job

20.［单选题］机器学习中，基于样本分布的距离是()。

A)马氏距离

B)欧式距离

C)曼哈顿距离

D)闵可夫斯基距离

21.［单选题］数据资产维护是指为保证数据质量，对数据进行()等处理的过程。

A)更正

B)删除

C)补充录入

D)以上答案都正确

22.［单选题］HBase中数据存储的文件格式是什么？

A)File

B)SequencefiIe

C)Log

D)TXTFiIe

23.［单选题］有关kmeans算法，正确的说法是？()

Qkmeans算法对异常样本非常敏感，因此在聚类前要把异常样本直接删除。

B)kmeans只能处理凸型分布的非数值型样本。

Okmeans聚类的过程与初始的k个假设的聚类中心的选择没关。

D)kmeans算法需要在聚类前确定类数k,这个k值需要有助于解释各类的业务含义。

24.［单选题］若是想要实现自定义分组规则，则需要自定义Class类，然后继承O类。

A)WritableComparator

B)Comparator

OWritable

D)WritableComparab1e

25.［单选题］下列关于PandaS库的说法中正确的是()

A)Pandas中只有两种数据结构

B)PandaS不支持读取文本数据

C)Pandas是在NUmPy基础上建立的新程序库

D)PandaS中SerieS和DataFrame可以解决数据分析中一切的问题

26.［单选题IFusionnInsigetHD系统中，Flume数据流在节点内不需要经过哪个组件？

A)Source

B)Sink

C)Topic

D)Channel

27.［单选题］根据《促进大数据发展行动纲要》(国发(2015)50号)，大数据发展和应用在未来

5T0年确定要逐步实现的目标不包括Oo

A)培育高端智能、新兴繁荣的产业发展新生态

B)构建以人为本、惠及全民的民生服务新体系

C)建立运行平稳、安全高效的经济运行新机制

D)开启军民协同、军地两用的创新驱动新格局

28.［单选题］以下选项中，哪个程序负责HDFS数据存储()。

A)NameNode

B)DataNode

C)Secondary

D)ResourceManager

29.［单选题］以下不属于大数据在社会活动中的典型应用的是()。

A)美团实现了快速精准的送餐服务

B)共享单丰、滴滴打车方便了人们的日常出行

C)快递实现了订单的实时跟踪

D)供电公司提供电费账单查询

30.［单选题］HBase获得COnneCtion连接正确的是()

A)Connectionconn=ConnectionFactory.CreateConnection(conf)；

B)Connectionconn=ConnectionFactory.CreateConnectionO；

C)Connectionconn=Connection.CreateConnection(conf)；

D)Connectionconn=Connection.CreateConnection()；

31.［单选题］下列哪一个不属于第三次信息化浪潮中新兴的技术？

A)互联网

B)云计算

C)大数据

D)物联网

32.［单选题］若采用留出法将数据集D划分为训练集S和测试集T,其中D包含1300个样本，S包含700个

样本，模型在T上有60个样本分类错误，那么该模型的精度为(一)。

A)95.40%

B)90%

C)10%

D)4.90%

33.［单选题］在二分类问题中，当测试集的正例和负例数量不均衡时，以下评价方案哪个是相对不合

理的()(假设PreCiSiOn=TP/(TP+FP),recall=TP/(TP+FN)。)

A)Accuracy：(TP+TN)∕all

B)F-value：2*recall*precision/(recal!+precision)

C)G-mean:sqrt(precision*recall)

D)AUC：ROC曲线下面积

34.［单选题］大数据的特点不包括下面哪一项()

A)、巨大的数据量

B)、多结构化数据

C)、增长速度快

D)、价值密度高

35.［单选题］以下Python在数据科学中应用的缺点的是()

A)、Python中可用于数据科学的第三方扩展包的数量多、功能强

B)、Python是一种解释型语言，因此能较好地支持数据科学中的交互式分析任务

C)、Python编写的源代码跨平台性高，可扩展性和可移植性强

D)、Python代码不能加密，因此安全性较低

36.［单选题］以下关于HiVe内置函效描述正确的是？

A)to_data()：获取当前日期

B)descfunctionsupper：查看系统自带的函效

C)substr():求字符串长度

D)trim():去除空字符

37.［单选题］下列图像边缘检测算子中抗噪性能最好的是()。

A)梯度算子

B)Prewitt算子

C)Roberts算子

D)Laplacian算子

38.［单选题］MaxCompute中，A和B都是bigint类型，进行A/B运算，返回结果为：()。

A)double

B)int

C)bigint

D)float

39.［单选题］下列关于Bagging的说法错误的是()。

A)各基分类器之间有较强依赖，不可以进行并行训练

B）最著名的算法之一是基于决策树基分类器的随机森林

C）当训练样本数量较少时，子集之间可能有重叠

D）为了让基分类器之间互相独立，需要将训练集分为若干子集

40.［单选题］Hive将表中的数据保存到文本，并使用命令插入到emplOyee表中的命令正确是（）

A）loadlocalinpath'∕opt∕data∕test.txt'overwriteintotableemployee；

B）loaddatainpath'∕opt∕data∕test.txt'overwriteintotableemployee；

C）loaddatalocalinpathl∕opt∕data∕test.txt'intotableemployee；

D）loaddatalocalinpath1∕opt∕data∕test.txt'overwriteintotableemployee；

41.［单选题］Hadoop框架中最核心的设计是什么？

A）为海量数据提供存储的HDFS和对数据进行计算的MaPRedUCe

B）提供整个HDFS文件系统的NameSPaCe（命名空间）管理、块管理等所有服务

C）HadOOP不仅可以运行在企业内部的集群中，也可以运行在云计算环境中

D）HadooP被视为事实上的大数据处理标准

42.［单选题］（）算法假设聚类结构能通过样本分布的紧密程度确定。

A）原型聚类

B）密度聚类

C）层次聚类

D）模型聚类

43.［单选题］回归分析的任务,就是根据（）和因变量的观察值，估计这个函数,并讨论与之有关的种种

统计推断的问题。

A）相关变量

B）样本

C）已知数据

D）自变量

44.［单选题］若学习如何种瓜，在种瓜过程中不断摸索，从而总结出好的种瓜策略。这个过程抽象出

来，就是（_）。

A）机器学习

B）深度学习

C）强化学习

D）有监督学习

45.［单选题］数据产品开发工作之中需要特别注意的基本活动不包括（）。

A）创造性设计

B）数据洞见

C）虚拟化

D）个性化描述

46.［单选题］出现在datanode的VERSloN文件格式中但不出现在namenode的VERSlON文件格式中的是

A)namespaceID

B)StorageID

C)StorageType

D)IayoutVersion

47.［单选题］下面不属于维归约方法的是（_）。

A)PCA

B)SVD

ODWT

D)KNN

48.［单选题］以下代码会打印多少次"ILovePythOn"?While'"：print（'ILove

Python'）print（'ILovePython'）

A）0

B）100

C）程序错误不执行

D）l

49.［单选题］关于“三型两网”建设，以下（）说法不正确：

ʌ）以建设泛在电力物联网为主攻方向

B）进一步改造提升传统业务

C）发挥电网企业的平台和资源优势，着力拓展新市场、开辟新领域、打造新业务

D）大力开拓互联网经济这一巨大蓝海市场

50.［单选题］具体来说，MaP对数据进行指定的操作，生成（一）形式的中间结果。

A）数组

B）矩阵

0队列

D）键值对

51.［单选题］定义域为｛1,2,3｝的离散属性也可称为称为（_）。

A）无序属性

B）有序属性

C）连续属性

D）离散属性

52.［单选题］词袋模型是在自然语言处理和信息检索中的一种简单假设。在这种模型中，文本（段落

或者文档）被看作是（）的词汇集合，忽略语法甚至是单词的顺序。

A）无序

B）有序

C）无意义

D）规范

53」单选题］DougCUtting所创立的项目的名称都受到其家人的启发，以下项目不是由他创立的项目

是（）

A）Hadoop

B）Nutch

C）Lucene

D）Solr

54.［单选题］下列方法中，可以将字符串中的字母全部转换为大写的是（）。

A）upper（）

B）lower（）

Otitle（）

D）capitalize（）

55.［单选题］以下说法正确的是（）。

A）关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则

B）寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式

C）数据挖掘的主要任务是从数据中发现潜在的规律,从而能更好地完成描述数据、预测数据等任务

D）在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差

56.［单选题］（）对应于决策树结果,其他节点对应于（）。

A）叶节点，属性测试

B）根结点，学习测试

C）内部节点，学习测试

D）叶节点，分类测试

57.［单选题］Matplotlib中的legend（）函数的作用是（）。

A）设置标签文本

B）绘制网格线

C）标示不同图形的文本标签图例

D）设置X轴的数值显示范围

58.［单选题］下列不属于专家系统的解释功能的主要作用是（）。

A）对用户说明为什么得到这个结论

B）对用户说明如何得到这个结论

C）提高专家系统的信赖程度

D）对用户说明专家系统的知识结构

59.［单选题］执行一个job,如果这个job的输出路径已经存在，那么程序会（）。

A）覆盖这个输出路径

B）抛出警告，但是能够继续执行

C)抛出一个异常，然后退出

D)创建一个新的输出路径

60.［单选题］Spark那个组件用于支持实时计算需求()

A)SparkSQL

B)SparkStreaming

C)SparkGraphX

D)SparkMLLib

61.［单选题］在“大数据财务分析”的可视化模块中，下列说法错误的是()

A)每一个图表类型均可以设置其图形属性

B)每一个图表类型均可以设置其组件样式

C)绝大部分的图表在坐标系中完成，坐标系主要由横轴与纵轴组成

D)一个坐标系中只允许设置一个参数(维度或指标)

62.［单选题］numPy对数组进行排序用什么函数？

A)np.sqrt()

B)np.eye()

C)np.identity()

D)np.sort()

63.［单选题］可视化中的组件样式不包括()

A)标题

B)自适应显示

C)标签

D)轴线

64.［单选题］()分类方法可以较好地避免样本的不平衡问题

A)KNN

B)SVM

C)Bayes

D)神经网络

65.［单选题］在HDFS的数据读取过程中，客服端首先调用。的实例的。pen()方法打开一个文件。

A)DistributedFiIeSystem

B)FileSystem

C)FSDataOutputStream

D)FSDataInputStream

66.［单选题］在HadooP框架中(—)为大数据提供了计算。

A)HDFS

B)MapReduce

C）YARN

D）Container

67.［单选题］以下描述中，哪一个选项属于HDFS的使用场景？

A）海量气象数据存储

B）社交媒体数据流式分析

C）数据采集与开发

D）集群资源调配管理

68.［单选题］数据仓库是随着时间变化的，下面的描述不正确的是（）。

A）数据仓库随时间的变化不断增加新的数据内容

B）捕捉到的新数据会覆盖原来的快照

C）数据仓库随事件变化不断删去旧的数据内容

D）数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合

69.［单选题］学习率对机器学习模型结果会产生影响，通常希望学习率（）

A）越小越好

B）越大越好

C）较小而选代次数较多

D）较大而选代次数较小

70.［单选题］Gateway在EIaStiCSearCh中的含义是？

A）网关

B）素引的存储方式

C）rpc请求接

D）索引快照的存储方式

71.［单选题］下列关于支持向量机优化性问题的形式，说法正确的是（）。

A）它是一个凸二次规划问题

B）它是一个凸一次规划问题

C）它是一个凹二次规划问题

D）它是一个凹一次规划问题

72.［单选题］Matplotlib的核心是面向（）。

A）过程

B）对象

C）结果

D）服务

73.［单选题］国家电网有限公司数据管理办法规定，在集中共享、服务应用方面，依托全业务统一数

据中心和O进行数据归集、共享应用，推动跨专业数据贯通融合。

A）企业中台

B）业务中台

C）数据中台

D）国网云

74.［单选题］在HDFS中（）是文件系统的工作节点。

A）DataNode

B）Client

ONameNode

D）Flume

75.［单选题］面向对象程序设计的缺点是（一）。

A）可扩展性

B）编程复杂度

C）共享性

D）易维护性

76.［单选题］围绕（）大领域开展泛在电力物联建设任务

A）五

B）六

C）四

D）八

77.［单选题］kNN最近邻方法在（）情况下效果较好。

A）样本较多但典型性不好

B）样本较少但典型性好

C）样本呈团状分布

D）样本呈链状分布

78.［单选题］从源数据源系统抽取目的数据源系统需要的数据这一过程称为（—）。

A）数据抽取

B）数据转换

C）数据加载

D）数据存储

79.［单选题］下列关于IPython的说法，错误的是（）

A）IPython集成了交互式Python的很多优点

B）IPython的性能远远优于标准的PythOn的Shell

C）IPythOn支持变量自动补全，自动收缩

D）与标准的PythOn相比，IPython缺少内置的功能和函数

80.［单选题］下列属于无监督学习的是（）。

A）K-means

B）SVM

C）最大蜻

D）CRF

8L［单选题］以下描述中不正确的是（—）o

A）归纳是指从特殊到一般的泛化过程

B）归纳是指从具体的事实归结出一般性规律

C）演绎是指从特殊到一般的特化过程

D）演绎是指从基础原理推演出具体情况

82.［单选题］内外部合作单位和供应商的数据安全管理过程中，应确保内部合作单位开发测试环境与

互联网O,严禁外部合作单位、技术支持单位和供应商在对互联网提供服务的网络和信息系统中

存储或运行公司商业秘密数据和重要数据。

A）物理隔离

B）逻辑隔离

C）相互连接

D）间接连接

83.［单选题］根据《大数据风控平台项目操作手册》，集团图谱页面右侧展示【放大】、【缩小】、

【刷新】、【展开】4个按钮，其中具有“将展示的集团图谱刷新，并将其恢复到刚进入页面时的状

态”功能的是O按钮。

A）放大

B）B.缩小

OC.刷新

D）D.展开

84.［单选题］ApacheKUdU是通过什么方式来提高OLAP性能的？

A）预计算

B）列式存储

C）内存存储

D）硬件加速

85.［单选题］下列代码的运行结果是（）。print（'a'<'b'<'c'）

A）a

B）b

D）l

86.［单选题］Sqoop将导入或导出命令翻译成什么程序来实现导入导出（）

A）Spark

B）Storm

OMapReduce

D)Tez

87.［单选题］依托（），结合应用推进数据归集，形成统一的数据资源中心。

A）全业务数据中心和数据平台

B）营销基础数据平台和大数据平台

C）全业务中心和营销基础数据平台

D）全业务数据中心和大数据平台

88.［单选题］按粒度大小的顺序，HiVe数据被分为：数据库.数据表.（）・桶？

A）元祖

B）栏

C）分区

D）行

89.［单选题］下列关于FIinkbarrier描述错误的是:（）。

A）barrier周期性的插入到数据流中，并作为数据流的一部分随之流动

B）barrier是Flink快照的核心

C）一个barrier将本周期快照的数据与下一周期快照的数据分隔开来

D）在插入barrier的时候，会暂时阻断数据

90.［单选题］Hadoop平台中；要查看YARN服务中一个application的信息；通常需要使用什么命令

A）container

B）applIcationattermpt

C）jar

D）application

91.［单选题］下列关于热力点图的说法中，错误的是（）

A）热力点图是指根据数据的结果、以不同热力色展示出数据大小的图表

B）在热力点图中，颜色越热烈往往意味着数值越大

C）我们可以设置热力点图中的点的大小,使其反应出原始数据中其他指标的状况

D）热力点图中无法设置标签属性

92.［单选题］下列程序执行后输出的结果为（）X='abc,Y=XY=IOOPrint（X）

A）“abc”

B）100

097,98,99

D）以上三项均错误

93.［单选题］下列说法哪项有误？

A）相对于SPark来说，使用HadOOP进行迭代计算非常耗资源

B）SPark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁

盘中频繁读取数据

C）HadOoP的设计遵循“一个软件栈满足不同应用场景”的理念

D）SPark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案

94.［单选题］Hive交互ShelI指执行$HlVEjOME∕bin∕hive之后，交互式命令行的提示符是（）

A）help>

B）hive>

C）user>

D）cmd>

95.［单选题］HBase在新建表的时候必须指定表名和（），不需要指定列，所有的列在后续添加数据的

时候动态添加。

A）行

B）单元格

C）时间戳

D）列族

96.［单选题］以下选项中由客户端编码决定的是（）。-

A）CharaCtejSet.server

B）character_set_database

C）CharaCtejsets_dir

D）character_set_results

97.［单选题］preprocessing,normalize。函数中的norm参数代表（—）。

A）需要正则化的对象

B）正则化的方式

C）对象的大小

D）返回值的维度

98.［单选题］执行一个job,如果这个job的输出路径已经存在，那么程序会（）。

A）覆盖这个输出路径

B）抛出警告，但是能够继续执行

C）抛出一个异常，然后退出

D）创建一个新的输出路径

99.［单选题］3**3的结果为（—）。

A）l

B）3

D）27

100.［单选题］循环神经网络简写是O

A）CNN

B)RNN

OLSTM

D)SRN

IOL［单选题］开发MaXComPUte的用户自定义标量函数，主要是实现其中的()方法。

A)evaluate

B)main

C)iterate

D)process

102.［单选题］运行下面代码，输出结果是()。

Importnumpyasnp

N=np.array(［El,2,3］,［4,5,6］］)print(n.size)

A)2

B)6

C)(2,3)

D)(3,2)

103.［单选题］在一些算法中，为了进行属性之间的比较或运算，需要把不同属性的不同变量取值范

围变换成同一范围，以免使得结果发生扭曲，偏向取值范围大的变量这一过程称为()。

A)合并

B)嘈数据聚合

C)归一化

D)数据处理

104.［单选题］查找数据库中所有的数据表用以下哪一项()

A)SHOWDATABASE

B)SHOWTABLES

C)SHOWDATABASES

D)SHOWTABLE

105.［单选题］SciPy库中用于物理和数学常量计算的模块是(_)。

A)scipy.cluster

B)scipy.io

C)scipy.constants

D)scipy.Iinalg

106.［单选题］企业中台是一种实现公司核心资源共享化、服务化的理念和模式，从管理视角上强调

O,从技术视角上强调OO

A)服务化、企业级

B)企业级、服务化

C)共享化、服务化

D）服务化、共享化

107.［单选题］下面关于关系数据库特点的描述，错误的是：O

A）采用表格的储存方式，数据以行和列的方式进行存储，要读取和查询都方便

B）为了规范化数据、减少重复数据以及利用好存储空间，把数据按照蚁小关系表的形式进行存储

C）由于关系数据库将数据存储在数据表中，数据操作的瓶颈出现在多张数据表的操作中.而且数据

表越多这个问题越严重

D）关系数据库采用非结构化查询语言来对数据库进行查询

108.［单选题］执行以下代码段importmathprint（math,modf（2.0））时，输出为（）0

A）（0.0,1.0）

B）（1.0,0.0）

C）（0.0,2.0）

D）（2.0,0.0）

109.［单选题］下列关于Numpy中秩（rank）的说法正确的是（）。

A）在Numpy数组中，秩（rank）和形状类似

B）在Numpy数组中，秩（rank）和轴是一个概念

C）在Numpy数组中，维数称为秩（rank）,一维数组的秩为1,二维数组的秩为2,以此类推

D）在Numpy数组中，没有秩（rank）这个概念

110.［单选题］关于机器学习中的目标函数，说法错误的是（）

A）、目标函数（TA、rgetFunC,tion）又称为"评价函数（EvA、IUA、tionFUnC、tion）w

B）、是机器学习算法中需要最大化或最小化一个函数

C）、可以直接、精确地表示目标函数

D）、目标函数包含误差函数和正则化项。

Ill.［单选题］在HBaSe数据模型中，不可以作为行键的是。。

A）字符串

B）整数

C）二进制串

D）并行化的结构

112.［单选题］泛在电力物联网的总体架构，以下哪个不是外部客户O

A）能源供应商

B）政府部门

C）能源服务商

D）生产客户

113.［单选题］函数如下defchanagelnt(number2)：number2=number2+lprintCchangeInt:

number2=",number2)#调用number1=2chanagelnt(numberl)print("nUInber：",numberl)打印结果

哪项是正确的()

A)changelnt:number2=3number：3

B)changelnt：number2=3number：2

C)number：2changelnt：number2=2

D)number：2changelnt：number2=3

∏4.［单选题］由于大数据要处理大量、非结构化的数据，所以在各处理环节中都可以采用()处理

A)串行

B)并行

C)逻辑

D)科学

115.［单选题］根据《大数据风控平台项目操作手册》，从【集团客户管理】节点路径进入集团图谱

,在修订模式下的集团图谱页面，对于【行内客户已认定】节点下的O客户，鼠标右键单击，鼠

标箭头右下角除悬浮【新增】按钮外，还悬浮【添加到信贷关系中】按钮，点击此按钮，可将此节

点的未认定客户添加至【集团家谱】菜单的集团成员列表中。

A)行内客户未认定

B)B.核心企业

OC.行内客户已认定

D)D.行内客户认定中

116.［单选题］下列关于Python中的OS模块常见方法的描述错误的是()。

A)os.remove()删除文件

B)os.rename()重命名文件

C)os.walk()读取所有的目录名

D)os.chdir()改变目录

117.［单选题］执行引擎的类型包括：()。

A)行执行引擎

B)向量化执行引擎

C)行列混合执行引擎

D)以上都是

118.［单选题］对ElaStiCSearCh检索流程描述正确的是？

A)检索节点汇总结果发送给客户端

B)分片节点不需要汇总结果直接把结果发送给客户端

C)分片节点汇总结果发送给客户端

D)检索节点不需要汇总结果直接把结果发送给客户端

119.［单选题］HDFS读取文件时用的是哪一个read方法？

A)DataInputStream

B)FSDataInputStreani

C)DataOutputStream

D)FSDataOutputStream

120.［单选题］在WebHCat架构中，用户能够通过安全的HTTPS协议执行以下()操作。

A)执行HiVeDDL操作

B)运行MaPRedUCe任务

C)运行HiVeSQL任务

D)以上全部正确

121.［单选题］以下程序的输出结果是：d={"zhang"："China","Jone"："America",

"Natan"："Japan"}print(max(d),min(d))

A)JapanAmerica

B)zhang：ChinaJone=America

C)ChinaAmerica

D)zhangJone

122.［单选题］下列有关HiVe建表语句写法正确的是CJ0

A)NEWTABLEemployees(empIDINT,nameSTRING)；

B)CREATETABLEemployees(empIDINT,nameSTRING)；

ONEWTABLEemployees(INTempID,STRINGname)；

D)CREATETABLEemployees(INTempID,STRINGname)；

123.［单选题］下面哪个不属于RedUCer阶段O

A)Shuffle

B)Sort

OMap

D)Reduce

124.［单选题］下列不属于聚类性能度量外部指标的是(_)。

A)JaCCard系数

B)FM系数

C)Rand指数

D)DB指数

125.［单选题］在Windows系统中，关闭Python终端会话常用的快捷键是()。

A)Ctrl+C

B)Ctrl+D

C)Ctrl+E

D)Ctrl+Z

126.［单选题］假设有n组数据集，每组数据集中X的平均值都是9,X的方差都是11,y的平

均值都是7.50,X与y的相关系数都是0.816,拟合的线性回归方程都是y=3.00+0.500x。那么这

n组数据集（）。

A)一样

B)不一样

C)无法确定是否一样

D)以上都不对

127.［单选题］根据《大数据风控平台项目操作手册》，系统在【客户信息管理】一级菜单下增加【

征信报告查询管理】二级菜单，用户可在此菜单下发起征信报告查询申请，以及查看审批批准客户

的征信报告。该菜单下设置【待处理的征信报告】、【审批中的征信报告】等O个节点，对应征

信报告查询申请的各节点。

A)l

B)B.2

OC.3

D)D.4

128.［单选题］scipy.StatS模块中随机变量的概率密度函数是什么？

A)stats

B)fit

C)pdf

D)ppf

129.［单选题］在HBaSe系统架构中，HBaSe中最核心的模块是()

A)HMaster

B)HRegionServer

C)ZooKeeper

D)Client

130.［单选题］下列对于等距离散化和等频离散化的叙述中，不正确的是O

A)等距离散化是将连续型特征的取值区间均匀的划分成多个区间段

B)等距离散化对数据离群值不敏感

C)等频离散化考虑了区间段中的样本个数，使每个区间段的样本数相同

D)等频离散化会将相似的样本划分到不同的区间

131.［单选题］完全不考虑程序的内部结构和内部特征，而只是根据程序功能导出测试用例的测试方

法是

A)错误推测法

B)白箱测试法

C)黑箱测试法

D)安装测试法

132.［单选题］以下哪种方法属于判别式模型(discriminativemodel)

A)隐马模型(HMM)

B)朴素贝叶斯

C）LDA

D）支持向量机

133.［单选题］Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是（）

A）安全模式目的是在系统启动时检查各个DataNOde上数据块的有效性

B）根据策略对数据块进行必要的复制或删除

C）当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式

D）文件系统允许有修改

134.［单选题］线性判别分析是一种经典的（_）学习方法。

A）线性

B）非线性

C）聚类

D）降维

135.［单选题］（）不是HDFS的设计目标。

A）流式数据访问

B）大规模数据集

C）移动计算

D）”多次写入，多次读取”的文件访问模型

136.［单选题］机器学习是对于一个计算机程序给定一个（）和一个（），如果在（）的影响下，P对

T的测量结果得到了改进，则可以认为程序在E中学习了。

A）经验E、性能测量方法P、任务T

B）任务T、性能测量方法P、经验E

C）任务T、经验E、性能测量方法P

D）性能测量方法P、经验E、任务T

137.［单选题］Action是RDD的算子的一个类型，不可以将结果写入O.

A）磁盘

B）CPU

OHDFS

D）数据库

138.［单选题］对于ADS,（）说法不正确。

A）ADS表存在主键，即可根据主键使用delete删除纪录

B）普通表分区列如果是字符串型，则不支持普通表之间的join

C）自查询之间不支持join

D）ADS通过UNlON（ALL）各个分区内的查询结果实现自查询

139.［单选题］资源注册页面，点击Solr增量索引的作用是：（）。

A）创建索引

B)增加索引

C)更新索引

D)删除索引

140.［单选题］用户输入整数的时候不合规导致程序出错，为了不让程序异常中断，需要用到的语句

是：

A)if语句

B)eval语句

C)try-except语句

D)循环语句

141.［单选题］()不是Hive支持的数据类型。

Λ)Struct

B)Int

OMap

D)Long

142.［单选题］以下关于异常处理try语句块的说法，不正确的是。。

A)finalIy语句中的代码段始终要被执行

B)一个try块后接一个或多个except块

C)一个try语句块后接一个或多个finalIy块

D)try块必须与except或finalIy块一起用

143.［单选题］下面关于分析学习描述正确的是(_)。

A)分析学习的缺陷在于不完美的领域理论

B)分析学习的目标是拟合数据假设

C)分析学习通过演绎推理

D)分析学习无需先验知识

144.［单选题］RDD中的数据被()在集群中，使得任务可以并行执行。

A)顺序存储

B)连续存储

C)分块存储

D)分区存储

145.［单选题］以下是字符转换成字节的方法是

A)decode()

B)encode()

C)upper()

D)rstrip()

146.［单选题］大数据产业全景图中包含以下选项()：1.基础设施;2.企业应用；3.分析工具;4.行

业行为；5.开源工具;6.数据资源;7.跨平台基础设施和分析工具;8.数据源和APPs。

A）1234

B）12345678

02345678

D）5678

147.［单选题］Kafa集群在运行期间，直接依赖于下面哪些组件？

A）spark

B）zookeeper

Ohdfs

D）hbase

148.［单选题］将两篇文本通过词袋模型变为向量模型，通过计算向量的（）来计算两个文本间的相

似度。

A）正弦距离

B）余弦距离

C）长度

D）方向

149.［单选题］下列选项中，不属于个人隐私的是OO

A）个人工作职责

B）个人健康状况

C）个人位置信息

D）个人家庭信息

150.［单选题］根据《大数据风控平台项目操作手册》，在征信报告页面，点击底部【打印报告】按

钮，弹出打印机选择页面。用户在弹出的打印机选择页面，选择O项，点击【打印】按钮，选择

保存路径，即可保存PDF版本征信报告文件到指定路径。

A）Fax

B）B.MicrosoftprinttoPDF

C）C.MicrosoftXPSDocumentWriter

D）D.OneNote

151.［单选题］以下acl授权里，（）是对MaXComPUte的表赋予SeIeet权限。

A）grantreadontabletable_nametouser<full_name>

B）grantselectontabletable_nametouser<full_name>

C）grantreadonprojectproject_nametouser<fule_name>

D）grantdesconprojectproject_nametouser<fule_name>

152.［单选题］可用信息增益来进行决策树的（_）。

A）树高

B）叶子结点数

C)总结点数

D)划分属性选择

153.［单选题］MapReduce里面的query、SOrt和Iimit等都是针对哪个阶段的操作？

ʌ)Map()之前

B)Reduce()之前

C)Reduce()之后

D)finalize()之后

154.［单选题］下列代码执行结果是()0［i*iforiinrange(3)］

A)［l,1,4］

B)［O,1,4］

C)［1,2,3］

D)(l,1,4)

155.［单选题］SQL语言集数据查询、数据操纵、数据定义和数据控制功能于一体，其中，CREATE、

DROP、ALTER语句是实现哪种功能()

A)数据操纵

B)数据控制

C)数据定义

D)数据查询

156.［单选题］Flume中最小的独立运行单位是()。

A)Source

B)Agent

C)Channel

D)Sink

157.［单选题］隐马尔可夫模型是一种著名的(_)模型。

A)无向图

B)有向图

C)树形图

D)环形图

158.［单选题］依托()，结合应用推进数据归集，形成统一的数据资源中心。

A)全业务数据中心和数据平台

B)营销基础数据平台和大数据平台

C)全业务中心和营销基础数据平台

D)企业务数据中心和大数据平台

159.［单选题］执行以下代码段ClaSSchange：def—init_(self,x,y,z)：self,a=χ+y**

zx=change(1,2,3)y=getattr(x,'a')setattr(x,'a',y+I)Print(x.a)时，输出为

(一)o

A)7

B)8

C)9

D)10

160.［单选题］查找数据表中的记录用以下哪一项()

A)ALTRE

B)UPDATE

C)SELECT

D)DELETE

161.［单选题］在SPark技术中，RDD实现了用户的逻辑，而(_)是StOrage模块与其他模块交互最

主要的类，它提供了读和写BlOCk的接口。

A)org.apache,spark,storage.Block

B)org.spark,storage.BlockManager

C)org.apache,spark.BlockManager

D)org.apache,spark,storage.BlockManager

162.［单选题］根据《大数据风控平台项目操作手册》，日常工作提示(预警)中，外部风险信息提

示近O天的外部风险信息。

A)15

B)B.30

OC.60

D)D.90

163.［单选题］可以对用户的行为或相关事件进行实时监测和分析的产品的是：()。

A)AnalyticDB

B)流计算

OMaxCompute

D)TS

164.［单选题］关于基于HadoOP的MaPRedUCe编程的环境配置，下面哪一步是不必要的。

A)安装IinUX或者在WindOWS下安装CgyWin

B)安装java

C)安装MaPRedUCe

D)配置HadOOP参数

165.［单选题］matplotlib中设置X轴数值显示范围的函数是什么()

A)xrange()

B)xspan()

C)xlabel()

D)xlim()

166.［单选题］Maxcompute项目Prjl中存在表t,同时使用下述SQL创建视图v：createviewvas

select*fromt；Prjl的OWner把视图V的读权限赋给了用户AIiCe,以下()说法是正确的。

A)因为没有表t的访问权限，所以AliCe无法访问视图V

B)由于权限的依赖关系，AIiCe既可以访问视图V又可以表t

C)AIiCe可以通过访问视图V来查询表t的数据

D)AliCe可以访问表t,因为她具有了视图V的访问权限，自然获得了表t的访问权限

167.［单选题］Flink中的答案:接口用于流数据处理,答案：接口用于批处理？

A)DataBatchAPI1DataStreamAPI

B)StreamAPI,BatchAPI

C)DataStreamAPI,DataSetAPI

D)BatchAPI,StreamAPI

168.［单选题］HDFS默认的最基本的储存单位是？

A)数据块

B)元数据节点

C)数据节点

D)从元数据节点

169.［单选题］()不可以直接来对文本分类。

A)K-means

B)决策树

C)支持向量机

D)KNN

170.［单选题］HBase在新建表的时候必须指定表名和()，不需要指定列，所有的列在后续添加数据

的时候动态添加。

A)行

B)单元格

C)时间戳

D)列族

171.［单选题］()与HDFS类似。

A)NTFS

B)FAT32

OGFS

D)EXT3

172.［单选题］实时处理的步骤中，实时计算的前一步是以下哪一项?.

A)实时展示

B）实时缓存存储

C）实时采集

D）实时落地

173.［单选题］以下哪一项不属于HadOoP可以运行的模式。

A）单机（本地）模式

B）伪分布式模式

C）互联模式

D）分布式模式

174.［单选题］大数据时代，数据使用的关键是

A）数据收集

B）数据存储

C）数据分析

D）数据再利用

175.［单选题］DataFrame和RDD最大的区别（）

A）科学统计支持

B）多了schema

C）存储方式不一样

D）外部数据源支持

176.［单选题］Python中使用（）转义字符。

A）/

B）∖

D）%

177.［单选题］kafka-clustermirroring工具可以实现以下那些功能?

A）kafka集群数据同步方案

B）kafka单集群内数据备份

Okafka单集群内数据恢复

D）以全部不对

178.［单选题］通过DMS（）管理其他阿里云帐号下的RDS实例。

A）只要有数据库帐号即可管理

B）通过DMS”实例授权”功能授权后即可管理

C）完全不可以

D）通过RAM授权后才能管理

179.［单选题］（）是一个分布式的基于发布/订阅模式的消息队列。

A）Flume

B)Kafka

C)Zookeeper

D)Hive

180.［单选题］在【连接】面板,join条件中输入正确的一项是()

A)'差旅费超额百分比'.userid='用户'.id

B)“差旅费超额百分比.userid=用户.id”

C)“差旅费超额百分比.userid==用户.id”

D)''差旅费超额百分比''.userid=''用户''.id

181.［单选题］以下关于数据中心、业务系统访问权限的说法正确的有Oo

A)数据中心、业务系统权限账号仅供责任人登录使用，不得借与他人

B)数据中心、业务系统权限账号密码不超过6个月要更换一次

C)为了保密，对数据中心、业务系统权限账号的登录时间、时长等实行无痕迹管理

D)数据中心、业务系统访问权限实行匿名制管理

182.［单选题］下列代码中输出结果是False的是()。

A)»>5isnot4

B)>>>5!=4

C)>>>False!=0

D)>>>5is5

183.［单选题］MapReduce编程模型，键值对<；key,value>；的key必须实现哪个接口()。

A)WritableComparab1e

B)Comparable

OWritable

D)LongWritable

184.［单选题］根据《大数据风控平台项目操作手册》，系统在【客户信息管理】一级菜单下增加【

征信报告查询管理】二级菜单，用户可在此菜单下的【待处理的征信报告】节点中点击O按钮

,提交征信报告查询申请。

A)新增查询

B)B.上传授权书

OC.取消申请

D)D.提交

185.［单选题］查看HDFS的报告命令是()

A)bin/hdfsdfsadmin-report

B)bin∕hdfs-report

C)bin/hdfsdeadmin-report

D)bin/hdfsdfs-report

186.［单选题］剪枝是决策树学习算法对付(一)的主要手段。

A)欠拟合

B)过拟合

C)计算速度

D)计算效率

187.［单选题］大数据平台核心分布式存储与计算组件采用Hadoop技术体系中的分布式存储、分布

式计算框架及Spark等开源产品和技术，实现对数据的安全控制和管理功能，其中分布式存储不包

括()。

A)HDFS

B)Postgresql

OHive

D)HBase

188.［单选题］以下哪项不属于批量数据采集工具？。

A)MapReduce

B)Flume

C)Scoop

D)其他ETL工具

189.［单选题］根据《大数据风控平台项目操作手册》，系统在【大数据贷后预警处置】菜单下设置

【待处置】、【处置中】等4个节点。其中，用户在()节点可对审批退回的客户重新查看其预警信

号详情，填写相关处置措施，并选择性的进行贷后影像资料补充，提交审核。

A)待处置

B)B.处置中

C)C.退回

D)D.处置完成

190.［单选题］下面与HDFS类似的框架是？

A)NTFS

B)FAT32

OGFS

D)EXT3

191.［单选题］下列(—)是对目录操作。

A)mkdir

B)print

C)close

D)remove

192.［单选题］下列哪个属性是hdfs-site.Xml中的配置?()

A)dfs.replication

B）fs.defaultFS

Omapreduce.framework,name

D）yarn,resourcemanager,address

193.［单选题］下列有关OGG的描述错误的是（一）。

A）OGG可以实现一对一、广播、聚合、级联等多种灵活的拓扑结构

B）OGG管理维护相对直观，使用自带的管理工具，能够对其进行图形化界面的管理

C）OGG支持异构复制

D）OGG不支持异构复制

194.［单选题］K-Means算法无法聚（）样本。

A）圆形分布

B）螺旋分布

C）带状分布

D）凸多边形分布

195.［单选题］小A汇总统计了各省收入，并设置了降序排列，如何实现toplθ?（）

A）筛选器-精确筛选

B）筛选器-条件筛选

C）显示条目数

D）无法实现

196.［单选题］已知一个数据集,n为特征数,m为训练样本数，如果n较小，而且m大小中等（例如n为

Γ1000,而m为I（Tloooo）,则一般选择（）。

A）逻辑回归模型

B）不带核的支持向量机

C）高斯核的支持向量机

D）多项式核的支持向量机

197.［单选题］根据《大数据风控平台项目操作手册》，集团图谱页面右侧展示【放大】、【缩小】

、【刷新】、【展开】4个按钮，其中具有“将展示的集团图谱缩小”功能的是（）按钮。

A）放大

B）B.缩小

OC.刷新

D）D.展开

198.［单选题］在Hadoop生态系统中，（）建立在MapReduce之上，主要用来弥补MaPRedUCe

编程的复杂性。

A）Hbase

B）Flume

OPig

D）Sqoop

199.［单选题］下列关于MapReduce说法不正确的是()。

A)MaPRedUCe是一种计算框架

B)MapReduce来源于google的学术论文

C)MapReduce程序只能用java语言编写

D)MaPRedUCe隐藏了并行计算的细节，方便使用

200.［单选题］删除数据库表使用的是O

A)DROP

B)UPDATE

C)DELETE

D)DELETED

201.［单选题］HDFS默认的当前工作目录是/user/$USER,fs.default,name的值需要在哪个配置文件

内说明。

A)mapred-site.xml

B)core-site,xml

C)hdfs-site.xml

D)yarn-site,xml

202.［单选题］()是一种著名的密度聚类算法，它基于一组邻域参数来刻画样本的紧密程度

A)DBSCAN

B)原型聚类

C)密度聚类

D)层次聚类

203.［单选题］下面关于MaPRedUCe的描述中正确的是？

A)MaPRedUCe程序必须包含MaPPer和Reducer

B)MaPRedUCe程序的MaPTaSk可以任意指定

C)MaPRedUCe程序的RedUCeTaSk可以任意指定

D)MaPRedUCe程序的默认数据读取组件是TextlnputFormat

204.［单选题］在数据管理技术的发展过程中，经历了人工管理阶段、文件系统阶段和数据库系统阶

段。在这几个阶段，数据独立性最高的是O阶段

A)数据库系统

B)文件系统

C)人工管理

D)数据项管理

205.［单选题］下列算法中属于局部处理的是

A)灰度线性变换

B)二值化

C)傅立叶变换

D)中值滤波

206.［单选题］使用Pig语句实现右外连接，下列语句正确的是(一)。

A)SELECT*FROMtmp_tableARIGHTJOINtmp_table_2BONA.age=B.age；

B)DUMPtmp_tableBYageRIGHTJOINtmp_table_2BYage；

C)tmp_table_join=JOINtmp_tableByageRIGHTOUTER,tmp_table_2BYage；DUMP

tmp_table_join；

D)JOINtmp_tableBYageRIGHTOUTER,tmp_table_2BYage；

207.［单选题］以下关于DataNOde的描述不正确的是？

A)DataNOde管理数据块元数据

B)DataNode执行数据块的读/写操作。

C)DataNOde的数量受数据规模影响。

D)DataNode是用来存储数据库。

208.［单选题］有如下程序:defcube(x)：returnx*x*xx=cube(3)Print(X)程序的输出结

果是(一)o

A)3

B)9

C)27

D)81

209.［单选题］在使用FiIeChannel传输数据时，FlUme可以达到的数据传输语义是？

A)Atmostonce

B)Atleastonce

C)Exactlyonce

D)Notonlyonce

210.［单选题］分布式文件系统HDFS采用了主从结构模型，由计算机集群中的多个节点构成的，这些

节点分为两类，一类存储元数据叫()，另一类存储具体数据叫().

A)名称节点，主节点

B)从节点，主节点

C)名称节点，数据节点

D)数据节点，名称节点

211.［单选题］下列可以用来降低深度学习模型的过拟合问题的方法有①增加更多的数据;②使用数据

扩增技术(也，taaugmen饱创咀)；③使用归纳性更好的架构;④正规化数据；

A)①④⑤

B)①②③

C)①③④⑤

D)所有项目都有用

212.［单选题］执行以下代码段CIaSSGraph()：definit_(self)：self,a=10def

action(self)：self,a//=4self,b**=2%3classMyGraph(Graph)：def—init_(self)：

self,a=8self,b=4defaction(self)：self,a+=7*2self,b**=2+Iclass

LastGraph(MyGraph)：passg2=LaStGraPh()g2.action。print(g2.b)时,输出为()。

A)17

B)l

C)16

D)64

213.［单选题］下列属于分组表中的是()

A)形状

B)风格

C)背景

D)标题

214.［单选题］在hadoop配置中yarn-site,xml作用是()

A)用于定义系统级别的参数

B)用于名称节点和数据节点的存放位置

C)用于配置JObHiStOryServer和应用程序参数

D)配置ResourceManager,NodeManager的通信端口

215.［单选题］Hive是建立在()之上的一个数据仓库

A)HDFS

B)MapReduce

OHadoop

D)HBase

216.［单选题］以下扫描算子中用于对列存表进行扫描

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础练习题及答案4-2023练习版

文档简介

温馨提示

最新文档

评论

大数据开发基础练习题及答案4-2023练习版

文档简介

温馨提示

最新文档

评论

相关文档