2023年大数据应用技能竞赛全题库-下（多选、判断题）

上传人：追*** IP属地：河北上传时间：2024-07-28 格式：PDF 页数：41 大小：7.80MB 积分：12 举报 版权申诉

已阅读5页，还剩36页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2023年大数据应用技能竞赛全题库-下(多选、判断题汇总)

多选题

1.随机森林的随机性主要体现在()。

A、决策树选择的随机性

B、数据集的随机性

C、待选特征的随机性

D、参数选择的随机性

答案：BC

2.有两种策略常用来缓解BP网络的过拟合,分别是()和0o

A、晚停

B、早停

G正则化

D、加入损失函数

答案：BC

3.Python支持运行的平台有()。

A、Windows

B、MacOS

CvCentOS

D、Ubuntu

答案：ABCD

4.传统关系数据库的优点包括()。

A、数据一致性高

B、数据冗余度低

C、简单处理的效率高

D、产品成熟度高

答案：ABD

5.关于Hive的说法正确的是()。

A、Hive是基于Hadoop的数据仓库工具

B、Hive可以将结构化的数据文件映射为一张数据库表

C、最初,Hive由Google开源,用于解决海量结构化日志数据统计问题

D、Hive的主要应用场景是离线分析

答案：ABD

6.Python的模块符合以下哪些说法()。

A、模块让你能够有逻辑地组织你的Python代码段

B\Python拥有丰富的模块，不支持自定义模块

C、把相关的代码分配到一个模块里能让你的代码更好用，更易懂

D、模块能定义函数,类和变量,模块里也能包含可执行的代码。

答案：ACD

7.关于神经网络,下列说法正确的是()

A、增加网络层数，可能会增加测试集分类错误率

B、增加网络层数,一定会增加训练集分类错误率

C、减少网络层数，可能会减少测试集分类错误率

D、减少网络层数，一定会减少训练集分类错误率

答案：AC

8.Flume特点包括0。

A\分布式

B、高可靠

C、图］容错

D、易于定制和扩展

答案：ABCD

9,下面哪些是spark比Mapreduce计算快的原因()。

A、基于内存的计算；

B、基于DAG的调度框架；

C、基于Lineage的容错机制；

D、基于分布式计算的框架；

答案：ABC

10.Spark容错性的方式有哪些()。

A、数据检查点；

B、存储原始数据；

C、记录数据的更新；

D、自建数据版本；

答案：AC

11.关于Python组合数据类型,以下选项中描述正确的是()。

A、Python的strtupIe和Iist类型都属于序列类型

BxPython组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单

一的表示使数据操作更有序更容易

C、组合数据类型可以分为3类:序列类型集合类型和映射类型

D、序列类型是二维元素向量,元素之间存在先后关系,通过序号访问

答案：ABC

12.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力,如

下属于分布式存储组件的有()。

A、MR

B、Spark

GHDFS

D、Hbase

答案：CD

13.关于Python分隔代码块描述错误的是0。

A、内嵌代码的每一行，都比外面的if语句的缩进更多

B、代码以“begin”开头，“end”结尾

C、每行代码的缩进都一致

D、代码块被封装在花括号中

答案：BCD

14.深度学习的实质及其与浅层学习的说法正确的是(_)。

A、DL强调模型深度

B、DL突出特征学习的重要性.特征变换+非人工

C、没有区别

D、以上答案都不正确

答案：AB

15.pit.axhline(y=0.0,c="r",Is="一",lw=2),对这句代码说法正确的是()。

A、在0.0处添加竖直参考线

B、添加水平参考线

C、参考线是虚线形式

D、网格线是红色的

答案：BC

16.字符串的格式化可以使用0。

A、%

B、format

C、input

D、+

答案：AB

17.以下()是scipy.stats可实现的连续随机变量方法。

Avrvs

B、pdf

C、ppf

D、cdf

答案：ABCD

18.如何在监督式学习中使用聚类算法0

A、首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法

B、在应用监督式学习算法之前，可以将其类别ID作为特征空间中的一个额外的

特征

C、在应用监督式学习之前,不能创建聚类

D、在应用监督式学习算法之前，不能将其类别ID作为特征空间中的一个额外的

特征

答案：AB

19.以下()属于数据统计分析工具。

A、Weka

B、SAS

C、SPSS

D\MatIab

答案：ABCD

20.关于TF-IDF模型描述正确的有0。

A、TF意思是词频

B、IDF是逆文本频率

C、该模型基于统计方法

D、在信息检索中应用较少

答案：ABC

21.a=np.array([1,2,3,4,5,6,7,8])以下()命令可以使输出结果为([5,6,7])。

A、a[4:7]

B、a[5:8]

C\a[4：-1]

D\a[5:]

答案：AC

22.在Windows系统中通过Geany编写Python程序，运行Python程序的常用步骤

是()。

A、菜单BuiId>Execute

B、菜单Execute>BuiId

G按F5

D、按F10

答案：AC

23.Python中jieba库的基本实现原理是什么0。

A、利用中文词库，分析汉字与汉字之间的关联几率

B、还有分析汉字词组的关联几率

C、还可以根据用户自定义的词组进行分析

D、还可以分析汉字与英文之间关联几率

答案：ABC

24.聚类性能度量外部指标包括()。

A、Jaccard系数

B、FM指数

C\Dunn指数

D、Rand指数

答案：ABD

25.(_)可以帮助解决训练集在特征空间中线性不可分的问题。

A、硬间隔

B、软间隔

C、核函数

D、拉格朗日乘子法

答案：BC

26.在建立模型时,需要用到()。

A、训练数据

B、测试数据

C、原始数据

D、验证数据

答案：ABD

27.下面哪些是基于核的机器学习算法(_)。

A、最大期望算法

B、径向基核函数

C、线性判别分析法

D、支持向量机

答案：BCD

28.以下关于CSV文件的描述,正确的选项是0。

A、CSV文件可用于不同工具间进行数据交换

B、CSV文件格式是一种通用的,相对简单的文件格式,应用于程序之间转移表格

数据。C

C\SV文件通过多种编码表示字符

D、CSV文件的每一行是一维数据,可以使用Python中的列表类型表示

答案：ABD

29.Analyticsl.0的主要特点有()。

A、分析活动滞后于数据的生成

B、重视结构化数据的分析

C、以对历史数据的理解为主要目的

D、注重描述性分析

答案：ABCD

30.Spark的技术架构可以分为哪几层()。

A、资源管理层；

B、Spark核心层;

C、应用层；

D、服务层；

答案：ABD

31.完整性约束通常包括()

A、实体完整性

B、域完整性

C、参照完整性

D、用户定义完整性

答案：ABCD

32.EDA(探索性数据分析)方法与传统统计学的验证性分析方法的区别有()。

A、EDA需要事先提出假设,而验证性分析不需要

B、EDA中采用的方法往往比验证性分析简单

C、在一般数据科学项目中,探索性分析在先，验证性分析在后

D、EDA更为简单、易学和易用

答案：BCD

33.以下关于HTML标签嵌套规则的说法,正确的是0。

A、块元素可以包含内联元素或某些块元素，但内联元素也可以包含块元素

B、HTML标签包括块级元素和内嵌元素

C、内嵌元素一般用在网站内容之中的某些细节或部位,用以“强调区分样式上标

下标锚点”等，通常包括：aabbrbbrfontiimginputkbdIabeIqsseIectsmaIIspans

ubttuvar等

D、其中块级元素一般用来搭建网络架构布局承载内容,通常包括的标签有:addr

essdirdivdIdtddformhl~h6hrisindexmenunoframesnoscriptoIppretabIeuI等

答案：BCD

34.下列哪些指标可以用来评估线性回归模型（多选）（）

A、R-Squared

B、AdjustedR-Squared

C、FStatistics

D、RMSE/MSE/MAE

答案：ABCD

35.关于分析学习和归纳学习的比较,说法正确的是（）。

A、归纳学习拟合数据假设,分析学习拟合领域理论的假设

B、归纳学习论证方式为统计推理,分析学习为演绎推理

C、归纳学习不需要隐式的先验知识

D、训练数据不足时归纳学习可能会失败

答案：ABCD

36.常见的聚类性能度量外部指标有()。

A、Jaccard系数

B、DB指数

C、FM指数

D、以上答案都正确

答案：AC

37.数据增值存在于哪些过程中()。

A、数据对象的封装

B、数据系统的研发

C、数据的集成应用

D、基于数据的创新

答案：ABCD

38.下面是文件基本操作的函数()。

A、cIose

B、read

C\rename

D、remove

答案：ABCD

39.以下哪些方法是tf-idf的变种()o

A、TFC

B、EWC

C、ITC

D、IG

答案：AC

40.下列关于spark中的RDD描述正确的有()。

AsRDD(ResiIientDistributedDataset)叫做弹性分布式数据集，是spark中最基

本的数据抽象；

B、ResiIient:表示弹性的;

C\Destributed:分布式，可以并行在集群计算；

D\Dataset:就是一^集合，用于存放数据的；

答案：ABCD

41.Python的优点有()o

A、变量不用预定义类型

B、数据结构功能强大

C、语言可解释性强

D、变量类型固定

答案：ABC

42.K均值聚类和层次聚类在一些方面有重大差异。以下哪些说法是正确的()

A、在K均值聚类中,必须在运行算法前选定想要的簇的个数

B、在k均值聚类中，可以在运行算法后选定想要的簇的个数

C、在层次聚类中，可以在运行算法后选定想要的簇的个数

D、k均值聚类算法所需的计算量比层次聚类算法小得多

答案：ACD

43.影响聚类算法效果的主要原因有：（）

A、特征选取

B、模式相似性测度

C、分类准则

D、已知类别的样本质量

答案：ABC

44.直方图修正法包括0。

A、直方图统计

B、直方图均衡

C、直方图过滤

D、直方图规定化；

答案：BD

45.特征选择的目的：（）。

A、减少特征数量、降维

B、使模型泛化能力更强

C、增强模型拟合能力

D、减少过拟合。

答案：ABD

46.基于Boosting的集成学习代表算法有（）。

A、Adaboost

B、GBDT

C、XGBOOST

D、随机森林

答案：ABC

47.LSTM应用场景应用场景有哪些()

A、翻译语言

B、语音识别

C、图像识别

D、股票预测

答案：ABD

48.数据科学项目主要涉及的活动包括()。

A、模式/模型的应用及维护

B、模式/模型的洞见

C、结果的可视化与文档化

D、模式/模型的验证和优化

答案：ABCD

49.以下属于规则的分词方法的是0。

A、正向最大匹配法

B、逆向最大匹配法

C、双向最大匹配法

D、条件随机场

答案：ABC

50.Hadoop组件Flume三层架构包括()。

A、Agent

B\Gossip

C、ColIector

D\Storage

答案：ACD

51.以下属于关键词提取算法的有()。

A、TF-IDF算法

B、TextRank算法

C、LSA(潜在语义分析)

D、LDA

答案：ABCD

52.集成学习中多样性的增强有哪些()

A、数据样本扰动

B、输入属性扰动

C、输出表示扰动

D、算法参数扰动

答案：ABCD

53.下列哪些现象属于乘性噪声()。

A、电视光栅的退化

B、二值图像上的胡椒盐噪声

C、信道传输受扰

D、胶片材料的退化

答案：AD

54.在支持向量机中，参数的选取会影响拟合的结果,如果出现过拟合的现象,则

导致该结果的原因有可能是(_)。

A、其他参数保持不变,C值过大

B、其他参数保持不变，入值较少

C、其他参数保持不变，。较大

D、其他参数保持不变，。较小

答案：ABD

55.下列关于极大似然估计(MaximumLikeIihoodEstimate,MLE),说法正确的是(—

A、MLE可能并不存在

B、MLE总是存在

C、如果MLE存在,那么它的解可能不是唯一的

D、如果MLE存在，那么它的解一定是唯一的

答案：AC

56.常用的爬虫技巧有以下哪些0。

A、更改header,伪装成浏览器进行爬取

B、设置爬取的时间间隔

C、应用神经网络算法识别网站验证码

D、通过代理服务器进行爬取

答案：ABCD

57.下列哪些是词语情感分析的方法()。

A、基于网络的分析方法

B、基于word-embedding的分析方法

C、基于词典的分析方法

D、基于词频的分析方法

答案：AC

58.大数据的参考架构分为哪三个层次()

A、角色

B、活动

C、逻辑构件

D、功能组件

答案：ABD

59.从Hadoop实现角度看,HadoopMapReducel.0主要由()组成。

A、编程模型

B、数据处理引擎

C、运行时环境

D、算法库

答案：ABC

60.Spark有哪些缺陷()。

A、于内存的计算

B、持Schema信息

C、支持增量迭代计算

D、支持细粒度更新操作

答案：CD

61.在BP网络中，常用于缓解其过拟合的策略有0。

A、早停策略

B、正则化策略

C、全局最小策略

D、局部最小策略

答案：AB

62.数据可视化是利用计算机图形学和图像处理技术,将数据转换成()或()在屏

幕上显示出来，并进行交互处理的理论'方法和技术。

A、文字

B、图形

C、图像

D、视频

答案：BC

63.下列哪些是情感分析的应用场景()。

A、数据挖掘

B、信息检索

C、文本分词

D、市场营销

答案：ABD

64.常用的冲突消解策略有包括0。

A、投票法

B、排序法

G元规则法

D、调研法

答案：ABC

65.以下跟图像处理相关的是()。

A、图像识别

B、人脸识别

C、视频分析

D、nip

答案：ABCD

66.下列关于EM算法描述正确的是(_)。

A、EM算法是常用的估计参数隐变量的利器

B、EM算法即是期望最大化算法

C、EM算法常被用来学习高斯混合模型的参数

D、EM算法是一种迭代式的方法

答案：ABCD

67.在Python中，以下导入模块方式正确的是()。

A、import模块名

B、import模块名as模块的别名

C\from模块名import函数名

D\from模块名import函数名A,函数名B

答案：ABCD

68.下面是Numpy支持的统计函数有()。

A、min

B、max

C、median

D、mean

答案：ABCD

69.以下()函数是累积函数。

A、cumsum

B、argmin

Cvcumprod

Dvargmax

答案：AC

70,若b=np.array([True,FaIse,FaIse]),以下能输出[FaIseTrueTrue]的是()。

A、print(b-1)

B、print(~b)

C\print(np.logical_not(b))

D、print(>>b)

答案：BC

71.下列哪些是常用分词方法0。

A、基于Binarytree的分词方法

B、基于HMM的分词方法

C、基于CRF的分词方法

D\基于Kmeans的分词方法

答案：BC

72.线性模型的基本形式有0。

A、线性回归

B、对数几率回归（二分类问题）

C、线性判别分析（Fisher判别分析）

D、多分类学习

答案：ABCD

73.在网络爬虫的爬行策略中，应用最为常见的是0。

A、深度优先遍历策略

B、广度优先遍历策略

C、高度优先遍历策略

D、反向链接策略

E、大站优先策略

答案：AB

74.请问下面哪些是离散型变量（）。

A、示波器

B、心电图及脑动电图扫描器对脑电波的测量

C、过去数月的总销售额

D、公司每年的红利

答案：CD

75.分布式列式存储的功能有()。

A、支持在线快速读写

B、支持线性扩展

C、具备节点监控管理

D、数据同源不压缩

答案：ABC

76.数据从产生到终结共有()环节。

A、数据产生环节

B、数据传输环节

C、数据使用环节

D、数据共享环节

E、数据销毁环节

答案：ABCDE

77.关于HDFS的文件写入,正确的是()。

A、不支持多用户对同一文件的写操作；

B、用户不可以在文件任意位置进行修改；

C、默认将文件复制成三份存放；

D、复制的文件块默认不存在同一机架上；

答案：ABCD

78.下列哪些算法可以用来构造神经网络()。

A、kNN

B、线性回归

G逻辑回归

答案：BC

79.HIS表色系的三属性包含:Oo

A、色调

B、色饱和度

C、亮度

D、色度

答案：ABC

80.下列不属于聚类性能度量内部指标的是()。

A、DB指数

B、Dunn指数

C、Jaccard系数

D、FM系数

答案：CD

81.下面对LDA判别分析的思想描述正确的是()。

A、同类样例的投影点尽可能近

B、异类样例的投影点尽可能远

C、同类样例的投影点尽可能远

D、异类样例的投影点尽可能近

答案：AB

82.下列方法中，可以用于特征降维的方法包括()。

A、主成分分析PCA

B、线性判别分析LDA

G深度学习SparseAutoEncoder

D、矩阵奇异值分解SVD

答案：ABD

83.关于Dropout说法正确的是：(—)。

A、Dropout背后的思想其实就是把DNN当做一个集成模型来训练,之后取所有值

的平均值,而不只是训练单个DNN

B、DNN网络将Dropout率设置为p,也就是说,一个神经元被保留的概率是1-po

当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设

置为0

C、丢弃的神经元在训练阶段，对BP算法的前向和后向阶段都没有贡献。因为这

个原因,所以每一次训练,它都像是在训练一个新的网络

D\Dropout方法通常和L2正则化或者其他参数约束技术(比如MaxNorm)一起使

用，来防止神经网络的过拟合

答案：ABCD

84.下面属于范数规则化的作用的是()和()。

A、保证模型尽可能的简单，避免过拟合

B、约束模型特征

C、最小化问题

D、最大化问题

答案：AB

85.关于现阶段大数据技术体系,说法正确的是()。

A、基础设施提供数据计算'数据存储'数据加工(DataWrangling或DataMungi

ng)等服务

B、流处理、统计工具、日志分析都属于常用的开源工具

C、数据资源代表的是生成数据的机构

D、数据源与APP为数据科学和大数据产业生态系统提供数据内容

答案：ABCD

86.我们想要减少数据集中的特征数,即降维.选择以下适合的方案：0o

A、使用前向特征选择方法

B、使用后向特征排除方法

C、我们先把所有特征都使用，去训练一个模型,得到测试集上的表现.然后我们去

掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,

我们可以去除这个特征

D、查看相关性表，去除相关性最高的一些特征

答案：ABCD

87.以下说法正确的是()。

A、负梯度方向是使函数值下降最快的方向

B、当目标函数是凸函数时,梯度下降法的解是全局最优解

C、梯度下降法比牛顿法收敛速度快

D、拟牛顿法不需要计算Hesse矩阵

答案：ABD

88.下列哪种服务可以用于存储数据()。

A、MapReduce

B、YARN

C\HBase

D、HDFS

答案：CD

89.为什么RNN网络的激活函数要选用双曲正切而不是sigmod呢()

A、使用sigmod函数容易出现梯度消失

B、sigmod的导数形式较为复杂

C、双曲正切更简单

D、sigmoid函数实现较为复杂

答案：AB

90.Spark2.0提供的应用库包括()。

A、SparkSQL

B、SparkStreaming

C、MLib

D、GraphX

答案：ABCD

91.对于主成分分析方法，降维后低维空间的维数d可以通过0方法确定。

A、由用户事先指定

B、通过在d值不同的低维空间中对开销较小的学习器进行交叉验证来选取

C、可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值

D、随机设置

答案：ABC

92.下列哪个是Hadoop运行的模式0。

A、单机版

B、伪分布式

C、分布式

D、全分布式

答案：ABC

93.以下是正确的字符串（）。

A、（abc"ab"

B\'abc"ab'

C、“abc”ab”

D、“abc\"ab"

答案：BD

94.实时计算类应用主要通过。来实现。

A、流计算组件

B、内存计算组件

GMPP数据库

D、Hadoop的后台定时分析计算任务

答案：AB

95.Apriori算法的计算复杂度受（）影响。

A、支持度阀值

B、项数（维度）

C、事务数

D、事务平均宽度

答案：ABCD

96.下列属于CNN关键层的是(_)。

A、输入层

B、卷积层

C、激活层

D、池化层

答案：ABCD

97.关于神经元的叙述,哪些是正确的()

A、每个神经元可以有一个输入和一个输出

B、每个神经元可以有多个输入和一个输出

C、每个神经元可以有多个输入和多个输出

D、每个神经元可以有多个输出和一个输入

答案：ABCD

98.当我们构造线性模型时,我们注意变量间的相关性。在相关矩阵中搜索相关系

数时,如果我们发现3对变量的相关系数是(Vari和Var2,Var2和Var3,Var3和V

ar1)是-0.98,0.45,1.23.我们可以得出什么结论：()。

A、Vari和Var2是非常相关的

B、因为Va1r和Var2是非常相关的,我们可以去除其中一个

GVar3和Va门的1.23相关系数是不可能的

答案：ABC

99.在Python中，执行importdatetimeasdt语句后，如下时间或日期定义方式正

确的是0。

A、dt.datetime(2019,12,12,23,23,23)

B、dt.datetime(2019,0,0,23,23,23)

C\dt.datetime(2019,12,12,0)

D、dt.time(23,23,23)

答案：AC

100.Python中标识符的命名规则正确的是()。

A、只能以下划线或者A-Z/a-z中的字母开头

B、关键字不能作为标识符

C\Python标识符区分大小写

D、关键字不能作为标识符

答案：ABCD

101.以下四个选项中，()是Python关键字。

A、as

B\gIobaI

C、int

D、not

答案：ABD

102.下面对于超链接的说法,正确的是()。

A、语句<ahref="formhtml">FiIIOurForm</a>指向的是同一服务

器同一目录下的formhtml

B\语句<ahref="stuff/cathtml">Catalog</a>指向的是同一服

务器子目录stuff下的cathtml

G语句<ahref="/parenthtml">Parent</a>指向的是同一服务器

父目录下的parenthtml

D、语句&11;ahref="devbgorg"target="_bIank">BASD&11;/a>指向的

是内部的网站

答案：ABC

103.下面导入模块正确的是()。

A、importnumpy

B、importnumpyasnp

CvfrommatpIotIibimportpypIot

DvfrommatpIotIibimportpypIotasp11

答案：ABCD

104.哪些项不属于使用池化层相比于相同步长的卷积层的优势0

A、参数更少

B、可以获得更大下采样

G速度更快

D、有助于提升精度

答案：BCD

105.使用极大似然估计的前提条件有0。

A、数据服从某种已知的特定数据分布型

B、已经得到了一部分数据集

C、提前已知某先验概率

D、数据集各个属性相对独立

答案：AB

106.以下描述中正确的是()。

A、统计学是数据科学的理论基础之一

B、Python语言是统计学家发明的语言

C、机器学习是数据科学的理论基础之一

D、数据科学是统计学的一个分支领域(子学科)

答案：AC

107.关于数据产品研发,下列说法错误的是()。

A、从加工程度看，可以将数据分为一次数据、二次数据和三次数据

B、一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题

C、二次数据是对一次数据进行深度处理或分析后得到的“增值数据”

D、三次数据是对二次数据进行洞察与分析后得到的'可以直接用于决策支持的

“洞见数据”

答案：ABD

108.以下哪层是卷积神经网络的组成部分。

A、卷积层

B、中间层

C、池化层

D、全连接层

答案：ACD

109.做一个二分类预测问题,先设定阈值为0.5,概率大于等于0.5的样本归入正

例类(即1),小于0.5的样本归入反例类(即0)o然后,用阈值n(n>0.5)重新

划分样本到正例类和反例类,下面哪一种说法正确()。

A、增加阈值不会提高召回率

B、增加阈值会提高召回率

C、增加阈值不会降低查准率

D、增加阈值会降低查准率

答案：AC

110.在正则化公式中，入为正则化参数,关于人描述正确的是()。

A、若正则化参数人过大,可能会导致出现欠拟合现象

B、若入的值太大，则梯度下降可能不收敛

C、取一个合理的人值，可以更好的应用正则化

D、如果令人的值很大的话,为了使CostFunction尽可能的小，所有9的值(不包

括60)都会在一定程度上减小

答案：ABCD

111.下列说法中正确的是()。

A、云计算的主要特点是非常昂贵。

B、大数据是多源、异构、动态的复杂数据,即具有4V特征的数据

C、大数据是数据科学的研究对象之一

D、MapReduce是采用云计算这种新的计算模式研发出的具体工具软件(或算法)

答案：BCD

112.神经网络的拓扑结构可以分为()和随机型网络等。

A、前向型

B、后向型

C、反馈型

D、自组织竞争型

答案：ACD

113.空间域滤波是直接以图像中的像素操作为基础的滤波,空间滤波器有时也可

称为()。

A、空间掩模

B、核

C、模板

D、窗口

答案：ABCD

114.列式数据库(如BigTabIe和HBase)以表的形式存储数据,表结构包括()等元

素

A、行键

B、时间戳

G列簇

D、数据类型

答案：ABC

115.下面关于单样本t检验的说法,错误的是()。

A、当单样本t检验的自由度越来越大时,正态分布越来越趋向于t分布

B、单样本t检验适用于样本量比较多(n>30)的情况

c、t分布的不确定性比正态分布小，其原因是样本数量比较小

D、单样本t检验通常也被叫做学生t检验

答案：ABC

116.以下选项中，属于MapReduce特征的有()。

A、以主从结构的形式运行

B、容错机制的复杂性

C、任务备份机制的必要性

D、数据存储位置固定

答案：ABC

117.鉴别了多元共线特征。那么下一步可能的操作是什么0

A、移除两个共线变量

B、不移除两个变量,而是移除一个

C、移除相关变量可能会导致信息损失,可以使用带罚项的回归模型(如ridge或

Iassoregression)

答案：BC

118.关于Python语言的特点，以下选项描述不正确的是()。

A、Python语言不支持面向对象

B、Python语言是解释型语言

C\Python语言是编译型语言

D、Python语言是非跨平台语言

答案：ACD

119.Numpy数组中将一个数组分割成多个小数组数组分割函数包括0。

A、hspIit

B、vspIit

C、split

D\dspIit

答案：ABCD

120.以下关于数据维度的描述,正确的是0。

A、采用列表表示一维数据，不同数据类型的元素是可以的

B、JSON格式可以表示比二维数据还复杂的高维数据

C、二维数据可以看成是一维数据的组合形式

D、字典不可以表示二维以上的高维数据

答案：ABC

121.下列哪些项属于传统循环神经网络的性质()

A、上一时刻的网络状态信息将会作用于下一时刻的网络状态

B、并行处理序列中所有信息

C、容易梯度爆炸/消失

D、易于搭建

答案：AC

122.关于总体和样本的说法,正确的是：

A、总体也就是研究对象的全体

B、如果总体是某一条生产线上生产的全部产品,那么样本可以是每间隔10秒抽

取的产品

C、样本是从总体的随机抽样

D、如果总体是某一小学的1000名学生,那么样本可以是一年级的100名学生

答案：ABC

123.下面是python标准库的是0□

A、os

B、sys

C、numpy

Dvre

答案：ABD

124.数据可视化涉及到()等多个领域,成为研究数据表示、数据处理、决策分析

等一系列问题的综合技术。

A、计算机图形学

B、图像处理

C、计算机视觉

D、计算机辅助设计

答案：ABCD

125.Client端上传文件的时候下列哪项正确()。

A、数据经过NameNode传递给DataNode

B\Client端将文件切分为Block,依次上传

C、CIient只上传数据到一台DataNode,然后由NameNode负责BIock复制

D、Client如果上传的时候没有上传成功指定的副本数，则整次上传不成功

答案：BD

126.ApacheFIume主要解决的是日志数据的收集和处理问题。Flume的主要设计

目的和特征是0。

A、高可靠性

B、可拓展

C、管理复杂

D、不支持用户自定义

答案：AB

127.下列场景适合使用Python的是()。

A、可作为脚本语言,快速编写小型程序,脚本等

B、可应用在数据科学、交互式计算及可视化领域

C、可作为胶水语言,整合如C++等语言代码

D、Python适用于低延时'高利用率的应用场景

答案：ABC

128.下列关于PCA说法正确的是0。

A、在使用PCA之前,我们必须标准化数据

B、应该选择具有最大方差的主成分

C、应该选择具有最小方差的主成分

D、可以使用PCA在低维空间中可视化数据

答案：ABD

129.

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2023年大数据应用技能竞赛全题库-下（多选、判断题）

文档简介

温馨提示

最新文档

评论

2023年大数据应用技能竞赛全题库-下（多选、判断题）

文档简介

温馨提示

最新文档

评论

相关文档