大数据分析与处理（5期）学习通超星课后章节答案期末考试题库2023年

上传人：题*** IP属地：浙江上传时间：2023-08-05 格式：DOCX 页数：43 大小：22.02KB 积分：9.6 举报 版权申诉

已阅读5页，还剩38页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据分析与处理（5期）学习通超星课后章节答案期末考试题库2023年“互联网+”将依靠创新驱动，推动经济结构优化，向产业服务化方向调整。

参考答案:

对

“互联网+”行动计划重点是促进以（）为代表的新一代信息技术与现代制造业、生产性服务等的融合创新。

参考答案:

云计算物联网大数据

（）?就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构。

参考答案:

主成分分析

（）可以实现数据的共享和透明访问。

参考答案:

异构数据库

（）是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。

参考答案:

组平均

（）是对某个变量不同取值的数量进行统计，以了解变量的取值情况，把握数据的分布特征。

参考答案:

频率分析

（）的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。

参考答案:

数据归约

（）适用于多维数据，且每个维度必须可以排序。

参考答案:

雷达图

Apriori算法的加速过程依赖于以下哪个策略（）。

参考答案:

剪枝

BP网络学习过程的四个部分（）

参考答案:

输入模式顺传播输出误差逆传播循环记忆训练学习结果判别

CHAID建模节点生成模型。在建模节点的字段选项卡中，已选中使用预定义角色，这意味着（）

参考答案:

将使用在类型节点中指定的目标字段和输入字段

DataFrame和RDD最大的区别（）

参考答案:

多了schema

execute方法负责接收一个元组作为输入，并且使用OutputCollector对象发送新的元组。

参考答案:

对

FP-growth关联规则挖掘算法不用生成候选集。

参考答案:

对

Hadoop支持数据的随机读写。

参考答案:

错

Hadoop?集群可以运行在（）3个模式。

参考答案:

单机模式伪分布式模式完全分布式模式

Hadoop的三种运行模式是（）

参考答案:

单机版伪分布式分布式

HBase依靠_____存储底层数据。

参考答案:

HDFS

HBase可以有列，可以没有列族。

参考答案:

错

HBase对于空（）的列，不需要占用存储空间。

参考答案:

错

HBase的Region组成中，必须要有（）。

参考答案:

MemStore

HBase的主要技术特点有（）

参考答案:

列式存储表数据是稀疏的多维映射表读写的严格一致性提供很高的数据读写速度

HDFS框架中的两类节点是（）

参考答案:

NameNodeDataNode

HDFS默认BlockSize的大小是（）

参考答案:

64MB

ID3算法在分类树构建中，使用哪个度量来进行分类节点（）

参考答案:

信息增益

K均值可以很好的处理不同密度的数据。

参考答案:

错

LSM-Tree的含义是（）。

参考答案:

日志结构合并树

MapReduce与HBase的关系，描述正确的有（）

参考答案:

两者不是强关联关系,没有MapReduce,HBase可以正常运行MapReduce可以直接访问HBase

Mapreduce适用于（）

参考答案:

可以并行处理的应用程序

PageRank是一个函数,它对Web中的每个网页赋予一个实数值，它的意图在于网页的PageRank越高,那么它就（）

参考答案:

越重要

SparkJob默认的调度模式（）

参考答案:

FIFO

SparkStreaming是SparkCoreAPI的扩展，它支持（）实时数据流的处理。

参考答案:

弹性的高吞吐的容错的

Spark支持的分布式部署方式中哪个是错误的（）

参考答案:

Sparkonlocal

SPSSModeler只需运行一次即可测试多种建模方法、比较结果并选择要部署的模型。

参考答案:

对

SPSSModeler提供多种机器学习技术，包括分类、分段和关联算法。

参考答案:

对

SPSSModeler通过分析非结构化文本数据捕获关键概念、主题、观点和趋势。

参考答案:

对

SPSSModeler变量状态有（）

参考答案:

实例化非实例化半实例化

SPSSModeler可帮助我们（）

参考答案:

充分利用基于开源的创新,包括R或Python支持拥有不同技能(编程和可视化)的数据研究员开发混合方法—在本地、公共云或私有云中从小规模开始,扩展至企业级监管方法

SPSSStatistics的主要功能（）

参考答案:

以上全是

SPSSStatistics进行数据分析的基本步骤顺序是（）1数据预处理2数据读入3选择合适的算法分析数据4查看并输出结果

参考答案:

2134

SPSS支持哪些数据源（）

参考答案:

Excel关系型数据库Hadoop的数据IBMPlanningAnalytics

SPSS的数据文件后缀名是（）

参考答案:

.sav

Storm的拓扑是对实时计算应用逻辑的封装。

参考答案:

对

Storm的JavaAPI支持的两种自定义组件配置信息的方式是（）

参考答案:

内置型外置型

Streamgrouping除了随机分组和字段分组还有（）

参考答案:

全部分组(Allgrouping)全局分组(Globalgrouping)无分组(Nonegrouping)直接分组(Directgrouping)

Trident的核心数据模型是“流”（），它与普通的拓扑相同。

参考答案:

错

T检验的使用前提不包括（）

参考答案:

离散变量

Y=ax^2+bx+c（）这个方程可以用具有线性阈值的单个隐层的神经网络表示。

参考答案:

错

一个数据流指的是在分布式环境中并行创建、处理的一组元组（）的无界序列。

参考答案:

对

一个项集满足最小支持度，我们称之为（）

参考答案:

频繁项集

一般来说，检验P值低于（），就认为差异效果是明显的，反之则认为差异效果不显著。

参考答案:

一般来说，检验P值低于（），就认为差异效果是明显的，反之则认为差异效果不显著。

参考答案:

下列（）是属于分裂层次聚类的方法。

参考答案:

MST

下列一般不用于可视化时间空间数据技术的是（）

参考答案:

饼图

下列关于层次聚类存在的问题说法正确的是（）

参考答案:

GroupAverage擅长处理球状的簇

下列变量中，属于负相关的是（）

参考答案:

价格下降,消费增加

下列变量之间的关系是函数关系的是（）

参考答案:

已知二次函数y=ax^2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数的判别式⊿=b^24ac

下列哪一种操作实现了和神经网络中Dropout类似的效果？（）

参考答案:

Bagging

下列哪一种架构有反馈连接？（）

参考答案:

循环神经网络

下列哪些神经网络结构会发生权重共享？（）

参考答案:

卷积神经网络循环神经网络

下列哪哪一项在神经网络中引入了非线性？（）

参考答案:

修正线性单元(ReLU)

下列哪项关于模型能力（）的描述是正确的？（指模型能近似复杂函数的能力）（）

参考答案:

隐层层数增加,模型能力增加

下列属于不同的有序数据的有（）

参考答案:

时序数据序列数据

下列属于线性的降维方法有（）

参考答案:

PCALDA

下列系统中，属于开源系统的是

参考答案:

HDFS文件系统HBase数据管理模块

下面不属于数据的属性类型的是（）

参考答案:

法律的客观中立性

下面哪一个选项不是SPSS中定义的基本描述统计量（）

参考答案:

回归函数

下面哪个不是RDD的特点（）

参考答案:

可修改

下面哪个操作是窄依赖（）

参考答案:

filter

下面哪个操作肯定是宽依赖（）

参考答案:

reduceByKey

下面哪个端口不是spark自带服务的端口（）

参考答案:

8090

下面哪些属于可视化高维数据技术（）

参考答案:

矩阵平行坐标系星形坐标Chernoff脸

下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?（）

参考答案:

数据清理

下面对HBase的描述哪些是正确的？（）

参考答案:

是面向列的是分布式的是一种NoSQL数据库

下面对LSM结构描述正确的有（）

参考答案:

顺序存储需要将数据Flush到磁盘

下面属于BP的优点的是（）

参考答案:

自学习和自适应能力泛化能力容错能力非线性映射能力

下面属于BP的缺点的是（）

参考答案:

BP神经网络算法的收敛速度慢BP神经网络结果选择不一

下面属于映射数据到新的空间的方法是（）

参考答案:

傅立叶变换

下面程序负责HDFS数据存储的是（）

参考答案:

Datanode

与开源云计算系统HadoopHDFS相对应的商用云计算软件系统是（）

参考答案:

GoogleGFS

为了便于得到相对准确的模型误差估计，将全部样本随机划分成两个子集，即（）

参考答案:

训练集测试集

云架构包含以下哪些？（）

参考答案:

基础设施层应用层平台层

云计算体系结构的（）负责资源管理、任务管理用户管理和安全管理等工作

参考答案:

管理中间件层

云计算可以把普通的服务器或者PC连接起来以获得超级计算机的计算和存储等功能，但是成本更低。

参考答案:

对

云计算就是把计算资源都放到()上。

参考答案:

因特网

云计算的中间层是（）

参考答案:

PaaS层

云计算的基础层是（）

参考答案:

IaaS层

互联网数据提供丰富的，分布式的世界范围的联机信息。但这些信息是非结构化的，计算机难以理解这种语义，因此需要对这些数据进行结构化的统一处理。

参考答案:

对

五数概括用（）进行可视化

参考答案:

盒图

人工神经网络可以看做由哪三种基本元素组成（）

参考答案:

一个加法器一个连接一个激励函数

人工神经网络是模拟（）进行信息处理的一种数学模型。

参考答案:

生物神经网络

人工神经网络的基本特征有（）

参考答案:

非局限性非凸性非线性非常定性

什么情况下神经网络模型被称为深度学习模型？（）

参考答案:

加入更多层,使神经网络的深度增加

从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。

参考答案:

错

从研究现状上看，下面属于云计算特点的是（）

参考答案:

超大规模虚拟化高可靠性

以下不属于数据挖掘软件的是（）

参考答案:

ApacheSpark

以下不是分类问题的是（）

参考答案:

身高和体重关系

以下关于神经网络说法正确的有（）

参考答案:

神经网络可以实现非线性分类神经网络可以实现线性分类

以下对对象的定性描述的有（）

参考答案:

标称属性二元属性序数属性

以下属于关联分析的是（）

参考答案:

购物篮分析

以下属于聚类算法的有（）

参考答案:

KMeansDBSCAN

借助IBMSPSSModeler，企业可以满足客户需求，构建正确的产品并调整业务需求，同时缩短从构思到实验再到生产所需的时间。

参考答案:

对

假设你需要改变参数来最小化代价函数（），可以使用下列哪项技术？（）

参考答案:

以上任意一种

全链对噪声点和离群点很敏感。

参考答案:

错

关于广播变量，下面哪个是错误的（）

参考答案:

存储在磁盘或HDFS

关于正态分布,下列说法错误的是（）

参考答案:

正态分布的偏度为0,峰度为1

关于经济计量模型进行预测出现误差的原因，正确的说法是（）

参考答案:

既有随机因素,又有系统因素

关联分析中表示关联关系的方法主要有哪两种（）

参考答案:

项集关联规则

关联规则挖掘的算法主要有哪两种（）

参考答案:

AprioriFPGrowth

关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

参考答案:

错

决策树中不包含一下哪种结点（）

参考答案:

外部结点(externalnode)

决策树中不包含以下哪种结点（）

参考答案:

外部结点（externalnode)

决策树容易转换成（）

参考答案:

分类规则

分类作为一个两步过程的一般方法。在第二步，我们确定该模型的（

）是否可以接受，如果可以，我们就使用该模型对新的数据进行分类

参考答案:

准确率

分类作为一个两步过程的一般方法。在第二步，我们确定该模型的（）是否可以接受，如果可以，我们就使用该模型对新的数据进行分类

参考答案:

准确率

分类的目的是找到每个样本特征到类别的对应法则。

参考答案:

对

利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集，在候选2-项集中需要剪枝的是（）。ID项集：1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐

参考答案:

啤酒、面包啤酒、牛奶

利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

参考答案:

对

单个神经元的动作特征是（）

参考答案:

以上都是

单机串行处理1G大小的URL数据需要10分钟，Hadoop平台并行处理只需要1分钟，那么加速比为（）

参考答案:

卷积神经网络可以对一个输入完成不同种类的变换（）。

参考答案:

错

变量之间的关系可以分为两大类（）

参考答案:

函数关系与相关关系

可以用神经网络对函数(y=1/x)建模。

参考答案:

对

可视分析的运行过程可看做是(?)的循环过程

参考答案:

数据–>知识–>数据

可视化技术支持计算机辅助数据认知的三个基本阶段（）

参考答案:

数据记录和表达数据操作数据分析

哪些是大数据分析处理评测方法关于效率方面的量度？

参考答案:

时间复杂度空间复杂度吞吐率加速比

回归分析中按照自变量和因变量的关系类型可以分为（）

参考答案:

线性回归分析非线性回归分析

回归分析法即将具有相关关系的两个变量之间的数量关系进行测定，通过建立一个数学表达式进行统计估计和预测的研究。

参考答案:

对

回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。

参考答案:

错

在Bigtable中（）主要用来存储子表数据以及一些日志文件

参考答案:

GFS

在SPSS中,下面哪一个不是SPSSStatistics的主要窗口（）

参考答案:

命令输入窗口

在SPSS中,当需要选取出满足某一个条件的所有个案,则使用下面的那一项（）

参考答案:

个案选择

在SPSS数据文件中,下面那一项不属于数据的结构（）

参考答案:

数据值

在SPSS的基本分析模块中，其作为“以行列表的形式揭示数据之间的关系”的是（）

参考答案:

交叉表

在SPSS的定义中,下面哪一个变量名的定义是错误的（）

参考答案:

A_&_A

在SPSS的数据结构中,下面那一项不是“缺失数据”的定义（）

参考答案:

数据不是科学计数法

在一个神经网络里，知道每一个神经元的权重和偏差是最重要的一步。如果以某种方法知道了神经元准确的权重和偏差，你就可以近似任何函数。实现这个最佳的办法是（）

参考答案:

赋予一个初始值,通过检查跟最佳值的差值,然后迭代更新权重

在以下4个散点图中，其中适用于作为线性回归的散点图为（）

参考答案:

1,3

在基本K均值算法里，当邻近度函数采用（）的时候，合适的质心是簇中各点的中位数。

参考答案:

曼哈顿距离

在多元线性回归中，t检验和F检验缺一不可。

参考答案:

对

在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于1，则表明模型中存在（）

参考答案:

多重共线性

在学生的一张数据表中,有平时分数、实验分数和卷面分数,如使用SPSS计算最终得分,则需要使用SPSS预处理中的（）

参考答案:

变量计算

在数据中插入变量的操作要用到的菜单是（）

参考答案:

InsertVariable

在由n=30的一组样本估计的、包含3个解释变量的线性回归模型中，计算的多重决定系数为0.8500，则调整后的多重决定系数为（）

参考答案:

0.8327

在监督学习任务中，输出层中的神经元的数量应该与类的数量（）匹配。

参考答案:

错

在神经网络中，以下哪种技术用于解决过拟合？（）

参考答案:

Dropout正则化

在统计分析中,描述变量的数据离散程度的基本统计量是（）

参考答案:

标准差

在进行数据挖掘时，存储顾客的一次购物或者顾客的一个航班订票流程，通常采用以下哪种库最方便进行处理？

参考答案:

事务数据库

增大卷积核的大小必然会提高卷积神经网络的性能。

参考答案:

错

多元线性回归中，可决系数R^2是评价模型拟合优度好坏的最佳标准。

参考答案:

错

大数据催生的三元空间世界包括（）

参考答案:

物理空间社会空间数据空间

大数据催生的三元空间世界包括（）

参考答案:

物理空间社会空间数据空间

大数据具有哪些特征（）

参考答案:

多样化价值密度低大量化快速化

大数据分析处理在效果方面的评测方法为：（）

参考答案:

准确率召回率F值

大数据处理的5V特点分别是（）和Value。

参考答案:

VolumeVelocityVarietyVeracity

大数据的主要特征表现为（）

参考答案:

商业价值高数据类型多处理速度快数据容量大

如果增加多层感知机（）的隐层层数，测试集的分类错误会减小。

参考答案:

错

如果要对数据进行分析和挖掘信息和知识，首先需要将描述的数据特征完整地表示出来。

参考答案:

对

孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。

参考答案:

错

学习过程由信号的正向传播与误差的反向传播两个过程组成，由于多层前馈网络的训练经常采用误差反向传播算法，因此人们将多层前馈网络称为（）

参考答案:

对于（）的分析往往需要将特殊的数据预处理方法与分析处理算法集成在一起进行考虑。

参考答案:

多媒体数据库

对于SPSS来说,下面那一项不包括在变量的频数分布内容中（）

参考答案:

均值

对于SPSS来说,能够快捷找到变量数据的异常值的数据预处理方法是（）

参考答案:

排序

对于回归分析，下列说法错误的是（）

参考答案:

样本相关系数r在区间(1,1)

对于非对称得属性，只有非零值才是重要的。

参考答案:

对

属性包括的四种类型标称和（）

参考答案:

序数区间比率

属性的性质不必与用来度量他的值得性质相同。

参考答案:

对

工业4.0?通过自主控制、互联网和计算，使人、机器和信息相互连接，融为一体，包括：（）

参考答案:

智能工厂智能生产智能物流

常用的高维数据可视化的数据变换的线性方法有（）

参考答案:

主成分分析(PCA)多维尺度分析(MDS)非负矩阵分解(NMF)

常用的高维数据可视化的数据变换的非线性方法有（）

参考答案:

ISOMAP局部线性嵌套(LLE)

常见的剪枝方法有（）

参考答案:

先剪枝后剪枝

常见的距离度量方法包括（）

参考答案:

欧氏距离汉明距离曼哈顿距离切比雪夫距离

度量倾斜数据集最好的度量方式是（）

参考答案:

中位数

度量数据的中心趋势包括（）

参考答案:

算术均值加权均值截断均值中位数众数中列数

度量数据的离中趋势包括（）

参考答案:

方差极差百分位数

当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（）

参考答案:

聚类

当在一个决策树中划分一个节点时，以下关于“信息增益”的论述正确的是（）

参考答案:

信息增益可以通过熵来推导。信息增益偏向于选择大量值的属性。

当在卷积神经网络中添加池化层(poolinglayer)时，变换的不变性保持稳定，这样的理解是否正确？

参考答案:

对

当对一个事物认知是确定的，这时对应的熵值最大。

参考答案:

错

当给定新的训练数据时，这些算法重构从先前训练数据学习得到的决策树，或从头开始学习一棵新树。

参考答案:

错

当预定义的阈值过高时，会导致（）

参考答案:

树过分简化

我们想在大数据集上训练决策树，为了使用较少时间，可以（）

参考答案:

减少树的深度

数据中的知识发现由以下步骤迭代序列组成是数据清理、数据集成、数据选择和（）。

参考答案:

数据变换数据挖掘模式评估知识表示

数据分析原则：“如无必要，勿增实体”，即“简单有效原理”。

参考答案:

对

数据分类是一个两阶段过程，包括（）和分类阶段。

参考答案:

学习阶段

数据可视化可分为哪三类（）

参考答案:

科学可视化信息可视化可视分析学

数据可视化的5个基本特征：易懂性、专业性和（）

参考答案:

必然性多维性片面性

数据可视化的流程包括（）

参考答案:

问题刻画层:概括现实生活中用户遇到的问题抽象层:抽象相应数据类型的操作编码层:设计编码和交互方法实现层:实现算法和交互

数据归约的目的是（）

参考答案:

得到数据集的压缩表示

数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。

参考答案:

对

数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及（）等方面。

参考答案:

挖掘频繁模式分类和预测聚类分析偏差分析

数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了（）数据挖掘方法。

参考答案:

关联规则分析

数据挖掘的预测建模任务主要包括哪几大类问题？（）

参考答案:

分类回归

数据清理技术的主要目的包括（）

参考答案:

试图填充缺失的值光滑噪声并识别离群点纠正数据的不一致

数据的横向合并的联接方式包括（）

参考答案:

内连接全外连接局部外连接反连接

数据精简包括（）

参考答案:

从压缩样本入手从压缩变量取值入手从压缩变量个数入手

数据预处理方法包括（）

参考答案:

数据清理数据变换数据归约

有些关联规则可信度虽然很高，但支持度却很低，但并不能说明该关联规则使用的机会很小。

参考答案:

对

某超市研究销售记录数据后发现，买啤酒的人很大概率也会购买尿不湿，这种属于数据挖掘的哪一类问题？（）

参考答案:

关联规则发现

树是否是严格的二叉树由属性选择度量确定。

参考答案:

对

根据信息增益来构造决策树的算法是（）

参考答案:

ID3决策树

根据链接的拓扑结构，神经网络模型可以分为哪两种？（）

参考答案:

前向网络反馈网络

每个map槽就是一个线程。

参考答案:

错

流式大数据处理的三种框架（）

参考答案:

StromSparkSamza

物联网与互联网不同，不需要考虑网络数据安全。

参考答案:

错

由频繁项集产生的强关联规则必须满足（）。

参考答案:

最小支持度最小置信度和最小相关度

直线回归系数假设检验，其自由度为（）

参考答案:

相似度矩阵可以用相似度表示还可以用（）表示。

参考答案:

距离

神经网络发展大致经历过（）个阶段

参考答案:

神经网络基本结构（）

参考答案:

神经元

神经网络是一种运算模型，由大量的节点（）之间相

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据分析与处理（5期）学习通超星课后章节答案期末考试题库2023年

文档简介

温馨提示

最新文档

评论

大数据分析与处理（5期）学习通超星课后章节答案期末考试题库2023年

文档简介

温馨提示

最新文档

评论

相关文档